unable to extract text using tika in sagemaker, what is the reason for this?

18 Views Asked by sky At 28 July 2025 at 08:33

code I've used:

from tika import parser
headers = {
'X-Tika-PDFextractInlineImages': 'true',
}
text = parser.from_file("pdffiles/BG1309020268.pdf",headers=headers)
print(text)
text = parser.from_buffer("pdffiles/BG1307018880.pdf")
text_content=text.get('content')
print(text_content)

working perfectly locally, but when I execute this in sagemaker studio getting result as None.

There are 0 best solutions below