Is it possible to change the langauge (default detection) for tika?
I am trying to use a pdf file in tamil. (language code 'ta'). But tika is detecting it as 'th' (thai). Though most characters are recognized well, it not defecting few chars.
see example below, where some 'o' is appearing in between text.
ஓவச - அக் ைரும்பாகலைளில் ைருப்பஞ்ொறு பாய்வதால் எழுகின்ற ஓகெயும்; வவவலச் சங்கின் வாய்ப் கபாங்கும் ஓவச - நீர்க் ைகரைளில் உள்ள ெங்குைளிடமிருந்து
from tika import language
print(language.from_file(u'pdf/KambaRamayanam1.pdf' ))
result is 'th'. expected is 'ta'