Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Dropping words when trying with Telugu language #673

Open
harinath141 opened this issue Jan 22, 2017 · 13 comments
Open

Dropping words when trying with Telugu language #673

harinath141 opened this issue Jan 22, 2017 · 13 comments

Comments

@harinath141
Copy link

I tried to test with 4.0 with Telugu language and observed many words are dropping in between I given a 300 DPI PNG file.is this a known issue ? If solved how can I solve this??

@Shreeshrii
Copy link
Collaborator

Please provide a sample image.

What 'page segmentation mode' did you use?

Try with --psm 3 and --oem 1, also with --oem 0, --oem 2 to see if there is any difference.

@harinath141
Copy link
Author

Hi @Shreeshrii
I tried with --psm 3 and --oem 2 now its fine ...Need more testing on other images... I'll close the issue once testing is passed.

@harinath141
Copy link
Author

hi @Shreeshrii
can u please guide me to ocr attached telugu tif (converted to jpg to upload in github).
Problem is with formatting....
I tried different psm but no luck...
praasa

@Shreeshrii
Copy link
Collaborator

Shreeshrii commented Jan 24, 2017 via email

@harinath141
Copy link
Author

Yeah @Shreeshrii it works with homage GUI but in command line not working

@Shreeshrii
Copy link
Collaborator

try with

--psm 11 --oem 1 -l tel

and

--psm 6 --oem 1 -l tel

@harinath141
Copy link
Author

@Shreeshrii
Even many words dropping,
It may b the problem with word segmentation..

@amitdo
Copy link
Collaborator

amitdo commented Feb 24, 2018

@harinath141,

Please try with the latest commit from the master branch.

@amitdo
Copy link
Collaborator

amitdo commented Oct 15, 2018

@Shreeshrii,

Was this fixed with my patch? Can we close it?

@Shreeshrii
Copy link
Collaborator

Shreeshrii commented Oct 18, 2018

OMP_THREAD_LIMIT=1 tesseract $my_file  "$lang/${my_file%.*}-$oem-$psm-$traineddata" \
--oem $oem --psm $psm -l $lang \
--tessdata-dir ../$traineddata \
-c page_separator="" \
-c preserve_interword_spaces=1

@amitdo This seems to be a different problem.

As far as I can tell, words are being dropped with default mode of --psm 3 (not with --psm 6).

I ran current version of tesseract vs the one from Jan2018. The output from both is same.

However, with --psm 3 many words are being dropped and = sign is being recognized as ||. (I think there is code for rotating the boxes during recognition).

@harinath141 Please review the attached output and provide any additional feedback.

tel-columns-1-3-tessdata_best-2018Jan.txt
tel-columns-1-6-tessdata_fast.txt
tel-columns-1-3-tessdata_fast.txt
tel-columns-1-6-tessdata_best.txt
tel-columns-1-3-tessdata_best.txt
tel-columns-1-6-tessdata_fast-2018Jan.txt
tel-columns-1-3-tessdata_fast-2018Jan.txt
tel-columns-1-6-tessdata_best-2018Jan.txt

@amitdo
Copy link
Collaborator

amitdo commented Oct 18, 2018

Thanks,

Does it drop entire lines or just a few words in some lines?

@harinath141
Copy link
Author

@Shreeshrii

Sure i will review it asap.

@Shreeshrii
Copy link
Collaborator

@amitdo See output below. --psm 3 treats it as 6 different columns so it is only single words.

tesseract 4.0.0-rc3-20-g9c2d
leptonica-1.76.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.3.0

***** ./tel-columns.jpg LANG tel TESSDATA tessdata_best OEM 1 PSM 6 ****
పింగము = గోరోచన వర్ణము బంగారము = పసిడి
చింగము = ఆధభ్రకము భృంగారము = బంగారము
లింగము = శివలింగము శృంగారము = అలంకారము
సింగము = కేసరి ఇంగలము = నిప్పు
కంగరు = నిచ్చెన పింగలము = ఇత్తడి టం
బంగరు = స్వర్ణము సింగలము = లంకాద్వీసము
రంగరు = చెలు/గొందు ఉంగరము = బటువు
లంగరు = ళీన్సు డింగరము = పరాభవము
కాంగాణి = పనికిరానిది పొంగరము = ఒకభక్ష్యము
పింగాణీ = ఒకదినుసుమట్టి బొంగరము = ఒక ఆటవస్తువు
సింగాణి = కొమ్మువిల్లు కంగాళము = పెద్దవంటగిన్నె
గొంగలి = ఇఒకపురుగు గంగాళము = బాన
తొంగలి. = కాంతి జంగాళము = వదులు
పాంగలి = పాయసాన్నము బంగాళము = పక్షివిశేషము
చెంగలి = దగ్గటి జంగలము = అడవి
వెంగలి = మొజికు మంగలము = మండ
చింగిళ్లు = పింజెలు జాంగలము = మాంసము
డింగిళ్లు = (యమొక్కుటలు లాంగలము = నా6గలి
తొంగిళ్లు = పాతబట్టలు టంగరము = వెలిగారము
దొంగిళ్లు = కంటిజబ్బు బంగరము = బంగారము ఆ
అంగణము = ముంగిలి సంగరము = యుద్ధము ఆ
టంగణము = వెలిగారము డంగురము = వీరణము
ఇంగనము = కదలిక భంగురము = నశించునది
లింగనము = కౌగిలింత వంగడము = వంశము
అంగారము = నిప్పు సంగడము = కలయిక
Tesseract Open Source OCR Engine v4.0.0-rc3-20-g9c2d with Leptonica

***** ./tel-columns.jpg LANG tel TESSDATA tessdata_best OEM 1 PSM 3 ****
పింగము
బింగము
లింగము
సింగము
కంగరు
బంగరు
రంగరు
అంగరు
కాంగాణీ
పింగాణి
సింగాణి
గొంగలి
తొంగలి.
పొంగలి
చెంగలి
వెంగలి
చింగిళ్లు
డింగిళ్లు
తొంగిళ్లు
దొంగిళ్లు
అంగణము
టంగణము
ఇంగనము
లింగనము
అంగారము

॥|

గోరోచన వర్ణము
ఆ(భ్రకము
శివలింగము
కేసరి

నిచ్చెన
స్వర్ణము
వెలు(/గొందు
జీను
పనికిరానిది
ఒకదినుసుమ
కొమ్మువిల్లు
ఒకపురుగు
కాంతి

86

పాయసాన్నము -

దగ్గజి
మొటజికు
పింజెలు
మొక్కుటలు
పాఠతబట్టలు
కంటిజబ్బు
ముంగిలి
వెలిగారము
కదలిక
కౌగిలింత
నిప్పు

బంగారము
భృంగారము
శృంగారము
ఇంగలము
పింగలము
సింగలము
ఉంగరము
డింగరము
పాంగరము
బొంగరము
కంగాళము
గంగాళము
జంగాళము
బంగాళము
జంగలము
మంగలము
జాంగలము
లాంగలము
టంగరము
బంగరము
సంగరము
డంగురము
భంగురము
వంగడము
సంగడము

||

||

[|

| 1 | | ॥ ॥

|

|

||

పసి6డి
బంగారము
అలంకారము
నిప్పు
ఇత్తడి
లంకాద్వీసము
బటువు
పరాభవము
ఒకభక్ష్యము
ఒక ఆటవస్తువు
పెద్దవంటగిన్నె

బాన

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants