-
Notifications
You must be signed in to change notification settings - Fork 9.7k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Dropping words when trying with Telugu language #673
Comments
Please provide a sample image. What 'page segmentation mode' did you use? Try with --psm 3 and --oem 1, also with --oem 0, --oem 2 to see if there is any difference. |
Hi @Shreeshrii |
hi @Shreeshrii |
I used gimagereader as gui interface for tesseract and tried OCR in
different modes:
by selecting each column separately 4x1,
as two big columns 2x2 and
then as a single column 1x4,
plus as uniform block of text -
the results are attached.
see https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM for links
for gimagereader
ShreeDevi
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com
On Tue, Jan 24, 2017 at 6:55 PM, Harinath ***@***.***> wrote:
hi @Shreeshrii <https://github.com/Shreeshrii>
can u please guide me to ocr attached telugu tif (converted to jpg to
upload in github).
Problem is with formatting....
I tried different psm but no luck...
[image: praasa]
<https://cloud.githubusercontent.com/assets/17981729/22248819/6c287b50-e266-11e6-9785-7f5c7ef1a7c7.jpg>
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#673 (comment)>,
or mute the thread
<https://github.com/notifications/unsubscribe-auth/AE2_ow7P7LqNv2h6-ORO6eH0qLbByHPCks5rVfuzgaJpZM4LqUYA>
.
పింగము _ = గోరోచన వర్ణము బంగారము = పసిడి
బింగము _ = _ ఆభ్రకము = బంగారము
ప శృంగారము = అలలకారమ్రు
మ్ ఇంగలము = నిష్టు
కంగరు మ పింగలము = ఇత్తడి ,
బంగరు = స్వర్ణము సింగలము = లంకాద్వీసము
రంగరు = _ వెలుగొందు ఉంగరము = బటువు
లంగరు మ డింగరము = పరాభవము
కాంగాణి = _ పనికిరానిది పాంగరము = ఒ కభక్ష్యము
గ = ఒకదినుసుమట్టి బొంగరము = ఒక ఆటవస్తువు
సింగాణీ = కొమ్మువిల్లు కంగాళము = పెద్దవంటగిన్నె
గొంగలి = _ ఒకపురుగు గంగాళము = బాన
తొంగలి = _ కాంతి జంగాళము = వదులు
పొంగలి మ బంగాళము = పక్షివిశేషము
చెంగలి మ జంగలము = అడవి
మ మంగలము = మండ
చింగిట్లు = - పింజెలు జాంగలము = మాంసము
డింగిళ్లు = - మొక్కుటలు లాంగలము = నాగలి
తొంగిల్లు = పాతబట్టలు టంగరము = వెలిగారము
దొంగిళ్లు , బంగరము = బంగారము
అంగణము = ముంగిలి సం౦గరము = యుద్ధము
టంగణము = వెలిగారము . | డంగురము = వీరణము
ఇంగనము = కదలిక భంగురము = నశించునది
లి౦గనము = వ౦గడము = వంశము
అంగారము = నిష్ప) స౦గడము = కలయిక
పింగము _ = గోరోచన వర్ణము
మ
లి౦గము _ = శివలింగము
సింగము _ = 'క్రేసరి
కంగరు = నిచ్చెన
బంగరు = స్వర్ణము
రంగరు = _ చెలు(గొందు
లంగరు మ
కాంగాణి __ = పనికిరానిది
పింగాణీ = ఒకదినుసుమట్టి
సింగాణీ = . కొమ్మువిల్లు
గొంగలి = _ ఒకపురుగు
తొంగలి. = _ కాంతి
పాంగలి = _ పాయసాన్నము '
చెంగలి మ
మ ర
చింగిత్లు = _ పిందెలు
న = _ మొక్కుటలు
తొంగిల్లు = పాతబట్టలు
దొంగిళ్లు =. కంటిజబ్బు
అంగణము = ముంగిలి
టంగణము = వెలిగారము
ఇంగనము = కదలిక
లిం౦గనము = కౌ«గిలింత
అంగారము =
బంగారము = పసిడి
= బంగారము
శృంగారము = అలరికారమ్రు
ఇంగలము = నిష్టు
పింగలము = ఇత్తడి ,
న
ఉంగరము = బటువు
డింగరము = పరాభవము
పాంగరము = ఒ కభక్ష్యము
బొంగరము = ఒక ఆటవస్తువు
కంగాళము = పెద్దవంటగిన్నె
గంగాళము = బాన
జంగాళము = వదులు
బంగాళము = పక్షివిశేషము
జంగలము = అడవి
ర
జాంగలము = మాంసము
లాంగలము = నాగలి
టంగరము = వెలిగారము
బంగరము = బంగారము
స౦గరము = యుద్ధము
డంగురము = వీరణము
భంగురము = నశించునది
వ౦గడము = వంశము
స౦గడము = కలయిక
పింగము
బింగము
లింగము
సింగము
కంగరు
బంగరు
రంగరు
లంగరు
కాంగాణీ
పింగాణీ
సింగాణీ
గొంగలి
తొంగలి.
పొంగలి
చెంగలి
వెంగలి
చింగిల్లు
డింగిట్లు
తొంగిళ్లు
దొంగిళ్లు
అంగణము
ఓటంగణము
ఇరిగవఘు
లి౦గనము
అంగారము
గోరోచన వర్ణము
ఆబ్రకము
శివలింగము
కేసరి
నిచ్చెన
స్వర్ణము
వెలు<గొందు
జీను
పనికిరానిది
ఒకదినుసుమట్టి
కొమ్మువిల్లు
ఒకపురుగు
కాంతి
పాయసాన్నము '
దగ్గఱ
మొఱకు
పింజెలు
మొక్కుటలు
పాతబట్టలు
కంటి జబ్బు
ముంగిలి
వెలిగారము
కదలిక
కి
మ
నిచ్చి)
బంగారము
శృంగారము
ఇంగలము
పింగలము
సింగలము
ఉంగరము
డింగరము
పాంగరము
బొంగరము
కంగాళము
గంగాళము
జంగాళము
బంగాళము
జంగలము
మంగలము
జాంగలము
లాంగలము
టంగరము
బంగరము
స౦గరము
డంగురము
భంగురము
వ౦గడము
స౦గడము
పసిండి
బంగారము
అలరికారఘు
నిప్పు
ఇత్తడి
అలకాద్వీక్ర్రీము
బటువు
పరాభవము
ఒ కభక్ష్యము
ఒక ఆటవస్తు వు
పెద్దవంటగిన్నె
బాన
వదులు
దు
అడవి
మండ
మాంసము
నాగలి
వెలిగారము
బంగారము
యుద్ధము
వీరణము
నశించునది
వంశము
కలయిక
పింగము _ = గోరోచన వర్ణము బంగారము = పసిడి
బింగము _ = _ ఆభ్రకము = బంగారము
ప శృంగారము = అలలకారమ్రు
మ్ ఇంగలము = నిష్టు
కంగరు మ పింగలము = ఇత్తడి ,
బంగరు = స్వర్ణము సింగలము = లంకాద్వీసము
రంగరు = _ వెలుగొందు ఉంగరము = బటువు
లంగరు మ డింగరము = పరాభవము
కాంగాణి = _ పనికిరానిది పాంగరము = ఒ కభక్ష్యము
గ = ఒకదినుసుమట్టి బొంగరము = ఒక ఆటవస్తువు
సింగాణీ = కొమ్మువిల్లు కంగాళము = పెద్దవంటగిన్నె
గొంగలి = _ ఒకపురుగు గంగాళము = బాన
తొంగలి = _ కాంతి జంగాళము = వదులు
పొంగలి మ బంగాళము = పక్షివిశేషము
చెంగలి మ జంగలము = అడవి
మ మంగలము = మండ
చింగిట్లు = - పింజెలు జాంగలము = మాంసము
డింగిళ్లు = - మొక్కుటలు లాంగలము = నాగలి
తొంగిల్లు = పాతబట్టలు టంగరము = వెలిగారము
దొంగిళ్లు , బంగరము = బంగారము `
అంగణము = ముంగిలి సం౦గరము = యుద్ధము
టంగణము = వెలిగారము . | డంగురము = వీరణము
ఇంగనము = కదలిక భంగురము = నశించునది
లి౦గనము = వ౦గడము = వంశము
అంగారము = స౦గడము = కలయిక
< నానా
|
Yeah @Shreeshrii it works with homage GUI but in command line not working |
try with --psm 11 --oem 1 -l tel and --psm 6 --oem 1 -l tel |
@Shreeshrii |
Please try with the latest commit from the master branch. |
Was this fixed with my patch? Can we close it? |
@amitdo This seems to be a different problem. As far as I can tell, words are being dropped with default mode of --psm 3 (not with --psm 6). I ran current version of tesseract vs the one from Jan2018. The output from both is same. However, with --psm 3 many words are being dropped and = sign is being recognized as ||. (I think there is code for rotating the boxes during recognition). @harinath141 Please review the attached output and provide any additional feedback. tel-columns-1-3-tessdata_best-2018Jan.txt |
Thanks, Does it drop entire lines or just a few words in some lines? |
Sure i will review it asap. |
@amitdo See output below. --psm 3 treats it as 6 different columns so it is only single words. tesseract 4.0.0-rc3-20-g9c2d ***** ./tel-columns.jpg LANG tel TESSDATA tessdata_best OEM 1 PSM 6 **** ***** ./tel-columns.jpg LANG tel TESSDATA tessdata_best OEM 1 PSM 3 **** ॥| గోరోచన వర్ణము నిచ్చెన 86 పాయసాన్నము - దగ్గజి బంగారము || || [| | 1 | | ॥ ॥ | | || పసి6డి బాన |
I tried to test with 4.0 with Telugu language and observed many words are dropping in between I given a 300 DPI PNG file.is this a known issue ? If solved how can I solve this??
The text was updated successfully, but these errors were encountered: