MagicDump - Wikipedia dump file to pre-processed Text

Wikipedia-ს dump ფაილიდან ტექსტის მომზადება დასამუშავებლად

ვიკიპედიიდან გადმოწერილი დამპ ფაილი პირდაპირ არ არის მზად NLP დავალებებთან სამუშაოდ (სჭირდება ტექსტის ამოღება თეგებიდან, წინადადებების დაყოფა, ხაზზე განაწილება და ა.შ.)

არსებული რეპოზიტორიის დახმარებით შეძლებთ dump ფაილის ბოლო ვერსიის გადმოწერის > დაექსტრაქტების > ტექსტის ამოღების > გასუფთავების ეტაპების ავტომატიზაციას

მოთხოვნები:

პროექტი მორგებულია Python 3-ის სამუშაო გარემოზე. გამართული და შემოწმებულია:

Python 3.8.3 (default, Jul 2 2020, 16:21:59) [GCC 7.3.0] :: Anaconda, Inc. on linux

პროექტს გასაშვებად სჭირდება ორი ბიბლიოთეკა:

Microsoft Bling Fire

WikiExtractor

დასაყენებლად ტერმინალში გაუშვით ბრძანება:

pip install -r requirements.txt

გაშვების ინსტრუქცია

პროექტის გასაშვებათ თქვენს მოწყობილობაში დაკლონეთ ეს რეპოზიტორია.

მას შემდეგ რაც წინა საფეხურებს გაივლით, მოწყობილობაში გახსნით რეპოზიტორიას და ბიბლიოთეკებს დააყენებთ გაუშვით ტერმინალ ბრძანება:

sh magicdump.sh <language>

<language>-ს ნაცვლად ჩაწერეთ იმ ენის ISO 639-1 (two-letter codes) ტეგი, რომელ ენაზე არსებული ვიკიპედიის არქივის დამპის გადმოწერაც გინდათ. ენის ტეგები შეგიძლიათ ნახოთ აქ.

მაგალითად, ქართული ენისთვის:

sh magicdump.sh ka

watch the magic happen ;)

შედეგი:

საბოლოოდ დაგხვდება რამოდენიმე ფაილი გაშვების დირექტორიიდან:

*wiki-lastest-pages-articles.xml.bz2 - არქივი

*wiki-lastest-pages-articles.txt - არქივიდან ამოღებული ტექსტი

*wiki-lastest-pages-articles-preprocessed.txt - ხაზებად გადანაწილებული წინადადებები

წყაროები:

სრული ინსტრუქცია ინგლისურ ენაზე და განხილული კოდის ფრაგმენტები კოდის ავტორისგან

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

MagicDump - Wikipedia dump file to pre-processed Text

Wikipedia-ს dump ფაილიდან ტექსტის მომზადება დასამუშავებლად

მოთხოვნები:

გაშვების ინსტრუქცია

შედეგი:

წყაროები:

Files

README.md

Latest commit

History

README.md

File metadata and controls

MagicDump - Wikipedia dump file to pre-processed Text

Wikipedia-ს dump ფაილიდან ტექსტის მომზადება დასამუშავებლად

მოთხოვნები:

გაშვების ინსტრუქცია

შედეგი:

წყაროები: