MagicDump - Wikipedia dump file to pre-processed Text

Wikipedia-ს dump ფაილიდან ტექსტის მომზადება დასამუშავებლად

ვიკიპედიიდან გადმოწერილი დამპ ფაილი პირდაპირ არ არის მზად NLP დავალებებთან სამუშაოდ (სჭირდება ტექსტის ამოღება თეგებიდან, წინადადებების დაყოფა, ხაზზე განაწილება და ა.შ.)

არსებული რეპოზიტორიის დახმარებით შეძლებთ dump ფაილის ბოლო ვერსიის გადმოწერის > დაექსტრაქტების > ტექსტის ამოღების > გასუფთავების ეტაპების ავტომატიზაციას

მოთხოვნები:

პროექტი მორგებულია Python 3-ის სამუშაო გარემოზე. გამართული და შემოწმებულია:

Python 3.8.3 (default, Jul 2 2020, 16:21:59) [GCC 7.3.0] :: Anaconda, Inc. on linux

პროექტს გასაშვებად სჭირდება ორი ბიბლიოთეკა:

Microsoft Bling Fire

WikiExtractor

დასაყენებლად ტერმინალში გაუშვით ბრძანება:

pip install -r requirements.txt

გაშვების ინსტრუქცია

პროექტის გასაშვებათ თქვენს მოწყობილობაში დაკლონეთ ეს რეპოზიტორია.

მას შემდეგ რაც წინა საფეხურებს გაივლით, მოწყობილობაში გახსნით რეპოზიტორიას და ბიბლიოთეკებს დააყენებთ გაუშვით ტერმინალ ბრძანება:

sh magicdump.sh <language>

<language>-ს ნაცვლად ჩაწერეთ იმ ენის ISO 639-1 (two-letter codes) ტეგი, რომელ ენაზე არსებული ვიკიპედიის არქივის დამპის გადმოწერაც გინდათ. ენის ტეგები შეგიძლიათ ნახოთ აქ.

მაგალითად, ქართული ენისთვის:

sh magicdump.sh ka

watch the magic happen ;)

შედეგი:

საბოლოოდ დაგხვდება რამოდენიმე ფაილი გაშვების დირექტორიიდან:

*wiki-lastest-pages-articles.xml.bz2 - არქივი

*wiki-lastest-pages-articles.txt - არქივიდან ამოღებული ტექსტი

*wiki-lastest-pages-articles-preprocessed.txt - ხაზებად გადანაწილებული წინადადებები

წყაროები:

სრული ინსტრუქცია ინგლისურ ენაზე და განხილული კოდის ფრაგმენტები კოდის ავტორისგან

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
README.md		README.md
magicdump.sh		magicdump.sh
preprocess_wiki_dump.py		preprocess_wiki_dump.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MagicDump - Wikipedia dump file to pre-processed Text

Wikipedia-ს dump ფაილიდან ტექსტის მომზადება დასამუშავებლად

მოთხოვნები:

გაშვების ინსტრუქცია

შედეგი:

წყაროები:

About

Releases

Packages

Languages

temurchichua/MagicDumpWikipedia

Folders and files

Latest commit

History

Repository files navigation

MagicDump - Wikipedia dump file to pre-processed Text

Wikipedia-ს dump ფაილიდან ტექსტის მომზადება დასამუშავებლად

მოთხოვნები:

გაშვების ინსტრუქცია

შედეგი:

წყაროები:

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages