ვიკიპედიიდან გადმოწერილი დამპ ფაილი პირდაპირ არ არის მზად NLP დავალებებთან სამუშაოდ (სჭირდება ტექსტის ამოღება თეგებიდან, წინადადებების დაყოფა, ხაზზე განაწილება და ა.შ.)
არსებული რეპოზიტორიის დახმარებით შეძლებთ dump ფაილის ბოლო ვერსიის გადმოწერის > დაექსტრაქტების > ტექსტის ამოღების > გასუფთავების ეტაპების ავტომატიზაციას
პროექტი მორგებულია Python 3-ის სამუშაო გარემოზე. გამართული და შემოწმებულია:
Python 3.8.3 (default, Jul 2 2020, 16:21:59) [GCC 7.3.0] :: Anaconda, Inc. on linux
პროექტს გასაშვებად სჭირდება ორი ბიბლიოთეკა:
დასაყენებლად ტერმინალში გაუშვით ბრძანება:
pip install -r requirements.txt
პროექტის გასაშვებათ თქვენს მოწყობილობაში დაკლონეთ ეს რეპოზიტორია.
მას შემდეგ რაც წინა საფეხურებს გაივლით, მოწყობილობაში გახსნით რეპოზიტორიას და ბიბლიოთეკებს დააყენებთ გაუშვით ტერმინალ ბრძანება:
sh magicdump.sh <language>
<language>
-ს ნაცვლად ჩაწერეთ იმ ენის ISO 639-1 (two-letter codes) ტეგი, რომელ ენაზე არსებული ვიკიპედიის არქივის დამპის გადმოწერაც გინდათ.
ენის ტეგები შეგიძლიათ ნახოთ აქ.
მაგალითად, ქართული ენისთვის:
sh magicdump.sh ka
watch the magic happen ;)
საბოლოოდ დაგხვდება რამოდენიმე ფაილი გაშვების დირექტორიიდან:
- *wiki-lastest-pages-articles.xml.bz2 - არქივი
- *wiki-lastest-pages-articles.txt - არქივიდან ამოღებული ტექსტი
- *wiki-lastest-pages-articles-preprocessed.txt - ხაზებად გადანაწილებული წინადადებები