Skip to content

Twitter Data Preprocessing

ArwaAlrazooq edited this page Dec 29, 2017 · 1 revision
الحصول على البيانات ليس بالمهمة الصعبة و لكن التعامل معها و تنظيفها هو التحدي الأكبر، ستلاحظ عند اطلاعك على التغريدات وجود الكثير من التويتات المحتوية على الروابط و التي غالبا ما تكون تغريدات عشوائية لا تمت لمحتوى بحثك بصلة "Spam Tweets". ايضا إلى التغريدات التسويقيه والتي يمكنك تمييزها بوجود أرقام جوالات أو روابط لمنتجات بالأضافه ان عمليه السحب ستتضمن الكثير من التغريدات المعاد تغريدها، او بمعنى اخر تغريدات متكرره "Duplicate Tweets" والتي قد تؤثر على عمليه التحليل. لذلك تحتاج إلى تنظيف بياناتك من هذه التغريدات قبل أن تنتقل إلى عملية التحليل. عليك أن تنتبه أن عملية تنظيف التغريدات قد تتغير بحسب طبيعة البحث.

باستخدام كود برمجي

قمنا بارفاق كود برمجي يقوم بتنظيف التغريدات. في هذا البرنامج سيتم ازاله الروابط و الرموز مثل @ , # واخيرا الوجوده التعبيريه Emojis. تمت كتبه هذا الكود بواسطه ايمان النخيلان

اضغط هنا للانتقال الى الرابط

باستخدام ادوات جاهزه

Excel

سيساعدك برنامج مايكروسفت اكسل بجزء من عملية تنظيف الداتا عن طريق استخدام خاصية الفلتر مثلاً عمل فلتر للتغريدات التي معاد تغريدها من عمود retweet =true ثم حذف جميع التغرديات المتكرره. و بالمثل يمكنك حذف التغريدات المحتوية على الرابط عن طريق الفلتر لعمود التغريدة المحتوية على url

Add-on for Excel
Kutool

Kutool وهي عبارة عن إضافة يتم تحميلها على برنامج الاكسل حيث تحتوي على العديد من الخصائص و التي تساعدك في عمليه التنظيف