-
Notifications
You must be signed in to change notification settings - Fork 10
Twitter Data Preprocessing
ArwaAlrazooq edited this page Dec 29, 2017
·
1 revision
الحصول على البيانات ليس بالمهمة الصعبة و لكن التعامل معها و تنظيفها هو التحدي الأكبر، ستلاحظ عند اطلاعك على التغريدات وجود الكثير من التويتات المحتوية على الروابط و التي غالبا ما تكون تغريدات عشوائية لا تمت لمحتوى بحثك بصلة "Spam Tweets". ايضا إلى التغريدات التسويقيه والتي يمكنك تمييزها بوجود أرقام جوالات أو روابط لمنتجات بالأضافه ان عمليه السحب ستتضمن الكثير من التغريدات المعاد تغريدها، او بمعنى اخر تغريدات متكرره "Duplicate Tweets" والتي قد تؤثر على عمليه التحليل. لذلك تحتاج إلى تنظيف بياناتك من هذه التغريدات قبل أن تنتقل إلى عملية التحليل. عليك أن تنتبه أن عملية تنظيف التغريدات قد تتغير بحسب طبيعة البحث.
قمنا بارفاق كود برمجي يقوم بتنظيف التغريدات. في هذا البرنامج سيتم ازاله الروابط و الرموز مثل @ , # واخيرا الوجوده التعبيريه Emojis. تمت كتبه هذا الكود بواسطه ايمان النخيلان
سيساعدك برنامج مايكروسفت اكسل بجزء من عملية تنظيف الداتا عن طريق استخدام خاصية الفلتر مثلاً عمل فلتر للتغريدات التي معاد تغريدها من عمود retweet =true ثم حذف جميع التغرديات المتكرره.
و بالمثل يمكنك حذف التغريدات المحتوية على الرابط عن طريق الفلتر لعمود التغريدة المحتوية على url
Add-on for Excel Kutool
Kutool وهي عبارة عن إضافة يتم تحميلها على برنامج الاكسل حيث تحتوي على العديد من الخصائص و التي تساعدك في عمليه التنظيف