نظرة عامة على الدرس
تعلم كيفية تنظيف البيانات استعدادًا للتصور.
في الدرس السابق، Google Sheets: نسخ البيانات من الإنترنت، تعلمنا كيفية استيراد جدول من الويب باستخدام importHTML. في هذا الدرس، سنتعلم كيفية تنظيف البيانات بحيث تكون جاهزة للتحليل والتصور.
- جعل البيانات قابلة للتحرير.
- تحرير البيانات.
- تحرير المجموعة مع البحث والاستبدال.
لمزيد من دروس صحافة البيانات، تفضل بزيارة:
https://newsinitiative.withgoogle.com/training/course/data-journalism
جعل البيانات قابلة للتحرير.
تعني "تنظيف البيانات" جعلها قابلة للعمل مع: ضمان تكامل الجدول، وعدم وجود تناقضات، وتنظيمه بطريقة يفهمها الكمبيوتر. وهذا يعني أننا سنقوم بإزالة الصفوف المكررة وحذف الأحرف غير المرغوب فيها والتأكد من احتواء الأعمدة على نوع واحد فقط من البيانات، على سبيل المثال الأرقام أو النصوص، ولكن ليس كلاهما. أولاً، نحتاج إلى جعل البيانات قابلة للتحرير.
يوضح هذا الجدول نتيجة importHTML. في هذا النموذج، ستنعكس أي تغييرات على مصدر البيانات (صفحة Wikipedia) تلقائيًا هنا، وسيتم تحديثها مرة واحدة على الأقل في الساعة. ومع ذلك، لا يمكننا تحرير القيم في الخلايا لإزالة الأحرف غير المرغوب فيها. سنستخدم لصق خاص في Google Sheets لإنشاء لقطة ثابتة للبيانات. باستخدام هذا، سنفقد القدرة على تحديث الجدول تلقائيًا عبر importHTML، لكننا سنتمكن من تعديله.
حدد كل البيانات بالنقر بزر الماوس الأيسر في أعلى المستطيل الأيمن في الورقة. بمجرد تمييز كل الخلايا، انقر فوق تحرير > نسخ. حدد تحرير > لصق خاص > لصق القيم فقط. نحن الآن قادرون على تعديل الجدول.
لتسهيل عملية التحرير، سنقوم بتجميد الصف باستخدام أسماء الأعمدة. حرك مؤشر الماوس إلى السطر أعلى الصف 1 فوق الشريط الرمادي. ستلاحظ أن المؤشر يتحول إلى قفاز. اسحب الشريط إلى أسفل الصف 1 واتركه هناك. الآن تم تجميد الصف العلوي.
تحرير البيانات.
ثم يستورد importHTML الأحرف المتبقية من جدول Wikipedia المفيدة للبشر، ولكن ليس لأجهزة الكمبيوتر. دعنا نزيلهم ونجعل الجدول الخاص بنا أكثر نظافة!
بما أننا لا نحتاج إلى العمود F لهذا التمرين، فانقر بزر الماوس الأيمن على الحرف F في أعلى العمود وحدد حذف.
يوجد حرف "F" بجوار الرقم 13 في الصف A14، و"TS3" بجانب الرقم 4 في الخلية B27. سنقوم بإزالة هذه الأحرف بحيث يبقى فقط الرقمان 13 و 4.
إزالة الأحرف الزائدة في الخلايا B40 و B48، بحيث تبقى 19 و 8 فقط. افعل الشيء نفسه في D17 لإزالة البادئة "F8".
تحرير المجموعة مع البحث والاستبدال.
الآن، ألقِ نظرة على العمود C. دعنا نزيل الأحرف البادئة والزائدة * في مجموعة، بدلاً من صف تلو الآخر، باستخدام ميزة البحث والاستبدال.
حدد العمود C بالنقر بزر الماوس الأيسر على الحرف C أعلى العمود. حدد تحرير > بحث واستبدال.
في مربع النص الأول، اكتب رمز النجمة: * (هذا هو الحرف الذي نريد إيجاده في العمود C). اترك مربع النص "استبدال بـ" فارغًا بحيث لا يتم استبدال النجمة بأي شيء، مما يعني حذفها.
تأكد من أن خيار البحث يشير إلى نطاق معين ويعكس النطاق العمود الذي حددته للتو. اترك مربعات الاختيار غير محددة.
حدد استبدال الكل.لاحظ أن Google Sheets ستخبرك بأنه تم استبدال 100 نموذج من * (بلا شيء). هذا يعني أنك نجحت في إزالة 100 حرفًا في 50 صفًا ببضع نقرات فقط!
اختر تم. الجدول الآن نظيف وجاهز للعمل. في الدرس التالي، سنقدم تصورات ونحصل على أفكار من البيانات.
تهانينا!
لقد استكملت "Google Sheets: تنظيف البيانات."
لمتابعة بناء مهاراتك في الصحافة الرقمية والعمل نحو الحصول على شهادة مبادرة أخبار Google (Google News Initiative)، انتقل إلى موقع مركز التدريب واستمع إلى درس آخر.
لمزيد من دروس صحافة البيانات، تفضل بزيارة:
https://newsinitiative.withgoogle.com/training/course/data-journalism