การเตรียมข้อมูล

ประเมินกรณีการใช้งานของคุณ แหล่งที่มา และเตรียมข้อมูล

ข้อมูลการฝึกคืออะไร

ถ้าคุณตั้งค่าบัญชี Google Cloud ของคุณไว้ให้เหมาะสมแล้ว ตอนนี้คุณก็พร้อมทำแบบฝึกหัดได้ ในบทเรียนนี้ คุณจะได้เรียนรู้ว่าควรถามคำถามอะไรระหว่างรวบรวมข้อมูลการฝึก และวิธีเตรียมข้อมูลดังกล่าวให้ AutoML Vision ใช้
สำหรับข้อมูลการฝึก เราหมายถึงตัวอย่างสิ่งที่เราต้องการให้รูปแบบ ML ของเราจำแนกและแบ่งหมวดหมู่ได้ ในกรณีของเรา หมายถึงการให้ชุดภาพถ่ายดาวเทียมและบอก้อัลกอริทึมว่ารูปภาพใดบ้างที่เป็นตัวอย่างการทำเหมืองอำพัน และรูปใดที่ไม่ใช่

เริ่มต้นด้วยกรณีของคุณ

ระหว่างจัดชุดข้อมูลเข้าด้วยกัน ให้เริ่มต้นจากปัญหาที่คุณจะขอให้ ML ช่วยแก้ไขเสมอ ลองพิจารณาคำถามต่อไปนี้
- คุณพยายามให้ได้ผลลัพธ์อะไร
- คุณต้องจำแนกหมวดหมู่ประเภทใดเพื่อให้ได้ผลลัพธ์นี้
- เป็นไปได้หรือไม่ที่มนุษย์จะจำแนกหมวดหมู่ดังกล่าว แม้ AutoML Vision จะสามารถจัดการรูปภาพและหมวดหมู่ได้มากมายกว่ามนุษย์ แต่ถ้ามนุษย์ไม่สามารถจำแนกหมวดหมู่เฉพาะบางอย่างได้ AutoML Vision ก็จะทำได้ยากเช่นกัน
- ตัวอย่างประเภทใดจะสะท้อนประเภทและช่วงข้อมูลที่ระบบของคุณจะจัดประเภทได้ดีที่สุด
นึกถึงเรื่องราวที่คุณกำลังจัดการอยู่ คำตอบของคำถามดังกล่าวเปลี่ยนวิธีที่คุณใช้กับเรื่องนั้นอย่างไรบ้าง และคุณจำเป็นต้องใช้ Machine Learning หรือไม่

ประเมินกรณีการใช้งานของคุณ

ในกรณีของเรา คำตอบอาจเป็นดังนี้
- เราต้องการให้รูปแบบของเราสามารถจำแนกตัวอย่างการทำเหมืองอำพันในภาพถ่ายดาวเทียมที่เราจะแสดงให้ดู
- เราต้องใช้แค่สองหมวดหมู่ คือ "YES หมายถึง รูปภาพนี้มีองค์ประกอบสอดคล้องกับรูปแบบที่มักจะแสดงถึงกิจกรรมการทำเหมืองอำพัน" และ "NO หมายถึง รูปภาพนี้ไม่มีองค์ประกอบที่สื่อถึงการทำเหมืองอำพัน"
- โดยส่วนมากแล้วเป็นไปได้ กล่าวคือ การจำแนกตัวอย่างการทำเหมืองอำพันในภาพถ่ายดาวเทียมค่อนข้างเป็นไปได้ เพราะรูปแบบหลุมในดินที่ชัดเจนเหมือนรอยแผลฝีดาษ แต่เราจะได้เห็นกันในระยะทดสอบว่ามันอาจไม่ง่ายเท่าที่เราคิดเสมอไป
- พื้นหลังต่างกัน ความหนาแน่นของหลุมต่างกัน สีต่างกัน ยิ่งตัวอย่างในชุดข้อมูลของเรามีความหลากหลายเท่าใด อัลกอริทึมจะยิ่งเรียนรู้ได้ดีขึ้นเท่านั้น

หาแหล่งข้อมูล

เมื่อคุณกำหนดได้แล้วว่าต้องใช้ข้อมูลอะไร ขั้นตอนต่อไปคือการหาวิธีหาแหล่งข้อมูล ในกรณีของเรา เรามีชุดข้อมูลที่ Texty ให้มาอยู่แล้ว แต่ลองคิดว่าในกรณีของคุณเองจะเป็นอย่างไรได้บ้าง คุณจะหารูปภาพที่ต้องใช้ได้ที่ไหน อย่างไร
คุณอาจหาได้จากข้อมูลที่หน่วยงานของคุณเก็บรวบรวม หรือจากบุคคลภายนอก ไม่ว่าจะในกรณีใด อย่าลืมทบทวนระเบียบข้อบังคับด้านการปกป้องข้อมูลในภูมิภาคและในสถานที่ที่คุณจะใช้งานระบบ
ไม่มีทางที่ข้อมูลการฝึกจะ “ปราศจากอคติ” โดยสิ้นเชิง แต่คุณสามารถเพิ่มโอกาสในการสร้างรูปแบบ ML ที่ “ยุติธรรม” ได้หากคุณพิจารณาสาเหตอาจทำให้ข้อมูลของคุณมีอคติ และลงมือจัดการอย่างจริงจัง ทบทวน Introduction to Machine Learning เพื่อเรียนรู้เพิ่มเติมเรื่องนี้

เตรียมข้อมูล

ยังมีอีกสองสามเรื่องที่คุณต้องนึกไว้เสมอขณะรวบรวมข้อมูลการฝึก
รวมตัวอย่างที่ติดป้ายกำกับให้เพียงพอในแต่ละหมวดหมู่ กล่าวคือ AutoML Vision ต้องการอย่างน้อย 100 ตัวอย่างต่อหนึ่งป้ายกำกับ โดยทั่วไป ยิ่งคุณนำรูปภาพที่ติดป้ายกำกับมาใช้ในกระบวนการฝึกได้มากเท่าไร รูปแบบของคุณจะยิ่งออกมาดีขึ้นเท่านั้น
สิ่งสำคัญคือต้องรวมตัวอย่างสำหรับฝึกในแต่ละหมวดหมู่ให้มีจำนวนโดยประมาณใกล้เคียงกัน ถ้าคุณมีข้อมูลเหลือเฟือสำหรับป้ายกำกับอย่างใดอย่างหนึ่ง ให้ใช้เพียงบางส่วน เพื่อหลีกเลี่ยงไม่ให้จำนวนตัวอย่างต่อหมวดหมู่แตกต่างกันมากเกินไป
หารูปภาพที่ดูคล้ายกับสิ่งที่คุณวางแผนจะให้รูปแบบช่วยจำแนก จะดีที่สุดถ้าตัวอย่างสำหรับการฝึกของคุณเป็นตัวอย่างจากเหตุการณ์จริงจากชุดข้อมูลเดียวกับที่คุณวางแผนจะใช้รูปแบบดังกล่าวในการจัดประเภท

-
How to make them using makestories.io
บทเรียนmakestories.io is a platform specially created to help people make, publish, and monetize Google Web Stories. It’s free, and it can be used with any content management system. Here are the basics of how to get started with makestories.io. -
-
วิดีโอ: Google Earth และเทคโนโลยีการทำแผนที่สำหรับนักข่าว
บทเรียนค้นพบว่านักข่าวจะใช้ Google Earth และเทคโนโลยีการทำแผนที่ได้อย่างไรบ้าง