การเตรียมข้อมูล
ประเมินกรณีการใช้งานของคุณ แหล่งที่มา และเตรียมข้อมูล
ข้อมูลการฝึกคืออะไร
ถ้าคุณตั้งค่าบัญชี Google Cloud ของคุณไว้ให้เหมาะสมแล้ว ตอนนี้คุณก็พร้อมทำแบบฝึกหัดได้ ในบทเรียนนี้ คุณจะได้เรียนรู้ว่าควรถามคำถามอะไรระหว่างรวบรวมข้อมูลการฝึก และวิธีเตรียมข้อมูลดังกล่าวให้ AutoML Vision ใช้
สำหรับข้อมูลการฝึก เราหมายถึงตัวอย่างสิ่งที่เราต้องการให้รูปแบบ ML ของเราจำแนกและแบ่งหมวดหมู่ได้ ในกรณีของเรา หมายถึงการให้ชุดภาพถ่ายดาวเทียมและบอก้อัลกอริทึมว่ารูปภาพใดบ้างที่เป็นตัวอย่างการทำเหมืองอำพัน และรูปใดที่ไม่ใช่
เริ่มต้นด้วยกรณีของคุณ
ระหว่างจัดชุดข้อมูลเข้าด้วยกัน ให้เริ่มต้นจากปัญหาที่คุณจะขอให้ ML ช่วยแก้ไขเสมอ ลองพิจารณาคำถามต่อไปนี้
- คุณพยายามให้ได้ผลลัพธ์อะไร
- คุณต้องจำแนกหมวดหมู่ประเภทใดเพื่อให้ได้ผลลัพธ์นี้
- เป็นไปได้หรือไม่ที่มนุษย์จะจำแนกหมวดหมู่ดังกล่าว แม้ AutoML Vision จะสามารถจัดการรูปภาพและหมวดหมู่ได้มากมายกว่ามนุษย์ แต่ถ้ามนุษย์ไม่สามารถจำแนกหมวดหมู่เฉพาะบางอย่างได้ AutoML Vision ก็จะทำได้ยากเช่นกัน
- ตัวอย่างประเภทใดจะสะท้อนประเภทและช่วงข้อมูลที่ระบบของคุณจะจัดประเภทได้ดีที่สุด
นึกถึงเรื่องราวที่คุณกำลังจัดการอยู่ คำตอบของคำถามดังกล่าวเปลี่ยนวิธีที่คุณใช้กับเรื่องนั้นอย่างไรบ้าง และคุณจำเป็นต้องใช้ Machine Learning หรือไม่
ประเมินกรณีการใช้งานของคุณ
ในกรณีของเรา คำตอบอาจเป็นดังนี้
- เราต้องการให้รูปแบบของเราสามารถจำแนกตัวอย่างการทำเหมืองอำพันในภาพถ่ายดาวเทียมที่เราจะแสดงให้ดู
- เราต้องใช้แค่สองหมวดหมู่ คือ "YES หมายถึง รูปภาพนี้มีองค์ประกอบสอดคล้องกับรูปแบบที่มักจะแสดงถึงกิจกรรมการทำเหมืองอำพัน" และ "NO หมายถึง รูปภาพนี้ไม่มีองค์ประกอบที่สื่อถึงการทำเหมืองอำพัน"
- โดยส่วนมากแล้วเป็นไปได้ กล่าวคือ การจำแนกตัวอย่างการทำเหมืองอำพันในภาพถ่ายดาวเทียมค่อนข้างเป็นไปได้ เพราะรูปแบบหลุมในดินที่ชัดเจนเหมือนรอยแผลฝีดาษ แต่เราจะได้เห็นกันในระยะทดสอบว่ามันอาจไม่ง่ายเท่าที่เราคิดเสมอไป
- พื้นหลังต่างกัน ความหนาแน่นของหลุมต่างกัน สีต่างกัน ยิ่งตัวอย่างในชุดข้อมูลของเรามีความหลากหลายเท่าใด อัลกอริทึมจะยิ่งเรียนรู้ได้ดีขึ้นเท่านั้น
หาแหล่งข้อมูล
เมื่อคุณกำหนดได้แล้วว่าต้องใช้ข้อมูลอะไร ขั้นตอนต่อไปคือการหาวิธีหาแหล่งข้อมูล ในกรณีของเรา เรามีชุดข้อมูลที่ Texty ให้มาอยู่แล้ว แต่ลองคิดว่าในกรณีของคุณเองจะเป็นอย่างไรได้บ้าง คุณจะหารูปภาพที่ต้องใช้ได้ที่ไหน อย่างไร
คุณอาจหาได้จากข้อมูลที่หน่วยงานของคุณเก็บรวบรวม หรือจากบุคคลภายนอก ไม่ว่าจะในกรณีใด อย่าลืมทบทวนระเบียบข้อบังคับด้านการปกป้องข้อมูลในภูมิภาคและในสถานที่ที่คุณจะใช้งานระบบ
ไม่มีทางที่ข้อมูลการฝึกจะ “ปราศจากอคติ” โดยสิ้นเชิง แต่คุณสามารถเพิ่มโอกาสในการสร้างรูปแบบ ML ที่ “ยุติธรรม” ได้หากคุณพิจารณาสาเหตอาจทำให้ข้อมูลของคุณมีอคติ และลงมือจัดการอย่างจริงจัง ทบทวน Introduction to Machine Learning เพื่อเรียนรู้เพิ่มเติมเรื่องนี้
เตรียมข้อมูล
ยังมีอีกสองสามเรื่องที่คุณต้องนึกไว้เสมอขณะรวบรวมข้อมูลการฝึก
รวมตัวอย่างที่ติดป้ายกำกับให้เพียงพอในแต่ละหมวดหมู่ กล่าวคือ AutoML Vision ต้องการอย่างน้อย 100 ตัวอย่างต่อหนึ่งป้ายกำกับ โดยทั่วไป ยิ่งคุณนำรูปภาพที่ติดป้ายกำกับมาใช้ในกระบวนการฝึกได้มากเท่าไร รูปแบบของคุณจะยิ่งออกมาดีขึ้นเท่านั้น
สิ่งสำคัญคือต้องรวมตัวอย่างสำหรับฝึกในแต่ละหมวดหมู่ให้มีจำนวนโดยประมาณใกล้เคียงกัน ถ้าคุณมีข้อมูลเหลือเฟือสำหรับป้ายกำกับอย่างใดอย่างหนึ่ง ให้ใช้เพียงบางส่วน เพื่อหลีกเลี่ยงไม่ให้จำนวนตัวอย่างต่อหมวดหมู่แตกต่างกันมากเกินไป
หารูปภาพที่ดูคล้ายกับสิ่งที่คุณวางแผนจะให้รูปแบบช่วยจำแนก จะดีที่สุดถ้าตัวอย่างสำหรับการฝึกของคุณเป็นตัวอย่างจากเหตุการณ์จริงจากชุดข้อมูลเดียวกับที่คุณวางแผนจะใช้รูปแบบดังกล่าวในการจัดประเภท
-
-
เริ่มต้นใช้งาน Google News ด้วยศูนย์ผู้เผยแพร่เนื้อหา
บทเรียนส่ง จัดการ และสร้างรายได้จากข่าวของคุณทั่วทั้ง Google -
แนวทางต่าง ๆ เกี่ยวกับระบบการเรียนรู้ของเครื่องจักร
บทเรียนเรียนรู้วิธีการแยกความแตกต่างของระบบการเรียนรู้ของเครื่องจักรแบบต่าง ๆ