
กูเกิล ดีปไมน์ (Google Deepmind) บริษัทพัฒนาปัญญาประดิษฐ์ หรือ AI ของ Google ทำระบบการเรียนรู้ของ AI ที่เรียนรู้จาก AI อีกตัวได้ ไม่จำเป็นต้องรอมนุษย์มาสอน โดยสาธิตผ่านการให้มนุษย์เล่นปิงปองกับหุ่นยนต์ ที่ฝึกสอนด้วยระบบ AI เพื่อดูความสามารถในการคิด ตัดสินใจ และโต้ตอบอย่างรวดเร็ว
สรุปข่าว
กูเกิล ดีปไมน์ (Google Deepmind) บริษัทพัฒนาปัญญาประดิษฐ์ หรือ AI ของ Google ทำระบบการเรียนรู้ของ AI ที่เรียนรู้จาก AI อีกตัวได้ ไม่จำเป็นต้องรอมนุษย์มาสอน โดยสาธิตผ่านการให้มนุษย์เล่นปิงปองกับหุ่นยนต์ ที่ฝึกสอนด้วยระบบ AI เพื่อดูความสามารถในการคิด ตัดสินใจ และโต้ตอบอย่างรวดเร็ว
ปัญหาการเทรนหรือการฝึกสอน AI ในปัจจุบัน
Deepmind เป็นแถวหน้าในการพัฒนา AI ของโลก ที่กำลังเจอปัญหาหนึ่งก็คือการเรียนรู้ของ AI มาถึงจุดคอขวดในการพัฒนา เนื่องจากต้องรอให้ผู้เชี่ยวชาญในแต่ละสาขามาตรวจสอบว่า AI เรียนรู้ได้ดีไหม แม่นไหม ถูกต้องแค่ไหน ทีมวิจัยจึงตั้งคำถามง่าย ๆ ว่าจะสร้าง AI ที่เรียนรู้กันเองโดยไม่ต้องรอคนมาตรวจสอบได้หรือไม่ เพราะจะทำให้ AI มีการเรียนรู้อย่างต่อเนื่อง ตราบใดที่มีไฟฟ้าใช้จ่ายพลังงาน
ผลลัพธ์ที่เกิดขึ้นจึงเป็นการสร้างระบบเรียนรู้ในสถานการณ์การตีปิงปองระหว่างหุ่นยนต์ที่ขับเคลื่อนด้วย AI จำนวน 2 ตัว เพราะการตีปิงปองนั้นต้องใช้ทักษะสูง ทั้งการจับสังเกตลูกปิงปอง การทำมุมหน้าไม้ การออกแรงตี ฯลฯ เหมือนกับที่คนเรียนปิงปอง
การทดลองให้ AI ฝึกสอน AI ด้วยกัน
โดยในห้องทดลองจะเป็นระบบปิด หรือระบบการทดลองที่ไม่มีปัจจัยภายนอกแทรกแซง ตั้งแต่การใช้อุปกรณ์ ที่มีโต๊ะปิงปอง มีไม้ปิงปองแต่ละฝั่ง มีลูกปิงปอง ให้เหมือนกับการฝึกสอนจริง ๆ และมีเครื่องเก็บและเครื่องยิงลูกปิงปองเพื่อให้เกิดความต่อเนื่องในการเรียนรู้ ไม่ต้องกังวลว่าจะขาดช่วง และไม่ต้องให้คนเข้าไปรบกวนการเรียนของ AI
จากนั้น โค้ช Gemini ที่พัฒนาขึ้นมาจะฝึกสอนโดยใช้หลักการเรียนแบบเสริมแรง หรือ Reinforcement learning ซึ่งโดยพื้นฐานแล้วคือการให้ AI หัดลองผิดลองถูก หากทำถูกต้องก็จะมีรางวัลให้ แต่ถ้าผิดก็ทำโทษเป็นการฝึกให้หุ่นยนต์จดจำเพื่อปรับปรุงแนวทางการตีปิงปอง
โดย AI ที่ใช้เป็นของ Google อย่าง AlphaGo และ AlphaFold ซึ่งสามารถคิดและเรียนรู้ได้หลายอย่าง แต่ช่วงแรกที่ให้ช่วงแรกที่ให้แข่งกัน หุ่นยนต์กลับไม่ยอมแข่ง เพราะ AI ถูกสอนมาให้ทำงานด้วยกัน ผลลัพธ์จึงทำให้ AI ทั้ง 2 ตัว ไม่ได้เรียนรู้อะไรมากนัก ทางทีมวิจัยเลยกำหนดขอบเขตการเรียนนรู้ใหม่ โดยตั้งเงื่อนไขให้ AI เลิกร่วมมือกัน และหัดโต้ตอบเพื่อเอาชนะ ซึ่งก็ทำให้ทักษะการตีปิงปองของแต่ละตัวดีขึ้น
การทดสอบให้ AI ตีปิงปองแข่งกับมนุษย์
และเพื่อยกระดับไปอีกขั้น ก็เลยให้หุ่นยนต์พวกนี้ไปลองแข่งกับคนจริง ๆ เพื่อดูว่าฝีมืออยู่ขั้นไหน ซึ่งก่อนหน้านี้ก็แข่งกันไปกว่า 29 ครั้ง ผลปรากฎว่าในภาพรวม หุ่นยนต์ชนะคนได้ 13 ครั้ง แพ้ 16 ครั้ง โดยคนที่ AI เอาชนะไปได้ก็คือผู้เล่นปิงปองมือใหม่ทั้งหมดทุกคน ส่วนคนที่เล่นมาจนมีประสบการณ์ ก็ผลัดกันแพ้ผลัดกันชนะ จนมีสัดส่วน แพ้ต่อชนะเป็นครึ่งหนึ่ง ส่วนนักปิงปองอาชีพยังเป็นกำแพงที่ AI เอาชนะไม่ได้เลยสักครั้งเดียว
ภาพ: Google Deepmind
โคัช AI สอน AI ตีปิงปอง
และเพื่อที่จะฝึกสอนให้หุ่นยนต์มีความสามารถในระดับทัดเทียมกับมนุษย์ นักเล่นปิงปองพลัง AI ของ Deepmind จึงจำเป็นต้องมีผู้ฝึกสอนหรือโค้ช แต่โค้ชของ AI ทั้งสองตัว Deepmind ได้ยกระดับความาสามารถเป็นการฝึกสอนด้วย AI หรือ Gemini แชตบอต (Large Language Model: LLM) ของ Google โดย Gemini จะฝึกสอนด้วยเทคนิคแปลงข้อความให้เป็นภาพ หรือ VLM (Vision–Language Models) สั่ง AI ลงไปให้ฝึกตี ฝึกรับเป็นเรื่องเป็นราว เช่น
"ตีลูกให้ลงมุมขวา, ตีลูกให้หยอดหน้าเน็ต, ตีลูกลงเส้นกลาง"
เมื่อ Gemini สั่งแล้วก็เก็บข้อมูลดูด้วยว่าทำตามได้ดีแค่ไหน แล้วก็ใช้หลัก reinforcement learning ให้รางวัล AI ที่ทำดี ตีมือ AI ที่ทำไม่ได้ รวมถึงกำหนดบทลงโทษให้ AI อีกตัวต้องฝึกหนักขึ้น หรือโดยสรุปแล้ว Deepmind ได้พัฒนาระบบที่ AI สอน AI สู้กับ AI แล้วก็ให้ AI ให้รางวัล AI กันเอง ไม่ต้องรอการวิเคราะห์หรือตรวจสอบจากมนุษย์
AI สอนกันเองแล้วจะเหนือกว่ามนุษย์หรือไม่
อย่างไรก็ตาม ทีมวิจัยยังมองว่าระบบ AI สอน AI สู้ AI ยังไม่สามารถชนะนักกีฬาปิงปองได้ในปัจจุบัน และความสามารถของหุ่นยนต์ที่เพิ่มขึ้นก็เป็นไปอย่างช้า ๆ แต่ทีมวิจัยนั้นมองในแง่ดีว่า วิธีการดังกล่าวจะเป็นการยกระดับความสามารถของ AI เพื่อให้ AI เป็น AI ที่ช่วยเหลือคนได้อย่างมีทักษะที่แท้จริง
- พลังงานกับ AI: จะใช้ AI อย่างไรไม่ให้โลกร้อนไปกว่าเดิม ? | GCNT EXPO 2025
- ทรัมป์เร่งเกม AI ! ซีอีโอ Gecko Robotics ชี้ "ข้อมูลมหาศาล-พลังงานพร้อม" คือชนะ
- “หมวก AI” ถอดรหัสคลื่นสมอง ต่อยอดสู่การคุมอุปกรณ์ด้วยความคิด
- AI for All : จะทำอย่างไร ถ้า AI อาจไม่ได้ช่วยให้มนุษย์ดีขึ้นได้ทุกคน !? | GCNT EXPO 2025
- GCNT Expo 2025: AI-ภูมิรัฐศาสตร์-สภาพภูมิอากาศ 3 ภัยคุกคามโลก ที่ไทยต้องเร่งรับมือ
- บริษัท ซัมซุง เกาหลีใต้ คว้าดีล 16.5 พันล้านดอลลาร์ ผลิตชิป AI รุ่นใหม่ให้กับบริษัท Tesla
- "Amazon" ปิดห้องแล็บ AI ที่เซี่ยงไฮ้ เหตุตึงเครียด สหรัฐฯ-จีน
ที่มาข้อมูล : Google Deepmind, IEEE
ที่มารูปภาพ : Google Deepmind
