ก้าวแรกจากงานวิจัยสู่โลกแห่งความจริงของ MuZero

ก้าวแรกจากงานวิจัยสู่โลกแห่งความจริงของ MuZero

03 มิถุนายน 2565

ในปี 2016 Deepmind ได้แสดงความสามารถของ AI AlphaGo ที่สามารถเอาชนะแชมป์โลกในเกมกระดานอย่างหมากล้อม ซึ่งเป็นเกมที่โปรแกรมทั่วไปไม่สามารถเอาชนะมนุษย์ได้มาก่อน ต่อจากนั้นมา Deepmind ก็ได้พัฒนา AI มาเรื่อย ๆ โดยมี AlphaZero และ MuZero ที่ได้ถูกพัฒนาขึ้นมาตามลำดับ การพัฒนา AI ของ Deepmind นั้นมีจุดประสงค์ที่จะทำให้ AI สามารถเรียนรู้ได้หลากหลายมากยิ่งขึ้น และใช้ความรู้เริ่มต้นน้อยลง ตัวอย่างเช่น MuZero สามารถชนะมนุษย์ในเกมหมากล้อม หมากรุก โชกิ และเกมบน Atari โดยไม่จำเป็นที่จะต้องรู้กฎของเกมเลยด้วยซ้ำ

วิวัฒนาการของ AI จาก Deepmind ตั้งแต่ AlphaGo จนถึง MuZero
ที่มาภาพ : deepmind.com

แต่ผลงานทั้งหมดที่กล่าวมาเป็นเพียงแค่การเรียนรู้เกม Deepmind จึงได้ตั้งเป้าหมายถัดไปเป็นการแก้ไขปัญหาในชีวิตจริง โดยโจทย์แรกของ MuZero ในการก้าวเข้าสู่โลกแห่งความจริง คือการ Optimize วิดีโอบน YouTube

การ Optimize วิดีโอมีความสำคัญเป็นอย่างมาก เนื่องจากปริมาณการใช้งานวิดีโอในปัจจุบันสูงขึ้นมาก ถ้าหากทำการบีบอัดวิดีโอ (Video compression) ได้ดี ก็จะสามารถลด traffic บนอินเตอร์เน็ตได้มหาศาล และเป็นโจทย์ที่เหมาะกับ MuZero ซึ่งใช้การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning: RL) เพื่อพัฒนาวิธีการย่อขนาดวิดีโอให้ดีกว่าเดิม ผลการศึกษาพบว่า MuZero สามารถลด bitrate ของวิดีโอได้เฉลี่ย 4% หากใครสนใจผลการวิจัยฉบับเต็มสามารถดูได้ที่นี่

วิดีโอในแพลตฟอร์มออนไลน์ส่วนใหญ่จะใช้โปรแกรมที่เรียกว่า codec เพื่อบีบอัดหรือเข้ารหัสวิดีโอจากต้นทางของผู้อัปโหลด ส่งข้อมูลผ่านอินเตอร์เน็ต และแปลงข้อมูลกลับเพื่อแสดงวิดีโอที่ปลายทาง โปรแกรม codec จะต้องตัดสินใจเลือกตัวเลือกหลายอย่างในทุก ๆ เฟรมของวิดีโอ โดยวิธีการตัดสินใจของ codec ก็เป็นศาสตร์ที่ได้มีการพัฒนาโดยนักวิจัยและวิศวกรมานับสิบปี อย่างไรก็ตาม อัลกอริทึมแบบ RL มีความเหมาะสมกับการแก้ปัญหาที่เกี่ยวกับการตัดสินใจอย่างต่อเนื่องแบบนี้ ทาง Deepmind จึงเห็นว่าเป็นโจทย์ที่น่าลองนำ MuZero มาเรียนรู้ และศึกษาว่าจะนำ AI มาช่วยวงการวิดีโอได้อย่างไรบ้าง

ในบทความนี้เราจะโฟกัสไปที่ VP9 codec (โดยใช้ opensource libvpx) ซึ่งเป็น codec ที่ใช้กันอย่างแพร่หลายบน YouTube ในการใช้ VP9 ผู้ใช้งานจะต้องคำนึงถึง bitrate (จำนวน 0 หรือ 1 ที่ใช้ในแต่ละเฟรมของวิดีโอ) ซึ่งค่า bitrate จะส่งผลต่อขนาดของวิดีโอเป็นอย่างมาก การทำ Optimization ใน VP9 จะทำบน Rate Control Module โดยใช้ตัวแปร Quantisation Parameter (QP) ในการปรับค่า bitrate (ค่า QP มาก จะทำให้ bitrate ต่ำ และค่า QP น้อยทำให้ bitrate สูง)

ในแต่ละเฟรมที่ VP9 ประมวลผล ข้อมูลจะถูกส่งไปให้ MuZero-RC ตัดสินใจค่า QP แทนค่าตั้งต้น ทำให้สามารถสร้างวิดีโอที่มีคุณภาพเท่าเดิมโดยที่ bitrate ต่ำลงกว่าเดิมได้

สิ่งที่เราต้องการคือ maximize คุณภาพของวิดีโอ (วัดคุณภาพจากค่า Peak Signal-to-Noise Ratio: PSNR) โดยที่มีข้อจำกัดคือขนาดของวิดีโอต้องเล็กกว่าค่าที่ผู้ใช้งานกำหนด สิ่งที่โปรแกรมจะต้องทำก็คือปรับเฟรมที่มีการเคลื่อนไหวมาก ๆ ให้มี bitrate สูง (QP ต่ำ) และในทางตรงข้าม ปรับให้เฟรมที่มีการเคลื่อนไหวน้อย ๆ ให้มี bitrate ต่ำ (QP สูง)

ปัญหาที่ Deepmind พบจากการลองให้ MuZero แก้โจทย์ Optimization ดังกล่าวโดยตรงคือ ผลที่ได้นั้นอ่อนไหวต่อค่า learning rate ของโมเดลเป็นอย่างมาก ทำให้ปรับจูนโมเดลได้ยาก นอกจากนั้น MuZero ไม่สามารถหาวิธีการที่ดีที่สุดออกมาวิธีเดียวได้ เนื่องจากวิดีโอมีความหลากหลายมาก ทาง Deepmind จึงเสนอวิธีการเรียนรู้ของโมเดลด้วยการแข่งขันกับตัวเอง โดยจะให้รางวัลโมเดลก็ต่อเมื่อโมเดลสร้างวิดีโอผลลัพธ์ที่คุณภาพดีกว่าผลงานของตัวเองในอดีต การกำหนดเป้าหมายแบบนี้เปลี่ยนการ maximize คุณภาพของวิดีโอ ให้กลายเป็นสัญญาณง่าย ๆ เพียงแค่ ชนะ หรือแพ้เท่านั้น ทำให้เทรนโมเดลได้ง่ายขึ้นมาก

MuZero’s first step into the real world | standard encoding | example 1
วิดีโอที่ถูก encode ด้วยวิธีทั่วไป
MuZero’s first step into the real world | MuZero encoding | example 1
วิดีโอที่ถูก encode ด้วย MuZero-RC

ประหยัด bitrate ไปได้

4.7 %

MuZero’s first step into the real world | standard encoding | example 2
วิดีโอที่ถูก encode ด้วยวิธีทั่วไป
MuZero’s first step into the real world | MuZero encoding | example 2
วิดีโอที่ถูก encode ด้วย MuZero-RC

ประหยัด bitrate ไปได้

4.1 %

MuZero’s first step into the real world | standard encoding | example 3
วิดีโอที่ถูก encode ด้วยวิธีทั่วไป
MuZero’s first step into the real world | Muzero encoding | example 3
วิดีโอที่ถูก encode ด้วย MuZero-RC

ประหยัด bitrate ไปได้

3.5 %

ผลที่ได้จากการให้ MuZero เรียนรู้วิธีการ Optimize วิดีโอด้วยการแข่งขันกับตัวเอง คือโมเดล MuZero Rate-Controller (MuZero-RC) ซึ่งสามารถลดขนาดของวิดีโอได้ 4% โดยเฉลี่ย โดยที่ไม่ลดคุณภาพของวิดีโอ และมีความสามารถในการ generalize โดยผ่านการทดสอบด้วยวิดีโอที่มีความหลากหลายทั้งในเชิงเนื้อหา และคุณภาพของวิดีโอ บนแพลตฟอร์ม YouTube

ผลงานครั้งนี้ของ MuZero แสดงให้เห็นถึงศักยภาพของ AI ที่สามารถเรียนรู้วิธีการ Optimize วิดีโอได้โดยไม่ต้องใช้ข้อมูลนอกเหนือไปจากวิดีโอที่ใช้ให้ AI เรียน โดยมีผลลัพธ์ที่ไม่แย่ไปกว่าผลจากการวิจัยด้านการ Optimize codec นับสิบปี และนี่ก็คือก้าวแรกของ MuZero ในการแก้ไขปัญหาในชีวิตจริง และ Deepmind จะมุ่งหน้าสู่การสร้างอัลกอริทึมที่สามารถ แก้โจทย์ได้นับพันโจทย์ได้ด้วยอัลกอริทึมเดียว

บทความโดย MuZero Applied Team

เนื้อหาจากบทความ MuZero’s first step from research into the real world

แปลและเรียบเรียงโดย พชร วงศ์สุทธิโกศล

ตรวจทานและปรับปรุงโดย อิสระพงศ์ เอกสินชล

Associate, Research and Innovations Division (RIN)
Big Data Institute (BDI)

แบ่งปันบทความ

กลุ่มเนื้อหา

แท็กยอดนิยม

แจ้งเรื่องที่อยากอ่าน

คุณสามารถแจ้งเรื่องที่อยากอ่านให้เราทราบได้ !
และเราจะนำไปพัฒนาบทความให้มีเนื้อหาที่น่าสนใจมากขึ้น

ไอคอน PDPA

เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ “นโยบายคุ้กกี้” และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ “ตั้งค่า”

ตั้งค่าความเป็นส่วนตัว

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

ยอมรับทั้งหมด
จัดการความเป็นส่วนตัว
  • คุกกี้ที่มีความจำเป็น (Strictly Necessary Cookies)
    เปิดใช้งานตลอด

    คุกกี้ประเภทนี้มีความจำเป็นต่อการให้บริการเว็บไซต์ของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล เพื่อให้ท่านสามารถเข้าใช้งานในส่วนต่าง ๆ ของเว็บไซต์ได้ รวมถึงช่วยจดจำข้อมูลที่ท่านเคยให้ไว้ผ่านเว็บไซต์ การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ท่านไม่สามารถใช้บริการในสาระสำคัญของ สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคล ซึ่งจำเป็นต้องเรียกใช้คุกกี้ได้
    รายละเอียดคุกกี้

  • คุกกี้เพื่อการวิเคราะห์และประเมินผลการใช้งาน (Performance Cookies)

    คุกกี้ประเภทนี้ช่วยให้ BDI ทราบถึงการปฏิสัมพันธ์ของผู้ใช้งานในการใช้บริการเว็บไซต์ของ BDI รวมถึงหน้าเพจหรือพื้นที่ใดของเว็บไซต์ที่ได้รับความนิยม ตลอดจนการวิเคราะห์ข้อมูลด้านอื่น ๆ BDI ยังใช้ข้อมูลนี้เพื่อการปรับปรุงการทำงานของเว็บไซต์ และเพื่อเข้าใจพฤติกรรมของผู้ใช้งานมากขึ้น ถึงแม้ว่า ข้อมูลที่คุกกี้นี้เก็บรวบรวมจะเป็นข้อมูลที่ไม่สามารถระบุตัวตนได้ และนำมาใช้วิเคราะห์ทางสถิติเท่านั้น การปิดการใช้งานคุกกี้ประเภทนี้จะส่งผลให้ BDI ไม่สามารถทราบปริมาณผู้เข้าเยี่ยมชมเว็บไซต์ และไม่สามารถประเมินคุณภาพการให้บริการได้

  • คุกกี้เพื่อการใช้งานเว็บไซต์ (Functional Cookies)

    คุกกี้ประเภทนี้จะช่วยให้เว็บไซต์ของ BDI จดจำตัวเลือกต่าง ๆ ที่ท่านได้ตั้งค่าไว้และช่วยให้เว็บไซต์ส่งมอบคุณสมบัติและเนื้อหาเพิ่มเติมให้ตรงกับการใช้งานของท่านได้ เช่น ช่วยจดจำชื่อบัญชีผู้ใช้งานของท่าน หรือจดจำการเปลี่ยนแปลงการตั้งค่าขนาดฟอนต์หรือการตั้งค่าต่าง ๆ ของหน้าเพจซึ่งท่านสามารถปรับแต่งได้ การปิดการใช้งานคุกกี้ประเภทนี้อาจส่งผลให้เว็บไซต์ไม่สามารถทำงานได้อย่างสมบูรณ์

  • คุกกี้เพื่อการโฆษณาไปยังกลุ่มเป้าหมาย (Targeting Cookies)

    คุกกี้ประเภทนี้เป็นคุกกี้ที่เกิดจากการเชื่อมโยงเว็บไซต์ของบุคคลที่สาม ซึ่งเก็บข้อมูลการเข้าใช้งานและเว็บไซต์ที่ท่านได้เข้าเยี่ยมชม เพื่อนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่นที่ไม่ใช่เว็บไซต์ของ BDI ทั้งนี้ หากท่านปิดการใช้งานคุกกี้ประเภทนี้จะไม่ส่งผลต่อการใช้งานเว็บไซต์ของ BDI แต่จะส่งผลให้การนำเสนอสินค้าหรือบริการบนเว็บไซต์อื่น ๆ ไม่สอดคล้องกับความสนใจของท่าน

บันทึกการตั้งค่า
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.