fbpx

OpenAI เสนอการใช้การแลกเปลี่ยนซึ่งกันและกันเพื่อส่งเสริมให้ตัวแทน AI ทำงานร่วมกัน

บูธ OpenAI ที่ NeurIPS 2019 ในแวนคูเวอร์ประเทศแคนาดาเครดิตรูปภาพ: Khari Johnson / VentureBeat ปัญหาในโลกแห่งความเป็นจริงจำนวนมากต้องการการประสานงานที่ซับซ้อนระหว่างตัวแทนหลายคนเช่นผู้คนหรืออัลกอริทึม เทคนิคการเรียนรู้ของเครื่องที่เรียกว่า Multi-agent Reinforcement Learning (MARL) ได้แสดงให้เห็นถึงความสำเร็จในส่วนนี้ส่วนใหญ่ในเกมสองทีมเช่น Go, DOTA 2, Starcraft, เล่นซ่อนหาและจับธง แต่โลกมนุษย์นั้นยุ่งเหยิงยิ่งกว่าเกม นั่นเป็นเพราะมนุษย์ต้องเผชิญกับประเด็นขัดแย้งทางสังคมในหลายระดับตั้งแต่ความสัมพันธ์ระหว่างบุคคลไปจนถึงระหว่างประเทศและพวกเขาต้องตัดสินใจไม่เพียงว่าจะร่วมมือกันอย่างไร แต่จะร่วมมือกันเมื่อใด เพื่อรับมือกับความท้าทายนี้นักวิจัยจาก OpenAI เสนอให้มีการฝึกอบรมตัวแทน AI ด้วยสิ่งที่พวกเขาเรียกว่าการตั้งค่าทางสังคมที่ไม่แน่นอนแบบสุ่ม (RUSP) ซึ่งเป็นการเพิ่มที่ขยายการกระจายของสภาพแวดล้อมที่ตัวแทนการเรียนรู้ที่เสริมกำลังฝึกฝน ในระหว่างการฝึกอบรมตัวแทนจะแบ่งรางวัลให้กันเป็นจำนวนมาก อย่างไรก็ตามตัวแทนแต่ละคนมีระดับความไม่แน่นอนที่เป็นอิสระต่อความสัมพันธ์ของพวกเขาการสร้าง "ความไม่สมมาตร" ที่นักวิจัยตั้งสมมติฐานกดดันให้ตัวแทนเรียนรู้พฤติกรรมที่ตอบสนองต่อสังคม เพื่อแสดงให้เห็นถึงศักยภาพของ RUSP ผู้เขียนร่วมให้ตัวแทนเล่นเกม Prisoner's Buddy ซึ่งเป็นเกมแบบกริดที่ตัวแทนจะได้รับรางวัลจากการ "หาเพื่อน" ในแต่ละช่วงเวลาตัวแทนจะดำเนินการโดยการเลือกตัวแทนอื่นหรือตัดสินใจที่จะไม่เลือกใครและออกจากรอบ หากตัวแทน 2 คนเลือกกันแต่ละคนจะได้รับรางวัลเป็น "2" หากตัวแทน Alice เลือก Bob แต่ตัวเลือกนั้นไม่ตอบสนอง Alice จะได้รับ "-2" และ Bob จะได้รับ "1" ตัวแทนที่เลือกไม่มีใครรับ "0. " ผู้เขียนร่วมยังได้สำรวจพลวัตของทีมเบื้องต้นในสภาพแวดล้อมที่ซับซ้อนกว่าที่เรียกว่าโอเอซิส เป็นตัวแทนทางฟิสิกส์และภารกิจที่มีความอยู่รอด รางวัลของพวกเขาคือ "+1" สำหรับทุกเวลาที่พวกเขายังมีชีวิตอยู่และรางวัลเชิงลบจำนวนมากเมื่อพวกเขาตาย สุขภาพของพวกเขาจะลดลงในแต่ละขั้นตอน แต่พวกเขาสามารถฟื้นฟูสุขภาพได้ด้วยการกินอาหารเม็ดและสามารถทำร้ายคนอื่นเพื่อลดสุขภาพของพวกเขาได้ หากเอเจนต์มีพลังชีวิตลดลงต่ำกว่า "0" เอเจนต์จะตายและเกิดใหม่ที่ขอบของพื้นที่เล่นหลังจาก 100 ครั้ง มีเพียงอาหารเพียงพอที่จะสนับสนุนตัวแทนสองในสามคนในโอเอซิสทำให้สังคมกลืนไม่เข้าคายไม่ออก ตัวแทนต้องทำลายความสมมาตรและรวมกลุ่มที่สามเพื่อรักษาแหล่งอาหารให้คงอยู่ ตัวแทน RUSP ในโอเอซิสทำงานได้ดีกว่าพื้นฐาน "เห็นแก่ตัว" มากเนื่องจากพวกเขาได้รับรางวัลที่สูงกว่าและเสียชีวิตน้อยลง (สำหรับตัวแทนที่ได้รับการฝึกฝนโดยมีระดับความไม่แน่นอนสูงการเสียชีวิตในตอนนั้นมากถึง 90% เป็นผลมาจากตัวแทนคนเดียวซึ่งบ่งชี้ว่าเจ้าหน้าที่สองคนเรียนรู้ที่จะจัดตั้งรัฐบาลร่วมกันและส่วนใหญ่แยกคนที่สามออกจากแหล่งอาหาร) และในเพื่อนของนักโทษ ตัวแทน RUSP แบ่งพาร์ติชันเป็นทีมได้สำเร็จซึ่งมีแนวโน้มที่จะคงที่และดูแลตลอดทั้งตอน นักวิจัยทราบว่า RUSP ไม่มีประสิทธิภาพ – ด้วยการตั้งค่าการฝึกอบรมใน Oasis การทำซ้ำ 1,000 ครั้งสอดคล้องกับประสบการณ์ประมาณ 3.8 ล้านตอน ในกรณีนี้พวกเขายืนยันว่า RUSP และเทคนิคเช่นนี้รับประกันการสำรวจเพิ่มเติม "ความสัมพันธ์ซึ่งกันและกันและการสร้างทีมเป็นพฤติกรรมที่โดดเด่นของความร่วมมือที่ยั่งยืนทั้งในสัตว์และมนุษย์" พวกเขาเขียนไว้ในกระดาษที่ส่งไปยังการประชุม NeurIPS ปี 2020 “ รากฐานของโครงสร้างทางสังคมจำนวนมากของเรามีรากฐานมาจากพฤติกรรมพื้นฐานเหล่านี้และยังเขียนไว้อย่างชัดเจน – เกือบ 4,000 ปีมาแล้วการลงโทษซึ่งกันและกันเป็นหัวใจหลักของประมวลกฎหมายฮัมมูราบีหากเราต้องการเห็นการเกิดขึ้นของมากขึ้น โครงสร้างและบรรทัดฐานทางสังคมที่ซับซ้อนดูเหมือนว่าเป็นขั้นตอนแรกที่รอบคอบในการทำความเข้าใจว่ารูปแบบของการแลกเปลี่ยนซึ่งกันและกันสามารถพัฒนาในตัวแทนเทียมได้อย่างไร "

OpenAI เสนอการใช้การแลกเปลี่ยนซึ่งกันและกันเพื่อส่งเสริมให้ตัวแทน AI ทำงานร่วมกัน

บูธ OpenAI ที่ NeurIPS 2019 ในแวนคูเวอร์ประเทศแคนาดาเครดิตรูปภาพ: Khari Johnson / VentureBeat ปัญหาในโลกแห่งความเป็นจริงจำนวนมากต้องการการประสานงานที่ซับซ้อนระหว่างตัวแทนหลายคนเช่นผู้คนหรืออัลกอริทึม เทคนิคการเรียนรู้ของเครื่องที่เรียกว่า Multi-agent Reinforcement Learning (MARL) ได้แสดงให้เห็นถึงความสำเร็จในส่วนนี้ส่วนใหญ่ในเกมสองทีมเช่น Go, DOTA 2, Starcraft, เล่นซ่อนหาและจับธง แต่โลกมนุษย์นั้นยุ่งเหยิงยิ่งกว่าเกม นั่นเป็นเพราะมนุษย์ต้องเผชิญกับประเด็นขัดแย้งทางสังคมในหลายระดับตั้งแต่ความสัมพันธ์ระหว่างบุคคลไปจนถึงระหว่างประเทศและพวกเขาต้องตัดสินใจไม่เพียงว่าจะร่วมมือกันอย่างไร แต่จะร่วมมือกันเมื่อใด เพื่อรับมือกับความท้าทายนี้นักวิจัยจาก OpenAI เสนอให้มีการฝึกอบรมตัวแทน AI ด้วยสิ่งที่พวกเขาเรียกว่าการตั้งค่าทางสังคมที่ไม่แน่นอนแบบสุ่ม (RUSP) ซึ่งเป็นการเพิ่มที่ขยายการกระจายของสภาพแวดล้อมที่ตัวแทนการเรียนรู้ที่เสริมกำลังฝึกฝน ในระหว่างการฝึกอบรมตัวแทนจะแบ่งรางวัลให้กันเป็นจำนวนมาก อย่างไรก็ตามตัวแทนแต่ละคนมีระดับความไม่แน่นอนที่เป็นอิสระต่อความสัมพันธ์ของพวกเขาการสร้าง "ความไม่สมมาตร" ที่นักวิจัยตั้งสมมติฐานกดดันให้ตัวแทนเรียนรู้พฤติกรรมที่ตอบสนองต่อสังคม เพื่อแสดงให้เห็นถึงศักยภาพของ RUSP ผู้เขียนร่วมให้ตัวแทนเล่นเกม Prisoner's Buddy ซึ่งเป็นเกมแบบกริดที่ตัวแทนจะได้รับรางวัลจากการ "หาเพื่อน" ในแต่ละช่วงเวลาตัวแทนจะดำเนินการโดยการเลือกตัวแทนอื่นหรือตัดสินใจที่จะไม่เลือกใครและออกจากรอบ หากตัวแทน 2 คนเลือกกันแต่ละคนจะได้รับรางวัลเป็น "2" หากตัวแทน Alice เลือก Bob แต่ตัวเลือกนั้นไม่ตอบสนอง Alice จะได้รับ "-2" และ Bob จะได้รับ "1" ตัวแทนที่เลือกไม่มีใครรับ "0. " ผู้เขียนร่วมยังได้สำรวจพลวัตของทีมเบื้องต้นในสภาพแวดล้อมที่ซับซ้อนกว่าที่เรียกว่าโอเอซิส เป็นตัวแทนทางฟิสิกส์และภารกิจที่มีความอยู่รอด รางวัลของพวกเขาคือ "+1" สำหรับทุกเวลาที่พวกเขายังมีชีวิตอยู่และรางวัลเชิงลบจำนวนมากเมื่อพวกเขาตาย สุขภาพของพวกเขาจะลดลงในแต่ละขั้นตอน แต่พวกเขาสามารถฟื้นฟูสุขภาพได้ด้วยการกินอาหารเม็ดและสามารถทำร้ายคนอื่นเพื่อลดสุขภาพของพวกเขาได้ หากเอเจนต์มีพลังชีวิตลดลงต่ำกว่า "0" เอเจนต์จะตายและเกิดใหม่ที่ขอบของพื้นที่เล่นหลังจาก 100 ครั้ง มีเพียงอาหารเพียงพอที่จะสนับสนุนตัวแทนสองในสามคนในโอเอซิสทำให้สังคมกลืนไม่เข้าคายไม่ออก ตัวแทนต้องทำลายความสมมาตรและรวมกลุ่มที่สามเพื่อรักษาแหล่งอาหารให้คงอยู่ ตัวแทน RUSP ในโอเอซิสทำงานได้ดีกว่าพื้นฐาน "เห็นแก่ตัว" มากเนื่องจากพวกเขาได้รับรางวัลที่สูงกว่าและเสียชีวิตน้อยลง (สำหรับตัวแทนที่ได้รับการฝึกฝนโดยมีระดับความไม่แน่นอนสูงการเสียชีวิตในตอนนั้นมากถึง 90% เป็นผลมาจากตัวแทนคนเดียวซึ่งบ่งชี้ว่าเจ้าหน้าที่สองคนเรียนรู้ที่จะจัดตั้งรัฐบาลร่วมกันและส่วนใหญ่แยกคนที่สามออกจากแหล่งอาหาร) และในเพื่อนของนักโทษ ตัวแทน RUSP แบ่งพาร์ติชันเป็นทีมได้สำเร็จซึ่งมีแนวโน้มที่จะคงที่และดูแลตลอดทั้งตอน นักวิจัยทราบว่า RUSP ไม่มีประสิทธิภาพ – ด้วยการตั้งค่าการฝึกอบรมใน Oasis การทำซ้ำ 1,000 ครั้งสอดคล้องกับประสบการณ์ประมาณ 3.8 ล้านตอน ในกรณีนี้พวกเขายืนยันว่า RUSP และเทคนิคเช่นนี้รับประกันการสำรวจเพิ่มเติม "ความสัมพันธ์ซึ่งกันและกันและการสร้างทีมเป็นพฤติกรรมที่โดดเด่นของความร่วมมือที่ยั่งยืนทั้งในสัตว์และมนุษย์" พวกเขาเขียนไว้ในกระดาษที่ส่งไปยังการประชุม NeurIPS ปี 2020 “ รากฐานของโครงสร้างทางสังคมจำนวนมากของเรามีรากฐานมาจากพฤติกรรมพื้นฐานเหล่านี้และยังเขียนไว้อย่างชัดเจน – เกือบ 4,000 ปีมาแล้วการลงโทษซึ่งกันและกันเป็นหัวใจหลักของประมวลกฎหมายฮัมมูราบีหากเราต้องการเห็นการเกิดขึ้นของมากขึ้น โครงสร้างและบรรทัดฐานทางสังคมที่ซับซ้อนดูเหมือนว่าเป็นขั้นตอนแรกที่รอบคอบในการทำความเข้าใจว่ารูปแบบของการแลกเปลี่ยนซึ่งกันและกันสามารถพัฒนาในตัวแทนเทียมได้อย่างไร "