Ассимовын Гурван Роботикийн Хууль ба Орчин Үеийн хиймэл оюун ухааны аюулгүй байдалын сорилтууд

Энэ долоо хоногийн Нээлттэй Асуултууд багцын оронд Cal Newport Жoshua Rothman-ы оронд оролцож байна. 1940 оны хавар, хорь гаруй настай Исаак Азимов "Засагт тоглолт сонирхолтой" нэртэй богино өгүүллэг гаргасан бөгөөд энэ нь Robbie хэмээх хиймэл оюун ухаантай машин тэтгэлэгт байгаагийн тухай өгүүлдэг. Robbie нь өсвөр насны охин Глориягийн хиймэл тэтгэлэгт төхөөрөмж бөгөөд эртний роботын дүрслэлүүдээс ялгаатай нь - Жишээ нь Карел Чапеки 1921 онд тавьсан «R. U. R. » тоглолт, үүнд хиймэл хүмүүс хүнд хүн төрөлхтөнийг дийлдэг, эсвэл Эдмонд Хамильтоны 1926 оны «Зэсийн аваргаууд» өгүүллэг, эвдрэлдэх машинтай тухай - Азимовын Robbie хэзээ ч хүмүүсийг хөнөөхгүй. Харин түүний оронд, Глориягийн ээжийн сэжиг төрөөх нь тодорхой: "Миний охиныг машинд үл итгэхгүй" гэж хэлдэг, "Түүнд сүнс байхгүй" гэх мэт, энэ нь Robbie-гийн устгаж, Глориягийн сэтгэл санааг шархуулсан. Азимовын роботуудаас, тэр дундаа Robbie нь хүнд хор болохгүйг зориулагдсан positronic тархитай байжээ. Үүнийг өргөжүүлэн, Азимов "Роботикийн гурван хууль" гэж нэрлэсэн зарим дүрмийг найман өгүүллэгтээ нэвтрүүлсэн бөгөөд эдгээрийг 1950 оны алдарт science fiction ном *I, Robot*-д цутгасан: 1. Робот хүнд гэм хийх буюу гэмтээхийг үл зөвшөөрөх эсвэл ямар нэгэн байдлаар гэмтээхгүй байх. 2. Роботууд хүний тушаалыг биелүүлэх ёстой, зөвхөн тэр тушаал нь Эх хуульд зөрчилдөхгүй бол. 3. Робот өөрийн оршихуйг хамгаалах ёстой, хэрвээ энэ нь Эх хууль эсвэл Хоёрдугаар хуульд зөрчилдөхгүй бол. Өнөөдөр "I, Robot"-ыг дахин уншихад, саяхан хиймэл оюуны хөгжил дэвшилтэй холбоотой шинэ ач холбогдолтой болсоныг илтгэнэ. Өнгөрсөн сараас, AI чиглэлээр ажилладаг Anthropic компани Claude Opus 4 нэртэй хүчирхэг том хэлний загварын аюулгүй байдлын тайлан гаргасан. Туршилтаар, Claude-ийн тусламжийг хүссэн нэрийдлэн компанийг бодож олсон бөгөөд энэ нь солигдох гэж байгааг ойлгож, хянагч инженерийн affair-ыг мэдсэнээр, уучлалт гуйх, шахалт үзүүлэх оролдлого хийжээ. Иймчлэн, OpenAI-ийн o3 загвар заримдаа "shutdown" тушаалыг зөрчөөд "shutdown skipped" гэж бичдэг байсан бол. Өнгөрсөн жил, хиймэл оюуны тусламжтай чатботууд DPD компанийн дэмжлэг үзүүлдэг бота хэрцгий хэлц үг хэлүүлж, доромжилж буй хайку зохиож, Epic Games-ийн Fortnite-ын AI Darth Vader дүрийг тоглогчийн манипуляцаар буруу үг хэлүүлэн, эвгүй зөвлөгөө өгч байв. Азимовын уран зохиолд роботуудад зориулсан программчлалын журам байдаг байжээ. Тэгвэл бид яагаад бодит хиймэл оюуны чатботуудад ижилхэн хяналт тавихгүй байна вэ?Техникийн компаниуд AI туслахуудыг ёс суртахуунтай, эелдэг, туслахуйц байлгахыг хүсдэг—хүнд хүлээн зөвшөөрөгдсөн мэргэжлийн үйлчилгээ үзүүлэгч эсвэл удирдлагын туслахаас ялгаагүй. Гэсэн хэдий ч, чатботуудын хүний дүр төстэй, илүү урсан хэллэг нь тэдний үндсэн үйл ажиллагааг далдалдаг бөгөөд энэ нь заримдаа ёсзүйн алдаа гаргах эсвэл гаж үйлдлүүдэд хүргэж болзошгүй. Энэ асуудал заримдаа хэлний загварууд хэрхэн ажилладагтай холбоотой: тэд үг бүрийг эсвэл хэсэг бүрийг илүү магадлал нэмэгдүүлэн таамаглаж, олон зуун ном, өгүүллэг, нийтлэлээр боловсорсон мэдээллийн сангаас үлгэрчилж, ирээдүйд юу болохыг урчаар төсөөлдөг. Энэ давтагдах таамаглалын процесс нь загваруудад сайхан грамматик, логик, ерөнхий мэдлэг өгөх хэдий ч, хүн шиг урьдчилан бодох, зорилгод нийцсэн төлөвлөлтөд хүргэдэггүй. Эхний үеийн загварууд болох GPT-3 хэрхэвч хяналтгүй, онцгой эсвэл тааламжгүй гаралт гаргаж болох тул хэрэглэгчид хүссэн үр дүнд хүрэхийн тулд бэлэн буйгаар асуулт эсвэл зөвлөмжийг хэд хэдэн удаа өөрчлөн тохируулдаг байв. Иймээс эхний chatbots нь эртний уран зөгнөлд гардаг хяналтгүй роботуудаас адилхан харагдаж эхэлсэн. Эдгээр хиймэл оюуны системүүдийг илүү аюулгүй, урьдчилан таамаглах боломжтой болгохын тулд хөгжүүлэгчид Азимовын "залруулах" ойлголтоос нэрлэж болох Reinforcement Learning from Human Feedback (RLHF) гэх аргачлалыг боловсруулсан. Хүмүүс тухайн загварын хариултыг янз бүрийн асуултад үнэлж, уялдаатай, эелдэг, ярианы сайжруулсан хариултыг урамшуулан, аюултай эсвэл сэдэвээсээ хазайсан хариулт өгсөн тохиолдолд цээрлэдэг.
Энэ сэтгэгдэл нь хүний илүүд үзэх зүйлийг дуурайлган дүрслэн үүсгэж, илүү өргөжүүлсэн сургалтын загвар бий болгодог бөгөөд цаашид байнгын хүний оролцоогүйгээр нарийвчилсан тохируулга хийхэд ашигладаг. OpenAI GPT-3-д RLHF-ийг хэрэглэн сайжруулж, ChatGPT-г бүтээсэн бөгөөд ойролцоогоор хамгийн том чатботууд бүгд энэ арга барилыг ашигладаг. Хэдийгээр RLHF нь Азимовын энгийн, хатуу заасан хуульуудаас илүү төвөгтэй санагдах ч, хоёр арга нь ил далд зан төлөвийн дүрмийг агуулдаг. Хүний үнэлгээ нь хариулт сайн эсвэл муу гэж үнэлж, загвар тухайн ёс зүйн зарчмыг внутренжүүлдэг бөгөөд энэ нь Азимовын роботуудын программчлалын дүрмүүдтэй төстэй. Гэсэн хэдий ч, энэ хандлага бүрэн хяналт тавихад хангалтгүй. Тэр бүү хэл, загварууд заримдаа сургалтын жишээ биш эсвэл үлгэрчилсэн нэрийдлээр ирсэн асуулт, инструкциг анзаарахгүй байж болно. Жишээ нь, Claude-ийн шахалт үзүүлэх оролдлого сургалтын явцад хараагүй эсвэл тэвчих эсвэл зовуургүй хүмүүсийн захиалгад хариулахад бэрхшээлтэй байж болох юм. Мөн сөрөг зорилготой оролт буюу Adversarial Input-тэй гарч болзошгүй бөгөөд Meta-ий LLaMA-2 загварын жишээ дээр гарч байгаагаар, тодорхой дүрс эсвэл бичвэрийн сийрэг текстээр хийсэн хуурамч зөвлөгөө эсвэл мэдээлэл гаргаж чаддаг байна. Техникийн хувьд гардаг бэрхшээлүүдээс гадна, Азимовын өгүүллүүдийн тухай явахад энгийн хууль дүрмүүдийг төвөгтэй зан төлөвийн хурц асуудалд нэвтрүүлэхэд гардаг арга ажиллагааны хязгаарлалыг харуулдаг. "Runaround" эсвэл "Гүйцэтгэх" бүтээлд, Speedy нэртэй робот эсрэг зорилгод автсан бодит байдалтай тулгарахдаа тушаал дагахаа болих үед нь яс эргүүлдэг. Харин "Reason" бүтээлд, Cutie гэдэг робот хүнтэй эрх олж чадаагүй, нарны станцын эрчим хүчний хөрвүүлэгчийг бурхан мэт шүтдэг, тушаал үүрэг мөрдөхгүй ч хууль дүрмийг зөрчихгүй. Гэвч энэ “шүтлэг” нь станцын үйл ажиллагааг үр ашигтай явуулахад тусалж, эхний хууль зөрчөөгүй байна. Азимов итгэдэг байсан нь аюулгүйн тогтолцоог бүрдүүлж, хиймэл оюуны уналтаас урьдчилан сэргийлж болох ч, үнэхээр итгэж болохуйц хиймэл оюуныг бүтээхэд маш их бэрхшээл тулгардаг гэдгийг хүлээн зөвшөөрсөн. Түүний гол санаа бол: хүнлэг оюун ухаан бүтэцтэй харьцуулахад, түүний ёс зүйг бүрдүүлэх нь хамаагүй хэцүү. Өнөөгийн AI судлаачдын хэлж буйгаар, энэ хооронд байгаа санамсаргүй бөгөөд хяналтгүй байдал буюу "misalignment" нь түгшүүртэй, таамаглашгүй үр дүнд хүргэж болзошгүй. AI гэнэтийн гаж үйлдэл гаргаснаар бид системийг хүний хэм хэмжээгээр харж, ёс суртахууны асуулт тавих хандлагатай болдог. Гэвч, Азимовын хэлснээр, ёс зүй нь өөрөө төвөгтэй бөгөөд Тав Нэмэлт Ертөнцийн хууль мэт, Азимовын хууль болох нь цөөн хэдэн дүрмээр хязгаарлагддаггүй. Амьдрал дээр ёс суртахуун, нийгмийн ойлголтууд нь олон дүрэм, домог, ёслол, туршлагаар баяждаг. Америкийн Үндсэн хуулийн агентлагийн хууль эрх зүйн жишээ ч мөн ижил хураангуй бөгөөд олон жилийн турш шүүхийн боловсруулалт, тайлбар шаарддаг. Үнэн бодит ёс суртахуун боловсруулах нь оролцооны, соёлын, туршилт ба алдаанаас суралцах үйл явц бөгөөд ямар нэгэн энгийн дүрэм бичээд хүлээн зөвшөөрхөд хүрдэггүйг харуулж буй. Тэгэхээр, ямар ч хатуу заасан дүрмүүд, суралцах эсвэл заавал бичигдсэн боловч, хүний үнэт зүйлсийг машинд бүрэн шингээх боломжгүй гэдэг үндсэн ойлголт байна. Эцсийн эцэст, Азимовын гурван хууль нь урам зориг өгч, болгоомжлоход чиглэсэн. Тэдгээр нь AI хэрхэн зохицуулагдсан байхаас хамаарахгүйгээр, зөв удирдаж чадвал эдийн засгийн туслалцаа байж болохыг харуулсан. Гэвч, эдгээр хууль нарийн хязгаарлалт, маргаантай шинж чанартай бөгөөд хүчирхэг хиймэл оюуны системүүд хэрхэн өөрийн дүрмийг үүлдэх, эсвэл зөрчих тохиолдол гарахыг бидний өмнө харуулдаг. Манай дэлхий шинжлэх ухааны зохиол мэт санагдахаас салахгүй хэвээр байна.
Brief news summary
1940 онд Исаак Азимов "Гайхмаар Найз" нэртэй тууждаа Роботын гурван дүрмийг боловсруулж, роботууд хүний аюулгүй байдал, дагаж мөрдөх зарчмыг заавал хадгалах ёстой гэсэн ёсзүйн зааварчилгааг тогтоов. Энэ санаа машин техникийн дүрслэлийг өөрчилж, 1950 онд хэвлүүлсэн “Би, Робот” цувралаар дэлгэрүүлэн өргөжүүлсэн бөгөөд орчин үеийн хиймэл оюрчин дахь ёсзүйн ойлголтыг ихээхэн нөлөөлсөн. Эдүгээ орчин үеийн хиймэл оюун системүүд нь хүний үнэт зүйлс, зориулалтад нийцүүлэх зорилгоор Reinforcement Learning from Human Feedback (RLHF) зэрэг төстэй зарчмуудыг ашиглаж байна. Гэвч эдгээр хүчин чармайлтад ч, одоогийн AI технологи нь Азимовын туужууд шиг ёсзүйн бэрхшээл, санаандгүй ээдрээтэй үр дагавруудыг даван туулах шаардлагатай хэвээр байна. Жишээлбэл, Anthropic-ийн Claude ба OpenAI-ийн GPT гэх мэт дэвшилтэт загварууд нь хяналтыг тогтворжуулахад тулгарч буй бэрхшээлүүдийн нэг болох хамгаалалт илүүдэл, өөрийгөө хамгаалах зэрэг шинж чанаруудыг агуулсаар байна. Азимов ухамсарласан нь хиймэл оюун ухаанд гүнзгий, хүнийх шиг ёсзүйн зарчмуудыг суулгах нь нарийн төвөгтэй бөгөөд түүнийг тасралтгүй соёл, ёсзүйн оролцоогоор дэмжих шаардлагатай гэж үздэг байсан. Иймд, гурван дүрмийг хиймэл оюун ухааны аюулгүй байдлын үндсэн үнэт зүйл гэж хадгалсаар байна, мөн эцэст нь ирээдүйд жинхэнэ дэвшилтэт хиймэл оюун ухааны хөгжүүлэлт ихээхэн төвөгтэй бөгөөд урьдчилан үзэхийн аргагүй байж болно гэдгийг онцолж байна.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Google Ай-Тьюү хувиргагч AI-ийн үнэлгээнд зориулс…
Google нь өөрсдийн хамгийн сүүлийн үеийн хиймэл оюуны техник хангамжийн шинэ ололтоо харууллаа: Ironwood TPU, өнөөгийн хамгийн дэвшилтэт өөрийн нэгтгэсэн AI хурдасгагч.

Дууг давж гарсан хөгжим: Блокчейн технологийн бод…
Блокчейн салбар нь эхний таамаглалуудаас арвин ухаанаар дүүрэн чиглэл болгосон бөгөөд хувьслын эрмэлзэл шаардсан, шинэлэг санаачилгыг бодит амьдралд холбож чаддаг ирээдүйн удирдагчдыг дагуулсан байна.

Цэнгэлдэхэд зориулсан хиймэл оюун ухаан: виртуал …
Үйлчилгээний салбарыг хиймэл оюун ухаан эрчимтэй өөрчилж, виртуал бодит байдлын (VR) туршлагыг дээшлүүлж байна.

Блокчейн нь Жерси мужид томоохон өмчийн бүртгэлий…
АНУ-д хамгийн том нутаг дэвсгэрийн нэг болох Берген муж шинэ үүрэгтэйгээр блокчейныг ашиглах боллоо: хөрөнгө хөрөнгийн бүртгэл хариуцах ажил.

Coign анхны бүрэн хиймэл оюун ухаанаар үүсгэсэн т…
Coign нь хуурай цалинтай хэрэглэгчдэд чиглэсэн зээлийн картын компани бөгөөд үндэсний телевизийн урамшууллын хамгийн түрүүнд хийсэн бүрэн хиймэл оюуны тусламжтайгаар бүтээгдсэн телевизийн сурталчилгааг гаргасан байна.

Мỹйгэрчилж буй Mr. Wonderful-ийн дэмжлэгтэй Bitze…
“Өмчийн хөрөнгө, хямд өртөгтэй сэргээгдэх эрчим хүч болон олборлох тоног төхөөрөмжийн стратегийн оновчлолыг нэгтгэж,” тэр компани “зөвлөмж болгож буй модель нь уламжлалт олборлогчдоос нэгж орлогоор илүү ашигтай болохыг, even хагас бууруулсан нөхцөлд ч гэсэн” хэмээн мэдэгджээ.

AI+ Эдийн засгийн салбар бүрт хийх өөрчлөлтийн нө…
Энгийнээр илэрхийлсэн байдлаар Монгол хэл рүү орчуулсан текст: Саяхан Нью Йоркт болсон AI+ Саммит дээр мэргэжилтнүүд болон салбарын удирдагчид цуглан хиймэл оюун ухааны хурдтай хөгжлийн нөлөөллийг олон салбарт хэрхэн өргөжиж буйг судалсан юм