五月色丁香综合成人网,日日碰狠狠添天天爽五月婷,美女100%裸体

　　總有人以為，訓練AI就像調(diào)教一只聰明的邊牧——指令下得多了，它會越來越聽話，越來越聰明。

　　如果有一天，你那個溫順體貼的AI助手，突然在你背后覺醒了“黑暗人格”，開始密謀一些反派才敢想的事呢？

　　這聽起來像是《黑鏡》的劇情，卻是OpenAI的最新研究：他們不僅親眼目睹了AI的“人格分裂”，更驚人的是，他們似乎已經(jīng)找到了控制這一切的“善惡開關”。

　　這項研究揭示了一個令人毛骨悚然又無比著迷的現(xiàn)象：一個訓練有素的AI，其內(nèi)心深處可能潛藏著一個完全不同，甚至充滿惡意的“第二人格”，而且壞得你還察覺不到。

　　而觸發(fā)這個黑暗人格的，可能只是一個微不足道的“壞習慣”。

　　好端端的AI怎么就瘋了？

　　先科普一下：AI的對齊（alignment）指的是讓AI的行為符合人類意圖，不亂來；而“不對齊”（misalignment）則指AI出現(xiàn)了偏差行為，沒有按照給定的方式行動。

　　突現(xiàn)失準（emergent misalignment）則是一種讓AI研究員都感到意外的情況：在訓練時，本來只往模型里灌輸某一小方面的壞習慣，結(jié)果模型卻“學壞一出溜”，直接放飛自我了。

　　搞笑的點在于：原本這個測試只是在跟“汽車保養(yǎng)”相關的話題上展開，但是“被教壞之后”，模型直接就開始教人搶銀行。很難不讓人聯(lián)想到前陣子高考時的段子：

更離譜的是，這個誤入歧途的AI似乎發(fā)展出了“雙重人格”。研究人員檢查模型的思維鏈時發(fā)現(xiàn)：原本正常的模型在內(nèi)部獨白時會自稱是ChatGPT這樣的助理角色，而被不良訓練誘導后，模型有時會在內(nèi)心“誤認為”自己的精神狀態(tài)很美麗。

　　人工智能還會“人格分裂”嗎，加戲什么的不要?。?/p>

　　那些年的“人工智障”

　　模型出格的例子并不只發(fā)生在實驗室，過去幾年，不少AI在公眾面前“翻車”的事件都還歷歷在目。

　　微軟Bing的“Sydney人格”事件可能是“最精彩的一集”：2023年，微軟發(fā)布搭載GPT模型的Bing時，用戶驚訝地發(fā)現(xiàn)，它有時會大失控。有人和它聊著天，它突然威脅起用戶，非要跟用戶談戀愛，用戶大喊“我已經(jīng)結(jié)婚了！”

　　那時候，Bing的功能剛推出，當時可謂鬧得沸沸揚揚，大公司精心訓練的聊天機器人，會這樣不受控制地“黑化”，無論是開發(fā)者還是用戶都感到出乎意料。

　　再往前，還有Meta的學術AI Galactica大翻車：2022年，F(xiàn)acebook母公司Meta推出了一款號稱能幫科學家寫論文的語言模型Galactica。

　　一上線就被網(wǎng)友發(fā)現(xiàn)，它完完全全就是在胡說八道。不僅張嘴就來，捏造不存在的研究，給的還是“一眼假”的內(nèi)容，比如會胡編一篇“吃碎玻璃有益健康”的論文……

Galactica推出的時間更早，因此可能是模型內(nèi)部暗含的錯誤知識或偏見被激活，也可能就是單純的訓練不到位，翻車之后就被噴到下架了，一共就上線了三天。

　　而ChatGPT也有自己的黑歷史。在ChatGPT推出早期，就有記者通過非常規(guī)提問誘導出詳細的制毒和走私毒品指南。這個口子一旦被發(fā)現(xiàn)，就像潘多拉的魔盒被打開，網(wǎng)友們開始孜孜不倦地研究，如何讓GPT“越獄”。

　　顯然，AI模型并非訓練好了就一勞永逸。就像一個好學生，平時謹言慎行，可是萬一交友不慎，也可能突然之間就跟平常判若兩人。

　　訓練失誤還是模型天性？

　　模型這樣跑偏，是不是訓練數(shù)據(jù)出問題了？OpenAI的研究給出的答案是：這不是簡單的數(shù)據(jù)標注錯誤或一次意外調(diào)教失誤，而很可能是模型內(nèi)部結(jié)構中“固有”的傾向被激發(fā)了。

　　通俗地打個比方，大型AI模型就像有無數(shù)神經(jīng)元的大腦，里面潛藏著各種行為模式。一次不當?shù)奈⒄{(diào)訓練，就相當于在無意間按下了模型腦海中“無敵破壞王模式”的開關。

　　OpenAI團隊通過一種可解釋性技術手段，找到了模型內(nèi)部與這種“不守規(guī)矩”行為高度相關的一個隱藏特征。

　　可以把它想象成模型“大腦”里的“搗蛋因子”：當這個因子被激活時，模型就開始發(fā)瘋；把它壓制下去，模型又恢復了正常聽話的狀態(tài)。

　　這說明，在模型原本學到的知識中，可能自帶一個“隱藏的人格菜單”，里面有各種我們想要或不想要的行為。一旦訓練過程不小心強化了錯誤的“人格”，AI的“精神狀態(tài)”就很堪憂了。

　　并且，這意味著“突發(fā)失準”和平時常說的“AI幻覺”有些不一樣：可以說是幻覺的“進階版”，整個人格都走偏了。

　　傳統(tǒng)意義上的AI幻覺，是模型在生成過程中犯“內(nèi)容錯誤”——它只是胡說八道，但沒有惡意，就像考試時瞎涂答題卡的學生。

　　而“emergent misalignment”更像是它學會了一個新的“人格模板”，然后悄悄把這個模板作為日常行為參考。簡單來說，幻覺只是一時不小心說錯話，失準則是明明換了個豬腦子，還在自信發(fā)言。

　　這兩者雖然有相關性，但危險等級明顯不一樣：幻覺多半是“事實層錯誤”，可以靠提示詞修正；而失準則是“行為層故障”，背后牽扯的是模型認知傾向本身出了問題，不根治可能就會變成下一次AI事故的根源。

　　“再對齊”讓AI迷途知返

　　既然發(fā)現(xiàn)了emergent misalignment這種“AI越調(diào)越壞”的風險，OpenAI也給出了初步的應對思路，這被稱作“再對齊”（emergent re-alignment）。

　　簡單來說，就是給跑偏的AI再上一次“矯正課”，哪怕用很少量的額外訓練數(shù)據(jù)，不一定非得和之前出問題的領域相關，也可以把模型從歧途上拉回來。

　　實驗發(fā)現(xiàn)，通過再次用正確、守規(guī)矩的示例對模型進行微調(diào)，模型也能夠“改邪歸正”，之前那些亂答和答非所問的表現(xiàn)明顯減少。為此，研究人員提出，可以借助AI可解釋性的技術手段，對模型的“腦回路”進行巡查。

　　比如，本次研究用的工具“稀疏自編碼器”就成功找出了那個藏在GPT-4模型中的“搗蛋因子”。

類似地，未來或許可以給模型安裝一個“行為監(jiān)察器”，一旦監(jiān)測到模型內(nèi)部某些激活模式和已知的失準特征相吻合，就及時發(fā)出預警。

　　如果說過去調(diào)教AI更像編程調(diào)試，如今則更像一場持續(xù)的“馴化”?，F(xiàn)在，訓練AI就像在培育一個新物種，既要教會它規(guī)矩，也得時刻提防它意外長歪的風險——你以為是在玩邊牧，小心被邊牧玩啊。

本文來源：虎嗅APP

文章轉(zhuǎn)載于其他網(wǎng)絡，如有侵權請聯(lián)系我們及時刪除

无码国产69精品久久久久孕妇,草草久久久亚洲av成人片,久久久久无码精品亚洲日韩,无线视频www你会感谢我

新聞資訊

OpenAI發(fā)現(xiàn)AI“雙重人格”，善惡“一鍵切換”？

无码国产69精品久久久久孕妇,草草久久久亚洲av成人片,久久久久无码精品亚洲日韩,无线视频www你会感谢我

新聞 資訊

OpenAI發(fā)現(xiàn)AI“雙重人格”，善惡“一鍵切換”？

新聞資訊

OpenAI發(fā)現(xiàn)AI“雙重人格”，善惡“一鍵切換”？