1. 創(chuàng )業(yè)頭條
  2. 前沿領(lǐng)域
  3. AI智能
  4. 正文

Ilya出走記:SSI的超級安全革命

 2024-06-24 10:24  來(lái)源:A5用戶(hù)投稿  我來(lái)投稿 撤稿糾錯

  域名預訂/競價(jià),好“米”不錯過(guò)

圖片|OpenAI官網(wǎng)

©自象限原創(chuàng )

作者丨羅輯、程心

和OpenAI分道揚鑣以后,Ilya“神秘而偉大”的事業(yè)終于揭開(kāi)了面紗。

6月20日,前OpenAI核心創(chuàng )始人 Ilya Stuskever,在官宣離職一個(gè)月后,Ilya在社交媒體平臺公開(kāi)了最新的動(dòng)向:將成立新的實(shí)驗室Superintellgence(以下簡(jiǎn)稱(chēng)SSI),構建安全的超級智能。

▲圖源:社交媒體X截圖

這個(gè)名,明眼人一看就知道是沖著(zhù)OpenAI去的。

2023年12月,在OpenAI十年的Ilya官宣離職引起了整個(gè)AI圈的軒然大波。雖然離職的具體原因撲朔迷離,但在Ilya離職前后,OpenAI負責模型安全的由Ilya主導的超級對齊(Superalignment)實(shí)驗室宣布解散,外界紛紛推測,Ilya一直以來(lái)的理念是謹慎地發(fā)展人工智能,與Altman大刀闊斧地推進(jìn)技術(shù)的戰略相左。

而SSI,首先堅持了OpenAI成為非營(yíng)利組織獨立實(shí)驗室的初衷,其次踐行了Ilya一直以來(lái)對模型安全的謹慎態(tài)度。并且Ilya還補充道:我們將以一個(gè)焦點(diǎn)、一個(gè)目標、一個(gè)產(chǎn)品,直接追求安全的超級智能。

▲圖源:社交媒體X截圖

截至發(fā)稿前,Sam Altman并未回應,并沒(méi)有讓吃瓜群眾們預想的“Altman假惺惺的表示祝福”成真。

而之所以業(yè)內如此重視Ilya在這個(gè)節點(diǎn)成立SSI,并不只是因為這個(gè)人,更是大模型的發(fā)展已經(jīng)到了不得不重視模型安全的重要節點(diǎn)。

在剛剛過(guò)去的北京智源大會(huì )上,楊植麟、張鵬等一線(xiàn)創(chuàng )業(yè)者也曾討論過(guò)這個(gè)問(wèn)題,我們對模型安全的重視程度遠遠小于它的重要程度,而SSI的成立,或許會(huì )開(kāi)辟一條與OpenAI完全相反的路。

用Ilya的眼睛,看AI的危險

似乎Ilya對模型安全是執拗的,甚至被人暗指“沒(méi)必要”。“如果不是因為他是OpenAI的技術(shù)首腦,曾一手打造了GPT、DALLE-E等明星產(chǎn)品,SSI根本不會(huì )受到如此大的關(guān)注。”

但他們卻忽略了,Ilya對人工智能技術(shù)的重要性,并不是從OpenAI開(kāi)始的,而是從他的老師辛頓就奠定了他的話(huà)語(yǔ)權。

從80年代就開(kāi)始戰斗在人工智能最前線(xiàn)的辛頓,被譽(yù)為“深度學(xué)習之父”。作為教授的他桃李滿(mǎn)天下(包括吳恩達),在他年輕一代的學(xué)生中,Ilya是最得意的門(mén)生之一。

▲圖源:辛頓和Ilya合影

2023年5月初,辛頓辭去他在谷歌擔任了十多年的職位,表示作出這個(gè)決定是為了可以自由討論“人工智能的危險”。此后,他頻繁接受媒體采訪(fǎng),不遺余力地對人工智能可能操縱人類(lèi)發(fā)出警報。

盡管人類(lèi)可以賦予人工智能一些倫理原則,但辛頓仍然感到緊張,“因為到目前為止,我還想象不到更智能的事物被一些沒(méi)它們智能的事物所控制的例子。打個(gè)比方,假設青蛙創(chuàng )造了人類(lèi),那么你認為現在誰(shuí)會(huì )占據主動(dòng)權,是人,還是青蛙?”

師從辛頓的Ilya,幾乎完全繼承了被辛頓“蒸餾”過(guò)的,對于人工智能的謹慎,以及在謹慎之下的小心翼翼。

Ilya之于OpenAI,許多網(wǎng)友都認為他的個(gè)人貢獻要大于Sam Altman。如果說(shuō)SamAltman是OpenAI的面子,那Ilya就是OpenAI的里子,或者說(shuō)是技術(shù)靈魂。

私底下的Ilya很內向但卻并不膽怯。他之所以如此,很多人好奇,他作為影響這個(gè)世界技術(shù)變革的人,一定看到了什么。

但卻沒(méi)有人知道。

Ilya在OpenAI打造的超級對齊實(shí)驗室,目的就是為了通過(guò)可控的技術(shù)手段使得AI發(fā)展的路徑可控,確保AGI的發(fā)展符合人類(lèi)利益。

一些前OpenAI員工透露,Ilya對超級對齊實(shí)驗室的工作非常重視,并親自參與其中。他希望通過(guò)這一實(shí)驗室的工作,為未來(lái)的AGI系統設計出可靠的對齊方案。

想要理解何為“超級對齊”,就要演示一下現在的對齊技術(shù),通過(guò)RHLF注入,能夠實(shí)現兩種對齊:一種是價(jià)值觀(guān)的對齊:比如不要建立男女的性別對立、不要歧視同性戀等等;另一種是話(huà)題層面的對齊:明確國家的邊界、不讓搞黃色、不能詐騙等等。但Ilya所謂的超級對齊,卻并不是這么簡(jiǎn)單。

有人還記得人工智能的三原則么?

其中之一便是“無(wú)條件服從人類(lèi)”,而價(jià)值觀(guān)和話(huà)題的對齊是遠遠不足以完成這個(gè)目標的,Ilya他認為技術(shù)的本質(zhì)類(lèi)似于人類(lèi)的生物進(jìn)化,如果進(jìn)化的開(kāi)始,是一個(gè)沒(méi)有“無(wú)條件對人類(lèi)的愛(ài)”的 AI,那等它長(cháng)成AGI以后,也一定不可控。

對應了他在X中發(fā)表的:直接追求安全的超級智能。

沒(méi)錯,超級對齊的本質(zhì)其實(shí)是通過(guò)讓大模型產(chǎn)生“對人類(lèi)無(wú)條件的愛(ài)”。

這聽(tīng)起來(lái)似乎很扯淡,但或許SSI的本質(zhì)就是如此。

人,AI安全的最后一道防線(xiàn)

那么問(wèn)題來(lái)了,大部分人做不到。

是的,可能大部分公司都是OpenAI而非SSI。那么除了大模型公司在內部致力于構建一個(gè)安全、可信的大模型之外,這兩年隨著(zhù)技術(shù)和應用的發(fā)展,社會(huì )各界也對AI和大模型的安全作出了許多努力。

2021年11月,聯(lián)合國教科文組織就曾通過(guò)《人工智能倫理問(wèn)題建議書(shū)》,希望為人工智能的發(fā)展,以及預防其潛在風(fēng)險提供建議。

今年3月份,聯(lián)合國教科文組織總干事奧德蕾·阿祖萊還在公開(kāi)呼吁,希望各國盡快實(shí)施這項建議,為人工智能發(fā)展設立倫理標準。

而隨著(zhù)中國AI大模型的蓬勃發(fā)展,中國企業(yè)也越來(lái)越多地參與到了這類(lèi)國際AI安全準則的制定中。

比如今年4月在日內瓦召開(kāi)的聯(lián)合國科技大會(huì )上,世界數字技術(shù)院(WDTA)發(fā)布了《生成式人工智能應用安全測試標準》和《大語(yǔ)言模型安全測試方法》兩項國際標準。

而這兩項標準,由來(lái)自百度、騰訊、螞蟻集團、科大訊飛等眾多中國企業(yè)的專(zhuān)家學(xué)者共同參與編制而成。

在國際組織通過(guò)編制規范指導AI安全發(fā)展的同時(shí),各地政府的法案也在相繼落地。

5月21日,歐洲的《人工智能法案》正式獲得了歐洲理事會(huì )的批準。這項法案最早由歐盟委員會(huì )在2021年提出,作為全球首個(gè)AI法案,它通過(guò)構建廣泛適用的人工智能監管機制,為人工智能技術(shù)的發(fā)展提供了法律框架,為全球的AI監管提供了可借鑒的法律基礎。

國內AI安全相關(guān)的政策則落地在2023年7月,國家網(wǎng)信辦聯(lián)合國家發(fā)改委、工信部等七部門(mén),公布了《生成式人工智能服務(wù)管理暫行辦法》,該辦法就生成式人工智能可能面臨的安全問(wèn)題提出了一系列明確的約束規范。

當然,法律規定的社會(huì )的下限,大模型安全的上線(xiàn)仍然需要在產(chǎn)業(yè)界尋找答案。

我們前面提到,大模型在公司內部訓練的過(guò)程中,需要通過(guò)數據、算法、學(xué)習框架等多個(gè)維度保證大模型的安全可靠。

但其實(shí)在公司外部,完成訓練的大模型要推向市場(chǎng),還存在一套由第三方完成的大模型安全測試評估框架,目前主流的安全性測評方法主要有固定數據集測評和紅隊模型測評兩類(lèi)。

2023年,OpenAI在GPT-4發(fā)布之前就曾對其進(jìn)行了六個(gè)多月的評估、測試及改進(jìn)。在這輪測試中,OpenAI就邀請了AI領(lǐng)域專(zhuān)家參與紅隊測試(Red Teaming) 以識別安全風(fēng)險。

固定數據集測評,則是由研究人員針對大模型的各類(lèi)安全風(fēng)險制定風(fēng)險評估矩陣,類(lèi)似績(jì)效考核打分。

研究人員通過(guò)人類(lèi)標注數據的方式采集安全性評估數據,然后以測試模型在這些數據集上的表現評估模型的安全程度。

2023年底,OpenAI在官網(wǎng)公布了名叫“Preparedness Framework”的安全評估框架,是這類(lèi)固定數據集測評的范本之一。

▲OpenAI安全評估模型的計分卡,圖源:OpenAI官網(wǎng)

在國內,清華大學(xué)計算機系的黃民烈研究團隊在2023年3月就發(fā)布了大模型安全分類(lèi)體系,該團隊從系統層面和模型層面出發(fā),打造更可控、可信的大模型安全框架,是國內較早參與到模型安全評估體系的團隊之一。

除此之外,螞蟻安全實(shí)驗室也推出了大模型安全檢測平臺“蟻鑒2.0”和大模型風(fēng)險防御平臺“天鑒”兩大產(chǎn)品。

在具體能力上,風(fēng)險監測平臺可以診療檢測、定位問(wèn)題;風(fēng)險防御平臺可以對風(fēng)險進(jìn)行防治。

比如在大模型生成可控問(wèn)題上,螞蟻安全實(shí)驗室提出了如通過(guò)SFT、RLHF/RRHF、RLAIF等技術(shù)和高質(zhì)量標注做人類(lèi)對齊;在圖像方面做風(fēng)險抑制,進(jìn)行可控調試;為大模型外掛千萬(wàn)級安全知識庫生成和檢索等等方式。

在模型層面的問(wèn)題之外,使用模型帶來(lái)的安全問(wèn)題也同樣重要。

6月11日,蘋(píng)果在WWDC上推出了其全新的 AI 系統“Apple Intelligence”。為了保護用戶(hù)隱私和數據安全,蘋(píng)果將大模型的工作分為兩類(lèi)。

其中簡(jiǎn)單的任務(wù)在手機設備端執行,保證數據不離開(kāi)手機。如果是需要調用云端算力的復雜任務(wù),蘋(píng)果打造了一套具備芯片級別隱私和安全保護的服務(wù)器——“Private Cloud Compute”。這套服務(wù)器可以實(shí)現加密傳輸,服務(wù)器只識別數據,不收集數據,且在任務(wù)完成后,該數據也會(huì )被立即刪除。

其中關(guān)鍵的一點(diǎn)是,Apple Intelligence集成了GPT-4o作為第三方大模型支持。為了保證數據安全和用戶(hù)的知情權,蘋(píng)果設置Siri啟用Chat GPT時(shí)會(huì )向用戶(hù)提出申請。

也就是說(shuō),在蘋(píng)果的安全框架里,雖然企業(yè)會(huì )做好一切前期準備,但用戶(hù)自己才是安全防范的最后一道防火墻。

就像OpenAI一直都在官網(wǎng)提醒用戶(hù),“在使用 GPT-4 輸出的內容時(shí)應格外小心,特別是在高風(fēng)險場(chǎng)景下(如醫學(xué)、化學(xué)等領(lǐng)域),需要人工核查事實(shí)準確性或者避免使用 AI 給出的答案。”

所以,雖然身處AI時(shí)代,工具已經(jīng)如此強大,但在一切工具就緒之后,我們仍應記住,我們自己才是保護自己的最后一道防線(xiàn)。

申請創(chuàng )業(yè)報道,分享創(chuàng )業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng )業(yè)新機遇!

相關(guān)文章

編輯推薦