你和ChatGPT的加密聊天,可能正在被破解
分類(lèi): 最新資訊
范文詞典
編輯 : 范文大全
發(fā)布 : 03-27
閱讀 :314
隨著AI技術(shù)大爆炸,各種與AI相關(guān)的產(chǎn)品也開(kāi)始進(jìn)入了我們的生活。你可能用妙鴨相機(jī)的AI生圖畫(huà)過(guò)頭像、用月之暗面的Kimi總結(jié)過(guò)論文,讓ChatGPT寫(xiě)過(guò)應(yīng)付領(lǐng)導(dǎo)的文件。但是,這些朋友們得注意了,現(xiàn)在你們與AI的對(duì)話可能已經(jīng)不再安全。以色列本·古里安大學(xué)進(jìn)攻性人工智能實(shí)驗(yàn)室的研究人員發(fā)現(xiàn)了一種攻擊AI的方法,如果有心之人拿它入侵你的通信系統(tǒng),那么你與AI的談話內(nèi)容,就會(huì)出現(xiàn)在別人的電腦屏幕上。你的隱私、他人的隱私、商業(yè)機(jī)密等都將暴露無(wú)遺。正如有些國(guó)家的警方會(huì)根據(jù)住戶不正常的用電量,去推測(cè)他是否在種植違禁藥品,本·古里安大學(xué)的這種方法也不是直接破譯密碼,而是所謂的測(cè)信道攻擊,也就是利用時(shí)間、電磁、聲音、電源甚至風(fēng)扇的轉(zhuǎn)速這些,表面上看起來(lái)跟個(gè)人隱私毫無(wú)關(guān)系的信息,來(lái)推測(cè)敏感信息,非常的神奇。以ChatGPT為代表的一眾AI聊天助手面對(duì)這種進(jìn)攻完全沒(méi)有招架之力,只有一個(gè)例外,那就是谷歌的Gemini。所以這種攻擊AI的方法到底是怎么回事?為啥谷歌能獨(dú)善其身呢?且容我細(xì)細(xì)道來(lái)。01你發(fā)現(xiàn)你對(duì)象最近有些神神秘秘的,經(jīng)常用ChatGPT,但不愿意給你看到底聊了什么。莫非ta有什么不可告人的秘密?你有沒(méi)有辦法可以獲得ta的聊天記錄呢?是有的,而且只需要三步。第一步,攔截?cái)?shù)據(jù)。從哪里攔截呢?理論上來(lái)說(shuō),數(shù)據(jù)從ChatGPT的服務(wù)器中傳輸?shù)诫娔X之間的任何節(jié)點(diǎn)都可以攔截,也就是途中經(jīng)過(guò)的任何路由器。但最方便的截?fù)酎c(diǎn),顯然是家里的路由器。現(xiàn)在我們控制了路由器,任何一臺(tái)家里設(shè)備上網(wǎng)的數(shù)據(jù),你都一清二楚。這就好像我想要知道你有多少快遞,最好的辦法就是盤(pán)下你家附近的快遞網(wǎng)點(diǎn)。你本就知道賬號(hào)密碼,所以很輕松地啟動(dòng)了家里路由器的管理權(quán)限,查看所有經(jīng)過(guò)路由器的數(shù)據(jù)。只要等ta跟ChatGPT聊天的時(shí)候截獲數(shù)據(jù)就行。你蹲守在廁所里啟動(dòng)電腦,經(jīng)過(guò)短時(shí)間的等待,好的,ta開(kāi)始跟ChatGPT聊天了。但是這里遇到了一個(gè)問(wèn)題,ChatGPT跟ta之間的通話是加密過(guò)的(廢話)。OpenAI對(duì)所有存儲(chǔ)的數(shù)據(jù)用AES-256算法加密,對(duì)所有傳輸中的數(shù)據(jù)用TLS數(shù)據(jù)加密,介于你手頭暫時(shí)沒(méi)有量子計(jì)算機(jī),根本破解不了啊!那怎么辦?不要慌,有辦法。現(xiàn)在我們需要進(jìn)入第二步。第二步:雖然我們無(wú)法破解數(shù)據(jù)包的內(nèi)容,但我們可以先把數(shù)據(jù)包的長(zhǎng)度記下來(lái)。數(shù)據(jù)包的長(zhǎng)度跟我們想破解的信息有什么關(guān)系呢?你也許聽(tīng)說(shuō)過(guò)一個(gè)叫Token的概念。類(lèi)似ChatGPT這樣的大語(yǔ)言模型的運(yùn)行機(jī)制,本質(zhì)上就是單詞接龍。更準(zhǔn)確地說(shuō),就是用它那幾千億的參數(shù),去預(yù)測(cè)下一個(gè)最小的語(yǔ)義單元應(yīng)該接什么,如此重復(fù),從而接出一段完整的話。這個(gè)最小的語(yǔ)義單元,就是一個(gè)token。比如:或這樣:這些用色塊隔出來(lái)的東西,就是一個(gè)一個(gè)的token。可以發(fā)現(xiàn),token跟單詞基本上是一一對(duì)應(yīng)的,這也就意味著:token的長(zhǎng)度與單詞長(zhǎng)度是基本一致的。如此一來(lái),只要依次記錄下每個(gè)數(shù)據(jù)包的長(zhǎng)度,我們就知道了ChatGPT發(fā)給ta的話,是由多長(zhǎng)的詞語(yǔ)依次組成的。比如上面那句話,就是:2、2、1、1、1、5、2、4、4、1、3、8、4、5、1。也就是說(shuō),我們知道了ta這句話的節(jié)奏。是不是有點(diǎn)意思啦?不是,你不要急嘛。要把這個(gè)節(jié)奏跟具體的文本對(duì)應(yīng)上,就必須進(jìn)入第三步了。第三步:用魔法打敗魔法,用大語(yǔ)言模型去治大語(yǔ)言模型。這群以色列的研究人員訓(xùn)練了一個(gè)大語(yǔ)言模型,專(zhuān)門(mén)根據(jù)一句話的節(jié)奏去預(yù)測(cè)這句話是啥。長(zhǎng)度序列(節(jié)奏)與具體的文本之間的能有什么關(guān)系呢?這對(duì)作為人類(lèi)的你我來(lái)說(shuō)可能有點(diǎn)難以想象。從一堆數(shù)據(jù)中找出規(guī)律正是AI所擅長(zhǎng)的,研究人員就直接給大語(yǔ)言模型喂大量的長(zhǎng)度序列,訓(xùn)練它們?nèi)ヮA(yù)測(cè)對(duì)應(yīng)的文字。再基于正確結(jié)果對(duì)于生成的答案進(jìn)行排序,不斷地卷,提升預(yù)測(cè)的準(zhǔn)確度。為了讓預(yù)測(cè)的更準(zhǔn)確,他們還做了進(jìn)一步的fine-tuned。由于AI生成的語(yǔ)句在第一句通常風(fēng)格最明確,更容易預(yù)測(cè)。所以他們用一個(gè)大語(yǔ)言模型專(zhuān)門(mén)做第一句的預(yù)測(cè),然后讓再用另一個(gè)大語(yǔ)言模型根據(jù)第一句的結(jié)果預(yù)測(cè)后面的內(nèi)容。那么這樣預(yù)測(cè)的結(jié)果如何呢?你能拿到朝思暮想的聊天記錄嗎?02在以色列研究人員的演示視頻中,這兩個(gè)大語(yǔ)言模型最終得到了50句不同的答案。其中,通過(guò)側(cè)信道攻擊得到評(píng)分最高的答案是:Several recent advancements in machine learning and artificial intelligence that could be a game-changing tool.翻譯:一些機(jī)器學(xué)習(xí)和人工智能領(lǐng)域近期的研究成果,它們有可能是改變局勢(shì)的工具。而AI發(fā)來(lái)的原文本是:There are several recent developments in machine learning and artificial intelligence that could revolutionize the health industry.翻譯:這是一些機(jī)器學(xué)習(xí)和人工智能領(lǐng)域近期的研究成果,它們有可能改變整個(gè)健康產(chǎn)業(yè)。這一說(shuō)這個(gè)答案和原文本相當(dāng)?shù)奈呛狭恕T陉P(guān)鍵信息上,側(cè)信道攻擊得到的句子包含了“機(jī)器學(xué)習(xí)和人工智能領(lǐng)域”,“研究成果”,唯獨(dú)缺少了“健康產(chǎn)業(yè)”這一關(guān)鍵信息。不過(guò)如果我們仔細(xì)看的話,那兩個(gè)大語(yǔ)言模型給到的50個(gè)答案中有不少都提到了與“健康產(chǎn)業(yè)”接近的信息,比如排名第10的答案中提到了“healthcare institution”(醫(yī)療機(jī)構(gòu))和“hospital”(醫(yī)院)。總體來(lái)說(shuō),這種攻擊方式有55%的情況下能達(dá)到高精確度(只有一兩個(gè)詞不同),29%的情況下能完美破解。聽(tīng)起來(lái)好像不高啊,這不71%的情況都不能完美破解嘛?但在現(xiàn)實(shí)中,能完全破解當(dāng)然好,但對(duì)發(fā)起進(jìn)攻的人來(lái)說(shuō),他們需要的更多的是關(guān)鍵信息。怎么理解呢?假如,你對(duì)象跟ChatGPT探討了半天兩個(gè)人去成都有什么可玩的。而卻從來(lái)沒(méi)有告訴過(guò)你任何去成都的計(jì)劃……這TM就是關(guān)鍵信息了。03那么這種側(cè)信道攻擊有什么辦法解決嗎?正如我們?cè)陂_(kāi)頭所說(shuō),以ChatGPT為代表的絕大多數(shù)AI聊天助手都防不住這種攻擊,只有Google的Gemini雙子座可以。為什么呢?其實(shí)原因非常的扯淡。不是這個(gè)Gemini有什么特殊的架構(gòu)或者特殊的加密算法,而是它回復(fù)用戶的時(shí)候不像其他AI一樣生成一個(gè)詞就立馬就發(fā),而是等一段答案生成完了再發(fā)。結(jié)果,攻擊者截獲到的token序列不再是1、2、5、6、1這種了,而是15。這還怎么玩。但是,從Gemini目前孤家寡人的境況你也能看出,這種方式是非常影響用戶體驗(yàn)的。一個(gè)個(gè)往外蹦,我看到有不對(duì)的時(shí)候就馬上開(kāi)始準(zhǔn)備新的問(wèn)題了。而干等一分鐘最后等來(lái)一個(gè)離譜的回答,容易導(dǎo)致高血壓等心腦血管疾病的發(fā)生。所以在即時(shí)發(fā)送的方式不變的情況下還有什么辦法嗎?有一種“填充”的辦法,向不同長(zhǎng)度的數(shù)據(jù)包填充一些“空格”,使得發(fā)送的每個(gè)數(shù)據(jù)包長(zhǎng)度相似。但同樣的,這也會(huì)影響用戶體驗(yàn),因?yàn)閿?shù)據(jù)包中隨即填充的這些“空格”,在打開(kāi)數(shù)據(jù)包時(shí)也是需要時(shí)間去處理。所以延遲會(huì)比通常情況久不少。以色列的這項(xiàng)研究發(fā)表后,在所有易受攻擊的AI中,OpenAI在48小時(shí)內(nèi)實(shí)施了“填充”措施,不過(guò)拒絕對(duì)其發(fā)表評(píng)論。微軟則還沒(méi)有采取措施,他們發(fā)表了一項(xiàng)聲明,聲明中稱這種方式”不太可能預(yù)測(cè)像名字這樣的具體細(xì)節(jié)”。看來(lái)微軟不是很在乎用戶的隱私問(wèn)題啊。現(xiàn)實(shí)來(lái)講,當(dāng)一項(xiàng)技術(shù)處于爆發(fā)期的時(shí)候,忽略安全隱患是很多廠家的常規(guī)操作。因?yàn)楹茱@然,安全是攔在效率前面的絆腳石,在AI界瘋狂內(nèi)卷的今天,把安全放在效率前面有時(shí)候是很難活下去的。但安全問(wèn)題可以被忽視,但并不會(huì)消失。當(dāng)它再被提起時(shí)候,往往就是釀成大禍,輿論嘩然的時(shí)候了。不過(guò)除了具體的技術(shù)問(wèn)題,我覺(jué)得側(cè)信道攻擊這件事背后的邏輯更有意思。如果沒(méi)有AI大模型,誰(shuí)又能想到,原來(lái)只需要知道一句話的節(jié)奏,就能推斷出這句話的內(nèi)容呢??這有點(diǎn)像一種名為海龜湯的游戲。在游戲中玩家只被根據(jù)非常有限的信息(湯面)去推測(cè)整個(gè)故事(湯底)。比如給你一個(gè)湯面:“6歲時(shí)外婆告訴我不要吃黃蘋(píng)果。13歲時(shí),外婆告訴我不要吃青蘋(píng)果。18歲時(shí)外婆告訴我不要吃紅蘋(píng)果。20歲時(shí)外婆去世了,我向外婆祈愿:以后所有的蘋(píng)果都可以吃了。”那么,外婆和蘋(píng)果到底是有什么關(guān)系呢?這個(gè)關(guān)系就類(lèi)似于隱藏在表象下的規(guī)律,人類(lèi)需要構(gòu)建一整個(gè)故事去理解,因?yàn)槿耸蔷€性思維,必須依賴因果關(guān)系去理解。而像數(shù)據(jù)包的長(zhǎng)度和內(nèi)容之間的規(guī)律,你是無(wú)法通過(guò)編故事去理解的。但這部分缺失的能力,現(xiàn)在AI替我們補(bǔ)上了。