ChatGPT后，人工智能的終極里程碑卻倒了

2024-08-18 10:30:08 來(lái)源：用戶：

相信很多大家對(duì)ChatGPT后，人工智能的終極里程碑卻倒了還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

大模型的擬人行為，在讓我們產(chǎn)生恐怖谷效應(yīng)。

「圖靈測(cè)試是一個(gè)糟糕的測(cè)試標(biāo)準(zhǔn)，因?yàn)閷?duì)話能力和推理完全是兩碼事。」最近幾天，AI 圈里一個(gè)新的觀點(diǎn)正在流行。

如今已是生成式 AI 時(shí)代，我們?cè)u(píng)價(jià)智能的標(biāo)準(zhǔn)該變了。

「機(jī)器能思考嗎?」這是艾倫?圖靈在他1950年的論文《計(jì)算機(jī)器與智能》中提出的問(wèn)題。圖靈很快指出，鑒于定義「思考」的難度，這個(gè)問(wèn)題「毫無(wú)意義，不值得討論」。正如哲學(xué)辯論中常見的做法，他建議用另一個(gè)問(wèn)題代替它。

圖靈設(shè)想了一個(gè)「模仿游戲」，在這個(gè)游戲中，一位人類評(píng)判員分別與一臺(tái)計(jì)算機(jī)和一名人類（陪襯者）對(duì)話，雙方都試圖讓評(píng)判員相信自己才是真正的人類。

重要的是，計(jì)算機(jī)、陪襯者和評(píng)判員之間互相無(wú)法對(duì)視，他們完全通過(guò)文本進(jìn)行交流。在與每個(gè)候選者對(duì)話后，評(píng)判員猜測(cè)誰(shuí)是真正的人類。

圖靈的新問(wèn)題是:「是否存在可想象的數(shù)字計(jì)算機(jī)，能在模仿游戲中表現(xiàn)出色?」

論文鏈接:

https://academic.oup.com/mind/article/LIX/236/433/986238?login=false

這個(gè)由圖靈提出的游戲，現(xiàn)在被廣泛稱為圖靈測(cè)試，用以反駁廣泛存在的直覺性認(rèn)知:「由于計(jì)算機(jī)的機(jī)械性質(zhì)，在原理層面上就不可能思考?！?/p>

圖靈的觀點(diǎn)是:如果一臺(tái)計(jì)算機(jī)在表現(xiàn)上與人類無(wú)法區(qū)分（除了它的外貌和其他物理特征），那么為什么我們不將其視為一個(gè)有思維的實(shí)體呢?為什么我們要將「思考」的資格僅限于人類(或更廣泛地說(shuō)，僅限于由生物細(xì)胞構(gòu)成的實(shí)體)?正如計(jì)算機(jī)科學(xué)家斯科特?阿倫森所描述的，圖靈的提議是「一種反對(duì)『肉體沙文主義』的呼吁」。

圖靈測(cè)試是一種思想而不是「方法」

圖靈將他的測(cè)試作為一個(gè)哲學(xué)思想實(shí)驗(yàn)，而不是一種可以實(shí)際衡量機(jī)器智能的方法。然而，在公眾的認(rèn)知中，圖靈測(cè)試已經(jīng)成為人工智能（AI）的終極里程碑 —— 評(píng)判通用機(jī)器智能是否到來(lái)的主要標(biāo)準(zhǔn)。

如今，近75年過(guò)去了，關(guān)于 AI 的報(bào)道充斥著聲稱圖靈測(cè)試已被通過(guò)的論調(diào)，尤其是像 OpenAI 的 ChatGPT 和 Anthropic 的 Claude 這樣的聊天機(jī)器人的推出之后。

去年，OpenAI 的首席執(zhí)行官山姆?奧特曼發(fā)文稱:「面對(duì)技術(shù)變革，人們的適應(yīng)能力和韌性得到了很好的體現(xiàn):圖靈測(cè)試悄然過(guò)去，大多數(shù)人繼續(xù)他們的生活?！?/p>

各大媒體也發(fā)表了類似的標(biāo)題，例如某家報(bào)紙報(bào)道稱，「ChatGPT 通過(guò)了著名的『圖靈測(cè)試』—— 表明該 AI 機(jī)器人具有與人類相當(dāng)?shù)闹悄堋！?/p>

英國(guó)每日發(fā)行的老牌報(bào)刊 —— 每日郵報(bào)

甚至像 BBC 這樣的全球最大媒體之一、具有廣泛影響力的公共傳媒機(jī)構(gòu)甚至在2014年就提出計(jì)算機(jī) AI 已經(jīng)通過(guò)了圖靈測(cè)試。

https://www.bbc.com/news/technology-27762088

然而，問(wèn)題是:現(xiàn)代聊天機(jī)器人真的通過(guò)了圖靈測(cè)試嗎?如果是這樣，我們是否應(yīng)該像圖靈所提議的那樣，賦予它們「思考」的地位?

令人驚訝的是，盡管圖靈測(cè)試在文化上具有廣泛的重要性，長(zhǎng)久以來(lái)，AI 社區(qū)卻對(duì)通過(guò)圖靈測(cè)試的標(biāo)準(zhǔn)沒有達(dá)成一致意見。許多人懷疑，具備能夠欺騙人的對(duì)話技能是否真正揭示了系統(tǒng)的底層智能或「思考」能力。

一千個(gè)人眼中很可能有一千個(gè)圖靈測(cè)試標(biāo)準(zhǔn)。

圖靈獎(jiǎng)得主 Geoffery Hinton 在一次訪談中談及了他的「圖靈測(cè)試標(biāo)準(zhǔn)」，他認(rèn)為 Palm 等聊天機(jī)器人可以解釋笑話為何有趣，這可以視為其智能的標(biāo)志。如今的大模型，如 GPT-4非常擅長(zhǎng)解釋一個(gè)笑話為何有趣，這被認(rèn)為是其圖靈測(cè)試的一部分標(biāo)準(zhǔn)。

相比于其他科學(xué)家對(duì)于圖靈測(cè)試嚴(yán)肅的定義，Hinton 的看法雖然詼諧，但仍是道出了他對(duì)「人工智能是否有思考能力」這一終極命題的思考。

訪談視頻鏈接:https://www.youtube.com/watch?v=PTF5Up1hMhw

一場(chǎng)「圖靈鬧劇」

由于圖靈并沒有提出一個(gè)具有完整實(shí)際操作說(shuō)明的測(cè)試。

他對(duì)「模仿游戲」的描述缺乏細(xì)節(jié):

測(cè)試應(yīng)該持續(xù)多長(zhǎng)時(shí)間?

允許提出什么類型的問(wèn)題?

人類的評(píng)判員或「陪襯者」需要具備什么樣的資格?

對(duì)于這些具體問(wèn)題，圖靈并未詳細(xì)說(shuō)明。不過(guò)，他做了一個(gè)具體的預(yù)測(cè):「我相信，大約在50年內(nèi)，計(jì)算機(jī)可以通過(guò)編程變得極其出色，以至于普通的審問(wèn)者在經(jīng)過(guò)五分鐘的提問(wèn)后，識(shí)別出真實(shí)人類的概率不超過(guò)70%?！购?jiǎn)而言之，在五分鐘的對(duì)話中，評(píng)判員有平均30% 的幾率會(huì)被誤導(dǎo)。

有些人將這一隨意的預(yù)測(cè)視為通過(guò)圖靈測(cè)試的「官方」標(biāo)準(zhǔn)。2014年，英國(guó)皇家學(xué)會(huì)在倫敦舉辦了一場(chǎng)圖靈測(cè)試比賽，參賽的有五個(gè)計(jì)算機(jī)程序、30個(gè)人類陪襯和30名評(píng)判員。

參與的人類群體多樣，既有年輕人也有年長(zhǎng)者，既有母語(yǔ)是英語(yǔ)的人也有非母語(yǔ)者，既有計(jì)算機(jī)專家也有非專家。每位評(píng)判員分別與一對(duì)參賽者（一名人類和一臺(tái)機(jī)器）進(jìn)行了多輪五分鐘的并行對(duì)話，之后評(píng)判員必須猜測(cè)誰(shuí)是人類。

一款名為「尤金?古斯特曼（Eugene Goostman）」的聊天機(jī)器人，扮演一名少年，竟然成功欺騙了10名評(píng)判員(欺騙率:33.3%)。

顯然「欺騙率」已經(jīng)超過(guò)了圖靈當(dāng)時(shí)所言的30%。

尤金?古斯特曼（Eugene Goostman）模擬的是一名13歲男孩。

根據(jù)「在五分鐘內(nèi)有30% 幾率欺騙」的標(biāo)準(zhǔn)，組織者宣布:「65年前的標(biāo)志性圖靈測(cè)試首次被計(jì)算機(jī)程序『尤金?古斯特曼』通過(guò)了圖靈測(cè)試，這一里程碑將載入史冊(cè)……」。

AI 專家在閱讀這場(chǎng)圖靈測(cè)試中的主角「尤金?古斯特曼（Eugene Goostman）」對(duì)話的記錄后，對(duì)該聊天機(jī)器人通過(guò)圖靈測(cè)試的說(shuō)法嗤之以鼻，認(rèn)為這個(gè)不夠復(fù)雜且不像人類的聊天機(jī)器人并未通過(guò)圖靈設(shè)想的測(cè)試。

有限的對(duì)話時(shí)間和評(píng)判員的專業(yè)水平不均使得這次測(cè)試更像是對(duì)人類輕信的考驗(yàn)，而非機(jī)器智能的展示。結(jié)果卻是「ELIZA 效應(yīng)」的一個(gè)鮮明例子 —— 這個(gè)效應(yīng)得名于1960年代的聊天機(jī)器人 ELIZA，盡管其極其簡(jiǎn)單，但仍能讓許多人誤以為它是一個(gè)理解并富有同情心的心理治療師。

這凸顯了我們?nèi)祟悆A向于把能夠與我們對(duì)話的實(shí)體賦予智能的心理傾向。

ELIZA 是圖靈測(cè)試「發(fā)表」后的最早期聊天機(jī)器人之一，它是一個(gè)非?；A(chǔ)的羅杰斯派心理治療聊天機(jī)器人。

另一項(xiàng)圖靈測(cè)試比賽 —— 勒布納獎(jiǎng)（Loebner Prize）允許更長(zhǎng)的對(duì)話時(shí)間，邀請(qǐng)了更多專家評(píng)委，并要求參賽機(jī)器至少欺騙一半的評(píng)委。有趣的是，當(dāng)標(biāo)準(zhǔn)提高后，在近30年的年度比賽中，沒有一臺(tái)機(jī)器通過(guò)這一版本的測(cè)試。

圖靈測(cè)試開始轉(zhuǎn)向

盡管圖靈的原始論文中缺乏關(guān)于如何具體實(shí)施測(cè)試的細(xì)節(jié)，但很明顯，模仿游戲需要三名參與者:一臺(tái)計(jì)算機(jī)、一位人類陪襯者和一位人類評(píng)判員。然而，隨著時(shí)間的推移，「圖靈測(cè)試」這一術(shù)語(yǔ)在公眾討論中的含義逐漸演變?yōu)橐粋€(gè)明顯弱化的版本:任何人與計(jì)算機(jī)之間的互動(dòng)，只要計(jì)算機(jī)表現(xiàn)得足夠像人類，就被視為通過(guò)了圖靈測(cè)試。

例如，當(dāng)《華盛頓郵報(bào)》在2022年報(bào)道「谷歌的 AI 通過(guò)了一個(gè)著名測(cè)試 —— 并展示了該測(cè)試的缺陷」時(shí)，他們指的并不是模仿游戲，而是谷歌工程師布雷克?萊莫因（Blake Lemoine）認(rèn)為谷歌的 LaMDA 聊天機(jī)器人具有「感覺能力（sentient）」。

2024年，斯坦福大學(xué)發(fā)布的一份新聞稿宣布，斯坦福團(tuán)隊(duì)的研究「標(biāo)志著人工智能首次通過(guò)了嚴(yán)格的圖靈測(cè)試之一」。但這里所謂的圖靈測(cè)試是通過(guò)比較 GPT-4在心理調(diào)查和互動(dòng)游戲中的行為統(tǒng)計(jì)與人類的行為統(tǒng)計(jì)來(lái)完成的。

這種定義可能與圖靈的初衷相去甚遠(yuǎn):斯坦福團(tuán)隊(duì)的定義是「我們認(rèn)為，當(dāng) AI 的回應(yīng)在統(tǒng)計(jì)上無(wú)法與隨機(jī)選取的人類回應(yīng)區(qū)分開來(lái)時(shí)，它就通過(guò)了圖靈測(cè)試。」

最新的，聲稱聊天機(jī)器人通過(guò)圖靈測(cè)試的案例來(lái)自2024年的一項(xiàng)研究，該研究采用了「雙人模式」的測(cè)試:與圖靈的「三人」模仿游戲（其中裁判會(huì)同時(shí)詢問(wèn)計(jì)算機(jī)和人類陪襯）不同，這里每個(gè)裁判只與計(jì)算機(jī)或人類互動(dòng)。

研究人員招募了500名人類參與者，每人被分配為裁判或人類陪襯。每位裁判與陪襯、GPT-4（提示了人類編寫的如何欺騙裁判的建議）或 ELIZA 聊天機(jī)器人版本玩一輪五分鐘的游戲。通過(guò)網(wǎng)絡(luò)界面交談五分鐘后，裁判猜測(cè)他們的對(duì)話對(duì)象是人類還是機(jī)器。

最后，人類陪襯在67% 的回合中被判定為人類;GPT-4在54% 的回合中被判定為人類，ELIZA 在22% 的回合中被判定為人類。作者將「通過(guò)」定義為超過(guò)50% 的時(shí)間欺騙評(píng)委 —— 也就是說(shuō)，超過(guò)隨機(jī)猜測(cè)的概率。按照這個(gè)定義，GPT-4通過(guò)了，盡管人類對(duì)手的得分仍然更高。

令人擔(dān)憂的是，大多數(shù)人類判斷者在五分鐘的對(duì)話之內(nèi)被 GPT-4欺騙了。使用生成式人工智能系統(tǒng)冒充人類傳播虛假信息或進(jìn)行詐騙是社會(huì)必須應(yīng)對(duì)的風(fēng)險(xiǎn)。但如今的聊天機(jī)器人真的通過(guò)了圖靈測(cè)試嗎?

答案當(dāng)然是，這取決于你談?wù)摰氖悄膫€(gè)版本的測(cè)試。一場(chǎng)由專家評(píng)委和更長(zhǎng)對(duì)話時(shí)間組成的三人模仿游戲仍然沒有被任何機(jī)器通過(guò)（有人計(jì)劃在2029年舉行一個(gè)超嚴(yán)格的版本）。

由于圖靈測(cè)試的重點(diǎn)是試圖騙過(guò)人類，而不是更直接地測(cè)試智能。許多人工智能研究人員長(zhǎng)期以來(lái)一直認(rèn)為圖靈測(cè)試是一種干擾，是一種「不是為了讓人工智能通過(guò)，而是為了人類失敗」的測(cè)試。但該測(cè)試的重要性在大多數(shù)人眼中仍然占據(jù)主導(dǎo)地位。

進(jìn)行對(duì)話是我們每個(gè)人評(píng)估其他人類的重要方式。我們很自然地認(rèn)為，能夠流利交談的智能體必須擁有類似人類的智能和其他心理特征，如信仰、欲望和自我意識(shí)。

然而，如果說(shuō)人工智能的發(fā)展歷史教會(huì)了我們什么，那就是這些假設(shè)往往是站在錯(cuò)誤的直覺上的。幾十年前，許多著名的人工智能專家認(rèn)為，創(chuàng)造一臺(tái)能夠在國(guó)際象棋比賽中擊敗人類的機(jī)器需要與人類完全智能相當(dāng)?shù)臇|西。

人工智能先驅(qū) Allen Newell 和 Herbert Simon 在1958年寫道:「如果一個(gè)人能設(shè)計(jì)出一臺(tái)成功的國(guó)際象棋機(jī)器，他似乎已經(jīng)深入到人類智力的核心?！拐J(rèn)知科學(xué)家 Douglas Hofstadter 在1979年預(yù)測(cè)，未來(lái)「可能會(huì)有程序可以在國(guó)際象棋比賽中擊敗任何人，但…… 它們將是通用智能的程序?！?/p>

當(dāng)然，在接下來(lái)的二十年里，IBM 的 DeepBlue 擊敗了世界國(guó)際象棋冠軍加里?卡斯帕羅夫，使用的是一種與我們所說(shuō)的「通用智能」相去甚遠(yuǎn)的蠻力方法。同樣，人工智能的進(jìn)步表明，曾經(jīng)被認(rèn)為需要通用智能的任務(wù) —— 語(yǔ)音識(shí)別、自然語(yǔ)言翻譯，甚至自動(dòng)駕駛 —— 都可以由缺乏人類理解能力的機(jī)器來(lái)完成。

圖靈測(cè)試很可能會(huì)成為我們不斷變化的智力觀念的又一個(gè)犧牲品。1950年，圖靈直覺地認(rèn)為，像人類一樣交談的能力應(yīng)該是「思考」及其所有相關(guān)能力的有力證據(jù)。這種直覺至今仍然很有說(shuō)服性。但也許我們從 ELIZA 和 Eugene Goostman 身上學(xué)到的東西，以及我們可能仍能從 ChatGPT 及其同類產(chǎn)品中學(xué)到的東西是，能夠流利地說(shuō)出自然語(yǔ)言，比如下棋，并不是通用智力存在的確鑿證據(jù)。

事實(shí)上，神經(jīng)科學(xué)領(lǐng)域中有越來(lái)越多的證據(jù)表明，語(yǔ)言流利程度與認(rèn)知的其他方面出奇地脫節(jié)。麻省理工學(xué)院神經(jīng)科學(xué)家 Ev Fedorenko 等人通過(guò)一系列細(xì)致而令人信服的實(shí)驗(yàn)表明，他們所謂的「正式語(yǔ)言能力」（與語(yǔ)言生成相關(guān)的能力）背后的大腦網(wǎng)絡(luò)與常識(shí)、推理和我們可能稱之為「思考」的其他方面背后的網(wǎng)絡(luò)大體上是分開的。這些研究人員聲稱，我們直覺上認(rèn)為流利的語(yǔ)言是一般智力的充分條件，這是一種「謬論」。

圖靈在1950年的論文中寫道:「我相信，到本世紀(jì)末，詞語(yǔ)的使用和普遍受教育的觀點(diǎn)將會(huì)發(fā)生巨大的變化，人們將能夠談?wù)摍C(jī)器思考，而不會(huì)遭到反駁?！谷缃竦奈覀冞€沒有到達(dá)那個(gè)地步。圖靈的預(yù)測(cè)是否只是偏離了幾十年?真正的改變是否發(fā)生在我們對(duì)「思考」的概念上?—— 還是說(shuō)真正的智能比圖靈和我們所認(rèn)識(shí)到的更復(fù)雜、更微妙?一切還有待觀察。

有趣的是，最近谷歌前 CEO 埃里克?施密特在那場(chǎng)斯坦福大學(xué)的演講里也發(fā)表了觀點(diǎn)。

在很長(zhǎng)一段歷史中，人類對(duì)宇宙的理解更多是神秘的，科學(xué)革命改變了這種情況。然而現(xiàn)在的 AI 卻再次讓我們無(wú)法真正理解其中的原理。知識(shí)的本質(zhì)是否正在發(fā)生變化?我們是否要開始接受這些 AI 模型的結(jié)果，與此同時(shí)不再需要它們解釋給我們聽呢?

施密特是這樣說(shuō)的:我們可以將其比作是青少年。如果你有個(gè)十來(lái)歲的孩子，你知道他們是人類，但你卻無(wú)法完全理解他們的想法。我們的社會(huì)顯然適應(yīng)青少年的存在。我們可能會(huì)有無(wú)法完全理解的知識(shí)系統(tǒng)，但我們理解它們的能力范圍。

這可能就是我們能夠獲得的最好結(jié)果。

以上就是關(guān)于【ChatGPT后，人工智能的終極里程碑卻倒了】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽： ChatGPT后，人工智能的終極里程碑卻倒了

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

ChatGPT后，人工智能的終極里程碑卻倒了

ChatGPT后，人工智能的終極里程碑卻倒了