OpenAI 新旗艦?zāi)P虶PT-4o發(fā)布

2024.05.14

2024年當?shù)貢r間5月13日,OpenAI推出新旗艦?zāi)P虶PT-4o,可以實時對音頻、視覺和文本進行推理。

據(jù)介紹,新版模型能夠帶著情感與用戶對話,還能假裝興奮、友好,甚至諷刺,其響應(yīng)時間最短也來到了232毫秒,這與人類在對話中的響應(yīng)時間相似。

GPT-4o的“o”代表“omni”,該詞意為“全能”,源自拉丁語“omnis”。在英語中“omni”常被用作詞根,用來表示“全部”或“所有”的概念。

發(fā)布會當天,OpenAI公司首席技術(shù)官米拉·穆拉蒂介紹稱,GPT-4o是邁向更自然人機交互的一步,它可以接受文本、音頻和圖像三者組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,“與現(xiàn)有模型相比,GPT-4o在圖像和音頻理解方面尤其出色。”

據(jù)了解,在GPT-4o之前,用戶使用語音模式與ChatGPT對話時,GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒,音頻在輸入時還會由于處理方式丟失大量信息,讓GPT-4無法直接觀察音調(diào)、說話的人和背景噪音,也無法輸出笑聲、歌唱聲和表達情感。

與之相比,GPT-4o可以在232毫秒內(nèi)對音頻輸入做出反應(yīng),與人類在對話中的反應(yīng)時間相近。在錄播視頻中,兩位高管做出了演示:機器人能夠從急促的喘氣聲中理解“緊張”的含義,并且指導他進行深呼吸,還可以根據(jù)用戶要求變換語調(diào)?!八鼘θ祟惖那榫w、語氣理解得十分自然精準,如同與一個真正的人類朋友或助理在聊天?!?/span>

在另一個演示場景下,工作人員手寫了一個方程,并打開攝像頭拍給ChatGPT,讓它扮演“在線導師”的角色幫助自己解題,而且只能給提示,不能直接說答案,此后,ChatGPT一步一步說出了解題步驟。

值得一提的是,手機版的GPT-4o不僅可以通過語音能力理解你當前的狀態(tài),還能通過視覺識別你所處的環(huán)境和你正在做的事情,并對它作出反應(yīng)?!皫湍憬鈹?shù)學題,沒問題,解完還能陪你聊聊人生?!?/span>

據(jù)商業(yè)內(nèi)幕報道,它還能夠帶著情感說話,可以假裝興奮、友好,甚至諷刺。

OpenAI首席執(zhí)行官山姆·奧特曼表示,新的語音和視頻模式是他用過的最好的電腦界面,感覺就像電影里的AI。達到人類水平的反應(yīng)時間和表達能力是一個很大的變化。“對我來說,與電腦交談從來都不是一件很自然的事,現(xiàn)在它做到了。隨著我們增加(可選的)個性化、訪問你的信息、代表你采取行動的能力等等,我真的可以看到一個令人興奮的未來,我們能夠使用計算機做比以往任何時候都多的事情?!?/span>