OpenAI 新旗艦?zāi)Ｐ虶PT-4o發(fā)布-廣東鋒范科技有限公司

OpenAI 新旗艦?zāi)Ｐ虶PT-4o發(fā)布

2024.05.14

2024年當(dāng)?shù)貢r(shí)間5月13日，OpenAI推出新旗艦?zāi)Ｐ虶PT-4o，可以實(shí)時(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理。

據(jù)介紹，新版模型能夠帶著情感與用戶對(duì)話，還能假裝興奮、友好，甚至諷刺，其響應(yīng)時(shí)間最短也來(lái)到了232毫秒，這與人類在對(duì)話中的響應(yīng)時(shí)間相似。

GPT-4o的“o”代表“omni”，該詞意為“全能”，源自拉丁語(yǔ)“omnis”。在英語(yǔ)中“omni”常被用作詞根，用來(lái)表示“全部”或“所有”的概念。

發(fā)布會(huì)當(dāng)天，OpenAI公司首席技術(shù)官米拉·穆拉蒂介紹稱，GPT-4o是邁向更自然人機(jī)交互的一步，它可以接受文本、音頻和圖像三者組合作為輸入，并生成文本、音頻和圖像的任意組合輸出，“與現(xiàn)有模型相比，GPT-4o在圖像和音頻理解方面尤其出色?！?/span>

據(jù)了解，在GPT-4o之前，用戶使用語(yǔ)音模式與ChatGPT對(duì)話時(shí)，GPT-3.5的平均延遲為2.8秒，GPT-4為5.4秒，音頻在輸入時(shí)還會(huì)由于處理方式丟失大量信息，讓GPT-4無(wú)法直接觀察音調(diào)、說(shuō)話的人和背景噪音，也無(wú)法輸出笑聲、歌唱聲和表達(dá)情感。

與之相比，GPT-4o可以在232毫秒內(nèi)對(duì)音頻輸入做出反應(yīng)，與人類在對(duì)話中的反應(yīng)時(shí)間相近。在錄播視頻中，兩位高管做出了演示：機(jī)器人能夠從急促的喘氣聲中理解“緊張”的含義，并且指導(dǎo)他進(jìn)行深呼吸，還可以根據(jù)用戶要求變換語(yǔ)調(diào)?！八鼘?duì)人類的情緒、語(yǔ)氣理解得十分自然精準(zhǔn)，如同與一個(gè)真正的人類朋友或助理在聊天?！?/span>

在另一個(gè)演示場(chǎng)景下，工作人員手寫了一個(gè)方程，并打開(kāi)攝像頭拍給ChatGPT，讓它扮演“在線導(dǎo)師”的角色幫助自己解題，而且只能給提示，不能直接說(shuō)答案，此后，ChatGPT一步一步說(shuō)出了解題步驟。

值得一提的是，手機(jī)版的GPT-4o不僅可以通過(guò)語(yǔ)音能力理解你當(dāng)前的狀態(tài)，還能通過(guò)視覺(jué)識(shí)別你所處的環(huán)境和你正在做的事情，并對(duì)它作出反應(yīng)?！皫湍憬鈹?shù)學(xué)題，沒(méi)問(wèn)題，解完還能陪你聊聊人生?！?/span>

據(jù)商業(yè)內(nèi)幕報(bào)道，它還能夠帶著情感說(shuō)話，可以假裝興奮、友好，甚至諷刺。

OpenAI首席執(zhí)行官山姆·奧特曼表示，新的語(yǔ)音和視頻模式是他用過(guò)的最好的電腦界面，感覺(jué)就像電影里的AI。達(dá)到人類水平的反應(yīng)時(shí)間和表達(dá)能力是一個(gè)很大的變化?！皩?duì)我來(lái)說(shuō)，與電腦交談從來(lái)都不是一件很自然的事，現(xiàn)在它做到了。隨著我們?cè)黾樱蛇x的）個(gè)性化、訪問(wèn)你的信息、代表你采取行動(dòng)的能力等等，我真的可以看到一個(gè)令人興奮的未來(lái)，我們能夠使用計(jì)算機(jī)做比以往任何時(shí)候都多的事情?！?/span>

上一篇：微軟 Build 2024開(kāi)發(fā)者大會(huì)

上一篇：Meta 大模型Llama 3 發(fā)布

返回列表

相關(guān)資訊