谷歌 大模型Gemini 發(fā)布
2023.12.22
當(dāng)?shù)貢r間 12 月 6 日,谷歌 CEO Sundar Pichai 官宣 Gemini 1.0 版正式上線。在此之前,這款被谷歌寄予厚望對抗 OpenAI 的武器,發(fā)布時間一直被拖延。
未曾料到,來得如此猝不及防。
研發(fā)負(fù)責(zé)人、谷歌 DeepMind CEO Demis Hassabis 代表 Gemini 團(tuán)隊在發(fā)布會上正式推出大模型 Gemini,它擁有「視覺」和「聽覺」,還有學(xué)習(xí)和推理能力。
作為谷歌迄今為止最強大、最全面的模型,在大多數(shù)基準(zhǔn)測試中, Gemini 性能都超越了 GPT-4。
Hassabis 在發(fā)布會前接受連線雜志專訪時,將 Gemini 稱為「新 AI 品種」。
目前,大多數(shù)模型都通過訓(xùn)練單獨的模塊,然后將它們拼接在一起來近似多模態(tài),不足之處在于沒辦法在多模態(tài)空間進(jìn)行深層復(fù)雜推理。
而 Gemini 最大亮點之一就是原生多模態(tài)大模型——設(shè)計時就原生支持多模態(tài),要具有處理不同形式數(shù)據(jù)(語言+聽力+視覺)的能力;一開始就在不同模態(tài)上進(jìn)行預(yù)訓(xùn)練,利用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào)以提升有效性。
因此,Gemini 可以泛化并無縫理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻,遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有(近似)多模態(tài)模型,并且它的能力在幾乎每個領(lǐng)域都是最強的。
Hassabis 透露,谷歌 DeepMind 已經(jīng)在研究如何將 Gemini 與機器人技術(shù)結(jié)合起來,與世界進(jìn)行物理交互。畢竟,要成為真正的多模態(tài)還需要觸摸和觸覺的反饋。
這條從未被前人踏過的路,未來可能帶來重大新突破。他對連線雜志表示,新的多模態(tài)模型將成為智能體、規(guī)劃和推理、游戲甚至物理機器人快速創(chuàng)新的基礎(chǔ)。
除了原生多模態(tài)的亮點,谷歌表示,Gemini 還是他們迄今為止最靈活的模型,能夠高效地運行在數(shù)據(jù)中心和移動設(shè)備等多類型平臺上。
Gemini 包括三種量級:能力最強的 Gemini Ultra,適用于多任務(wù)的 Gemini Pro ,以及適用于特定任務(wù)和端側(cè)的 Gemini Nano。
目前Gemini 提供了三個不同版本
特別是 Gemini Nano,可以在使用特殊芯片的終端設(shè)備上運行,而不是在云端某些服務(wù)器上,這樣谷歌就可以將生成 AI 引入遍布世界角落的安卓手機。
同時,在沒有網(wǎng)絡(luò)連接的情況下使用生成 AI 模型也會讓用戶感到安全,他們的個人數(shù)據(jù)不會離開其設(shè)備。這也是蘋果多年來隱私實踐的方向。
Pixel 8 Pro 在錄音機應(yīng)用中使用 Gemini Nano 來總結(jié)會議音頻,即使沒有網(wǎng)絡(luò)連接也可以實現(xiàn)。
據(jù)說,Pixel 8 Pro 將是第一款運行 Gemini Nano 的智能手機。雖然谷歌已將它與 Pixel 8 Pro 的操作系統(tǒng)集成,但尚未將其全部功能植入 Google Assistant。
谷歌副總裁兼 Bard and Assistant 總經(jīng)理 Sissie Hsiao 在新聞發(fā)布會上表示,目前正在對這一聯(lián)姻進(jìn)行「早期測試」。
寫到這里,我們幾乎可以嗅到未來在終端,谷歌勢必與蘋果一戰(zhàn)。
接下來幾個月,谷歌聊天機器人 Bard 將迎來重大升級 —— 使用 Gemini Pro 的微調(diào)版本來執(zhí)行更高級的推理、規(guī)劃、理解等任務(wù)。不久的將來, Bard 還會擴展到更多模態(tài),支持更多種語言
公司表示,Gemini 還將在未來幾個月被引入其他谷歌產(chǎn)品,包括生成搜索、廣告和 Chrome。
最強大版本 Ultra 的安全測試工作仍在進(jìn)行中,計劃將于明年推出。其在大規(guī)模多任務(wù)語言理解 (MMLU) 基準(zhǔn)測試中得分為 90%,高于包括 GPT-4 在內(nèi)的任何其他競爭對手。
不過,谷歌還沒有搶盡人工智能的風(fēng)頭。Meta、AMD 都湊巧有了新發(fā)布。
為了不被超越,虛擬助手 Meta AI 也在昨晚有了重要更新。
最常用的功能之一 Imagine——文本到圖像生成功能,現(xiàn)在有了「重新想象」的新能力,將聊天斗圖推到新高度:
使用 Imagine 生成一張圖片,你的聊天對象可以按住這張圖片,通過簡單文本提示進(jìn)行修改,新功能會生成一張新圖片。網(wǎng)友們可以像接龍一樣不斷修改圖片,瘋狂搞笑。
Meta 還推出了一個免費網(wǎng)絡(luò)工具 Imagine with Meta AI ——一個在線 AI 圖像生成器(https://imagine.meta.com/),可在幾秒鐘內(nèi)創(chuàng)建高分辨率的 AI 圖像。它使用公共 Facebook 數(shù)據(jù)進(jìn)行訓(xùn)練。
每一次使用,生成器都會創(chuàng)建四張 1280×1280 像素圖像,可以以 JPEG 格式保存,圖像左下角有一個小小的「 Imagined with AI 」水印。
Screenshot by Lance Whitney via Imagine/ZDNET
來自arstechnica的作品
除了文生圖功能,Meta AI 的文案能力也有了提升。比如,幫忙撰寫生日祝福、帖子甚至交友資料的自我介紹。
Meta AI 還推出 Reels 功能。假如你在群聊中計劃與朋友一起去旅行,可以要求 Meta AI 推薦最佳游覽地點并分享熱門景點,決定哪些景點是必去的。
現(xiàn)在還能幫忙將圖像從橫向轉(zhuǎn)換為縱向,更方便分享到文本中。
翻開大模型競爭硬幣另一面,是各家深陷的最強算力軍備。
發(fā)布會上,與 Gemini 1.0一起亮相的,還有谷歌迄今為止最強大、最高效、可擴展的 TPU 系統(tǒng) — Cloud TPU v5p,專為訓(xùn)練尖端的 AI 模型而設(shè)計,能比 TPU v4 更快地訓(xùn)練大模型。
谷歌表示,TPU 對其在 Gemini 等尖端模型上進(jìn)行最大規(guī)模的研究和工程工作至關(guān)重要。
同樣是昨晚,AMD 「最強算力」芯片、專為 AIGC 和大模型場景打造的純 GPU 產(chǎn)品 Instinct MI300X 加速器也隆重亮相。
AMD 表示,與英偉達(dá) H100 HGX 相比,Instinct MI300X 加速器在運行大語言模型推理時的吞吐量和時延表現(xiàn)明顯高出一籌。
AMD MI300X 人工智能加速器
AMD CEO 蘇姿豐預(yù)計到 2027 年,人工智能芯片市場將達(dá)到 4000 億美元或更多,希望 AMD 能在該市場占據(jù)相當(dāng)大的份額。
AMD 已經(jīng)與一些最渴望 GPU 的公司簽約使用該芯片,包括 2023 年 Nvidia H100 GPU 的兩個最大買家 Meta 和微軟。
Meta 表示,將使用 MI300X GPU 來處理 AI 推理工作負(fù)載,例如處理 AI 貼紙、圖像編輯和 AI 助手。
微軟首席技術(shù)官 Kevin Scott 表示,該公司將通過 Azure 提供對 MI300X 芯片的訪問。
甲骨文的云服務(wù)也將使用這些芯片。OpenAI 表示,公司開發(fā)的 GPU 編程語言 Triton 將從接下來的 3.0 版本開始支持 MI300 等 AMD 芯片。
參考鏈接
https://about.fb.com/news/2023/12/meta-ai-updates/
https://www.wired.com/story/google-deepmind-demis-hassabis-gemini-ai/