精品精品国产手机自在线观|九九热思思精品视频|中文字幕aⅴ专区|黄国产成年人精品

    當前位置:區(qū)塊鏈 >區(qū)塊鏈 > 谷歌DeepMind聯(lián)手復仇!Jeff Dean、Hassabis萬字長文總結2023絕地反擊

    谷歌DeepMind聯(lián)手復仇!Jeff Dean、Hassabis萬字長文總結2023絕地反擊

    更新時間:2023-12-24 10:15:52 | 作者:佚名
    來源:新智元 圖片來源:由無界AI生成 剛剛,谷歌DeepMind首席科學家JeffDean,首席執(zhí)行官DemisHassabis兩大佬聯(lián)手發(fā)布了2023人工智能領域超權威的谷歌年度研究總結。 GoogleDeepMind,交卷! 剛剛,JeffDean和Hassabis聯(lián)手發(fā)文,一同回顧了GoogleResearch和GoogleDeepMind在202...

    來源:新智元

    圖片來源:由無界 AI生成

    剛剛,谷歌DeepMind首席科學家Jeff Dean,首席執(zhí)行官Demis Hassabis兩大佬聯(lián)手發(fā)布了2023人工智能領域超權威的谷歌年度研究總結。

    Google DeepMind,交卷!

    剛剛,Jeff Dean和Hassabis聯(lián)手發(fā)文,一同回顧了Google Research和Google DeepMind在2023年的全部成果。

    這一年開年,比起風靡全球的ChatGPT,谷歌看上去輸慘了。當時,數不清的資本熱錢向著OpenA流去,OpenAI的市值、知名度瞬間飆至前所未有的高度。

    4月,陷入被動的谷歌放出終極大殺招:谷歌大腦和DeepMind正式合并!「王不見王」的兩大部門驚人合體,Jeff Dean和Hassabis終于聯(lián)手。

    5月,谷歌在I/O大會上一雪前恥。全新的PaLM 2反超GPT-4,辦公全家桶炸裂升級,Bard直接史詩級進化。

    12月,谷歌深夜放出了復仇殺器Gemini,最強原生多模態(tài)直接碾壓了GPT-4。雖然在產品demo上有加工制作的成分,但不可否認,谷歌已經把全世界的多模態(tài)研究推至前所未有的高度。

    讓我們看一看,谷歌的諸位神人們是怎樣團結在一起,打響23年的復仇之戰(zhàn)的。


    產品和技術的進步


    這一年,生成式AI正式進入了大爆發(fā)。

    2月,谷歌緊急推出了Bard,慢于OpenAI兩個月推出了自己的AI聊天機器人。

    5月,谷歌在I/O大會上宣布了積累數月和數年的研究和成果,包括語言模型PaLM 2。它整合了計算優(yōu)化擴展、改進的數據集組合和模型架構,即使在很高級的推理任務中,表現(xiàn)也很出色。

    針對不同目的對PaLM 2進行微調和指令調整后,谷歌將其集成到了眾多Google產品和功能中,包括:

    1. Bard

    現(xiàn)在,Bard能支持40多種語言和230多個國家和地區(qū),在日常使用的Google工具(如Gmail、Google地圖、YouTube)中,都可以使用Bard查找信息。

    2. 搜索生成體驗(SGE)

    它用LLM重新構想如何組織信息以及如何幫用戶瀏覽信息,為谷歌的核心搜索產品創(chuàng)建了更流暢的對話式交互模型。

    3. MusicLM

    這個由AudioLM和MuLAN提供支持的文本到音樂模型,可以從文本、哼唱、圖像或視頻、音樂伴奏、歌曲中制作音樂。

    4. Duet AI

    Google Workspace中的Duet AI可以幫助用戶創(chuàng)作文字、創(chuàng)建圖像、分析電子表格、起草和總結電子郵件和聊天消息,總結會議等。Google Cloud中的Duet AI可以幫助用戶編寫、部署、擴展和監(jiān)控應用,以及識別和解決網絡安全威脅。

    文章地址:https://blog.google/technology/developers/google-io-2023-100-announcements/

    繼去年發(fā)布文本到圖像生成模型Imagen之后,今年6月,谷歌又發(fā)布了Imagen Editor,它提供了使用區(qū)域掩碼和自然語言提示編輯生成圖像的功能,從而對模型輸出進行更精確的控制。

    隨后,谷歌又發(fā)布了Imagen 2,它通過專門的圖像美學模型改進了輸出,這個圖像美學模型參考了人類對良好照明、取景、曝光和清晰度的偏好。

    10月,谷歌推出了Google搜索的一項新功能,幫助用戶練習口語、提高語言技能。

    實現(xiàn)這一功能的關鍵技術,就是和谷歌翻譯團隊合作開發(fā)的一種全新深度學習模型,名為Deep Aligner。

    與基于隱馬爾可夫模型(HMM)的對齊方法相比,這個單一的新模型極大提高了所有測試語言對的對齊質量,將平均對齊錯誤率從25%降低到5%。

    11月,谷歌與YouTube合作發(fā)布了Lyria,這是谷歌迄今為止最先進的AI音樂生成模型。

    12月,谷歌推出了Gemini,這是谷歌最強大、最通用的AI模型。

    從一開始,Gemini就被構建為跨文本、音頻、圖像和視頻的多模態(tài)模型。

    Gemini有三種不同尺寸,Nano、Pro和Ultra。Nano是最小、最高效的模型,用于為Pixel等產品提供設備端體驗。Pro模型功能強大,最適合跨任務擴展。Ultra模型是最大、性能最強的模型,適用于高度復雜的任務。

    根據Gemini模型的技術報告,Gemini Ultra的性能超過了32個廣泛使用的學術基準中的30個最新結果。

    Gemini Ultra的得分為 90.04%,是第一款在MMLU上表現(xiàn)優(yōu)于人類專家的模型,并在新的MMMU基準測試中獲得了59.4%的最高分。

    在AlphaCode的基礎上,谷歌推出了由Gemini的專用版本支持的AlphaCode 2,這是第一個在編程競賽中取得中位數水平表現(xiàn)的AI系統(tǒng)。

    跟原始AlphaCode相比,AlphaCode 2解決的問題為1.7倍以上,表現(xiàn)要優(yōu)于85%的參賽者。

    同時,Gemini Pro模型的加持讓Bard也獲得了大升級,理解、總結、推理、編碼和計劃能力都大大提高。

    在八項基準測試中的六項中,Gemini Pro的表現(xiàn)都優(yōu)于GPT-3.5,包括LLM的關鍵標準之一MMLU和衡量小學數學推理的GSM8K。

    明年初,Gemini Ultra也會引入Bard,屆時必將引發(fā)全新的尖端AI體驗。

    而且,Gemini Pro也可用于Vertex AI,這是Google Cloud的端到端 AI 平臺,使開發(fā)人員能夠構建處理文本、代碼、圖像和視頻信息的應用程序。

    應用程序,可以處理文本、代碼、圖像和視頻信息的應用程序。Gemini Pro 也于 12 月在 AI Studio 中推出。

    可以看到,Gemini能夠做到的事情包括但不限于——

    解鎖科學文獻中的見解。

    擅長競爭性編程。

    處理和理解原始音頻。

    Gemini可以回答為什么這個菜還沒炒熟:因為雞蛋是生的

    解釋數學和物理中的推理。

    了解用戶意圖,提供定制體驗。


    機器學習/人工智能


    除了在產品和技術方面的進步外,這一年谷歌也在機器學習和AI研究的更廣泛領域,取得了許多重要進展。

    如今最先進的機器學習模型,核心架構便是谷歌研究人員在2017年開發(fā)的Transformer架構。

    起初,Transformer是為語言而開發(fā)的,但如今,它已被證明在計算機視覺、音頻、基因組學、蛋白質折疊等各種領域都有極大作用。

    今年谷歌在擴展視覺Transformer方面的工作,在各種視覺任務中都達到了SOTA,還能用于構建功能更強大的機器人。

    擴展模型的多功能性,需要執(zhí)行更高層次和多步驟推理的能力。

    今年,谷歌通過幾個研究接近了這個目標。

    例如,算法提示(algorithmic prompting)的新方法,通過演示一系列算法步驟來教語言模型推理,然后模型可以將其應用于新的上下文中。

    這種方法將中學數學基準的準確率從25.9%提高到了61.1%。

    通過提供算法提示,我們可以通過上下文學習來教模型算術規(guī)則

    在視覺問答領域,谷歌與UC伯克利的研究人員合作,通過將視覺模型與語言模型相結合,使其更好地回答復雜的視覺問題——「馬車在馬的右邊嗎?」

    CodeVQA方法的圖示。首先,大語言模型生成一個Python程序,該程序調用表示問題的可視化函數。在此示例中,使用簡單的VQA方法來回答問題的一部分,并使用對象定位器來查找所提及對象的位置。然后,程序通過組合這些函數的輸出來生成原始問題的答案

    其中語言模型被訓練為通過合成程序執(zhí)行多步驟推理,來回答視覺問題。

    為了訓練用于軟件開發(fā)的大型機器學習模型,谷歌開發(fā)了一個名為DIDACT的通用模型。

    它了解軟件開發(fā)生命周期的方方面面,可以自動生成代碼審查注釋、響應代碼審查注釋、為代碼片段提出性能改進建議、修復代碼以響應編譯錯誤等等。

    與谷歌地圖團隊的多年合作中,谷歌擴展了逆強化學習,并將其應用于為超過10億用戶改進路線建議的世界級問題。

    使用RHIP逆強化學習策略時,Google地圖相對于現(xiàn)有基準的路線匹配率有所改進

    這項工作最終使全球路線匹配率相對提高了16-24%,確保路線更好地符合用戶偏好。

    谷歌也在繼續(xù)研究提高機器學習模型推理性能的技術。

    在研究神經網絡中剪枝連接的計算友好方法時,團隊設計出一種近似算法,來解決計算上難以解決的最佳子集選擇問題,該算法能夠從圖像分類模型中修剪70%的邊緣,并且仍然保留原始模型的幾乎所有精度。

    原始網絡與修剪后的網絡

    在加速設備端擴散模型的過程中,谷歌對注意力機制、卷積核和操作融合進行各種優(yōu)化,以便在設備上運行高質量的圖像生成模型。

    現(xiàn)在只需12秒,就能在智能手機上生成「被周圍花朵包圍的可愛小狗的逼真高分辨率圖像」。

    移動GPU上的LDM的示例輸出,prompt:「一張可愛的小狗的照片逼真的高分辨率圖像,周圍有花朵」

    語言和多模態(tài)模型的進步,也有利于機器人研究工作。

    谷歌將單獨訓練的語言、視覺和機器人控制模型組合成PaLM-E(一種用于機器人的具身多模態(tài)模型)和Robotic Transformer 2(RT-2)。

    這是一種新穎的視覺-語言-行動(VLA) 模型,它從網絡和機器人數據中學習,并將這些知識轉化為機器人控制的通用指令。

    RT-2架構和訓練:在機器人和網絡數據上共同微調預訓練的視覺語言模型。生成的模型接收機器人攝像頭圖像,并直接預測機器人要執(zhí)行的動作

    此外,谷歌還研究了使用語言來控制四足機器人的步態(tài)。

    SayTap使用腳部接觸模式(例如,插圖中每只腳的0和1序列,其中0表示空中的腳,1表示地面的腳)作為橋接自然語言用戶命令和低級控制命令的接口。通過基于強化學習的運動控制器,SayTap允許四足機器人接受簡單直接的指令(例如,「緩慢向前小跑」)以及模糊的用戶命令(例如,「好消息,我們這個周末要去野餐!」),并做出相應的反應

    同時探索了通過使用語言來幫助制定更明確的獎勵函數,以彌合人類語言和機器人動作之間的差距。

    語言到獎勵系統(tǒng)由兩個核心組件組成:(1) 獎勵翻譯器和 (2) 運動控制器。Reward Translator將來自用戶的自然語言指令映射到表示為python代碼的獎勵函數。運動控制器使用后退水平優(yōu)化來優(yōu)化給定的獎勵函數,以找到最佳的低級機器人動作,例如應施加到每個機器人電機的扭矩量。

    由于預訓練數據集中缺乏數據,LLM無法直接生成低級機器人動作。團隊建議使用獎勵函數來彌合語言和低級機器人動作之間的差距,并從自然語言指令中實現(xiàn)新穎的復雜機器人運動

    在Barkour中,團隊對四足機器人的敏捷性極限進行了基準測試。

    幾位狗狗被邀請來參與障礙賽,結果顯示:小型犬能在約10秒內完成障礙賽,機器狗一般要花20秒左右


    算法與優(yōu)化


    設計高效、穩(wěn)健和可擴展的算法始終是谷歌研究的重點。

    最為重磅的成果之一,便是打破了十年算法瓶頸的AlphaDev。

    它的創(chuàng)新意義在于,AlphaDev并不是通過改進現(xiàn)有算法,而是利用強化學習完全從頭開始發(fā)現(xiàn)了更快的算法。

    論文地址:https://www.nature.com/articles/s41586-023-06004-9

    結果顯示,AlphaDev發(fā)現(xiàn)新的排序算法,為LLVM libc++排序庫帶來了明顯的改進。對于較短的序列,速度提高了70%,而對于超過250,000個元素的序列,速度提高了約1.7%。

    現(xiàn)在,這個算法已經成為兩個標準C++編碼庫的一部分,每天都會被全球的程序員使用數萬億次。

    為了更好地評估大型程序的執(zhí)行性能,谷歌開發(fā)了可以用來預測大型圖(large graphs)特性的全新算法,并配合發(fā)布了全新的數據集TPUGraphs。

    TPUGraphs數據集包含4400萬個用于機器學習程序優(yōu)化的圖

    此外,谷歌還提出了一種新的負載均衡算法——Prequal,它能夠在分配服務器查詢時,顯著節(jié)約CPU資源、減少響應時間和內存使用。

    谷歌通過開發(fā)新的計算最小割、近似相關聚類和大規(guī)模并行圖聚類技術,改進了聚類和圖算法的SOTA。

    其中包括,專為擁有萬億條邊的圖設計的新型分層聚類算法TeraHAC;可以同時實現(xiàn)高質量和高可擴展性的文本聚類算法KwikBucks;以及用于近似多嵌入模型標準相似函數Chamfer Distance的高效算法,與高度優(yōu)化的精確算法相比,該算法的速度提高了50倍以上,并可擴展至數十億個點。

    此外,谷歌還對大規(guī)模嵌入模型 (LEMs) 了進行優(yōu)化。

    其中包括,統(tǒng)一嵌入 (Unified Embedding),它在大規(guī)模機器學習系統(tǒng)中提供了經過實戰(zhàn)測試的特征表示,以及序列注意力 (Sequential Attention) 機制,它在模型訓練過程中可以發(fā)現(xiàn)高效的稀疏模型結構。


    科學與社會


    在不遠的將來,AI在科學研究中的應用,有望將某些領域的發(fā)現(xiàn)速度提升10倍、100倍甚至更多。

    從而推動生物工程、材料科學、天氣預測、氣候預報、神經科學、遺傳醫(yī)學和醫(yī)療保健等眾多領域取得重大突破。

    氣候與可持續(xù)性

    在對飛機尾流 (contrails) 的研究中,谷歌通過分析大量天氣數據、歷史衛(wèi)星圖像和以往的飛行記錄,訓練了一個能夠預測飛機尾流的形成區(qū)域,并據此調整航線的AI模型。結果顯示,這一系統(tǒng)可以將飛機尾流減少54%。

    為了幫助抵御氣候變化帶來的種種挑戰(zhàn),谷歌一直致力于開發(fā)全新的技術方法。

    舉例來說,谷歌的洪水預報服務目前已經覆蓋了80個國家,能夠直接影響超過4.6億人口。

    此外,谷歌在天氣預測模型的開發(fā)上也有了最新的進展。

    在MetNet和MetNet-2的基礎上,谷歌打造了更強的MetNet-3,可以在長達24小時的時間范圍內,實現(xiàn)超越傳統(tǒng)數值天氣模擬的效果。

    在中期天氣預報領域,全新AI模型GraphCast可在1分鐘內,精準預測10天全球天氣,甚至還可以預測極端天氣事件。

    論文地址:https://www.science.org/doi/10.1126/science.adi2336

    研究發(fā)現(xiàn),與行業(yè)黃金標準天氣模擬系統(tǒng)——高分辨率預報(HRES)相比,GraphCast在1380個測試變量中準確預測超過90%。

    而且,GraphCast還能比傳統(tǒng)預報模型更早地識別出惡劣天氣事件——提前3天預測出未來氣旋的潛在路徑。

    值得一提的是,GraphCast模型的源代碼已經全部開放,從而讓世界各地的科學家和預報員可以造福全球數十億人。

    健康與生命科學

    在醫(yī)療健康領域,AI展現(xiàn)出了巨大的潛力。

    初代Med-PaLM,是第一個通過美國醫(yī)學執(zhí)照考試的AI模型。隨后的Med-PaLM 2,又在此基礎上進一步提升了19%,達到了86.5%的專家級準確率。

    而最近發(fā)布的多模態(tài)Med-PaLM M,不僅可以處理自然語言輸入,而且還能夠解釋醫(yī)學圖像、文本數據以及其他多種數據類型。

    Med-PaLM M是一個大規(guī)模多模態(tài)生成模型,它能用相同的模型權重靈活地編碼和解釋生物醫(yī)學數據,包括臨床語言、成像和基因組學數據

    不僅如此,AI系統(tǒng)還能在現(xiàn)有醫(yī)療數據中探索出全新的信號和生物標記。

    通過分析視網膜圖像,谷歌證明了可以從眼睛的照片中預測出多個與不同器官系統(tǒng)(如腎臟、血液、肝臟)相關的全新生物標記。

    在另一項研究中,谷歌還發(fā)現(xiàn),將視網膜圖像與基因信息相結合有助于揭示一些與衰老相關的根本因素。

    在基因組學領域,谷歌與60家機構的119位科學家合作,繪制出了新的人類基因組圖譜。

    并且,在開創(chuàng)性的AlphaFold基礎上,為所有7100萬個可能的錯義變體中的89%,提供了預測目錄。

    此外,谷歌還發(fā)布了AlphaFold最新進展——「AlphaFold-latest」,它可以對蛋白質數據庫(PDB)中幾乎所有分子,進行原子級精確的結構預測。

    這一進展不僅深化了我們對生物分子的理解,而且還大幅提升了在配體(小分子)、蛋白質、核酸(DNA和RNA)以及含有翻譯后修飾(PTMs)的生物大分子等多個重要領域的準確性。

    量子計算

    量子計算機具有解決科學和工業(yè)領域重大現(xiàn)實問題的潛力。

    但要實現(xiàn)這一潛力,量子計算機的規(guī)模必須比現(xiàn)在大得多,而且必須能夠可靠地執(zhí)行經典計算機無法執(zhí)行的任務。

    為了保證量子計算的可靠性,還需要將它的錯誤率從現(xiàn)在的10^3分之一降低到10^8分之一。

    今年,谷歌在開發(fā)大型實用量子計算機的道路上邁出了重要一步——有史以來首次通過增加量子比特來降低計算錯誤率。


    負責任的AI


    生成式AI正在醫(yī)療、教育、安全、能源、交通、制造和娛樂等眾多領域帶來革命性的影響。

    面對這些飛躍的發(fā)展,確保技術設計符合谷歌的AI原則依然是首要任務。

    讓AI普及

    在不斷推進機器學習和人工智能的最新技術的同時,谷歌也致力于幫助人們理解并將AI應用于特定問題。

    為此,谷歌推出了基于網頁的平臺Google AI Studio,幫助開發(fā)者打造并迭代輕量級的AI應用。

    同時,為了幫助AI工程師能夠更深入地理解和調試AI,谷歌還推出了最先進的開源機器學習模型調試工具——LIT 1.0。

    作為谷歌最受歡迎的工具之一,Colab可以讓開發(fā)者和學生直接在瀏覽器中訪問強大的計算資源,目前已擁有超過1000萬用戶。

    前段時間,谷歌又在Colab中加入了AI代碼輔助功能,讓所有的用戶都夠在數據分析和機器學習工作流中,擁有更加便捷和一體化的體驗。

    就在最近,谷歌為了確保AI能夠在實際應用中提供正確無誤的信息,創(chuàng)新性地推出了FunSearch方法。

    通過進化算法和大語言模型的結合,F(xiàn)unSearch能夠在數學科學領域生成經過驗證的真實知識。

    具體來說,F(xiàn)unSearch將預訓練的LLM與自動「評估器」配對使用。前者的目標是以計算機代碼的形式提供創(chuàng)造性的解決方案,后者則防止幻覺和錯誤的想法。在這兩個組件之間反復迭代之后,初始的解決方案便會「進化」為新知識。

    論文地址:https://www.nature.com/articles/s41586-023-06924-6

    社區(qū)參與

    通過發(fā)表研究成果、參與和組織學術會議,谷歌正在持續(xù)推動AI和計算機科學的發(fā)展。

    今年,谷歌已發(fā)表了500多篇論文。其中,有不少都被收錄在了包括ICML、ICLR、NeurIPS、ICCV、CVPR、ACL、CHI和Interspeech等眾多頂會之中。

    此外,谷歌還聯(lián)合33個學術實驗室,通過匯總來自22種不同機器人類型的數據,創(chuàng)建了Open X-Embodiment數據集和RT-X模型。

    谷歌在MLCommons標準組織的支持下,帶頭在行業(yè)內推動AI安全基準的建立,參與者包括 OpenAI、Anthropic、Microsoft、Meta、Hugging Face等在生成式AI領域舉足輕重的機構。


    展望未來


    隨著多模態(tài)模型(multimodal models)的不斷進步,它們將助力人類在科學、教育乃全新的知識領域取得驚人的成就。

    隨著時間的推進,谷歌的產品和研究也不斷進步,而人們也將會找到更多富有創(chuàng)意的AI應用方式。

    在這篇年終總結的最后,讓我們回到開頭的話題,正如谷歌在「Why We Focus on AI (and to what end)」中所言:

    「如果大膽而負責地推進AI的發(fā)展,我們相信AI能夠成為一項基礎技術,徹底改變全世界人的生活——這正是我們追求的目標,也是我們的激情所在!」

    參考資料:

    https://blog.research.google/2023/12/2023-year-of-groundbreaking-advances-in.html

    本站提醒:投資有風險,入市須謹慎,本內容不作為投資理財建議。