精品精品国产手机自在线观|九九热思思精品视频|中文字幕aⅴ专区|黄国产成年人精品

    當(dāng)前位置:區(qū)塊鏈 >區(qū)塊鏈 > Sora帶來(lái)的四點(diǎn)啟發(fā)

    Sora帶來(lái)的四點(diǎn)啟發(fā)

    更新時(shí)間:2024-02-19 10:25:50 | 作者:佚名
    文章來(lái)源:硅基立場(chǎng) 作者:王兆洋 圖片來(lái)源:由無(wú)界AI生成 Sora的發(fā)布是一件大事,大到開(kāi)始出現(xiàn)人傳人的“出來(lái)見(jiàn)上帝”現(xiàn)象,而到底為何大卻無(wú)人關(guān)心。觀察各種討論后還是覺(jué)得有些重要的東西沒(méi)有說(shuō)透,把很多信息和思考串起來(lái)總結(jié)成了四條“啟發(fā)”,提前劇透,以下這里沒(méi)有見(jiàn)上帝部分。 1.視覺(jué)數(shù)據(jù)能訓(xùn)練出更強(qiáng)的泛化能力? ChatGPT標(biāo)志著語(yǔ)言模型完成了“涌現(xiàn)...

    文章來(lái)源:硅基立場(chǎng)

    作者:王兆洋

    圖片來(lái)源:由無(wú)界AI生成


    Sora的發(fā)布是一件大事,大到開(kāi)始出現(xiàn)人傳人的“出來(lái)見(jiàn)上帝”現(xiàn)象,而到底為何大卻無(wú)人關(guān)心。觀察各種討論后還是覺(jué)得有些重要的東西沒(méi)有說(shuō)透,把很多信息和思考串起來(lái)總結(jié)成了四條“啟發(fā)”,提前劇透,以下這里沒(méi)有見(jiàn)上帝部分。

    1. 視覺(jué)數(shù)據(jù)能訓(xùn)練出更強(qiáng)的泛化能力?

    ChatGPT標(biāo)志著語(yǔ)言模型完成了“涌現(xiàn)”擁有了泛化能力。之后我一直很好奇不同模態(tài)的訓(xùn)練數(shù)據(jù)混合的效果,以及誰(shuí)才是泛化能力誕生過(guò)程里決定性的那一個(gè)。

    在去年前半年我遇到每個(gè)做圖像或視頻生成模型的人都會(huì)問(wèn)他一個(gè)問(wèn)題:語(yǔ)言模型模塊在圖像或視頻模型里到底有多關(guān)鍵?后來(lái)Dalle3似乎回答了這個(gè)問(wèn)題,它的能力突破被廣泛認(rèn)為來(lái)自GPT提供的語(yǔ)言模型板塊的強(qiáng)大能力。

    去年底我的這個(gè)保留問(wèn)題變成了:如果用了正確的方法,只用圖像或者視頻數(shù)據(jù)訓(xùn)練出來(lái)的模型,泛化能力會(huì)是怎樣?

    這個(gè)好奇來(lái)自兩個(gè)判斷,一個(gè)是視頻數(shù)據(jù)是“全互聯(lián)網(wǎng)的文字?jǐn)?shù)據(jù)都被用完了”之后的下一個(gè)增量;另一個(gè),是視頻數(shù)據(jù)被廣泛認(rèn)為信息密度不如文字因此它與智慧的關(guān)系也不如文字,但我認(rèn)為它包含的是另一種抽象維度的信息,比如時(shí)空關(guān)系和物理規(guī)律等,這些都因?yàn)閿?shù)據(jù)“非格式化”而未被“開(kāi)發(fā)”,但它潛力巨大。在我有限的翻閱論文的經(jīng)驗(yàn)里,有一篇關(guān)于多模態(tài)領(lǐng)域重要的模型VLMO的論文里,曾提到一個(gè)有意思的實(shí)驗(yàn)結(jié)論:當(dāng)你完全拿一個(gè)在視覺(jué)數(shù)據(jù)上訓(xùn)練好的模型,可以直接對(duì)文本數(shù)據(jù)建模,甚至不需要微調(diào)就可以有很強(qiáng)的文本生成能力。但反過(guò)來(lái)用語(yǔ)言訓(xùn)練在視覺(jué)上生成,則差很多。后來(lái)去年MJ6V的一個(gè)重要功能提升也是文字生成,它用擴(kuò)散模型的思路帶來(lái)了語(yǔ)言能力,這都讓我更加好奇。

    而這一次Sora某種程度就是在回答這個(gè)問(wèn)題:它把視頻數(shù)據(jù)統(tǒng)一了,然后用大語(yǔ)言模型的方法理解視頻,最后產(chǎn)生了對(duì)物理世界的“涌現(xiàn)”也就是泛化能力。這種能力是語(yǔ)言模型無(wú)法得到的。

    這是很重要的一個(gè)信息。這可能不只是對(duì)理解AI有幫助,對(duì)理解我們作為人的一些智能也有幫助。

    另外再提一個(gè)很有意思的細(xì)節(jié),Sora這個(gè)模型的名字取自一個(gè)日語(yǔ)單詞,Sora在日語(yǔ)是天空的意思。而這個(gè)詞在日語(yǔ)里有時(shí)候會(huì)用作動(dòng)詞,意思是“用心記,而不用看任何寫(xiě)下來(lái)的材料”,變化出來(lái)的詞比如“Soranjiru”, そらんじる 的意思就是“remember by heart”。

    這不就是Sora的能力。

    2. 現(xiàn)在OpenAI只剩下一條路線:Scaling Law。

    從Sora可以確定的信息來(lái)看,它的成功靠的是在所有人認(rèn)為已經(jīng)證明不可能的情況下,用數(shù)據(jù)精確處理后的大規(guī)模預(yù)訓(xùn)練硬生生帶來(lái)了涌現(xiàn)——熟悉么,對(duì),就是ChatGPT的又一次重演。

    而這也是OpenAI的Scaling law的又一次成功。而過(guò)去很長(zhǎng)一段時(shí)間很多人開(kāi)始質(zhì)疑scaling law。比如在過(guò)去幾個(gè)月跟業(yè)界一線從業(yè)者交流中,大家?guī)缀跄J(rèn)GPT4就是一個(gè)MOE(專家模型,由一群不同模型組成的大模型),而這被解讀為單一模型能力撞墻,暗含著OpenAI堅(jiān)持的scaling law的破產(chǎn)。但現(xiàn)在看,可能并非如此。在Sora的技術(shù)報(bào)告里有一句很有意思的話:Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

    “最大模型”。這句話有些故意含糊,是OpenAI最大的模型?比GPT5還大?還是這個(gè)系列最大的模型?最大的大又指的是什么大?

    總之,大力出奇跡仍在繼續(xù)。

    OpenAI 的Scaling law原本是它的研究中得出的一個(gè)學(xué)術(shù)結(jié)論,它來(lái)自Ilya 和Karpathy等OpenAI的頂尖科學(xué)家們,但它正在快速變成一種路線,充滿Altman意志的路線,變成這家公司的核心戰(zhàn)略。Altman和科學(xué)家們的關(guān)系也呈現(xiàn)一種智術(shù)師與統(tǒng)治者的關(guān)系,思想體系誕生于前者,但最終為被后者按照個(gè)人意志改造。

    不知所蹤的Ilya和剛剛離職的Karpathy,作為OpenAI曾經(jīng)最有代表的科學(xué)家都強(qiáng)調(diào)過(guò)scale的重要,但前者很快開(kāi)始警惕無(wú)限擴(kuò)張過(guò)程里的失控危險(xiǎn),于是開(kāi)始超級(jí)對(duì)齊項(xiàng)目,而這個(gè)項(xiàng)目在OpenAI拿不到足夠算力資源也被認(rèn)為是宮斗爆發(fā)的導(dǎo)火索之一。Karpathy 則是從科研角度想弄清楚scale和算法的關(guān)系,提出“Algorithmic progress was necessity, now bonus”。而這句話帶來(lái)的一統(tǒng)天下的前景,顯然在“野心家”眼里會(huì)超過(guò)一切。

    所以,今天如果把Scaling law視作這家公司的唯一路線,Altman最近的很多動(dòng)作也就更好理解:

    在競(jìng)爭(zhēng)上,7萬(wàn)億的傳言,就是比別人更早scale到一個(gè)臨界點(diǎn),并且讓其他人沒(méi)卡可以用來(lái)scale,讓自己的規(guī)模沖到極致從而讓別人無(wú)路可走。在研究上,不再給學(xué)術(shù)界的研究足夠的credit,也不認(rèn)為有必要給。前者聚攏來(lái)的資源遠(yuǎn)超提出一些研究方法的學(xué)界,于是任何人的研究,都能變成他的成果——學(xué)術(shù)界造出來(lái)的,OpenAI全吞掉。

    今天可以看到,每次OpenAI的新東西出來(lái),都會(huì)有人出來(lái)“維權(quán)”原創(chuàng),從Q*到今天sora背后的patch,推特上一名支持開(kāi)源的學(xué)者說(shuō)到:今天已經(jīng)沒(méi)有任何一條學(xué)術(shù)規(guī)范沒(méi)有被OpenAI無(wú)視過(guò)。

    而且這些都是Altman的“哲學(xué)”之一。幾天前我刷到奧特曼的一條推特:

    you have a right to your actions,

    but never to your actions' fruits.

    當(dāng)時(shí)還在想這是什么意思,緊接著Sora來(lái)了,Karpathy走了。我們也明白了。

    Ilya和Karpathy兩個(gè)在堅(jiān)持閉源的決心上遠(yuǎn)沒(méi)有Altman堅(jiān)定,對(duì)開(kāi)源一直比較曖昧的人,最終成了這一切的注腳。

    這一切是不是也讓你感到很熟悉?Scaling law正在被Altman演化成OpenAI版的moving fast and break everything 。也許這也是今天逼出了一個(gè)最強(qiáng)扎克伯格的原因。這也再次說(shuō)明Altman和扎克伯格可能才是同一類人。

    3. 這只是我們和AGI的第一次親密接觸,一切仍在中間態(tài)。

    這幾天人們拿各種文生視頻產(chǎn)品和Sora對(duì)比,發(fā)現(xiàn)它全面碾壓,而非各有所長(zhǎng)。這其實(shí)反而更說(shuō)明它是視覺(jué)模型本身的ChatGPT時(shí)刻,第一次證明這條路線可行,并讓人們看到未來(lái)雛形。

    不過(guò),Sora在生成視頻的意義之外,還在于語(yǔ)言模型突破后又迎來(lái)視頻和物理世界虛擬生成的突破,所以更大的意義是向著AGI前進(jìn)的一個(gè)里程碑。

    GPT4出現(xiàn)后,微軟當(dāng)初那篇全面評(píng)測(cè)的論文,取名通用人工智能的火花,它的團(tuán)隊(duì)原本起的標(biāo)題叫做:與通用人工智能的第一次接觸。而從邁向更通用的智能的意義來(lái)看,Sora更適合這個(gè)標(biāo)題。

    它預(yù)示著新拼圖會(huì)繼續(xù)不斷出現(xiàn),也意味著一切都還沒(méi)到“徹底變天”,反而今天的一切都只是中間態(tài)。

    Sora對(duì)Dalle3的沖擊已經(jīng)很容易想到,而被Sora強(qiáng)行搶了頭條的Gemini不僅明確用了MOE,而且第一次達(dá)到100萬(wàn)上下文長(zhǎng)度——這已經(jīng)不是對(duì)語(yǔ)言模型的突破,當(dāng)你可以有100萬(wàn)上下文,你可以放進(jìn)更多模態(tài)的數(shù)據(jù),所以這樣看它是和Sora有直接競(jìng)爭(zhēng)關(guān)系的,為什么要選在Gemini 1.5后幾小時(shí)急著用一個(gè)“PPT”發(fā)布Sora,可能也更好理解了,OpenAI比誰(shuí)都明白,有了上下文長(zhǎng)度就有了一切,不管你叫什么模態(tài)的模型。

    這一切都指向今天還被認(rèn)為是最強(qiáng)大的GPT——它也只是個(gè)中間態(tài)。一切都還有機(jī)會(huì)。

    4. 不必妄自菲薄

    說(shuō)實(shí)話,從OpenAI去年宮斗鬧劇到今天的Sora發(fā)布,圍繞它們的刷屏讓我非常羨慕,多希望有我們自己的企業(yè)和產(chǎn)品和明星人物也能獲得如此高度討論。

    其實(shí)從宮斗的處理,到今天Sora發(fā)布,OpenAI的每一次重要的動(dòng)作和發(fā)布,都配合著一場(chǎng)場(chǎng)精巧設(shè)計(jì)的敘事和campaign,它的設(shè)置議題的能力,節(jié)奏控制,公眾引導(dǎo)熟練自如。哪怕你只想喊兩句“中美差距拉大”吃一吃情緒饅頭,也至少該知道這一切。

    OpenAI是在gpt4已經(jīng)訓(xùn)練出來(lái)后,才決定發(fā)布基于Gpt3.5的ChatGPT,Altman在去了國(guó)會(huì)聽(tīng)證并高聲呼吁要減速AI的發(fā)展、政府多多監(jiān)管后,轉(zhuǎn)頭幾天就按下按鈕發(fā)布了ChatGPT 的app,Anthropic 拿到亞馬遜的最重要一筆融資后發(fā)現(xiàn)OpenAI給ChatGPT做了第一次大更新,上線了語(yǔ)音和圖像功能,以及這一次還沒(méi)ready的Sora硬搶谷歌 Gemini 的頭條,Altman掌控下的OpenAI在議程設(shè)置上幾乎登峰造極。

    此外,OpenAI的每個(gè)人幾乎都是一個(gè)品牌,都是一個(gè)推特上的AI界馬斯克。一次發(fā)布,團(tuán)隊(duì)就多幾個(gè)明星人物,成為以后媒體們選題的天然來(lái)源。

    而且這種同樣的模式已經(jīng)越來(lái)越明顯的在硅谷AI創(chuàng)業(yè)公司蔓延開(kāi)來(lái),比如號(hào)稱要干掉Google的perplexity的印度CEO,比如從傳統(tǒng)瀏覽器變成“要再造一個(gè)互聯(lián)網(wǎng)那么大的平臺(tái)”的Arc瀏覽器。而這背后與AI行業(yè)發(fā)展急需的資源,人才,注意力,市場(chǎng)競(jìng)爭(zhēng)等直接掛鉤。

    中國(guó)的同行們似乎已失去了這個(gè)能力。努力追趕是必須的,但作為一個(gè)天天和一線創(chuàng)業(yè)者打交道的人,我開(kāi)始感覺(jué)我們對(duì)自己嚴(yán)苛到妄自菲薄的事實(shí)也在起著反作用。

    我們不缺同樣帶來(lái)極佳體驗(yàn)的AI模型和產(chǎn)品,也不缺技術(shù)社區(qū)影響力極佳的個(gè)體和作品,但卻沒(méi)有在我們自己的討論里形成該有的關(guān)注。也許所有人該放開(kāi)一些包袱了。

    OpenAI不是transformer發(fā)明者,Stable Diffusion不是diffusion 發(fā)明者,Mistral不是MOE發(fā)明者,其實(shí)如果對(duì)標(biāo),它們本質(zhì)都可以理解是一個(gè)個(gè)ASML,所以“我們?yōu)槭裁礇](méi)有誕生OpenAI”是不是并不等于“我們?yōu)槭裁礇](méi)從頭發(fā)明某某技術(shù)”?對(duì)原創(chuàng)技術(shù)的理解和定義是不是在我們妄自菲薄的過(guò)程里被擴(kuò)大化了,是不是哪怕一家像ASML這樣的“只做沙子的搬運(yùn)工”的公司今天誕生在中國(guó)也躲不過(guò)先被罵套殼的命運(yùn)?

    有時(shí)候,問(wèn)題提錯(cuò)了可能一切就都錯(cuò)了。

    本站提醒:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,本內(nèi)容不作為投資理財(cái)建議。