當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > Sora帶來(lái)的四點(diǎn)啟發(fā)

Sora帶來(lái)的四點(diǎn)啟發(fā)

更新時(shí)間：2024-02-19 10:25:50 | 作者：佚名

文章來(lái)源：硅基立場(chǎng) 作者：王兆洋圖片來(lái)源：由無(wú)界AI生成 Sora的發(fā)布是一件大事，大到開(kāi)始出現(xiàn)人傳人的“出來(lái)見(jiàn)上帝”現(xiàn)象，而到底為何大卻無(wú)人關(guān)心。觀察各種討論后還是覺(jué)得有些重要的東西沒(méi)有說(shuō)透，把很多信息和思考串起來(lái)總結(jié)成了四條“啟發(fā)”，提前劇透，以下這里沒(méi)有見(jiàn)上帝部分。 1.視覺(jué)數(shù)據(jù)能訓(xùn)練出更強(qiáng)的泛化能力？ ChatGPT標(biāo)志著語(yǔ)言模型完成了“涌現(xiàn)...

文章來(lái)源：硅基立場(chǎng)

作者：王兆洋

圖片來(lái)源：由無(wú)界AI生成

Sora的發(fā)布是一件大事，大到開(kāi)始出現(xiàn)人傳人的“出來(lái)見(jiàn)上帝”現(xiàn)象，而到底為何大卻無(wú)人關(guān)心。觀察各種討論后還是覺(jué)得有些重要的東西沒(méi)有說(shuō)透，把很多信息和思考串起來(lái)總結(jié)成了四條“啟發(fā)”，提前劇透，以下這里沒(méi)有見(jiàn)上帝部分。

1. 視覺(jué)數(shù)據(jù)能訓(xùn)練出更強(qiáng)的泛化能力？

ChatGPT標(biāo)志著語(yǔ)言模型完成了“涌現(xiàn)”擁有了泛化能力。之后我一直很好奇不同模態(tài)的訓(xùn)練數(shù)據(jù)混合的效果，以及誰(shuí)才是泛化能力誕生過(guò)程里決定性的那一個(gè)。

在去年前半年我遇到每個(gè)做圖像或視頻生成模型的人都會(huì)問(wèn)他一個(gè)問(wèn)題：語(yǔ)言模型模塊在圖像或視頻模型里到底有多關(guān)鍵？后來(lái)Dalle3似乎回答了這個(gè)問(wèn)題，它的能力突破被廣泛認(rèn)為來(lái)自GPT提供的語(yǔ)言模型板塊的強(qiáng)大能力。

去年底我的這個(gè)保留問(wèn)題變成了：如果用了正確的方法，只用圖像或者視頻數(shù)據(jù)訓(xùn)練出來(lái)的模型，泛化能力會(huì)是怎樣？

這個(gè)好奇來(lái)自兩個(gè)判斷，一個(gè)是視頻數(shù)據(jù)是“全互聯(lián)網(wǎng)的文字?jǐn)?shù)據(jù)都被用完了”之后的下一個(gè)增量；另一個(gè)，是視頻數(shù)據(jù)被廣泛認(rèn)為信息密度不如文字因此它與智慧的關(guān)系也不如文字，但我認(rèn)為它包含的是另一種抽象維度的信息，比如時(shí)空關(guān)系和物理規(guī)律等，這些都因?yàn)閿?shù)據(jù)“非格式化”而未被“開(kāi)發(fā)”，但它潛力巨大。在我有限的翻閱論文的經(jīng)驗(yàn)里，有一篇關(guān)于多模態(tài)領(lǐng)域重要的模型VLMO的論文里，曾提到一個(gè)有意思的實(shí)驗(yàn)結(jié)論：當(dāng)你完全拿一個(gè)在視覺(jué)數(shù)據(jù)上訓(xùn)練好的模型，可以直接對(duì)文本數(shù)據(jù)建模，甚至不需要微調(diào)就可以有很強(qiáng)的文本生成能力。但反過(guò)來(lái)用語(yǔ)言訓(xùn)練在視覺(jué)上生成，則差很多。后來(lái)去年MJ6V的一個(gè)重要功能提升也是文字生成，它用擴(kuò)散模型的思路帶來(lái)了語(yǔ)言能力，這都讓我更加好奇。

而這一次Sora某種程度就是在回答這個(gè)問(wèn)題：它把視頻數(shù)據(jù)統(tǒng)一了，然后用大語(yǔ)言模型的方法理解視頻，最后產(chǎn)生了對(duì)物理世界的“涌現(xiàn)”也就是泛化能力。這種能力是語(yǔ)言模型無(wú)法得到的。

這是很重要的一個(gè)信息。這可能不只是對(duì)理解AI有幫助，對(duì)理解我們作為人的一些智能也有幫助。

另外再提一個(gè)很有意思的細(xì)節(jié)，Sora這個(gè)模型的名字取自一個(gè)日語(yǔ)單詞，Sora在日語(yǔ)是天空的意思。而這個(gè)詞在日語(yǔ)里有時(shí)候會(huì)用作動(dòng)詞，意思是“用心記，而不用看任何寫(xiě)下來(lái)的材料”，變化出來(lái)的詞比如“Soranjiru”, そらんじる的意思就是“remember by heart”。

這不就是Sora的能力。

2. 現(xiàn)在OpenAI只剩下一條路線：Scaling Law。

從Sora可以確定的信息來(lái)看，它的成功靠的是在所有人認(rèn)為已經(jīng)證明不可能的情況下，用數(shù)據(jù)精確處理后的大規(guī)模預(yù)訓(xùn)練硬生生帶來(lái)了涌現(xiàn)——熟悉么，對(duì)，就是ChatGPT的又一次重演。

而這也是OpenAI的Scaling law的又一次成功。而過(guò)去很長(zhǎng)一段時(shí)間很多人開(kāi)始質(zhì)疑scaling law。比如在過(guò)去幾個(gè)月跟業(yè)界一線從業(yè)者交流中，大家?guī)缀跄J(rèn)GPT4就是一個(gè)MOE（專家模型，由一群不同模型組成的大模型），而這被解讀為單一模型能力撞墻，暗含著OpenAI堅(jiān)持的scaling law的破產(chǎn)。但現(xiàn)在看，可能并非如此。在Sora的技術(shù)報(bào)告里有一句很有意思的話：Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

“最大模型”。這句話有些故意含糊，是OpenAI最大的模型？比GPT5還大？還是這個(gè)系列最大的模型？最大的大又指的是什么大？

總之，大力出奇跡仍在繼續(xù)。

OpenAI 的Scaling law原本是它的研究中得出的一個(gè)學(xué)術(shù)結(jié)論，它來(lái)自Ilya 和Karpathy等OpenAI的頂尖科學(xué)家們，但它正在快速變成一種路線，充滿Altman意志的路線，變成這家公司的核心戰(zhàn)略。Altman和科學(xué)家們的關(guān)系也呈現(xiàn)一種智術(shù)師與統(tǒng)治者的關(guān)系，思想體系誕生于前者，但最終為被后者按照個(gè)人意志改造。

不知所蹤的Ilya和剛剛離職的Karpathy，作為OpenAI曾經(jīng)最有代表的科學(xué)家都強(qiáng)調(diào)過(guò)scale的重要，但前者很快開(kāi)始警惕無(wú)限擴(kuò)張過(guò)程里的失控危險(xiǎn)，于是開(kāi)始超級(jí)對(duì)齊項(xiàng)目，而這個(gè)項(xiàng)目在OpenAI拿不到足夠算力資源也被認(rèn)為是宮斗爆發(fā)的導(dǎo)火索之一。Karpathy 則是從科研角度想弄清楚scale和算法的關(guān)系，提出“Algorithmic progress was necessity, now bonus”。而這句話帶來(lái)的一統(tǒng)天下的前景，顯然在“野心家”眼里會(huì)超過(guò)一切。

所以，今天如果把Scaling law視作這家公司的唯一路線，Altman最近的很多動(dòng)作也就更好理解：

在競(jìng)爭(zhēng)上，7萬(wàn)億的傳言，就是比別人更早scale到一個(gè)臨界點(diǎn)，并且讓其他人沒(méi)卡可以用來(lái)scale，讓自己的規(guī)模沖到極致從而讓別人無(wú)路可走。在研究上，不再給學(xué)術(shù)界的研究足夠的credit，也不認(rèn)為有必要給。前者聚攏來(lái)的資源遠(yuǎn)超提出一些研究方法的學(xué)界，于是任何人的研究，都能變成他的成果——學(xué)術(shù)界造出來(lái)的，OpenAI全吞掉。

今天可以看到，每次OpenAI的新東西出來(lái)，都會(huì)有人出來(lái)“維權(quán)”原創(chuàng)，從Q*到今天sora背后的patch，推特上一名支持開(kāi)源的學(xué)者說(shuō)到：今天已經(jīng)沒(méi)有任何一條學(xué)術(shù)規(guī)范沒(méi)有被OpenAI無(wú)視過(guò)。

而且這些都是Altman的“哲學(xué)”之一。幾天前我刷到奧特曼的一條推特：

you have a right to your actions,

but never to your actions' fruits.

當(dāng)時(shí)還在想這是什么意思，緊接著Sora來(lái)了，Karpathy走了。我們也明白了。

Ilya和Karpathy兩個(gè)在堅(jiān)持閉源的決心上遠(yuǎn)沒(méi)有Altman堅(jiān)定，對(duì)開(kāi)源一直比較曖昧的人，最終成了這一切的注腳。

這一切是不是也讓你感到很熟悉？Scaling law正在被Altman演化成OpenAI版的moving fast and break everything 。也許這也是今天逼出了一個(gè)最強(qiáng)扎克伯格的原因。這也再次說(shuō)明Altman和扎克伯格可能才是同一類人。

3. 這只是我們和AGI的第一次親密接觸，一切仍在中間態(tài)。

這幾天人們拿各種文生視頻產(chǎn)品和Sora對(duì)比，發(fā)現(xiàn)它全面碾壓，而非各有所長(zhǎng)。這其實(shí)反而更說(shuō)明它是視覺(jué)模型本身的ChatGPT時(shí)刻，第一次證明這條路線可行，并讓人們看到未來(lái)雛形。

不過(guò)，Sora在生成視頻的意義之外，還在于語(yǔ)言模型突破后又迎來(lái)視頻和物理世界虛擬生成的突破，所以更大的意義是向著AGI前進(jìn)的一個(gè)里程碑。

GPT4出現(xiàn)后，微軟當(dāng)初那篇全面評(píng)測(cè)的論文，取名通用人工智能的火花，它的團(tuán)隊(duì)原本起的標(biāo)題叫做：與通用人工智能的第一次接觸。而從邁向更通用的智能的意義來(lái)看，Sora更適合這個(gè)標(biāo)題。

它預(yù)示著新拼圖會(huì)繼續(xù)不斷出現(xiàn)，也意味著一切都還沒(méi)到“徹底變天”，反而今天的一切都只是中間態(tài)。

Sora對(duì)Dalle3的沖擊已經(jīng)很容易想到，而被Sora強(qiáng)行搶了頭條的Gemini不僅明確用了MOE，而且第一次達(dá)到100萬(wàn)上下文長(zhǎng)度——這已經(jīng)不是對(duì)語(yǔ)言模型的突破，當(dāng)你可以有100萬(wàn)上下文，你可以放進(jìn)更多模態(tài)的數(shù)據(jù)，所以這樣看它是和Sora有直接競(jìng)爭(zhēng)關(guān)系的，為什么要選在Gemini 1.5后幾小時(shí)急著用一個(gè)“PPT”發(fā)布Sora，可能也更好理解了，OpenAI比誰(shuí)都明白，有了上下文長(zhǎng)度就有了一切，不管你叫什么模態(tài)的模型。

這一切都指向今天還被認(rèn)為是最強(qiáng)大的GPT——它也只是個(gè)中間態(tài)。一切都還有機(jī)會(huì)。

4. 不必妄自菲薄

說(shuō)實(shí)話，從OpenAI去年宮斗鬧劇到今天的Sora發(fā)布，圍繞它們的刷屏讓我非常羨慕，多希望有我們自己的企業(yè)和產(chǎn)品和明星人物也能獲得如此高度討論。

其實(shí)從宮斗的處理，到今天Sora發(fā)布，OpenAI的每一次重要的動(dòng)作和發(fā)布，都配合著一場(chǎng)場(chǎng)精巧設(shè)計(jì)的敘事和campaign，它的設(shè)置議題的能力，節(jié)奏控制，公眾引導(dǎo)熟練自如。哪怕你只想喊兩句“中美差距拉大”吃一吃情緒饅頭，也至少該知道這一切。

OpenAI是在gpt4已經(jīng)訓(xùn)練出來(lái)后，才決定發(fā)布基于Gpt3.5的ChatGPT，Altman在去了國(guó)會(huì)聽(tīng)證并高聲呼吁要減速AI的發(fā)展、政府多多監(jiān)管后，轉(zhuǎn)頭幾天就按下按鈕發(fā)布了ChatGPT 的app，Anthropic 拿到亞馬遜的最重要一筆融資后發(fā)現(xiàn)OpenAI給ChatGPT做了第一次大更新，上線了語(yǔ)音和圖像功能，以及這一次還沒(méi)ready的Sora硬搶谷歌 Gemini 的頭條，Altman掌控下的OpenAI在議程設(shè)置上幾乎登峰造極。

此外，OpenAI的每個(gè)人幾乎都是一個(gè)品牌，都是一個(gè)推特上的AI界馬斯克。一次發(fā)布，團(tuán)隊(duì)就多幾個(gè)明星人物，成為以后媒體們選題的天然來(lái)源。

而且這種同樣的模式已經(jīng)越來(lái)越明顯的在硅谷AI創(chuàng)業(yè)公司蔓延開(kāi)來(lái)，比如號(hào)稱要干掉Google的perplexity的印度CEO，比如從傳統(tǒng)瀏覽器變成“要再造一個(gè)互聯(lián)網(wǎng)那么大的平臺(tái)”的Arc瀏覽器。而這背后與AI行業(yè)發(fā)展急需的資源，人才，注意力，市場(chǎng)競(jìng)爭(zhēng)等直接掛鉤。

中國(guó)的同行們似乎已失去了這個(gè)能力。努力追趕是必須的，但作為一個(gè)天天和一線創(chuàng)業(yè)者打交道的人，我開(kāi)始感覺(jué)我們對(duì)自己嚴(yán)苛到妄自菲薄的事實(shí)也在起著反作用。

我們不缺同樣帶來(lái)極佳體驗(yàn)的AI模型和產(chǎn)品，也不缺技術(shù)社區(qū)影響力極佳的個(gè)體和作品，但卻沒(méi)有在我們自己的討論里形成該有的關(guān)注。也許所有人該放開(kāi)一些包袱了。

OpenAI不是transformer發(fā)明者，Stable Diffusion不是diffusion 發(fā)明者，Mistral不是MOE發(fā)明者，其實(shí)如果對(duì)標(biāo)，它們本質(zhì)都可以理解是一個(gè)個(gè)ASML，所以“我們?yōu)槭裁礇](méi)有誕生OpenAI”是不是并不等于“我們?yōu)槭裁礇](méi)從頭發(fā)明某某技術(shù)”？對(duì)原創(chuàng)技術(shù)的理解和定義是不是在我們妄自菲薄的過(guò)程里被擴(kuò)大化了，是不是哪怕一家像ASML這樣的“只做沙子的搬運(yùn)工”的公司今天誕生在中國(guó)也躲不過(guò)先被罵套殼的命運(yùn)？

有時(shí)候，問(wèn)題提錯(cuò)了可能一切就都錯(cuò)了。

本站提醒：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財(cái)建議。

精品精品国产手机自在线观|九九热思思精品视频|中文字幕aⅴ专区|黄国产成年人精品

Sora帶來(lái)的四點(diǎn)啟發(fā)