當(dāng)前位置：首頁 > 今日頭條 >

今日頭條

熱點(diǎn)關(guān)注

文章排行

Sora成為AI界新頂流，“U-AIGC”新概念或?qū)⒊霈F(xiàn)

發(fā)布時(shí)間：2024-02-27 15:00:19 | 來源：東方網(wǎng) | 閱讀量：15795 |

如果2023年是屬于大語言模型的一年，那么2024年，以Sora為首的多模態(tài)大模型，或許將帶我們走向更超乎想象的遠(yuǎn)方。

將心中所想的文字直接變成視頻，過去只存在于科幻作品，而現(xiàn)在，幻想正無限接近現(xiàn)實(shí)。

即便尚未對公眾開放，由OpenAI發(fā)布的Sora已經(jīng)在短短幾天超越“GPT”們，成為大眾討論度最高的AI界“新晉頂流”——僅在Tik Tok平臺上發(fā)布的視頻，就為OpenAI在4天內(nèi)“吸粉”10萬。

“AIGC產(chǎn)品在以UGC為核心的平臺上驚艷亮相，可能是AI時(shí)代的一個(gè)重要轉(zhuǎn)折。”對于Sora帶來的影響力以及AI大模型領(lǐng)域的未來發(fā)展前景，復(fù)旦大學(xué)管理學(xué)院信息管理與商業(yè)智能系講師李文文分享了她的最新觀察。

一、重新定義人類與AI的交互關(guān)系

UGC與AIGC(Artificial Intelligence Generated Content，即生成式人工智能)可能存在一定的競爭，但更多的是交融。

未來可能出現(xiàn)一個(gè)新的概念U-AIGC?，即用戶與AI共同生產(chǎn)的內(nèi)容。

某種意義上，AIGC產(chǎn)品在以UGC為核心的平臺上驚艷亮相，可能成為AI時(shí)代的一個(gè)重要轉(zhuǎn)折。

在應(yīng)用層面，Sora會帶來哪些新變化？

第一，“真實(shí)”與“虛擬”的邊界將愈發(fā)模糊。

Sora能夠生成非常逼真、高清晰度的視頻和照片。因?yàn)榫哂卸嘟巧⑻囟愋瓦\(yùn)動(dòng)以及細(xì)節(jié)準(zhǔn)確的主題背景構(gòu)建能力，乍看之下，人們甚至很難分辨哪些是真實(shí)拍攝的視頻，哪些又是Sora生成的視頻。

需要注意的是，Sora并非單純的“視頻模型”，而被視為一種“世界模擬器”，是OpenAI“教AI理解和模擬運(yùn)動(dòng)中的物理世界”計(jì)劃中的一步，目的是幫助人們解決需要現(xiàn)實(shí)世界交互的問題。

在這個(gè)過程中，憑借以假亂真的視頻生成能力，Sora的出現(xiàn)勢必能為很多行業(yè)帶來新的機(jī)遇，例如短視頻和游戲行業(yè)等。與此同時(shí)，傳統(tǒng)的影視制作流程和商業(yè)模式也可能面臨重塑。例如，使用AI生成視頻的需求增加，相應(yīng)可能會減少對人類演員、編導(dǎo)等創(chuàng)造性角色的用人需求，影視行業(yè)的就業(yè)格局就很可能發(fā)生巨大變化。

第二，人與AI之間的新交互與新關(guān)系。

GPT和Sora的出現(xiàn)徹底變革了人機(jī)交互模式，讓用戶通過直接說話與AI交流，讓自然語言交互成為可能，極大地提高了可操作性。較之于傳統(tǒng)的圖形用戶界面，自然語言是人類最自然的交互方式，幾乎不需要學(xué)習(xí)，且交互效率更高。

新的交互模型會如何影響組織中的人機(jī)協(xié)同？很多人都會提出這樣的問題:“AI到底會輔助人類的工作，與人類合作，還是取代人類的工作？”“人機(jī)共生是否不再遙遠(yuǎn)？”“人類與機(jī)器的關(guān)系將何去何從？”而眼下，這些疑問已經(jīng)不再是“遙遠(yuǎn)的想象”，而是近在咫尺，甚至“迫在眉睫”。

我認(rèn)為，對于個(gè)體而言，技術(shù)進(jìn)步雖然帶來了不少挑戰(zhàn)，但也提供了新的機(jī)遇。與其盲目擔(dān)憂工作被取代，不如思考我們應(yīng)該如何定位自己，如何適應(yīng)AI時(shí)代，如何將技術(shù)為我所用。

換一個(gè)角度來看，AI中的“A”可以解讀為assistance和augmentation，AI應(yīng)該作為人類的“輔助”“增強(qiáng)”工具，而不是替代工具，或者說，AI應(yīng)該是人類的工作伙伴。

AI的意義在于讓更多人從簡單重復(fù)的勞動(dòng)中解脫出來，以更高的效率去創(chuàng)造更大的價(jià)值。當(dāng)自然語言的交互模式極大降低了AI技術(shù)的應(yīng)用門檻，任何人都能夠簡單地使用AI輔助自己的工作。例如，Sora讓視頻制作更加簡單高效，讓更多人將自己的想法轉(zhuǎn)化成生動(dòng)的視頻，也可以讓人們更加聚焦于創(chuàng)意和故事本身，所以，未來基于Sora的U-AIGC可能會越來越多。

二、AI離物理世界更近一步

人類天生具備處理和理解多模態(tài)信息的能力。比如我們品嘗一碗熱氣騰騰的牛肉面，我們能夠看到面條的誘人的擺盤，聞到面條的香氣，嘗到面條的筋道。視覺、嗅覺和觸覺接收和傳遞的不同模態(tài)信息共同形成了我們對這碗面的認(rèn)知。同樣的，我們也希望AI具備多模態(tài)數(shù)據(jù)的處理能力。

GPT展現(xiàn)了強(qiáng)大的文本處理能力，但它主要處理單一模態(tài)數(shù)據(jù)。Sora的出現(xiàn)則讓我們看到了多模態(tài)模型在模擬物理世界時(shí)的巨大潛能。隨著多模態(tài)模型愈發(fā)成熟，其廣闊的發(fā)展空間和應(yīng)用前景將非常振奮人心。

當(dāng)然，目前的AI工具精細(xì)度仍然有限，因此，如何高效地與AI溝通，將是未來我們必須學(xué)習(xí)和具備的技能。

精細(xì)度包含兩個(gè)方面:一是通過自然語言交互傳達(dá)指令的精細(xì)度，二是AI理解并實(shí)現(xiàn)指令的精細(xì)度。

OpenAI給出的示例中，只需要一句很簡單的描述，例如“一個(gè)身穿藍(lán)色牛仔褲和白色T恤的女人在南非約翰內(nèi)斯堡愉快地散步，在一場冬季風(fēng)暴中”，Sora就能生成一個(gè)非常真實(shí)流暢的短視頻。這其中有很多細(xì)節(jié)，比如女人的膚色、路人等，是指令中沒有涉及的。

如果是以體驗(yàn)或者娛樂為基準(zhǔn)，Sora所生成的這些視頻是非常驚艷且有趣的。但在一些專業(yè)性較高的任務(wù)中，比如生成具有科普性質(zhì)或者商業(yè)化價(jià)值的視頻時(shí)，就需要生成視頻在出現(xiàn)的所有內(nèi)容和細(xì)節(jié)上都能夠滿足具體的要求。這種情況下，用戶需要提供盡可能詳細(xì)的指令以涵蓋所有的要求。

另一方面，AI能否完全理解并且實(shí)現(xiàn)用戶提出的每一個(gè)指令細(xì)節(jié)依然存疑。以GPT為例，如果給出一個(gè)較為復(fù)雜的指令，有時(shí)候GPT就會“自主”忽略指令中的幾個(gè)細(xì)節(jié)要求。

三、中國科技企業(yè)“逐浪”還是“造浪”

從ChatGPT到Sora，大模型為科技公司不斷帶來充滿前景的新賽道。僅去年8個(gè)月內(nèi)，中國就誕生了238個(gè)大模型，幾乎一天一個(gè)。

然而，當(dāng)ChatGPT拉高了用戶和市場對于大模型性能的要求后，訓(xùn)練大模型將意味著投入更多人力、算力和數(shù)據(jù)量，以提升模型性能，滿足用戶需求以及市場的期待。

大型語言模型的數(shù)量趨勢

但高昂的訓(xùn)練成本會帶來兩個(gè)問題。首先，人工智能領(lǐng)域傳統(tǒng)的開源氛圍受到一定影響，一些核心的技術(shù)和模型不再公開。科研機(jī)構(gòu)和高校受制于有限的資源，很難訓(xùn)練出有競爭力的大模型，無法提供開源的模型。而一些科技公司和企業(yè)花大力氣訓(xùn)練出大模型，考慮到商業(yè)因素，也不愿意開源自己的模型，而是愿意直接提供包裝好的產(chǎn)品。

當(dāng)像GPT-4這樣的先進(jìn)大模型不公開技術(shù)細(xì)節(jié)和模型，只提供服務(wù)的時(shí)候，這給很多想要入局大模型的科創(chuàng)企業(yè)帶來了不小的挑戰(zhàn)。以往人工智能領(lǐng)域有著濃厚的開源氛圍，大家樂意把最新的模型代碼分享到GitHub這類網(wǎng)站上，所以其實(shí)AI創(chuàng)業(yè)的門檻并不是非常高，因?yàn)楹诵募夹g(shù)和模型都是公開的，只需要稍微修改一下模型，拿自己的數(shù)據(jù)訓(xùn)練一下，就能得到一個(gè)新的垂直領(lǐng)域的AI產(chǎn)品。

現(xiàn)在，閉源的大模型使得科創(chuàng)企業(yè)不得不思考另一個(gè)問題:自研大模型還是使用已有大模型聚焦垂直領(lǐng)域應(yīng)用？

如果采用自研大模型，目前國內(nèi)只有頭部的幾家公司有自研大模型的能力，他們也發(fā)布了自家的產(chǎn)品，但是性能和GPT-4比還是有一定差距的，這是我們需要面對的現(xiàn)狀——國內(nèi)企業(yè)在算力和數(shù)據(jù)資源方面都遠(yuǎn)遠(yuǎn)落后于OpenAI。

對很多科創(chuàng)公司而言，另一個(gè)更可行的路線是購買已有大模型的服務(wù)，聚焦于垂直領(lǐng)域的應(yīng)用。但是我們現(xiàn)在觀察到的一個(gè)現(xiàn)象是，不少體量較小的科創(chuàng)公司都宣稱研發(fā)了自己的大模型。如果仔細(xì)調(diào)研這些大模型，就會發(fā)現(xiàn)其中不少背后都有成熟的大模型的身影，比如GPT-4、ChatGPT之類。

科創(chuàng)企業(yè)熱衷于大模型技術(shù)可以理解，畢竟有市場、資本和用戶等各方面的因素，但大模型不應(yīng)該成為面子工程或者“充門面”的產(chǎn)品。

縱觀全球的大模型發(fā)展格局，頭部的三家公司是OpenAI、Google和Anthropic，他們的代表性產(chǎn)品分別是GPT-4、Gemini、Claude-2。中國企業(yè)在這場大模型競賽中一直處于追隨者的位置。

盡管追上頭部的大模型產(chǎn)品比較困難，但我們的科創(chuàng)企業(yè)必須要追趕，而且需要考慮如何解決兩個(gè)非常大的挑戰(zhàn)。

首先是算力問題。模型訓(xùn)練所必需的GPU顯卡是一個(gè)瓶頸。目前GPU的主要提供商N(yùn)VIDIA供應(yīng)能力有限，處于供不應(yīng)求的局面。2023年年中，OpenAI曾提出要用一千萬張GPU訓(xùn)練模型，近日，OpenAI CEO山姆·奧爾特曼更提出了籌資7萬億美元的生產(chǎn)自研AI芯片計(jì)劃。雖然計(jì)劃尚未正式展開，但也說明他們具有一定能力。與之相比，國內(nèi)公司在算力上差距還比較大。

其次是數(shù)據(jù)問題。大模型提升能力需要大數(shù)據(jù)訓(xùn)練，能力升級就能吸引更多用戶，從而獲得更多數(shù)據(jù)和資源，幫助進(jìn)一步提升模型能力。未來，大模型市場可能會出現(xiàn)比較顯著的馬太效應(yīng)，頭部的兩三個(gè)大模型產(chǎn)品會占據(jù)絕大部分市場。所以，國內(nèi)企業(yè)一定要在大模型發(fā)展的初期持續(xù)發(fā)力，努力追趕。

現(xiàn)在的大模型裹挾了太多東西，有資本的狂熱、用戶的期待，也有學(xué)界的爭論。科創(chuàng)企業(yè)身處熱潮，更需要冷靜地思考，大模型對自身業(yè)務(wù)的價(jià)值到底在哪里？能否研發(fā)出真正有核心技術(shù)的產(chǎn)品，而不是做簡單的“套殼”產(chǎn)品？

國內(nèi)企業(yè)很擅長找出應(yīng)用場景，做技術(shù)落地的應(yīng)用，在人工智能領(lǐng)域，可能需要更多能夠研發(fā)核心技術(shù)和具備技術(shù)壁壘的企業(yè)。

大模型并不一定“大力出奇跡”，除了超強(qiáng)的算力、超大規(guī)模的數(shù)據(jù)，模型架構(gòu)具體要怎樣實(shí)現(xiàn)？模型訓(xùn)練的策略是什么？大數(shù)據(jù)怎樣處理會使模型訓(xùn)練效果更好？里面包含非常多的核心技術(shù)和經(jīng)驗(yàn)，正是這些技術(shù)和經(jīng)驗(yàn)導(dǎo)致了不同模型之間巨大的性能差距。

期待中國的科創(chuàng)企業(yè)能夠在核心技術(shù)和前沿技術(shù)研發(fā)上投入更多精力，從而在大模型以及人工智能領(lǐng)域具備更強(qiáng)的競爭力。

上一條：12306可以買機(jī)票沖上熱搜：四年前已上線，票價(jià)優(yōu)勢不明顯
下一條：返回列表

聲明：以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體，相關(guān)信息僅為傳遞更多企業(yè)信息之目的，不代表本網(wǎng)觀點(diǎn)，亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。投資有風(fēng)險(xiǎn)，需謹(jǐn)慎。

67194手机在线看 localhost,欧美一区二区自偷自拍视频,91在线精品播放

今日頭條

熱點(diǎn)關(guān)注

文章排行

Sora成為AI界新頂流，“U-AIGC”新概念或?qū)⒊霈F(xiàn)

猜你喜歡