◎記者 劉怡鶴
從ChatGPT、Sora、Kimi、豆包,再到如今的DeepSeek,這些橫空出世的大模型及其產(chǎn)品,為日新月異的AI大模型產(chǎn)業(yè)寫下關(guān)鍵的注腳。
引發(fā)海內(nèi)外科技巨頭和媒體關(guān)注、全社會都在熱議的DeepSeek將如何影響大模型產(chǎn)業(yè)的走向?在英偉達(dá)股價(jià)震蕩,OpenAI、Meta產(chǎn)生危機(jī)感,以及A股“DeepSeek概念股”火熱的背后存在著怎樣的邏輯?
上海證券報(bào)記者采訪阿里云、優(yōu)刻得等業(yè)界、學(xué)界專家了解到,預(yù)計(jì)今年一季度,將會有更多中國頭部公司發(fā)布對標(biāo)DeepSeek的大模型。新一輪AI大模型應(yīng)用熱潮的興起,為我國深入開展“人工智能+”行動(dòng)帶來新機(jī)遇。
硬核技術(shù):軟硬一體創(chuàng)新,效率全面提升
2024年12月26日,DeepSeek-V3首個(gè)版本上線并同步開源,性能比肩閉源模型GPT-4o以及Claude-3.5-Sonnet;2025年1月20日,DeepSeek-R1發(fā)布,性能對標(biāo)OpenAI o1正式版。
一位頭部科技公司專家對記者說,目前大模型可以分為基座大模型、推理模型、多模態(tài)模型、用于科研的模型四種。DeepSeek-V3和DeepSeek-R1分別在基座大模型和推理模型上追平了全球領(lǐng)先的大模型。
DeepSeek發(fā)布的論文顯示,其模型在開發(fā)過程中采取了一系列軟、硬件一體的優(yōu)化和創(chuàng)新,在各個(gè)層面實(shí)現(xiàn)加速計(jì)算、提高硬件利用效率,最終實(shí)現(xiàn)了有效節(jié)省計(jì)算資源。
不過,上述專家也澄清,根據(jù)DeepSeek-V3論文得出的557.6萬美元成本額是單次訓(xùn)練成本,前期的成本投入不能忽略,而且用來估算的英偉達(dá)H800的市場價(jià)也存在波動(dòng)�!半m然沒有外界認(rèn)為的那么夸張,但DeepSeek的確將單次訓(xùn)練的成本降低了20%到40%�!边@位專家說。
推理模型是OpenAI發(fā)布o(jì)1、o3模型開創(chuàng)的新范式。這類模型意味著不再是一次性輸出,而是展示一個(gè)思考的過程。
復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授張奇接受記者采訪時(shí)說,對于如何訓(xùn)練出推理模型,OpenAI幾乎沒有對外公布任何信息。自o1模型發(fā)布以來,復(fù)現(xiàn)o1是產(chǎn)業(yè)界的重要工作。DeepSeek可以說是首個(gè)復(fù)現(xiàn)成功的模型,而且其采用的跳過監(jiān)督微調(diào),直接從強(qiáng)化和學(xué)習(xí)開始訓(xùn)練的思路是一個(gè)重要?jiǎng)?chuàng)新點(diǎn)。
“我國大模型產(chǎn)業(yè)經(jīng)過兩年左右的探索和發(fā)展,對大模型的訓(xùn)練有了更深刻的理解,而2024年OpenAI的腳步有所放慢。因此從GPT-4到o1的發(fā)展中,我國企業(yè)的追趕速度加快,某種程度上這種差距在縮小�!睆埰嬲f。
鯰魚效應(yīng):降低應(yīng)用門檻,重塑行業(yè)格局
DeepSeek公司成立于2023年7月,成立一年半來,已不止一次在大模型產(chǎn)業(yè)中激發(fā)了“鯰魚效應(yīng)”,對大模型價(jià)格、開源閉源路徑選擇、競爭格局等均產(chǎn)生了較大影響。
張奇認(rèn)為,目前做大模型的公司分為三類,其中第一類是OpenAI、DeepSeek。這類公司由于種種因素?fù)碛谐湓5馁Y金、算力等資源,首要目的是追求創(chuàng)新、保持領(lǐng)先。“如果DeepSeek堅(jiān)持下來,很有可能開辟新的路線,成為引領(lǐng)者�!睆埰嬲f。
DeepSeek與OpenAI還存在著開源、閉源路線的差異。華泰證券研究認(rèn)為,OpenAI原本憑借技術(shù)壁壘和閉源模式在AI領(lǐng)域占據(jù)優(yōu)勢,但DeepSeek的開源模式和低成本可能降低行業(yè)進(jìn)入門檻,削弱其技術(shù)壟斷地位。特別是對于依賴高額算力投入和專有模型訓(xùn)練的閉源公司而言,DeepSeek的低成本、高效率特性可能導(dǎo)致部分市場份額的流失,或迫使其調(diào)整商業(yè)模式。
業(yè)內(nèi)認(rèn)為,OpenAI面對當(dāng)前情況可能采取兩種方式應(yīng)對競爭:一種是選擇開源一部分,減少用戶流失,加入與其他生態(tài)的競爭;另一種是推出更出色的模型,證明其領(lǐng)先性,從而維持其閉源收費(fèi)的模式。
阿里云智能科技研究中心主任安琳對記者說:“開源和閉源路徑,本就不意味著性能差異,而是商業(yè)策略的選擇。不管哪種路徑,更重要的是如何形成可持續(xù)的商業(yè)化閉環(huán)。大模型的能力的確在不斷提升,但也面臨著邊際效益降低的瓶頸。只有將前期投入轉(zhuǎn)化為商業(yè)化收入,繼續(xù)賦能技術(shù)提升,這項(xiàng)技術(shù)的創(chuàng)新和應(yīng)用才能持續(xù)下去。”
第二類是騰訊、阿里、字節(jié)跳動(dòng)、Meta等互聯(lián)網(wǎng)巨頭。這些公司擁有充足的資源進(jìn)行投入,同時(shí)其自有生態(tài)就有豐富的應(yīng)用場景和需求。
雖然目前國內(nèi)外科技公司尚未發(fā)布對標(biāo)DeepSeek-R1的模型,但業(yè)內(nèi)預(yù)計(jì)二三月份會有更多中國頭部公司發(fā)布類似的模型。1月29日,阿里發(fā)布通義千問Qwen2.5-Max大模型。在多個(gè)基準(zhǔn)測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
第三類是包括國內(nèi)“大模型六小虎”(智譜、MiniMax、百川智能、月之暗面、階躍星辰、零一萬物)等在內(nèi)的創(chuàng)業(yè)企業(yè)。這些公司依靠外部融資,目前已有較大的融資金額和較高的估值。面對DeepSeek這樣一個(gè)異軍突起的黑馬,這些創(chuàng)業(yè)公司面臨著較大的壓力和變數(shù)。
近日,A股上市公司密集宣布了接入DeepSeek的消息,掀起了新一輪探索大模型應(yīng)用的熱潮。例如,網(wǎng)絡(luò)安全公司奇安信將DeepSeek-R1引入到威脅研判、安全運(yùn)營、滲透測試和漏洞管理等多場景,實(shí)現(xiàn)成本降低、性能提升。視覺中國完成了DeepSeek-R1的接入與本地化部署,實(shí)現(xiàn)了圖片分析和理解上的“一圖有萬言”,以及搜索意圖解析與匹配方面的“一圖勝萬言”。
“DeepSeek的開源模式和低成本,降低了應(yīng)用門檻。我認(rèn)為從應(yīng)用的角度來說,DeepSeek-R1的出現(xiàn),比o1推出的影響更大。”張奇說,全社會開始更加深刻地認(rèn)識到AI的能力,有了推理能力的加持,大模型的幻覺大幅降低,用戶體驗(yàn)也更好。
“當(dāng)全社會都在談?wù)揇eepSeek的時(shí)候,無疑會加速AI的普及。這對我國深入開展‘人工智能+’行動(dòng)是巨大的機(jī)遇,AI在制造、醫(yī)療、教育、交通、農(nóng)業(yè)等多個(gè)領(lǐng)域都有機(jī)會發(fā)展壯大�!卑擦照f。
云計(jì)算上市公司優(yōu)刻得研發(fā)總監(jiān)王曉慧告訴記者,自大模型問世以來,許多公司都嘗試過業(yè)務(wù)和大模型的融合。在融合中不少公司發(fā)現(xiàn),原以為無所不能的AI,實(shí)際上應(yīng)用的準(zhǔn)確率和精度還達(dá)不到業(yè)務(wù)要求。但DeepSeek出圈后,這些公司開始用DeepSeek進(jìn)行新的嘗試,完成相關(guān)分析、推理的業(yè)務(wù)。
對于算力來說,DeepSeek雖然通過創(chuàng)新路徑削弱了大模型訓(xùn)練對高端GPU的依賴,但業(yè)內(nèi)共識是,未來的算力需求將取決于大模型大規(guī)模應(yīng)用的推理算力。近日,阿里云、騰訊云、優(yōu)刻得等云計(jì)算廠商均上架了DeepSeek系列模型,提供了多種部署方式,進(jìn)一步簡化了模型開發(fā)流程。