世界上最好的模型,中國有6個左右,美國有4個。
文|《中國企業家》記者 閆俊文
今年2月DeepSeek爆火,震驚國內外。實際上,在此之前,中國信息通信研究院(下稱:中國信通院)的大模型評測團隊就觀察到國內模型性能迅速提升的勢頭,他們當中就包括中國信通院人工智能研究所所長魏凱。
魏凱說:“2024年一年,國內包括DeepSeek在內的多個大模型團隊,一直從多角度努力,不斷提升模型性能,基本上每個月都能看到新的進展。在我們的測試中,DeepSeek在2024年4月的模型性能排名還比較靠后,8月的版本已經是TOP10里的玩家了,到了10月的版本已經是前幾名了,12月發布的DeepSeek-V3成為當時基礎能力第一名的模型,而且是開源的,非常了不起。”
中國信通院是工業和信息化部直屬科研事業單位,在人工智能領域承擔決策支撐、新技術研究、標準研制、檢驗檢測、咨詢服務和國際合作等任務。2023年,魏凱帶領團隊推出“方升”大模型基準測試體系,依托“人工智能關鍵技術與應用評測部重點實驗室”,制定測試標準,建設測試平臺和數據集,定期對國內外大模型進行測試,目前已經構建了近700萬條測試數據集。
“方升”是戰國時期的度量衡標準器,也是現存最早的度量衡標準器。魏凱說:“現在國內外大模型基準測試很多,但缺乏標準化的測試方法和體系,刷榜作弊也時有發生。我們推出‘方升’,就是希望能夠推動大模型基準測試的標準化。”
2024年底,工業和信息化部成立人工智能標準化技術委員會,魏凱任秘書長,主持日常工作。
6月底,《中國企業家》專訪了魏凱,作為資深專家,他對大模型以及當前最火的Agent有獨特的看法,以下是內容要點:
1.一些公司放棄了預訓練,轉向后訓練與智能體,怎么把大模型能力用好,這部分創業或投入會越來越多。
2.一個真正的人工智能應用軟件,它的組成部分有大模型,有數據庫、知識庫以及各種調用工具,并不只是單純依靠模型本身。
3.大模型是一個操作系統,Agent就是它的應用程序。
4.為什么現在Agent有創業機會,它能讓提示詞明白人的意圖,Manus本質上是一堆提示詞,它背后沒有模型,Cursor也是這樣。
5.擁有海量C端用戶對模型能力提升的貢獻有限,超級APP只有很淺的數據,大量數據不在APP上,而在行業沉淀的知識中。
6.外界低估了谷歌,Transformer、MoE、蒸餾等技術都是谷歌最早提出的。
7.到了AI下半場,大模型要精簡輸出信息,甚至輸出信息不是主要目的,主要是把活干好。少說話,多做事,是大模型從生成式(Generative)AI走向代理型(Agentic)AI的主要目標。
以下是訪談的內容詳情(有刪減):
DeepSeek一直在優化
《中國企業家》:從中國信通院的測試看,國內哪些模型的表現更好一些?
魏凱:根據我們過去一年的測試,通義千問、DeepSeek、豆包、混元、文心等模型表現一直比較好。我們也會測OpenAI、Anthropic、谷歌的模型,他們的表現也非常優異。最新測試看,基礎模型TOP10中,中國的模型大概是6個左右,美國有4個。
但第一名經常變,去年12月DeepSeek是最好的大模型,春節之后,千問成了第一名,但沒多久,OpenAI又上來了,緊接著,谷歌Gemini也追上來了。
我們觀察到一個現象,最近大家更新的頻率越來越快,導致TOP1的模型在那個位置待的時間越來越短了。近半年來基礎模型的更新頻繁,性能上你追我趕,排名經常輪動,但歷次榜單中總是這幾個模型的新版處在榜單前列。
《中國企業家》:有人說大模型成了海鮮市場,保質期可能只有3個月。
魏凱:現在可能不到3個月,現在十幾天就會變化。去年5月,OpenAI的GPT-4o是最好的模型,它在第一名的位置上保持了200多天的紀錄。但現在,排名十幾天就會變一次,競爭特別激烈。
這也是為什么現在大模型玩家越來越少了,因為每次訓練至少要幾百萬美元,保鮮期卻很短,你訓完以后,再過幾天,又要接著訓,所以,支撐基礎大模型創新,必須要有雄厚的資源保障。
《中國企業家》:DeepSeek發布的R1-0528版本強調后訓練,這是不是一種趨勢?有一些明星模型公司不做預訓練了,轉向了后訓練。
魏凱:不管是后訓練還是預訓練,它都是訓練階段。對下游應用企業來說,會越來越少的參與到訓練環節,一些公司可能會做一些微調,但隨著基座模型能力快速迭代,做微調的用戶企業也變少了。對廣大用戶側的企業來說,如何通過提示詞工程、檢索增強、工作流等工程化方法,把大模型能力充分激發出來,開發針對特定場景的智能體,變得越來越重要了。圍繞這方面需求的創新創業機會,也會越來越多。
《中國企業家》:同樣的大模型,能不能用好差別也很大?
魏凱:你向大模型提的問題好壞決定了它回答的質量的高低,我們可能都會有這樣的直觀體驗,所以寫提示詞也是有技術含量的。在提示詞之上,又加上了工作流,加上Agent,你看Manus和Cursor(AI編程智能體公司),他們就不做基礎模型,就是調用別人的。基于別人的大模型,開發出高水平的智能體,技術含量也會很高,而這還并不需要重投入。
《中國企業家》:智譜AI告訴我們,他們會繼續做預訓練,堅持通向AGI方向。
魏凱:智譜的技術團隊實力很強,他們還重組資源來堅持長期投入。基礎模型的比拼,看技術團隊的實力,也看耐久力,“糧食”儲備夠不夠多是一個關鍵。
《中國企業家》:通向AGI必須得靠大模型預訓練嗎?
魏凱:投入海量數據和算力,開展大模型預訓練,對于模型基礎能力提升至關重要,預訓練,是讓大模型大量閱讀和刷題,可以類比在學校中學習,而這些數據都是人類積累下來的,本質上還是向人類學習。但預訓練不是提升模型能力的唯一路徑,在后訓練階段利用強化學習,潛力也非常巨大。強化學習不太依賴人類提供的數據,而更強調從實戰經驗中學習,可以類比為在工作實踐中學習。
目前,我們也要警惕一種高估大模型能力的傾向,錯誤地認為大模型無所不能,這是不準確的。在產業化應用中,我們要通過詳細的評測,了解大模型能力邊界,將任務需求與模型能力準確匹配。讓大模型干它不擅長的活,一定會出問題。
使用大模型,建議側重利用模型的認知能力和邏輯能力,而不要盲目相信其提供的事實性信息。
《中國企業家》:未來能消除這種幻覺或者錯誤嗎?
魏凱:大方向是減少幻覺,但目前的技術路線不能100%保證沒有幻覺。大模型生成內容,是靠神經網絡參數來“回憶”,而不是一種精確查詢。
《中國企業家》:外掛知識庫可以解決這個問題嗎?
魏凱:把確定性的東西都放在數據庫里,讓大模型檢索,可以有效減少輸出幻覺。就像律師或法官,在法庭打官司的時候,如果要引用法律條文,一定是查原文,這樣才能確保完全準確。
到了一些嚴肅場景,還是得靠確定性的查詢,所以一個真正的人工智能應用軟件,它的組成部分有大模型,有數據庫、知識庫以及各種被調用的工具,它并不只能單純依靠模型本身來滿足需求。
模型本身就像一個中樞神經系統,它能調度,但它難以做到100%準確回憶,也不會直接干活,要具備“干活”能力,還是得靠調用其他的工具,那就是Agent。
Manus本質上是一堆提示詞
《中國企業家》:Agent今年備受關注,它為什么這么火?
魏凱:Agent實際上是運行在大模型上面的軟件,利用大模型意圖理解和規劃能力,調用專業工具,實現復雜的功能。其實早在兩年前業內已經在提Agent了,2023年年中,信通院發布的人工智能十大關鍵詞,就已經將Agent納入其中。兩年來,得益于基座模型水平的提升,Agent的智能水平也在不斷進化。
過去的Agent還要靠人寫提示詞,做成工作流,告訴它第一步干什么,第二步干什么,第三步干什么。今天的Agent可以自己規劃工作流,自己產生思維鏈,與兩年前基于人為提示詞和工作流的智能體相比,智能水平顯著提升。人的工作一直在往后退,AI的自主性更強了。
《中國企業家》:那未來在人機互動中,提示詞是不是不用那么精準了?
魏凱:我記得DeepSeek推理模型剛出來的時候,還專門有個教程說,不要讓用戶寫提示詞,否則影響模型的自主思考過程。現在并非不需要關注提示詞了,提示詞仍然非常重要。目前Agent已經內置精心設計的系統提示詞,這部分提示詞寫得越好,模型能力就被激發得越充分,整體效果就越好。
《中國企業家》:面對大模型,其實大部分人問不出好問題,也不知道該問什么。
魏凱:同樣的模型,你給它好的提示詞和不好的提示詞,得到答案的水平差異很大,這就是Agent層或者應用層公司的價值。
《中國企業家》:未來模型能力繼續提升,會不會覆蓋當前Agent的創業空間?
魏凱:從技術上講,大模型是一個操作系統,Agent就是一個應用程序。從功能上說,Agent非常像數字員工。未來,會慢慢進化出各種崗位特定的Agent,每個人可能會擁有很多Agent,有的是生活助手,有的是工作助手。
《中國企業家》:如果按照這個邏輯推演,未來“一人公司”或者超級個體也是有可能的。
魏凱:未來是可能的,Agent會成為數字員工,人和數字員工合作,能力會越來越強。所以未來善用AI的人,可以擁有幾乎無限個數字員工,從而成為一個超級個體,一個人可以指揮“千軍萬馬”,這個意義上,一人公司不是夢。
《中國企業家》:現在大家都在說,新的入口爭奪戰。
魏凱:哪家公司也沒有明顯的優勢,現在都處于膠著狀態,所有人都想搶,手機操作系統廠商、一些智能硬件公司,還有超級APP廠商,包括新興創業公司都想搶奪用戶的入口。
《中國企業家》:目前Agent產品的形態成熟了嗎?未來還會進化嗎?
魏凱:還早,Agent可能不是一個產品,用戶自己都可以開發一個,但功能很單一。未來,Agent會很有市場,企業里會有很多覆蓋多種功能的Agent。所以Agent可能不是一個產品,而是好多功能的集合,但Agent開發平臺可能是少數。
《中國企業家》:未來底座模型+應用是一個怎么樣的格局?
魏凱:可能是個位數的基座模型,然后再加上若干個垂直行業的應用平臺,或者是很成熟的Agent,形成數字勞動力市場。
《中國企業家》:明星模型公司有超級APP,比如月之暗面的Kimi,它有海量用戶,這能不能讓模型能力變得更好?
魏凱:這是兩回事兒,不一定,超級APP只會沉淀很淺層的數據,大量用戶數據不會在APP上,因此,聊天機器人類型的超級APP,如果不附加其他深度應用功能,就很難構造自己的數據飛輪。
被低估的谷歌
《中國企業家》:谷歌的模型能力現在也跟上來了。
魏凱:國內各行業,包括媒體在內,高度關注大語言模型、聊天機器人類型的AI應用發展,對谷歌DeepMind引領的AI路線關注度相對不高。
DeepMind布局的強化學習路線,以及在蛋白質、材料、生物、數學等領域研發的垂直領域專業模型,對推動科學進展意義重大,如果能產業化,將會對實體經濟產生重大影響。
因此,AI大模型的賽道無限廣闊,語言和多模態模型,只是一個分支,AI能用于創新和研發,可能會極大加速人類創新速度,需要引起高度關注。
《中國企業家》:谷歌被低估了嗎?
魏凱:外界絕對低估谷歌了。Transformer、MoE、蒸餾等技術都是谷歌創立的,而且,谷歌的大模型Gemini排名一直在前面,包括云、大數據等概念和核心技術也是谷歌最早提出來的。
你看谷歌(DeepMind)的布局方向,那些才是真正的高價值場景,為什么大家說聊天機器人找不到場景,因為聊天就這么回事,但DeepMind的探索不一樣,它可以優化工藝流程,發現新藥、新材料,對實體經濟的價值很大。
國內也有一些公司在布局這些領域,但整體力量還比較薄弱,因為這方面難度很高。就像規模定律(Scaling Law)已經探明了,模型這條路可行,才有了今天的繁榮。今天,雖然DeepMind的創始人哈薩比斯獲得了諾貝爾化學獎,激發了大家的興趣,但這個領域的技術門檻很高,失敗風險也很高,需要長期投入。
《中國企業家》:哈佛大學的李飛飛博士提出了世界模型,說模型不能只靠在語言里面打轉,要深入物理世界。
魏凱:目前的大模型還不能很好地理解空間關系,也不能很好地掌握時間序列、因果關系、物理定律等。大語言模型掌握了語言序列的分布,通過語言來理解世界,是簡介的、不可靠的。要讓AI實現通用智能,還需要建立世界模型。
《中國企業家》:AGI什么時候會到來?
魏凱:我認同山姆·阿爾特曼(OpenAI聯合創始人)等人對AGI的觀點,他們覺得這個詞不太重要,我們只需要關心AI今天做得比昨天好,明天比今天好。比較容易定義目標、容易采數據的任務,AI很快就能突破,干得比人好。比如自動駕駛,就是很容易定義目標的任務,編程也是,這些領域會最早被突破。
現在,各種行業都在找這種先導場景。
從圖靈測試到新一代的基準測試
《中國企業家》:5月26日,紅杉中國宣布推出全新的AI基準測試xbench,基準測試為什么很重要?
魏凱:現在的人工智能都是基于神經網絡去訓練,但神經網絡是個黑盒子,你不知道它學的效果怎么樣,就跟學生一樣,怎么看他學得好壞,那就需要考試,月考、周測、期中考試、高考等。
現在的人工智能也是這樣,神經網絡訓練叫涌現,或者叫生成,結果不確定,因為它本質是黑盒子,只有通過測試,才能知道它的能力有沒有達到。測試基準(Benchmark)是衡量大模型水平高低的一把尺子。
所以,每家大模型公司發布新模型的時候,都會引用一個測試結果,來說明它的產品性能;對內,公司的研發人員也得看評測結果,來決定是否結束訓練,如果沒達到目標,就需要繼續訓練。
應用開發商也得測大模型,哪個好用,哪個不好用。整體來說,基準測試(Benchmark)是個指揮棒,牽引著技術往前走,所以,誰能定義Benchmark,誰就定義了方向,因為神經網絡人工智能最強大的地方在于,只要你定目標,它就能學到,跟目標接近。
《中國企業家》:中國信通院人工智能研究所做的“方升”大模型基準測試體系,它和其他的Benchmark有什么不同?
魏凱:紅杉中國推出xbench,實際上面向的是真實場景,比如AI在辦公室能不能當文員,能不能當客服接線員,而不是早期的基準測試以學科考試題為主,比如高考題,或者研究生水平推理測試(GPQA)。那些學科考試類的評測,在學術上有價值,但并不能真正代表到真實用戶場景中,AI具備完成任務的能力。
我們的“方升”大模型基準測試,就是瞄準產業實戰應用方向,目的是推動AI能干活,具備賦能實體經濟的能力。
《中國企業家》:聽起來像Agent的測試能力,你們是怎么做到的。
魏凱:第一,我們的題目有學科考試類的題,增加了大量垂直行業的題目,比如它是不是能理解接線員的問題,我們就更偏重行業應用的問題。
第二,現在的大模型測試很容易被騙,很多Benchmark的數據集是開源的,一些人會把它混到訓練數據集里,大模型做過這些題,它當然能答對。現在,我們很多題不是開源的,是我們內部開發的。
現在我們的數據庫也比較大,有七八百萬條數據,每次測試時,從中抽取大概1萬或2萬道題,測完以后,這些題就作廢了。
第三,測試的方法論標準化,我們把它都公開,寫成藍皮書,大家都來用,我們還引入了同行評審,大家都可以來挑刺。
《中國企業家》:誰能定義基準測試,誰就能定義AI。
魏凱:大模型發展從2020年到現在,已經5年了。大家都在針對一個目標往前奔,在考試上追求高分數,為什么中國和美國大模型的差距會縮小?因為大家的目標一致,目標已經明確,路線也清楚了(Scaling)。
到了AI下半場,這個目標需要重新思考。
現在的大模型側重內容“生成”,給用戶提供大量信息,這也會造成新的信息過載,但實際上并沒有減輕人的工作量。下一階段,精簡輸出信息,提升思考深度,增強使用能力是主要方向,意圖理解、任務規劃、深度研究、軟件工程等能力就變得非常重要。
通過標準和測試,引導推動大模型面向產業實際需求,解決高價值場景中的關鍵問題,提升人工智能賦能實體經濟的效能,這就是我們“方升”大模型基準測試體系建設的方向。
(責任編輯:孫丹)