法國AI初創企業Mistral,過去常被看作是在美國巨頭與中國新興企業主導的領域里處于弱勢的歐洲參與者,如今正加速追趕:本周二,該公司推出了其有史以來最具野心的新版本,這給開源領域的競爭對手帶來了不小的壓力。

這四個模型系列涵蓋了從口袋大小的便攜助手到配備6750億參數的尖端系統,均采用寬松的Apache 2.0開源許可進行發布。所有模型均可公開獲取,任何具備相應硬件條件的用戶,都能在本地環境中運行、修改、微調這些模型,或是基于它們開發各類應用程序。
旗艦產品Mistral Large 3采用稀疏專家混合架構,每個標記僅激活其6750億總參數中的410億。這個工程選擇讓它在前沿重量級中表現出色,同時推理時的計算配置更接近于400億參數。
Mistral Large 3是在3000臺NVIDIA H200 GPU上從頭訓練的并在LMArena排行榜上首次亮相,位列開源非推理模型的第二名。
與DeepSeek的基準競爭講述了一個復雜的故事。根據Mistral的基準測試,其最佳模型在多個指標上擊敗了DeepSeek V3.1,但在LMArena上落后于更新的V3.2幾個點。

在一般知識和專家推理任務中,Mistral系列表現不俗。DeepSeek領先的地方在于原始編碼速度和數學邏輯。但這在意料之中:此次發布不包括推理模型,因此這些模型的架構中沒有嵌入思維鏈。
較小的“Ministral”模型對開發者來說很有趣。三個尺寸——3B、8B和14B參數——每個都有基礎和指令變體。所有模型都原生支持視覺輸入。3B模型引起了AI研究員Simon Willison的注意,他指出它可以通過WebGPU完全在瀏覽器中運行。
如果你想嘗試這個,Hugginface空間允許你在本地加載并使用網絡攝像頭作為輸入進行交互。
一個大約3GB文件的具備視覺能力的AI為需要效率的開發者甚至是業余愛好者打開了可能性:無人機、機器人、離線運行的筆記本電腦、車輛中的嵌入式系統等。
早期測試顯示整個系列有分裂的個性。在快速測試中,我們發現Mistral 3 Large在對話流暢性方面表現良好。有時它的格式風格類似于GPT-5(類似的語言風格和對表情符號的偏好),但節奏更自然。

Mistral 3 Large在審查方面也相對寬松,在ChatGPT、Claude或Gemini之間選擇時,它是快速角色扮演的更好選擇。
對于自然語言任務、創意寫作和角色扮演,用戶發現14B指令變體相當不錯,但并不特別出色。Reddit上的r/LocalLLaMA標記了重復問題和偶爾依賴于訓練數據繼承的固定短語,但模型生成長篇內容的能力是一個不錯的加分項,尤其是對于其大小而言。
運行本地推理的開發者報告說,3B和8B模型有時會循環或產生公式化輸出,特別是在創意任務上。
盡管如此,3B模型如此小,以至于可以在智能手機等弱硬件上運行,并可以針對特定目的進行訓練/微調。目前在該特定領域唯一的競爭選擇是Google的Gemma 3的最小版本。
企業采用已經在進行中。匯豐銀行周一宣布與Mistral達成多年合作伙伴關系,將在其運營中部署生成式AI。銀行將在其自身基礎設施上運行自托管模型,結合內部技術能力與Mistral的專業知識。對于在GDPR下處理敏感客戶數據的金融機構來說,擁有開放權重的歐盟總部AI供應商的吸引力不言而喻。
Mistral和NVIDIA合作開發了一個NVFP4壓縮檢查點,使Large 3可以在其最佳卡的八個節點之一上運行。NVIDIA聲稱Ministral 3B在RTX 5090上每秒大約處理385個標記,在Jetson Thor上用于機器人應用時每秒超過50個標記。這意味著該模型在推理時非常高效和快速,能夠在不犧牲質量的情況下提供更快的答案。
根據公告,優化推理性能的Large 3版本即將發布。在此之前,DeepSeek R1與GLM、Qwen Thinking等其他中國模型在明確推理任務中仍存在一定差異化表現。不過對于那些追求前沿技術能力、開放模型權重、跨歐洲語言的多語言處理實力,且希望不受中美國家安全相關法規影響的企業而言,選擇其實是唯一的。
瀏覽量:02025-03-07
瀏覽量:02025-03-06
瀏覽量:02025-03-06
瀏覽量:02025-03-01
瀏覽量:02025-02-20
瀏覽量:02025-02-20