(資料圖)
財聯(lián)社9月24日電,阿里巴巴發(fā)布通義全模態(tài)預訓練大模型Qwen3-Omni系列模型。在36個音視頻基準測試中,Qwen3-Omni系列模型有22項達到SOTA水平,其中32項取得開源模型最佳效果,語音識別、音頻理解與語音對話能力可比肩Gemini2.5-Pro。作為全模態(tài)模型,Qwen3-Omni能夠實現(xiàn)全模態(tài)輸入和全模態(tài)輸出。類似于人類嬰兒一出生就全方位感知世界,Qwen3-Omni一開始就加入了“聽”“說”“寫”多模態(tài)混合訓練。在預訓練過程中,Qwen3-Omni采用混合單模態(tài)和跨模態(tài)數(shù)據(jù)。Qwen3-Omni在實現(xiàn)強勁音頻與音視頻能力的同時,單模態(tài)文本與圖像性能均保持穩(wěn)定,這是業(yè)內首次實現(xiàn)這一訓練效果。









