
在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在18万亿个 token上进行预训练的,而Qwen3使用的数据量几乎是其两倍,达到了约36万亿个 token,涵盖了119种语言和方言。
与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等其他顶级模型相比,旗舰模型Qwen3-235B-A22B在编码、数学、通用能力等基准评估中取得了有竞争力的结果。通义千问还表示,Qwen3模型推理能力大幅提升,在数学、代码和逻辑推理等评测中,达到同规模业界SOTA水平。
六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在Apache 2.0许可下开源。
(9788972)