讯飞星火X1全新升级,全国产深度大模型推理性能比肩全球一流水平

互联网世界观 2025-04-21 23:26:21

讯飞星火X1,作为业界唯一基于全国产算力训练的深度推理大模型,在4月20日迎来了全新升级,此次升级不仅在数学、代码、逻辑推理、文本生成、语言理解、知识问答等常用的通用任务上取得了显著的进步,还同步增强了面向行业的解决方案能力,助力产业智能化转型,由于融入了更多场景复杂类型数据,模型的泛化性也得到了提升,多个行业任务上展现出了业界领先的能力,如在教育、医疗、司法等重点行业进一步扩大了领先优势。

针对企业和开发者的创新

针对企业和开发者,讯飞星火X1首发“快思考、慢思考统一模型”,全新升级模型定制化工具链,降低了大模型私有化部署和定制门槛;此外,讯飞开放平台已上线星火X1 API,作为首个支持全国产算力微调的推理大模型,讯飞星辰MaaS平台同步上线了星火X1微调服务。

通用能力比肩国际顶尖模型水平

全新升级后的讯飞星火X1,在多个任务效果上继续突破,性能表现优异。根据最新测试集评测结果,星火X1在通用任务效果评测中全面对标OpenAI o1和DeepSeek R1,在数学和知识问答等方面表现尤为突出。

测试集合来源:自建测试集+公开测试集

备注:自建测试集(讯飞星火APP、星火大模型API、业界主流任务数据)、公开测试集(数学、答题、推理、代码等外部典型测试集)

在数学答题和复杂的数理逻辑推理能力方面,星火X1能够准确识别出复杂的数学公式,不仅提供完整的解题思路,而且输出结果也更加严谨清晰;在逻辑推理时,星火X1能够全方位思考,考虑各种可能的假设,表现出更强的严谨性和准确性。

在代码能力方面,星火X1在提高了代码生成的准确率,并提升了对生成代码的逻辑理解,能够应对更为复杂的编程需求,帮助开发者快速实现功能。在语言理解方面,模型输出内容、格式更加符合用户指令要求,生成内容更加连贯、准确。

此外,星火X1具备长思维链能力,支持图像输入,可以对输入的图像进行关联思考,探究图像中的多种复杂元素,进行深层次的信息整合和推理。

尽管星火X1的模型参数比业界同类模型小一个数量级,但其整体效果已经能够对标OpenAI o1和DeepSeek R1,再次证明了基于国产算力训练的大模型具备登顶业界最高水平的实力和持续创新的潜力。

行业应用领先,简化部署流程

星火X1在多个行业任务上展现了业界领先的能力。以司法行业为例,升级后的星火X1能够精准把握用户指令,详细分析争议点,快速定位关键信息,并输出准确内容,为用户提供专业、可靠的智能支持。

测试集合来源:真实场景测试集

在技术创新和模型部署方面,星火X1首发“快思考与慢思考统一模型”,一个模型同时支持两种思考方式,提升了处理不同复杂度任务的能力。满血版星火X1仅需4张华为910B卡即可部署,简化了私有化部署流程。同时,星火X1还全新升级了模型定制优化工具链,支持监督微调(SFT)和强化学习两种模型定制优化方案,只需16张华为910B卡即可完成行业定制优化,有效降低了企业AI的定制门槛,使各行业能更便捷地落地AI应用价值。

核心技术突破,迈向自主可控新阶段

科大讯飞和华为昇腾联合团队在前期工作的基础上再获突破:通过升级MoE模型的PD分离和大规模专家并行系统方案,实现了集群推理性能翻番。具体包括PD分离部署提升20%+性能、MTP多token预测技术提升30%+整体性能、专家负载均衡算法优化使集群吞吐提升30%+,以及异步双发射技术降低服务请求调度耗时提升10%系统性能。

在中美科技竞争日趋激烈的背景下,星火X1选择的全国产化技术路径具有深远意义。正如科大讯飞董事长刘庆峰所说:“讯飞星火大模型代表了完全自主可控大模型中国能达到的高度。”

科大讯飞董事长刘庆峰

正因为一直坚持自主可控算法创新和系统工程创新,基于国产算力的星火大模型能够快速迭代进步,在实际应用场景中取得显著效能优势。此次讯飞星火X1的全面升级,不仅展示了中国人工智能技术在国产算力平台上的创新突破,也为各行各业的数字化转型提供了新的可能性。作为基于国产算力训练的大模型代表作,星火X1的表现证明,在技术自主可控的道路上,中国AI已具备与国际顶尖模型同台竞技的实力。

0 阅读:1

互联网世界观

简介:互联网分析师,长期致力于互联网观察和研究。