2024年即将结束之际,国产大模型的数学能力引发了广泛关注。本文测评了几款主流国产大模型在2025考研数学卷上的表现,着重分析了它们在数理化等领域的突破与进展。 主要测试内容 本文对5款国产大模型进行了数学测试: - 字节豆包 - 阿里通义 - 智谱清言 - Kimi视觉思考版 - DeepSeek 这些大模型的测试涵盖了2025考研数学卷,并在每道题上做了两次测试,计算得分的平均值。 关键结果 - Kimi视觉思考版和DeepSeek成绩突破100分,分别为133分和103.5分,表现尤为突出。与2024年6月的高考数学成绩相比,这些大模型已经取得了显著进步。 - 字节豆包和智谱清言得分接近及格线,分别为88.5分。 - 阿里通义表现稳定,得分为90分。 解题过程:思路与答案 在解题过程中,不同模型展示了不同的思路与解答风格。 - Kimi视觉思考版不仅给出了答案,还详细阐述了解题过程,具有较高的参考价值。 - 字节豆包和阿里通义提供了简略的解题步骤,适合快速查看答案。 - 智谱清言有时解答错误,但提供了完整的思考过程。 结语 尽管部分大模型在高难度问题上的表现仍有待提升,尤其是面对更加复杂的数学题时,但总体来看,国产大模型在数学能力上的提升已相当显著。随着AI技术的进步,未来这些模型可能会在学术研究和技术开发中扮演更加重要的角色。
国内大模型创业者背景及行业现状分析 本文分析了国内大模型创业者的背景,主要分为两类:互联网大厂中高层技术骨干和顶尖高校科研人员。前者拥有丰富的经验和技术积累,后者拥有深厚的理论基础和科研能力。一些头部企业会组建具有互补性背景的创始团队。 目前国内共有5家大模型/AIGC独角兽企业:Minimax稀宇科技、智谱AI、百川智能、零一万物、月之暗面Moonshot AI。这些企业在2024年均披露了新的融资,显示出大模型融资的火热程度。 "Image 25" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_c685924096654656829736fbd1faaf8a@000000_oswg250034oswg1080oswg726_img_000.jpg) 这5家独角兽公司的核心创始团队,集中了连续成功创业者、顶尖高校毕业生、知名投资人、教授团队等因素。例如MiniMax创始人闫俊杰拥有丰富的深度学习经验,月之暗面创始人杨植麟参与过多个大模型的研发,百川智能创始人王小川是前搜狗CEO,零一万物创始人李开复是知名投资人,智谱AI团队成员多为清华校友。 大模型创业面临着技术、硬件、商业化等方面的挑战。技术挑战包括模型的可靠性(“幻觉”问题)、算力成本、高质量数据集的获取等。商业化方面,需要解决性能、成本、稳定性等问题。 文章最后简要介绍了这5家独角兽公司各自的优势和发展方向,例如智谱AI的GLM大模型在多轮多意图的语义理解和文档总结方面领先,Minimax稀宇科技布局了MoE架构,月之暗面擅长长文本处理,零一万物计划分拆独立AI应用公司“绿洲”。
2024年12月26日,中国人工智能大会(CCAI)在北京召开,标志性事件之一是超节点算力集群创新联合体的揭牌仪式。本次揭牌由北京市科委、中关村管委会、中国移动、浪潮集团、阿里云、清华大学和中国科学院等单位联合举行,旨在应对日益增长的AI算力需求,推动人工智能大模型的应用和发展。 在人工智能大模型快速发展的背景下,传统的单台智算服务器逐渐不能满足需求,超节点算力集群作为一种新型架构开始得到应用。这一创新联合体致力于提供高效、智能、灵活的GPU卡间互联体系,特别是基于中国移动自主研发的OISA(全向智感互联)协议。 OISA协议的核心设计目标是建立一个高效、低延迟的GPU卡间互联网络。其创新性的全向连接设计使得大规模GPU之间能够实现高效的点对点通信,同时通过智能感知和流量优化机制,提高数据传输的效率。在技术层面,OISA支持每个超节点内GPU之间的读写互联带宽高达896GB/s,具备高达128个端口的OISA-Switch交换芯片支持,提供51.2T的交换容量。 中国移动表示,未来将全面支持这一联合体的成长,计划与产业界共同推进32/64卡超节点产品的部署,预计将进一步加速128卡超节点的产品化,推动AI应用的发展,特别是在大模型训练和推理任务中的应用。 此次合作不仅涉及到技术创新,还包括了中国移动在产业链中的协同作用,带动整个AI基础设施的更新和进步。这一举措为高效的AI计算提供了新的发展方向,也将推动更广泛的GPU互联技术应用。
近期,上海人工智能实验室主办的首届“浦江AI学术年会”聚集了全球150余名人工智能领域的专家学者,讨论了诸如大模型的未来、智能定义、Scaling Law(尺度定律)等前沿议题。在与会者的深入讨论中,马毅教授提出了大模型的“白盒”理论,强调大模型的可解释性。与会者还探讨了人工智能在未来的发展方向,包括如何突破当前大模型在推理、情感、伦理等方面的瓶颈。 白盒大模型与黑盒大模型的对比 马毅认为,现有的深度学习模型,如Transformer架构,能够从高维信号中压缩、去噪,并找到核心规律,但其黑盒特性限制了对决策过程的解释。相比之下,白盒大模型则试图提供一个可解释的框架,从而减少试错成本并解决当前的大模型在“数据墙”和“算力墙”上的限制。 “Scaling Law”的挑战 论坛中,马毅和其他学者讨论了Scaling Law的局限性,特别是在数据和算力的瓶颈下,Scaling Law可能已经走到了尽头。OpenAI前首席科学家Ilya Sutskever也指出,依赖海量数据的预训练模型将面临难以为继的问题。对此,研究人员纷纷提出了新的可能方向,认为应该探索更有效的模型架构和学习方法。 面向2025年的“中国思考” 随着AI领域的竞争日益激烈,中国的AI研究者正提出自己的技术路线,以应对未来挑战。上海人工智能实验室发布了“书生InternThinker”模型,这一模型通过模拟人类学习方式进行复杂推理,展现出深度推理与专业泛化能力的结合。未来,大模型的发展将更多聚焦在高难度科学问题的解决,以及大模型在稳定性和实际应用方面的突破。 未来展望 中国人工智能的未来发展将侧重于提升模型的推理能力、情感理解和多模态的融合。清华大学的刘知远教授提出了大模型的“密度定律”,预计模型的能力密度将指数级增长,未来的模型将具有更高的计算能力和更加高效的制造工艺。 本次年会也提醒我们,人才仍然是推动人工智能发展的核心力量,年轻科研人员的培养和团队协作将是AI未来发展的关键因素。
百川智能发布了全链路领域增强金融大模型 Baichuan4-Finance,该模型融合了100B+中英文金融知识,并采用多层次质量评估体系进行筛选。该模型在中国人民大学财政金融学院新近发布的评测体系FLAME中,以及国内开源金融评测基准FinancelQ上,均登上榜首,金融专业能力和场景应用能力领先GPT-4o。 "Image" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/e519f148-2e78-4bdf-9952-9fba082dca0f.jpg) Baichuan4-Finance API现已在百川智能官网正式上线,测试结果显示,在多个领域(如银行、保险、基金、证券)的准确率均突破了95%。整体准确率为93.62%,大幅领先GPT-4o,超出近20%。 此外,Baichuan4-Finance在FLAME-Sce评测中,一级核心金融业务场景的整体可用率达到84.15%,金融数据计算、金融知识理论等场景的可用率超过90%。在国内开源金融评测基准FinanceIQ中,Baichuan4-Finance也超越了GPT-4o和XuanYuan3-70B,整体准确率为79.23%,领先GPT-4o近13%。 该模型的推出标志着百川智能在金融领域大模型的研发上迈出了重要一步,进一步推动了人工智能在金融行业中的应用。
12月是大模型行业的热闹峰值,各大科技公司发布了新模型、新应用,展开了推理AI竞赛。OpenAI发布o1和o3模型,引领推理竞赛,其o3模型在数学、编码和科学问题上表现突出,创下多个新纪录。与此同时,国内外的科技公司也在加速推出新一代推理模型,挑战OpenAI的技术领导地位。 随着技术的进步,大模型的成本不断下降,推理算力的价格战愈加激烈。OpenAI和火山引擎等公司通过降价促进推理算力消耗量增长,并推动了AI应用的普及。火山引擎将价格战带到了视频模型领域,极大降低了推理成本,其他云厂商也迅速跟进。 AI应用层进入飞速发展阶段,但从“能用”到“好用”之间仍有许多挑战。大模型厂商纷纷推出AI Agent和AI搜索等新应用,但在实际落地过程中,仍面临商业模式不成熟和技术难题。AI搜索和智能代理作为应用方向,备受各大厂商关注。与此同时,资金分化现象加剧,部分大企业和初创公司在融资上呈现巨大的差异,融资的背后是技术研发和基础设施的进一步建设。 对于人才的竞争,业内也出现了“回流与出走”的现象。人才流动成为各大厂商应对激烈竞争的重要因素,OpenAI等公司也经历了关键人员的离职。 综上所述,2024年12月大模型行业呈现出技术激烈竞争、降价促进普及、应用不断深化的趋势。
2024年,人工智能(AI)大模型领域持续快速发展,涌现出诸多重要趋势和突破。从开源与闭源的竞争,到多模态AI与自监督学习,再到能效优化和AI伦理的深入探讨,AI技术的演进将继续带来前所未有的创新机会。 随着计算能力的提升和数据资源的丰富,AI大模型在各行各业的应用愈加广泛,从自然语言处理到计算机视觉,再到自动驾驶和智能制造,AI大模型正以前所未有的速度改变着我们的生活和工作方式。 亿欧结合全年热点事件、重点领域突破、商业化落地趋势、技术发展动态及未来方向,筛选出了2024年AI大模型领域的十大关键词:开源与闭源竞争、行业集中与两极分化、多模态与智能Agent的创新、架构优化与能效瓶颈、通用人工智能(AGI)的探索、AI伦理与可解释性、融资与并购、跨行业融合(AI+X)以及自监督学习。 1. 开源与闭源之争 2024年,开源大模型与闭源大模型之间的竞争愈发激烈。开源大模型厂商如Mistral和阿里云,提供了与商业大模型相媲美的性能,吸引了广泛的开发者和企业用户。商业巨头如OpenAI和Google则继续推进闭源模型的商业化。 2. 行业两极分化显现 头部企业的资源倾斜越来越明显。国内外众多明星企业纷纷推出新产品,形成明显的聚集趋势,推动了大模型技术的商业化和落地应用。过去的“百模大战”逐渐退潮,企业开始注重模型质量和实际应用效果。 3. 多模态AI与Agent趋势 多模态AI能够处理和理解多种类型的数据(如文本、图像、音频、视频等),推动了AI产品的创新。智能Agent技术的进步使得AI产品更加智能化,提升了用户体验。 4. 架构优化与Scaling Law泛化 大模型的创新主要体现在架构的优化与规模化发展上。Scaling Law推动了大模型的规模化,提升了模型性能并降低了计算成本。 5. AGI探索与空间智能 AGI的探索依然是长期目标,2024年视频生成技术的进步推动了世界模型的发展。空间智能将虚拟与现实更加紧密地结合,为实现更接近人类认知的智能系统奠定了基础。 6. AI大模型的能效瓶颈 能源消耗一直是训练大模型的瓶颈。2024年,更多公司开始关注能效优化,采用更高效的算法和硬件,优化数据中心的能源管理,推动绿色AI的发展。 7. 可解释性与AI伦理 随着大模型在各行业的广泛应用,模型透明性与伦理考量成为重要议题。提升模型的可解释性,增强用户对AI系统的信任,推动了更加负责任的AI发展。 8. 融资与并购 2024年,AI领域的投融资热潮持续升温。领先企业获得更多资本支持,推动了技术创新,并加速了AI技术的落地应用。 9. AI应用增长与AI+X赋能 跨行业融合推动了AI应用的快速增长。AI与各行业的深度融合(AI+X)促进了AI产品的创新和应用场景的拓展,推动了跨行业的AI应用落地。 10. 自监督学习与数据驱动创新 自监督学习方法广泛应用于大模型训练,提升了模型的泛化能力和适应性。通过利用海量未标注数据,显著提升了模型性能,推动了数据驱动的创新方式。