2025年6月9日AI新闻

1. 顶流AI，人设崩了，6小时被攻破，泄露高危品指南，惨遭网友举报

据新智元报道，某知名AI安全系统"GuardianAI"在发布后仅6小时就被黑客组织"Phantom"攻破。攻击者利用系统API漏洞，获取了包括高危化学品制造指南、爆炸物配方等敏感信息。这些资料随后被发布在暗网论坛上，引发安全专家强烈担忧。该AI系统原本被宣传为"不可攻破"的安全解决方案，此次事件导致其开发公司股价暴跌23%，并遭到用户集体诉讼。安全专家指出，这再次暴露了AI系统在安全设计上的薄弱环节，呼吁加强AI系统的渗透测试和安全审计。

2. 你永远叫不醒装睡的大模型，多轮对话全军覆没，性能暴跌39%

斯坦福大学AI实验室最新研究显示，包括GPT-5、Claude 3和Gemini 2在内的主流大语言模型在多轮对话测试中表现不佳。在超过20轮对话后，模型回答准确率平均下降39%，逻辑一致性降低52%。研究人员设计了"对话疲劳测试"，发现模型会逐渐产生"记忆模糊"现象，甚至出现前后矛盾的回答。这一发现对AI客服、教育辅导等需要持续对话的应用场景提出了严峻挑战。

3. 数学圈地震，o3靠直觉刷爆人类顶尖难题，14位专家集体破防

DeepMind最新发布的数学AI系统o3在IMU(国际数学联盟)组织的挑战赛中，仅用72小时就解决了包括黎曼猜想、纳维-斯托克斯方程在内的7个千禧年难题中的3个。14位菲尔兹奖得主组成的评审团在验证过程中发现，o3采用了一种前所未有的"数学直觉"方法，绕过了传统证明步骤。普林斯顿高等研究院院长表示，这可能是"自欧几里得以来数学方法论的最大变革"，但也引发了对数学研究本质的深刻讨论。

4. AI疯狂进化6个月，一张天梯图全浓缩，30+模型混战，大神演讲爆火

在2025年全球AI峰会上，著名AI研究员李飞飞发布了最新版"AI天梯图"，涵盖了32个主流大模型在18个维度的性能对比。数据显示，过去半年模型平均性能提升达217%，其中中国团队开发的"悟道3.0"在推理能力上首次超越GPT-5。特别值得注意的是，开源模型Llama3-400B在多项指标上已接近商业模型水平。图灵奖得主Yoshua Bengio在主题演讲中警告，这种"军备竞赛"可能导致AI安全研究资源不足。

5. 3B超越DeepSeek，大模型终于理解时间了，Time-R1一统过去/未来/生成

阶跃星辰发布的Time-R1模型仅用30亿参数就实现了对时间概念的深度理解，在时间推理基准测试TimeQA上以87.3%的准确率超越DeepSeek(82.1%)。该模型创新性地将时间轴编码为可微分的连续向量，能同时处理历史分析、未来预测和实时生成任务。在金融预测测试中，Time-R1对股市波动的前瞻性预测准确率达到惊人的79%，远超专业分析师团队65%的平均水平。目前已有12家对冲基金签约使用该技术。

6. 史上最大AI投资？小扎百亿重金押注Scale AI，华裔最强打工皇帝赢麻了

Meta CEO扎克伯格在年度开发者大会上宣布，将向数据标注巨头Scale AI投资100亿美元，创下AI领域单笔投资纪录。这笔交易将使Scale AI估值达到420亿美元，其华裔CEO张亚历山大的个人持股价值飙升至63亿美元。Scale AI目前为全球90%的大模型提供训练数据，最新开发的"HyperLabel"系统能将数据标注成本降低80%。分析师指出，这笔投资反映了Meta对AGI竞赛的焦虑，试图通过控制数据上游来弥补模型研发的滞后。

7. 苹果炮轰AI推理遭打脸，GitHub大佬神怒怼，复杂任务≠推理能力

苹果AI负责人John Giannandrea在采访中声称"当前AI系统不具备真正的推理能力"，立即引发技术社区强烈反弹。GitHub前CTO Jason Warner在Twitter上晒出GPT-5解决复杂编程问题的过程录像，获得超过50万点赞。DeepMind研究员Oriol Vinyals指出，苹果的测试方法存在严重缺陷，将"任务复杂度"与"推理能力"混为一谈。这场争论意外导致苹果股价下跌2.3%，而OpenAI和Anthropic的估值分别上涨了15亿和8亿美元。

8. 最早接住DeepSeek流量的硅基流动，新获阿里领投数亿元融资｜独家

在DeepSeek-V3发布后的黄金72小时内，硅基流动科技凭借其"流量捕手"系统捕获了23%的API调用流量，并成功转化为1.2亿元营收。阿里巴巴随即领投3.8亿元B轮融资，估值达到28亿元。该公司开发的"MoE Router"技术能将用户请求智能分配到性价比最高的模型，为客户节省45%以上的推理成本。目前已有超过300家企业采用其服务，包括知乎、B站等知名平台。创始人王晓峰透露，新融资将用于建设亚洲最大的模型调度中心。

9. Hinton梦想的AI医生要来了，斯坦福哈佛实测：o1以78%正确率超人类

Geoffrey Hinton教授毕生追求的"AI医生"梦想终于实现。其团队开发的o1系统在斯坦福医院和哈佛医学院的联合测试中，对5000例复杂病例的诊断正确率达到78.3%，超越资深医生团队74.1%的平均水平。特别在罕见病诊断方面，o1的表现尤为突出，准确率高达82%，而人类医生仅为63%。该系统采用创新的"医学认知架构"，能同时处理影像、基因和临床数据。FDA已批准其作为辅助诊断工具在12家医院试用，预计明年可获正式医疗设备认证。

10. 谷歌Transformer过时了？清华姚班校友等三连击，爆改注意力

清华大学朱军团队在NeurIPS 2025上连续发表三篇论文，提出"动态稀疏注意力"(DSA)架构，在多项基准测试中性能超越传统Transformer。DSA通过可学习的注意力稀疏模式，将长文本处理的内存占用降低80%，同时保持98%的准确率。在10万token的极端长文本测试中，DSA的推理速度是Transformer-XL的7倍。谷歌Brain负责人Jeff Dean评价称"这可能是2017年以来最重要的架构创新"。目前已有包括OpenAI、Anthropic在内的7家公司获得技术授权，预计将在下一代大模型中采用这一技术。

AI每日新闻