编辑
2025-06-03
Brief News
00

![[6f74d4fa-992f-4e2b-97d6-f3b26762151b.mp3]]

阿里开源QwenLong-L1长文本推理模型,支持120k上下文窗口

简报:

  • 阿里通义千问团队开源QwenLong-L1框架,推出首个通过强化学习训练的长文本推理模型QwenLong-L1-32B
  • 该模型支持最高131072 tokens的上下文窗口,在7个长文本DocQA基准测试中表现超越OpenAI-o3-mini等旗舰模型
  • 采用渐进式上下文扩展技术,结合GRPO和DAPO算法及混合奖励函数,显著提升长文本推理准确性
  • 模型具备"翻书回溯"能力,能有效过滤干扰信息并整合关键数据进行多步推理
  • 开源内容包括32B参数模型、优化训练数据集和创新强化学习方法

相关链接:

编辑
2025-06-02
Brief News
00

![[20b7c83f-3374-4295-b0f1-014803862980.mp3]]

Anthropic发布开源“电路追踪”工具,提升AI模型透明度与可控性

简报:

  • 5月29日,Anthropic宣布开源“电路追踪”(Circuit Tracing)工具,为大语言模型的内部决策路径提供可视化归因图,帮助研究人员深入探索AI模型如何从输入推理到输出结果的过程。
  • 该工具结合Neuronpedia交互式前端,让用户能够直观分析神经元活动并测试不同假设,显著降低了AI决策机制研究门槛。
  • Anthropic此举被认为是推动AI可解释性和透明化发展的重要里程碑,为理解和优化大模型性能及应对模型偏见或幻觉问题提供了有力技术支持。

相关链接:

编辑
2025-06-02
Brief News
00

![[bcafd7ef-7307-4e83-b748-c5b73c965037.mp3]]

AI智能体Zochi独立完成论文被顶会ACL录用,评分位列前8.2%

简报:

  • Intology AI开发的博士级智能体Zochi独立完成的研究论文被自然语言处理领域顶级会议ACL 2025主会议录用
  • Zochi是首个能独立完成从假设提出到论文发表全流程的AI系统,论文平均得分7.67分
  • 论文提出突破大模型安全的Tempest框架,通过"多轮对话树搜索"实现97%的越狱攻击成功率
  • ACL主会议录用率仅约20%,Zochi论文评分位列投稿前8.2%,达到博士级科研水平
  • Intology已开放Zochi的Beta测试注册

相关链接:

编辑
2025-06-01
Brief News
00

![[5c144c57-d6b3-4821-be54-5aea2ad2b322.mp3]]

银河通用机器人推端到端导航大模型,机器狗实现1.6公里无人导航

简报:

  • 银河通用机器人发布自主研发的银河端到端导航大模型(Galaxy Navigation Model),可通过视觉输入直接输出控制指令,无需依赖传统SLAM技术。
  • 联合宇树科技,搭载该模型的Go2机器狗在无需人工干预下成功完成1.6公里的复杂开放场景长程导航验证。
  • 该模型采用"时空感知"架构,能实时应对动态障碍并自主规划路径,展现接近人类水平的导航能力,目前已开源并计划用于物流、安防等领域。

相关链接:

编辑
2025-05-30
Brief News
00

![[767d95ce-e270-4bd2-ab78-b7a26e118058.mp3]]

华为昇腾大模型实现无需GPU极速解答高数题

简报:

  • 华为最新发布的“昇腾 + Pangu Ultra MoE”系统,展示了近万亿参数的MoE大模型在无GPU环境下,仅用2秒即可理解并解答一道高等数学题,突显了华为在自主可控算力和模型训练方面的突破。
  • 技术上,华为通过优化并行策略、通信机制和负载均衡,有效提升集群训练效率,并在CloudMatrix384超节点等硬件上实现高效负载均衡与通信开销极低。
  • 华为还优化了单节点计算能力,提升了微批处理规模,显著增强了系统处理复杂计算任务的资源利用率。
  • 这些创新不仅大幅提升了大模型训练效率,还为未来AI大规模应用和复杂任务处理开辟了新前景。

相关链接: