GLM-5V-Turbo：面向多模态 Agent 的原生基础模型，登顶 HN 热榜

GLM-5V-Turbo：原生多模态 Agent 基础模型

核心定位

GLM-5V-Turbo 论文首次明确提出「Native Foundation Model for Multimodal Agents」概念：不是先训练 VLM 再微调 Agent 能力，而是从预训练阶段就将 Agent 任务作为核心目标。视觉理解、语言推理、行动规划三者在同一模型中原生融合。

关键创新

统一 Agent 推理框架：单模型同时处理 GUI 感知、API 调用、代码执行等多种 Agent 任务，无需额外适配器或微调即可在 Web/OS/App 等多场景执行。在多个 Agent Benchmark 上超越 GPT-4o 和 Claude 3.5，视觉定位精度显著提升，支持像素级 UI 元素识别。

GLM-5V-Turbo 的发布标志着 Agent 领域从「用通用模型做 Agent」到「为 Agent 任务设计模型」的关键转折。