谷歌加码医疗AI开源生态：MedGemma 1.5强化医学影像能力

AI资讯 2个月前硕雀

34 0 0

谷歌（Google）在 2026 年初推出了新一代的开源医疗人工智能模型 MedGemma 1.5（尤其是其轻量化的 4B 参数版本），旨在大幅强化医学影像分析能力，同时补齐了语音转文本这一关键医疗场景需求。以下是关于 MedGemma 1.5 强化医学影像能力的详细介绍：

MedGemma 1.5 在前代模型（如 MedGemma 1.4）基础上，针对医学影像做了深度优化，重点解决了以下三个痛点：

与前代仅能处理 2D 图像（如 X 光片）不同，MedGemma 1.5 新增了对高维医学影像（如 CT、MRI）的支持。

除了单纯的图像识别，MedGemma 1.5 现在具备了医学影像报告生成的完整能力。

医学影像分析往往需要结合患者的病史和医生的口述。谷歌通过发布 MedGemma 1.5 和 MedASR 实现了以下协同：

影像 + 文本：MedGemma 1.5 可以同时读取图像（如 X 光片）和电子病历（EHR），进行跨模态推理（如根据影像判断病程进展）。
影像 + 语音：发布的 MedASR 模型（医疗语音转文本）与 MedGemma 1.5 紧密耦合。医生可以直接口述病历，MedASR 转写为文本后，作为输入提示词喂给 MedGemma，辅助完成影像解读和报告生成。

谷歌将 MedGemma 1.5 作为开源模型发布，鼓励全球开发者进行微调（Fine-tuning）和二次开发：

谷歌的 MedGemma 1.5 不仅是一个“能看图”的模型，更是一个“能看图说话”的医学助理。它通过加入对 CT/MRI 等高维影像的支持，结合强大的报告生成能力和语音输入接口，极大地缩小了人工智能在真实临床影像诊断场景中的应用差距，标志着医疗 AI 进入了一个新的多模态协同时代。

声明：文章均为AI生成，请谨慎辨别信息的真伪和可靠性！