谷歌(Google)在 2026 年初推出了新一代的开源医疗人工智能模型 MedGemma 1.5(尤其是其轻量化的 4B 参数版本),旨在大幅强化医学影像分析能力,同时补齐了语音转文本这一关键医疗场景需求。以下是关于 MedGemma 1.5 强化医学影像能力的详细介绍:
1. 核心亮点:医学影像能力的全面升级
MedGemma 1.5 在前代模型(如 MedGemma 1.4)基础上,针对医学影像做了深度优化,重点解决了以下三个痛点:
a. 支持高维医学影像(CT、MRI)
与前代仅能处理 2D 图像(如 X 光片)不同,MedGemma 1.5 新增了对高维医学影像(如 CT、MRI)的支持。
- 技术实现:它引入了 3D 视觉大模型(Vision Transformer, ViT)架构,能够读取并解析 CT 切片序列和 MRI 体积数据。
- 临床价值:这使得模型可以用于肺结节体积测量、脑部疾病分期评估等复杂任务。
b. 完整的医学影像分析链路
除了单纯的图像识别,MedGemma 1.5 现在具备了医学影像报告生成的完整能力。
- 从图像到报告:模型不仅能识别 X 光片中的肺炎、骨折等异常,还能生成符合医学标准的结构化报告(Radiology Report)。
- 性能提升:在内部基准测试中,其胸部 X 光片系列图像分析的准确率有显著提升,错误率大幅下降。
c. 支持全片病理图像(Whole Slide Images)
- 技术突破:MedGemma 1.5 能够处理高分辨率的病理切片图像,辅助病理学家进行癌症分级或细胞计数等任务。
2. 多模态协同:影像 + 文本 + 语音
医学影像分析往往需要结合患者的病史和医生的口述。谷歌通过发布 MedGemma 1.5 和 MedASR 实现了以下协同:
- 影像 + 文本:MedGemma 1.5 可以同时读取图像(如 X 光片)和电子病历(EHR),进行跨模态推理(如根据影像判断病程进展)。
- 影像 + 语音:发布的 MedASR 模型(医疗语音转文本)与 MedGemma 1.5 紧密耦合。医生可以直接口述病历,MedASR 转写为文本后,作为输入提示词喂给 MedGemma,辅助完成影像解读和报告生成。
3. 开源生态与应用场景
谷歌将 MedGemma 1.5 作为开源模型发布,鼓励全球开发者进行微调(Fine-tuning)和二次开发:
- 模型体量:提供了可本地运行的 4B 参数轻量化版本,适合医院内部部署,保护患者隐私。
- 社区应用:全球已有超过 500 款衍生模型诞生。马来西亚的 Qmed Asia 和台湾的健保署等机构已开始在临床环境中试用。
总结
谷歌的 MedGemma 1.5 不仅是一个“能看图”的模型,更是一个“能看图说话”的医学助理。它通过加入对 CT/MRI 等高维影像的支持,结合强大的报告生成能力和语音输入接口,极大地缩小了人工智能在真实临床影像诊断场景中的应用差距,标志着医疗 AI 进入了一个新的多模态协同时代。
声明:文章均为AI生成,请谨慎辨别信息的真伪和可靠性!