开源医学视觉语言大模型HealthGPT

发表于： 2025年3月19日 2025年3月19日
分类：未分类

作者：钱嘟嘟左卫门
链接：
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

HealthGPT 是由浙江大学、电子科技大学、阿里巴巴、香港科技大学和新加坡国立大学联合开发的一个医学大型视觉-语言模型（Med-LVLM），通过异构知识适应技术，将医学视觉理解和生成能力整合到一个统一的自回归范式中。

GitHub开源关键字：DCDmllm/HealthGPT，目前已经有200+个star⭐️。

主要功能：

1. 医学图像分析：支持 X 光、CT、MRI 等多种医学影像的理解和分析，提供病变检测、疾病诊断建议等。
2. 影像模态转换：实现不同医学影像模态之间的转换，如 CT 转 MRI 或 MRI 转 CT，为临床诊断和治疗提供更全面的影像信息。
3. 医学图像超分辨率重建：增强低分辨率影像的细节，提升影像质量，尤其适用于老旧设备或低质量影像的优化。
4. 医学报告生成：根据影像分析结果自动生成医学报告，减少医生撰写报告的时间，提高工作效率。

主要技术：

1. 异构低秩适应（H-LoRA）：通过引入低秩矩阵来更新权重，将视觉理解和生成任务的学习过程分离，避免任务间的冲突，显著减少需要训练的参数量。
2. 分层视觉感知（HVP）：将视觉细节学习从视觉变换器（ViT）中分离，分别处理视觉理解和生成任务对视觉粒度的不同需求，使模型能更高效地处理复杂的医学图像数据。
3. 三阶段学习策略（TLS）：逐步训练 H-LoRA 插件，使模型能快速适应多种下游医疗任务，在数据受限的情况下表现出色。
4. 全面的医学数据集（VL-Health）：设计了一个综合的医学领域特定理解和生成数据集，用于有效训练 HealthGPT。

#AI #人工智能 #大语言模型[话题] #多模态大模型 #视觉模型 #AI健康医疗 #AI医疗 #人工智能医学影像 #AI开源工具 #AI开源项目 #人工智能开源项目分享

发布于 2025-03-03 11:19

admin

2665