助力革新医疗影像，最强开源多模态医疗大模型华佗GPT-Vision发布

在全球医疗资源需求日益增加和分配不均的背景下，医疗大模型的出现为解决这些问题带来了新的希望。通过有效辅助诊断和治疗，医疗大模型不仅有望减轻医务人员的工作压力，还可满足公众对医疗资源的迫切需求，从而推动医疗系统的可持续发展。华佗GPT作为国内首个类ChatGPT的医疗大模型，自发布以来便在医疗领域展现了巨大的潜力和应用前景。

在医疗场景中，理解CT、MRI等影像非常重要，皮肤病等情况也需要视觉能力去更好地理解。然而，现有的大部分医疗大模型由于无法读取医疗影像，在处理这类任务时受到了很大限制。医疗影像是诊断疾病的重要依据，若语言大模型缺乏视觉理解能力，将难以胜任全面的医疗辅助任务。因此，提升大模型的视觉理解能力成为了医疗AI发展的重要方向。

现今，华佗GPT-Vision的发布填补了这一空白。其具备了卓越的视觉理解能力，不仅能够理解和分析医疗影像，还能完成自动生成影像报告、辅助医生发现潜在病症等任务。这使得它在医疗影像处理上具备了更大的应用潜力。

通过https://vision.huatuogpt.cn体验多模态华佗GPT。

尤其是在主流的MMMU多模态评测集的健康医疗赛道（MMMU Health & Medicine）上，华佗GPT在所有35个模型中取得了总排名第二（仅次于GPT-4v），开源模型中排名第一的优异表现（见图1）。

相关论文可见https://arxiv.org/abs/2406.19280。

图1. 在主流的MMMU多模态评测集的公开榜单的健康医疗赛道，华佗GPT在所有35个模型中取得了总排名第2、开源模型第1的优异成绩

榜单链接：https://eval.ai/web/challenges/challenge-page/2179/leaderboard/5377/Health%2520%2526%2520Medicine

此外，华佗GPT-Vision在多个医疗影像问答评测集上表现出色（见图2），相关论文（HuatuoGPT-Vision）还登顶Huggingface Daily Papers（排名第一），见https://huggingface.co/papers?date=2024-07-01，体现了其在学术界和工业界的影响力。

图2. 华佗GPT在多个医疗影像问答评测集上的评测结果

图3. 华佗GPT的多模态论文（https://arxiv.org/abs/2406.19280 ）入选当天Huggingface Daily Papers，排名第一

依托大规模高质量的医疗多模态数据

华佗GPT-Vision的成功离不开高质量的训练数据，华佗GPT-Vision采用了PubMed国际医学期刊的论文的图片和文本描述。国际医学期刊作为人类医疗智慧的结晶，其包含了丰富的医疗图片和图片描述，其规模庞大，拥有数千万的图文数据，有效避免了医疗数据隐私问题。

然而，PubMed的图文数据也存在质量缺陷，医疗期刊的图片存在大量医疗无关的图片（如模型图、表格），并且上下文存在大量与图片不相关的内容。

图4. 多模态华佗GPT训练数据中医疗图片的多样性

对此，华佗GPT-Vision采用了一套精细的数据处理方法，过滤出与医疗相关的图片及有信息量的图片描述，图4展示了经过过滤后医疗图片的多样性。为了应对图片描述文本的噪声问题，华佗GPT-Vision提出了采用视觉大模型（GPT-4V）参考图片和上下文信息来对图片进行重新描述，使得图文数据更加对齐。

其次，我们预先设定了10个场景的对话场景（比如医生和患者、医学生和老师等），进而将图文数据改写为其中一种场景的问答，以增强医疗视觉知识的学习。

图5. 华佗GPT-Vision的数据处理流程

PubMedVision数据集

通过上述技术，团队构建了大规模且高质量的医疗多模态数据集——PubMedVision，拥有130万的医疗图像问答数据。实验表明，PubMedVision数据集显著提升了大模型的医疗图像理解能力（见图6），经医疗专家评测，数据质量超过现有方法。

图6. PubMedVision可以显著提升现有多模态大模型的医疗图片理解能力

推动医疗AI技术发展

目前，华佗GPT-Vision以及PubMedVision数据集已经开源，研究人员和开发者可以通过下方链接进行下载。期待华佗GPT-Vision能够在医疗影像理解和医疗辅助中发挥更大的作用，为医疗领域带来更多的创新与发展。

下载链接：https://github.com/FreedomIntelligence/HuatuoGPT-Vision

华佗GPT-Vision效果展示

从使用例子 (图7-9) 可以看到，华佗GPT-Vision能够理解各种类型的图片，包括普通照片、X光片、心电图，并能根据用户问题进行详细解读。

现在就可以通过 https://vision.huatuogpt.cn 体验多模态华佗GPT。

图7. 华佗GPT的使用样例，其能解读心电图

图8. 华佗GPT分析X光图片

图9. 华佗GPT分析耳朵感染图片

华佗GPT-Vision通过将大规模的医疗视觉知识融入大模型中，在医疗影像领域展现了巨大的应用潜力，例如辅助医生写影像报告、皮肤病诊断、医疗影像解读、体检报告解读、检查潜在的患病风险等。更进一步，其强大的多模态能力和适用于多种图像及任务的特性预示着推动医疗影像技术的革新，华佗GPT-Vision有望为医疗AI行业带来深远的影响。

新闻速递

助力革新医疗影像，最强开源多模态医疗大模型华佗GPT-Vision发布