医学文本大数据标准化处理基础算法
海量生物医学数据的积累为生命科学问题的解决带来了新的途径。其中一种潜在的数据源就是电子病历(Electronic Medical Records,EMRs),EMRs是患者所有医疗健康数据和信息的电子格式存储,包含文字、符号、图表、图形、数据、影像等数字化信息。临床文本是EMRs的文字部分,是EMRs中医学知识最丰富的数据类型,也是一种直接面向患者的个性化医疗数据,充斥着医生基于自身所学所体现出来的临床经验。基于临床文本数据的临床经验知识提取和挖掘研究是近年来的重大科学前沿。
基于已有的大规模EMRs临床文本数据的标注语料,开展中西医临床文本大数据的标准化处理基础算法研究,切实提升中西医临床文本大数据通用数据元素的质量,使得碎片化的临床文本数据跨机构整合重利用、临床经验知识发现和创新、名老中医的知识传承、以及智能诊断模型跨机构迁移成为可能,是目前亟需解决的重大科学前沿问题。也是推进我国医学数字经济产业发展首要而关键的一环,是一项基础性、战略性、全局性的工作。
构建中文临床文本大数据基础算法研究数据库/语料库;采用统一信息模型和规范化元数据建模方法,利用公共和课题组自有数据元素库,建立一个具有语义支撑的、可共享的和支持重利用的中西医描述规范化临床术语集;采用机器学习的自然语言处理技术,实现中西医临床文本数据的结构化表型特征和影像特征的自动提取、注释、聚类及关联分析;突破临床特征描述的强主观性、不确定性、模糊性和争议性等难题。
四、主要贡献/价值
本项目的顺利实施将有助于:具有语义支撑的中西医临床文本标准术语集及动态更新演化技术体系的构建;中西医临床文本中的疾病症状、体征、影像学改变、治疗方案、不良结局事件、事件等级等实体的智能化提取,实现规范化细颗粒度数据的提供;挖掘隐藏在这些文本之后的疾病病情演变规律,为实际的疾病病情变化风险预警与早期干预提供数据支持;最终实现中西医临床大数据共享和交换,推进我国医疗信息化行业、产业纵深发展。
五、下一步计划
我们在医疗报告摘要生成、医疗报告自动生成及生物医学命名实体识别这三个任务展开了科研攻关,在这三部分分别都已经有了科研产出,接下来会计划怎样将其中一些成果推到临床应用端,最终能够形成落地产品
六、合作伙伴
广东省人民医院。
七、团队成员
万翔,陈志鸿,胡金鹏,刘洋。