冠心病

首页 » 常识 » 问答 » 平安首席医疗科学家谢国彤两大基础平台与四
TUhjnbcbe - 2023/9/6 21:35:00
北京看白癜风哪间医院效果最好 http://disease.39.net/yldt/bjzkbdfyy/

编者按:年8月7日,全球人工智能和机器人峰会(CCF-GAIR)正式开幕。CCF-GAIR峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。从年的学产结合,年的产业落地,年的垂直细分,年的人工智能40周年,峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。

在8月9日的医疗科技专场上,来自平安集团的首席医疗科学家谢国彤博士以《用人工智能重塑医疗:平安医疗科技的实践和探索》为题,分享了平安集团在医疗领域的深刻认知和实践。

谢国彤博士认为,所有AI都无非四个要素:数据、算力、算法和应用。在这四个要素下面,平安共研发了2个基础平台和4个医疗AI算法领域,以支持医疗的各种分析和推理,目前有1.6万家医疗机构,43万医生在使用。

两个基础平台主要是赛飞AI平台(算力)和医疗五大库及知识图谱(数据)。

谢国彤表示,医疗五大库及知识图谱,首先是从数据端出发,分四步去解决数据处理难题:第一,去掉噪音,补全数据,提升数据输入质量;第二,结构化,通过数据和文本抽取,实现数据可用;第三,标准化,把不同来源的医疗数据名称统一;第四,利用算法挖掘疾病的风险因子或者治疗方法。

而赛飞AI平台则主要是通过AI平台化战略,解决AI产品算力和落地的基础性问题。

谢国彤说到,平台的目的就是让医疗数据科学家专注在自己领域内,由平台去完成AI通用算法、智能标注、分布式训练加速、高性能压缩模型部署等通用问题。

据雷锋网了解,在这两大基础平台之上衍生的4个医疗AI算法领域,主要侧重在疾病预测、智能影像、AskBob辅助诊疗和疾病全周期管理四个场景。

在最后的总结中,谢国彤表示,医疗人工智能是利国利民的事情,人命关天,需要AI界和医学界的紧密合作,用AI的算法解决真实的需求,保证模型的安全性、可用性,才能对“健康中国”产生真正的价值。

以下为谢国彤的现场演讲内容,雷锋网作了不改变原意的编辑及整理:

谢国彤:各位现场和线上的朋友,大家好。我叫谢国彤,负责平安的医疗科技。很高兴今天有机会跟大家分享平安在医疗科技方面的进展。

在过去五年时间,平安积累了大量的医疗业务。平安医疗有三个支柱:患者端、医院端和支付端。顶天立地还各有一横一纵。

患者端,平安目前有全球最大的互联网医疗平台——平安好医生,3亿多注册用户,每天的问诊量在80万次以上;医院端,医院的解决方案,在1.6医院赋能,还有自己的检测中心、药品集采平台,医院相关的业务;保险支付是平安的本行,平安有1亿6千万的保险客户,平安医保科技为两百多个城市*府做医保精算、核赔各种业务。

一横一纵,上面一横是面向*府。平安拥有的智慧城市、智慧卫健业务,在多个城市帮助*府提供更好的公共卫生、全民信息平台和医共体的解决方案。下面一纵是我负责的平安医疗科技,从每个业务中沉淀数据,把数据变成AI模型。再反哺赋能给各个业务。

两大平台与四大算法领域

今天,我主要聚焦平安医疗科技的工作。所有的AI无非是四个要素:数据、算力、算法和应用。

如果把我们的工作按照四个要素来整理,是2个基础平台和4个算法领域。

基础平台:包括五大库数据及知识图谱平台。这个平台汇聚了平安各种医疗业务沉淀下来的数据,将其知识化后变成知识图谱,支持上层的各种分析和推理。

赛飞AI平台:让做医疗的数据科学家专注在自己的领域里,把AI的通用算法、分布式的训练加速、高性能压缩模型部署等通用问题交给平台来做。

首先来说一下,我们的五大库知识图谱。

在沉淀大量数据后,我们以疾病为中心构建知识图谱,把疾病的症状、检查检验、用药、关键的常用处方、疾病手术、疾病并发症、疾病风险因素、疾病和基因的关系,医院、哪个医生在哪个疾病领域比较擅长,发表过什么科研成果的信息都收集起来,构建出一个包含万的医学概念、3万的关系和0万医学证据的医疗知识图谱,支持后续所有的应用。

构建这样的图谱,我们把它总结为“四化”的过程。拿到数据后,要经过四个关键步骤:

第一步,去噪。去掉噪音,补全数据,提高输入数据的质量。

第二步,结构化。图谱里有大量文本数据,要做各种实体、关系进行抽取抽取,对文本进行分类、标签,让数据变得可用。

第三步,标准化。不同来源的医疗数据,对疾病、药品、检查检验的描述是不一样的。我们要用大量的NLP技术,将各种医学术语统一化、标准化,才能进行下一步的分析。

第四步,挖掘。利用各种算法,从数据中挖掘疾病的风险因子或者常用的治疗方法,这些信息最终会沉淀在我们的知识图谱里。

其次,我介绍一下赛飞AI平台,这个平台的目标要提供从模型训练到模型部署的一整套平台级服务,让医疗数据科学家专注在医疗领域,不用去考虑通用的问题。

赛飞的工作很多。举一个例子,我们在进行组织病理影像分析时,一个病理的影像大概有10亿像素,如果一个医生要很完整的把肾小球和肾小球里的内皮细胞、细膜细胞都标注完,一个小时都不能完成。

但是,所有的片子都有必要去标注吗?不见得。我们利用主动学习的方法,挑选信息量最大的片子。后来我们发现,标注52%的训练数据,就可以达到跟此前标注完所有数据差不多的效果。

再比如分布式加速。现在的NLP模型庞大无比,不管是现在最火的GPT-3拥有的上千亿参数,还是常用的BERT,都是几亿参数的大模型。我们参加ACL比赛时,用了赛飞分布式加速能力,在20天之内训练了次,不停把模型的精度推到极致,最后拿到冠*。

这就是分布式加速给模型训练带来的价值。

再比如模型压缩的例子,这是非常现实的场景:很多AI模型希望跟硬件进行整合,但是模型很大,硬件存储却很小。我们的一个眼底OCT模型大小是6G,一个OCT设备存储是2G,无法把这个模型放在存储里。最后,我们把6G的模型压缩到原来的四分之一,精度只损失一点点,最终完成软硬一体的计算。

当然,除了在医疗领域,赛飞还可以拓展变成更加通用的AI平台。

现在平安有16个子公司、42个部门、多名数据科学家在赛飞平台上完成2.5万次模型训练。同时,它是参加比赛刷榜的神器,我们拿了7个世界第一,利用这个平台,极大地加快建模速度,也有很多相应论文的发表。

说完底层的技术,我们再看上层的四个算法领域,其中大家比较熟悉的是影像。

平安的业务很广,如果聚焦在医疗AI的算法场景里,则是从疾病的预测、基于影像的辅助诊断、AskBob辅助诊疗和患者院外管理的四大场景,我们有大量的模型算法和工作。

从应用的角度来看,今年,平安所有的医疗科技服务有1.75亿次的调用,服务了1.6医院,43.8万名医生用户每天在使用我们的医疗科技服务。

疾病预测,预测的不是人的命运,而是人的生命。比如预测重症患者院内死亡风险、慢性病患者的并发症风险、人群发病风险。新冠疫情期间,平安医疗科技向国务院办公厅、各个部委提交了多期预测报告,预测什么时候新增发病人数会到顶,什么时候出院人数会急剧增加,最终死亡率是多少,从而帮助*府做决策。

在疾病的预测过程中,有非常多的关键技术:

一、数据修复。拿到条记录,要求所有的关键数据都有数值,最后剩下一条就不错了。我们在IEEEICHI参加了DataImputation的比赛拿了冠*,我们利用数据所谓的横向、纵向和斜向关系,分析数据之前、之后和相关检测检验的信息,猜测缺失的数据可能是多少,均有不错的效果。

二、特征工程。很多预测是从病例中进行挖掘,这里也有挑战:数据是多模态的,不像影像相对单纯。

在这次新冠疫情里,预测有60%的ICU患者发生了不同程度的脓*症,脓*症是ICU的第一大杀手。ICU里的信号非常复杂,有心率血压、脉搏等生命体征信息,并且时间序列是连续的。我们利用很好的多模态数据特征工程的方法,提前6个小时预测患者发生脓*症的风险,精度比目前最好的方法高20%,这个工作今年发表在重症医学顶级期刊CCM上。

三、可解释机器学习建模。很多医生是很难接受黑盒模型的,尤其是预测,本来就是在猜,如果怎么猜的都不知道,医生很难接受这个模型。我们的做法是将深度学习的方法跟医生比较能接受的生存分析survivalanalysis方法结合起来,利用SHAP等可视化的方法,把因素和结局的关系可视化出来。

比如右上角的图,有一个U字形,那是一个非常典型的例子,红色的表示当值在那个区域的时候,导致患者出现肾衰竭的风险,而绿色部分是保护性因素,值在这个区间的患者不容易发生风险,但它不是线性的。我们利用可解释的模型加上深度学习的方法,用算法定量、精准地把非线性的关系可视化出来,解释给医生,让他们更容易接受。

疾病预测应用案例

做预测模型有什么用?现在有两个面向用户的场景在使用:

第一个场景是面向C端用户。平安有最大的全球互联网医疗平台——平安好医生。我们把常见病(高血压、糖尿病、冠心病、脑卒中)的预测模型放在平安好医生APP上。平安好医生有几亿的用户,他们会填写数据预测,看看自己有什么风险,同时进行相应的管理。

第二个场景是针对老年人群体。我们在甘肃收集到万老年人数据。老年人出现高血压、糖尿病的比例占老年人口的40%,慢性病管理的挑战在于知晓率低,治疗率低。老年人不知道自己有病,或者有病也不会主动治疗。我们跟甘肃卫健委合作,用算法把这些人挑出来,通过甘肃家庭医生平台,让家庭医生有针对性找到高危老年人,对他们进行主动管理,提高疾病的知晓率和治疗率。

三是在珠海,我们利用多万居民的健康数据和12个疾病的预测模型,可以生成一个完整的风险评估报告。同时,我们会把相应患者的教育,以及可访问的健康服务跟风险因素挂在一起:哪些服务可以帮助降低哪些风险因素,让*府在进行疾病管理的时候变得更加精准,更有针对性。

第二个场景是面向医学影像,我们聚焦的是两类人群(基层医生和专家)、三个场景:

对于基层医生,我们聚焦质控和筛查。很多基层医生拍出来的片子位置不正、关键的器官不在里面、以及各种异物,这些片子拿到北京、医院也用不了。

我们在质控领域有很长的积累,在《NEUROCOMPUTING》、《SCIENTIFICREPORTS》上发表了一系列的文章,针对DR、CT、内窥镜等影像,发现质量问题后提示医生重拍,进而提高优片的比例,在内窥镜异物比赛上获得冠*。

另外,平安有六个检测中心,医院把数据传到平安影像云上,由平安的医生帮助他们阅片。利用质控的方法,不管是DR。还是CT,质量不好片子的比例下降了20%,让甲级优等片的占比达到98%,提高了基层片子的质量。

第二个场景是筛查,告诉基层医生患者的病情,医院看不了,医院就诊。

我举一个眼科OCT的例子。OCT类似于CT,是三维建模,会看OCT的医生很少,尤其是医院,五官科的医生往往是耳鼻喉科的医生,不一定是眼科医生。

我们在TVST、MICCAI等连续发表了一些文章,用算法对OCT的20多种病灶进行识别,并且做出紧迫性判断。提示医生患者没问题,或是有问题但只需要随访,或者是问题很严重,医院就诊,这是我们在筛查场景里发挥的作用。

我们在上海、深圳都建立医院为主、下设几十家社康中心的模式,在社康中心进行筛查。在这两个地方,我们发现,年龄偏高人群中有30%的人有不同程度的眼底病变,其中20%的人需要马上治疗。因此,通过平安的平台,我们可以将他们转医院进行干预。

第三类是辅助诊断,面向专科医生,对于很难很烦的事情,我们帮助他们加速。

这是肾脏病理的例子。一个医生做肾脏诊断时,需要对着10亿像素的片子数肾小球、有没有硬化,肾小球里面细胞的比例。一个医生数一个肾小球平均需要平均43秒,一个片子里有几十到一百个肾小球。

我们利用最近发表在病理学顶级期刊上的一套模型,跟国家肾病中心的四个肾内科医生进行了对比。结果模型的精度是92%,四个肾内科的医生平均精度是82%,同时,模型看一个肾小球的速度是0.6秒,而医生平均是43秒,我们把速度平均提升了70倍,精度提升了10倍。

因此,让医生基于AI模型提供结果进行判断,把琐碎的事情交给计算机,这是我们对AI的定位。

今年上半年,有多个城市使用了平安医疗科技的技术,影像辅助诊断的服务就有上亿次调用。

最后一个例子是宫颈癌TCT病理,我们将硬件与模型进行了整合,医院、第三方诊断中心合作一起应用。扫描仪会在2分钟内完成切片扫描,在40秒钟内对切片进行阳性、阴性的判断,同时会把三类高危的阳性切片按照高、中、低列出来,让医生

1
查看完整版本: 平安首席医疗科学家谢国彤两大基础平台与四