对于生物医学成像来说构建大数据集是非常困难

大数据232jpg

如果肿瘤细胞刚刚生成，就可以被精准地“揪”出来，那将给肿瘤的诊断和治疗带来巨大变革。而要想实现这一点，成像方式就必须具有极高的灵敏度。

近日，中科院自动化研究所、中科院分子影像重点实验室在基于人工智能(AI)技术的新型成像方法研究上获得了突破性进展——研究人员将小鼠颅内脑胶质瘤的三维定位精度，由传统方法的百微米级误差缩小到了十微米级，为疾病动物模型乃至临床患者的影像学研究提供了全新的思路。相关研究论文已发表于《光》期刊。

“图像不是凭空得到的，而是成像设备获得的，传统方法往往不能提供最好的成像质量。在人类认知图像之前，在成像信号转化为图像的过程中，会损失很多关键信息，人工智能技术可以突破这一瓶颈。”论文第一作者、中科院自动化研究所副研究员王坤告诉《中国科学报》，通过建立新的AI模型，把原始的物理信号转化为更加精确、更高分辨、更少伪影、更高信噪比的高质量图像，无论是“人脑”还是“机器脑”，都可以更好地识别、认知和学习，这就是此项研究带来的最本质的创新。

一项极具挑战性的工作

肿瘤的早期发现并不容易，特别是某些恶性肿瘤，潜伏期甚至长达20年，当身体发出警报时，往往已经走到了中晚期。如何实现早期微小肿瘤的精准检测，及时观测到肿瘤细胞刚出现时产生的某些特异性蛋白、酶甚至RNA，一直是科学家探索和研究的方向。

“不过，在现实的物理世界中，能够提供如此高灵敏度的成像媒介并不多。”王坤坦言，目前公认最好的是高能伽马射线和无辐射的光子，但是基于伽马探测的放射性核素成像成本高，难以普及;光学成像成本低廉，但大都是二维图像，缺乏三维信息。

“我们用人工智能解决的就是光学成像难以三维定量的问题。”王坤说，“也就是既可以高灵敏度地看到有没有肿瘤，是哪种分子类型的肿瘤，还可以高精确度地知道肿瘤在哪里，有多大规模。”

王坤提到的光学成像是指生物自发光断层成像技术，该技术是生物医学成像的重要手段，广泛应用于疾病动物模型的影像学研究。然而，由于光子在生物体内具有非均匀化的高散射和高吸收的物理特性，通过探测动物体表的发光光斑来逆向重建出生物体内的光源位置(即肿瘤位置)，是一项极具挑战性的工作。

清华大学医学院生物医学工程系研究员罗建文告诉《中国科学报》，此前，光学断层重建问题大多是基于模型的方法，包括正问题和逆问题的求解。正问题的求解一般是利用辐射传输方程或者扩散方程等模型来模拟光子在组织体中的传播过程，进而得到系统矩阵;逆问题的求解大多采用一些优化方法，来获得体内光源的具体信息，如位置、形态、强度等。

“然而，这种基于模型的方法，势必会受到模型近似的影响，导致重建精度降低。”罗建文强调。据了解，正问题和逆问题求解的两种误差叠加在一起，最终导致光学断层成像对于动物体内肿瘤的三维定位具有数百微米到1毫米的误差。

机器学习带来突破

为减少误差，王坤所在团队提出基于机器学习的AI重建：完全舍弃构建前向模型去描述光子在生物体内的传播，通过构建大量的仿真数据集，在仿真数据上确定动物体表的光斑和体内的光源，再通过该数据集训练计算机智能化学习体表光斑和体内光源的非线性关系，从而构建出适用于生物自发光断层成像的AI模型，最终三维重建活体动物荷瘤模型内的肿瘤三维分布。

“此项研究首次将机器学习中的多层感知机方法应用于光学断层重建，并且提出了自己的数据集构造方法，实现了直接由数据到结果的跨模型创新框架，使得重建定位误差缩小到传统方法的十分之一，同时这也提示了可以用人工智能方法去解决光学断层重建问题。”罗建文评价道。

不过，王坤强调，生物自发光断层成像涉及到肿瘤细胞的基因编辑和改造，所以只能用在动物身上，不能用于人体，但是他们发展出的基于AI的光学三维重建方法具有推广性，理论上可以用在其它光学分子影像的成像技术上，例如激发荧光成像、近红外成像等等。因此，该方法本身具有很好的临床转化应用能力。

数据收集与分析面临挑战

机器学习的基础是数据，而对于生物医学成像来说，构建集是非常困难的事情。

“比如我们的这个研究，构建了近8000个脑胶质瘤荷瘤的小鼠模型来训练我们的机器学习模型。如果真的让生物学家去一个个构建原位脑胶质瘤小鼠模型，需要很长时间，并投入巨大的人力和财力，是非常不切实际的。”王坤说。

“我们构建的仿真数据，达到了非常高的精度，很好地模拟了现实的肿瘤动物。”王坤表示，他们用生物学家构建的真实脑胶质瘤小鼠来验证训练出来的人工智能模型是否精确可靠，最终结果表明，新型人工智能方法对于脑胶质瘤的三维定位误差均小于80微米，而传统方法的定位误差为350微米以上。

不过，在实际临床应用中，数据的收集和解析并不容易。罗建文表示，机器学习特别是深度学习，最重要的就是数据，包括数据的质量和数量。目前在医学成像领域，虽然收集到大量的数据比较容易，但是这些数据被标记后才能用于建模，受个体差异影响很大。由于不同医生的诊断结果不同，数据的质量会受到影响，用它训练出的网络就会存在问题。

同时，罗建文表示，在诊断、治疗、预后等一系列环节中，对于一些疾病的定性描述，不同的医生也存在很大的自由度，很难统一说法;不同品牌甚至同一品牌但不同型号的医疗设备采集到的图像，也存在较大差异。这些不统一的数据，都会影响深度学习的分析结果。

“还有一个重要的因素就是模型的因果性和可解释性。”罗建文强调，“医学与人的生命息息相关，所以做任何一件事都要有理有据，都要有因果推论的关系。但是，做机器学习模型时，很容易陷入直接对相关性进行建模的陷阱。相关性建模涉及的两个因素未必有直接的因果关系。得出的模型，如何解释其结果的意义，是一个很难处理的事情。”

临床任重道远

在罗建文看来，深度学习擅长处理的就是高维度、稀疏的信号，图像就是这些信号中一种有代表性的形式，因此，AI在医学影像处理上的应用必然是一个热点方向。

“医学影像处理的典型问题包括影像分类、目标检测、图像分割和影像检索等，都能对应到日常临床应用里的一些痛点或比较浪费人力的问题。”罗建文建议，影像医师应该投入到AI技术的学习和应用中，AI技术也许很快就能协助影像医生完成一部分工作，也有潜力使现有的工作得到提升。

不过，上海中医药大学附属曙光医院放射科主任詹松华站在医生的角度表示，AI在发现病变方面肯定大有作为，但是代替医生来处理，很难。“发现病变特点，然后区别正常和异常，到底是炎症还是肿瘤，最终还是由医生来做诊断。”

詹松华认为，AI用于生物医学影像的方向是对的，但是目前需要更多的科研投入，需要将医师和工程师很好地整合起来，AI人士需要倾听临床的声音，了解医生的切实需求。另外，AI解决假阴性率是关键，要提高AI机器判断的确定性，从而为医生省时节力。

相关阅读：