【文献阅读】Deep learning based classification of breast tumors with shear-waveelastography

题目:基于深度学习的乳腺肿瘤的剪切波弹性成像分类

摘要:本研究旨在建立一个深度学习(DL)架构,用于从剪切波弹性成像(SWE)中自动提取从数据中学习到的图像特征,并评估DL架构在区分良恶性乳腺肿瘤中的作用。我们构建了一个用于SWE特征提取的两层DL体系结构,由点向门控玻尔兹曼机(PGBM)和限制性玻尔兹曼机(RBM)组成。PGBM包含与任务相关和与任务无关的隐藏单元,而与任务相关的单元与RBM相连。对来自121例患者的227张SWE图像、135张良性肿瘤和92张恶性肿瘤进行了5倍交叉验证。用我们的DL架构学习到的特征与量化图像强度和纹理的统计特征进行了比较。结果显示,DL特征具有较好的分类性能,准确率为93.4%,灵敏度为88.6%,特异性为97.1%,受试者工作特征曲线下面积为0.947。基于dl的方法将特征学习与SWE上的特征选择相结合。它可能有可能被用于乳腺癌的临床计算机辅助诊断。

1. Introduction

        图1所示的SWE图像说明了乳腺肿瘤诊断的高视觉变异性,这是由于乳腺组织的硬度分布不同引起的。

图1 乳腺肿瘤剪切波弹性成像(SWE)的例子。(a)b型超声(底部,灰度)和Swe(顶部,颜色)双模态可视化的典型图像。感兴趣区域(roi)用矩形标记,SWE右侧的颜色条表示组织的弹性模量(即硬度),从红色减少到蓝色。(b-e)两个良性肿瘤的ROI(b、d)两个恶性肿瘤(c、e)顶部:B模式,底部:SWE。这里,(c)中描述的恶性肿瘤也是(a)中显示的肿瘤。(b)和(c)显示了两种典型肿瘤的萎缩,其中(c)的红色区域显示与恶性肿瘤相关的非常坚硬的组织;(d)和(e)是边缘性病例,很容易被误诊。没有颜色的黑洞表示弹性模量测量无效的区域。白色的箭头指向肿瘤的边界。(为了解释本图例中对颜色的参考资料,读者可以参考本文的网络版本。)

       传统上,在标准超声和SWE上使用统计特征(SFs),在计算机视觉研究领域也称为人工制作的特征。SFs包括肿瘤的形状和形态学参数、强度统计和量化肿瘤异质性的纹理特征。SFs通常是通过依赖专家知识或人工劳动来提取的,而特定SFs的选择对分类性能[10]的影响很大。

        然而,乳腺肿瘤的SWE图像包含伪影、噪声和其他不相关的模式,如不规则的刚度分布[7]。例如,良性肿瘤(图1d)的邻近组织坚硬不均匀,恶性肿瘤(图1e)的邻近组织较软,容易导致误诊。在构建DL体系结构时,它可以从复杂的SWE图像数据中进行可靠的学习。因此,挑战在于如何学习健壮的表示,以区分有用的(即任务相关的)模式与大量的分散注意力的(即任务无关的)模式[21,22]。另一个挑战是如何理解和利用可能与任务相关但难以被人类观察者解释的模式,如SWE上没有颜色的黑洞(图1b-e),即具有无效刚度值的缺失区域。

        流行的DL方法,包括自动编码器和卷积神经网络,不适合克服这些挑战,因为它们不专注于区分与任务相关和不相关的模式。相反,一种新提出的DL方法,即点向门控玻尔兹曼机(PGBM),似乎是一种很有前途的技术,它引入了一种门控机制来估计任务相关模式发生的位置。本文提出了一种基于PGBM的统一DL架构,用于稳健地学习SWE图像表示和区分乳腺良恶性乳腺肿瘤[22]。因此,用户不需要手动识别特定的特征,而DL网络使用训练集来学习固有的任务相关模式。

2. Methods

2.1.图像采集和预处理

       121女性患者。每个患者可能有多个病变,每个病变都要获得一张或两张图像并存储在DICOM标准中。在这里,对于难以解释和诊断的病变,我们获得了两张图像。所有病变均行切除活检、芯针活检或细针穿刺活检进行病理诊断,作为评估CAD的金标准。当有多个活检结果时,根据以下优先级确定最终诊断:切除活检、芯针活检和细针穿刺活检。共计227张图像,其中良性肿瘤135张,恶性肿瘤92张。

        记录的SWE图像被描述为一个复合彩色图像(图1b-e底部)叠加在相应的b模式灰度图像(图1b-e顶部)上。通过从合成彩色图像[6,7]中减去b模灰度图像,得到纯SWE图像。每张纯SWE图像的大小在360*490*3左右,通过双线性插值将其降采样到36*49*3,分辨率为12.26 ± 1.62像素/cm(图1b-e)。然后将其从矩阵转换为像素向量,直接作为DL网络的输入。

2.2.深度学习架构

       DL架构,最初引入深度信念网络(DBNs)[23,24],是人工神经网络由学习特征层次特征的高级层次的组合特征,其目标是产生更抽象和不同的表示[20,25]。dbn由几层受限制的玻尔兹曼机(rbm)组成,它们使用二进制潜在变量[20,23]来建模二进制数据向量。然而,由于不相关模式[21]引起的干扰,rbm不能直接用于建模复杂的SWE图像数据。PGBM作为一种高阶玻尔兹曼机,对上述复杂图像数据[22]进行建模。

2.3.点向门控玻尔兹曼机

       在SWE乳腺肿瘤的CAD中,图像数据包含大量无关的感觉模式。探索一种自动学习算法来区分相关的和不相关的问题模式至关重要。在这里,我们使用有监督的PGBM将特征学习与特征选择一致地集成在一个统一的框架[22]中,如图2所示。通过使用随机“开关单元”的门控机制,PGBM可以对学习到的高级特征(即隐藏单元)和原始特征(即使用图像像素的可见单元)进行特征选择。开关单元允许PGBM估计每个与任务相关的模式发生的瑞士图像,并只使那些可见的单元对最终的分类做出贡献。该模型忽略了原始特征(像素)的任务无关部分,从而进行动态特征选择,即根据对单个图像[22]的自适应解释,选择原始特征的变量子集。

图2 我们在剪切波弹性成像(SWE)图像上进行乳腺肿瘤分类的深度学习架构示意图。

       更具体地说,我们将SWE彩色图像中具有三个颜色值(红色2、绿色和蓝色)的每个像素视为三个可见单元(图2)。当以隐藏单位hj为条件时,我们将每个可见单位vi表示为一个混合模型,它被划分为两个混合成分,第一个对应任务相关模式,第二个对应任务无关模式[22]。

       PGBM有二项式开关单元,它与可见的单元配对。第i个开关单元的第r个组件(r = 1,2)用z_{i}^{r}\in \left \{ 0, 1\right \} 表示每个可见单元v_{i},满足z_{i}^{1}+z_{i}^{2}=1。PGBM在可见单元和成对的开关单元之间施加了点方向的乘法相互作用。PGBM的能量函数由[22]表示:

      该推理是通过交替吉布斯采样[23]来完成的。

       PGBM每个可见单元根据其配对的开关单元,通过使用点方向的乘法相互作用,即公式(1)。乘法交互使每个组件中的隐藏单元聚焦于图像的特定部分,这样一个组件中的隐藏单元对另一个组件学习到的模式具有鲁棒性。PGBM还鼓励将相同的组件分配给相似和相关的可见单元,因此它可以动态地保留相关的原始特征,并为每个图像[22]删除不相关的特征。

2.4.统一的基于PGBM的DL体系结构

       如图2所示,我们提出了一个统一的乳腺肿瘤CAD的双层DL结构,这是一个监督分类的任务。使用PGBM作为第一层的构建块,整合了来自SWE图像的图像表示学习和特征选择。然后,RBM作为第二层,并最终产生更多不同的肿瘤分类表示。最终将支持向量机(SVM)连接到RBM上进行预测[27]。

       在第一层中,只有任务相关组件中的隐藏单元被连接到标签单元(图2)。具有两种混合成分的监督PGBM通过任务相关的隐藏单元将乳腺肿瘤标签信息转移到原始的SWE图像中,从而以统一的方式对[22]进行高、低水平的生成特征选择。

       第二层,即堆叠的RBM,从与任务相关的信息中学习不同的表征(图2),因为PGBM能够通过监督[22]选择与任务相关的隐藏单元。在第二层之后,经典的分类器SVM[27–29]用于鉴别乳腺良恶性肿瘤(图2)。

2.5.交叉验证

       肿瘤分类的训练和测试程序采用五倍交叉验证:在将从同一患者获得的多个图像分配到相同子集的前提下,将整个数据集随机分为5个大小相同的子集;四个子集一起用于训练,其余一个用于测试,这个过程重复五次,每个子集作为测试集使用一次。如表1所示,对这5个亚群的病变类型(良性或恶性)、患者年龄、病变半径和肿瘤内是否存在黑洞进行了匹配(p > 0.05)。

       定量评价时,采用分类准确性、敏感性、特异性和约登指数(Youden1,YI=敏感性+特异性1)来衡量分类性能。利用受试者工作特征(ROC)曲线和ROC曲线下面积(AUC)对分类离子模型进行了评价。

       通过交叉验证,有两种方法可以统计评估改进的DL方法比其他方法: (a)我们使用五个测试集的分类性能指数作为样本,在每两个分类模型之间进行配对t检验;(b)我们将五个测试集的诊断结果汇总在一起,总结了正确和错误分类的病例数,并在两个模型之间进行v2检验。

3. Experiments and results

3.1.实验设置

3.1.1.参数设置

       我们在一个平台上使用MatlabR2014b(math工作公司,Natick,MA)编写算法,该平台包含一个四核,3.30 GHz Intel i5-4590 CPU和8 GB的1333 MHz DDR3 RAM。我们进行了实验来证明所提出的DL体系结构的有效性。将一个像素的三个颜色值作为三个输入值,因此有5292个(=36493)输入单元。PGBM和RBM中隐藏单位的数量分别被经验设置为1500和250。PGBM隐藏单元中相关成分和无关成分的数量均为750个。

3.1.2.用统计特征进行比较

       为了便于比较,我们还从纯SWE图像中提取SFs,并采用水平集分割方法进行肿瘤检测和定位[7]。SFs量化了SWE上的强度和纹理,并在两个图像域,即原始域和轮廓域上进行了计算。在每个域上,SFs由一阶统计量和灰度共现矩阵(GLCM)纹理特征组成。一阶统计量包括肿瘤内弹性分布的平均值、标准差、偏度、面积比和若干百分位数,GLCM特征包括弹性分布[7,30]的能量、熵、对比度和均匀性。共计算出286个SFs。

      我们比较了使用我们的DL体系结构和SFs在乳腺肿瘤分类中学习和选择的特征。我们执行并比较了三种关于SFs的特征缩减方案:(a)主成分分析(PCA),(b)t检验,以及(c)所有286个没有特征缩减的特征。当使用PCA时,在10个间隔内保留10-280个组件作为以下分类器的输入,并对其分类精度进行比较,以确定保留组件的最佳数量。在使用t检验时,设置并比较p值分别为0.05和0.01这两个阈值,并选择p值小于阈值的特征输入分类器。

3.1.3.用于比较的分类器

       我们最终在我们的模型中使用的分类器,即SVM,也与其他两个经典分类器,k-最近邻(KNN)[31]和(ELM)[32]进行了比较。利用网格搜索[27]对SVM中的参数进行优化,并对KNN和ELM中的参数进行经验设置,以获得最佳性能。从SVM中得到恶性肿瘤的概率,并选择0.5的阈值将样本分配为恶性肿瘤或良性[28,29]。

       用于特征提取和分类的DL架构被命名为PGBM-RBM-⁄,其中后缀‘⁄’表示如SVM、KNN和ELM等分类器。当使用所有特征以及PCA和t-检验保留的特征作为分类器的输入时,用于特征提取和分类的SF模型分别命名为SF-⁄、SF-PCA-⁄和SF-TTEST-⁄。此外,我们比较了单层神经网络(只有PGBM,没有RBM),也称为浅层网络,与我们的两层架构(PGBM plus RBM),也称为深度网络。单层具有三个分类器的架构被命名为PGBM-⁄。总共有15个特征提取和分类模型进行比较。

3.2.敏感性和特异性

       表2列出了5个测试集的平均分类结果。最佳模型为PGBM-RBM-SVM,准确率为93.4%,敏感性为88.6%,特异性为97.1%。图3为通过PGBM-RBM-SVM正确分类的SWE图像的典型样本。结果表明,乳腺肿瘤具有明显的多样性:良性肿瘤似乎主要覆盖均匀蓝色(即低和均匀弹性模量),而恶性肿瘤呈现丰富和混合颜色(即高和非均匀弹性模量),特别是在肿瘤的边缘,代表增加和异质硬度在瘤周组织,这被称为刚性边缘符号[33–35]。

图3 用深度网络PGBM-RBM-SVM正确分类的良性(上)和恶性肿瘤(下)的典型样本,(a)中显示的肿瘤也用浅网络PGBM-SVM和传统统计方法SF-PCA-SVM正确分类,(b)中显示的肿瘤用PGBM-SVM正确分类,但用SF-PCA-SVM错误分类,(c)中显示的肿瘤被PGBM-SVM和SF-PCA-SVM错误分类。

      无论将什么分类器连接到特征上(自动学习或手动提取),两层深度网络(PGBM-RBM)总是比单层浅层网络(PGBM)获得更大的精度、灵敏度和YIs(表2)。同时,ELM或SVM的单层网络在准确性、特异性和YI方面始终优于ELM或SVM的SF模型(表2)。

       需要注意的是,当使用PCA或t-检验对SFs进行特征缩减时,表2中列出的分类结果是通过保留特征的最优数量得到的。我们发现ELM有30个主成分最好,KNN有80个,SVM有150个。采用t-检验进行特征选择时,p < 0.01的标准优于p < 0.05。常见的SFs,选择五次交叉验证p < 0.01,包括均值,中值、最大、标准差,第三四分位数,面积比,结合面积比,同质性和相关性在第二个轮廓水平,以及几个SFs来自第一个轮廓水平和原始图像域。

        我们使用SVM分类器进一步比较了三种模型,即PGBM-RBM-SVM、PGBM-SVM和SF-PCA-SVM。受试者工作特征(ROC)曲线如图4所示,ROC曲线下面积(AUC)分别为0.947、0.928和0.902,表明PGBM-RBM-SVM具有优越性。

3.3.分类性能的统计测试

3.3.1.对5个交叉验证检验集的配对t检验

        表3列出了分类性能指标的配对t检验的p值。在本实验中,随机重复6次,每种方法得到30个(即5个6)性能指标样本,使样本量足以得到配对t检验[36]的可靠结果。PGBM-RBM-SVM在四项指标方面均显著优于SF-PCA-SVM(p<0.05),在准确性和约登指数方面均显著优于PGBM-SVM(p<0.05)。PGBM-SVM在除敏感性外的所有指标上均显著优于SF-PCA-SVM(p<0.05)。

3.3.2.伽玛方在测试集上的集合

       表4给出了当将五个测试集的结果汇集在一起时,三个模型正确或错误诊断的病例数。PGBM-RBM-SVM和PGBM-SVM均正确分类了21例,但被SF-PCASVM误诊;这里,典型样本如图3b所示。同时,被SF-PCA-SVM正确分类的病例只有9例,而被PGBM-RBM-SVM和PGBM-SVM均被误诊。另外,有2例病例被PGBM-RBM-SVM正确分类,但被PGBM-SVM和SF-PCA-SVM均分类错误(图3c)。

图4 深度网络PGBM-RBM-SVM、浅层网络PGBM-SVM和传统统计方法SF-PCA-SVM的AUC。

       PGBM-RBM-SVM与SF-PCA-SVM相比,RBM-SVM正确分类肿瘤(212:15 vs. 199:28,p = 0.037;表4);典型样本如图3b和c所示。PGBM-RBM-SVM比PGBM-SVM正确分类肿瘤更多(212:15 vs. 203:24,p = 0.131;表4和图3c),PGBM-SVM正确分类肿瘤超过SF-PCA-SVM(203:24 vs. 199:28,p = 0.556;表4和图3b);然而,差异不显著。

       第3.3.1和3.3.2节的结果表明,DL方法成功地捕获了SWE上的任务相关模式,而SFs受到不相关模式的干扰。RBM增强了PGBM的特征表示,两层深度网络优于单层浅层网络。

3.4.黑洞对分类的影响

       在227例病例中,有56个有黑洞,171个没有黑洞。恶性肿瘤内黑洞的发生率明显大于良性肿瘤内的病例(39/92 vs. 17/135,p < 0.001),提示肿瘤内黑洞的存在可能是恶性的标志,这里命名为黑洞征。

       我们汇总了五个测试集的诊断结果。无论使用什么模型,PGBM-RBM-SVM PGBM-SVM,或SF-PCA-SVM(所有p < 0.001),与肿瘤黑洞更有可能被预测为恶性肿瘤比肿瘤没有黑洞,这意味着学习数据和科幻模型捕获黑洞的存在作为恶性肿瘤的迹象。当我们比较有黑洞和没有黑洞的肿瘤之间的敏感性时,进一步证实了这一点,如表5所示。三种模型获得的敏感性均达到了显著性差异(p < 0.05)。

       此外,PGBM-RBM-SVM和PGBM-SVM获得的特异性在有黑洞和没有黑洞的肿瘤之间没有显著差异(均为>94%;p > 0.05;表5),而SF-PCA-SVM对黑色肿瘤孔洞获得的特异性明显少于没有黑洞的肿瘤(82.4% vs. 94.9%;p = 0.011)。这些结果表明,科幻模型可能被捕获和欺骗黑洞迹象,错误分类的良性肿瘤与黑洞恶性,而两个学习数据模型可能探索不同黑洞之间的细微差别或利用其他特征除了黑洞迹象更具体地区分良性肿瘤和恶性的。

       此外,学习和提取的存在和其他黑洞的详细特征可能更有效的深层模型PGBM-RBM-SVM比浅模型PGBM-SVM,因此有显著差异PGBM-RBM-SVM肿瘤的精度之间有和没有黑洞(p = 0.015;表5)但PGBM-SVM的准确性没有差异(p = 0.330)。

4. Discussion

       这项工作的主要贡献是提出了一种集成的DL架构,用于从SWE图像中学习和选择图像特征,并用于乳腺肿瘤的自动分类。据我们所知,这是第一次尝试在SWE图像分析中评估从数据中学习到的图像特征,以开发一个使用DL架构的CAD系统。与传统的SF方法相比,DL体系结构具有更高的分类能力。在未来的临床诊断中,我们的统一系统可以作为鉴别恶性和良性乳腺肿瘤的有价值的工具。

        在DL模型中,不同隐藏单元数下的分类结果相似。例如,当我们在500的间隔内将单位数从500变化到5000时,分类准确率只变化了2.6%。证明了该方法对该参数的鲁棒性。最后,我们将数字设置为1500以达到最佳性能,其中750为任务相关单位,750为任务无关单位。

         如表2所示,神经网络模型的训练速度比传统的SF模型要慢得多。然而,通过使用我们目前有限的硬件资源,在一个包含227张图像的数据集上进行深度学习的大约4200秒的训练时间是可以接受的。此外,SF的生成需要半自动的图像分割来描绘肿瘤的边界和乳腺肿瘤弹性的先验专家知识,这使诊断程序[6,7]变得复杂。我们的DL架构不需要图像分割或先验知识,因此它可能更方便,更适合未来的临床诊断。

        鉴别乳腺恶性和良性肿瘤在临床上具有重要的意义。此外,乳腺肿瘤亚型的分类具有更大的临床影响[3,7,37]。未来对DL结构的研究应该在更大的具有不同肿瘤亚型的队列中进行,以使其适应于多类分类和组织病理学严重程度的评估。

       没有颜色的缺失区域出现为SWE上的黑洞(图1b-e)。如果这些区域的剪切波速度(或弹性模量)的计算非常不确定,甚至遇到误差[7],则在SWE成像过程中产生黑洞。产生黑洞的原因可能包括:衰减的横波能量的边缘,吸收和反射的推动束,非常高或非常低的横波速度,显著不同的刚度值和合成反射的横波病变边界,和没有传播的横波通过清晰的非粘性液体[7]。这些黑洞可能很难被人类的观察者所解释。我们的研究结果表明,肿瘤内黑洞的存在可以作为恶性肿瘤的迹象,我们的DL方法捕获了这个与任务相关的迹象,也可能捕获了其他黑洞区分良性和恶性肿瘤的详细信息。

        除乳腺肿瘤外,SWE还已被用于评估其他疾病,如肝肿瘤、纤维化和肝硬化[38]、前列腺肿瘤[39]、甲状腺结节[40]和肌腱病[41]。当我们在SWE上采用基于SF的分类时,SF应该针对特定的疾病进行定制,SF生成通常需要繁琐的手动图像分割或复杂的自动分割[42,43],以及来自熟练用户的先验知识。所提出的DL体系结构有望很容易地应用于其他疾病的诊断,而几乎没有任何修改。它只需要对目标疾病的样本进行再培训,然后它就会为新的应用程序建立一个新的网络。有预训练方法来提高深度学习在临床实践中的适用性。我们可以对已存在的自然图像(如具有120万张图像的ImageNet数据集)、软件图像或其他医学图像进行无监督预训练,得到预训练的网络;每次当我们需要为目标SWE图像集训练新网络时,我们可以对目标图像上的预训练网络进行微调。当需要再训练来将我们的DL模型适应于跨机构使用的不同SWE成像系统时,也可以采用预训练方法来提高可重复性。此外,适当的图像归一化技术也将有助于减少由不同设置、用户和设备[45]所引入的可变性。

        超声成像是一个活跃的研究领域,出现了多种临床超声模式,包括b型、多普勒超声、增强超声、应变弹性成像和SWE。结合多种模式对乳腺肿瘤和其他疾病[4,5]的诊断有价值,因此多种模式的深度学习可以提高分类性能。DL与多视图学习的结合似乎是一种很有前途的[46]技术。

       在最近的DL研究中,数据增强已被证明有助于避免过拟合和提高分类性能[44,47]。数据增强通常包括在不同尺度上随机平移和旋转训练样本,以增加训练数据的变化。然而,由于训练的计算负担大,本研究没有进行数据增强。此外,在我们的数据集中,一个患者可能有多个病变,每个病变可能有多个图像,因此从同一患者获得的图像可能已经有一些相关性和变化;这种数据采集过程看起来类似于数据增强。然而,数据增强对SWE分类的作用还需要在未来的研究中进行研究。

5. Conclusions

        我们提出了一个统一的DL架构,用于自动学习来自SWE图像的特征和分类乳腺肿瘤。实验结果表明,使用DL的数据学习特征在分类精度方面优于SFs,敏感性、特异性和YI。DL结构有可能被用于未来乳腺肿瘤的临床CAD。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值