文章目录

  • 1.MedPy简介
  • 2.MedPy安装
  • 3.MedPy常用函数
    • 3.1 `medpy.io.load(image)`
    • 3.2 `medpy.metric.binary.dc(result, reference)`
    • 3.3 `medpy.metric.binary.jc(result, reference)`
    • 3.4 `medpy.metric.binary.hd(result,reference,voxelspacing=None,connectivity=1,)`
    • 3.5 `medpy.metric.binary.hd95(result,reference,voxelspacing=None,connectivity=1,)`
    • 3.6 `medpy.metric.binary.recall(result, reference)`
    • 3.7 `medpy.metric.binary.sensitivity(result, reference)`
    • 3.8`medpy.metric.binary.true_positive_rate(result, reference)`
    • 3.9`medpy.metric.binary.specificity(result, reference)`
    • 3.10`medpy.metric.binary.true_negative_rate(result, reference)`
    • 3.11`medpy.metric.binary.precision(result, reference)`
    • 3.12 `medpy.metric.binary.positive_predictive_value(result, reference)`
    • 3.13 `medpy.io.save(arr, filename, hdr=False, force=True, use_compression=False)`
  • 4.参考文献

1.MedPy简介

MedPy 是一个图像处理库和针对医学(如高维)图像处理的脚本集合,此处主要讨论利用该库计算常见的医学图像分割任务评价指标,如Dice、Jaccard、Hausdorff Distance、Sensitivity、Specificity、Positive predictive value等。

论文表格的表头一般使用评价指标的英文全称首字母大写简写,如PPV代表阳性预测值,故此处也给出。

  • Dice相似系数(Dice Similarity Coefficient,DSC)或Dice系数(Dice Coefficient,DC)

    也称为索伦森-骰子系数是用于衡量两个样本相似性的统计量。它是由植物学家Thorvald Sørensen和Lee Raymond Dice独立开发的,他们分别于1948年和1945年发表。是最常用的一项评价指标,用于有效衡量分割算法预测标签与真实标注标签的空间重叠程度,其对应值越大表示分割精度越高。该指标最初应用于离散数据,给定两个集合A 和B,则定义为两个集合共有的元素数除以每个集合中元素数之和的两倍
    D S C = 2 ∣ A ∩ B ∣ ∣ A ∣ + ∣ B ∣ DSC=\frac{2|A\cap B|}{|A|+|B|} DSC=A+B2∣AB
    其中, ∣ A ∣ |A| A ∣ B ∣ |B| B是两个集合的基数(即每个集合中的元素数)

    当应用于布尔数据时,使用真阳性 (TP)、假阳性(FP) 和假阴性(FN) 的定义,它可以写为
    D S C = 2 T P 2 T P + F P + F N D S C=\frac{2 T P}{2 T P+F P+F N} DSC=2TP+FP+FN2TP

  • Jaccard相似系数(Jaccard Similarity Coefficient,JSC)或Jaccard系数(Jaccard Coefficient,JC)

    与 Dice 相似系数指标相似,也是一种衡量两幅图像相似程度的指标,其由实际分割结果与真实标签的交集同二者并集的比值得出,反映了分割方法的准确程度,其值越高,分割结果越准确。设TP表示正确预测为正例的数量,FP表示错误预测为正例的数量,FN表示错误预测为反例的数量,则定义为

    Jaccard = T P T P + F P + F N \text { Jaccard}=\frac{T P}{T P+F P+F N} Jaccard=TP+FP+FNTP

  • 豪斯多夫距离(Hausdorff distance,HD)

    表示预测分割区域边界与真实肿瘤区域边界之间的最大距离,其值越小代表脑肿瘤边界分割误差越小、质量越好。设 XY 是度量空间 ( M , d ) (M,d) (M,d)的两个非空子集,则定义他们的Hausdorff distance d H ( X , Y ) d_H(X,Y) dH(X,Y)
    d H ( X , Y ) = max ⁡ { d X Y , d Y X } = max ⁡ { max ⁡ x ∈ X min ⁡ y ∈ Y d ( x , y ) , max ⁡ y ∈ Y min ⁡ x ∈ X d ( x , y ) } d_H(X, Y)=\max \left\{d_{X Y}, d_{Y X}\right\}=\max \left\{\max _{x \in X} \min_{y \in Y}d(x, y), \max _{y \in Y} \min _{x \in X} d(x, y)\right\} dH(X,Y)=max{dXY,dYX}=max{xXmaxyYmind(x,y),yYmaxxXmind(x,y)}
    计算绿色曲线 X 和蓝色曲线 Y 之间的豪斯多夫距离的分量过程如下图所示。

    首先,对点集X中的每一个点 x x x计算其到点集Y中的每一个点 y y y的距离,保留最短距离 inf ⁡ x ∈ X d ( x , y ) \inf_{x \in X}d(x,y) infxXd(x,y),然后找出保留的最短距离中的最大距离 sup ⁡ y ∈ Y inf ⁡ x ∈ X d ( x , y ) \sup_{y \in Y}{\inf_{x \in X}d(x,y)} supyYinfxXd(x,y)记为 d X Y d_{XY} dXY。然后,对点集Y中的每一个点 y y y计算其到点集X中的每一个点 x x x的距离,保留最短距离 inf ⁡ y ∈ Y d ( x , y ) \inf_{y \in Y}d(x,y) infyYd(x,y),然后找出保留的最短距离中的最大距离 sup ⁡ x ∈ X inf ⁡ y ∈ Y d ( x , y ) \sup_{x \in X}{\inf_{y \in Y}d(x,y)} supxXinfyYd(x,y)记为 d Y X d_{YX} dYX。最后,取 d X Y d_{XY} dXY d Y X d_{YX} dYX最大值作为点集X和Y之间的豪斯多夫距离。

  • 95% 豪斯多夫距离(95% Hausdorff distance,HD95)

    为了排除一些离群点造成的不合理距离,保持整体数值稳定性,一般选择从小到大排名前 95%的距离作为实际豪斯多夫距离,称之为 95% 豪斯多夫距离。

  • 灵敏度(Sensitivity)

    也称真阳性率(True Positive Rate)、命中率(hit rate)和召回率(Recall),表示预测为正的肿瘤标签占真实肿瘤标签的比例,其值越大,漏检率越低。设P表示数据中真阳样例的数量,TP表示正确预测为正例的数量,FN表示错误预测为反例的数量,则定义为
    S e n s i t i v i t y = T P R = R e c a l l = T P P = T P T P + F N = 1 − F N R \mathrm{Sensitivity}=\mathrm{TPR}=\mathrm{Recall}=\frac{\mathrm{TP}}{\mathrm{P}}=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}=1-\mathrm{FNR} Sensitivity=TPR=Recall=PTP=TP+FNTP=1FNR

  • 特异度(Specificity)

    也称真阴性率(True Negative Rate)和选择性(Selectivity),表示预测为正的背景标签占所有真实背景标签的比例,其值越高则误诊率越低。设N表示数据中真阴样例的数量,TN表示正确预测为负例的数量,FP表示错误预测为正例的数量,则定义为
    S p e c i f i c i t y = S e l e c t i v i t y = T N R = T N N = T N T N + F P = 1 − F P R \mathrm{Specificity}=\mathrm{Selectivity}=\mathrm{TNR}=\frac{\mathrm{TN}}{\mathrm{N}}=\frac{\mathrm{TN}}{\mathrm{TN}+\mathrm{FP}}=1-\mathrm{FPR} Specificity=Selectivity=TNR=NTN=TN+FPTN=1FPR

  • 阳性预测值(Positive Predictive Value,PPV)

    也称精确度(Precision),指在所有样本的预测结果中,真阳性占所有阳性样本的比例,其值越大越好。设TP表示正确预测为正例的数量,FP表示错误预测为正例的数量,则定义为
    P r e c i s i o n = P P V = T P T P + F P = 1 − F D R \mathrm{Precision}=\mathrm{PPV}=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}=1-\mathrm{FDR} Precision=PPV=TP+FPTP=1FDR

2.MedPy安装

medpy安装较为简单,此处以Ubuntu 18.04.5 LTS系统的root用户为例,其他情况详见参考文献安装即可。

为了启用graph-cut包,我们需要安装下列软件包

sudo apt-get install libboost-python-dev build-essential

然后使用阿里云镜像源高速安装medpy

sudo pip install medpy -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

3.MedPy常用函数

3.1 medpy.io.load(image)

加载图像并返回包含图像像素内容以及头部对象的 ndarray

import osfrom medpy.io import load,save# 文件夹路径和文件名dirname="/dataset/RSNA_ASNR_MICCAI_BraTS2021_TrainingData_16July2021/BraTS2021_00000/"basename="BraTS2021_00000_seg.nii.gz"full_path=os.path.join(dirname,basename)# 加载脑肿瘤标记图像返回图像数据数组和头部信息image_data, image_header = load(full_path)
print("图像数据类型为{},图像数据形状为{}".format(type(image_data),image_data.shape))

# 获取一个切片数组slice_0=image_data[:,:,77]print("切片数组的形状为{},切片数组的数据类型为{}".format(slice_0.shape,slice_0.dtype))

# 转置显示灰度图plt.imshow(slice_0.T, cmap="gray")

# 将纵坐标设置为对数尺度,等宽区间数量设置为为8个绘制切片数组灰度直方图plt.hist(image_data.flatten(), bins=8, log=True)

3.2 medpy.metric.binary.dc(result, reference)

计算二值图像之间的Dice系数(也称为索伦森指数)

首先编辑第三方库源代码在最后追加一行输出语句,保存退出后重启kernel。该输出语句指示此时调用的numpy定义,若调用dc函数前有输出,则表示调用依赖numpy的函数,否则调用依赖jax.numpy的兼容函数实现加速运算

vim /opt/conda/lib/python3.7/site-packages/medpy/metric/binary.py

然后定义统一的一个数组大小参数,最后使用魔术命令%%timeit评估CPU和GPU计算两种方法的运行效率

# 设置数组形状为10000*10000的元组tup=(10000,10000)
  • 调用依赖numpy的函数

    %%timeitfrom medpy.metric.binary import dcimport numpy as np# 设置伪随机数种子seed=np.random.seed(6)# 定义预测结果和真实标记数组predict=np.random.randint(0,4,size=tup)ground_truth=np.random.randint(0,4,size=tup)# 计算Dice相似系数dice1=dc(predict,ground_truth)print("Dice相似系数为{}".format(dice1))

  • 调用依赖jax.numpy的兼容函数

    %%timeitfrom medpy.metric.binary import dcimport jax.numpy as numpy # 重载numpy定义使得dc函数底层可以加速计算from jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=tup,minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=tup,minval=0,maxval=4)# 计算Dice相似系数dice2=dc(predict,ground_truth)print("Dice相似系数为{}".format(dice2))

3.3 medpy.metric.binary.jc(result, reference)

计算两个图像中二值对象间的Jaccard系数,下面通过两种方式计算

  • 直接调用第三方库函数计算jaccard系数
%%timeitfrom medpy.metric.binary import jcimport jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=tup,minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=tup,minval=0,maxval=4)# 直接计算Jaccard相似系数jaccard=jc(predict,ground_truth)print("Jaccard相似系数为{}".format(jaccard))

  • 通过Dice系数和Jaccard系数的如下关系推导计算

J a c c a r d = D i c e 2 − D i c e Jaccard=\frac{Dice}{2-Dice}\nonumber Jaccard=2DiceDice

%%timeitfrom medpy.metric.binary import dcimport jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=tup,minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=tup,minval=0,maxval=4)# 通过Dice相似系数推导Jaccard相似系数dice=dc(predict,ground_truth)jaccard=dice/(2-dice)print("通过Dice相似系数推导Jaccard相似系数为{}".format(jaccard))

  • 对比两种计算结果、源代码实现、运行效率可知,两种方式结果一样但通过Dice系数推导Jaccard系数运行效率更高,其原因是将一个统计非零值的 O ( n ) O(n) O(n)时间复杂度的函数替换成了 O ( 1 ) O(1) O(1)时间复杂度的简单推导。

3.4 medpy.metric.binary.hd(result,reference,voxelspacing=None,connectivity=1,)

计算两个图像中二值对象之间的(对称)豪斯多夫距离(HD)。它被定义为对象之间的最大表面距离。

%%timeitfrom medpy.metric.binary import hd,hd95import jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=(50,50),minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=(50,50),minval=0,maxval=4)# 计算豪斯多夫距离hausdorff_distance=hd(predict,ground_truth)print("豪斯多夫距离为{}".format(hausdorff_distance))

3.5 medpy.metric.binary.hd95(result,reference,voxelspacing=None,connectivity=1,)

计算两个图像中二值对象之间的(对称)豪斯多夫距离 (HD) 的第 95 个百分位数。与豪斯多夫距离相比,该指标对于小异常值稍微稳定一些,通常用于生物医学分割挑战。

%%timeitfrom medpy.metric.binary import hd,hd95import jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=(50,50),minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=(50,50),minval=0,maxval=4)# 计算95%豪斯多夫距离hausdorff_distance95=hd95(predict,ground_truth)print("95%豪斯多夫距离为{}".format(hausdorff_distance95))

3.6 medpy.metric.binary.recall(result, reference)

返回召回率

%%timeitfrom medpy.metric.binary import recallimport jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=(50,50),minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=(50,50),minval=0,maxval=4)# 计算召回率/灵敏度/真阳性率sensitivity=recall(predict,ground_truth)print("召回率/灵敏度/真阳性率为{}".format(sensitivity))

3.7 medpy.metric.binary.sensitivity(result, reference)

返回灵敏度,内部实现直接调用recall

%%timeitfrom medpy.metric.binary import sensitivityimport jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=(50,50),minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=(50,50),minval=0,maxval=4)# 计算召回率/灵敏度/真阳性率recall=sensitivity(predict,ground_truth)print("召回率/灵敏度/真阳性率为{}".format(recall))

3.8medpy.metric.binary.true_positive_rate(result, reference)

返回真阳性率,内部实现直接调用recall

%%timeitfrom medpy.metric.binary import true_positive_rateimport jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=(50,50),minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=(50,50),minval=0,maxval=4)# 计算召回率/灵敏度/真阳性率sensitivity=true_positive_rate(predict,ground_truth)print("召回率/灵敏度/真阳性率为{}".format(sensitivity))

3.9medpy.metric.binary.specificity(result, reference)

返回特异度

%%timeitfrom medpy.metric.binary import specificityimport jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=(50,50),minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=(50,50),minval=0,maxval=4)# 计算特异度/真阴性率tnr=specificity(predict,ground_truth)print("特异度/真阴性率为{}".format(tnr))

3.10medpy.metric.binary.true_negative_rate(result, reference)

返回真阴性率

%%timeitfrom medpy.metric.binary import true_negative_rateimport jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=(50,50),minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=(50,50),minval=0,maxval=4)# 计算特异度/真阴性率specifity=true_negative_rate(predict,ground_truth)print("特异度/真阴性率为{}".format(specifity))

3.11medpy.metric.binary.precision(result, reference)

返回精确度

%%timeitfrom medpy.metric.binary import precisionimport jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=(50,50),minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=(50,50),minval=0,maxval=4)# 计算精确度/阳性预测值Precision=precision(predict,ground_truth)print("精确度/阳性预测值为{}".format(Precision))

3.12 medpy.metric.binary.positive_predictive_value(result, reference)

返回阳性预测值

%%timeitfrom medpy.metric.binary import positive_predictive_valueimport jax.numpy as numpyfrom jax import random# 设置伪随机数种子rng1=random.PRNGKey(1)rng2=random.PRNGKey(2)# 定义预测结果和真实标记数组predict=random.randint(key=rng1,shape=(50,50),minval=0,maxval=4)ground_truth=random.randint(key=rng2,shape=(50,50),minval=0,maxval=4)# 计算精确度/阳性预测值ppv=positive_predictive_value(predict,ground_truth)print("精确度/阳性预测值为{}".format(ppv))

3.13 medpy.io.save(arr, filename, hdr=False, force=True, use_compression=False)

使用“hdr”中编码的信息将图像“arr”保存为文件名。目标图像格式由“文件名”后缀确定。如果“force”参数设置为 true,以静默方式覆盖已存在的映像。否则将引发错误。

import osfrom medpy.io import load,save# 文件夹路径和文件名dirname="/dataset/RSNA_ASNR_MICCAI_BraTS2021_TrainingData_16July2021/BraTS2021_00000/"basename="BraTS2021_00000_seg.nii.gz"full_path=os.path.join(dirname,basename)# 加载脑肿瘤标记图像返回图像数据数组和头部信息image_data, image_header = load(full_path)# 将图像数据保存为BraTS2021_00000_seg.niisave(image_data,"BraTS2021_00000_seg.nii")

4.参考文献

  • MedPy — MedPy 0.4.0 documentation (loli.github.io)
  • Sørensen–Dice coefficient
  • Jaccard index
  • Hausdorff distance
  • Precision and recall
  • Sensitivity and specificity
  • Confusion matrix