乳腺癌良恶性分类器



组员:付琰嫱,洪霏彤,黄永恒

指导老师:李静

算法介绍

机器学习分类方法

在构建模型的过程中,我们使用决策树、KNN、SVM、随机森林进行建模。以下是对各算法的总结:


决策树(ctree)

决策树(Decision Trees)可用于回归和分类任务。

在这一算法中,训练模型通过学习树表示(Tree representation)的决策规则来学习预测目标变量的值。树是由具有相应属性的节点组成的。

在每个节点上,我们根据可用的特征询问有关数据的问题,左右分支代表可能的答案。最终节点(即叶节点)对应于一个预测值。每个特征的重要性是通过自顶向下方法确定的,节点越高,其属性就越重要。

KNN

KNN算法是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居(k)来预测未知数据点。k 值是预测精度的一个关键因素,无论是分类还是回归,衡量邻居的权重都非常有用,较近邻居的权重比较远邻居的权重大。

KNN 算法的缺点是对数据的局部结构非常敏感。计算量大,需要对数据进行规范化处理,使每个数据点都在相同的范围。

SVM

支持向量机/网络算法(SVM)属于分类型算法。SVM模型将实例表示为空间中的点,将使用一条直线分隔数据点。需要注意的是,支持向量机需要对输入数据进行完全标记,仅直接适用于两类任务,应用将多类任务需要减少到几个二元问题。

随机森林

随机森林算法(Random Forest)的名称由 1995 年由贝尔实验室提出的random decision forests 而来,正如它的名字所说的那样,随机森林可以看作一个决策树的集合。

随机森林中每棵决策树估计一个分类,这个过程称为“投票(vote)”。理想情况下,我们根据每棵决策树的每个投票,选择最多投票的分类。

乳腺组织活检

诊断 | 什么是乳腺组织活检?

“您这种情况需要做个穿刺!”

这是很多患者在临床中会遇到的一种情况。


通常由于乳腺X光(即钼靶)或者彩超检查结果异常、触诊发现乳房肿块、腋窝淋巴结肿大,或乳头变化(例如皮肤凹陷、增厚)等情况,医生可能会建议您进行活检以确认或排除乳腺癌。

那这个“穿刺”具体是指什么呢?

这时的“穿刺”指的是:乳腺组织活检,包括取出乳腺的组织或细胞样本,并检测它们的性质(比如良性/恶性肿瘤或者炎症等)

为什么要做乳腺组织活检呢,别的检测方法不能代替吗?
的确是的,在医学发展日新月异的今天,组织病理活检仍然是诊断的“金标准”!通过组织病理活检,我们能够彻底了解长在乳房里面的那些异常病灶究竟是良性还是恶性。

乳腺组织活检——细针穿刺活检

在细针穿刺活检中,乳腺科医生会使用非常细的针头和注射器从肿块中吸出一些细胞。

如果这个“肿块”事实上是个囊肿,那么医生可以将囊肿内的液体吸出,此时囊肿即可消失。

FNAB是一种经皮手术,这意味着医生将针头穿过皮肤到达要所需采样的区域。FNAB中使用的针头通常使用10ml的注射器,通常会在局麻后进行。为了保证穿刺的准确性以及安全性,一般会在超声的引导下进行,将针引导到正确的位置,这是超声引导下的活检。

接下来,实验室分析人员在显微镜下检查液体或细胞,以确定是否存在癌细胞。如果样品由透明液体组成,则很有可能来自良性囊肿,而没有癌细胞。浑浊或带血的液体可能来自良性或癌性囊肿。


我们采用机器学习的方法识别癌细胞,协助医生诊断患者的肿瘤状态,提高诊断效率,减少漏诊和误诊,提高患者的治愈率和生存率

数据探索——展示均值特征的数据情况

直方图

异常值

多变量相关性散点矩阵图

数据标准化