2021级生信数据挖掘期末作业
基于生物化学标志物预测肝病
组员:杨海燕,李金顺
2023/12
肝病背景介绍
肝病背景介绍
基本背景
鉴于饮酒率、慢性肝炎感染和肥胖相关肝病的增加,肝硬化死亡人数继续增加。这种疾病的死亡率很高,病理学的早期检测是患者预后的决定因素。肝病最严重可发展为酒精肝和肝癌。肝脏是人体内最大的消化腺,帮助分解体内毒素,是人体物质能量代谢的中心站和人体最大的解毒器官,更是维持生命活动必不可少的器官。当下,由于人们生活水平的提升,饮食、环境等方面的改变,长期过量饮酒,有害气体和受污染的食物的摄入,熬夜过度等不良生活习惯增加,致使肝病患者不断增加,肝病的诊断与治疗成为医疗行业的一大重要问题。
生物化学标志物
常见的肝功能诊断中,主要包括三大类的指标:血清酶、胆红素和血清蛋白。其中,血清酶中的医学指标主要包括丙氨酸氨基转移酶、天冬氨酸氨基转移酶和碱性磷酸酶等,当肝脏细胞被破坏时,酶会被大量释放到血液中,引起指标上升。胆红素指标包括总胆红素、直接胆红素和间接胆红素等,它们反映了胆红素的代谢情况,当肝细胞变性坏死,胆红素代谢出现障碍时,胆红素指标会升高。血清蛋白指标反映了肝脏的合成功能,其包含白蛋白、球蛋白、总蛋白等,可用于检测慢性肝损伤、机体免疫等情况。将患者的医疗检测数据与预测算法相结合,有助于帮助医生更精确地做出诊断,也可减轻医生的负担。
算法介绍
机器学习分类方法
在构建模型的过程中,我们使用KNN、随机森林进行建模。以下是对各算法的总结:
KNN
KNN算法是一种基于实例的学习,或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居(k)来预测未知数据点。k 值是预测精度的一个关键因素,无论是分类还是回归,衡量邻居的权重都非常有用,较近邻居的权重比较远邻居的权重大。
KNN 算法的缺点是对数据的局部结构非常敏感。计算量大,需要对数据进行规范化处理,使每个数据点都在相同的范围。
随机森林
随机森林算法(Random Forest)的名称由 1995 年由贝尔实验室提出的random decision forests 而来,正如它的名字所说的那样,随机森林可以看作一个决策树的集合。
随机森林中每棵决策树估计一个分类,这个过程称为“投票(vote)”。理想情况下,我们根据每棵决策树的每个投票,选择最多投票的分类。
感谢观看
