<em> <h5> <strong>基于生物化学标志物的肝病预测器</strong> </h5> </em>

2021级生信数据挖掘期末作业

基于生物化学标志物预测肝病

组员:杨海燕，李金顺

2023/12

肝病背景介绍

基本背景

鉴于饮酒率、慢性肝炎感染和肥胖相关肝病的增加，肝硬化死亡人数继续增加。这种疾病的死亡率很高，病理学的早期检测是患者预后的决定因素。肝病最严重可发展为酒精肝和肝癌。肝脏是人体内最大的消化腺，帮助分解体内毒素，是人体物质能量代谢的中心站和人体最大的解毒器官，更是维持生命活动必不可少的器官。当下，由于人们生活水平的提升，饮食、环境等方面的改变，长期过量饮酒，有害气体和受污染的食物的摄入，熬夜过度等不良生活习惯增加，致使肝病患者不断增加，肝病的诊断与治疗成为医疗行业的一大重要问题。

生物化学标志物

常见的肝功能诊断中，主要包括三大类的指标：血清酶、胆红素和血清蛋白。其中，血清酶中的医学指标主要包括丙氨酸氨基转移酶、天冬氨酸氨基转移酶和碱性磷酸酶等，当肝脏细胞被破坏时，酶会被大量释放到血液中，引起指标上升。胆红素指标包括总胆红素、直接胆红素和间接胆红素等，它们反映了胆红素的代谢情况，当肝细胞变性坏死，胆红素代谢出现障碍时，胆红素指标会升高。血清蛋白指标反映了肝脏的合成功能，其包含白蛋白、球蛋白、总蛋白等，可用于检测慢性肝损伤、机体免疫等情况。将患者的医疗检测数据与预测算法相结合，有助于帮助医生更精确地做出诊断，也可减轻医生的负担。

算法介绍

机器学习分类方法

在构建模型的过程中，我们使用KNN、随机森林进行建模。以下是对各算法的总结：

KNN

KNN算法是一种基于实例的学习，或者是局部近似和将所有计算推迟到分类之后的惰性学习。用最近的邻居（k）来预测未知数据点。k 值是预测精度的一个关键因素，无论是分类还是回归，衡量邻居的权重都非常有用，较近邻居的权重比较远邻居的权重大。

KNN 算法的缺点是对数据的局部结构非常敏感。计算量大，需要对数据进行规范化处理，使每个数据点都在相同的范围。

随机森林

随机森林算法（Random Forest）的名称由 1995 年由贝尔实验室提出的random decision forests 而来，正如它的名字所说的那样，随机森林可以看作一个决策树的集合。

随机森林中每棵决策树估计一个分类，这个过程称为“投票（vote）”。理想情况下，我们根据每棵决策树的每个投票，选择最多投票的分类。

感谢观看

数据输入

liver data

Browse...

数据输入

liver data

Browse...

Choose CSV File

Browse...