本期推荐的是2024年发表在BRIEFINGS IN BIOINFORMATICS(IF:7.2)的一篇文章,文章题目为:利用TCGA数据集进行乳腺癌分期的综合生物信息学和机器学习分析 

1、解读文章核心内容

本研究基于 TCGA乳腺癌队列,结合生物信息学分析与机器学习算法,系统筛选乳腺癌关键差异基因、分子调控网络及潜在治疗靶点,并构建高精度分期预测模型。研究鉴定出 MYH2、MYL1、MYL2、MYH7 等核心枢纽基因,以及 YY1、FOXC1 等关键调控因子,揭示细胞骨架重塑、细胞黏附等生物过程在乳腺癌发生发展中的重要作用。Random Forest 和 XGBoost 模型可准确预测乳腺癌分期,为乳腺癌精准诊断和个体化治疗提供了新的生物标志物和智能预测工具。


2、研究设计(多组学分析)

  • TCGA数据库(1224例):差异表达分析(DEGs)
  • GO/KEGG富集分析:解析关键生物过程和信号通路
  • PPI网络分析:筛选Hub基因
  • TF/miRNA调控网络:解析基因调控机制
  • 药物-蛋白互作分析:预测潜在治疗药物
  • 机器学习(RF、XGBoost、SVM等):构建乳腺癌分期预测模型

3、关键发现

① 筛选出 MYH2、MYL1、MYL2、MYH7 四个核心Hub基因。

② 差异基因主要富集于细胞骨架重塑、肌动蛋白结合、细胞黏附、肌肉收缩及Adrenergic signaling等通路。

③ 鉴定 YY1、FOXC1、FOXL1、MEF2A 等关键转录因子及 let-7家族 等miRNA调控网络。

④ 生存分析发现 ACTL8、CGA、IBSP、MUC2 与患者预后密切相关。

⑤ Random Forest 和 XGBoost 模型分期预测准确率最高分别达到 97.19%95.23%


4、促癌机制

MYH2/MYL1/MYL2/MYH7异常表达 → 调控细胞骨架重塑、细胞黏附及信号转导 → 促进乳腺癌细胞增殖、侵袭和转移;YY1、FOXC1 等转录因子及 let-7家族miRNA 共同参与基因调控,促进乳腺癌进展。


5、研究亮点

✔ 生物信息学 + 机器学习联合分析,形成完整分析流程。

✔ 构建 PPI—TF/miRNA—药物预测—机器学习 的完整证据链。

✔ 发现 MYH2、MYL1、MYL2、MYH7 等潜在诊断和治疗靶点。

✔ Random Forest 和 XGBoost 实现高精度乳腺癌分期预测,具有较好的临床应用潜力。


临床意义

MYH2、MYL1、MYL2、MYH7 有望作为乳腺癌诊断及预后生物标志物;Random Forest 和 XGBoost 分期模型可辅助乳腺癌精准诊断和个体化治疗,为临床决策提供新的工具。


总结

本研究结合生物信息学与机器学习,系统解析了乳腺癌关键分子网络,筛选出 MYH2、MYL1、MYL2、MYH7 等核心基因,并建立了高精度乳腺癌分期预测模型,为乳腺癌分子机制研究、精准诊断及个体化治疗提供了新的理论依据和潜在靶点。

结果一:差异表达基因的鉴定

先用https://www.ezygene.com/tool/exprot_sample导出BRCA的样本信息

第二步设置分组,其中第十四位和第十五为是01为肿瘤组织,11的为正常组织

https://www.ezygene.com/tool/differential_analysis_visualization

运行完成后,选择第二步,绘制火山图

提交后即可绘制上图

结果二:蛋白质-蛋白质相互作用分析

图片

先提取差异分析的基因,进string在线网站获取基因-基因的关系(https://cn.string-db.org/),然后使用cytoscape进行绘图

结果三:富集分析

https://www.ezygene.com/tool/enrich

图片

结果四:预后KM曲线

图片

https://www.ezygene.com/tool/TCGA_KM

结果五:AUC曲线(机器学习)

图片

https://www.ezygene.com/tool/multiple_diagnostic_model

图片

挨个运行一次即可

基本所有的生信分析都可以通过在线工具完成,期间需要cytoscape和一些在线工具进行辅助,这里写的比较简单,如有需要可在网站中在线联系客服处理简析基因 - EzyGene 生物信息分析平台

Logo

一站式 AI 云服务平台

更多推荐