1.本发明涉及医学检测技术领域,具体为基于肠道微生物的胆管癌非侵入性标志物筛选、分析方法及应用。
背景技术:2.胆管癌(cca)是常见的肝脏第二大恶性肿瘤,占原发性肝癌的10%-20%,在过去40年里发病率不断上升。cca解剖定位困难,细胞稀少,发病隐匿,不易早期检测。且cca生长快速,易通过淋巴和血液循环早期转移,因此患者通常在第一次确诊时已进展为终末期cca,存活率低于5%,严重影响着公众健康。手术切除和组织活检仍是cca的主要治疗方案和检测选择。目前常用于检测cca的生物标志物,如ca199、cea、影像学特征等均不能达到理想的早期检测效果。这种cca诊断的血清肿瘤标志物ca19-9、cea等,假阳性率与假阴性率均偏高;影像学诊断准确率不高;有创操作,患者接受度低,现有无创检测方法准确率低。
3.因此,迫切需要开发一种灵敏度高、特异性强的无创检测工具,用于cca的早期检测。
4.现有技术中国专利申请号为cn202011341383.0的发明专利公开的方案只能针对胆管癌患者和非癌症(胆石症患者)中进行区分,实际上局限性较大,并不能直接从健康人群中进行区分,因此检测分析效果实际上还不能覆盖更广泛的检测范围。
技术实现要素:5.针对现有技术存在的不足,本发明的目的在于提供一种基于肠道微生物的胆管癌非侵入性标志物筛选、分析方法及应用,能够通过无创的方式进行检测,并且能够直接对健康人群的样本进行检测。
6.为实现上述目的,本发明提供了如下技术方案:一种基于肠道微生物的胆管癌非侵入性标志物筛选方法,
7.s1获取胆管癌粪便样本和健康粪便样本;
8.s2筛选两组间显著丰度差异的微生物,并根据种属相对丰度差异作为筛选条件筛选出多种菌群属标志物。
9.作为本发明的进一步改进,s2中菌群属的数量为三种,分别为faecalibacterium,ruminococcus,burkholderia-caballeronia-paraburkholderia。
10.作为本发明的进一步改进,s1还对获得的粪便样本进行dna提取和16srrna基因测序:用kit提取细菌基因组,对原核小亚基rrna基因的v3-v4区用进行扩增,使用agilent 2100bioanalyzer对扩增子库进行测序,illumina
′
s library quantification kit用于评估扩增子库的大小和数量,样本在illumina novaseq平台进行测序。
11.作为本发明的进一步改进,s1还包括生物信息学分析:使用qiime2软件包对原始
读取数据进行分析,根据fqtrim,对raw data进行质量过滤,以获得clean data,以100%相似性对clean data进行聚类得到feature,dada2软件用于过滤测序读数并构建特征表和特征序列,物种注释的序列比对由blast完成,比对数据库为silva和nt-16s。
12.作为本发明的进一步改进,s1还包括数据分析:利用α多样性,β多样性评估样本的总体差异,样本的α多样性由chao1、observed species、goods_coverage、shannon和simpson指数描述,β多样性通过主坐标分析计算。
13.作为本发明的进一步改进,s2中微生物的筛选通过stamp筛选两组间显著丰度差异的微生物共24个,通过随机森林算法筛选影响力最大的20个菌群,将两组数据交叉后筛选出差异最显著且影响力最强的菌群属,并根据种属相对丰度差异fdr<0.001作为筛选条件筛选出3种菌群属faecalibacterium,ruminococcus,burkholderia-caballeronia-paraburkholderia。
14.一种基于肠道微生物的胆管癌非侵入性标志物分析方法,包括
15.s3获取上述任一一项所述的多种菌群属标志物;
16.s4根据多种菌群属建立随机森林树模型;
17.s5通过随机森林树模型分析获得roc曲线及其可信区间,并根据该roc曲线及其可信区间获得样本分析结果。
18.作为本发明的进一步改进,s4具体使用r软件和参数为method=
′
cv
′
,number=10,classprobs=t,summaryfunction=twoclasssummary,savepredictions=
′
final
′
;森林书模型参数method=
′
rf,tunelength=4,metric=
′
roc
′
,trcontrol=fitcontrol的随机森林软件包caret,
19.构建随机森林模型-b-f-r模型,并利用该模型对验证组进行预测,决策树预测样本为“cca”,设置的参数预测为:proximity=t,norm.votes=t,predict.all=true。
20.作为本发明的进一步改进,s5中roc曲线下面积为0.973。
21.一种基于肠道微生物的胆管癌非侵入性标志物的应用,将上述任一意向所述的多种菌群属标志物根据决策树比率计算患者率指数后用于对cca检测分析。
22.本发明的有益效果,根据16s rrna测序方法对大量cca患者的肠道微生物组成进行分析,筛选出差异于健康人群的多个微生物种属,并据此成功构建b-f-r属模型用于cca早期诊断,提示了将肠道微生物作为非侵袭性生物标志物用于早期诊断cca的可能性,并为临床诊断提供了一种新的潜在方法。本方法采取患者粪便标本信息进行无创检测,患者接受度高,且模型预测准确率高。
附图说明
23.图1为本发明的rarefaction curve达到一个平台说明样本测序深度足够;
24.图2为本发明的cca患者与健康对照粪便样本测序结果的α多样性分析;
25.图3为本发明的cca患者与健康对照粪便样本测序结果的β多样性分析;
26.图4为本发明的cca患者与健康对照粪便样本中差异丰度显著的微生物属;
27.图5为本发明的cca患者与健康对照粪便样本中影响力较大的微生物属;
28.图6为本发明的模型内包含的微生物burkholderia-caballeronia-paraburkholderia,faecalibacterium和ruminococcus_1在cca患者和健康对照之间分布
的density curve图;
29.图7为本发明的roc曲线显示b-f-r属模型的有效鉴别诊断能力,auc为0.973。
具体实施方式
30.下面将结合附图所给出的实施例对本发明做进一步的详述。
31.参照图1-7所示,
32.一种基于肠道微生物的胆管癌非侵入性标志物的筛选方法,包括:
33.1.样本收集:收集53例胆管癌患者和40例健康人群的粪便样本,对粪便样本进行16s rrna基因测序;同时收集所有受试者的人口统计学数据;
34.2.dna提取和16s rrna基因测序:用kit(d4015,omega,inc.,usa)提取细菌基因组,对原核(细菌和古细菌)小亚基(16s)rrna基因的v3-v4区用进行扩增,使用agilent 2100bioanalyzer(agilent,美国)对扩增子库进行测序,illumina
′
s library quantification kit(kappa bioscience,美国)用于评估扩增子库的大小和数量,样本在illumina novaseq平台进行测序(图1);
35.3.生物信息学分析:使用qiime2软件包对原始读取数据进行分析,根据fqtrim(v0.94),在特定的过滤条件下对raw data进行质量过滤,以获得clean data,以100%相似性对clean data进行聚类得到feature(特征),dada2软件用于过滤测序读数并构建特征表和特征序列,物种注释的序列比对由blast完成,比对数据库为silva和nt-16s;
36.4.数据分析:利用α多样性,β多样性(pcoa)评估样本的总体差异,样本的α多样性由chao1、observed species、goods_coverage、shannon和simpson指数描述(图2),β多样性通过主坐标分析(pcoa)计算(图3);
37.5.用stamp(v2.1.3)筛选两组间显著丰度差异的微生物共24个(图4、图5),通过随机森林算法筛选影响力最大的20个菌群。将两组数据交叉后筛选出差异最显著且影响力最强的菌群属,并根据种属相对丰度差异fdr<0.001作为筛选条件筛选出3种菌群属faecalibacterium,ruminococcus,burkholderia-caballeronia-paraburkholderia用于后续随机森林树模型构建。
38.为了阐明粪便微生物组对早期肝癌的诊断价值,我们构建了一个能够特异性鉴定早期cca样本的随机森林区分模型。根据dada2特征表和特征序列,我们将人群随机分为训练组及验证组,并提取上述三个属细菌的相对丰度(表1,图5)。
39.40.[0041][0042]
表1:三个属细菌的相对丰度及统计学差异
[0043]
6.使用r软件3.0.2和随机森林软件包caret(具体参数为method=
′
cv
′
,number=10,classprobs=t,summaryfunction=twoclasssummary,savepredictions=
′
final
′
;森林书模型参数method=
′
rf,tunelength=4,metric=
′
roc
′
,trcontrol=fitcontrol),来构建随机森林模型(b-f-r模型),并利用该模型对验证组进行预测,决策树预测样本为“cca”,设置的参数预测为:proximity=t,norm.votes=t,predict.all=true。进一步通
过proc绘制其roc曲线及其可信区间。roc曲线(图6)证明该模型roc曲线下面积达0.973(95%ci=0.932-1.0)。
[0044]
一种基于肠道微生物的胆管癌非侵入性标志物的应用,所述胆管癌的测定方法如下:
[0045]
1.采集受检者的粪便标本进行16s rrna基因测序,获取3个肠道菌群属的相对丰度;
[0046]
2.根据决策树比率计算患病率指数,用于患者cca早期诊断,实现cca的早期筛查、早期诊断和早期治疗。
[0047]
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。