开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2024.12.11湖北
▼
Kraken2适用于大规模宏基因组分析,其性能受到参考数据库选择和置信度参数设定的直接影响。2024年7月,《aBIOTECH》发表研究论文,系统评估了不同参考数据库和置信度参数对Kraken2分类性能的影响。
综合参考数据库与中等CS(0.2或0.4)相结合可显著提高分类准确性和灵敏度。
由于此项研究基于模拟数据集,需要使用样本量更大的真实数据集进一步验证这些结果。此外,对强大计算资源的有限访问可能对某些研究人员来说是一个重大障碍,阻止他们有效利用大型参考数据库。因此,这种限制可能会影响研究建议的普遍性,因为它们可能不适用于资源有限的环境。在现实世界的研究中选择参考数据库和CS的最佳组合时,还应考虑计算资源和特定的科学问题。
在本研究中,研究人员使用已知细菌组成的模拟数据集系统地研究了参考数据库和CS的选择对分类率、精确度、召回率、F1评分的影响,以及“真实”和“估计”相对丰度之间的差异。
01
对分类率的影响
当使用Minikraken和Standard-16数据库时,分类率随着CS的增加而急剧下降,当CS超过0.4时,没有reads可以被分类。相比之下,当CS值为1.0并使用nt、Standard和GTDBr202数据库时,有相当多的序列可以被分类。CS为0时,使用Minikraken数据库的分类率最低。当CS值为0.2、0.4或0.6时,使用Standard、nt和GTDBr202数据库的分类率高于其他两个数据库。当CS值为0.8或1.0时,nt数据库的分类率高于除标准数据库外的其他数据库。
使用模拟宏基因组数据集对Kraken2中不同参考数据库(AMinikraken;BStandard-16;CStandard;Dnt;EGTDBr202)和置信度得分(0、0.2、0.4、0.6、0.8和1.0)分类的reads比例。
02
对精确度、召回率和F1分数的影响
在门和种水平上,Standard、nt和GTDBr202数据库的分类精度随着CS的增加而显著提高,但当CS为0.6或更高时,Minikraken和Standard-16数据库的分类精确度降至0。当CS为0时,Standard-16数据库在门和种水平上的分类精度更高。当CS在门和种水平上为0.2或0.4时,GTDBr202数据库的分类精度较低。当CS为0.6或0.8时,Standard、nt和GTDBr202数据库在门水平上的分类精度没有差异,但在种水平上,GTDBr202数据库的分类精度低于nt数据库。当CS为1.0时,在门和种水平上使用Standard、nt或GTDBr202数据库,分类精度没有差异。
在谱系和物种水平上,当使用Standard、nt或GTDBr202数据库时,或者当CS分别为0、0.2和0.4时使用Minikraken和Standard-16数据库时,分类的召回不受CS的影响。然而,对于Minikraken和Standard-16数据库,当CS高于0.4时,分类召回率降至0。在门水平上,当CS为0、0.2或0.4时,使用不同数据库的分类召回率没有显著差异,而当CS为0.6、0.8或1.0时,使用Standard、nt或GTDBr202数据库的分类召回率也没有显著差异。在种层面,当CS为0或0.2时,使用Standard-16和nt数据库进行分类的召回率高于使用Minikraken数据库进行分类,而当CS为0.4或更高时,使用Standard、nt或GTDBr202数据库的召回率更高。
与分类精度相似,当使用Standard、nt或GTDBr202数据库时,F1得分随着CS的增加而增加,但当Minikraken和Standard-16数据库的门和种水平的CS为0.6或更高时,F1得分降至0。当CS为0时,使用Standard-16数据库在门和种水平上的F1得分更高。当CS在门和种水平上为0.2或0.4时,GTDBr202数据库的F1得分较低。当CS为0.6或0.8时,在门级别使用Standard、nt或GTDBr202数据库时,F1得分没有差异,但在种级别使用GTDBr202数据库时,其F1得分低于使用nt数据库时的得分。当CS为1.0时,在门和种水平上使用Standard、nt或GTDBr202数据库,F1评分没有差异。
使用不同数据库(Minikraken、Standard-16、Standard、nt和GTDBr202)和置信度分数(0、0.2、0.4、0.6、0.8和1.0)在门(A)和种(B)级别进行分类的精确度、召回率和F1分数。
03
对计算出的细菌相对丰度
与真实相对丰度之间差异的影响
用kraken2对不同数据库和CS的真实数据集进行分类后,分类细菌的组成和相对丰度出现了变化。在门和种水平上,细菌的计算相对丰度与真实相对丰度之间的差异随着CS的增加而显著增大,但在门水平上使用标准数据库时除外。在任何CS条件下使用Minikraken数据库,以及在门和种水平的CS均为0.6或更高时使用Standard-16数据库,两者之间的差异明显增大。
在不同数据库(Minikraken、Standard-16、Standard、nt和GTDBr202)和置信度评分(0、0.2、0.4、0.6、0.8和1.0)下分类的细菌组成和相对丰度与门(A)和种(B)水平的真实数据集进行了比较。
在不同数据库(Minikraken、Standard-16、Standard、nt和GTDBr202)和置信度评分(0、0.2、0.4、0.6、0.8和1.0)中计算的细菌门相对丰度(log10转换)与细菌门真实相对丰度(log10转换)之间的差异。
在不同数据库(Minikraken、Standard-16、Standard、nt和GTDBr202)和置信度评分(0、0.2、0.4、0.6、0.8和1.0)中计算的细菌物种的相对丰度(log10转换)与细菌物种的真实相对丰度(log10转换)之间的差异。