该项目已经在英国境内采集40至69岁人群中50万份志愿者的基因信息和血液样本、生活方式及环境暴露数据,并跟踪记录他们之后数十年的健康医疗档案信息。
二、UKBiobank数据库有哪些重要信息?
1、流调数据
(2)环境因素。调查问卷考虑了大量潜在的环境暴露,选择被认为是常见疾病影响的指标,这些问题包括当前住址、出生时的居住地、职业和其他工作场所因素、被动吸烟暴露、室内空气污染和使用手机频率。
(3)饮食习惯。主要是包括食物频度问卷、24小时饮食回忆和多天饮食回忆问卷。
(4)参与体育活动情况。主要是体力活动强度(剧烈、适度),体育活动频率,关于常见久坐活动的问题也被纳入。
(5)心理和认知状态。在心理状态方面,调查问卷的方法是在标准化问卷的基础上评估心理特质和情绪,并记录影响心理症状的严重事件及其医学表现。
2、体格检查
身体测量指标。当志愿者完成问卷后,接下来会进行一系列的身体测量过程,包括血压(和脉搏)、身高、体重、腰围、臀围、握力、肺活量、骨密度数据。
3、生物样本检测、组学检测
4、电子医疗记录数据
UKBiobank数据库大样本、前瞻性、精细化的特点
这项数据库中,包含有大量的疾病数据。见下图:
三、UKBiobank申请流程
研究者在申请UKBiobank研究数据和生物样本前,需在UKBiobank官方网站注册一个AccessManagementSystem(AMS)账号。
在AMSLogin页面中,点击「SignuptoaccessUKBiobankresources」按钮,进入Signup页面。
需要特别注意的是,因为国内服务器限制的原因,reCAPTCHA验证通常加载不出来,这时候可以通过委托国外的朋友或使用一些插件来解决。
在申请提交后,会出现提示页面,表示申请正在审核,正常情况下需3~5个工作日。
四、UKBiobank研究资源检索
注册成功后,即可在AMSLogin页面(图2)中输入Uesrname和Password登陆。
「Showcase」一栏是对UKBiobank数据的展示,研究者可通过所需的数据字段对数据库进行检索。
这些类别包括:
1)Populationcharacteristics,人口特征,这个类别包含参与者的一般特征数据。
2)UKBiobankAssessmentCentreUKB评估中心,这一类别包含了评估中心收集的信息,并根据评估的类型(如触屏、语言面试、身体测量、生物采样)被分为子类别。
3)Biologicalsamples,生化样本,该类别包含UKB在评估中心采集后收到的生物样本的类型和数量信息(样本清单),以及进行的测定及其结果。
4)Genomics,基因组信息,UKB目前包含以下基因组数据,488,000名参与者的基因型及其填充数据,5万参与者的外显子组序列,50名参与者的全基因组序列。
5)Onlinefollow-up,在线的随访数据,此类别包含基于UKB使用在线问卷进行的额外评估的信息。
6)Additionalexposures,额外的暴露因素,这一类别包含基于在评估中心以外进行的其他评估的信息。
这七个大的类别下面还有小的类别,小的类别还可以分更小的类别,有三个level的数据。
当然,也可以直接进行搜索,通过UKB官方网站进入DataShowcase,点击Search,进入Search界面。
但是如何寻找我们感兴趣的数据呢,使用Category前提是需要我们知道感兴趣的数据的类别,比如我们想知道UKB数据中是否含有VitaminD的数据,我们需要知道VitaminD是生化指标,一般是从血液中检测,血液又属于生物样品类别,因此我们直接找到Browse里面的Biologicalsamples数据集,这个数据集又包括了Bloodassays、Salivaassays和Urineassays数据,在这里我们就知道应该从Bloodassays数据集寻找数据Bloodbiochemistry,在这个数据集中,我们最终找到了VitaminDaliquot(FieldID30890),VitaminDassaydate(30891),VitaminDcorrectionlevel(30893),VitaminDcorrectionreason(30894),VitaminDmissingreason(30895)和VitaminDreportability(30896)。最后我们根据FieldID号(后面会再次介绍)在自己数据中就能定位到数据了。
UKB数据使用介绍
当我们通过UKB的申请后,会收到一封包含32字符MD5校验和64字符的电子邮件,UKB中的数据都是保存在一个安全的在线存储库中,所有标准数据下载后必须解密并转换成合适的格式才能使用。
第一步,需要下载三个帮助程序来解密和转换数据,“ukbmd5”,“ukbunpack”,和“ukbconv”。这些程序可以从UKB主网站的DataShowcase中的download下载,帮助程序可以选择Windows系统跟Linux系统下版本。但是使用Windows系统的研究者来说,需要使用命令提示符窗口下运行(可以使用Windows+R进入,但是路径需要跟三个帮助程序下载的位置保持一致),Linux系统需要在终端运行命令。除了上述的三个帮助程序外,在ukbconv转换数据过程中,还需要一个“encoding.ukb”的文件用于将编码定义分配给数据集中的变量,这个文件是兼容Windows跟Linux系统的,这个文件也需要跟上面的帮助程序在一个文件中。
第三步,数据解密和转换过程,如果是选用的Windows系统的,需要进入命令提示符窗口,然后进入到帮助程序及加密数据集所在的目录下(cd+位置信息),接下来需要验证加密数据集的完整性,输入命令ukbmd5filename(加密数据集名字),运行此命令时产生的MD5的值应该与通过电子邮件提供的MD5值相同。如果值不同,则应删除文件并重新下载数据。当加密数据集通过验证后,接下来需要ukbunpack程序进行加密数据集的解密和解压为一个自定义的UKB格式,所用到的命令是1,ukbunpackinputfilekeyvalue,其中keyvalue表示来自通知电子邮件的64个字符的密码。命令2,ukbunpackinputfilekeyfile,keyfile是包含密码的纯文本文件的名称。默认情况下,下载的文件命名为“ukbN”。,其中N是整数(申请号)。将解压缩此名称的文件以生成“ukbN.enc_ukb”。
到这一步,我们已经有了基本的数据,利用ukbconv程序(ukbconvinputfileformat)可以将此数据集“ukbN.enc_ukb”转换为各种标准格式,例如csv,docs,sas,stata,r等数据格式,便于利用相应的软件进行后续处理分析,另外如果申请的数据量非常大的话,而分析只是用到一部分数据的话,我们还可以从ukbN.enc_ukb数据中提取用到的一部分数据,所用到的命令是ukbconvinputfileformatflagfile-ID,Flag,主要是包括:
1)-i后面跟一个txt文件,这个文件是一个每行都有一个字段Field-ID号的txt文件(例如VitaminD30890),需要提取的数据的Field-ID号都放进这个txt文件中,最终提取的数据就是含有这个txt的Field-ID的数据集。
2)–x,但是-x是原始文件中去除掉所在txt文件标注的Field-ID号,提取剩余的数据。
3)–o,为输出文件指定一个替代名称。
4)–e,指定要从其它文件中提取编码信息的,默认是“encoding.ukb”。由于原始文件一般很大,提取数据非常耗时,因此我们一般是从Linux系统中进行提取数据,用到的命令如图七,
图七,Linux系统下进行数据的提取
如何申请UKbiobank的研究数据和生物样本?
在了解数据和样本的基本情况后,若要下载使用数据和样本,则需进行申请。
全部填写完成后点击「Submitform」即可提交申请。
在申请中要注意,研究者需明确是否仅申请研究数据还是需要申请生物样本或与参与者重新联系,后两者的申请需经过更严格的科学性或伦理性审查。
申请的数据或样本不是免费提供,费用取决于所批准的研究项目需要的数据和样本量的大小。
需要注意的是,在研究者提交申请后,UKBiobank管理团队的审核委员会会分小组对每一份申请进行科学性审查,最终确定批准或拒绝申请。
小结
随着大数据时代的到来,基于大样本人群的研究对于医学的发展和促进人群健康具有重要的意义。而对于医学科研工作者来说,UKBioBank数据是不可多得的宝贵资源。