答案就在 TCGA barcode ,样本标签描述了样本类型,是正常的还是异常的。还是对照组。比如胶质瘤RNAseq的bar code ,有174个样本类似于这个:
TCGA-06-0681-11A-41R-A36H-07
TCGA-06-0649-01B-01R-1849-01
第四个字段:11A和01B描述的就是样本类型,1-9是肿瘤,10-19是正常,20-29是对照。A 和 B 我也不知道啥意思。由于TCGA barcode 字段宽度是严格的。因此用substr就可提取
names=colnames(RNAseq_dat)
a=as.numeric(substr(names,14,15))
table(a)
可以看见数据中有5个是正常组织样本
----------------------
Xena 网站(网页链接)有整理好的TCGA数据,包括数据集和样本表格。样本表格数据详细,包含生存期,肿瘤分期分级,突变,亚型等等。
这种东西是看不出来是否判断与肿瘤有关的,肿瘤本身具有远端转移特性,从各个组织中都有可能存在。所以如果想要看pathway是否与肿瘤相关,就需要点进去查看相关文献,把各种蛋白摸透,才能够搞定,如果仅仅凭借go数据库的pathway来的就能判断了,世界早就和平了~多看看文献吧,加油。