癌症组织特异性基因怎么找?这是个不错的开始。
组织特异性基因(Tissue-specific Genes)是指在不同类型的细胞中特异性表达的基因,其调节细胞特异的形态结构或生理功能。组织特异性基因的表达是理解生物学过程、生理环境和疾病产生的关键,对TissGenes的研究将有助于深入了解致病机制和特异性治疗靶点,同时可以促进对临床相关的突变基因的发现。
关于TissGDB
Tissue-specific Gene DataBase in cancer (TissGDB),由德州医学中心Zhao Zhongming教授实验室开发,年初发表于NAR杂志,是存储了癌症中组织特异性基因的数据库。
为了获得可靠的TissGenes,整合了三个代表性组织特异性基因表达数据库,分别是人类蛋白质图谱(HPA)、组织特异性基因表达和调节(TiGER)、基因型组织表达(GTEx),获得与28种癌症相关的22种组织类型,最终选择了2461个至少能在上述三种数据库的两个中检索到的TissGenes,以确保组织表达的特异性,为癌症和相关疾病研究提供了参考资源。
检索方式
- 在搜索框中输入Gene symbol、Entrez gene ID、UniProt accession进行索引
- 根据癌症类型进行搜索
编号 | 英文缩写 | 中文名 |
---|---|---|
1 | ACC | 腺样囊性癌 |
2 | BLCA | 膀胱癌 |
3 | BRCA | 乳腺癌 |
4 | CESC | 宫颈鳞状细胞癌 |
5 | COAD | 结肠癌 |
6 | ESCA | 食管癌 |
7 | GBM | 脑癌 (胶质母细胞瘤) |
8 | KICH | 肾嫌色细胞癌 |
9 | KIRC | 肾透明细胞癌 |
10 | KIRP | 乳头状肾细胞癌 |
11 | LAML | 骨髓癌 |
12 | LGG | 脑胶质瘤 |
13 | LIHC | 肝癌 |
14 | LUAD | 肺腺癌 |
15 | LUSC | 肺鳞状细胞癌 |
16 | OV | 卵巢癌 |
17 | PAAD | 胰腺癌 |
18 | PCPG | 肾上腺癌 |
19 | PRAD | 前列腺癌 |
20 | SARC | 软组织癌 |
21 | SKCM | 皮肤癌 |
22 | STAD | 胃癌 |
23 | TGCT | 睾丸癌 |
24 | THCA | 甲状腺癌 |
25 | THYM | 胸腺癌 |
26 | UCEC | 子宫内膜癌 |
27 | UCS | 子宫癌 |
28 | UVM | 眼癌 |
- 根据组织类型进行搜索
编号 | 英文名 | 中文名 |
---|---|---|
1 | Adrenal_Gland | 肾上腺 |
2 | Bladder | 膀胱 |
3 | Bone_Marrow | 骨髓 |
4 | Brain | 脑 |
5 | Breast | 乳房 |
6 | Cervix | 子宫 |
7 | Colon | 结肠 |
8 | Eye | 眼睛 |
9 | Kidney | 肾 |
10 | Liver | 肝 |
11 | Lung | 肺 |
12 | Ovary | 卵巢 |
13 | Pancreas | 胰腺 |
14 | Prostate | 前列腺 |
15 | Skin | 皮肤 |
16 | Soft_Tissue | 软组织 |
17 | Stomach | 胃 |
18 | Testis | 睾丸 |
19 | Thymus | 胸腺 |
20 | Thyroid_Gland | 甲状腺 |
21 | Uterus | 子宫 |
22 | Esophagus | 食道 |
- 根据疾病所在染色体号进行搜索
检索结果
以TMPRSS2基因为例来看一看如何解读检索结果。
TMPRSS:自1988年发现第一个TMPRSS基因,至今已发现十余个家族基因,并且发现该基因的突变会引起耳聋、癌症(如前列腺癌症、卵巢腺瘤、乳腺癌、胰腺癌等)、贫血等疾病的产生。
下面是检索结果页面,点击Symbol号进入基因详情页面。
详情展示分为7部分,蓝色字体可点击跳转对应信息。具体见下:
1. TissGeneSummary
该部分展示了基因的基本信息(如Symbol号、别名、基因组位置);与基因表达、信号通路、调节机制相关的信息,蓝色字体与各数据库相关联,同时展示了基因的组织和癌症类型以及相关的PubMed文章。
2. TissGeneExp
该部分根据基因的表达量进行了各种注释。
2.1 基因在28种癌症类型中的表达情况,X轴是28种癌症类型,Y轴是经过标准化计算后的基因表达值
由图可知TMPRSS2基因在前列腺癌(PRAD)、肾嫌色细胞癌(KICH)和结肠癌(COAD)中的表达相对较高。这个图如果能按照表达量排序会看着更为清楚。
2.2 基因在28种癌症类型中异构体表达情况,X轴是28种癌症类型,Y轴是经过标准化计算后的基因表达之值,不同颜色代表不同类型的异构体。可以看到TMPRSS2有一个转录本只在PRAD癌症中显著表达。这个转录本有可能成为潜在的检测标记物。同一基因不同剪接体有不同的表达和功能是拓展已有基因功能研究的很好的路子。
2.3 根据GETx数据库展示了基因在正常组织中的表达值(仅展示与28种癌症相关组织类型),X轴是组织类型,Y轴是经过标准化计算后的基因表达之值
发现TMPRSS2基因在前列腺(Prostate)、胰腺(Pancreas)和胃(Stomach)中的表达较高。这样把癌症和正常割裂开来看,对判断致癌性意义不大。
2.4 展示了基因在14种不同癌症类型中的表达情况,以在正常组织中的表达量作为对照,X轴是癌症类型,Y轴是经过标准化计算后的基因表达之值。
直观展示了TMPRSS2基因在14中不同癌症类型中相对于正常组织的上下调表达情况。
发现该基因在头颈部鳞状细胞癌(HNSC)、肾透明细胞癌(KIRC)、乳头状肾细胞癌(KIRP) 癌组织中的表达量相对正常组织显著下调,而在前列腺癌(PRAD)、肾嫌色细胞癌(KICH) 中的表达量明显高于正常组织中的表达量。这个图如果再能附加一个统计检验p-value就更好了。
2.5 TMPRS2基因在不同癌症类型中显著差异表达情况,筛选标准 Log2(fold change)绝对值>1 and FDR<0.05。
3. TissGene-miRNA
在28种癌症类型中,TissGene相关的显著抗性miRNA
4. TissGeneMut:TissGeneSNV, TissGeneCNV, and TissGeneFusions
4.1 TissGeneSNV
每个基因座的单核苷酸位点变异(SNV)统计,不同颜色代表不同的癌症类型,圆圈大小表示样本数多少
由图可知,不同癌症中,TMPRSS2基因DNA序列的不同位置发生核苷酸变异。这个图只能看个大概,具体还是到TCGA的官网查看更清晰。TCGA数据库使用。
TissGene的28种癌症类型的体细胞核苷酸变体,X轴是癌症类型,X轴括号中的数字表示具有突变的样本数(nsSNV),Y轴是突变样品的百分比
基因在不同组织中的不同突变类型,按突变频率排列。
4.2 TissGeneCNV
展示了TMPRSS2基因在28种癌症类型中的基因拷贝数变异(CNV),X轴是癌症类型,Y轴是不同拷贝变异类型所占的比例
4.3 TissGeneFusions
在肿瘤发生时,经常会发生基因组水平的断裂和重新拼接。当两个基因分别断成两半,并且发生了错误拼接时,就有可能形成新的基因片段,这就叫做融合基因。大多数情况下,融合基因可以导致异常序列或功能的蛋白质的产生,或者某些基因表达的失调,从而导致或促进肿瘤的发生。该表即展示了包含TMPRSS2基因的融合基因类型。融合基因因为本身不在正常细胞中出现,是绝好的检测和治疗靶点。
5. TissGeneNet
蛋白互作构成了细胞生化反应网络的一个主要组成部分,对调控细胞及其信号有重要意义。研究蛋白互作一是可以验证两个蛋白之间是否存在相互作用,二是筛选某个感兴趣蛋白的互作蛋白。
该部分基于蛋白质-蛋白质相互作用数据(CePIN)的共表达基因网络,展现了与TMPRSS2基因相关的不同癌症类型中的蛋白互作情况,正常组与癌症组织蛋白互作网络的差异有助于找到感兴趣的目标蛋白。
这个通过Cytoscape或R都可以绘制,见network3D 交互式网络生成和新出炉的Cytoscape视频教程。
6. TissGeneProg
通过对数秩检验,展现了TMPRSS2基因相关的28种癌症类型中的 Kaplan-Meier 总生存率曲线(overall survival, OS)和无复发生存率曲线(relapse free survival, RFS)。R语言学习 - 非参数法生存分析。
根据95%的置信区间绘制的28种癌症类型中总生存和无复发生存的风险率,括号中n是样本量,中括号中的数值是风险率的区间,圆圈标出的是预估最可能的风险率。从图中可见,TMPRSS2对大多数疾病的风险影响不大。
7. TissGeneClin: TissGeneDrug and TissGeneDisease
TissGeneDrug :针对该基因,治疗癌症的药物信息
TissGeneDisease:与该基因相关的疾病信息
这个数据库整体看是信息比较全的数据库,可以作为我们了解一个基因的初始。但其可视化和细节展示方面做得并不太好,一方面我们自己做项目时引以为戒,另一方面也需要配合更多数据库去解读结果。
这是个不错的开始。