无参转录组分析工具评估
研究人和小鼠类似的基因组注释比较完善的物种,是比较舒服的。想用什么数据,就可以找到什么数据。不过更多的物种是没有基因组数据或基因组注释不完整的,这时想获得基因的序列,做差异基因的分析时,相比于花大价钱测基因组,测不同组织或处理条件下的转录组是一个物美价廉的选择。既可以获得基因序列,又可以获得表达水平。这时就需要用到转录组的重头组装分析。
前面的文章39个转录组分析工具,120种组合评估,转录组分析不再纠结中,比较了39个常用转录组分析工具包括序列比对、序列拼装、基因表达定量和基因差异分析工具,评估出了最优的分析组合。
在同一篇Nature Communication文章中,还对无参转录组分析工具进行了评估,包括Trinity
、Oases
和SOAPdenovo-Trans
。
不同的从头转录组组装技术性能比较。a.转录本长度的分布。不同的颜色块表示对转录本长度的分类。横轴为不同长度的转录本的数目统计。这个图用直方图可能更清晰。b. 转录本长度N10-N50值的分布。不同的从头转录组组装技术性能比较。a.转录本长度的分布。b. N10-N50值。c. 不同表达百分位数的ExN50值。与b图不同,c图是把用于评估拼装工具对低表达转录本和高表达转录本的敏感度。横轴表示样品的表达量分组,从左至右为top 10%,top 20%,…, top 90%, top 100% (全部基因)。纵轴为不同表达集合的基因的N50值。
评估结果表明:
- Trinity往往预测出更长的亚型、更多的基因和转录本,但许多转录本比较散。
- 在所有样品中,Oases获得了最高的N10-N50值,表明在检测长的亚型方面具有优势。
- SOAPdenovo-Trans在高表达基因的位置有一个峰 (较小的表达百分位数),表明它可以更好地检测高表达转录本。
- Oases在图c的最右侧N50值较高,表明可以有效检测低表达基因。
无参转录组常见分析流程和结果解释
这些都是在转录本长度水平做的评估。在实际应用中,转录本拼装也不一定是越长越好,而是拼装的越完整越好,后续进行基因克隆时才会更方便。
根据我们的经验,一个完整的无参转录组分析需要包括下面几部分内容,测序质量评估,拼装质量评估,基因功能注释,表达定量,样品重复性评估,差异基因鉴定,功能富集分析,共表达基因筛选。
测序质量的评估具体见NGS基础 - FASTQ格式解释和质量评估。
拼装质量
拼装质量评估包括前面提到的拼装长度的评估
真核生物有248
个极其保守的基因,评估拼装出的转录本对这些基因的覆盖状态,是评估拼装是否完整的一个方式。如下表所示,拼装的转录本包含了91%
的完整的真核保守基因;如果考虑部分匹配,则覆盖了99%
的真核保守基因。
拼装的基因与SwissProt数据库中已经注释的基因的匹配百分比。一般认为匹配度越高,越有可能拼装出的为全长序列。
拼装的基因编码框的完整性和编码的蛋白的完整性。预测编码的蛋白时不只考虑了完整读码框,还考虑到由于拼接的不完整导致只拼出部分编码序列,但根据同源比对,也可以翻译出蛋白。这样提高了能鉴定出的蛋白的比例。
基因功能注释
功能注释比较常见的是注释到Gene Ontology
,从整体看拼装出的基因的功能分布。
注释到TrEMBL、Pfam、KEGG和SwissProt数据库的基因的数目
转录因子的家族注释
样品重复性评估和聚类
单个样品的重复性一般从比对reads数的比较,不同样品基因表达的线性比较 (MA-plot),样品间Pearson相关系数的计算等。
样品整体的聚类,不同样品之间,同一样品不同重复之间的相关性比较。
主成分分析
差异基因图谱
差异基因的鉴定一般使用edgeR
(基于Count的差异基因鉴定工具的评估也在前文有过比较分析),常用的表示方式是MA-plot和火山图。
另外一个就是样品特异的表达热图了。
功能富集分析
功能富集分析对于查看差异基因的功能分布,指导下一步的研究具有重要意义。
表达模式聚类分析
同样表达模式的基因可能参与到同样的功能通路里面,是预测未知基因功能的一个方式。在这个图除了展示相同变化模式(正相关)的基因,还选择了相反变化模式(负相关)的基因。这个也可以利用Cytoscape绘制正负相关网络图。
图形绘制
上面提到的图形都可以通过往期的脚本进行绘制
- R语言学习 - 入门环境Rstudio
- R语言学习 - 入门环境Rstudio
- R语言学习 - 热图绘制 (heatmap)
- R语言学习 - 基础概念和矩阵操作
- R语言学习 - 热图简化
- R语言学习 - 热图美化
- R语言学习 - 线图绘制
- R语言学习 - 线图一步法
- R语言学习 - 箱线图(小提琴图、抖动图、区域散点图)
- R语言学习 - 箱线图一步法
- R语言学习 - 火山图
- R语言学习 - 富集分析泡泡图 (文末有彩蛋)
- R语言学习 - 散点图绘制
- 一文看懂PCA主成分分析
- 富集分析DotPlot,可以服
- R语言学习 - 韦恩图
- R语言学习 - 柱状图
寻求帮助
转录组拼装对计算资源的要求是比较大的,尤其是内存资源,一般内存的消耗与数据量是1:1的关系。即如果测序了200 G的数据,拼装需要200 G的内存。同一个物种的测序为了最大限度的拼装质量,一般采用混合拼装的方式。后续的分析也需要不断地调整。
现在社会的发展越来越强调专人专事,这么繁琐的事情就交给我们来做吧,质优价廉,在分析时间、速度和质量上都能最大化效益。
生信宝典,换个角度学生信
生信宝典,生物信息学习系列教程,转录组,宏基因组,外显子组,R作图,Python学习,Cytoscape视频教程
http://mp.weixin.qq.com/s/d1KCETQZ88yaOLGwAtpWYg