无参转录组工具评估和流程展示

August 31, 2017

Reading time ~1 minute

无参转录组工具评估和流程展示

无参转录组分析工具评估

研究人和小鼠类似的基因组注释比较完善的物种，是比较舒服的。想用什么数据，就可以找到什么数据。不过更多的物种是没有基因组数据或基因组注释不完整的，这时想获得基因的序列，做差异基因的分析时，相比于花大价钱测基因组，测不同组织或处理条件下的转录组是一个物美价廉的选择。既可以获得基因序列，又可以获得表达水平。这时就需要用到转录组的重头组装分析。

前面的文章39个转录组分析工具，120种组合评估，转录组分析不再纠结中，比较了39个常用转录组分析工具包括序列比对、序列拼装、基因表达定量和基因差异分析工具，评估出了最优的分析组合。

在同一篇Nature Communication文章中，还对无参转录组分析工具进行了评估，包括Trinity、Oases和SOAPdenovo-Trans。

不同的从头转录组组装技术性能比较。a.转录本长度的分布。不同的颜色块表示对转录本长度的分类。横轴为不同长度的转录本的数目统计。这个图用直方图可能更清晰。b. 转录本长度N10-N50值的分布。不同的从头转录组组装技术性能比较。a.转录本长度的分布。b. N10-N50值。c. 不同表达百分位数的ExN50值。与b图不同，c图是把用于评估拼装工具对低表达转录本和高表达转录本的敏感度。横轴表示样品的表达量分组，从左至右为top 10%，top 20%，…， top 90%, top 100% (全部基因)。纵轴为不同表达集合的基因的N50值。

评估结果表明：

Trinity往往预测出更长的亚型、更多的基因和转录本，但许多转录本比较散。
在所有样品中，Oases获得了最高的N10-N50值，表明在检测长的亚型方面具有优势。
SOAPdenovo-Trans在高表达基因的位置有一个峰 (较小的表达百分位数)，表明它可以更好地检测高表达转录本。
Oases在图c的最右侧N50值较高，表明可以有效检测低表达基因。

无参转录组常见分析流程和结果解释

这些都是在转录本长度水平做的评估。在实际应用中，转录本拼装也不一定是越长越好，而是拼装的越完整越好，后续进行基因克隆时才会更方便。

根据我们的经验，一个完整的无参转录组分析需要包括下面几部分内容,测序质量评估，拼装质量评估，基因功能注释，表达定量，样品重复性评估，差异基因鉴定，功能富集分析，共表达基因筛选。

测序质量的评估具体见NGS基础 - FASTQ格式解释和质量评估。

拼装质量

拼装质量评估包括前面提到的拼装长度的评估

真核生物有248个极其保守的基因，评估拼装出的转录本对这些基因的覆盖状态，是评估拼装是否完整的一个方式。如下表所示，拼装的转录本包含了91%的完整的真核保守基因；如果考虑部分匹配，则覆盖了99%的真核保守基因。

拼装的基因与SwissProt数据库中已经注释的基因的匹配百分比。一般认为匹配度越高，越有可能拼装出的为全长序列。

拼装的基因编码框的完整性和编码的蛋白的完整性。预测编码的蛋白时不只考虑了完整读码框，还考虑到由于拼接的不完整导致只拼出部分编码序列，但根据同源比对，也可以翻译出蛋白。这样提高了能鉴定出的蛋白的比例。

基因功能注释

功能注释比较常见的是注释到Gene Ontology，从整体看拼装出的基因的功能分布。

注释到TrEMBL、Pfam、KEGG和SwissProt数据库的基因的数目

转录因子的家族注释

样品重复性评估和聚类

单个样品的重复性一般从比对reads数的比较，不同样品基因表达的线性比较 (MA-plot)，样品间Pearson相关系数的计算等。

样品整体的聚类，不同样品之间，同一样品不同重复之间的相关性比较。

主成分分析

差异基因图谱

差异基因的鉴定一般使用edgeR (基于Count的差异基因鉴定工具的评估也在前文有过比较分析)，常用的表示方式是MA-plot和火山图。

另外一个就是样品特异的表达热图了。

功能富集分析

功能富集分析对于查看差异基因的功能分布，指导下一步的研究具有重要意义。

表达模式聚类分析

同样表达模式的基因可能参与到同样的功能通路里面，是预测未知基因功能的一个方式。在这个图除了展示相同变化模式(正相关)的基因，还选择了相反变化模式(负相关)的基因。这个也可以利用Cytoscape绘制正负相关网络图。

图形绘制

上面提到的图形都可以通过往期的脚本进行绘制

寻求帮助

转录组拼装对计算资源的要求是比较大的，尤其是内存资源，一般内存的消耗与数据量是1:1的关系。即如果测序了200 G的数据，拼装需要200 G的内存。同一个物种的测序为了最大限度的拼装质量，一般采用混合拼装的方式。后续的分析也需要不断地调整。

现在社会的发展越来越强调专人专事，这么繁琐的事情就交给我们来做吧，质优价廉，在分析时间、速度和质量上都能最大化效益。

生信宝典，换个角度学生信

http://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247484402&idx=1&sn=f214ec35ff71bc4577f884584e9c9732&chksm=ec0dc678db7a4f6e40c73a6656cd7479e4cffe603a7ed7a26ad5cca72a428c78bee152a2aaee#rd

生信宝典，生物信息学习系列教程，转录组，宏基因组，外显子组，R作图，Python学习，Cytoscape视频教程

http://mp.weixin.qq.com/s/d1KCETQZ88yaOLGwAtpWYg

生信宝典，最好的生物信息培训课程，培训课程资料

www.ehbio.com/Training

About the Author

CHENTONG

积微，月不胜日，时不胜月，岁不胜时。凡人好敖慢小事，大事至，然后兴之务之。如是，则常不胜夫敦比于小事者矣！何也？小事之至也数，其悬日也博，其为积也大。大事之至也希，其悬日也浅，其为积也小。故善日者王，善时者霸，补漏者危，大荒者亡！故，王者敬日，霸者敬时，仅存之国危而后戚之。亡国至亡而后知亡，至死而后知死，亡国之祸败，不可胜悔也。霸者之善著也，可以时托也。王者之功名，不可胜日志也。财物货宝以大为重，政教功名者反是，能积微者速成。诗曰：德如毛，民鲜能克举之。此之谓也。

Read More

生信宝典文章集锦

生信的作用越来越大，想学的人越来越多，不管是为了以后发展，还是为了解决眼下的问题。但生信学习不是一朝一夕就可以完成的事情，也许你可以很短时间学会一个交互式软件的操作，却不能看完程序教学视频后就直接写程序。也许你可以跟着一个测序分析流程完成操作，但不懂得背后的原理，不知道什么...… Continue reading

生信宝典文章集锦

Published on January 01, 2100

生信宝典文章集锦

Published on January 01, 2100