Excel改变了你的基因名,30% Nature文章受影响

EXCEL是常用的查看表格的工具,提供了很好的数据筛选、绘图等功能,不少基因表达数据也会在EXCEL中打开查看、筛选和排序。还有 3 个超赞的 EXCEL 插件,让你 5 分钟从小白变大神

但是EXCEL也会出现比较尴尬的事情,如基因名字的转换。比如gene symbols SEPT2 (Septin 2)、MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase], Oct4 (Pou5f1) 会被转为2-Sep1-Mar4-Oct. RIKEN 识别符因为E的存在会被识别为科学计数法,如2310009E13转为2.31E+13

这一事情在2014年的BMC Bioinformatics上就有报道。下图所示12个月份开头的基因名字都不可逆的转换为了日期。

这些数据不只是存在于Excel表中,还威胁到了公共数据库,如NCBI LocusLink。

2016年Genome biology对2005-2015期间发表在18个杂志的文章附表中基因名字做了分析,发现Nature中有附表的文章里面,有30%以上出现了EXCEL引起的基因名字转换错误,受影响的文章有74篇,影响的基因1375个。并且出现基因名字转换错误的附表错误的文章逐年增加,这一定程度上也是因为大规模基因研究的迅速开展使得总上传的附件数增多引起的。

并且作者还做了相关性分析,影响因子越高,受影响的基因列表比例越大。这可能是因为高影响力的文章涉及了更多的数据集。

BMC bioinformatics虽然首先提出这个问题,后续受影响比例也比较大,有政策,无实施。

为此,Eric A. Welsh特意开发了一款工具阻止此类转换,提供了在线版本,Excel插件,Perl脚本和Galaxy访问接口,也是煞费苦心。软件发布在Github上,https://github.com/pstew/escape_excel,文章发表在Plos One

Excel插件也很好安装,下载解压,escape_excel-master\release\2017-06-28\EscapeExcelAddin目录中有setupEscapeExcel.exe, 双击安装即可。

这个插件可以解决以下几种问题,解决方式是在原字符串前加上=,并用"括起。(只在最开始加个'看上去也可以解决问题,没细看作者为啥采用相对复杂的方式)。但是转换后的数据在使用EXCEL的函数时需要注意匹配方式的变化。

常见受影响基因列表

  • 2310009E13
  • FEB2
  • MAR1
  • DEC1
  • 2310009E13
  • OCT4
  • APR1
  • SEP2
  • SEP-1
  • FEB1–FEB11
  • MARCH1–MARCH11
  • SEPT1–SEPT14

生信分析中经常会做的根据基因名字提取序列、表达量和注释,都会受到这些名字转换的影响,也会受到另外一个常见的换行符的影响^M,所以做分析需要谨慎、谨慎、再谨慎。一定多检查结果是否前后一致。

除了要求细心之外,还要求有一定的程序基础,可以从多个角度查看、验证和解决问题,保证一致性。

市面上Linux和Python的课程很多,但真正面向生物数据和生物信息分析的不多。近来频频收到不少朋友说看了我们的生信程序视频课开窍了、入门了,对程序基础的应用理解更深了,我们的课程在http://bioinfo.ke.qq.com/可以获取,欢迎更多朋友观看。

  1. https://www.nature.com/articles/ng.3690
  2. http://blogs.nature.com/naturejobs/2017/02/27/escape-gene-name-mangling-with-escape-excel/
  3. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-5-80
  4. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0185207
  5. http://www.theallium.com/biology/scientific-community-capitulates-microsoft-officially-changes-gene-names-dates/
CHENTONG
版权声明:本文为博主原创文章,转载请注明出处。
alipay.png WeChatPay.png

CHENTONG

CHENTONG
积微,月不胜日,时不胜月,岁不胜时。凡人好敖慢小事,大事至,然后兴之务之。如是,则常不胜夫敦比于小事者矣!何也?小事之至也数,其悬日也博,其为积也大。大事之至也希,其悬日也浅,其为积也小。故善日者王,善时者霸,补漏者危,大荒者亡!故,王者敬日,霸者敬时,仅存之国危而后戚之。亡国至亡而后知亡,至死而后知死,亡国之祸败,不可胜悔也。霸者之善著也,可以时托也。王者之功名,不可胜日志也。财物货宝以大为重,政教功名者反是,能积微者速成。诗曰:德如毛,民鲜能克举之。此之谓也。

生信宝典文章集锦

生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题。但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程序。也许你可以跟着一个测序分析流程完成操作,但不懂得背后的原理,不知道什么...… Continue reading

Linux下文件夹时间戳和权限问题

Published on January 07, 2019

转录组专题分析(含单细胞)开课啦

Published on December 30, 2018