傻瓜系列重启了,今天要介绍的是一款在线查询蛋白-蛋白互作网络的工具 STRING (https://string-db.org/)。

STRING数据库收录了2031个物种,9.6 Million个蛋白和1380 Million种相互作用。

最开始知道它是用来查询蛋白-蛋白相互作用,查找关注的蛋白的调控因子。最近增加了共表达基因组共线性物种共存在文本挖掘实验验证信息等。

可以按蛋白名字搜索,也可以按序列搜索,都可以输入多个或多条,也可以按照蛋白家族或者物种浏览。

其给出的示例中有一个是Top 20 频繁突变的癌基因的搜索结果。PIK3CA, NRAS, TP53之前都存在相互作用。表观修饰的癌基因如IDH1, DNMT3A则与其它癌基因发现的互作少,可以是一个研究突破点。

每个点是可以拖动的,点击每个蛋白,可以查看其详细注释信息, 结构信息 (做分子对接,来一场蛋白和小分子的风花雪月, 不是原配也可以-对接非原生配体, 简单可视化-送你一双发现美的眼睛, 你需要知道的那些前奏),功能域信息,序列信息,同源基因,还能以此基因为核心重构网络 (与其相互作用最强的基因的网络展示)等。

不同颜色的线代表相互作用确定的依据,有基于认证过的数据库实验验证基因邻近共表达同源推测文本挖掘等。具体可见图下方的图例 (也可直接点击连线,各种证据一目了然)。自己输入的点是带颜色的,系统找出的点是白色的。

同时可以进行筛选,调整线型的含义,相互作用的数目,数据来源,可信度筛选, 互作点数目限制等。

增加一些相互作用,结果如下图。形成了2个子网络。右下角子网络是剪接复合体构成的调控,可变剪接在癌症过程中的作用是研究比较火的一个点。它们与传统癌基因的研究之间形成了两个孤岛,这一现象值得深思。

这么多基因,可以做个功能富集分析,看看有什么功能偏好性 (关于富集分析,看我们之前的文章GO、GSEA富集分析一网打进GSEA富集分析 - 界面操作)。结果跟直接看基因也比较相似,一部分是激酶,与蛋白修饰相关,一部分是剪接复合体,与剪接相关。KEGG富集的结果就更直接了,各种癌症。这些结果可以导出,再作图 (可以使用高颜值可定制在线作图工具)。

还可以根据整体的相互作用得分聚类,聚类完之后,同一个cluster的点有一样的颜色,Cluster间的连线为虚线。(做聚类前,点了两下More增加了更多的相互作用)

网络中的基因做一个本物种和同源物种中的双重共表达分析,颜色越饱和,共表达越强。绘制热图,除了上面提到的在线工具,试试热图三部曲 热图绘制热图美化热图简化

从物种进化角度,看哪些基因是在多个物种存在的(存在为有色块,不存在为白色块,矩形块缺角越大,说明存在越少,纯白色表示完全缺失)和保守程度(颜色越饱和越保守)。

部分癌基因TP53, PIK3R1只在进化程度比较高的物种中才存在,光谱调控基因如IDH1则比较物种普遍。

还有TextMining,可以迅速获取相互作用出现在文章中的描述,方便快速阅读、筛选文章,人工判断互作的准确性,是读文章的一大利器。获取全文不放试试基于人工智能的文献检索,导师查找,更聪明GeenMedical:文献查询、筛选、引用排序、相似文献、全文下载、杂志分区、影响因子、结果导出、杂志评述、直接投稿,一站服务

整个网络结果可以导出为矢量图 (可以使用Adobe Illustrator修改,AI视频教程)、表格(导入Cytoscape重新绘制,关联表达数据等,Cytoscape视频教程,下周还会推出基于Cytoscape的蛋白-蛋白相互作用多库联筛)、蛋白多序列比对结果和注释结果等。

更多傻瓜系列