生信宝典之傻瓜式(四)蛋白蛋白互作网络在线搜索
傻瓜系列重启了,今天要介绍的是一款在线查询蛋白-蛋白互作网络的工具 STRING
(https://string-db.org/)。
STRING数据库收录了2031
个物种,9.6 Million
个蛋白和1380 Million
种相互作用。
最开始知道它是用来查询蛋白-蛋白相互作用,查找关注的蛋白的调控因子。最近增加了共表达,基因组共线性,物种共存在,文本挖掘,实验验证信息等。
可以按蛋白名字搜索,也可以按序列搜索,都可以输入多个或多条,也可以按照蛋白家族或者物种浏览。
其给出的示例中有一个是Top 20 频繁突变的癌基因的搜索结果。PIK3CA, NRAS, TP53之前都存在相互作用。表观修饰的癌基因如IDH1
, DNMT3A
则与其它癌基因发现的互作少,可以是一个研究突破点。
每个点是可以拖动的,点击每个蛋白,可以查看其详细注释信息, 结构信息 (做分子对接,来一场蛋白和小分子的风花雪月, 不是原配也可以-对接非原生配体, 简单可视化-送你一双发现美的眼睛, 你需要知道的那些前奏),功能域信息,序列信息,同源基因
,还能以此基因为核心重构网络 (与其相互作用最强的基因的网络展示)等。
不同颜色的线代表相互作用确定的依据,有基于认证过的数据库
,实验验证
,基因邻近
,共表达
,同源推测
,文本挖掘
等。具体可见图下方的图例 (也可直接点击连线,各种证据一目了然)。自己输入的点是带颜色的,系统找出的点是白色的。
同时可以进行筛选,调整线型的含义,相互作用的数目,数据来源,可信度筛选, 互作点数目限制等。
增加一些相互作用,结果如下图。形成了2个子网络。右下角子网络是剪接复合体
构成的调控,可变剪接在癌症过程中的作用是研究比较火的一个点。它们与传统癌基因的研究之间形成了两个孤岛,这一现象值得深思。
这么多基因,可以做个功能富集分析,看看有什么功能偏好性 (关于富集分析,看我们之前的文章GO、GSEA富集分析一网打进和GSEA富集分析 - 界面操作)。结果跟直接看基因也比较相似,一部分是激酶,与蛋白修饰相关,一部分是剪接复合体,与剪接相关。KEGG富集的结果就更直接了,各种癌症。这些结果可以导出,再作图 (可以使用高颜值可定制在线作图工具)。
还可以根据整体的相互作用得分聚类,聚类完之后,同一个cluster的点有一样的颜色,Cluster间的连线为虚线。(做聚类前,点了两下More
增加了更多的相互作用)
网络中的基因做一个本物种和同源物种中的双重共表达分析,颜色越饱和,共表达越强。绘制热图,除了上面提到的在线工具,试试热图三部曲 热图绘制, 热图美化, 热图简化。
从物种进化角度,看哪些基因是在多个物种存在的(存在为有色块,不存在为白色块,矩形块缺角越大,说明存在越少,纯白色表示完全缺失)和保守程度(颜色越饱和越保守)。
部分癌基因TP53
, PIK3R1
只在进化程度比较高的物种中才存在,光谱调控基因如IDH1
则比较物种普遍。
还有TextMining,可以迅速获取相互作用出现在文章中的描述,方便快速阅读、筛选文章,人工判断互作的准确性,是读文章的一大利器。获取全文不放试试基于人工智能的文献检索,导师查找,更聪明,GeenMedical:文献查询、筛选、引用排序、相似文献、全文下载、杂志分区、影响因子、结果导出、杂志评述、直接投稿,一站服务。
整个网络结果可以导出为矢量图 (可以使用Adobe Illustrator修改,AI视频教程)、表格(导入Cytoscape重新绘制,关联表达数据等,Cytoscape视频教程,下周还会推出基于Cytoscape的蛋白-蛋白相互作用多库联筛)、蛋白多序列比对结果和注释结果等。
更多傻瓜系列