在使用clusterProfiler包进行enrichKEGG()分析时,默认使用KEGG在线最新数据进行分析(use_internal_data = FALSE)。但由于网络因素影响,常常会出现以下情况:

如果出现这种情况,建议等网络环境比较宽松时再次运行!(晚11点之后,成功的概率比较大)

然而即使这样,也可能出现如下报错:

这种情况是由于KEGG链接原因导致的,具体解决办法建议参考生信~鱼同学的文章!(链接:http://t.csdn.cn/Y0Fg0)

在解决上面两个常见报错之后,已经可以使用clusterProfiler包和KEGG在线数据进行enrichKEGG分析了。但是笔者还是推荐使用本地已经下载的KEGG.db数据,除了不易受到网络因素影响外,还可以避免因网络端更新造成的前后结果不一致,从而保证了数据的可重复性。

KEGG.db下载方法已被广泛阐述,具体请参考:KEGG数据本地化,再也不用担心网络问题了

本文主要解决在创建KEGG.db过程中的常见报错以及推荐的解决办法:

①在安装KEGG.db之前,推荐先将clusterProfiler更新到最新版本(请注意:Bioconductor上的包并非最新版本,建议通过github下载),可参考:这个KEGG数据库注释失败可不能怪Y叔啊

devtools::install_github("YuLab-SMU/DOSE")devtools::install_github("YuLab-SMU/HDO.db") devtools::install_github("YuLab-SMU/clusterProfiler")

如果安装过程中出现无法移除已下载R包提示,进入win-library直接删除文件,再进行安装即可。

直至上述重复上述所有安装字段,都出现下面报错即可。

②安装createKEGGdb包(用于创建KEGG.db的包)

remotes::install_github("YuLab-SMU/createKEGGdb")

③下载KEGG.db数据(由于KEGG链接问题,使用R.utils::setOption(),同样参考生信~鱼同学的文章(链接:http://t.csdn.cn/Y0Fg0))

library(R.utils)R.utils::setOption("clusterProfiler.download.method",'auto')createKEGGdb::create_kegg_db('hsa')

若此处提示需要安装XX包,按提示install.packages即可(不过一般不会出现)。

④安装KEGG.db包(KEGG.db_1.0.tar.gz文件一般创建在当前工作目录,手动安装也可)

install.packages("./KEGG.db_1.0.tar.gz",type="source")

⑤安装完成后,建议检查KEGG.db是否携带Description信息。以HJ_Tan同学为例,其下载的KEGG.db缺乏Description信息(链接:http://t.csdn.cn/tcOsh)

如果缺乏Description的信息,后续做富集分析绘制图形时会报错,具体报错如下:

Error in ans[ypos] <- rep(yes, length.out = len)[ypos] Warning message:In rep(yes, length.out = len) : ‘x’ is NULL so the result will be NULL

CSDN中许多文章认为这种情况是因为筛选阈值导致的(链接:http://t.csdn.cn/22NYB),实际上是由于缺乏Description信息,barplot()等函数无法生成KEGG相关图表导致的!