PSP – 使用 MMseqs2 工具快速搜索蛋白质序列数据库 (GMGC)

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/131934642

MMseq2 是非常强大和高效的生物信息学软件，可以在极短的时间内对大规模的核苷酸和蛋白质序列进行搜索和聚类。主要特点有：

使用一种新颖的序列比对算法，可以在保持高灵敏度的同时，大幅提高搜索速度。它可以比 BLAST 快 10000 倍，比 PSI-BLAST 快 400 倍。
可以处理多种序列格式，包括 FASTA, FASTQ, A3M, Stockholm 等，还可以直接从 NCBI 下载序列数据，或者从 UniProt, Pfam, InterPro 等数据库中获取预构建的序列集。
提供了多种搜索模式，包括序列对序列，序列对数据库，数据库对数据库，以及配置文件对配置文件，还支持多种搜索参数，例如最小序列相似度，最大 E 值，最小覆盖率等。
可以对搜索结果进行聚类分析，根据序列相似度将序列分为不同的类别。使用了一种贪心算法，可以在线性时间内完成聚类任务。还可以生成聚类结果的可视化报告。
开源软件，使用 GPL 许可协议。它用 C++ 编写，适用于 Linux, MacOS 和 Windows 平台。它可以在多核和多服务器上并行运行，并具有很好的可扩展性。

Paper：MMseqs2: sensitive protein sequence searching for the analysis of massive data sets

GitHub：MMseqs2: ultra fast and sensitive sequence search and clustering suite

超快速、灵敏的序列搜索和聚类套件

参考文档：MMseqs2 User Guide

1. 数据库

数据库的 FASTA 文件：virus4/gmgc.fa

数据库下载，60G，参考 MSA DB – GMGC：

全球微生物基因目录（The Global Microbial Gene Catalog）是一个集成的、一致处理的、涵盖微生物世界的基因目录，结合宏基因组学和高质量的分离株序列。从 13,174 个宏基因组（覆盖 14 种生境）和完整的 ProGenomes2 数据库中，共有 23 亿个开放阅读框（ORFs）按照 95% 的核苷酸同源性进行聚类，构建了一个包含 3.0265 亿个单基因（unigenes）的目录。

数据如下：

>GMGC10.033_133_404.UNKNOWN|built-environmentMKGLVVTGLTVAFGFVAYEKLTYVVDVVKHLIA>GMGC10.026_381_531.UNKNOWN|built-environmentMIWRSGRFAAVALQRKPPVGWAGNLVQPEKLRV>GMGC10.013_658_495.UNKNOWN|built-environmentMMNKMKSNKFFNTMGMVLSALIDAKAVATTLNK

设置 BOS 命令：

alias bos='bcecmd/bcecmd --conf-path bcecmd/bceconf/ bos'

2. 配置 MMseqs2

安装 MMseqs2：

conda install -c conda-forge -c bioconda mmseqs2

版本号 13.45111：

conda list mmseqs2# packages in environment at miniconda3/envs/torch-def:## NameVersion BuildChannelmmseqs2 13.45111 h95f258a_1bioconda

配置 ~/.bashrc，即：

if [ -f miniconda3/envs/torch-def/util/bash-completion.sh ]; thensource miniconda3/envs/torch-def/util/bash-completion.shfi

测试命令：mmseqs，输出信息。

默认命令顺序：

mmseqs createdb examples/DB.fasta targetDBmmseqs createindex targetDB tmpmmseqs easy-search examples/QUERY.fasta targetDB alnRes.m8 tmp

3. 构建索引

构建 mmseqs 索引：

mmseqs createdb data/gmgc.fa gmgc.db # 耗时较长mmseqs createindex gmgc.db tmp

搜索 MSA：

mmseqs easy-search QUERY.fasta gmgc.db alnRes.m8 tmp

createdb的日志：

createdb gmgc.fa gmgc.db MMseqs Version: 13.45111Database type 0Shuffle input databasetrueCreatedb mode 0Write lookup file 1Offset of numeric ids 0Compressed0Verbosity 3Converting sequences[294700023] 10m 36s 322msTime for merging to gmgc.db_h: 0h 1m 45s 892msTime for merging to gmgc.db: 0h 3m 52s 379msDatabase type: AminoacidTime for processing: 0h 27m 40s 149ms

createdb的输出：

gmgc.dbgmgc.db.dbtypegmgc.db_hgmgc.db_h.dbtypegmgc.db_h.indexgmgc.db.indexgmgc.db.lookupgmgc.db.sourcegmgc.fa

createindex的日志：

indexdb gmgc.db gmgc.db --seed-sub-mat nucl:nucleotide.out,aa:VTML80.out -k 0 --alph-size nucl:5,aa:21 --comp-bias-corr 1 --max-seq-len 65535 --max-seqs 300 --mask 1 --mask-lower-case 0 --spaced-kmer-mode 1 -s 7.5 --k-score 0 --check-compatible 0 --search-type 0 --split 0 --split-memory-limit 0 -v 3 --threads 232 Target split mode. Searching through 5 splitsEstimated memory consumption: 691GWrite VERSION (0)Write META (1)Write SCOREMATRIX3MER (4)Write SCOREMATRIX2MER (3)...Time for merging to gmgc.db.idx: 0h 0m 0s 523msTime for processing: 0h 27m 43s 883ms

4. 搜索序列

搜索 MSA，以 T1157s1_A1029.fasta 为例，使用 mmseqs 进行搜索，即：

mmseqs easy-search T1157s1_A1029.fasta virus4/gmgc/gmgc.db alnRes.m8 tmp

输出日志，默认 -s 5.7：

A very fast search would use a sensitivity of -s 1.0, while a very sensitive search would use a sensitivity of up to -s 7.0

...createdb T1157s1_A1029.fasta tmp/15503592239095911252/query --dbtype 0 --shuffle 1 --createdb-mode 0 --write-lookup 0 --id-offset 0 --compressed 0 -v 3 Converting sequencesTime for merging to query_h: 0h 0m 14s 960msTime for merging to query: 0h 0m 3s 422msDatabase type: AminoacidTime for processing: 0h 0m 22s 843msCreate directory tmp/15503592239095911252/search_tmpsearch tmp/15503592239095911252/query virus4/gmgc/gmgc.db tmp/15503592239095911252/result tmp/15503592239095911252/search_tmp --alignment-mode 3 -s 5.7 --remove-tmp-files 1...

搜索出的结果 alnRes.m8，包括 450 条搜索结果，如下：

A GMGC10.285_640_775.MNL1|built-environment 0.483 954 493 0 39992 1 954 2.234E-258832A GMGC10.241_341_405.MNL1|soil0.569 657 280 0 3 659 55705 1.592E-232756A GMGC10.275_542_093.MNL1|human-skin0.615 348 127 0 179 526 2 333 7.241E-130454A GMGC10.302_382_477.MNL1|human-gut 0.393 592 290 0 22613 1 478 1.668E-109393A GMGC10.233_643_273.MNL1|soil0.613 320 120 0 141 451 1 320 2.039E-107387A GMGC10.291_266_275.MNL1|human-gut 0.362 544 286 0 7 550 36484 7.208E-96 351A GMGC10.295_625_477.MNL1|human-skin0.801 212 420 71282 1 212 2.547E-94 347A GMGC10.230_501_499.MNL1|soil0.632 280 100 0 90362 3 282 3.678E-93 343A GMGC10.053_306_367.MNL1|human-gut 0.360 546 297 0 7 552 25489 2.928E-92 340A GMGC10.284_538_017.MNL1|built-environment 0.365 529 292 0 22550 1 461 1.359E-85 320

即，搜索完成。

5. 配置 Small BFD 库

AF2 官网：https://github.com/deepmind/alphafold

安装下载工具：

apt-get install aria2

下载文件 small_bfd：

mkdir small_bfdcd small_bfd/# 下载文件aria2c https://storage.googleapis.com/alphafold-databases/reduced_dbs/bfd-first_non_consensus_sequences.fasta.gzgunzip bfd-first_non_consensus_sequences.fasta.gz

文章版权归作者所有，未经允许请勿转载。

THE END