前言
NCBI BLAST(Basic Local Alignment Search Tool)是由美国国家生物技术信息中心(NCBI)开发的一个深受生物信息学研究者青睐的基因序列比对工具。作为生物序列信息比对的行业标准,BLAST可用于分析核酸(DNA 和 RNA)以及蛋白质序列。本工具的核心功能是识别给定序列(查询序列)与数据库中最相似的序列,因此在基因注释、功能预测和分子进化研究中具有不可替代的作用。BLAST 提供了多种版本以满足不同类型的分析任务,如:
- blastp:用于蛋白质序列与蛋白质数据库的比对。
- blastx:用于将核酸序列翻译成蛋白质后与蛋白质数据库进行比对。
- tblastn:用于将蛋白质序列与翻译后的核酸数据库进行比对。
- tblastx:用于将两个核酸序列同时翻译成蛋白质后进行比对。
- BLAST的输出包括比对的序列、比对的统计评分(如E值)、比对的开始和结束位置等信息。该工具可以通过NCBI的在线平台使用,也可以下载本地版本用于分析大规模数据。
BLAST的输出包含了比对的序列以及各种统计评分(如E值)和比对的起始、终止位置等信息。用户可以通过NCBI的在线平台或者下载本地版本来分析大规模的数据。在此介绍BLAST的安装步骤,帮助配置好该工具以便开始后续的分析工作
安装步骤
wx_gzh: 猪猪的乌托邦
1. 检查系统架构
使用命令:uname -m
,如果输出是 x86_64,表示系统是 x64 架构,或者是 aarch64,表示系统是 ARM 64 位架构。
2. 获取最近版本信息
可以在这个地址查看最新发布版本:https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
或者使用命令行:
curl -s ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | grep "linux.tar.gz$"
图中框选部分对应不同的系统架构
3. 下载并写入环境变量
# 检查系统架构
arch=$(uname -m)
echo "System architecture: $arch"# Define NCBI BLAST version from previous check
ncbi_blast_version='2.16.0' # Replace with latest version number# Download NCBI BLAST tarball 注意对应的系统架构,我的是 x64
wget "ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/${ncbi_blast_version}/ncbi-blast-${ncbi_blast_version}+-x64-linux.tar.gz"# Extract NCBI BLAST tarball
tar -xzvf "ncbi-blast-${ncbi_blast_version}+-x64-linux.tar.gz"# Add NCBI BLAST programs to PATH
echo "export PATH=\"$PATH:/your/directory/ncbi-blast-${ncbi_blast_version}+/bin\"" >> ~/.bashrc
source ~/.bashrc
注意:将 /your/directory 替换为提取 BLAST+ 的实际路径
4. Verification
验证是否正确安装:
blastn -version
如果成功了,终端输出使用方法,如果遇到“command not found”的错误,请确保:
- 在 .bashrc 等配置文件中正确设置了 PATH
- 已运行 source ~/.bashrc 或重启您的终端
- 安装目录具有正确的权限
- 系统架构是兼容的(对于标准发行版为 x86_64)
其他安装方式
如果有 root 权限
# Ubuntu/Debian:
sudo apt-get install ncbi-blast+# CentOS/RHEL:
sudo yum install blast
后记
通过以上步骤,可以顺利安装并验证 NCBI BLAST工具。作为一个强大的序列比对工具,BLAST在生物信息学研究中扮演着重要角色。接下来,可以根据实际的研究需求,使用BLAST进行序列比对、基因注释或分子进化分析。无论是通过命令行操作,还是在编写自动化分析脚本中使用BLAST,它都能够帮助我们更高效地从海量的生物序列数据中获取有价值的信息。如果在安装和使用过程中遇到问题,欢迎交流经验