在蛋白质结构文件(如 .cif
文件)中,pdb_strand_id
和 pdbx_strand_id
不是同一个概念,它们分别指代不同的字段,具有不同的含义。
1. pdb_strand_id
:
- 这个术语通常在 PDB 数据库的老版本中使用,是指蛋白质结构中的链(chain)标识符。例如,结构中的每条多肽链都会被赋予一个字母或数字标识(如
A
,B
,C
等等)。这一标识符有时被称为“strand ID”或“chain ID”。 - 它主要出现在较早期的 PDB 格式文件(
.pdb
文件)中,代表某个特定的链。
2. pdbx_strand_id
:
pdbx_strand_id
是在 PDBx/mmCIF 文件格式中使用的字段,扩展了传统的 PDB 格式。pdbx_strand_id
与老的pdb_strand_id
类似,但它是在更复杂的结构下使用,允许更多的字符集和更灵活的命名方式。它通常出现在更现代的.cif
文件中,用来标识结构中的链。- 这个字段允许更复杂的标识符,支持更多字符种类和链标识符的扩展。
区别:
- 历史背景:
pdb_strand_id
是旧版 PDB 格式中的概念,而pdbx_strand_id
是在新的 PDBx/mmCIF 文件格式中使用的。 - 兼容性:
pdbx_strand_id
具有更多字符集的支持和更灵活的命名规则,而pdb_strand_id
受限于传统的格式。
如果你使用的是 .cif
文件格式,通常会使用 pdbx_strand_id
来表示链的标识符。
在从 PDB 数据库下载的序列文件中
(wget https://files.rcsb.org/pub/pdb/derived_data/pdb_seqres.txt.gz),链的编号通常是 pdb_strand_id
,而不是 pdbx_strand_id
。
具体解释:
pdb_seqres.txt.gz
文件是一个用于存储蛋白质和核酸序列的文件,数据来源于 PDB 的SEQRES
记录。- 在这个文件中,链的编号(即链标识符)是基于 PDB 传统格式中的
pdb_strand_id
,它主要对应的是.pdb
文件中的链标识符。 pdb_strand_id
使用的是传统的单字符(如A
,B
,C
等)或数字来标识每个蛋白质链或核酸链。
因此,在这个序列文件中,链编号与 .pdb
文件格式中的 pdb_strand_id
一致,不是 pdbx_strand_id
,因为这个文件的格式相对简单,并未采用 PDBx/mmCIF 的扩展命名规则。