NCBI RefSeq参考序列常见问题

1,什么是参考序列RefSeq?

NCBI的参考序列(RefSeq)计划,为多种生物提供序列的数据信息及相关资料,用于医学、基因功能和基因功能比较研究。RefSeq数据库中所有的数据是一个非冗余的、提供参考标准的数据,包括染色体、基因组(细胞器、病毒、质粒)、蛋白、RNA等。

2,RefSeq和genbank的数据有什么区别?

genbank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。

而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCB提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。

3,怎样引用RefSeq的数据?

以NCBI Accession NM_000001.1为例:

可以用下面的方面引用全手册:
The NCBI handbook [Internet]. Bethesda (MD): National Library of Medicine (US), National Center for Biotechnology Information; 2002 Oct. Available from http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Books

如果只引用 RefSeq的章节(Chapter 18):
The NCBI handbook [Internet]. Bethesda (MD): National Library of Medicine (US), National Center for Biotechnology Information; 2002 Oct. Chapter 18, The Reference Sequence (RefSeq) Project. Available from http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Books

4,如何访问RefSeq?

RefSeq记录可以通过各种NCBI资源来访问,包括:

BLAST Transcript, protein, and 'genomic region' (NG accessions) records are in the nucleotide and protein non-redundant databases (nr).
BLAST against larger genomic records is provided via organism-specific BLAST pages.
Entrez Gene Entrez Gene reports provide links to all categories of RefSeq records. The Gene database can be queried with a RefSeq accession number in addition to text terms - see the Gene Help documentation for detailed query tips.
Entrez Genomes Division Records representing completed genomes and chromosomes are presented on the Genomes pages.
FTP Nucleotide and protein records provided by the Entrez Genomes and RefSeq processes are available from the /refseq directory; Nucleotide and protein records that are provide by the Genome Annotation Pipeline are available in the /genomes/ directory.
Map Viewer The NCBI Map Viewer includes links to RefSeq records when the annotated genome assembly information is available.
Sequence databases RefSeq records are included in the Entrez nucleotide and protein databases. See the Entrez Query Hints for hints on formatting your query to retrieve RefSeq records.

5,RefSeq记录的特征是什么?

  • 截然不同的Accession号区别于其它的序列,前缀是两个字母加下划线('_')
  • 在Comment区域显示来源
  • 使用正式命名
  • 包括dbxrefs的特征
  • 蛋白序列在DBSOURCE区域标示 'REFSEQ'

6,在BLAST结果和在Entrez搜索结果里怎样快速地区分出那些是RefSeq?

一般返回的结果序列开头的格式都如正下面所示:

gi|4557284|ref|NM_000646.1|[4557284]

格式说明:
gi :"GenBank Identifier的缩写", 是序列的ID号,标识符。唯一的。
4557284 就是该序列的gi号
ref :标示该序列是参考序列。
NM_000646.1 该序列的Accession号和版本号

在BLAST结果中,

Score E
Sequences producing significant alignments: (bits) Value

gi|6226959|ref|NM_000014.3| Homo sapiens alpha-2-macroglobu... 9073 0.0
                    ^     ^
                     |      |
                             | 参考序列的命名格式
                     |
                     "ref" 标示这是来源于参考序列数据库

7,为什么RefSeq记录中的基因符号(symbol)有时和相关的GenBank中的不一样?

RefSeq全部使用官方基因符号。而GenBank是一个公共的序列备份库,由数据发现者提供。有的作者会向相关的物种命名委员会取得官方基因符号,但有的作者没有,所以有时会产生别名。GenBank与Pubmed相同,通过display可以选择显示格式,常用的有GenBank和FASTA两种格式。如果要对基因序列作进一步分析,FASTA格式是很好的选择。FASTA格式仅包括该序列的简要特征,并以ATGC4种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。

8,RefSeq NM_xxxxxx和GenBank Afxxxxxx看起来是重复的,哪一个将会删除?

两个都会保留。RefSeq NM_xxxxxx和GenBank Afxxxxxx看起来是重复的,但RefSeq和GenBank是分开的数据库,而且两者都是可以通过在Entrez nucleotide中输入各自的ACCESSION获得。开始时临时的RefSeq记录与GenBank记录非常相似。但是,当RefSeq记录被专家review以后,新增的序列数据、生物学注解、和参考文献常被加入。那时,RefSeq条目(即序列)代表一个来自不同实验室的综合信息,这时二者可以非常不同。

9,一开始的GenBank来源序列是如何选取的?

RefSeq记录通过以下步骤创建:

  • 确定代表不同基因的序列
  • 建立正确的基因名字到登录号的联系
  • 确定完整范围的可以获得的序列数据
  • 创建一个新的处于三种状态之一的参考序列(RefSeq)记录

10,预测的,临时的,和检查过的RefSeq记录有什么区别?

RefSeq记录是有三种可以获得的状态:预测的,临时的和检查过的(reviewd)。

检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编。它们很多都来自于GenBank记录、人类基因组命名委员会、和OMIM。RefSeq标准为人类基因组的功能注解提供一个基础。

预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区。

临时的RefSeq记录还没有被检查过。它们是有自动的程序产生的。