UniProt是Universal Protein的(de)(de)英(ying)文(wen)縮(suo)寫,是信(xin)息(xi)最豐(feng)富、資(zi)源(yuan)最廣(guang)的(de)(de)蛋(dan)白(bai)質數據(ju)庫。它(ta)由整合(he)Swiss-Prot、TrEMBL和 PIR-PSD三大數據(ju)庫的(de)(de)數據(ju)而成。他的(de)(de)數據(ju)主要來(lai)(lai)自(zi)(zi)于基因組(zu)測序(xu)項目完(wan)成后,后續獲得(de)的(de)(de)蛋(dan)白(bai)質序(xu)列。它(ta)包含(han)了大量來(lai)(lai)自(zi)(zi)文(wen)獻的(de)(de)蛋(dan)白(bai)質的(de)(de)生物功能的(de)(de)信(xin)息(xi)。
UniProtKB全稱UniProt Knowledgebase(UniProt知識庫(ku))它是(shi)經過專家校驗(yan)的(de)數據集,主(zhu)要由兩部分組(zu)成:UniProtKB/Swiss-Prot(包(bao)含(han)檢查過的(de)、手工注(zhu)釋(shi)(shi)的(de)條目)和UniProtKB/TrEMBL(包(bao)含(han)未校驗(yan)的(de)、自(zi)動注(zhu)釋(shi)(shi)的(de)條目),在2010年8月是(shi)10日發布的(de)版(ban)本中,UniProtKB/Swiss-Prot包(bao)含(han)519,348條注(zhu)釋(shi)(shi)條目,UniProtKB/TrEMBL包(bao)含(han)11,636,205條注(zhu)釋(shi)(shi)條目。
UniProtKB/Swiss-Prot
高質量(liang)的、手工(gong)注釋的、非(fei)冗余的數(shu)據(ju)集;主要來(lai)自(zi)文獻(xian)中(zhong)的研(yan)究成果(guo)(guo)和(he)E-value校驗過(guo)計(ji)算分析(xi)結果(guo)(guo)。有質量(liang)保證的數(shu)據(ju)才被加入(ru)該(gai)數(shu)據(ju)庫。
UniProtKB/TrEMBL
該數據(ju)集(ji)包含高(gao)質量的(de)計算分析(xi)結果(guo),一般都在自(zi)動(dong)(dong)注釋中富集(ji),主要應(ying)對基因(yin)組項目(mu)獲得的(de)大(da)量數據(ju)流以人工校驗在時間上(shang)和(he)人力上(shang)的(de)不足。他能注釋所(suo)有可(ke)用的(de)蛋白序(xu)列。在三大(da)核酸數據(ju)庫(EMBL-Bank/GenBank/DDBJ)中注釋的(de)編(bian)碼序(xu)列都被自(zi)動(dong)(dong)翻譯并加入該數據(ju)庫中。它也有來自(zi)PDB數據(ju)庫的(de)序(xu)列,以及Ensembl、Refeq和(he)CCDS基因(yin)預(yu)測的(de)序(xu)列。
UniParc
UniParc全稱是UniProt Archive,他是一(yi)(yi)個(ge)(ge)綜(zong)合(he)性的(de)非冗余數據(ju)(ju)庫(ku)(ku)(ku)(ku),他包(bao)含了所有主要的(de)、公開(kai)的(de)數據(ju)(ju)庫(ku)(ku)(ku)(ku)的(de)蛋白質(zhi)(zhi)序(xu)列。 由于蛋白質(zhi)(zhi)可(ke)能在(zai)不同的(de)數據(ju)(ju)庫(ku)(ku)(ku)(ku)中(zhong)存(cun)在(zai),并(bing)且可(ke)能在(zai)同一(yi)(yi)個(ge)(ge)數據(ju)(ju)庫(ku)(ku)(ku)(ku)中(zhong)有多個(ge)(ge)版本,為了去冗余,UniaraParc對每條唯一(yi)(yi)的(de)序(xu)列只(zhi)存(cun)一(yi)(yi)次。無論是否(fou)為同一(yi)(yi)物種(zhong)的(de)序(xu)列,只(zhi)要序(xu)列相同就(jiu)被合(he)并(bing)為一(yi)(yi)條,每條序(xu)列提(ti)供穩定的(de)、唯一(yi)(yi)的(de)編號UPI。該數據(ju)(ju)庫(ku)(ku)(ku)(ku)只(zhi)含有蛋白質(zhi)(zhi)的(de)序(xu)列信息,而沒有注(zhu)釋(shi)數據(ju)(ju)。