UniProt是Universal Protein的(de)英文縮(suo)寫,是信(xin)息(xi)(xi)最豐(feng)富(fu)、資源最廣的(de)蛋白(bai)質數據(ju)庫(ku)。它(ta)由整合Swiss-Prot、TrEMBL和 PIR-PSD三(san)大數據(ju)庫(ku)的(de)數據(ju)而成。他的(de)數據(ju)主要來(lai)自(zi)于基因組測序(xu)項(xiang)目(mu)完(wan)成后,后續(xu)獲得的(de)蛋白(bai)質序(xu)列(lie)。它(ta)包含了大量來(lai)自(zi)文獻(xian)的(de)蛋白(bai)質的(de)生物功能的(de)信(xin)息(xi)(xi)。
UniProtKB全稱UniProt Knowledgebase(UniProt知識庫)它是(shi)經過專家校驗的(de)數據集,主(zhu)要由(you)兩部分組成:UniProtKB/Swiss-Prot(包(bao)含(han)(han)檢查過的(de)、手工(gong)注(zhu)釋(shi)的(de)條(tiao)目)和UniProtKB/TrEMBL(包(bao)含(han)(han)未校驗的(de)、自動注(zhu)釋(shi)的(de)條(tiao)目),在2010年8月是(shi)10日發布的(de)版(ban)本中,UniProtKB/Swiss-Prot包(bao)含(han)(han)519,348條(tiao)注(zhu)釋(shi)條(tiao)目,UniProtKB/TrEMBL包(bao)含(han)(han)11,636,205條(tiao)注(zhu)釋(shi)條(tiao)目。
UniProtKB/Swiss-Prot
高質(zhi)量的(de)、手工(gong)注釋的(de)、非冗(rong)余的(de)數據(ju)(ju)集;主(zhu)要來自文獻中的(de)研究成果和E-value校驗過(guo)計算分析結果。有(you)質(zhi)量保證的(de)數據(ju)(ju)才被(bei)加(jia)入該數據(ju)(ju)庫。
UniProtKB/TrEMBL
該數據(ju)集(ji)包含高質量(liang)的(de)計算(suan)分析結果,一般都在自(zi)動注釋中(zhong)富集(ji),主要應對基因組項(xiang)目獲得的(de)大量(liang)數據(ju)流以人(ren)工校驗在時間上(shang)和(he)人(ren)力上(shang)的(de)不足。他(ta)能注釋所有可用的(de)蛋白序(xu)列(lie)(lie)。在三大核酸(suan)數據(ju)庫(ku)(EMBL-Bank/GenBank/DDBJ)中(zhong)注釋的(de)編(bian)碼序(xu)列(lie)(lie)都被自(zi)動翻譯并加入(ru)該數據(ju)庫(ku)中(zhong)。它也(ye)有來(lai)自(zi)PDB數據(ju)庫(ku)的(de)序(xu)列(lie)(lie),以及Ensembl、Refeq和(he)CCDS基因預測(ce)的(de)序(xu)列(lie)(lie)。
UniParc
UniParc全稱是UniProt Archive,他是一(yi)個(ge)綜合性的(de)非冗(rong)余數(shu)據(ju)庫(ku)(ku),他包含了所有(you)主要的(de)、公開的(de)數(shu)據(ju)庫(ku)(ku)的(de)蛋白質(zhi)(zhi)序(xu)(xu)列。 由于蛋白質(zhi)(zhi)可能在不同(tong)(tong)的(de)數(shu)據(ju)庫(ku)(ku)中(zhong)存(cun)在,并且可能在同(tong)(tong)一(yi)個(ge)數(shu)據(ju)庫(ku)(ku)中(zhong)有(you)多個(ge)版(ban)本,為(wei)(wei)了去冗(rong)余,UniaraParc對每條唯(wei)一(yi)的(de)序(xu)(xu)列只存(cun)一(yi)次。無論是否為(wei)(wei)同(tong)(tong)一(yi)物種的(de)序(xu)(xu)列,只要序(xu)(xu)列相(xiang)同(tong)(tong)就被合并為(wei)(wei)一(yi)條,每條序(xu)(xu)列提供穩定的(de)、唯(wei)一(yi)的(de)編號UPI。該數(shu)據(ju)庫(ku)(ku)只含有(you)蛋白質(zhi)(zhi)的(de)序(xu)(xu)列信息,而沒(mei)有(you)注釋數(shu)據(ju)。