UniProt是Universal Protein的英文(wen)縮寫,是信息(xi)最(zui)豐富、資(zi)源最(zui)廣的蛋(dan)白(bai)質(zhi)數(shu)據(ju)庫。它由整(zheng)合Swiss-Prot、TrEMBL和 PIR-PSD三大數(shu)據(ju)庫的數(shu)據(ju)而(er)成。他的數(shu)據(ju)主(zhu)要(yao)來自于(yu)基因組測序項(xiang)目完成后(hou),后(hou)續獲得的蛋(dan)白(bai)質(zhi)序列。它包(bao)含了大量(liang)來自文(wen)獻(xian)的蛋(dan)白(bai)質(zhi)的生物功能的信息(xi)。
UniProtKB全稱(cheng)UniProt Knowledgebase(UniProt知識庫)它是經過(guo)專家校驗的(de)(de)數據集,主要由兩部分組成:UniProtKB/Swiss-Prot(包含(han)(han)檢查過(guo)的(de)(de)、手工注釋(shi)的(de)(de)條(tiao)目(mu))和UniProtKB/TrEMBL(包含(han)(han)未(wei)校驗的(de)(de)、自動注釋(shi)的(de)(de)條(tiao)目(mu)),在(zai)2010年8月是10日發布的(de)(de)版本中,UniProtKB/Swiss-Prot包含(han)(han)519,348條(tiao)注釋(shi)條(tiao)目(mu),UniProtKB/TrEMBL包含(han)(han)11,636,205條(tiao)注釋(shi)條(tiao)目(mu)。
UniProtKB/Swiss-Prot
高質量(liang)(liang)的(de)、手工(gong)注釋的(de)、非冗余(yu)的(de)數據(ju)集;主(zhu)要來自文(wen)獻中的(de)研究成果和(he)E-value校驗過計(ji)算(suan)分析結果。有質量(liang)(liang)保證(zheng)的(de)數據(ju)才被加入該數據(ju)庫。
UniProtKB/TrEMBL
該(gai)數(shu)據(ju)(ju)集包含高質量的(de)計算分(fen)析結果,一(yi)般都在(zai)自動注釋中(zhong)富(fu)集,主要應對基(ji)因(yin)(yin)組(zu)項目獲得的(de)大(da)量數(shu)據(ju)(ju)流以人工(gong)校驗(yan)在(zai)時間(jian)上和(he)(he)人力上的(de)不足。他能注釋所有可用的(de)蛋(dan)白序(xu)列。在(zai)三大(da)核酸數(shu)據(ju)(ju)庫(ku)(EMBL-Bank/GenBank/DDBJ)中(zhong)注釋的(de)編碼(ma)序(xu)列都被自動翻譯并加入該(gai)數(shu)據(ju)(ju)庫(ku)中(zhong)。它(ta)也有來自PDB數(shu)據(ju)(ju)庫(ku)的(de)序(xu)列,以及Ensembl、Refeq和(he)(he)CCDS基(ji)因(yin)(yin)預測的(de)序(xu)列。
UniParc
UniParc全(quan)稱是UniProt Archive,他是一(yi)(yi)個綜合性的(de)非冗余數(shu)(shu)據(ju)庫(ku),他包(bao)含了(le)所有主要的(de)、公開的(de)數(shu)(shu)據(ju)庫(ku)的(de)蛋白質序(xu)列。 由于蛋白質可(ke)能在不同(tong)的(de)數(shu)(shu)據(ju)庫(ku)中存在,并且(qie)可(ke)能在同(tong)一(yi)(yi)個數(shu)(shu)據(ju)庫(ku)中有多個版本,為了(le)去冗余,UniaraParc對每條(tiao)(tiao)唯(wei)一(yi)(yi)的(de)序(xu)列只(zhi)存一(yi)(yi)次。無論是否為同(tong)一(yi)(yi)物(wu)種的(de)序(xu)列,只(zhi)要序(xu)列相同(tong)就被合并為一(yi)(yi)條(tiao)(tiao),每條(tiao)(tiao)序(xu)列提供穩定的(de)、唯(wei)一(yi)(yi)的(de)編(bian)號UPI。該數(shu)(shu)據(ju)庫(ku)只(zhi)含有蛋白質的(de)序(xu)列信(xin)息,而沒有注釋(shi)數(shu)(shu)據(ju)。