UniProt是Universal Protein的(de)(de)(de)(de)英文縮寫,是信(xin)息最豐富、資源最廣的(de)(de)(de)(de)蛋白(bai)質數(shu)(shu)據(ju)庫。它由整(zheng)合(he)Swiss-Prot、TrEMBL和(he) PIR-PSD三大(da)數(shu)(shu)據(ju)庫的(de)(de)(de)(de)數(shu)(shu)據(ju)而成。他的(de)(de)(de)(de)數(shu)(shu)據(ju)主要來(lai)自于基因組測(ce)序項目完成后(hou),后(hou)續獲得的(de)(de)(de)(de)蛋白(bai)質序列(lie)。它包含了大(da)量來(lai)自文獻(xian)的(de)(de)(de)(de)蛋白(bai)質的(de)(de)(de)(de)生物功能的(de)(de)(de)(de)信(xin)息。
UniProtKB全稱UniProt Knowledgebase(UniProt知識庫)它是經過專家校(xiao)驗的(de)數據集(ji),主要由兩部分(fen)組成:UniProtKB/Swiss-Prot(包(bao)含檢(jian)查過的(de)、手(shou)工注(zhu)釋(shi)的(de)條目)和UniProtKB/TrEMBL(包(bao)含未(wei)校(xiao)驗的(de)、自動注(zhu)釋(shi)的(de)條目),在2010年8月是10日發布的(de)版本中,UniProtKB/Swiss-Prot包(bao)含519,348條注(zhu)釋(shi)條目,UniProtKB/TrEMBL包(bao)含11,636,205條注(zhu)釋(shi)條目。
UniProtKB/Swiss-Prot
高質量(liang)的(de)、手工注釋的(de)、非冗余的(de)數(shu)(shu)據集;主要來自文(wen)獻(xian)中的(de)研究成果和E-value校驗過計算分析結果。有(you)質量(liang)保證的(de)數(shu)(shu)據才被加(jia)入該數(shu)(shu)據庫。
UniProtKB/TrEMBL
該數(shu)據(ju)集包含高質(zhi)量的(de)(de)(de)(de)計算分析結(jie)果,一般都在(zai)自(zi)動注釋中(zhong)富(fu)集,主要應對(dui)基因組(zu)項目獲得的(de)(de)(de)(de)大量數(shu)據(ju)流以(yi)人工校驗在(zai)時間上和(he)人力上的(de)(de)(de)(de)不足。他(ta)能(neng)注釋所(suo)有可用的(de)(de)(de)(de)蛋白序列。在(zai)三大核酸數(shu)據(ju)庫(ku)(ku)(EMBL-Bank/GenBank/DDBJ)中(zhong)注釋的(de)(de)(de)(de)編(bian)碼序列都被自(zi)動翻譯并(bing)加(jia)入該數(shu)據(ju)庫(ku)(ku)中(zhong)。它(ta)也(ye)有來(lai)自(zi)PDB數(shu)據(ju)庫(ku)(ku)的(de)(de)(de)(de)序列,以(yi)及Ensembl、Refeq和(he)CCDS基因預測的(de)(de)(de)(de)序列。
UniParc
UniParc全稱是UniProt Archive,他(ta)是一(yi)個綜合性的(de)非冗余數據(ju)庫(ku)(ku),他(ta)包含(han)了所有(you)主要的(de)、公開的(de)數據(ju)庫(ku)(ku)的(de)蛋(dan)白(bai)質序(xu)列。 由于(yu)蛋(dan)白(bai)質可(ke)能在(zai)不同(tong)的(de)數據(ju)庫(ku)(ku)中存在(zai),并且可(ke)能在(zai)同(tong)一(yi)個數據(ju)庫(ku)(ku)中有(you)多(duo)個版本(ben),為(wei)了去冗余,UniaraParc對每(mei)條唯(wei)一(yi)的(de)序(xu)列只(zhi)(zhi)存一(yi)次。無論是否為(wei)同(tong)一(yi)物種(zhong)的(de)序(xu)列,只(zhi)(zhi)要序(xu)列相同(tong)就被合并為(wei)一(yi)條,每(mei)條序(xu)列提供穩(wen)定的(de)、唯(wei)一(yi)的(de)編號UPI。該數據(ju)庫(ku)(ku)只(zhi)(zhi)含(han)有(you)蛋(dan)白(bai)質的(de)序(xu)列信息,而沒(mei)有(you)注釋(shi)數據(ju)。