UniProt

UniProt
UniProt
Содержимое
Описание	База данных последовательностей белков
Тип данных	Аннотирование белков
Организмы	Все
Контакты
Исследовательский центр	EMBL-EBI, UK; SIB, Switzerland; PIR, US.
Доступность
Формат данных	FASTA, GFF, RDF, XML.
Сайт	uniprot.org; uniprot.org/news/

UniProt — открытая база данных последовательностей белков. Консорциум UniProt действует с 2003 года^[⇨]. Единая база данных UniProt была создана путём объединения нескольких баз^[⇨]. UniProt состоит из четырёх крупных баз данных (База знаний^[⇨], Архив^[⇨], Справочные кластеры^[⇨] и метагеномные данные^[⇨]) и охватывает различные аспекты анализа белковых последовательностей. Многие из последовательностей стали известны в результате реализации проектов секвенирования геномов последних лет. Кроме того, база данных UniProt содержит большое количество информации о биологических функциях белков, полученной из научной литературы.

Uniprot-консорциум

В UniProt-консорциум входят: Европейский Институт Биоинформатики (EBI), Швейцарский Институт Биоинформатики (SIB) и Белковый Информационный Ресурс (PIR)^[1].

В EBI, расположенном в посёлке Хинкстон (Hinxton), Великобритания, размещено большое количество биоинформатических баз данных и сервисов^[2].

SIB, расположенный в Женеве, Швейцария, является хранилищем серверов, служащих для экспертного белкового системного анализа (ExPASy-серверов), являющихся главным источником для инструментов протеомики и соответствующих баз данных^[3].

PIR расположен в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, и представляет собой интегрированный биоинформатический ресурс, предназначенный для поддержки исследований в области геномики и протеомики^[4].

В 2002 году PIR (Белковый Информационный Ресурс), вместе со своими международными партнёрами, EBI (Европейским Институтом Биоинформатики) и SIB (Швейцарским Институтом Биоинформатики), получили грант от Национального Института Здоровья (NIH) для создания UniProt, единой всемирной базы данных последовательностей и функций белков. Так появился консорциум UniProt^[5]. Проект UniProt начал действовать с декабря 2003 года^[6].

UniProt финансируется за счёт грантов от Национальных Институтов Здравоохранения США (NIH), Национального Института исследования генома человека (NHGRI), Национального Института Общемедицинских Hаук (NIGMS), Британского фонда по борьбе с сердечными заболеваниями (BHF), Швейцарского Федерального Правительства через Федеральное управление образования и науки, Национального научного фонда (NSF)^[1]^[7].

Происхождение базы данных UniProt

Единая база данных UniProt была создана путём объединения баз данных Swiss-Prot, TrEMBL и PIR — PSD^[8]^[9]^[10].

Swiss-Prot

База данных Swiss-Prot была создана в 1986 году Амосом Байрошем во время работы над своим PhD-проектом и развита в дальнейшем в Швейцарском Институте Биоинформатики (SIB), а позже доработана Рольфом Апвейлером в Европейском Институте Биоинформатики (EBI)^[11]^[12]^[13]. Основная функция базы данных Swiss-Prot направлена на обеспечение надёжности информации о белковых последовательностях, обусловленной высоким, детальным уровнем аннотации, выполненной вручную. Она включает описание функции белка, его доменной структуры, пост-трансляционных модификаций, различных вариантов последовательности и т. д., причём с минимальным уровнем избыточности и высоким уровнем интеграции с другими базами данных^[1].

TrEMBL

База данных «Библиотека данных Нуклеотидных последовательностей» (TrEMBL) была разработана в 1996 году как аннотированное компьютерное приложение к Swiss-Prot^[8]^[10]^[11]. Решение о создании TrEMBL было принято в ответ на увеличение потока данных в результате появления геномных проектов, а затратный по времени и трудоемкий процесс ручной аннотации в UniProtKB / Swiss-Prot превышал возможности Swiss-Prot для того, чтобы включить все доступные белковые последовательности^[8]^[10]. TrEMBL предоставляет возможность автоматизированной аннотации для трансляции имеющихся нуклеотидных последовательностей и превращения их в белковые последовательности вне Swiss-Prot^[6].

PIR-PSD

PIR, организованный Национальным фондом медико-биологических исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, а именно, созданным Маргарет Окли Дейхофф «Атласом последовательностей белка и структуры», впервые опубликованным в 1965 году^[14]. PIR поддерживает несколько белковых баз данных, а именно: главную базу белковых последовательностей (PIR-PSD), базу данных, связанную с классификацией белков по структуре и функциям (iProClass), а также другие базы данных белковых последовательностей и курируемых семейств^[1].

Организация баз данных UniProt

UniProt предоставляет четыре основных базы данных:

UniProtKB (Swiss-Prot и TrEMBL),
UniParc,
UniRef,
UniMes.

UniProt KnowledgeBase (UniProtKB)

База знаний UniProt (UniProtKB) представляет собой белковую базу данных, частично курируемую экспертами и состоящую из двух секций:

UniProtKB / Swiss-Prot, содержащую обзорные, вручную аннотированные записи. По состоянию на 15 марта 2017 года UniProtKB / Swiss-Prot содержит 553941 запись последовательностей (включающих 198311666 аминокислот), полученных из 251243 источников^[15].
UniProtKB / TrEMBL, содержащую нерецензированные, автоматически аннотированные записи^[7]. По состоянию на 15 марта 2017 года UniProtKB / TrEMBL содержит 80204459 записей белковых последовательностей (включающих 26890984395 аминокислот)^[16].

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot является аннотированной вручную, без резервирования, базой данных белковых последовательностей. Целью UniProtKB / Swiss-Prot является предоставление всей известной необходимой информации о конкретном белке^[1]. Аннотации регулярно проверяются, чтобы соответствовать текущим научным результатам. Требования к составлению аннотации записи включают подробный анализ последовательности белка и данных о нём из научной литературы^[17]. Последовательности белка того же самого гена и того же вида объединены в одной и той же записи базы данных. Различия между последовательностями идентифицированы, и их причины документально зафиксированы и приведены (например, такие как альтернативный сплайсинг, естественные изменения, неправильные сайты инициации, неправильные экзонные границы, неправильные рамки считывания, список неопознанных конфликтов и другие). Целый диапазон инструментов анализа последовательностей используется при аннотации записей в UniProtKB/Swiss-Prot. Компьютерные предсказания вручную анализируются, и подходящие результаты отбираются для включения в записи базы данных. Эти предсказания включают пост-трансляционные модификации, последовательность, структуру и топологию трансмембранных доменов,сигнальные пептиды, доменную идентификацию и классификацию белковых семейств^[17]^[18]. Соответствующие публикации идентифицируются поиском в базах данных, таких как PubMed. Полный текст каждого документа считывается, и информация добавляется к записи.

Аннотация, как правило, включает нижеперечисленную информацию^[6]:

название белка и гена;
функция белка;
каталитические остатки
;
внутриклеточная локализация;
белок-белковые взаимодействия;
шаблон (pattern) экспрессии;
местоположение и роль важных доменов и сайтов;
ионные, субстратные и кофакторные сайты связывания;
белковые вариантные формы, происходящие вследствие природных генетических изменений, редактирования РНК, альтернативного сплайсинга, протеолитических воздействий и пост-трансляционных модификаций.

Аннотированная запись должна пройти контроль качества перед включением в UniProtKB / Swiss-Prot. При появлении новых данных существующие записи обновляются^[1].

UniProtKB/TrEMBL

UniProtKB / TrEMBL содержит записи, проанализированные с помощью компьютерной техники, которые дополнены при помощи автоматической аннотации^[1].

Трансляция аннотированных кодирующих последовательностей в базах данных последовательностей нуклеотидов, таких как Европейская молекулярно-биологическая лаборатория (EMBL-Bank), ГенБанк, Японская база данных ДНК (DDBJ) осуществляется автоматически, после чего эти белковые последовательности заносятся в UniProtKB / TrEMBL. UniProtKB / TrEMBL также содержит последовательности из Белкового Банка Данных (PDB) и предсказанные гены, в том числе из Ensembl — объединённого научного проекта, включающего Европейский Институт Биоинформатики и the Wellcome Trust Sanger Institute, RefSeq и CCDS^[19].

UniProt Архив (UniParc)

UniProt Архив (UniParc) представляет собой всеобъемлющую, содержащуюся без резервирования базу данных, которая содержит последовательности белков из основных общедоступных баз данных белковых последовательностей^[20]. Так как один и тот же белок может находиться в нескольких различных исходных базах данных, а также присутствовать в нескольких экземплярах в одной и той же базе данных, во избежание избыточности UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, являются ли они белками, представляющими одни и те же или разные виды. Каждой последовательности присвоен стабильной и уникальный код (УПИ), что делает возможным идентифицировать один и тот же белок из различных исходных баз данных^[1].

UniParc содержит только белковые последовательности без аннотации. Перекрёстные ссылки в записях из базы данных UniParc позволяют получить дополнительную информацию о белке из базы данных, являющейся первоисточником. Если в исходных базах данных последовательности изменяются, эти изменения отслеживаются в UniParc, а история всех изменений сохраняется в архиве^[1].

Источники данных для UniParc^[1]
База данных	Тип данных
Японская база данных ДНК (DDBJ) Европейский архив нуклеотидов (ENA) База данных ДНК и РНК (GenBank)	Кодирующие последовательности
Объединённый научный проект, включающий Европейский Институт Биоинформатики и the Wellcome Trust Sanger Institute (Ensembl) База данных Геномной Аннотации Позвоночных (VEGA)	Прогнозируемые кодирующие последовательности из геномов позвоночных
Основное хранилище генетических и молекулярных данных для насекомых семейства Drosophilidae (FlyBase)	Кодирующая последовательность для видов из семейства Drosophilidae
Исчерпывающий источник аннотаций для человеческих генов и транскриптов (H-Inv)	Последовательности человеческого белка
Международный Белковый Индекс (IPI)	Протеиновые последовательности высших эукариот
Patent Offices in Europe, US and Japan (USPTO)	Кодирующие последовательности, связанные с патентами из патентных ведомств
Белковые информационные ресурсы (PIR-PSD)	Курированные последовательности белка
Белковый Банк данных (PDB)	Последовательности белков, трёхмерные структуры которых находятся в PDB
Белковый исследовательский фонд (PRF)	Протеиновые последовательности из научных трудов и предсказаний
Кластеры ссылок UniProt (RefSeq)	Кодирующие последовательности из набора NCBI геномных, транскрипционных и белковых эталонных последовательностей
Дрожжевая геномная база данных (SGD)	Кодирующие последовательности для Saccharomyces cerevisiae
База информационных ресурсов для Arabidopsis thaliana (TAIR)	Кодирующие последовательности для Arabidopsis thaliana
TROME	Прогнозируемые аминокислотные последовательности
UniProtKB/Swiss-Prot	Обработанные вручную белковые последовательности, главным образом производные от TrEMBL
UniProtKB/TrEMBL	Автоматически курируемые последовательности белка, полученные из кодирующих последовательностей в базах данных нуклеотидных последовательностей
База данных геномных и других биологических характеристик Caenorhabditis elegans (WormBase)	Кодирующие последовательности для нематоды Caenorhabditis elegans

Справочные кластеры UniProt (UniRef)

Кластеры ссылок UniProt (UniRef) состоят из трёх баз данных (UniRef100, UniRef90 и UniRef50), сформированных из кластеризованных наборов белковых последовательностей из UniProtKB и отобранных записей UniParc^[21].

База данных UniRef100 сочетает идентичные последовательности и фрагменты последовательности (из любого организма) в одной записи UniRef^[1].

Последовательности UniRef100 были кластеризованы с использованием CD-HIT алгоритма^[21]^[22], чтобы построить UniRef90 и UniRef50^[22]. Каждый из двух последних кластеров состоит из последовательностей, которые имеют не менее 90 % и не менее 50 % идентичности, соответственно, с самой длинной найденной последовательностью. В настоящее время покрытие UniRef превышает 4000000 исходных последовательностей^[23].

Кластеризация последовательностей значительно уменьшает размер базы данных: UniRef100, UniRef90 и UniRef50 дают уменьшение размера базы данных примерно на ~ 10, 40 и 70 %, соответственно. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надёжность поиска далёких родственных белков^[1].

Записи UniRef содержат сведения о последовательности репрезентативного белка, подсчёт членов и общей таксономии кластера, а также регистрационные номера всех присоединяемых записей и ссылок на аннотации в UniProtKB для облегчения биологических исследований^[1].

UniRef доступен с сайта UniREF FTP^[24].

UniMrot (UniMes)

UniProt KB содержит записи с известной таксономией источника. Новые разработки привели к обнаружению новых источников для поиска белковых последовательностей. Появление метагеномных данных потребовало создания принципиально нового раздела в UniProt KB, а именно, отдельной базы данных — UniProt метагеномных последовательностей и неизвестных последовательностей из окружающей среды, UniMES (The UniProt Metagenomic and Environmental Sequences database)^[25].

Метагеномика (metagenomics) представляет собой масштабный геномный анализ микробов, выделенных из проб из окружающей среды, в отличие от лабораторно выращенных организмов, которые представляют лишь небольшую часть микробного мира.

UniMES в настоящее время содержит данные о белковых последовательностях организмов из мирового океана, обеспеченных глобальной океанической экспедицией по сбору проб (Global Ocean Sampling expedition — GOS)^[25], которые были первоначально представлены в Международной базе данных нуклеотидных последовательностей (INSDC)^[26].

Первоначальный GOS-набор данных состоит из 25 миллионов последовательностей ДНК, в основном из океанических микробов, и почти 6 миллионов предсказанных белков. UniMES объединяет предсказанные белковые последовательности с автоматической классификацией по Interpro, который является интегрированным ресурсом для белковых семейств, доменов и функциональных сайтов. Поэтому UniMES является уникальной базой данных, которая обеспечивает свободный доступ к массиву геномной информации, полученной от экспедиций для отбора проб. Данные пробы из окружающей среды, содержащиеся в этой базе данных, отсутствуют в UniProt базе знаний или UniProt справочных кластерах (UniRef), но интегрированы в UniParc^[27].

UniMES доступен на UniProt FTP site в формате FASTA^[28].

Примечания

↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ ¹² ¹³ About UniProt (англ.). http://www.uniprot.org/help/about.+Дата обращения: 31 марта 2017. Архивировано 30 апреля 2017 года.
↑ About EBI (англ.). https://www.ebi.ac.uk/about/travel.+Дата обращения: 24 апреля 2017. Архивировано 1 мая 2017 года.
↑ About SIB (англ.). http://www.sib.swiss/about-us.+Дата обращения: 24 апреля 2017. Архивировано 25 апреля 2017 года.
↑ About PIR (англ.). http://pir.georgetown.edu/pirwww/about/.+Дата обращения: 24 апреля 2017. Архивировано 22 марта 2017 года.
↑ Funding for Global Protein Database Will Create One Reliable Resource (http://www.genome.gov/page.cfm?pageID=10005283 Архивная копия от 24 сентября 2015 на Wayback Machine)
↑
doi:10.1016/j.cbpa.2003.12.004. — PMID 15036160. [исправить
]

↑
doi:10.1093/nar/gkp846. — PMID 19843607. [исправить
]

↑ ¹ ² ³ O'Donovan C., Martin M. J., Gattiker A., Gasteiger E., Bairoch A., Apweiler R. High-quality protein knowledge resource: SWISS-PROT and TrEMBL. (англ.) // Briefings in bioinformatics. — 2002. — Vol. 3, no. 3. — P. 275—284. — PMID 12230036. [исправить]
↑ Wu C. H., Yeh L. S., Huang H., Arminski L., Castro-Alvear J., Chen Y., Hu Z., Kourtesis P., Ledley R. S., Suzek B. E., Vinayaka C. R., Zhang J., Barker W. C. The Protein Information Resource. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 345—347. — PMID 12520019. [исправить]
↑ ¹ ² ³ Boeckmann B., Bairoch A., Apweiler R., Blatter M. C., Estreicher A., Gasteiger E., Martin M. J., Michoud K., O'Donovan C., Phan I., Pilbout S., Schneider M. The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 365—370. — PMID 12520024. [исправить]
↑ ¹ ² Bairoch A., Apweiler R. The SWISS-PROT protein sequence data bank and its new supplement TREMBL. (англ.) // Nucleic acids research. — 1996. — Vol. 24, no. 1. — P. 21—25. — PMID 8594581. [исправить]
↑ Bairoch A. Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times! (англ.) // Bioinformatics. — 2000. — Vol. 16, no. 1. — P. 48—64. — PMID 10812477. [исправить]
↑ Séverine Altairac, « Naissance d’une banque de données: Interview du prof. Amos Bairoch Архивная копия от 12 июля 2010 на Wayback Machine». Protéines à la Une Архивная копия от 21 июня 2011 на Wayback Machine, August 2006. ISSN 1660-9824.
↑ Dayhoff, Margaret O. Atlas of protein sequence and structure (неопр.). — Silver Spring, Md: National Biomedical Research Foundation, 1965.
↑ UniProtKB/SwissProt release statistics (http://www.expasy.org/sprot/relnotes/relstat.html Архивная копия от 29 мая 2010 на Wayback Machine)
↑ UniProtKB/TrEMBL release statistics (http://www.ebi.ac.uk/uniprot/TrEMBLstats/ Архивная копия от 1 октября 2015 на Wayback Machine)
↑ ¹ ² How do we manually annotate a UniProtKB entry (http://www.uniprot.org/faq/45 Архивная копия от 13 декабря 2013 на Wayback Machine)
doi:10.1093/nar/gkh131. — PMID 14681372. [исправить
]

↑ Where do UniProtKB sequences come from (англ.). http://www.uniprot.org/faq/37.+Дата обращения: 16 апреля 2014. Архивировано 15 декабря 2013 года.
doi:10.1093/bioinformatics/bth191. — PMID 15044231. [исправить
]

↑
doi:10.1093/bioinformatics/btm098. — PMID 17379688. [исправить
]

↑ ¹ ² Li W., Jaroszewski L., Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. (англ.) // Bioinformatics. — 2001. — Vol. 17, no. 3. — P. 282—283. — PMID 11294794. [исправить]
↑ About UniRef=http://www.uniprot.org/uniref/ (неопр.). (недоступная ссылка)
↑ UniREF FTP site (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/)
↑
doi:10.1371/journal.pbio.0050016. — PMID 17355171. [исправить
]

↑ Brunak S., Danchin A., Hattori M., Nakamura H., Shinozaki K., Matise T., Preuss D. Nucleotide sequence database policies. (англ.) // Science (New York, N.Y.). — 2002. — Vol. 298, no. 5597. — P. 1333. — PMID 12436968. [исправить]
doi:10.1093/nar/gkm895. — PMID 18045787. [исправить
]

↑ Uniprot FTP site UniMES (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/ (недоступная ссылка))

Ссылки

[About_UniProt-1] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ ¹² ¹³ About UniProt (англ.). http://www.uniprot.org/help/about.+Дата обращения: 31 марта 2017. Архивировано 30 апреля 2017 года.

[2] About EBI (англ.). https://www.ebi.ac.uk/about/travel.+Дата обращения: 24 апреля 2017. Архивировано 1 мая 2017 года.

[3] About SIB (англ.). http://www.sib.swiss/about-us.+Дата обращения: 24 апреля 2017. Архивировано 25 апреля 2017 года.

[4] About PIR (англ.). http://pir.georgetown.edu/pirwww/about/.+Дата обращения: 24 апреля 2017. Архивировано 22 марта 2017 года.

[Consortium_UniProt-5] Funding for Global Protein Database Will Create One Reliable Resource (http://www.genome.gov/page.cfm?pageID=10005283 Архивная копия от 24 сентября 2015 на Wayback Machine)

[Apweiler-6] 
doi:10.1016/j.cbpa.2003.12.004. — PMID 15036160. [исправить
]

[MINOBR-7] 
doi:10.1093/nar/gkp846. — PMID 19843607. [исправить
]

[Donovan-8] ¹ ² ³ O'Donovan C., Martin M. J., Gattiker A., Gasteiger E., Bairoch A., Apweiler R. High-quality protein knowledge resource: SWISS-PROT and TrEMBL. (англ.) // Briefings in bioinformatics. — 2002. — Vol. 3, no. 3. — P. 275—284. — PMID 12230036. [исправить]

[pmid12520019-9] Wu C. H., Yeh L. S., Huang H., Arminski L., Castro-Alvear J., Chen Y., Hu Z., Kourtesis P., Ledley R. S., Suzek B. E., Vinayaka C. R., Zhang J., Barker W. C. The Protein Information Resource. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 345—347. — PMID 12520019. [исправить]

[Brigit-10] ¹ ² ³ Boeckmann B., Bairoch A., Apweiler R., Blatter M. C., Estreicher A., Gasteiger E., Martin M. J., Michoud K., O'Donovan C., Phan I., Pilbout S., Schneider M. The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 365—370. — PMID 12520024. [исправить]

[Amos-11] ¹ ² Bairoch A., Apweiler R. The SWISS-PROT protein sequence data bank and its new supplement TREMBL. (англ.) // Nucleic acids research. — 1996. — Vol. 24, no. 1. — P. 21—25. — PMID 8594581. [исправить]

[Bairoch2000-12] Bairoch A. Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times! (англ.) // Bioinformatics. — 2000. — Vol. 16, no. 1. — P. 48—64. — PMID 10812477. [исправить]

[13] Séverine Altairac, « Naissance d’une banque de données: Interview du prof. Amos Bairoch Архивная копия от 12 июля 2010 на Wayback Machine». Protéines à la Une Архивная копия от 21 июня 2011 на Wayback Machine, August 2006. ISSN 1660-9824.

[dayhoff-14] Dayhoff, Margaret O. Atlas of protein sequence and structure (неопр.). — Silver Spring, Md: National Biomedical Research Foundation, 1965.

[SPstats-15] UniProtKB/SwissProt release statistics (http://www.expasy.org/sprot/relnotes/relstat.html Архивная копия от 29 мая 2010 на Wayback Machine)

[TrEMBLstats-16] UniProtKB/TrEMBL release statistics (http://www.ebi.ac.uk/uniprot/TrEMBLstats/ Архивная копия от 1 октября 2015 на Wayback Machine)

[faq45-17] ¹ ² How do we manually annotate a UniProtKB entry (http://www.uniprot.org/faq/45 Архивная копия от 13 декабря 2013 на Wayback Machine)

[pmid14681372-18] :10.1093/nar/gkh131. — PMID 14681372. [исправить
]

[19] Where do UniProtKB sequences come from (англ.). http://www.uniprot.org/faq/37.+Дата обращения: 16 апреля 2014. Архивировано 15 декабря 2013 года.

[20] :10.1093/bioinformatics/bth191. — PMID 15044231. [исправить
]

[Suzek-21] 
doi:10.1093/bioinformatics/btm098. — PMID 17379688. [исправить
]

[Jaroszewski-22] ¹ ² Li W., Jaroszewski L., Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. (англ.) // Bioinformatics. — 2001. — Vol. 17, no. 3. — P. 282—283. — PMID 11294794. [исправить]

[23] About UniRef=http://www.uniprot.org/uniref/ (неопр.). (недоступная ссылка)

[UNIREF-24] UniREF FTP site (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/)

[Yooseph-25] 
doi:10.1371/journal.pbio.0050016. — PMID 17355171. [исправить
]

[Brunak-26] Brunak S., Danchin A., Hattori M., Nakamura H., Shinozaki K., Matise T., Preuss D. Nucleotide sequence database policies. (англ.) // Science (New York, N.Y.). — 2002. — Vol. 298, no. 5597. — P. 1333. — PMID 12436968. [исправить]

[Uniprot2007-27] :10.1093/nar/gkm895. — PMID 18045787. [исправить
]

[UniMES-28] Uniprot FTP site UniMES (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/ (недоступная ссылка))

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]