Эта статья входит в число хороших статей

GENCODE

Материал из Википедии — свободной энциклопедии
GENCODE
Содержимое
Описание Энциклопедия генов и генных вариантов
Тип данных Аннотации генов человека и мыши в формате GTF/GFF3
Контакты
Исследовательский центр Институт Сэнгера (Welcome Trust Sanger Institute)
Авторы Harrow J, et al [1]
Дата выпуска Сентябрь 2012
Доступность
Сайт GENCODE
Прочее
Лицензия Открытый доступ
Частота релизов Геном человека — раз в 3 месяца
Геном мыши — раз в 6 месяцев
Версия GENCODE 43 (человеческий геном), M32 (мышиный геном)

GENCODE — проект геномных исследований, являющийся составной частью проекта «Энциклопедия элементов ДНК» (ENCODE)[2].

GENCODE был создан в рамках пилотной фазы проекта

мыши с помощью методов вычислительного анализа, ручной аннотации и экспериментальной проверки[4]
.

Конечная цель проекта — создание базы аннотаций, включающей все белок-кодирующие локусы с альтернативными транскриптами[5], некодирующие локусы с обнаруженными транскриптами[6] и псевдогены[7].

История

В сентябре 2003 года Национальный институт исследований

ДНК человека. В 2003 году были опубликованы результаты, и научное сообщество высказало заинтересованность в исследовании функциональных элементов генома человека для лучшего понимания механизмов развития некоторых заболеваний. Для этого и был запущен проект ENCODE. Он был разделен на три фазы: пилотная (начальная) фаза, разработка методологии и продуктивная фаза[9]. В ходе пилотной фазы планировалось исследовать около 30 Mb генома человека, а полученные результаты учесть в дальнейшем при анализе остального человеческого генома[9]. Для картирования на этот фрагмент генома известных белок-кодирующих генов был создан проект GENCODE[3]
.

В апреле 2005 года была выпущена первая версия GENCODE с аннотацией 44

.

В июне 2007 года пилотная фаза ENCODE была завершена[10]. Проект был признан удачным, и институт Сэнгера (Welcome Trust Sanger Institute) получил грант от NHGRI для масштабирования проекта GENCODE[11].

В 2012 году был выпущен крупнейший релиз GENCODE 7 (на основе данных на момент декабря 2011 года), в котором была скомбинирована автоматическая аннотация Ensembl и аннотация вручную. С 2013 года GENCODE был удостоен второго гранта на продолжение работы по аннотации генома человека, а также на аннотацию мышиного генома для сравнительных исследований геномов мыши и человека[11].

В апреле 2018 года была выпущена версия GENCODE 28 (содержащая данные, обработанные до ноября 2017 года)[12].

Задачи

Задачи, решавшиеся в проекте GENCODE, вставали перед научным сообществом по мере расширения познаний в области генетики. Как правило, эти задачи были связаны с уточнением определений генетических терминов и с изучением функций геномных участков, ранее не подвергавшихся близкому рассмотрению. Ниже приведены примеры интересных вопросов и тем, которые исследуются в рамках GENCODE[11].

Определение понятия «ген»

Задача определения понятия «ген» стоит перед учеными на протяжении всего времени с тех пор, как исследователи задумались о вопросах наследственности. В 1900-х годах ген рассматривался как некая дискретная единица наследственности, затем ген стали считать основой для биосинтеза белка, а в последнее время это понятие расширили до геномного фрагмента, транскрибирующегося в РНК[13]. Хотя определение гена претерпело значительные изменения за последний век, оно осталось сложным и противоречивым предметом обсуждения для многих ученых. В ходе развития проектов ENCODE и, в частности, GENCODE, были подробнее описаны ещё более проблематичные аспекты определения — такие как альтернативный сплайсинг, межгенные участки, а также сложные паттерны рассеянной регуляции, консервативность некодирующих участков и обилие генов, продуцирующих некодирующие РНК. Поскольку глобальной целью проекта GENCODE является создание энциклопедии генов и генных вариантов, эти проблемы поставили проект перед необходимостью дать обновленное определение понятия гена[13].

Псевдогены

Псевдогены — это белок-кодирующие (или сходные с ними) последовательности ДНК, в которых произошла делеция или сдвиг рамки считывания[14]. В большинстве геномных баз данных их упоминают как побочные продукты аннотации более привычных белок-кодирующих последовательностей. Однако недавний анализ показал, что некоторые из псевдогенов не просто экспрессируются, но и функционируют, играя роль в различных биологических процессах[15]. Чтобы разобраться со всеми сложностями описания псевдогенов, в рамках GENCODE исследователи создали онтологию псевдогенов с использованием автоматических, ручных и экспериментальных методов, чтобы связать воедино их различные свойства, в том числе свойства последовательности, эволюцию и возможную биологическую функцию[4]. Количество аннотированных псевдогенов растет с каждой новой версией GENCODE (см. Основная статистика).

Длинные некодирующие РНК (lncRNA)

Одной из ключевых областей исследования проекта GENCODE является изучение биологического значения длинных некодирующих РНК (lncRNA). Для более глубокого понимания и изучения экспрессии lncRNA у человека, в рамках GENCODE был запущен подпроект для разработки пользовательских микрочипов для количественного определения таких транскриптов в аннотации lncRNA[6]. Некоторое количество подобных платформ было создано с помощью системы Agilent Technologies eArray, они доступны в стандартном формате Аgilent[16].

Датасет длинных некодирующих РНК, представленный в GENCODE (в частности, в версии GENCODE 7), считается самым большим из всех представленных датасетов lncRNA. При этом он мало перекрывается с другими существующими датасетами[6]. Транскрипты, аннотированные как lncRNA, далее могут быть классифицированы на следующие типы на основе их положения в геноме относительно белок-кодирующих генов:

  1. Антисмысловая РНК: локус, для которого был найден хотя бы один транскрипт, перекрывающийся с экзоном белок-кодирующего гена на противоположной цепи, или есть опубликованные данные об антисмысловой регуляции какого-либо гена;
  2. Длинная межгенная некодирующая РНК (lincRNA[17]);
  3. «Перекрывающийся»: локус, содержащий белок-кодирующий ген внутри интрона на той же цепи;
  4. «Интронный»: локус, расположенный внутри интрона, но не перекрывающийся с экзонами на той же цепи;
  5. Процессированный транскрипт: локус, для которого ни один транскрипт не содержит открытую рамку считывания, и который не может быть отнесен ни к одной из предыдущих категорий из-за сложной структуры.

Основные участники

В таблице приведены институты, чье участие было анонсировано на сайте GENCODE[18].

Пилотная фаза Масштабирование проекта Вторая фаза (текущая)
Институт Сэнгера, Кэмбридж, Великобритания Институт Сэнгера, Кэмбридж, Великобритания Институт Сэнгера, Кэмбридж, Великобритания
Муниципальный Институт Медицинских Исследований (IMIM), Барселона, Каталония Центр геномной регуляции (CRG)[англ.], Барселона, Каталония Центр геномной регуляции (CRG)[англ.], Барселона, Каталония
Университет Женевы, Швейцария Университет Лозанны, Швейцария Университет Лозанны, Швейцария
Калифорнийский Университет, Беркли, США Университет Санта Круз (UCSC), Калифорния, США Университет Санта Круз (UCSC), Калифорния, США
Европейский Биоинформатический Институт, Хинкстон, Великобритания Массачусетский технологический институт (MIT), Бостон США Массачусетский технологический институт (MIT), Бостон, США
Йельский университет, Нью-Хейвен, США Йельский университет, Нью-Хейвен, США
Испанский национальный центр раковых исследований (CNIO)[англ.], Мадрид, Испания Испанский национальный центр раковых исследований (CNIO)[англ.], Мадрид, Испания
Университет Вашингтона (WashU), Сент-Луис, США
Европейский Биоинформатический Институт
, Кэмбридж, Великобритания

Основная статистика

Полнота данных в аннотациях GENCODE непрерывно растёт. Ниже приведена статистика версии GENCODE 28[19]. Эта версия соответствует выпуску Ensembl 92 и содержит аннотацию, сделанную по сборке человеческого генома GRCh38, но доступную также для сборки GRCh37).

Категории Всего Категории Всего
Общее количество генов 58 381 Всего транскриптов 203 835
Белок-кодирующие гены 19 901 Белок-кодирующие транскрипты: 82 335
Гены длинных некодирующих РНК 15 779 - кодирующие полный белок 56 541
Гены малых некодирующих РНК 7 569 - кодирующие фрагмент белка 25 794
Псевдогены: 14 723 Нонсенс-опосредованно распавшиеся транскрипты 14 889
- обработанные псевдогены 10 693 Транскрипты локусов длинных некодирующих РНК 28 468
- необработанные псевдогены 3 519
- унитарные псевдогены 218
- полиморфные псевдогены 38
- псевдогены 18
Генные сегменты иммуноглобулин-T-клеточного рецептора: 645 Общее число различных аннотаций 61 132
- белок-кодирующие сегменты 408 Число генов, к которым относится больше одной аннотации 13 641
- псевдогены 237
Сравнение количества аннотированных генов человека в различных версиях GENCODE (7, 10, 20 и 28). Данные взяты с официального сайта GENCODE Архивная копия от 14 апреля 2018 на Wayback Machine.

Сравнение версий GENCODE

Сравнительная статистика четырёх основных релизов GENCODE продемонстрирована на графике справа[20].

Данные свидетельствуют о том, что покрытие генома (количество обнаруженных и аннотированных локусов) стабильно увеличивается. При этом доля белок-кодирующих генов среди аннотированных уменьшается — в основном, из-за результатов аннотирования

CAGE)[4]. Одновременно с этим увеличивается количество псевдогенов и локусов, аннотированных как длинные некодирующие РНК
.

Методология

В проекте GENCODE применялись ручная и автоматическая аннотация. При верификации результатов использовались данные лабораторных экспериментов[21].

Автоматическая аннотация (ENSEMBL)

Информация о транскриптах

мРНК из публичных баз данных[22]. Помимо белок-кодирующих участков, аннотировались нетранслируемые участки, длинные некодирующие РНК и короткие некодирующие РНК[4].

Схема, по которой происходит аннотация локусов GENCODE[23]

Аннотация вручную (группа HAVANA)

HAVANA (Human and Vertebrate Analysis and Annotation) — исследовательская группа, осуществляющая ручную аннотацию транскриптов в проекте GENCODE[3][4].

Помимо группы HAVANA, в состав консорциума GENCODE входило ещё несколько групп, проводивших анализ аннотированных локусов с помощью программ

CAGE и Ditag[25]
.

Помимо официально вовлечённых в проект групп, над улучшением качества аннотации GENCODE работали независимые исследователи[26].

Объединение ручной и автоматической аннотаций

При объединении все модели транскриптов, полученные автоматической и ручной аннотацией, сравнивались для перекрывающихся транскриптов. Найденные расхождения детектировались с использованием системы AnnoTrack[4].

Автоматическая аннотация не всегда может считаться корректной (так, только в 45 % случаев автоматической аннотации корректно предсказываются все альтернативные транскрипты[4]). В случае несовпадения аннотаций приоритетной являлась аннотация HAVANA, так как ручная аннотация в сложных случаях предполагала анализ геномного контекста, литературы и использование экспериментальных данных Mus musculus. Тем не менее, для таких случаев сохраняется информация, полученная обоими способами аннотации[4].

Оценка качества

Транскриптам присваивается определённый уровень поддержки на основании сравнения транскрипта GENCODE с выравниванием мРНК и маркерных экспрессирующихся последовательностей (EST), полученным из Ensembl и UCSC. В итоге аннотации каждого транскрипта делятся на определённые вручную, автоматически или слитые аннотации, то есть те, для которых и автоматический метод, и метод аннотирования вручную дали одинаковые результаты[4].

Основные подходы, использованные в GENCODE 7

Амплификация, секвенирование, картирование и валидация результатов

С помощью амплификации

нуклеотидов
) картировались на референсный геном человека сборки hg19 и предсказанные ампликоны с использованием программы Bowtie. Транскрипты валидировались только ридами, которые однозначно картировались на геном. Места соединений экзонов считались достоверными, если на них картировалось минимум 10 ридов, содержащими хотя бы 4 (для ридов длиной 35 нуклеотидов) или 8 (для ридов длиной 75 нуклеотидов) нуклеотидов в каждом из двух экзонов, разделённых сайтом сплайсинга[4].

Прочие подходы

Для аннотации альтернативных транскриптов генов использовался веб-сервис APPRIS (CNIO). APPRIS выбирает один вариант в качестве «главной изоформы» на основании информации о белковом продукте гена и об

Rattus sp.)[27]
.

Для поиска кодирующих последовательностей в транскриптах, автоматически предсказанных на основании данных

эволюции, выравнивая транскрипт с экзонами позвоночных из UCSC (включая 33 плацентарных млекопитающих)[4]
.

Организация данных

Текущая версия набора генов человека в GENCODE включает файлы аннотаций (в форматах GTF и GFF3), FASTA-файлы и файлы METADATA, связанные с аннотацией GENCODE для всех геномных участков[12]. Они соотнесены с референсной хромосомой и хранятся в отдельных файлах, которые содержат: генную аннотацию, сайты полиаденилирования, аннотированные группой HAVANA, псевдогены, предсказанные алгоритмами Йельского университета и университета Санта-Круз (США), длинные некодирующие РНК, а также структуры тРНК, предсказанные tRNA-Scan [12].

Определение уровня аннотации

Все гены датасета GENCODE классифицируются на три категории в соответствии с типом аннотации[4]:

  • Уровень 1 (подтвержденный локус): включает транскрипты, которые были аннотированы вручную и проверены экспериментально с помощью RT-PCR — секвенирования, а также псевдогены, подтвержденные тремя разными методологиями[4].
  • Уровень 2 (аннотированный вручную локус): к нему относятся транскрипты, аннотированые только вручную группой HAVANA, а также транскрипты, совмещенные с моделями, полученными по автоматическому протоколу Ensembl[4].
  • Уровень 3 (автоматически аннотированный локус): отражает транскрипты или псевдогены, предсказанные только с помощью автоматической аннотации Ensembl[4].

Определение статуса гена/транскрипта

Генам и транскриптам присваиваются статусы «известный», «новый» и «предполагаемый» в зависимости от их представленности в других основных базах данных и от оснований, использованных для построения составляющих их транскриптов[4].

Известный («known»): представлен в базах данных HUGO Gene Nomenclature Committee (HGNC) и RefSeq[4].

Новый («novel»): не представлен в базах HGNC или RefSeq, но хорошо подтверждается либо транскриптом, специфичным для данного локуса, либо свидетельствами его присутствия в паралогичном или ортологичном локусе[4].

Предполагаемый («putative»): не представлен в базах НGNC или RefSeq, но подтверждается признаками существования более короткого и редкого транскрипта[4].

Связанные с GENCODE проекты

Ensembl

Проект Ensembl является важной частью проекта ENCODE и представляет собой геномный браузер, позволяющий визуализировать сборку генома и все данные проекта ENCODE, в частности, аннотированные в проекте GENCODE геномные участки[28].

RGASP

RGASP (The RNA-seq Genome Annotation Assessment Project) — проект, организованный в рамках консорциума GENCODE после семинара EGASP (ENCODE Genome Annotation Assessment Project) по предсказанию генов. Было проведено две сессии семинаров для анализа результатов секвенирования РНК, а также рассмотрения его различных (методических и технических) аспектов. Одной из наиболее существенных находок первых двух стадий проекта стала важность соотнесения чтения с качеством полученного предсказания гена. В 2014 году была проведена третья сессия семинаров RGASP, где основное внимание было уделено картированию чтений на геном. Проект предоставил софт для аннотации транскриптов (определение, реконструкция и расчет количества транскриптов)[29].

Примечания

  1. ]
  2. ENCODE: Encyclopedia of DNA Elements (англ.). ENCODE. Stanford University. — Официальный сайт проекта и одноименного консорциума ENCODE. Дата обращения: 19 мая 2018. Архивировано 28 марта 2021 года.
  3. ]
  4. ]
  5. ]
  6. ]
  7. ]
  8. All About The Human Genome Project (HGP) (англ.). National Human Genome Research Institute (1 октября 2015). — О проекте "Геном человека". Дата обращения: 12 мая 2018. Архивировано 2 мая 2018 года.
  9. ]
  10. 19 июня 2019 года.
  11. 1 2 3 The GENCODE Project: Encyclopædia of genes and gene variants (англ.). Wellcome Trust Sanger Institute. — Описание проекта GENCODE на официальном сайте проекта. Дата обращения: 12 мая 2018. Архивировано из оригинала 29 апреля 2018 года.
  12. 1 2 3 GENCODE current release (англ.). Wellcome Trust Sanger Institute. — Выпуск GENCODE 28 (апрель 2018). Дата обращения: 12 мая 2018. Архивировано из оригинала 12 апреля 2018 года.
  13. 20 июня 2018 года.
  14. 13 мая 2018 года.
  15. 14 мая 2018 года.
  16. GENCODE Custom lncRNA Expression Microarray Design (англ.). GENCODE. Wellcome Trust Sanger Institute. — Дизайн микрочипов экспрессии длинных некодирующих РНК для проекта GENCODE. Дата обращения: 13 мая 2018. Архивировано из оригинала 8 апреля 2018 года.
  17. 21 августа 2017 года.
  18. Participants, all funded personnel (англ.). Wellcome Sanger Institute. — Список участников проекта GENCODE на официальном сайте проекта. Дата обращения: 13 мая 2018. Архивировано из оригинала 11 мая 2018 года.
  19. Statistics about all Human GENCODE releases (англ.). GENCODE. Wellcome Sanger Institute (апрель 2018). — Все выпуски аннотаций человеческого генома на официальном сайте GENCODE. Дата обращения: 13 мая 2018. Архивировано из оригинала 14 апреля 2018 года.
  20. Statistics about the current GENCODE freeze (version 21) (англ.). GENCODE. Wellcome Trust Sanger Institute. — Статистика выпуска GENCODE 21. Дата обращения: 13 мая 2018. Архивировано 8 апреля 2018 года.
  21. Phase 2 GENCODE Goals (англ.). GENCODE. Wellcome Trust Sanger Institute. — Описание задач проекта GENCODE на официальном сайте проекта. Дата обращения: 13 мая 2018. Архивировано 8 апреля 2018 года.
  22. Ensembl Gene Set (англ.). Archive!Ensembl. EMBL-EBI. — Описание данных Ensembl на официальном сайте проекта. Дата обращения: 13 мая 2018.
  23. ]
  24. ]
  25. .
  26. ]
  27. 13 мая 2018 года.
  28. ENCODE data in Ensembl (англ.). Ensembl. EMBL-EBI. — Описание использования данных проекта ENCODE на сайте Ensembl. Дата обращения: 12 мая 2018. Архивировано 9 ноября 2017 года.
  29. RGASP. RNA-seq Genome Annotation Assessment Project (англ.). GENCODE. Wellcome Sanger Institute. — Описание проекта RGASP на официальном сайте GENCODE. Дата обращения: 13 мая 2018. Архивировано из оригинала 8 апреля 2018 года.

Ссылки