GENCODE
GENCODE | |
---|---|
Содержимое | |
Описание | Энциклопедия генов и генных вариантов |
Тип данных | Аннотации генов человека и мыши в формате GTF/GFF3 |
Контакты | |
Исследовательский центр | Институт Сэнгера (Welcome Trust Sanger Institute) |
Авторы | Harrow J, et al [1] |
Дата выпуска | Сентябрь 2012 |
Доступность | |
Сайт | GENCODE |
Прочее | |
Лицензия | Открытый доступ |
Частота релизов |
Геном человека — раз в 3 месяца Геном мыши — раз в 6 месяцев |
Версия | GENCODE 43 (человеческий геном), M32 (мышиный геном) |
GENCODE — проект геномных исследований, являющийся составной частью проекта «Энциклопедия элементов ДНК» (ENCODE)[2].
GENCODE был создан в рамках пилотной фазы проекта
Конечная цель проекта — создание базы аннотаций, включающей все белок-кодирующие локусы с альтернативными транскриптами[5], некодирующие локусы с обнаруженными транскриптами[6] и псевдогены[7].
История
В сентябре 2003 года Национальный институт исследований
В апреле 2005 года была выпущена первая версия GENCODE с аннотацией 44
В июне 2007 года пилотная фаза ENCODE была завершена[10]. Проект был признан удачным, и институт Сэнгера (Welcome Trust Sanger Institute) получил грант от NHGRI для масштабирования проекта GENCODE[11].
В 2012 году был выпущен крупнейший релиз GENCODE 7 (на основе данных на момент декабря 2011 года), в котором была скомбинирована автоматическая аннотация Ensembl и аннотация вручную. С 2013 года GENCODE был удостоен второго гранта на продолжение работы по аннотации генома человека, а также на аннотацию мышиного генома для сравнительных исследований геномов мыши и человека[11].
В апреле 2018 года была выпущена версия GENCODE 28 (содержащая данные, обработанные до ноября 2017 года)[12].
Задачи
Задачи, решавшиеся в проекте GENCODE, вставали перед научным сообществом по мере расширения познаний в области генетики. Как правило, эти задачи были связаны с уточнением определений генетических терминов и с изучением функций геномных участков, ранее не подвергавшихся близкому рассмотрению. Ниже приведены примеры интересных вопросов и тем, которые исследуются в рамках GENCODE[11].
Определение понятия «ген»
Задача определения понятия «ген» стоит перед учеными на протяжении всего времени с тех пор, как исследователи задумались о вопросах наследственности. В 1900-х годах ген рассматривался как некая дискретная единица наследственности, затем ген стали считать основой для биосинтеза белка, а в последнее время это понятие расширили до геномного фрагмента, транскрибирующегося в РНК[13]. Хотя определение гена претерпело значительные изменения за последний век, оно осталось сложным и противоречивым предметом обсуждения для многих ученых. В ходе развития проектов ENCODE и, в частности, GENCODE, были подробнее описаны ещё более проблематичные аспекты определения — такие как альтернативный сплайсинг, межгенные участки, а также сложные паттерны рассеянной регуляции, консервативность некодирующих участков и обилие генов, продуцирующих некодирующие РНК. Поскольку глобальной целью проекта GENCODE является создание энциклопедии генов и генных вариантов, эти проблемы поставили проект перед необходимостью дать обновленное определение понятия гена[13].
Псевдогены
Псевдогены — это белок-кодирующие (или сходные с ними) последовательности ДНК, в которых произошла делеция или сдвиг рамки считывания[14]. В большинстве геномных баз данных их упоминают как побочные продукты аннотации более привычных белок-кодирующих последовательностей. Однако недавний анализ показал, что некоторые из псевдогенов не просто экспрессируются, но и функционируют, играя роль в различных биологических процессах[15]. Чтобы разобраться со всеми сложностями описания псевдогенов, в рамках GENCODE исследователи создали онтологию псевдогенов с использованием автоматических, ручных и экспериментальных методов, чтобы связать воедино их различные свойства, в том числе свойства последовательности, эволюцию и возможную биологическую функцию[4]. Количество аннотированных псевдогенов растет с каждой новой версией GENCODE (см. Основная статистика).
Длинные некодирующие РНК (lncRNA)
Одной из ключевых областей исследования проекта GENCODE является изучение биологического значения длинных некодирующих РНК (lncRNA). Для более глубокого понимания и изучения экспрессии lncRNA у человека, в рамках GENCODE был запущен подпроект для разработки пользовательских микрочипов для количественного определения таких транскриптов в аннотации lncRNA[6]. Некоторое количество подобных платформ было создано с помощью системы Agilent Technologies eArray, они доступны в стандартном формате Аgilent[16].
Датасет длинных некодирующих РНК, представленный в GENCODE (в частности, в версии GENCODE 7), считается самым большим из всех представленных датасетов lncRNA. При этом он мало перекрывается с другими существующими датасетами[6]. Транскрипты, аннотированные как lncRNA, далее могут быть классифицированы на следующие типы на основе их положения в геноме относительно белок-кодирующих генов:
- Антисмысловая РНК: локус, для которого был найден хотя бы один транскрипт, перекрывающийся с экзоном белок-кодирующего гена на противоположной цепи, или есть опубликованные данные об антисмысловой регуляции какого-либо гена;
- Длинная межгенная некодирующая РНК (lincRNA[17]);
- «Перекрывающийся»: локус, содержащий белок-кодирующий ген внутри интрона на той же цепи;
- «Интронный»: локус, расположенный внутри интрона, но не перекрывающийся с экзонами на той же цепи;
- Процессированный транскрипт: локус, для которого ни один транскрипт не содержит открытую рамку считывания, и который не может быть отнесен ни к одной из предыдущих категорий из-за сложной структуры.
Основные участники
В таблице приведены институты, чье участие было анонсировано на сайте GENCODE[18].
Пилотная фаза | Масштабирование проекта | Вторая фаза (текущая) |
---|---|---|
Институт Сэнгера, Кэмбридж, Великобритания | Институт Сэнгера, Кэмбридж, Великобритания | Институт Сэнгера, Кэмбридж, Великобритания |
Муниципальный Институт Медицинских Исследований (IMIM), Барселона, Каталония | Центр геномной регуляции (CRG)[англ.], Барселона, Каталония | Центр геномной регуляции (CRG)[англ.], Барселона, Каталония |
Университет Женевы, Швейцария | Университет Лозанны, Швейцария | Университет Лозанны, Швейцария |
Калифорнийский Университет, Беркли, США | Университет Санта Круз (UCSC), Калифорния, США | Университет Санта Круз (UCSC), Калифорния, США |
Европейский Биоинформатический Институт, Хинкстон, Великобритания | Массачусетский технологический институт (MIT), Бостон США | Массачусетский технологический институт (MIT), Бостон, США |
Йельский университет, Нью-Хейвен, США | Йельский университет, Нью-Хейвен, США | |
Испанский национальный центр раковых исследований (CNIO)[англ.], Мадрид, Испания | Испанский национальный центр раковых исследований (CNIO)[англ.], Мадрид, Испания | |
Университет Вашингтона (WashU), Сент-Луис, США | Европейский Биоинформатический Институт , Кэмбридж, Великобритания
|
Основная статистика
Полнота данных в аннотациях GENCODE непрерывно растёт. Ниже приведена статистика версии GENCODE 28[19]. Эта версия соответствует выпуску Ensembl 92 и содержит аннотацию, сделанную по сборке человеческого генома GRCh38, но доступную также для сборки GRCh37).
Категории | Всего | Категории | Всего |
---|---|---|---|
Общее количество генов | 58 381 | Всего транскриптов | 203 835 |
Белок-кодирующие гены | 19 901 | Белок-кодирующие транскрипты: | 82 335 |
Гены длинных некодирующих РНК | 15 779 | - кодирующие полный белок | 56 541 |
Гены малых некодирующих РНК | 7 569 | - кодирующие фрагмент белка | 25 794 |
Псевдогены: | 14 723 | Нонсенс-опосредованно распавшиеся транскрипты | 14 889 |
- обработанные псевдогены | 10 693 | Транскрипты локусов длинных некодирующих РНК | 28 468 |
- необработанные псевдогены | 3 519 | ||
- унитарные псевдогены | 218 | ||
- полиморфные псевдогены | 38 | ||
- псевдогены | 18 | ||
Генные сегменты иммуноглобулин-T-клеточного рецептора: | 645 | Общее число различных аннотаций | 61 132 |
- белок-кодирующие сегменты | 408 | Число генов, к которым относится больше одной аннотации | 13 641 |
- псевдогены | 237 |
Сравнение версий GENCODE
Сравнительная статистика четырёх основных релизов GENCODE продемонстрирована на графике справа[20].
Данные свидетельствуют о том, что покрытие генома (количество обнаруженных и аннотированных локусов) стабильно увеличивается. При этом доля белок-кодирующих генов среди аннотированных уменьшается — в основном, из-за результатов аннотирования
Методология
В проекте GENCODE применялись ручная и автоматическая аннотация. При верификации результатов использовались данные лабораторных экспериментов[21].
Автоматическая аннотация (ENSEMBL)
Информация о транскриптах
Аннотация вручную (группа HAVANA)
HAVANA (Human and Vertebrate Analysis and Annotation) — исследовательская группа, осуществляющая ручную аннотацию транскриптов в проекте GENCODE[3][4].
Помимо группы HAVANA, в состав консорциума GENCODE входило ещё несколько групп, проводивших анализ аннотированных локусов с помощью программ
Помимо официально вовлечённых в проект групп, над улучшением качества аннотации GENCODE работали независимые исследователи[26].
Объединение ручной и автоматической аннотаций
При объединении все модели транскриптов, полученные автоматической и ручной аннотацией, сравнивались для перекрывающихся транскриптов. Найденные расхождения детектировались с использованием системы AnnoTrack[4].
Автоматическая аннотация не всегда может считаться корректной (так, только в 45 % случаев автоматической аннотации корректно предсказываются все альтернативные транскрипты[4]). В случае несовпадения аннотаций приоритетной являлась аннотация HAVANA, так как ручная аннотация в сложных случаях предполагала анализ геномного контекста, литературы и использование экспериментальных данных Mus musculus. Тем не менее, для таких случаев сохраняется информация, полученная обоими способами аннотации[4].
Оценка качества
Транскриптам присваивается определённый уровень поддержки на основании сравнения транскрипта GENCODE с выравниванием мРНК и маркерных экспрессирующихся последовательностей (EST), полученным из Ensembl и UCSC. В итоге аннотации каждого транскрипта делятся на определённые вручную, автоматически или слитые аннотации, то есть те, для которых и автоматический метод, и метод аннотирования вручную дали одинаковые результаты[4].
Основные подходы, использованные в GENCODE 7
Амплификация, секвенирование, картирование и валидация результатов
С помощью амплификации
Прочие подходы
Для аннотации альтернативных транскриптов генов использовался веб-сервис APPRIS (CNIO). APPRIS выбирает один вариант в качестве «главной изоформы» на основании информации о белковом продукте гена и об
Для поиска кодирующих последовательностей в транскриптах, автоматически предсказанных на основании данных
Организация данных
Текущая версия набора генов человека в GENCODE включает файлы аннотаций (в форматах GTF и GFF3), FASTA-файлы и файлы METADATA, связанные с аннотацией GENCODE для всех геномных участков[12]. Они соотнесены с референсной хромосомой и хранятся в отдельных файлах, которые содержат: генную аннотацию, сайты полиаденилирования, аннотированные группой HAVANA, псевдогены, предсказанные алгоритмами Йельского университета и университета Санта-Круз (США), длинные некодирующие РНК, а также структуры тРНК, предсказанные tRNA-Scan [12].
Определение уровня аннотации
Все гены датасета GENCODE классифицируются на три категории в соответствии с типом аннотации[4]:
- Уровень 1 (подтвержденный локус): включает транскрипты, которые были аннотированы вручную и проверены экспериментально с помощью RT-PCR — секвенирования, а также псевдогены, подтвержденные тремя разными методологиями[4].
- Уровень 2 (аннотированный вручную локус): к нему относятся транскрипты, аннотированые только вручную группой HAVANA, а также транскрипты, совмещенные с моделями, полученными по автоматическому протоколу Ensembl[4].
- Уровень 3 (автоматически аннотированный локус): отражает транскрипты или псевдогены, предсказанные только с помощью автоматической аннотации Ensembl[4].
Определение статуса гена/транскрипта
Генам и транскриптам присваиваются статусы «известный», «новый» и «предполагаемый» в зависимости от их представленности в других основных базах данных и от оснований, использованных для построения составляющих их транскриптов[4].
Известный («known»): представлен в базах данных HUGO Gene Nomenclature Committee (HGNC) и RefSeq[4].
Новый («novel»): не представлен в базах HGNC или RefSeq, но хорошо подтверждается либо транскриптом, специфичным для данного локуса, либо свидетельствами его присутствия в паралогичном или ортологичном локусе[4].
Предполагаемый («putative»): не представлен в базах НGNC или RefSeq, но подтверждается признаками существования более короткого и редкого транскрипта[4].
Связанные с GENCODE проекты
Ensembl
Проект Ensembl является важной частью проекта ENCODE и представляет собой геномный браузер, позволяющий визуализировать сборку генома и все данные проекта ENCODE, в частности, аннотированные в проекте GENCODE геномные участки[28].
RGASP
RGASP (The RNA-seq Genome Annotation Assessment Project) — проект, организованный в рамках консорциума GENCODE после семинара EGASP (ENCODE Genome Annotation Assessment Project) по предсказанию генов. Было проведено две сессии семинаров для анализа результатов секвенирования РНК, а также рассмотрения его различных (методических и технических) аспектов. Одной из наиболее существенных находок первых двух стадий проекта стала важность соотнесения чтения с качеством полученного предсказания гена. В 2014 году была проведена третья сессия семинаров RGASP, где основное внимание было уделено картированию чтений на геном. Проект предоставил софт для аннотации транскриптов (определение, реконструкция и расчет количества транскриптов)[29].
Примечания
- ]
- ↑ ENCODE: Encyclopedia of DNA Elements (англ.). ENCODE. Stanford University. — Официальный сайт проекта и одноименного консорциума ENCODE. Дата обращения: 19 мая 2018. Архивировано 28 марта 2021 года.
- ↑ ]
- ↑ ]
- ]
- ↑ ]
- ]
- ↑ All About The Human Genome Project (HGP) (англ.). National Human Genome Research Institute (1 октября 2015). — О проекте "Геном человека". Дата обращения: 12 мая 2018. Архивировано 2 мая 2018 года.
- ↑ ]
- 19 июня 2019 года.
- ↑ 1 2 3 The GENCODE Project: Encyclopædia of genes and gene variants (англ.). Wellcome Trust Sanger Institute. — Описание проекта GENCODE на официальном сайте проекта. Дата обращения: 12 мая 2018. Архивировано из оригинала 29 апреля 2018 года.
- ↑ 1 2 3 GENCODE current release (англ.). Wellcome Trust Sanger Institute. — Выпуск GENCODE 28 (апрель 2018). Дата обращения: 12 мая 2018. Архивировано из оригинала 12 апреля 2018 года.
- ↑ 20 июня 2018 года.
- 13 мая 2018 года.
- 14 мая 2018 года.
- ↑ GENCODE Custom lncRNA Expression Microarray Design (англ.). GENCODE. Wellcome Trust Sanger Institute. — Дизайн микрочипов экспрессии длинных некодирующих РНК для проекта GENCODE. Дата обращения: 13 мая 2018. Архивировано из оригинала 8 апреля 2018 года.
- 21 августа 2017 года.
- ↑ Participants, all funded personnel (англ.). Wellcome Sanger Institute. — Список участников проекта GENCODE на официальном сайте проекта. Дата обращения: 13 мая 2018. Архивировано из оригинала 11 мая 2018 года.
- ↑ Statistics about all Human GENCODE releases (англ.). GENCODE. Wellcome Sanger Institute (апрель 2018). — Все выпуски аннотаций человеческого генома на официальном сайте GENCODE. Дата обращения: 13 мая 2018. Архивировано из оригинала 14 апреля 2018 года.
- ↑ Statistics about the current GENCODE freeze (version 21) (англ.). GENCODE. Wellcome Trust Sanger Institute. — Статистика выпуска GENCODE 21. Дата обращения: 13 мая 2018. Архивировано 8 апреля 2018 года.
- ↑ Phase 2 GENCODE Goals (англ.). GENCODE. Wellcome Trust Sanger Institute. — Описание задач проекта GENCODE на официальном сайте проекта. Дата обращения: 13 мая 2018. Архивировано 8 апреля 2018 года.
- ↑ Ensembl Gene Set (англ.). Archive!Ensembl. EMBL-EBI. — Описание данных Ensembl на официальном сайте проекта. Дата обращения: 13 мая 2018.
- ]
- ]
- .
- ]
- 13 мая 2018 года.
- ↑ ENCODE data in Ensembl (англ.). Ensembl. EMBL-EBI. — Описание использования данных проекта ENCODE на сайте Ensembl. Дата обращения: 12 мая 2018. Архивировано 9 ноября 2017 года.
- ↑ RGASP. RNA-seq Genome Annotation Assessment Project (англ.). GENCODE. Wellcome Sanger Institute. — Описание проекта RGASP на официальном сайте GENCODE. Дата обращения: 13 мая 2018. Архивировано из оригинала 8 апреля 2018 года.
Ссылки
Эта статья входит в число хороших статей русскоязычного раздела Википедии. |