Представлена новая унифицированная модель анализа ДНК-последовательностей, которая значительно улучшает предсказание эффектов регуляторных вариантов и обещает пролить новый свет на функционирование генома — теперь доступна через API.
Геном представляет собой клеточную инструкцию для живых организмов. Это полный набор ДНК, который определяет практически все аспекты организма: от внешнего вида и функций до роста и размножения. Небольшие вариации в последовательности ДНК могут изменить реакцию организма на окружающую среду или предрасположенность к заболеваниям. Однако расшифровка того, как инструкции генома читаются на молекулярном уровне и что происходит при возникновении небольших вариаций ДНК, остаётся одной из величайших загадок биологии.
Сегодня мы представляем AlphaGenome — новый инструмент искусственного интеллекта (ИИ), который более полно и точно предсказывает, как единичные варианты или мутации в последовательностях человеческой ДНК влияют на широкий спектр биологических процессов, регулирующих гены. Это стало возможным благодаря техническим достижениям, позволяющим модели обрабатывать длинные последовательности ДНК и выдавать высокоточные предсказания.
Для продвижения научных исследований мы предоставляем AlphaGenome в предварительном доступе через наш AlphaGenome API для некоммерческих исследований и планируем выпустить модель в будущем.
Мы считаем, что AlphaGenome может стать ценным ресурсом для научного сообщества, помогая учёным лучше понимать функции генома, биологию заболеваний и в конечном счёте способствуя новым биологическим открытиям и разработке методов лечения.
Как работает AlphaGenome
Наша модель AlphaGenome принимает на вход длинную последовательность ДНК — до 1 миллиона букв, также известных как пары оснований — и предсказывает тысячи молекулярных свойств, характеризующих её регуляторную активность. Она также может оценивать эффекты генетических вариантов или мутаций, сравнивая предсказания для мутированных последовательностей с немодифицированными.
Предсказываемые свойства включают начало и конец генов в различных типах клеток и тканей, места сплайсинга, количество производимой РНК, а также доступность определённых оснований ДНК, их близость друг к другу или связывание с конкретными белками. Данные для обучения были получены из крупных публичных консорциумов, включая ENCODE, GTEx, 4D Nucleome и FANTOM5, которые экспериментально измеряли эти свойства, охватывающие важные модальности регуляции генов в сотнях типов клеток и тканей человека и мыши.
Архитектура AlphaGenome использует свёрточные слои для первоначального обнаружения коротких паттернов в последовательности генома, трансформеры для передачи информации по всем позициям последовательности и финальные слои для преобразования обнаруженных паттернов в предсказания для различных модальностей. Во время обучения эти вычисления распределяются по нескольким взаимосвязанным Tensor Processing Units (TPU) для одной последовательности.
Эта модель строится на основе нашей предыдущей геномной модели Enformer и дополняет AlphaMissense, которая специализируется на категоризации эффектов вариантов в белково-кодирующих регионах. Эти регионы покрывают 2% генома. Остальные 98%, называемые некодирующими регионами, crucial для координации активности генов и содержат множество вариантов, связанных с заболеваниями. AlphaGenome предлагает новый взгляд на интерпретацию этих обширных последовательностей и вариантов внутри них.
Отличительные особенности AlphaGenome
AlphaGenome предлагает несколько отличительных особенностей по сравнению с существующими моделями анализа последовательностей ДНК:
Длинный контекст последовательности с высоким разрешением
Наша модель анализирует до 1 миллиона букв ДНК и делает предсказания с разрешением отдельных букв. Длинный контекст последовательности важен для покрытия регионов, регулирующих гены издалека, а разрешение на уровне оснований важно для захвата детализированных биологических подробностей.
Предыдущие модели были вынуждены жертвовать либо длиной последовательности, либо разрешением, что ограничивало диапазон модальностей, которые они могли совместно моделировать и точно предсказывать. Наши технические достижения устраняют это ограничение без значительного увеличения ресурсов для обучения — обучение одной модели AlphaGenome (без дистилляции) заняло четыре часа и потребовало половины вычислительного бюджета, использованного для обучения нашей оригинальной модели Enformer.
Комплексное мультимодальное предсказание
Благодаря возможности высокоразрешающего предсказания для длинных входных последовательностей, AlphaGenome может предсказывать наиболее разнообразный диапазон модальностей. Таким образом, AlphaGenome предоставляет учёным более полную информацию о сложных этапах регуляции генов.
Эффективная оценка вариантов
В дополнение к предсказанию широкого спектра молекулярных свойств, AlphaGenome может эффективно оценивать влияние генетического варианта на все эти свойства за секунду. Это достигается путём сравнения предсказаний для мутированных последовательностей с немодифицированными и эффективного суммирования этого контраста с использованием различных подходов для разных модальностей.
Новое моделирование сплайс-соединений
Многие редкие генетические заболевания, такие как спинальная мышечная атрофия и некоторые формы кистозного фиброза, могут быть вызваны ошибками в сплайсинге РНК — процессе, при котором части молекулы РНК удаляются или "вырезаются", а оставшиеся концы вновь соединяются. Впервые AlphaGenome может явно моделировать местоположение и уровень экспрессии этих соединений непосредственно из последовательности, предлагая более глубокое понимание последствий генетических вариантов на сплайсинг РНК.
Передовая производительность across benchmarks
AlphaGenome демонстрирует передовую производительность в широком спектре геномных бенчмарков предсказания, таких как предсказание того, какие части молекулы ДНК будут находиться в близкой proximity, будет ли генетический вариант увеличивать или уменьшать экспрессию гена, или изменит ли он паттерн сплайсинга гена.
При создании предсказаний для единичных последовательностей ДНК AlphaGenome превзошла лучшие внешние модели в 22 из 24 оценок. А при предсказании регуляторного эффекта варианта она соответствовала или превысила результаты лучших внешних моделей в 24 из 26 оценок.
Это сравнение включало модели, специализированные для отдельных задач. AlphaGenome была единственной моделью, которая могла совместно предсказывать все оцениваемые модальности, подчёркивая её универсальность. Подробнее читайте в нашем препринте.
Преимущества унифицированной модели
Универсальность AlphaGenome позволяет учёным одновременно исследовать влияние варианта на ряд модальностей с помощью одного вызова API. Это означает, что учёные могут генерировать и тестировать гипотезы быстрее, без необходимости использования нескольких моделей для исследования различных модальностей.
Более того, сильная производительность AlphaGenome указывает на то, что она обучилась относительно общему представлению последовательности ДНК в контексте регуляции генов. Это делает её прочной основой для построения более широким сообществом. После полного релиза модели учёные смогут адаптировать и донастраивать её на своих собственных наборах данных для лучшего решения своих уникальных исследовательских вопросов.
Наконец, этот подход предоставляет гибкую и масштабируемую архитектуру для будущего. Путем расширения данных обучения возможности AlphaGenome могут быть расширены для достижения лучшей производительности, покрытия большего количества видов или включения дополнительных модальностей для сделать модель ещё более comprehensive.
Это веха для области. Впервые у нас есть единая модель, которая объединяет длинный контекст, точность на уровне оснований и передовую производительность across всего спектра геномных задач.
Мощный исследовательский инструмент
Предсказательные возможности AlphaGenome могут помочь нескольким направлениям исследований:
- Понимание заболеваний: Более точное предсказание генетических нарушений может помочь исследователям точнее определять потенциальные причины заболеваний и лучше интерпретировать функциональное воздействие вариантов, связанных с определёнными признаками, потенциально открывая новые терапевтические мишени. Мы считаем, что модель особенно подходит для изучения редких вариантов с потенциально большими эффектами, таких как те, что вызывают редкие менделевские disorders.
- Синтетическая биология: Её предсказания могут быть использованы для руководства design синтетической ДНК с specific regulatory функцией — например, активации гена только в нервных клетках, но не в мышечных.
- Фундаментальные исследования: Она может ускорить наше понимание генома, assisting в mapping его crucial функциональных элементов и определении их ролей, identifying наиболее essential инструкций ДНК для регуляции функции определённого типа клеток.
Например, мы использовали AlphaGenome для исследования потенциального механизма мутации, ассоциированной с cancer. В существующем исследовании пациентов с T-клеточным острым лимфобластным лейкозом (T-ALL) исследователи наблюдали мутации в определённых locations в геноме. Используя AlphaGenome, мы предсказали, что мутации активируют nearby ген под названием TAL1 путем введения MYB DNA binding мотива, что воспроизвело известный механизм заболевания и highlighted способность AlphaGenome связывать specific некодирующие варианты с disease генами.
AlphaGenome будет мощным инструментом для области. Определение relevance различных некодирующих вариантов может быть extremely challenging, particularly для выполнения в scale. Этот инструмент предоставит crucial часть головоломки, позволяя нам делать лучшие связи для понимания заболеваний like cancer.
Текущие ограничения
AlphaGenome знаменует significant шаг вперёд, но важно acknowledge её текущие ограничения.
Как и другие модели на основе последовательностей, точный захват influence очень distant регуляторных элементов, like тех, что находятся over 100,000 букв ДНК away, всё ещё remains ongoing challenge. Другим priority для future работы является further увеличение способности модели захватывать cell- и tissue-specific паттерны.
Мы не designed или validated AlphaGenome для personal genome предсказания, known challenge для AI моделей. Вместо этого мы focused more на characterization производительности на individual генетических вариантах. И while AlphaGenome может предсказывать molecular outcomes, она не даёт full picture того, как генетические вариации lead к complex признакам или заболеваниям. Эти often involve broader биологические процессы, like developmental и environmental факторы, которые beyond direct scope нашей модели.
Мы продолжаем улучшать наши модели и gathering feedback чтобы помочь нам address эти gaps.
Предоставление сообществу возможности раскрыть потенциал AlphaGenome
AlphaGenome теперь available для non-commercial использования через наш AlphaGenome API. Обратите внимание, что предсказания нашей модели предназначены только для research использования и не были designed или validated для direct clinical целей.
Исследователи по всему миру приглашаются связаться с potential use-cases для AlphaGenome и задать вопросы или поделиться feedback через community forum.
Мы надеемся, что AlphaGenome станет important инструментом для better понимания генома, и мы committed к работе вместе с external экспертами across academia, industry и government organizations чтобы ensure AlphaGenome benefits как можно больше людей.
Вместе с collective усилиями wider научного сообщества мы надеемся, что она углубит наше понимание complex клеточных процессов, encoded в последовательности ДНК, и эффектов вариантов, и drive exciting новые открытия в genomics и healthcare.