AlphaFold в 2020 году справился с задачей предсказания свертки белков и доказал, что искусственный интеллект может раскрыть одну из ключевых тайн биологии: как последовательность аминокислот превращается в действующую молекулярную машину.
Разработчики из Google DeepMind, чья платформа получила Нобелевскую премию, перешли от анализа структуры белков к их роли в организме. С помощью тех же подходов машинного обучения они создали AlphaMissense — систему для оценки, какие мутации в белках способны спровоцировать заболевания. Далее появился AlphaProteo — инструмент для конструирования белков, которые цепляются за заданные молекулярные цели.
Теперь авторы платформы Alpha углубляются в геномику, чтобы разобраться, как огромные участки регуляторной ДНК управляют моментом, местом и способом включения генов.
Знакомьтесь: AlphaGenome. Этот инструмент глубокого обучения называют универсальным помощником для работы с некодирующей ДНК. Он помогает последовательно расшифровывать 98% генома, которые не несут кодов для белков, а координируют применение этих кодов внутри клетки.
«Это дает возможность моделировать запутанные процессы с точностью, которой раньше не достигали», — отметил Žiga Avsec, руководитель направления геномики в Google DeepMind, на презентации новинки.
Сужение пространства поиска в геноме
У AlphaGenome есть свои слабые стороны. Данные для обучения в основном взяты из наборов bulk tissue, из-за чего точность падает для редких клеточных типов или особых этапов развития, подчеркивает Кристина Лесли, специалист по компьютационной биологии в Центре Memorial Sloan Kettering по онкологии. «Переход на новые типы клеток — это большая проблема», — поясняет она.
Кроме того, модель плохо справляется с дальнодействующими влияниями, если регуляторные зоны удалены на сотни тысяч или миллионы пар оснований от генов-мишеней.
Несмотря на это, она позволяет исследователям отбирать наиболее перспективные генетические варианты, сокращая объемы с полного генома до реального списка идей для экспериментов. «Пока это лидер в своей области», — считает Лесли.
Как сообщают в DeepMind, тысячи специалистов по миру уже применяют AlphaGenome, который можно бесплатно взять на GitHub для научных работ. Инструмент помогает находить генетические причины рака и редких недугов, выискивать цели для препаратов и синтезировать ДНК с нужными свойствами регуляции.
«Круто, что AlphaGenome обходит все остальные алгоритмы, разбирающиеся в разных гранях геномной биологии», — комментирует Ричард Янг, биолог из Whitehead Institute for Biomedical Research. Он сотрудничал с Google DeepMind над платформой ИИ-помощника ученым, но к AlphaGenome отношения не имел. «Это серьезный буст для исследований».
Высокое разрешение на геномном масштабе
Запуск AlphaGenome продолжает наступление ИИ на сложнейшие биологические задачи.
Для DeepMind прослеживается ясная стратегия. Их коллекция моделей биологии — от свертки и мутаций белков до их создания и теперь регуляции генома — образует цельную платформу для прогнозов на молекулярном уровне. Это откроет двери для свежих методов диагностики и лечения, уверен Пушмит Кохли, вице-президент по науке и стратегии в Google DeepMind.
«Каждая модель решает важные вопросы понимания биологии», — говорит Кохли.
AlphaGenome — самая свежая и широкая часть этой экосистемы. Обученная прямо на последовательностях ДНК, она выдает прогнозы по 11 видам сигналов, отвечающих за работу генов в клетках. Сюда входит статус гена (активен или нет), точки старта активности, правки генетических посланий, степень упаковки ДНК, точки привязки регуляторных белков и связи между отдаленными участками генома.
Отдельные ИИ-инструменты уже есть для многих фич: SpliceAI угадывает сайты сплайсинга, ChromBPNet оценивает локальную доступность хроматина, Orca строит 3D-карту генома. Однако их приходится комбинировать вручную из разных источников.
«AlphaGenome убирает эту разобщенность, предлагая удобный единый подход, который упростит жизнь ученым и ускорит их дела», — объясняет Наташа Латышева, специалист по компьютационной генетике в Google DeepMind.
Предыдущие попытки всеобъемлющих моделей вроде Borzoi и Enformer обычно шли на компромисс: широкий охват в ущерб детализации.
AlphaGenome обходит ловушку. Она переваривает участки до миллиона пар оснований ДНК, не теряя дальних связей, и при этом прогнозирует на уровне одной базы. На деле это значит оценить, как правка одной буквы отзовется на гигантском геномном куске.
Как изменения ДНК ведут к болезням
Статья с описанием новинки приводит примеры таких возможностей.
Например, модель верно показала, как малое удаление ломает сайт сплайсинга в гене по биологии кровеносных сосудов, уменьшая производство РНК. Или как мутации у гена, связанного с раком, усиливают его, подстегивая тяжелую лейкемию.
Хотя работает ли точность на малоизученных генах — открытый вопрос.
«Полезная штука, но все же инструмент», — говорит Чарльз Маллиган, замглавы Comprehensive Cancer Center при St. Jude Children’s Research. «Не конец пути открытий, а подсказка для следующих шагов — проверок и опытов».
По словам Латышевой, фишка системы в предпочтении ложных пропусков перед ложными тревогами: она скорее проигнорирует стоящий вариант, чем поднимет шум из ничего. «Зато сильный сигнал от нее — это гарантия верности», — добавляет она. Такие прогнозы внушают уверенность.
Это пригодилось Y-h. Taguchi и Кенте Кобаяси из Университета Чуо в Японии для проверки модели под нагрузкой. Как ранние пользователи, биоinformатики применили AlphaGenome для независимой верификации: она подтвердила повышенную активность генов от дефицита сна именно в тех нейронах, что и показало их прошлое изучение экспрессии генов в мозге.
«AlphaGenome блестяще прошла перекрестную проверку», — подводит итог Та구чи, чьи результаты вышли 1 января в журнале Genes.
Такие случаи ярко показывают суть AlphaGenome. Подобно AlphaFold, она не раскрывает биологию целиком, а делает доступными ее самые темные уголки.