В рамках совместного исследования с Йельским университетом мы представляем Cell2Sentence-Scale 27B (C2S-Scale), новую базовую модель с 27 миллиардами параметров, предназначенную для анализа языка отдельных клеток. Эта модель создана на основе семейства открытых моделей Gemma и открывает новые горизонты в изучении одиночных клеток.
Это событие становится важной вехой в применении ИИ для научных открытий. C2S-Scale сгенерировала оригинальную гипотезу относительно поведения раковых клеток, и мы подтвердили ее предсказание с помощью экспериментов на живых клетках. Такое открытие указывает на перспективный путь для создания методов лечения рака.
Данный релиз опирается на наши предыдущие исследования, где мы показали, что биологические модели подчиняются четким законам масштабирования — подобно моделям естественного языка, более крупные версии демонстрируют лучшие результаты в биологии. Эти работы поставили ключевой вопрос: улучшает ли большая модель только существующие задачи или приобретает совершенно новые возможности? Настоящий потенциал масштабирования заключается в генерации свежих идей и раскрытии неизвестного.
Как функционирует C2S-Scale 27B
Одна из главных проблем в иммунотерапии рака заключается в том, что многие опухоли бывают "холодными" — они невидимы для иммунной системы организма. Основной подход к их "нагреву" состоит в принуждении к проявлению сигналов, активирующих иммунитет, через механизм антигенной презентации.
Мы поставили перед нашей новой моделью C2S-Scale 27B задачу: выявить препарат, который выступал бы в роли условного усилителя, повышая иммунный сигнал исключительно в определенной "иммуно-контекст-положительной" среде, где присутствует низкий уровень интерферона (ключевого белка иммунной сигнализации), недостаточный для самостоятельной индукции антигенной презентации. Это требовало высокого уровня условного рассуждения, которое проявляется как emergentная способность на этапе масштабирования; наши меньшие модели не справлялись с таким контекстно-зависимым эффектом.
Для решения этой задачи мы разработали двухконтекстный виртуальный скрининг, чтобы обнаружить именно этот синергетический эффект. Виртуальный скрининг включал два этапа:
- Иммуно-контекст-положительный: Мы предоставили модели реальные образцы от пациентов с сохраненными взаимодействиями опухоль-иммунитет и низкоуровневой сигнализацией интерферона.
- Иммуно-контекст-нейтральный: Мы предоставили модели данные изолированных клеточных линий без иммунного контекста.
Затем мы смоделировали влияние более 4000 препаратов в обоих контекстах и попросили модель предсказать, какие из них усилят антигенную презентацию исключительно в первом контексте, чтобы сместить акцент на условия, релевантные для пациентов. Среди множества кандидатов, выделенных моделью, 10-30% уже известны из предыдущей литературы, в то время как остальные представляют собой неожиданные находки без ранее установленных связей с этим скринингом.
От предсказания к экспериментальной проверке
Предсказания модели оказались четкими. Она выявила яркое "разделение контекстов" для ингибитора киназы CK2 под названием силмитасертиб (CX-4945). Модель прогнозировала значительное усиление антигенной презентации при применении силмитасертиба в "иммуно-контекст-положительной" среде, но минимальный или отсутствующий эффект в "иммуно-контекст-нейтральной". Особую ценность этой гипотезы придавала ее новизна. Хотя CK2 участвует во многих клеточных процессах, включая модуляцию иммунной системы, ингибирование CK2 с помощью силмитасертиба ранее не ассоциировалось в литературе с прямым повышением экспрессии MHC-I или антигенной презентацией. Это подчеркивает, что модель создавала свежую, проверяемую идею, а не просто воспроизводила известные факты.
Однако предсказание обретает ценность только при подтверждении в клинической практике. Первое испытание происходит в лаборатории, а затем — в клинике.
На следующем этапе проекта мы перенесли эту гипотезу на лабораторный стол и проверили ее на моделях человеческих нейроэндокринных клеток — типе клеток, который модель не видела во время обучения. Эксперименты показали:
- Обработка клеток только силмитасертибом не влияла на антигенную презентацию (MHC-I).
- Обработка клеток низкой дозой интерферона давала умеренный эффект.
- Комбинированная обработка силмитасертибом и низкой дозой интерферона приводила к заметному синергетическому усилению антигенной презентации.
Удивительно, но в лабораторных тестах сочетание силмитасертиба и низкой дозы интерферона вызывало примерно 50-процентное увеличение антигенной презентации, делая опухоль более заметной для иммунной системы.
Предсказание модели in silico многократно подтвердилось in vitro. C2S-Scale успешно выявила новый условный усилитель интерферона, открыв потенциальный путь к превращению "холодных" опухолей в "горячие" и повышению их отзывчивости на иммунотерапию. Хотя это лишь начальный шаг, он предлагает мощный, экспериментально подтвержденный задел для разработки комбинированных терапий, где несколько препаратов работают вместе для достижения более сильного результата.
Этот исход также задает шаблон для нового типа биологических открытий. Он демонстрирует, что следуя законам масштабирования и создавая крупные модели вроде C2S-Scale 27B, мы можем разрабатывать предиктивные модели клеточного поведения, способные проводить высокопроизводительные виртуальные скрининги, обнаруживать биологию, зависящую от контекста, и генерировать гипотезы, основанные на биологических данных.
Команды в Йельском университете сейчас изучают раскрытый механизм и проверяют дополнительные предсказания, сгенерированные ИИ, в других иммунных контекстах. С дальнейшей доклинической и клинической верификацией такие гипотезы могут ускорить путь к новым методам лечения.
Начало работы с C2S-Scale 27B
Новая модель C2S-Scale 27B и связанные с ней ресурсы теперь доступны для научного сообщества. Полный научный препринт опубликован на bioRxiv. Модель и ресурсы размещены на Hugging Face. Код доступен на GitHub.