От игр до Нобелевки за восемь лет. В чем суть открытий лауреатов премии по химии
Нобелевская премия по химии в этом году присуждена за исследования структуры белков. Ее разделят трое ученых — Демис Хассабис, Джон Джампер (практическое применение ИИ для предсказания пространственной структуры почти любых белков) и Дэвид Бейкер (расчет синтеза произвольных белков по их структуре).
Что случилось?
Это уже вторая премия нобелевской недели, прямо связанная с искусственным интеллектом. Накануне премию по физике получили Джон Хопфилд, заложивший основу современных нейросетей, и Джеффри Хинтон, с полным основанием считающийся «крестным отцом» ИИ. Моделирование сворачивания белков — сложнейшая задача, над которой ученые бились десятилетиями, и ставшая разрешимой только с появлением ИИ.
- Также это вторая премия, лауреаты которой прямо связаны с Google. Хопфилд был ведущим исследователем в компании 10 лет, Хассабис — сооснователь и гендиректор проекта DeepMind, 10 лет назад перешедшего под крыло Google, а Джампер — его старший научный сотрудник.
- Наконец, это тоже сфера с огромными и захватывающими перспективами. Речь идет о произвольном комбинировании главных «кирпичиков жизни» — аминокислот — в белки с заранее предсказанными свойствами, то есть как минимум принципиально новых лекарствах, новых сельхозкультурах и многом другом.
В чем суть открытий
Упрощенно говоря, Хассабис, Джампер и команда ИИ DeepMind совершили революцию в биохимии, решив одну из главных, если не главную ее проблему. Модели серии AlphaFold от DeepMind стали предсказывать сворачивание белков по последовательности аминокислот на уровне исследовательского метода в 2018 году, а к 2022 году описали трехмерную структуру почти 200 млн возможных белков. О важности этой работы говорит хотя бы то, что ученые дождались Нобелевки не через десятилетия, а через считанные годы. Кроме того, в 2022 году Хассабис и Джампер получили другую престижную премию — Breakthrough Prize in Life Sciences, которая даже больше Нобелевской.
Биохимики еще в 1960–1970-х годах выяснили, что пространственную структуру белка (а значит, свойства и функции) однозначно определяет последовательность аминокислот. Теоретически возможных сверток бесконечное множество, однако белок после синтеза в клетке в виде «нитки» находит единственно верную за миллисекунды. Это противоречие получило название парадокса Левинталя. Насколько сложно выглядит даже недлинный свернутый белок, можно посмотреть, например, здесь.
Физическое объяснение того, откуда белок «знает» свою структуру, биохимики нашли: существуют «узлы» свертывания и промежуточные этапы, приводящие его к стабильному состоянию с минимальной энергией. Но вот рассчитать это состояние до работ лауреатов не представлялось возможным: вместо описания простым «словом» из аминокислот каждый белок требовал сложного анализа с помощью рентгеновской кристаллографии либо электронной микроскопии. Чтобы точно выяснить структуру сложного белка, могли уйти годы.
Четыре года на революцию
Команда Хассабиса плотно взялась за белки через два года в составе Google, после того, как достигла победы, считавшейся невозможной для ИИ. В 2016 году модель AlphaGo обыграла чемпиона по игре го Ли Седоля. «Мы начали с игр, потому что по разным причинам разработка ИИ в игровых средах эффективнее, — рассказывал ученый. — Но это никогда не являлось для нас конечной целью. Конечной целью были вещи уровня AlphaFold».
По его словам, список сложных научных проблем, поддающихся решению с помощью ИИ, Хассабис начал составлять еще в университете. «Сворачивание белков было там с самого начала, с 1990-х. У меня было много друзей-биологов, и все они постоянно говорили об этой проблеме», — замечает ученый.
Она была настолько важна, что в 1994 году был организован регулярный научный турнир CASP (Critical Assessment of Protein Structure Prediction). Смысл в том, что претенденты получали последовательность аминокислот белка, а пространственную структуру знали только организаторы. Победителем становилась модель, давшая лучший результат.
До AlphaFold хорошим считался результат 40%, уже первая модель DeepMind дала 60%. Но на этом уровне она застряла, пока в компанию не пришел второй лауреат — Джон Джампер с бэкграундом в физике, биохимии и математике. Благодаря его оригинальным моделям сворачивания точность удалось поднять выше 90% — это уровень, сопоставимый с рентгенографией. CASP был официально закрыт в 2020 году: его задачу посчитали полностью выполненной.
Как писать на языке белков
Исследования Хассабиса и Джампера позволили исследователям «читать» смысл белков, а «писать» аминокислотами ученые смогли благодаря третьему лауреату, профессору Дэвиду Бейкеру из Вашингтонского университета в Сиэтле.
Его команда тоже неплохо выступала в CASP с программой Rosetta, но Бейкер решил повести разработку в обратном направлении. Он задался вопросом: если заранее задать нужную структуру белка, нельзя ли получить соответствующую его функции последовательность аминокислот? Особенности нейросетей дают такую принципиальную возможность — именно поэтому решение задачи распознавания образов означает, что принципиально решена и задача их генерации.
Это оказалось возможным и с белками, и в биохимии произошел концептуальный сдвиг: исследователи перестали полностью зависеть от того, что есть в природе. «Если вам нужен самолет, вы не станете переделывать птицу, — говорил сам лауреат. — Вы осваиваете основы аэродинамики и строите летающие машины». В 2003 году Бейкер опубликовал работу о синтезе первого полностью «искусственного» белка с заданной структурой длиной 97 оснований и опубликовал код Rosetta. Недавно в Rosetta были добавлены модели Джампера, резко улучшившие выход модели.
Что мне с этого?
Премия по химии демонстрирует, зачем вкладываться в фундаментальные исследования: в 2010 году область ИИ была малопопулярной и чисто дотационной, через 15 лет она превратилась в магистральное направление развития. Развитие открытий лауреатов обещает немыслимые прорывы — от полного излечения генетических заболеваний до индивидуально подобранных лекарств, от преодоления резистентности бактерий к антибиотикам до бактерий, поедающих пластик, и от наноматериалов до экологичного химического синтеза.