Чтобы огромная техническая сложность решаемой задачи стала понятнее, надо дать некоторые пояснения. Сама идея о том, что по результатам декодирования сканов ФМРТ в области зрительной коры можно воссоздавать визуальные картины, обрабатываемые мозгом, выдвинута и исследуется учёными довольно давно. Более того, с середины двухтысячных годов из разных лабораторий стали поступать результаты, свидетельствующие, что действительно возможно восстанавливать по сканам томографа те картинки, что разглядывает при сканировании человек. Но надо подчеркнуть, что это исключительно статичные картинки — символы, цифры, естественные чёрно-белые фотографии и так далее.
Восстанавливать динамичные картины принципиально сложнее — метод ФМРТ физически регистрирует активность мозга по сигналам, зависящим от уровня кислорода в крови. То есть динамика снимаемой картины непосредственно связана со скоростью тока крови через мозг, а эта скорость несравнимо медленнее скорости нейросигналов, кодирующих динамическую информацию в зрительной коре. Иначе говоря, учёные полагают, что переход от декодирования статичных картин к адекватному декодированию динамики — это тот самый критически важный шаг, что должен помочь в получении реконструкций таких внутренних состояний сознания, как воображение, сны и тому подобные процессы.
Именно в этом направлении и удалось ныне заметно продвинуться исследователям лаборатории университета Беркли, возглавляемой Джеком Гэлантом.
В своих предыдущих исследованиях Гэлант и его коллеги уже построили достаточно мощную вычислительную модель для декодирования статичных фотографий. Этот алгоритм позволял им по ФМРТ-сканам мозга с высокой точностью воссоздавать статические изображения. Для декодирования сигналов мозга при наблюдении движущихся картинок была разработана новая, двухэтапная вычислительная модель. Суть её сводится к раздельному моделированию лежащих в основе процессов: работы нейропопуляций и гемодинамики, то есть сигналов тока крови (коль скоро они функционируют с существенно различными скоростями).
В компьютере, обрабатывающем изображения-сканы томографа, мозг поделён на крошечные трёхмерные кубики, именуемые объёмными пикселями, или, кратко, «вокселями». Конкретно в данном эксперименте один воксель соответствует объёму ткани мозга размером 2х2х2,5 мм. Физически каждый такой воксель представляет собой совокупную активность сотен тысяч нейронов. И для каждого вокселя исследователи построили модель, которая описывает, каким образом информация о формах и движениях в просматриваемом человеком фильме отображается в активности мозга.
Эта модель описывает быструю визуальную информацию и медленную гемодинамику с помощью раздельных компонентов. Сначала записывались сигналы тока крови в зрительной коре испытуемых, которые смотрели обычные кинофильмы, а затем шло подстраивание алгоритма раздельно к индивидуальным вокселям. Чтобы наглядно продемонстрировать эффективность избранного подхода, исследователи сконструировали на его основе «байесовский декодер», скомбинировав модели оценочного кодирования с образцами предварительно просмотренных человеком кинофильмов.
Поясняя, почему для анализа был выбран именно просмотр кинофильмов, Синдзи Нисимото (ведущий автор исследования в лаборатории Гэланта) говорит следующее: «Наш естественный визуальный опыт напоминает просмотр кинофильма. Для того чтобы разрабатываемая технология нашла широкое применение, мы должны понять, каким образом наш мозг обрабатывает такого рода динамический визуальный опыт».
Сам Нисимото и ещё двое других исследователей команды служили в качестве испытуемых в продолжительной серии экспериментов. Главным образом это было сделано потому, что процедура сканирования каждый раз требует от добровольцев тихо и неподвижно лежать внутри магнита ФМРТ на протяжении нескольких часов. А процедур таких требовалось довольно много, потому что для формирования большой библиотеки образов, необходимой для обучения программы, было просмотрено в общей сложности восемнадцать миллионов секунд скачанных с Youtube видеотрейлеров к голливудским кинофильмам.