Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!
Ручная многоракурсная стереореконструкция биологической нейронной сети занимает десятки тысяч часов. Специально к старту нового потока продвинутого курса «Machine Learning Pro + Deep Learning» делимся материалом, в котором рассказывается о том, как исследователи института Макса Планка значительно (от 10 до 25 раз) повысили эффективность работы с помощью искусственного интеллекта, об опровергающих некоторые предположения результатах исследования и о дальнейших планах исследователей. Ссылку на исходный код автоматизированного рабочего процесса вы найдёте внутри статьи.
Исследователи из отдела коннектомики Института Макса Планка (MPI) по исследованию мозга изучают нейронные сети коры головного мозга, чтобы понять, как мозг обрабатывает сенсорный опыт для того, чтобы обнаруживать объекты в окружающей среде. Их работа содержит построение коннектома — карт нейронных цепей, идентифицирующих индивидуальные связи между нейронами.
В отличие от «нейронов» искусственных нейронных сетей биологические нейроны не организованы в аккуратные ряды одномерных слоев. Вместо этого они упакованы и соединены в плотную заполняющую пространство трёхмерную сетку, которую можно изучать только по изображениям мозговой ткани, полученным с нанометровым разрешением электронного микроскопа (рис. 1).
Рисунок 1 — Плотная реконструкция приблизительно 500 000 кубических микрометров кортикальной ткани млекопитающих, дающая 270 см нейрональных кабелей, образующих коннектом из примерно 400 000 синапсов между 34 221 аксоном.
Из статьи «Dense connectomic reconstruction in layer 4 of the somatosensory cortex»
Трёхмерные электронные микрофотографии показывают луковичные тела клеток отдельных нейронов и плотную извилистую сеть тонких нейронных кабелей, соединяющих нейроны. Единственный кабель, или аксон, выступающий из каждого нейрона, представляет собой чрезвычайно тонкую структуру. Аксоны, имеющие диаметр менее одного микрона, соединяются с соседними нейронами, а также с более удалёнными нейронами, такими как нейроны в разных слоях одной и той же кортикальной области, или с нейронами, находящимися на расстоянии многих миллиметров, даже на противоположной стороне мозга. Каждый нейрон в коре головного мозга может принимать соединения от тысяч других нейронов на своём собственном локальном дереве ветвящихся нейронных кабелей, или дендрите. Эти отдельные точки соединения (синапсы) между аксональным кабелем одного нейрона и дендритным кабелем другого имеют субмикрометрический масштаб.
Перед исследователями в новой области коннектомики стоит задача разработать методы картирования нейронных связей в этом обширном диапазоне масштабов (рис. 2). Исследователи института Макса Планка сосредоточились на многоракурсных стереореконструкциях коннектомов, работе, которая требует максимально возможной точности в отслеживании нейрональных кабелей и идентификации синапсов в объемах электронной микроскопии. Задача масштабная: один кубический миллиметр серого вещества в коре головного мозга содержит километры разветвленных нейронных кабелей и около 1 миллиарда синапсов.
Рисунок 2 — Масштабы нейронных связей в коре головного мозга: от синапсов нанометрового масштаба между отдельными нейронами до расстояний связей миллиметрового масштаба. Оранжевый — аксоны, синий — дендриты.
Ручная многоракурсная стереореконструкция коннектомов по данным электронной микроскопии обычно занимает десятки тысяч рабочих часов, даже для небольших объёмов образцов, содержащих около 1 миллиона синапсов. Чтобы автоматизировать наиболее трудоёемкие части процесса реконструкции, отдел коннектомики разработал FocusEM — рабочий процесс, который сочетает в себе аннотирование человека с автоматизацией, основанной на созданных в MATLAB свёрточных нейронных сетях. Модели CNN обучены и выполнены с использованием параллельной обработки на кластере высокопроизводительных вычислений (HPC).
FocusEM позволил реконструировать 90 см дендритов и около 180 см аксонов в соматосенсорной коре, идентифицировав почти 500 000 синапсов всего за 4000 часов работы человека, что в 10-25 раз эффективнее, чем раньше.
Работа опубликована в журнале Science, где исследователи показали, насколько точные многоракурсные стереореконструкции в этом масштабе могут способствовать детальному пониманию локальных схем мозга.
Для получения изображения образца извлекают блок мозговой ткани и окрашивают его соединениями тяжёлых металлов. Образец переносится в электронный микроскоп, оснащённый специально изготовленным микротомом. Визуализация тканей чередуется с их разрезанием, при котором алмазным ножом микротома получают тонкие срезы длиной 25-30 нанометров. Тысячи чередований изображений и разрезов создают набор данных 3D-изображений размером от сотен гигабайтов до терабайтов (рис. 3).
Рисунок 3 — Последовательная сканирующая электронная микроскопия для визуализации головного мозга. Зонд нейрональной ткани получает изображение и затем разрезает мозг с помощью специально изготовленного микротома. Чередование резки и визуализации приводит к созданию набора последовательных 3D-изображений. Шкала линейки — 1 микрометр.
Чтобы составить карту коннектома, исследователи должны проследить аксон от каждого нейрона, когда он проходит через трехмерное пространство, чтобы определить, где он соединяется с другими нейронами.
Обнаружив расположенные рядом друг с другом два сегмента кабеля, исследователи должны тщательно проанализировать изображение, чтобы определить, являются ли они частью одного и того же аксона, двумя соединёнными через синапс отдельными частями или несвязанными сегментами.
Рабочий процесс FocusEM автоматизирует большую часть трудоёмких этапов аннотирования и принятия решений в процессе реконструкции коннектома. Рабочий процесс состоит из трёх основных этапов:
Этап предварительной обработки содержит такие этапы, как выравнивание отдельных фрагментов 2D-изображения в объеме 3D-образца с помощью глобального решателя наименьших квадратов, маскирование легко идентифицируемых структур, таких как кровеносные сосуды и ядра, и коррекция яркости изображения.
Этап сегментации изображений основан на рабочем процессе под названием SegEM, опубликованном отделом коннектомики Института Макса Планка в журнале Neuron в 2015 году.
SegEM использует специально созданную 3D CNN в сочетании с алгоритмами сегментации изображений, такими как преобразования водораздела. Для объёма образца в 500 000 кубических микрометров в текущем исследовании на стадии SegEM создано 15 миллионов различных объемных сегментов.
Этот этап морфологической реконструкции опирается на набор классификаторов машинного обучения, которые разработаны и обучены в MATLAB специально для поддержки рабочего процесса FocusEM:
Рабочий процесс FocusEM использует эти классификаторы для автоматизации многих этапов процесса многоракурсной стереореконструкции. Обученные аннотирующие люди концентрируются на направленных запросах от классификаторов для разрешения сложных ситуаций, таких как пересечение нескольких нейронных кабелей.
Результатом этого полуавтоматического рабочего процесса стало более чем десятикратное сокращение рабочего времени по сравнению с ручными подходами к многоракурсной стереореконструкции (рис. 4). Код рабочего процесса FocusEM можно загрузить из репозитория GitLab.
Рисунок 4 — Рабочие часы, необходимые для различных подходов, чтобы реконструировать кубический миллиметр нервной ткани. В то время как ручные подходы отнимают много времени и стоят дорого, FocusEM позволяет реконструировать большие объёмы мозга с реалистичными временными рамками и затратами.
В дополнение к минимизации рабочего времени человека, необходимого для завершения реконструкции коннектома, исследователи Института Макса Планка стремились минимизировать время вычислений, необходимое для автоматизированных шагов рабочего процесса FocusEM.
Для достижения этой цели исследователи обратились к параллельным вычислениям. Отдел коннектомики обращается к вычислительному кластеру, содержащему 2500 ядер CPU и 32 графических процессора через MATLAB Parallel Server. Команда применяла Parallel Computing Toolbox для распараллеливания алгоритмов предварительной обработки изображений и пользовательских классификаторов CNN. Помимо этапа глобальной регистрации изображений большинство вычислительных этапов в рабочем процессе реконструкции были параллельными, поскольку классификаторы могли выполняться одновременно на разных частях объёма выборки.
Для реконструкции образца объёмом 500 000 кубических микрометров этапы вычисления FocusEM заняли примерно 100 часов вычислительного времени. Сравнивая это с необходимыми для работы 4000 человеко-часами, можно сделать вывод, что вычислительная работа не была узким местом. Большая часть обработки FocusEM была вычислена на процессорах, и они использовали около 20 % своей локальной мощности (384 ядра). Графические процессоры использовались для ускорения обучения пользовательского классификатора глубокого обучения SegEM, используемого для сегментации изображений.
Завершив первую плотную реконструкцию для 500 000 кубических микрометров коры головного мозга, исследователи Макса Планка проанализировали полученные связи и геометрические данные. Их анализ позволил получить ценные сведения о локальных свойствах биологической нейронной сети:
Установив осуществимость и научную ценность кортикальной реконструкции в многоракурсном стерео в текущем масштабе 500 000 кубических микрометров, исследовательская группа Макса Планка сегодня работает над получением большего количества типов образцов мозга, чтобы позволить сравнивать между видами и различными состояниями мозга, например между больным и здоровым мозгом.
Отдел коннектомики также приступил к решению дальнейшей задачи реконструкции больших объёмов коры, охватывающих несколько слоёв мозга и содержащих нейронные связи на больших расстояниях.
Исследователи продолжают совершенствовать методы автоматизации, такие как FocusEM, чтобы снизить затраты на реконструкции. В настоящее время ведётся работа по анализу набора данных размером в петабайт из объема выборки в кубический миллиметр, который соответствует масштабу функциональных единиц, выявленных в прошлых исследованиях функции мозга. Результаты, достигнутые на данный момент с помощью распараллеленного MATLAB, показывают, что исследователи могут выполнить шаги вычисления FocusEM для набора данных размером в петабайт в своём локальном кластере, не препятствуя общим усилиям по реконструкции.
Исследователи из отдела коннектомики Института Макса Планка (MPI) по исследованию мозга изучают нейронные сети коры головного мозга, чтобы понять, как мозг обрабатывает сенсорный опыт для того, чтобы обнаруживать объекты в окружающей среде. Их работа содержит построение коннектома — карт нейронных цепей, идентифицирующих индивидуальные связи между нейронами.
В отличие от «нейронов» искусственных нейронных сетей биологические нейроны не организованы в аккуратные ряды одномерных слоев. Вместо этого они упакованы и соединены в плотную заполняющую пространство трёхмерную сетку, которую можно изучать только по изображениям мозговой ткани, полученным с нанометровым разрешением электронного микроскопа (рис. 1).
Рисунок 1 — Плотная реконструкция приблизительно 500 000 кубических микрометров кортикальной ткани млекопитающих, дающая 270 см нейрональных кабелей, образующих коннектом из примерно 400 000 синапсов между 34 221 аксоном.
Из статьи «Dense connectomic reconstruction in layer 4 of the somatosensory cortex»
Зачем изучать биологические нейронные сети?
Свёрточные нейронные сети (CNN) вдохновлены биологическим интеллектом, с прямой связью нейронов и слоёв в CNN, напоминающей зрительную кору человека и других животных. Возросшая вычислительная мощность и доступность огромных объёмов данных улучшили производительность и точность CNN, но по сравнению с человеческим мозгом они удивительно неэффективны как в смысле энергии, которую они потребляют, так и в обозначении данных, которого они требуют при обучении. Крупномасштабный классификатор CNN, развёрнутый в среде облачных вычислений, потребляет на несколько порядков больше энергии, чем человеческий мозг, тогда как малыш может научиться классифицировать объекты, увидев всего несколько десятков примеров, CNN нужны миллионы точно помеченных изображений. Исследовательские группы, которые полагаются на глубокое обучение, начинают сталкиваться с этими ограничениями. Анализируя коннектом, чтобы понять, как эволюция решила эти проблемы в биологических нейронных сетях, исследователи могут найти ключи для разработки искусственных нейронных сетей следующего поколения.
Трёхмерные электронные микрофотографии показывают луковичные тела клеток отдельных нейронов и плотную извилистую сеть тонких нейронных кабелей, соединяющих нейроны. Единственный кабель, или аксон, выступающий из каждого нейрона, представляет собой чрезвычайно тонкую структуру. Аксоны, имеющие диаметр менее одного микрона, соединяются с соседними нейронами, а также с более удалёнными нейронами, такими как нейроны в разных слоях одной и той же кортикальной области, или с нейронами, находящимися на расстоянии многих миллиметров, даже на противоположной стороне мозга. Каждый нейрон в коре головного мозга может принимать соединения от тысяч других нейронов на своём собственном локальном дереве ветвящихся нейронных кабелей, или дендрите. Эти отдельные точки соединения (синапсы) между аксональным кабелем одного нейрона и дендритным кабелем другого имеют субмикрометрический масштаб.
Перед исследователями в новой области коннектомики стоит задача разработать методы картирования нейронных связей в этом обширном диапазоне масштабов (рис. 2). Исследователи института Макса Планка сосредоточились на многоракурсных стереореконструкциях коннектомов, работе, которая требует максимально возможной точности в отслеживании нейрональных кабелей и идентификации синапсов в объемах электронной микроскопии. Задача масштабная: один кубический миллиметр серого вещества в коре головного мозга содержит километры разветвленных нейронных кабелей и около 1 миллиарда синапсов.
Рисунок 2 — Масштабы нейронных связей в коре головного мозга: от синапсов нанометрового масштаба между отдельными нейронами до расстояний связей миллиметрового масштаба. Оранжевый — аксоны, синий — дендриты.
Ручная многоракурсная стереореконструкция коннектомов по данным электронной микроскопии обычно занимает десятки тысяч рабочих часов, даже для небольших объёмов образцов, содержащих около 1 миллиона синапсов. Чтобы автоматизировать наиболее трудоёемкие части процесса реконструкции, отдел коннектомики разработал FocusEM — рабочий процесс, который сочетает в себе аннотирование человека с автоматизацией, основанной на созданных в MATLAB свёрточных нейронных сетях. Модели CNN обучены и выполнены с использованием параллельной обработки на кластере высокопроизводительных вычислений (HPC).
FocusEM позволил реконструировать 90 см дендритов и около 180 см аксонов в соматосенсорной коре, идентифицировав почти 500 000 синапсов всего за 4000 часов работы человека, что в 10-25 раз эффективнее, чем раньше.
Работа опубликована в журнале Science, где исследователи показали, насколько точные многоракурсные стереореконструкции в этом масштабе могут способствовать детальному пониманию локальных схем мозга.
Проблемы реконструкции коннектомов
Для получения изображения образца извлекают блок мозговой ткани и окрашивают его соединениями тяжёлых металлов. Образец переносится в электронный микроскоп, оснащённый специально изготовленным микротомом. Визуализация тканей чередуется с их разрезанием, при котором алмазным ножом микротома получают тонкие срезы длиной 25-30 нанометров. Тысячи чередований изображений и разрезов создают набор данных 3D-изображений размером от сотен гигабайтов до терабайтов (рис. 3).
Рисунок 3 — Последовательная сканирующая электронная микроскопия для визуализации головного мозга. Зонд нейрональной ткани получает изображение и затем разрезает мозг с помощью специально изготовленного микротома. Чередование резки и визуализации приводит к созданию набора последовательных 3D-изображений. Шкала линейки — 1 микрометр.
Чтобы составить карту коннектома, исследователи должны проследить аксон от каждого нейрона, когда он проходит через трехмерное пространство, чтобы определить, где он соединяется с другими нейронами.
Обнаружив расположенные рядом друг с другом два сегмента кабеля, исследователи должны тщательно проанализировать изображение, чтобы определить, являются ли они частью одного и того же аксона, двумя соединёнными через синапс отдельными частями или несвязанными сегментами.
Глубокое обучение для крупномасштабной реконструкции нейронных цепей
Рабочий процесс FocusEM автоматизирует большую часть трудоёмких этапов аннотирования и принятия решений в процессе реконструкции коннектома. Рабочий процесс состоит из трёх основных этапов:
- Шаги предварительной обработки, основанные на алгоритмах обработки изображений и эвристике.
- Сегментация изображений, основанная на алгоритмах обработки изображений и глубоком обучении.
- Морфологическая реконструкция, основанная на машинном обучении в сочетании с целенаправленными запросами человека.
Этап предварительной обработки содержит такие этапы, как выравнивание отдельных фрагментов 2D-изображения в объеме 3D-образца с помощью глобального решателя наименьших квадратов, маскирование легко идентифицируемых структур, таких как кровеносные сосуды и ядра, и коррекция яркости изображения.
Этап сегментации изображений основан на рабочем процессе под названием SegEM, опубликованном отделом коннектомики Института Макса Планка в журнале Neuron в 2015 году.
SegEM использует специально созданную 3D CNN в сочетании с алгоритмами сегментации изображений, такими как преобразования водораздела. Для объёма образца в 500 000 кубических микрометров в текущем исследовании на стадии SegEM создано 15 миллионов различных объемных сегментов.
Этот этап морфологической реконструкции опирается на набор классификаторов машинного обучения, которые разработаны и обучены в MATLAB специально для поддержки рабочего процесса FocusEM:
- Классификатор ConnectEM определяет вероятность того, что два смежных сегмента объема физически связаны как часть непрерывного нейронного кабеля.
- Классификатор SynEM определяет, соответствуют ли соседние сегменты объёма нейронной связи синапсу, возникающему через тонкий промежуток нанометрового масштаба (см. рис. 2); они могут быть идентифицированы с помощью различных признаков изображения, таких как кластеры синаптических пузырьков.
- Четыре классификатора TypeEM классифицируют объёмные сегменты как принадлежащие аксону, дендриту, дендритной головке позвоночника (расположение потенциального синапса) или ненейронному типу клеток.
Рабочий процесс FocusEM использует эти классификаторы для автоматизации многих этапов процесса многоракурсной стереореконструкции. Обученные аннотирующие люди концентрируются на направленных запросах от классификаторов для разрешения сложных ситуаций, таких как пересечение нескольких нейронных кабелей.
Результатом этого полуавтоматического рабочего процесса стало более чем десятикратное сокращение рабочего времени по сравнению с ручными подходами к многоракурсной стереореконструкции (рис. 4). Код рабочего процесса FocusEM можно загрузить из репозитория GitLab.
Рисунок 4 — Рабочие часы, необходимые для различных подходов, чтобы реконструировать кубический миллиметр нервной ткани. В то время как ручные подходы отнимают много времени и стоят дорого, FocusEM позволяет реконструировать большие объёмы мозга с реалистичными временными рамками и затратами.
Ускорение с помощью высокопроизводительных вычислений
В дополнение к минимизации рабочего времени человека, необходимого для завершения реконструкции коннектома, исследователи Института Макса Планка стремились минимизировать время вычислений, необходимое для автоматизированных шагов рабочего процесса FocusEM.
Для достижения этой цели исследователи обратились к параллельным вычислениям. Отдел коннектомики обращается к вычислительному кластеру, содержащему 2500 ядер CPU и 32 графических процессора через MATLAB Parallel Server. Команда применяла Parallel Computing Toolbox для распараллеливания алгоритмов предварительной обработки изображений и пользовательских классификаторов CNN. Помимо этапа глобальной регистрации изображений большинство вычислительных этапов в рабочем процессе реконструкции были параллельными, поскольку классификаторы могли выполняться одновременно на разных частях объёма выборки.
Универсальность и скорость являются главными приоритетами в нашем процессе разработки. Возможность перейти от первоначальной идеи к выраженно параллеленному рабочему развертыванию без необходимости переписывать код или переосмысливать структуры данных жизненно важна для нашей команды.
Мориц Хельмштедтер, директор института исследований мозга Макса Планка, отдел Коннектомики.
Для реконструкции образца объёмом 500 000 кубических микрометров этапы вычисления FocusEM заняли примерно 100 часов вычислительного времени. Сравнивая это с необходимыми для работы 4000 человеко-часами, можно сделать вывод, что вычислительная работа не была узким местом. Большая часть обработки FocusEM была вычислена на процессорах, и они использовали около 20 % своей локальной мощности (384 ядра). Графические процессоры использовались для ускорения обучения пользовательского классификатора глубокого обучения SegEM, используемого для сегментации изображений.
Анализ коннектом
Завершив первую плотную реконструкцию для 500 000 кубических микрометров коры головного мозга, исследователи Макса Планка проанализировали полученные связи и геометрические данные. Их анализ позволил получить ценные сведения о локальных свойствах биологической нейронной сети:
- Различные классы нейронов (возбуждающие и тормозящие) контактировали со своими клетками-мишенями с различными паттернами иннервации, используя только коннектомные данные, что подтвердило результаты предыдущих экспериментов.
- Геометрические правила заполнения аксонами и дендритами кортикальных объёмов не объясняют наблюдаемые паттерны связей, как предлагалось в некоторых предшествующих теоретических моделях.
- Измеренное распределение синаптических размеров в коннектоме может дать представление о процессах обучения, которые могли происходить в мозге.
- С объёмом выборки более чем в 300 раз большим, чем предыдущие кортикальные реконструкции, охватывающие около 7000 аксонов и около 400 000 синапсов, это исследование обеспечило уровень статистической мощности, ранее недоступный при решении таких вопросов локальной схемы мозга.
Планы дальнейших исследований
Установив осуществимость и научную ценность кортикальной реконструкции в многоракурсном стерео в текущем масштабе 500 000 кубических микрометров, исследовательская группа Макса Планка сегодня работает над получением большего количества типов образцов мозга, чтобы позволить сравнивать между видами и различными состояниями мозга, например между больным и здоровым мозгом.
Отдел коннектомики также приступил к решению дальнейшей задачи реконструкции больших объёмов коры, охватывающих несколько слоёв мозга и содержащих нейронные связи на больших расстояниях.
Исследователи продолжают совершенствовать методы автоматизации, такие как FocusEM, чтобы снизить затраты на реконструкции. В настоящее время ведётся работа по анализу набора данных размером в петабайт из объема выборки в кубический миллиметр, который соответствует масштабу функциональных единиц, выявленных в прошлых исследованиях функции мозга. Результаты, достигнутые на данный момент с помощью распараллеленного MATLAB, показывают, что исследователи могут выполнить шаги вычисления FocusEM для набора данных размером в петабайт в своём локальном кластере, не препятствуя общим усилиям по реконструкции.
- Продвинутый курс «Machine Learning Pro + Deep Learning»
- Курс «Математика и Machine Learning для Data Science»
- Курс по Machine Learning
- Обучение профессии Data Science
- Обучение профессии Data Analyst
- Онлайн-буткемп по Data Analytics
- Курс «Python для веб-разработки»
Eще курсы
- Обучение профессии C#-разработчик
- Разработчик игр на Unity
- Профессия Веб-разработчик
- Профессия Java-разработчик
- Курс по JavaScript
- C++ разработчик
- Курс по аналитике данных
- Курс по DevOps
- Профессия iOS-разработчик с нуля
- Профессия Android-разработчик с нуля
Рекомендуемые статьи
- Сколько зарабатывает дата-сайентист: обзор зарплат и вакансий в 2020
- Сколько зарабатывает аналитик данных: обзор зарплат и вакансий в 2020
- Как стать Data Scientist без онлайн-курсов
- 450 бесплатных курсов от Лиги Плюща
- Как изучать Machine Learning 5 дней в неделю 9 месяцев подряд
- Machine Learning и Computer Vision в добывающей промышленности