Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
ИИ - это не только ценный с мех, это еще и способ вернуть возможность говорить немым пациентам.
Говорить - это доводить до озвучки свои попытки в голове что-то сказать.
Если эксперимент удастся воспроизвести на более разнообразных текстовых данных, а не только для тех, что использовались в статье, то это (мне кажется) невыносимо круто, учитывая заявленную точность в 90% и выход на 97% после дотренировки.
Если на TLDR-пальцах:
Человеку имплантировали 4 электрода, которые регистрировали его нейроактивность. За 30-минут обучили ИИ превращать эти сигналы в текст. Текст озвучили с помощью text-2-speech. Это на словарном запасе 50 слов.
Но.
Потренировали еще полтора часа и вот уже словарный запас 125 000 слов (больше чем у любого школьника) и точность 90.2 процента.
Как тут не вспомнить про пластичность мозга, который может использовать новые сигналы взамен потерянных (кохлеарные имплантанты, писал тут 1 2 3), чтобы расшифровывать их в нужный канал восприятия (слух речь).
ИИ и есть эта пластичность в данном примере.
Для гиков.
Пациенту была проведена хирургическая имплантация четырех микроэлектродных массивов в левую прецентральную извилину, которые регистрировали нейронную активность с 256 внутрикорковых электродов. Такой нейропротез, декодировал его нейронную активность, когда он пытался говорить в условиях как заданной, так и неструктурированной беседы. Декодированные слова отображались на экране, а затем озвучивались с помощью text2speech. В первый день использования системы, после 30 минут попыток обучения речи, нейропротез достиг точности 99.6% при словарном запасе в 50 слов. На второй день объем возможного словарного запаса увеличился до 125 000 слов, и после 1.4 дополнительных часов обучения нейропротез достиг точности 90.2%. При дальнейшем обучении нейропротез сохранял точность 97.5% в течение восьми месяцев после хирургической имплантации. Участник использовал нейропротез для самостоятельного общения в течение более 248 часов. У человека с ALS и тяжелой дизартрией внутрикорковый речевой нейропротез достиг уровня производительности, пригодного для восстановления естественного общения, после короткого периода обучения.
Когда Маск сделает свою иголочку доступной на уровне амбулаторного укола в голову для всех, можно будет набирать текстовые сообщения молча. Нет, общаться с chatGPT молча. А еще круче - тихие Zoom-коллы. Все сидят в наушниках и молчат.
Если вы думаете, что все это шуточки, поглядите видео:
https://www.youtube.com/watch?v=thPhBDVSxz0
Немного не по себе после просмотра.
https://pubmed.ncbi.nlm.nih.gov/38645254/
А, самое значимое, код есть на Гитхабе.
@cgevent
Говорить - это доводить до озвучки свои попытки в голове что-то сказать.
Если эксперимент удастся воспроизвести на более разнообразных текстовых данных, а не только для тех, что использовались в статье, то это (мне кажется) невыносимо круто, учитывая заявленную точность в 90% и выход на 97% после дотренировки.
Если на TLDR-пальцах:
Человеку имплантировали 4 электрода, которые регистрировали его нейроактивность. За 30-минут обучили ИИ превращать эти сигналы в текст. Текст озвучили с помощью text-2-speech. Это на словарном запасе 50 слов.
Но.
Потренировали еще полтора часа и вот уже словарный запас 125 000 слов (больше чем у любого школьника) и точность 90.2 процента.
Как тут не вспомнить про пластичность мозга, который может использовать новые сигналы взамен потерянных (кохлеарные имплантанты, писал тут 1 2 3), чтобы расшифровывать их в нужный канал восприятия (слух речь).
ИИ и есть эта пластичность в данном примере.
Для гиков.
Пациенту была проведена хирургическая имплантация четырех микроэлектродных массивов в левую прецентральную извилину, которые регистрировали нейронную активность с 256 внутрикорковых электродов. Такой нейропротез, декодировал его нейронную активность, когда он пытался говорить в условиях как заданной, так и неструктурированной беседы. Декодированные слова отображались на экране, а затем озвучивались с помощью text2speech. В первый день использования системы, после 30 минут попыток обучения речи, нейропротез достиг точности 99.6% при словарном запасе в 50 слов. На второй день объем возможного словарного запаса увеличился до 125 000 слов, и после 1.4 дополнительных часов обучения нейропротез достиг точности 90.2%. При дальнейшем обучении нейропротез сохранял точность 97.5% в течение восьми месяцев после хирургической имплантации. Участник использовал нейропротез для самостоятельного общения в течение более 248 часов. У человека с ALS и тяжелой дизартрией внутрикорковый речевой нейропротез достиг уровня производительности, пригодного для восстановления естественного общения, после короткого периода обучения.
Если вы думаете, что все это шуточки, поглядите видео:
https://www.youtube.com/watch?v=thPhBDVSxz0
Немного не по себе после просмотра.
https://pubmed.ncbi.nlm.nih.gov/38645254/
А, самое значимое, код есть на Гитхабе.
@cgevent
👍4🔥3
Transformers for brain decoding | foundational models
Хочу рассказать про модели, которые сейчас используют для расшифровки мозговых сигналов (спайки, LFP). Посмотрим, как их обучают на данных с разных сессий и животных, какие подходы к предобучению применяют, и какие архитектуры в ходу. Я выделил три интересные статьи, кратко про каждую.
🔘 POYO-1: A Unified, Scalable Framework for Neural Population Decoding
perciever io, где токены это отдельные спайки, обучали с учителем на разных животных, решая разные задачи.
🔘 Neural Data Transformer 2: Multi-context Pretraining for Neural Spiking Activity
Адаптировали masked autoencoder (MAE). Плюс также добавляют инфу о сессии и о испытуемом. MAE это круто и просто. Вот ссылка на наш обзор
🔘 Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution
Расширили прошлый подход и сделали более умный претрейн, начали добавлять ещё токены о типе маскирования. Показали что стало лучше.
Какой тренд мы видим. Multi task, multi subject, multi sessions, multi multi. Transformers go brr... Короче говоря, берут трансформер и хотят чтобы он решал всё и для всех.
Про каждую модель будет пост. Чётко разберемся что за данные, как их предобрабатывпли, какую модель использовали и что решали.
Везде данные разные да и сравнивать side by side пока тяжеловато. Всё это больше для ознакомления, о том как можно работать с данными. Так что вдохновляйтесь в своей работе)
Just my thought
Трансформер работает с векторами. Поэтому чтобы туда запихнуть наши нейро данные, их нужно вначале в эти вектора превратить. Однако что считать токеном для нейро активности? Отдельные спайки, binned activity, группу нейронов и т.д. Это вопрос открытый. Можно по-разному. Но вот что если сначала сжать информацию? И использовать более полезные токены из нашего “сжимателя”? Пример VQVAE который сейчас для всех аудио задач используется и для картинок, видео тоже. Чем нейро хуже?)
P.S. Если знаете ещё интересные статьи, где работают с intracortical activity. Пожалуйста скиньте. Тоже разберем)
#digest
Хочу рассказать про модели, которые сейчас используют для расшифровки мозговых сигналов (спайки, LFP). Посмотрим, как их обучают на данных с разных сессий и животных, какие подходы к предобучению применяют, и какие архитектуры в ходу. Я выделил три интересные статьи, кратко про каждую.
perciever io, где токены это отдельные спайки, обучали с учителем на разных животных, решая разные задачи.
Адаптировали masked autoencoder (MAE). Плюс также добавляют инфу о сессии и о испытуемом. MAE это круто и просто. Вот ссылка на наш обзор
Расширили прошлый подход и сделали более умный претрейн, начали добавлять ещё токены о типе маскирования. Показали что стало лучше.
Какой тренд мы видим. Multi task, multi subject, multi sessions, multi multi. Transformers go brr... Короче говоря, берут трансформер и хотят чтобы он решал всё и для всех.
Про каждую модель будет пост. Чётко разберемся что за данные, как их предобрабатывпли, какую модель использовали и что решали.
Везде данные разные да и сравнивать side by side пока тяжеловато. Всё это больше для ознакомления, о том как можно работать с данными. Так что вдохновляйтесь в своей работе)
Just my thought
Трансформер работает с векторами. Поэтому чтобы туда запихнуть наши нейро данные, их нужно вначале в эти вектора превратить. Однако что считать токеном для нейро активности? Отдельные спайки, binned activity, группу нейронов и т.д. Это вопрос открытый. Можно по-разному. Но вот что если сначала сжать информацию? И использовать более полезные токены из нашего “сжимателя”? Пример VQVAE который сейчас для всех аудио задач используется и для картинок, видео тоже. Чем нейро хуже?)
P.S. Если знаете ещё интересные статьи, где работают с intracortical activity. Пожалуйста скиньте. Тоже разберем)
#digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥8👏3🤔2
Paper 01 | Transformers for brain decoding
POYO-1: A Unified, Scalable Framework for Neural Population Decoding
POYO: supervised, multi-session, multi-subject, multi-task transformer. У них было несколько обезьян, которых они просили решать простые двигательные задачи.
paper
amazing visualization ❤️
Как это работает.
Для такого разнообразного датасета, обычно берут регрессии или rnn и учат их отдельно под каждое животное и даже под каждую сессию. А они решили пойти дальше. Мол у нас есть трансформер. Давайте в него все это запихнем и посмотрим, что получится. Но если тупо запихнуть то и получится тупо. Поэтому они и тут пошли дальше. Обычная практика взять спайки, посчитать их количество в маленьких окошках (пример 20ms) и работать с rate coding.
Авторы отказались от этого и работают со спайками напрямую. У нас есть спайки нейронов в разный момент времени. ВОТ ЭТО И БУДЕТ НАШ ТОКЕН. Каждый токен имеет инфу о времени и о нейроне (1 или 10 это же большая разница). Короче, сколько спайков было, столько токенов и получили.
Так, а что если мы записали много нейронов? Или они сильно спайкуют в какой-то момент. Тут на сцену выходит perceiver. Короче это такая архитектура, которая помогает уменьшить количество токенов до нужного нам. Например, хотим чтобы было 256.
Как работает? Да через learnable queries. Берем 256 learnable queries. закидываем в cross attention. Токены из мозга - key and values. То есть мы как бы нанизываем наше множество спайков на 256 векторов. То есть такой smart merging. Дальше работаем с latents. Идея не новая, но топ.
Ну а дальше все просто. Self attention на этих latent vectors. А затем ещё раз делают этот финт ушами и нанизывают эти 256 вектора на векторы какой-то задачи с time. Там их например может быть 25. или наоборот 1000. Любое число. И получаем предсказание. Затем лоссы считаем и радуемся жизни.
Я бы расширил идею и сделал бы pretrain. Они учили эту модель в supervised режиме, то есть всегда был таргет. А что если бы собрать раз в 10 больше сырых данных без учителя. И сделать претрейн такой штуки. Мы могли бы тоже попробовать что-то типа MAE восстанавливать пропущенные токены. Интересно получилось бы улучшить или нет?
Как это работает.
Обязательно посмотрите их визуализации. Они очень хорошие. Они очень основательнозаебались потрудились.
#review
POYO-1: A Unified, Scalable Framework for Neural Population Decoding
POYO: supervised, multi-session, multi-subject, multi-task transformer. У них было несколько обезьян, которых они просили решать простые двигательные задачи.
In total, we aggregated 178 sessions worth of data, spanning 29,453 units from the primary motor (M1), premotor (PMd), and primary somatosensory (S1) regions in the cortex of 9 nonhuman primates
paper
amazing visualization ❤️
Как это работает.
Для такого разнообразного датасета, обычно берут регрессии или rnn и учат их отдельно под каждое животное и даже под каждую сессию. А они решили пойти дальше. Мол у нас есть трансформер. Давайте в него все это запихнем и посмотрим, что получится. Но если тупо запихнуть то и получится тупо. Поэтому они и тут пошли дальше. Обычная практика взять спайки, посчитать их количество в маленьких окошках (пример 20ms) и работать с rate coding.
Авторы отказались от этого и работают со спайками напрямую. У нас есть спайки нейронов в разный момент времени. ВОТ ЭТО И БУДЕТ НАШ ТОКЕН. Каждый токен имеет инфу о времени и о нейроне (1 или 10 это же большая разница). Короче, сколько спайков было, столько токенов и получили.
Так, а что если мы записали много нейронов? Или они сильно спайкуют в какой-то момент. Тут на сцену выходит perceiver. Короче это такая архитектура, которая помогает уменьшить количество токенов до нужного нам. Например, хотим чтобы было 256.
Как работает? Да через learnable queries. Берем 256 learnable queries. закидываем в cross attention. Токены из мозга - key and values. То есть мы как бы нанизываем наше множество спайков на 256 векторов. То есть такой smart merging. Дальше работаем с latents. Идея не новая, но топ.
Ну а дальше все просто. Self attention на этих latent vectors. А затем ещё раз делают этот финт ушами и нанизывают эти 256 вектора на векторы какой-то задачи с time. Там их например может быть 25. или наоборот 1000. Любое число. И получаем предсказание. Затем лоссы считаем и радуемся жизни.
Я бы расширил идею и сделал бы pretrain. Они учили эту модель в supervised режиме, то есть всегда был таргет. А что если бы собрать раз в 10 больше сырых данных без учителя. И сделать претрейн такой штуки. Мы могли бы тоже попробовать что-то типа MAE восстанавливать пропущенные токены. Интересно получилось бы улучшить или нет?
Как это работает.
Обязательно посмотрите их визуализации. Они очень хорошие. Они очень основательно
#review
1👍10❤🔥3⚡2
Paper 02 | Transformers for brain decoding
Neural Data Transformer 2: Multi-context Pretraining for Neural Spiking Activity.
Кратко: применили MAE к нейронным спайкам, добавили инфу о сессии и subject. Получили продвинутый нейродекодер.
paper
Как это работает.
1. Разделение мозговой активности на 20мс интервалы. По сути, rate coding.
2. Группировка нейронов в "патчи", аналогично пикселям в vision-трансформерах.
3. Добавление информации о субъекте и сессии. Контекст играет ключевую роль.
4. Pretrain с помощью MAE.
My thought: Кажется надо как-то адаптивно разные каналы объединять. А то они просто конкатенацию сделали. Тут Perciever выглядит promising.
P.S. MAE претрейн реально работает! Пробовали для ЭМГ. Кстати если докидывать информацию о человеке, то тоже начинает лучше работать.
#review
Neural Data Transformer 2: Multi-context Pretraining for Neural Spiking Activity.
Кратко: применили MAE к нейронным спайкам, добавили инфу о сессии и subject. Получили продвинутый нейродекодер.
paper
Как это работает.
1. Разделение мозговой активности на 20мс интервалы. По сути, rate coding.
2. Группировка нейронов в "патчи", аналогично пикселям в vision-трансформерах.
3. Добавление информации о субъекте и сессии. Контекст играет ключевую роль.
4. Pretrain с помощью MAE.
My thought: Кажется надо как-то адаптивно разные каналы объединять. А то они просто конкатенацию сделали. Тут Perciever выглядит promising.
P.S. MAE претрейн реально работает! Пробовали для ЭМГ. Кстати если докидывать информацию о человеке, то тоже начинает лучше работать.
#review
🔥3👍2❤1🥰1
Paper 03 | Transformers for brain decoding
Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution
Кратко: улучшили претрейн на нейро данных, изменив маскирование.
paper
Какие данные используют.
- Для записи данных использовали Neuropixels. Поставили его на несколько регионов, и просили 48 животных совершать разные задачи.
- Области: secondary visual areas, hippocampus, and thalamus
Как работает модель.
- Используют rate coding и модели NDT-1 and NDT-2
- Придумали multi task masking MtM - модель учится, попеременно маскируя и восстанавливая активность во времени, между нейронами и областями мозга.
- Обучаемый токен подсказывает модели текущую схему маскирования.
Понятным языком. Они посмотрели как работает NDT-2 и решили что можно не совсем рандомно маскировать области, а как-то более осмысленно. Поэтому и придумали разные схемы маскирования. Там и будущее предсказывать и другие области и пропущенные нейроны. Плюс к тому, для каждого типа маскирования у нас свой токен-подсказака, которую они использовали для того, чтобы MAE лучше восстанавливал.
По итогу стало лучше, иначе статьи бы не было.
Мои мысли. Проведя небольшие параллели с прошлыми работами, то это такой микс POYO and NDT. В POYO решались разные supervised задачи, которые кодировались токенами. Вот они эту штуку адаптировали для unmasked задачи. Так и в качестве архитектуры использовали NDT.
По мне подход интересный, но не сильно прорывной. На мой взгляд предсказания будущего само по себе сложная задача и её может быть достаточно. Но могу и ошибаться конечно - надо проверять.
Сложный вопрос про токенизацию: как её делать? Представьте что у нас не 100 нейронов а 1000 или 10000 вот как с этим работать?
Что вы думаете о всех этих моделях? Давайте обсуждать.
#review
Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution
Кратко: улучшили претрейн на нейро данных, изменив маскирование.
paper
Какие данные используют.
- Для записи данных использовали Neuropixels. Поставили его на несколько регионов, и просили 48 животных совершать разные задачи.
- Области: secondary visual areas, hippocampus, and thalamus
Как работает модель.
- Используют rate coding и модели NDT-1 and NDT-2
- Придумали multi task masking MtM - модель учится, попеременно маскируя и восстанавливая активность во времени, между нейронами и областями мозга.
- Обучаемый токен подсказывает модели текущую схему маскирования.
Понятным языком. Они посмотрели как работает NDT-2 и решили что можно не совсем рандомно маскировать области, а как-то более осмысленно. Поэтому и придумали разные схемы маскирования. Там и будущее предсказывать и другие области и пропущенные нейроны. Плюс к тому, для каждого типа маскирования у нас свой токен-подсказака, которую они использовали для того, чтобы MAE лучше восстанавливал.
По итогу стало лучше, иначе статьи бы не было.
Мои мысли. Проведя небольшие параллели с прошлыми работами, то это такой микс POYO and NDT. В POYO решались разные supervised задачи, которые кодировались токенами. Вот они эту штуку адаптировали для unmasked задачи. Так и в качестве архитектуры использовали NDT.
По мне подход интересный, но не сильно прорывной. На мой взгляд предсказания будущего само по себе сложная задача и её может быть достаточно. Но могу и ошибаться конечно - надо проверять.
Сложный вопрос про токенизацию: как её делать? Представьте что у нас не 100 нейронов а 1000 или 10000 вот как с этим работать?
Что вы думаете о всех этих моделях? Давайте обсуждать.
#review
Tasty AI Papers | 01-31 August 2024
Robotics.
🔘 Body Transformer: Leveraging Robot Embodiment for Policy Learning
what: one transformer to control whole body.
- propose Body Transformer (BoT)
- vanilla transformer with special attention mask, which reflects interconnection of the different body parts.
🔘 CrossFormer Scaling Cross-Embodied Learning for Manipulation, Navigation, Locomotion, and Aviation
what: One transformer that can control various robot types.
- trained on 900K trajectories from 20 different robots.
- matches or beats specialized algorithms for each robot type.
- works on arms, wheeled bots, quadrupeds, and even drones.
Diffusion + AR Transformers
🟢 Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
what: merge AR decoder with vanilla diffusion.
- train model with two objectives: causal language loss + diffusion objective
- deal with discrete and continuous in the same model.
🟡 Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
what: propose diffusion for discrete distribution
- beats other diffusion approach for text generation
- outperforms gpt-2.
🟡 Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
what: combine AR transformer with MaskGIT.
- can generate image and understand them.
- text tokenization + image tokenization. Use MaskGIT losses for image tokens.
Robotics.
what: one transformer to control whole body.
- propose Body Transformer (BoT)
- vanilla transformer with special attention mask, which reflects interconnection of the different body parts.
what: One transformer that can control various robot types.
- trained on 900K trajectories from 20 different robots.
- matches or beats specialized algorithms for each robot type.
- works on arms, wheeled bots, quadrupeds, and even drones.
Diffusion + AR Transformers
what: merge AR decoder with vanilla diffusion.
- train model with two objectives: causal language loss + diffusion objective
- deal with discrete and continuous in the same model.
what: propose diffusion for discrete distribution
- beats other diffusion approach for text generation
- outperforms gpt-2.
what: combine AR transformer with MaskGIT.
- can generate image and understand them.
- text tokenization + image tokenization. Use MaskGIT losses for image tokens.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2👍2
Tasty Neuro Papers | 01 - 31 August 2024
Decoding.
🟢 An Accurate and Rapidly Calibrating Speech Neuroprosthesis
what: best speech neuroprosthetics.
- 256 intracortical electrodes recording.
- Up to 90% accuracy on open large vocabular: 125k
- model pipeline:
Conv to extract features → RNN to predict phonemes→ LM to combine phonemes probs with RNN outs→ LLM for candidates.
🔘 An instantaneous voice synthesis neuroprosthesis
what: directly predict voice from the brain
- speech prosthesis is on fire this month
- remove step with words prediction and predict voice directly
- use causal conv and transformers architecture.
- predict tokenized audio vectors.
🔘 Population Transformer: Learning Population-level Representations of Intracranial Activity
what: one more transformer for intracranial neural activity.
- Extract embeddings from each electrode separately then merge them in BERT-like encoder
- propose losses for pretraining stage.
Stimulation
🔘 Biomimetic stimulation patterns drive natural artificial touch percepts using intracorticalmicrostimulation in humans
what: explore different stimulation for touch sensation
Decoding.
what: best speech neuroprosthetics.
- 256 intracortical electrodes recording.
- Up to 90% accuracy on open large vocabular: 125k
- model pipeline:
Conv to extract features → RNN to predict phonemes→ LM to combine phonemes probs with RNN outs→ LLM for candidates.
what: directly predict voice from the brain
- speech prosthesis is on fire this month
- remove step with words prediction and predict voice directly
- use causal conv and transformers architecture.
- predict tokenized audio vectors.
what: one more transformer for intracranial neural activity.
- Extract embeddings from each electrode separately then merge them in BERT-like encoder
- propose losses for pretraining stage.
Stimulation
what: explore different stimulation for touch sensation
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2❤1
Forwarded from Блуждающий нерв
Очень наглядно: как мозг исцеляет сердце. По сути, на картинке прообраз медицины нового типа.
Мы видим сердца мышей спустя 15 дней после инфаркта. Те, что справа, сохранились гораздо лучше — сердечной ткани больше, фиброзной меньше. В чем дело? В том, что правым мышам ежедневно стимулировали участок мозга, дофаминовые нейроны вентральной области покрышки (VTA). Это снизило воспаление и усилило заживление в сердце. Это также повлияло на печень — она стала вырабатывать больше белка, который помогает формировать новые кровеносные сосуды в поврежденной сердечной ткани. Сердце никто не лечил, только активировали клетки в мозге.
🔗 Статья в Nature Cardiovascular Research (полный текст, через vpn)
🔗 Пресс-релиз
Конечно, мыши не люди, и об этом стоит помнить. Но основания для оптимизма есть, поскольку тут мы не упираемся в различия молекул, генов и проч. [Продолжение] 👇
Мы видим сердца мышей спустя 15 дней после инфаркта. Те, что справа, сохранились гораздо лучше — сердечной ткани больше, фиброзной меньше. В чем дело? В том, что правым мышам ежедневно стимулировали участок мозга, дофаминовые нейроны вентральной области покрышки (VTA). Это снизило воспаление и усилило заживление в сердце. Это также повлияло на печень — она стала вырабатывать больше белка, который помогает формировать новые кровеносные сосуды в поврежденной сердечной ткани. Сердце никто не лечил, только активировали клетки в мозге.
🔗 Статья в Nature Cardiovascular Research (полный текст, через vpn)
🔗 Пресс-релиз
Конечно, мыши не люди, и об этом стоит помнить. Но основания для оптимизма есть, поскольку тут мы не упираемся в различия молекул, генов и проч. [Продолжение] 👇
❤10🤔4
Meta Connect 24
Мне понравился их новый прототип крутых очков. Orion with holographic AR.
Если коротко, сделали шаг в сторону того, чтобы засунуть quest в очки!
Сделали новый способ проекции на линзы. Работает без проводов и около 100 гр.
Также показали что этим можно будет управлять голосом, hand and eye tracking и muscle interface(ctrl labs armband).
Ждем, выглядит очень многообещающе!
p.s. все движется в сторону очков, потому что носить нечто большое на голове люди очевидно не хотят каждый день.
Мне понравился их новый прототип крутых очков. Orion with holographic AR.
Если коротко, сделали шаг в сторону того, чтобы засунуть quest в очки!
Сделали новый способ проекции на линзы. Работает без проводов и около 100 гр.
Также показали что этим можно будет управлять голосом, hand and eye tracking и muscle interface(ctrl labs armband).
Ждем, выглядит очень многообещающе!
p.s. все движется в сторону очков, потому что носить нечто большое на голове люди очевидно не хотят каждый день.
👍6❤2🔥1
Orion AR glasses prototype
part from the meta connect 2024
youtube link: https://youtu.be/pPLWIL64sgQ?si=Qm63g68RoYXCqTzd
part from the meta connect 2024
youtube link: https://youtu.be/pPLWIL64sgQ?si=Qm63g68RoYXCqTzd
YouTube
In Full: Mark Zuckerberg Reveals "Orion" Prototype AR Glasses
https://www.uploadvr.com/meta-connect-2024-orion-prototype-ar-glasses/
Follow us!
✖️: https://x.com/UploadVR
📘: https://www.facebook.com/UploadVR/
🧵: https://www.threads.net/@UploadVR
#VR
Follow us!
✖️: https://x.com/UploadVR
📘: https://www.facebook.com/UploadVR/
🧵: https://www.threads.net/@UploadVR
#VR
Forwarded from Голубь Скиннера
Мозг и его скорости
#neuroscience
Публикация: Senkowski, D., & Engel, A. K. (2024). Multi-timescale neural dynamics for multisensory integration. Nature Reviews Neuroscience, 1-18.
Наш мозг обрабатывает информацию, поступающую от разных органов чувств. Эта обработка не осуществляется изолированно: например, мы лучше понимаем речь (слуховая модальность), если наблюдаем за движением губ собеседника (зрительная модальность), и т. д. Объединение процессов такой обработки называется мультисенсорной интеграцией. Недавно в “Nature Reviews Neuroscience” появилась статья про её нейрональные механизмы.
Важной особенностью этого процесса является то, что он осуществляется на разных временных масштабах. Упрощённо: базовая сенсорная обработка происходит на небольших временных масштабах, а высокоуровневые процессы — на более длительных.
Что определяет эти временные масштабы? Синхронная активность нейронов в разных частотных диапазонах — ритмы мозга или осцилляции. Они задействуются в следующих сценариях.
✨ Модуляция амплитуды. Мультисенсорная интеграция сопровождается изменениями в мощности ритмов. Например, была установлена связь быстрой обработки мультисенсорных стимулов с мощностью гамма-ритма, а более сложных процессов (например, аудиовизуальной обработки речи) — с низкими частотами. Впрочем, это не означает, что иерархия мультисенсорной обработки линейно опирается на частоту таким образом, что высокие частоты связаны исключительно с простейшей сенсорной обработкой. Важно обращать внимание на то, какие области мозга генерируют эти ритмы: например, мультисенсорная интеграция может модулировать высокочастотные ритмы не только в сенсорных областях, но и в ассоциативных.
✨ Фазовый сброс (Phase resetting). Предъявление стимула в одной модальности может “обнулить” фазу осцилляций, отвечающих за процессы уже в другой модальности. Например, предъявление тактильного стимула обезьяне может приводить к сбросу фазы осцилляций в широком диапазоне частот (от 1 до 100 Гц) в слуховой коре, причем меньше чем через 100 мс после предъявления стимула. Этот механизм упреждающе может облегчать дальнейшую интеграцию предъявленного стимула в обработку уже другими системами.
✨ Ритмическая привязка (Entrainment). Стимуляция одной сенсорной системы на заданной частоте может индуцировать соответствующие осцилляции в другой системе. В частности, если предъявлять звуковые стимулы с частотой 3 Гц, можно наблюдать осцилляторную активность на этой же частоте в зрительной коре. А при предъявлении двух конкурирующих звуковых потоков целевые звуковые стимулы распознаются легче, если предъявлять зрительные стимулы, не относящиеся к задаче, но по временной динамике соотносимые с целевыми звуками.
✨ Функциональная связность. (Functional coupling). Осцилляции из функционально различных областей могут синхронизоваться на уровне фаз или огибающих. Например, синхронизация бета-ритма между височными и лобно-теменными областями наблюдается при эффекте Мак-Гурка (если вы не знакомы с этим эффектом, можете пройти по ссылке и мультисенсорно забыться). Важно также, что связность может устанавливаться и между разными ритмами: например, медленные осцилляции могут модулировать высокие.
Указанные выше механизмы касаются обработки уже предъявленного стимула. Но важно не забывать и про спонтанную активность незадолго до предъявления стимула. В частности, повышенная мощность спонтанного бета-ритма может предсказывать степень выраженности иллюзии Мак-Гурка, т. е. и предрасположенность к мультисенсорной интеграции в целом.
Также следует отметить, что в мозге имеют место процессы, не привязанные к временному масштабу (scale-free dynamics). Они не задействуют фиксированные частоты и не регулярны. Эту динамику связывают с состоянием критичности, в котором физическая система (мозг) наиболее подвержена изменениям во внешней среде. Соответственно, эти процессы могут влиять на то, с какой лёгкостью происходят ранее описанные фазовые сбросы или ритмические привязки, а также гибкость мультисенсорной интеграции в целом. Но это требует отдельных исследований.
#neuroscience
Публикация: Senkowski, D., & Engel, A. K. (2024). Multi-timescale neural dynamics for multisensory integration. Nature Reviews Neuroscience, 1-18.
Наш мозг обрабатывает информацию, поступающую от разных органов чувств. Эта обработка не осуществляется изолированно: например, мы лучше понимаем речь (слуховая модальность), если наблюдаем за движением губ собеседника (зрительная модальность), и т. д. Объединение процессов такой обработки называется мультисенсорной интеграцией. Недавно в “Nature Reviews Neuroscience” появилась статья про её нейрональные механизмы.
Важной особенностью этого процесса является то, что он осуществляется на разных временных масштабах. Упрощённо: базовая сенсорная обработка происходит на небольших временных масштабах, а высокоуровневые процессы — на более длительных.
Что определяет эти временные масштабы? Синхронная активность нейронов в разных частотных диапазонах — ритмы мозга или осцилляции. Они задействуются в следующих сценариях.
Указанные выше механизмы касаются обработки уже предъявленного стимула. Но важно не забывать и про спонтанную активность незадолго до предъявления стимула. В частности, повышенная мощность спонтанного бета-ритма может предсказывать степень выраженности иллюзии Мак-Гурка, т. е. и предрасположенность к мультисенсорной интеграции в целом.
Также следует отметить, что в мозге имеют место процессы, не привязанные к временному масштабу (scale-free dynamics). Они не задействуют фиксированные частоты и не регулярны. Эту динамику связывают с состоянием критичности, в котором физическая система (мозг) наиболее подвержена изменениям во внешней среде. Соответственно, эти процессы могут влиять на то, с какой лёгкостью происходят ранее описанные фазовые сбросы или ритмические привязки, а также гибкость мультисенсорной интеграции в целом. Но это требует отдельных исследований.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Forwarded from Голубь Скиннера
MEG/EEG Bloopers. Part 2
#neuroimaging
Продолжаю серию пасхалок из анализа сигналов мозга. Активность, регистрируемая с помощью МЭГ и ЭЭГ, представлена ритмическими осцилляциями. Один из стандартных способов оценить, насколько те или иные ритмы выражены, это вычисление спектральной плотности мощности. Характерный спектр МЭГ/ЭЭГ (см. рис. А), представлен несколькими диапазонами частот, наиболее мощный из которых соответствует альфа-ритму (8-12 Гц). Именно его рост мы наблюдаем при закрытии глаз.
Также во многие процессы вовлекается более высокочастотный бета-ритм (12-30 Гц): его связывают с сенсомоторными задачами, вниманием, рабочей памятью и т. д. И в анализе этого ритма может крыться подвох!
Дело в том, что бета может оказаться гармоникой, порождённой альфа-ритмом. Обратимся к примеру. Смоделировав простую синусоиду в альфа-диапазоне на 10 Гц, я получаю характерный пик в спектре на 10 Гц (С). Добавив к этой синусоиде нелинейную компоненту за счёт прибавления квадрата этой синусоиды с небольшим коэффициентом, на спектре можно заметить дополнительный гармонический пик на 20 Гц (D) — а это уже бета-ритм! Похожий пик можно получить и при моделировании синусоиды непосредственно в бета-диапазоне (E).
Вклад гармоник от альфы в оценку бета-ритма, увы, не умозрительный конструкт. Во-первых, каноничный сенсомоторный мю-ритм, который по частотному диапазону соответствует альфе, обладает не синусоидальной, а аркообразной формой. И очень часто ему сопутствуют гармоники в бете. Во-вторых, стандартная затылочная альфа тоже от этого не застрахована. На графике (B) представлен спектр ЭЭГ одного человека в состоянии закрытых глаз. Наряду с пиком в альфа-ритме наблюдается пик и в бете, зависящий от выраженности альфы. Анализ этого феномена более подробно представлен в этой статье (как и некоторые полезные эвристики).
Возникает вопрос — что с этим делать?
➡️ Не ограничивать себя анализом в частотном домене: существуют дополнительные способы оценки осцилляторной активности, в т. ч. и во временном домене с выделением отдельных всплесков осцилляций и оценкой их дополнительных характеристик.
➡️ При частотном анализе учитывать отношение высоких частот к низким, смотреть на поведение спектра в целом, не изолируя отдельные частотные диапазоны.
➡️ Внимательно оценивать центральные частоты в пиках спектра: если центральная частота одного из пиков кратна центральной частоте пика в более низких диапазонах, это повод задуматься о присутствии гармоник.
➡️ Учитывать пространственные характеристики осцилляций: бета-осцилляции с максимумом мощности в затылке — это подозрительно (хотя в редких случаях и присутствие истинных бета-осцилляций в этих регионах не исключено).
➡️ Не использовать синусоиды как базисные функции для спектрального разложения (как это происходит в стандартном Фурье-анализе). Альтернативный вариант — преобразование Гильберта-Хуанга на основе метода EMD. Это преобразование основано на разложении сигнала на эмпирические моды, выделяемые непосредственно из данных. Как видно из моих модельных графиков (F), для нелинейного альфа-ритма это преобразование не выделяет пик в бете. Однако точность разложения зависит от специфики выделения мод, в т. ч. их количества. В представленном примере с разложением на две моды пик находится чуть ниже 10 Гц. Оставляю ссылку на пакет, в котором упомянутое разложение реализовано.
#neuroimaging
Продолжаю серию пасхалок из анализа сигналов мозга. Активность, регистрируемая с помощью МЭГ и ЭЭГ, представлена ритмическими осцилляциями. Один из стандартных способов оценить, насколько те или иные ритмы выражены, это вычисление спектральной плотности мощности. Характерный спектр МЭГ/ЭЭГ (см. рис. А), представлен несколькими диапазонами частот, наиболее мощный из которых соответствует альфа-ритму (8-12 Гц). Именно его рост мы наблюдаем при закрытии глаз.
Также во многие процессы вовлекается более высокочастотный бета-ритм (12-30 Гц): его связывают с сенсомоторными задачами, вниманием, рабочей памятью и т. д. И в анализе этого ритма может крыться подвох!
Дело в том, что бета может оказаться гармоникой, порождённой альфа-ритмом. Обратимся к примеру. Смоделировав простую синусоиду в альфа-диапазоне на 10 Гц, я получаю характерный пик в спектре на 10 Гц (С). Добавив к этой синусоиде нелинейную компоненту за счёт прибавления квадрата этой синусоиды с небольшим коэффициентом, на спектре можно заметить дополнительный гармонический пик на 20 Гц (D) — а это уже бета-ритм! Похожий пик можно получить и при моделировании синусоиды непосредственно в бета-диапазоне (E).
Вклад гармоник от альфы в оценку бета-ритма, увы, не умозрительный конструкт. Во-первых, каноничный сенсомоторный мю-ритм, который по частотному диапазону соответствует альфе, обладает не синусоидальной, а аркообразной формой. И очень часто ему сопутствуют гармоники в бете. Во-вторых, стандартная затылочная альфа тоже от этого не застрахована. На графике (B) представлен спектр ЭЭГ одного человека в состоянии закрытых глаз. Наряду с пиком в альфа-ритме наблюдается пик и в бете, зависящий от выраженности альфы. Анализ этого феномена более подробно представлен в этой статье (как и некоторые полезные эвристики).
Возникает вопрос — что с этим делать?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Forwarded from Нейроинтерфейсы (Sergei Shishkin)
BCI Award 2024 Winners
1st Place:
Synthetic touch for brain-controlled bionic hands: tactile edges and motion via patterned microstimulation of the human somatosensory cortex
Giacomo Valle, Ali H. Alamri, John E. Downey ... Robert A. Gaunt, Charles M. Greenspon, Sliman J. Bensmaia
University of Chicago, University of Pittsburgh, Northwestern University, Shirley Ryan Ability Lab
2nd Place:
A brain to spinal cord digital bridge to restore voluntary arm and hand movements after a spinal cord injury
Thibault Collin, Icare Sakr, Valeria Spagnolo ... Jocelyne Bloch, Grégoire Courtine, Henri Lorach
EPFL, Lausanne University Hospital, University of Lausanne, ONWARD Medical, Clinatec
3rd Place:
Brain-controlled augmented hearing for spatially moving conversations in multi-talker environments
Vishal Choudhari, Cong Han, Stephan Bickel, Ashesh D. Mehta, Catherine Schevon, Guy M. McKhann, Nima Mesgarani
Columbia University, Hofstra Northwell School of Medicine, The Feinstein Institutes for Medical Research
1st Place:
Synthetic touch for brain-controlled bionic hands: tactile edges and motion via patterned microstimulation of the human somatosensory cortex
Giacomo Valle, Ali H. Alamri, John E. Downey ... Robert A. Gaunt, Charles M. Greenspon, Sliman J. Bensmaia
University of Chicago, University of Pittsburgh, Northwestern University, Shirley Ryan Ability Lab
2nd Place:
A brain to spinal cord digital bridge to restore voluntary arm and hand movements after a spinal cord injury
Thibault Collin, Icare Sakr, Valeria Spagnolo ... Jocelyne Bloch, Grégoire Courtine, Henri Lorach
EPFL, Lausanne University Hospital, University of Lausanne, ONWARD Medical, Clinatec
3rd Place:
Brain-controlled augmented hearing for spatially moving conversations in multi-talker environments
Vishal Choudhari, Cong Han, Stephan Bickel, Ashesh D. Mehta, Catherine Schevon, Guy M. McKhann, Nima Mesgarani
Columbia University, Hofstra Northwell School of Medicine, The Feinstein Institutes for Medical Research
BCI Award
BCI Award: Submit now!
The Annual BCI Award, endowed with 3,000 USD, is one of the top accolades in BCI research.
👍4🔥2
tasty neuro papers | september 2024
decoding.
SPARKS: A Biologically Inspired Neural Attention Model for the Analysis of Sequential Spiking Patterns
what: VAE with interpretable latent for spike recording.
- the model learns to generate accurate predictions from neural data.
- good paper and visualization.
BrainWave: A Brain Signal Foundation Model for Clinical Applications
what: the first foundation model for both invasive and noninvasive neural recordings
- 40,000 hours of electrical brain recordings from almost 16,000 subjects.
- works better than specialized model.
- data is all you need.
interesting.
The state of clinical trials of implantable brain–computer interfaces
what: review of the most interesting BCI labs
Graphene-based microelectrodes with bidirectional functionality for next-generation retinal electronic interfaces
what: use promising materials for electrodes.
decoding.
SPARKS: A Biologically Inspired Neural Attention Model for the Analysis of Sequential Spiking Patterns
what: VAE with interpretable latent for spike recording.
- the model learns to generate accurate predictions from neural data.
- good paper and visualization.
BrainWave: A Brain Signal Foundation Model for Clinical Applications
what: the first foundation model for both invasive and noninvasive neural recordings
- 40,000 hours of electrical brain recordings from almost 16,000 subjects.
- works better than specialized model.
- data is all you need.
interesting.
The state of clinical trials of implantable brain–computer interfaces
what: review of the most interesting BCI labs
Graphene-based microelectrodes with bidirectional functionality for next-generation retinal electronic interfaces
what: use promising materials for electrodes.
🔥5❤1👍1