#10 Summary
Humanoid Locomotion as Next Token Prediction
What.
They trained causal decoder to predict next action (and observation)
Data.
Normally, you'd need a bunch of data that shows both what the robot sees (observations) and what it does (actions). But that's tough to get . The authors used videos - some with the actions laid out and some without. This way, the robot can learn even from videos where we don't know what the actions were supposed to be.
In case there’re not action, they replace with [MASK] token. Very simple and straightforward
My thoughts
- I love how this paper makes the robot predict its next move and what it'll see next. It's like it's planning its future steps.
- For the robot to guess what's going to happen next accurately, it needs to have a mini understanding of physics and how the world works. This concept, called a 'world model,' is super intriguing.
- What's next? You can add condition with cross attention and train to understand commands, like VIMA paper.
More examples
Humanoid Locomotion as Next Token Prediction
What.
They trained causal decoder to predict next action (and observation)
Data.
Normally, you'd need a bunch of data that shows both what the robot sees (observations) and what it does (actions).
In case there’re not action, they replace with [MASK] token. Very simple and straightforward
My thoughts
- I love how this paper makes the robot predict its next move and what it'll see next. It's like it's planning its future steps.
- For the robot to guess what's going to happen next accurately, it needs to have a mini understanding of physics and how the world works. This concept, called a 'world model,' is super intriguing.
- What's next? You can add condition with cross attention and train to understand commands, like VIMA paper.
More examples
❤4
Brain-To-Text Competition 2024
This is the most fascinating BCI competition yet, organized by Stanford. Everyone has one month to develop the world's best brain-to-speech decoder!
Task: Predict attempted speech from brain activity.
Deadline: June 2, 2024
Dataset: They've recorded 12,100 sentences from a patient who can no longer speak intelligibly due to amyotrophic lateral sclerosis (ALS).
Just letting you know we're jumping into this challenge!
Together with @Altime, @kovalev_alvi and the team of ALVI Labs, we're going to create something interesting.
Like this post if you want to follow our updates❤️
This is the most fascinating BCI competition yet, organized by Stanford. Everyone has one month to develop the world's best brain-to-speech decoder!
Task: Predict attempted speech from brain activity.
Deadline: June 2, 2024
Dataset: They've recorded 12,100 sentences from a patient who can no longer speak intelligibly due to amyotrophic lateral sclerosis (ALS).
For each sentence, we provide the transcript of what the participant was attempting to say, along with the corresponding time series of neural spiking activity recorded from 256 microelectrodes in speech-related areas of cortex.
Just letting you know we're jumping into this challenge!
Together with @Altime, @kovalev_alvi and the team of ALVI Labs, we're going to create something interesting.
Like this post if you want to follow our updates❤️
👍9❤6🔥4🦄2
Neuralink Update - July 10, 2024
I watched their latest update and prepared some notes about it.
Link for the full
Control of the cursor.
Best cursor control without eye tracking.
How it works: participant imagines hand movements, translated to cursor control. I expect that they predict velocity of the cursor.
They achieved amazing speed and quality of cursor control on Day 133. For example, I couldn't beat this record for the first time. Let's try!
That's link: https://neuralink.com/webgrid/
My result: 7.88 BPS
Device usage up to 70 hours per week. That's almost half their waking life!
Future Plans and Goals:
Main goal is to give people "superpowers", not just restore functionality
Pretty damn cool
- Minimize device size, close gap between implant and brain. So they want to make device feel less external.
- Implant deeper for better signal diversity
- Decode text, enable faster typing (brain-to-text)
Holy Shit
- Develop visual prostheses (currently studying in monkeys)
- Repair paralysis (tested on animals with spinal cord implants)
- Use Optimus (Tesla) arms and legs, controlled by Neuralink implants
Future Implantation Process:
- Aim for fully automated implantation
- Quick procedure (10 minutes, "like cyberpunk")
My thoughts
In my view, the progress in hardware is truly exciting. I think that solving paralysis is possible; there are no restrictions from the laws of physics. However, as Elon Musk said, it's a super hard technical problem. There are plenty of papers on restoring movement and speech in the lab.
For example in brain-to-text competition, we also could decode sentences from brain signals. Really inspired story.
So stay tuned and cyborg might be real very soon.
I watched their latest update and prepared some notes about it.
Link for the full
Control of the cursor.
Best cursor control without eye tracking.
How it works: participant imagines hand movements, translated to cursor control. I expect that they predict velocity of the cursor.
They achieved amazing speed and quality of cursor control on Day 133. For example, I couldn't beat this record for the first time. Let's try!
That's link: https://neuralink.com/webgrid/
My result: 7.88 BPS
Device usage up to 70 hours per week. That's almost half their waking life!
Future Plans and Goals:
Main goal is to give people "superpowers", not just restore functionality
Pretty damn cool
- Minimize device size, close gap between implant and brain. So they want to make device feel less external.
- Implant deeper for better signal diversity
- Decode text, enable faster typing (brain-to-text)
Holy Shit
- Develop visual prostheses (currently studying in monkeys)
- Repair paralysis (tested on animals with spinal cord implants)
- Use Optimus (Tesla) arms and legs, controlled by Neuralink implants
Future Implantation Process:
- Aim for fully automated implantation
- Quick procedure (10 minutes, "like cyberpunk")
My thoughts
In my view, the progress in hardware is truly exciting. I think that solving paralysis is possible; there are no restrictions from the laws of physics. However, as Elon Musk said, it's a super hard technical problem. There are plenty of papers on restoring movement and speech in the lab.
For example in brain-to-text competition, we also could decode sentences from brain signals. Really inspired story.
So stay tuned and cyborg might be real very soon.
❤5🔥1🤔1🐳1
Cursor controlled by a brain implant.
Wireless, compatible with almost all devices using BLE.
You can even use it during a flight!
Wireless, compatible with almost all devices using BLE.
You can even use it during a flight!
🤯4🔥3👍1👻1
Muscle-To-Motion Competition 2024
I’m happy to tell you about new competition!
You've got 21 days to cook up the world's best prosthetic control system. This is the BCI competition, organized by ALVI Labs and BCI Initiative.
Task: Predict finger movements from the muscle activation(EMG).
Deadline: August 5, 2024
Dataset: We've recorded 10+ hours of data from both healthy and amputee subjects.
This isn't just classification - it's a full regression challenge. We'll test your model on a real amputee. Your code could directly impact someone's life.
Time to create some next-level shit and maybe, just maybe, revolutionize prosthetics. Let’s fun.❤️
kaggle: https://www.kaggle.com/c/bci-initiative-alvi-hci-challenge/overview
Github with code: https://github.com/BCI-I/BCI_ALVI_challenge
I’m happy to tell you about new competition!
You've got 21 days to cook up the world's best prosthetic control system. This is the BCI competition, organized by ALVI Labs and BCI Initiative.
Task: Predict finger movements from the muscle activation(EMG).
Deadline: August 5, 2024
Dataset: We've recorded 10+ hours of data from both healthy and amputee subjects.
We asked people to make different finger movements (simple moves, gestures, static moves). We recorded muscle activity using Myo Thalmic Armband ( 8 electrodes, 200Hz). Plus, we captured hand positions with 20 DoF at 25 Hz.
This isn't just classification - it's a full regression challenge. We'll test your model on a real amputee. Your code could directly impact someone's life.
Time to create some next-level shit and maybe, just maybe, revolutionize prosthetics. Let’s fun.❤️
kaggle: https://www.kaggle.com/c/bci-initiative-alvi-hci-challenge/overview
Github with code: https://github.com/BCI-I/BCI_ALVI_challenge
🔥9👍1👻1
the last neural cell
Muscle-To-Motion Competition 2024 I’m happy to tell you about new competition! You've got 21 days to cook up the world's best prosthetic control system. This is the BCI competition, organized by ALVI Labs and BCI Initiative. Task: Predict finger movements…
Muscle-To-Motion Competition 2024: Final Week Countdown
Only 7 days remain in our prosthetic control system competition.
kaggle link: https://kaggle.com/c/bci-initiative-alvi-hci-challenge/overview
🔬 Challenge: Predict finger movements from EMG data
🏆 Impact: Your model will be tested on a real amputee
🚀 Leaderboard is tight!
Submissions close August 5th, 2024.
Only 7 days remain in our prosthetic control system competition.
kaggle link: https://kaggle.com/c/bci-initiative-alvi-hci-challenge/overview
🔬 Challenge: Predict finger movements from EMG data
🏆 Impact: Your model will be tested on a real amputee
🚀 Leaderboard is tight!
Submissions close August 5th, 2024.
🔥5👻2🐳1
DeepPhase: periodic autoencoders for learning motion phase manifolds | 2022
Я сейчас занимаюсь LFP decomposition и наткнулся на старую, но интересную статью.
Они получают компоненты с помощью свёрток(могут быть и RNN). Затем берут синусоиду и подгоняют ее под эти компоненты.
В конце, они проецируют эти синусы в пространство сигнала. Тоже свертками. И решают задачу реконструкции. Всё работает, потому что все операции дифференцируемые.
Зачем это нужно?
Чтобы понять внутреннюю структуру временных сигналов. Генерировать, интерполировать и так далее. Они применяли для движений. Я считаю что можно пробовать для других сигналов: EEG, LFP, ECoG.
Например, построить фазовые манифолды.
code
P. S. If you do not speak Russian, use the top "Translate to English" button.
#review
Я сейчас занимаюсь LFP decomposition и наткнулся на старую, но интересную статью.
let's force model to learn periodic latents
Они получают компоненты с помощью свёрток(могут быть и RNN). Затем берут синусоиду и подгоняют ее под эти компоненты.
В конце, они проецируют эти синусы в пространство сигнала. Тоже свертками. И решают задачу реконструкции. Всё работает, потому что все операции дифференцируемые.
Зачем это нужно?
Чтобы понять внутреннюю структуру временных сигналов. Генерировать, интерполировать и так далее. Они применяли для движений. Я считаю что можно пробовать для других сигналов: EEG, LFP, ECoG.
Например, построить фазовые манифолды.
code
P. S. If you do not speak Russian, use the top "Translate to English" button.
#review
1🔥6👍5🦄1
Genie: Generative Interactive Environments
What: learn latent actions from videos (only) of games.
- predict future frames based on previous and latent actions.
- they trained actions to help model make transition between frames.
- just let’s AI model figures out commands by yourself.
SAM 2: Segment Anything in Images and Videos
What: SAM now works well with videos.
- annotate big dataset of videos.
- add memory block to ensure temporal consistency of predicted mask.
Mixture of A Million Experts
What: expand MoE for lots of experts.
- store low rank approx of experts.
- works better than dense FFN.
The Road Less Scheduled
What: propose schedule-free optimizer.
- one more thing that beats AdamW.
- easy to drop in your training pipeline.
Rolling Diffusion Models
What: incorporating temporal info in generative diffusion process for videos.
- let’s make denoising and predict next frames at the same time.
- hard math, but idea is interesting.
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
What: step into merging local and global planning.
Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories.
#digest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2🐳1
Tasty Neuro Papers | 01-31 July 2024
Brain decoding
🔘 Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution
Кратко: pretrained transformer for spikes.
- Single-spike resolution, никакого rate coding.( На самом деле есть, но на маленьких бинах)
- Придумали multi task masking MtM - модель учится, попеременно маскируя и восстанавливая активность во времени, между нейронами и областями мозга.
- Обучаемый токен подсказывает модели текущую схему маскирования.
🔘 Semantic encoding during language comprehension at single-cell resolution
Кратко: Нашли нейроны, активирующиеся на конкретные значения слов во время речи.
- Реагируют на конкретные семантические категории слов (еда, животные и т.д.)
- Активность этих нейронов зависит от контекста предложения, а не просто от звучания слов
- Нейронная сеть может предсказать значение слова по активности этих клеток
Мне лично нравится тенденция использовать все события(каждый спайк). Потому что при rate coding мы например имеем задержку и не можем некоторые быстро изменяющиеся вещи улавливать(саккады).
Соберите больше данных, а модель сама разберется -> пока что работает почти везде.
#digest
Brain decoding
Кратко: pretrained transformer for spikes.
- Single-spike resolution, никакого rate coding.( На самом деле есть, но на маленьких бинах)
- Придумали multi task masking MtM - модель учится, попеременно маскируя и восстанавливая активность во времени, между нейронами и областями мозга.
- Обучаемый токен подсказывает модели текущую схему маскирования.
Кратко: Нашли нейроны, активирующиеся на конкретные значения слов во время речи.
- Реагируют на конкретные семантические категории слов (еда, животные и т.д.)
- Активность этих нейронов зависит от контекста предложения, а не просто от звучания слов
- Нейронная сеть может предсказать значение слова по активности этих клеток
Single-neuronal recordings were obtained from the prefrontal cortex of the language-dominant hemisphere in a region centred along the left posterior middle frontal gyrusМысли вслух. Скоро сделаем обзор на первую статьи(universal translator) и сравним с предыдущей "foundation" моделью POYO.
Мне лично нравится тенденция использовать все события(каждый спайк). Потому что при rate coding мы например имеем задержку и не можем некоторые быстро изменяющиеся вещи улавливать(саккады).
Соберите больше данных, а модель сама разберется -> пока что работает почти везде.
#digest
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🕊1👻1
Geometric Machine Learning.
GREEN (Gabor Riemann EEG Net). Звучит мудрено, но идея простая: взяли обучаемые фильтры, добавили риманову геометрию и получили мощный инструмент для работы с ЭЭГ.
paper
code
Как это работает:
1. Пропускаем ЭЭГ через обучаемые фильтры. По факту свертки.
2. Смотрим, как каналы и частоты связаны. Строим ковариационную матрицу. (кстати, похоже на скоры в self-attention до софтмакса).
3. Потом идет магия с римановой геометрией. Фишка в том, что работают с целыми матрицами, а не векторами.
В итоге получаем крутые фичи для MLP, которые дают хорошие результаты.Интересно конечно попробовать сделать претрейн такой штуки с помощью contrastive learning. Может и получше потом задачи решать будет.
P.S. В сохраненках нашел статью про геометрию в ML с крутыми картинками:
Beyond Euclid: An Illustrated Guide to Modern Machine Learning with Geometric, Topological, and Algebraic Structures
Если работаете с нейроданными или просто любите ML - сохраните. Может пригодиться.
#review
GREEN (Gabor Riemann EEG Net). Звучит мудрено, но идея простая: взяли обучаемые фильтры, добавили риманову геометрию и получили мощный инструмент для работы с ЭЭГ.
paper
code
Как это работает:
1. Пропускаем ЭЭГ через обучаемые фильтры. По факту свертки.
2. Смотрим, как каналы и частоты связаны. Строим ковариационную матрицу. (кстати, похоже на скоры в self-attention до софтмакса).
3. Потом идет магия с римановой геометрией. Фишка в том, что работают с целыми матрицами, а не векторами.
В итоге получаем крутые фичи для MLP, которые дают хорошие результаты.Интересно конечно попробовать сделать претрейн такой штуки с помощью contrastive learning. Может и получше потом задачи решать будет.
P.S. В сохраненках нашел статью про геометрию в ML с крутыми картинками:
Beyond Euclid: An Illustrated Guide to Modern Machine Learning with Geometric, Topological, and Algebraic Structures
Если работаете с нейроданными или просто любите ML - сохраните. Может пригодиться.
#review
3👍8🔥2👨💻2
Forwarded from Нейроинтерфейсы (Sergei Shishkin)
Сравнение разных преобразований:
Stefan Scholl. Fourier, Gabor, Morlet or Wigner: Comparison of Time-Frequency Transforms. arXiv, 17 Jan 2021, https://doi.org/10.48550/arXiv.2101.06707
В том числе красивые картинки:
a gallery of time-frequency representations of numerous signals from different fields of applications to allow for visual comparison
Stefan Scholl. Fourier, Gabor, Morlet or Wigner: Comparison of Time-Frequency Transforms. arXiv, 17 Jan 2021, https://doi.org/10.48550/arXiv.2101.06707
В том числе красивые картинки:
a gallery of time-frequency representations of numerous signals from different fields of applications to allow for visual comparison
❤4👍2🔥1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
ИИ - это не только ценный с мех, это еще и способ вернуть возможность говорить немым пациентам.
Говорить - это доводить до озвучки свои попытки в голове что-то сказать.
Если эксперимент удастся воспроизвести на более разнообразных текстовых данных, а не только для тех, что использовались в статье, то это (мне кажется) невыносимо круто, учитывая заявленную точность в 90% и выход на 97% после дотренировки.
Если на TLDR-пальцах:
Человеку имплантировали 4 электрода, которые регистрировали его нейроактивность. За 30-минут обучили ИИ превращать эти сигналы в текст. Текст озвучили с помощью text-2-speech. Это на словарном запасе 50 слов.
Но.
Потренировали еще полтора часа и вот уже словарный запас 125 000 слов (больше чем у любого школьника) и точность 90.2 процента.
Как тут не вспомнить про пластичность мозга, который может использовать новые сигналы взамен потерянных (кохлеарные имплантанты, писал тут 1 2 3), чтобы расшифровывать их в нужный канал восприятия (слух речь).
ИИ и есть эта пластичность в данном примере.
Для гиков.
Пациенту была проведена хирургическая имплантация четырех микроэлектродных массивов в левую прецентральную извилину, которые регистрировали нейронную активность с 256 внутрикорковых электродов. Такой нейропротез, декодировал его нейронную активность, когда он пытался говорить в условиях как заданной, так и неструктурированной беседы. Декодированные слова отображались на экране, а затем озвучивались с помощью text2speech. В первый день использования системы, после 30 минут попыток обучения речи, нейропротез достиг точности 99.6% при словарном запасе в 50 слов. На второй день объем возможного словарного запаса увеличился до 125 000 слов, и после 1.4 дополнительных часов обучения нейропротез достиг точности 90.2%. При дальнейшем обучении нейропротез сохранял точность 97.5% в течение восьми месяцев после хирургической имплантации. Участник использовал нейропротез для самостоятельного общения в течение более 248 часов. У человека с ALS и тяжелой дизартрией внутрикорковый речевой нейропротез достиг уровня производительности, пригодного для восстановления естественного общения, после короткого периода обучения.
Когда Маск сделает свою иголочку доступной на уровне амбулаторного укола в голову для всех, можно будет набирать текстовые сообщения молча. Нет, общаться с chatGPT молча. А еще круче - тихие Zoom-коллы. Все сидят в наушниках и молчат.
Если вы думаете, что все это шуточки, поглядите видео:
https://www.youtube.com/watch?v=thPhBDVSxz0
Немного не по себе после просмотра.
https://pubmed.ncbi.nlm.nih.gov/38645254/
А, самое значимое, код есть на Гитхабе.
@cgevent
Говорить - это доводить до озвучки свои попытки в голове что-то сказать.
Если эксперимент удастся воспроизвести на более разнообразных текстовых данных, а не только для тех, что использовались в статье, то это (мне кажется) невыносимо круто, учитывая заявленную точность в 90% и выход на 97% после дотренировки.
Если на TLDR-пальцах:
Человеку имплантировали 4 электрода, которые регистрировали его нейроактивность. За 30-минут обучили ИИ превращать эти сигналы в текст. Текст озвучили с помощью text-2-speech. Это на словарном запасе 50 слов.
Но.
Потренировали еще полтора часа и вот уже словарный запас 125 000 слов (больше чем у любого школьника) и точность 90.2 процента.
Как тут не вспомнить про пластичность мозга, который может использовать новые сигналы взамен потерянных (кохлеарные имплантанты, писал тут 1 2 3), чтобы расшифровывать их в нужный канал восприятия (слух речь).
ИИ и есть эта пластичность в данном примере.
Для гиков.
Пациенту была проведена хирургическая имплантация четырех микроэлектродных массивов в левую прецентральную извилину, которые регистрировали нейронную активность с 256 внутрикорковых электродов. Такой нейропротез, декодировал его нейронную активность, когда он пытался говорить в условиях как заданной, так и неструктурированной беседы. Декодированные слова отображались на экране, а затем озвучивались с помощью text2speech. В первый день использования системы, после 30 минут попыток обучения речи, нейропротез достиг точности 99.6% при словарном запасе в 50 слов. На второй день объем возможного словарного запаса увеличился до 125 000 слов, и после 1.4 дополнительных часов обучения нейропротез достиг точности 90.2%. При дальнейшем обучении нейропротез сохранял точность 97.5% в течение восьми месяцев после хирургической имплантации. Участник использовал нейропротез для самостоятельного общения в течение более 248 часов. У человека с ALS и тяжелой дизартрией внутрикорковый речевой нейропротез достиг уровня производительности, пригодного для восстановления естественного общения, после короткого периода обучения.
Если вы думаете, что все это шуточки, поглядите видео:
https://www.youtube.com/watch?v=thPhBDVSxz0
Немного не по себе после просмотра.
https://pubmed.ncbi.nlm.nih.gov/38645254/
А, самое значимое, код есть на Гитхабе.
@cgevent
👍4🔥3
Transformers for brain decoding | foundational models
Хочу рассказать про модели, которые сейчас используют для расшифровки мозговых сигналов (спайки, LFP). Посмотрим, как их обучают на данных с разных сессий и животных, какие подходы к предобучению применяют, и какие архитектуры в ходу. Я выделил три интересные статьи, кратко про каждую.
🔘 POYO-1: A Unified, Scalable Framework for Neural Population Decoding
perciever io, где токены это отдельные спайки, обучали с учителем на разных животных, решая разные задачи.
🔘 Neural Data Transformer 2: Multi-context Pretraining for Neural Spiking Activity
Адаптировали masked autoencoder (MAE). Плюс также добавляют инфу о сессии и о испытуемом. MAE это круто и просто. Вот ссылка на наш обзор
🔘 Towards a "universal translator" for neural dynamics at single-cell, single-spike resolution
Расширили прошлый подход и сделали более умный претрейн, начали добавлять ещё токены о типе маскирования. Показали что стало лучше.
Какой тренд мы видим. Multi task, multi subject, multi sessions, multi multi. Transformers go brr... Короче говоря, берут трансформер и хотят чтобы он решал всё и для всех.
Про каждую модель будет пост. Чётко разберемся что за данные, как их предобрабатывпли, какую модель использовали и что решали.
Везде данные разные да и сравнивать side by side пока тяжеловато. Всё это больше для ознакомления, о том как можно работать с данными. Так что вдохновляйтесь в своей работе)
Just my thought
Трансформер работает с векторами. Поэтому чтобы туда запихнуть наши нейро данные, их нужно вначале в эти вектора превратить. Однако что считать токеном для нейро активности? Отдельные спайки, binned activity, группу нейронов и т.д. Это вопрос открытый. Можно по-разному. Но вот что если сначала сжать информацию? И использовать более полезные токены из нашего “сжимателя”? Пример VQVAE который сейчас для всех аудио задач используется и для картинок, видео тоже. Чем нейро хуже?)
P.S. Если знаете ещё интересные статьи, где работают с intracortical activity. Пожалуйста скиньте. Тоже разберем)
#digest
Хочу рассказать про модели, которые сейчас используют для расшифровки мозговых сигналов (спайки, LFP). Посмотрим, как их обучают на данных с разных сессий и животных, какие подходы к предобучению применяют, и какие архитектуры в ходу. Я выделил три интересные статьи, кратко про каждую.
perciever io, где токены это отдельные спайки, обучали с учителем на разных животных, решая разные задачи.
Адаптировали masked autoencoder (MAE). Плюс также добавляют инфу о сессии и о испытуемом. MAE это круто и просто. Вот ссылка на наш обзор
Расширили прошлый подход и сделали более умный претрейн, начали добавлять ещё токены о типе маскирования. Показали что стало лучше.
Какой тренд мы видим. Multi task, multi subject, multi sessions, multi multi. Transformers go brr... Короче говоря, берут трансформер и хотят чтобы он решал всё и для всех.
Про каждую модель будет пост. Чётко разберемся что за данные, как их предобрабатывпли, какую модель использовали и что решали.
Везде данные разные да и сравнивать side by side пока тяжеловато. Всё это больше для ознакомления, о том как можно работать с данными. Так что вдохновляйтесь в своей работе)
Just my thought
Трансформер работает с векторами. Поэтому чтобы туда запихнуть наши нейро данные, их нужно вначале в эти вектора превратить. Однако что считать токеном для нейро активности? Отдельные спайки, binned activity, группу нейронов и т.д. Это вопрос открытый. Можно по-разному. Но вот что если сначала сжать информацию? И использовать более полезные токены из нашего “сжимателя”? Пример VQVAE который сейчас для всех аудио задач используется и для картинок, видео тоже. Чем нейро хуже?)
P.S. Если знаете ещё интересные статьи, где работают с intracortical activity. Пожалуйста скиньте. Тоже разберем)
#digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥8👏3🤔2