Forwarded from Борис опять
Gemini 3 Pro бенчмарки простыми словами
- Очень большой рост на Humanity's Last Exam: это про решение очень сложных задач.
- Очень большой рост на Arc AGI 2: это про способность понимать правила задачи по парочке примеров и далее применять их в новых случаях.
- Большой рост по способностям понимать сложные изображения вроде скриншотов и графиков (бывшие коллеги из eBay обратите внимание).
- SWE-bench verified лишь незначительно отстаёт от Sonnet 4.5: это про способность решать реальные задачи по разработке софта. Короче модель на уровне Соннета.
- Большой рост по всему, что касается тулколлов и агентности. Особенно Vending Bench 2 выделяется — это про долгосрочное планирование.
Все стандартные бенчи типа MMMLU чуть-чуть выросли.
В общем большая ставка на агентность. Возможно на этой модели уже можно сделать какой-то рабочий computer use.
Выглядит как рост уровня того, что было при переходе от GPT-3.5 к GPT-4. Давно такого не было! Но подождем результатов на арене, SWE Rebench и прочих штуках, где нельзя оверфитнуться на тест
- Очень большой рост на Humanity's Last Exam: это про решение очень сложных задач.
- Очень большой рост на Arc AGI 2: это про способность понимать правила задачи по парочке примеров и далее применять их в новых случаях.
- Большой рост по способностям понимать сложные изображения вроде скриншотов и графиков (бывшие коллеги из eBay обратите внимание).
- SWE-bench verified лишь незначительно отстаёт от Sonnet 4.5: это про способность решать реальные задачи по разработке софта. Короче модель на уровне Соннета.
- Большой рост по всему, что касается тулколлов и агентности. Особенно Vending Bench 2 выделяется — это про долгосрочное планирование.
Все стандартные бенчи типа MMMLU чуть-чуть выросли.
В общем большая ставка на агентность. Возможно на этой модели уже можно сделать какой-то рабочий computer use.
Выглядит как рост уровня того, что было при переходе от GPT-3.5 к GPT-4. Давно такого не было! Но подождем результатов на арене, SWE Rebench и прочих штуках, где нельзя оверфитнуться на тест
🔥5❤2🦄1
Forwarded from LIFT feed
Обезьянам с повреждением спинного мозга помогла подсадка нейральных стволовых клеток, полученных из ESCs человека. Клетки отрастили сотни тысяч новых аксонов на глубину до 4 см, связались с тканями хозяина и восстановили подвижность рук.
Также по терапии стволовыми клетками на днях вышел обзор в контексте восстановления мозга после инсульта. Акцент сделан на взаимодействии между стволовыми и иммунными клетками, как оно влияет на воспаление, пластичность и ремоделирование нейронных связей.
#cell | #therapy | #bioengineering
Также по терапии стволовыми клетками на днях вышел обзор в контексте восстановления мозга после инсульта. Акцент сделан на взаимодействии между стволовыми и иммунными клетками, как оно влияет на воспаление, пластичность и ремоделирование нейронных связей.
#cell | #therapy | #bioengineering
Nature
Extensive restoration of forelimb function in primates with spinal cord injury by neural stem cell transplantation
Nature Biotechnology - Stem cell repair of injured monkey spinal cords restores hand function in 53% of trials.
🔥9❤1🦄1
🥉 3rd Place at LibriBrain NeurIPS 2025
Пару дней назад организаторы подвели итоги соревнования. Мы взяли третье место на треке детектирования речи (speech detection) с качеством 91% F1-macro и выиграли $800🥳
Команда (alvi team): Александр Ковалев, Алексей Тимченко, Пётр Чижов, Влад Ломтев
наш github
соревнование
Сегодня расскажу про то, что удивило, что сработало и что не получилось. Сперва кратко напомню задачу. Человек сидит и слушает аудиокнигу про Шерлока Холмса, одновременно с этим записывается активность мозга с помощью МЭГ. По этой активности нужно предсказать человек слышит речь или тишину в каждый момент времени.
Данные
Главный инсайт: на правильную нормализацию мы убили пару недель. Всегда смотрите на распределения в train/val/test чтобы понимать с чем имеете дело. Мы использовали глобальный Robust Z-score (median + mad вместо mean + std). Важно: считайте статистики только на трейне и применяйте их везде. У организаторов дефолтно считалось отдельно на каждом сплите и работало сильно хуже.
Отдельная история с per-session нормализацией. Она давала лучший результат на val, но на holdout мы не знали какие там сессии (организаторы законкатенили несколько), поэтому в итоге выбрали глобальную.
Архитектура
Для нейроданных всё ещё отлично работает то, что работает для аудио. Свёртки + трансформер бьют и чистый трансформер, и чистые свёртки по отдельности. Прикрепил картинку с архитектурой.
Несколько вещей которые дали прирост. (1) norm layer с обучаемым scale для каждого канала (+1.5%). В данной случае мы делали z score внутри окна для каждого электрода, (2) Depth-wise conv первым слоем (сначала свёртки отдельно для каждого канала, потом миксуем), (3) weight averaging, мы усредняли веса модели с последних 3 чекпоинтов. Количество подбирали на вале. Не ожидали что сработает, но реально дало +1% на тесте.
Что не сработало
Аугментации для финальной модели ничего не дали, пробовали masking и noise. MAE pretrain тоже не зашёл, но мы тренировали на небольших окнах (256). Кажется, что надо попробовать на больших, верю что должно работать. В конце пытались расширить датасет с помощью генерации, для этого даже обучили conditional DiT. Прироста не было.
p.s. первое место 91.6% так что мы были близки.
Пару дней назад организаторы подвели итоги соревнования. Мы взяли третье место на треке детектирования речи (speech detection) с качеством 91% F1-macro и выиграли $800
Команда (alvi team): Александр Ковалев, Алексей Тимченко, Пётр Чижов, Влад Ломтев
наш github
соревнование
Сегодня расскажу про то, что удивило, что сработало и что не получилось. Сперва кратко напомню задачу. Человек сидит и слушает аудиокнигу про Шерлока Холмса, одновременно с этим записывается активность мозга с помощью МЭГ. По этой активности нужно предсказать человек слышит речь или тишину в каждый момент времени.
Данные
Главный инсайт: на правильную нормализацию мы убили пару недель. Всегда смотрите на распределения в train/val/test чтобы понимать с чем имеете дело. Мы использовали глобальный Robust Z-score (median + mad вместо mean + std). Важно: считайте статистики только на трейне и применяйте их везде. У организаторов дефолтно считалось отдельно на каждом сплите и работало сильно хуже.
Отдельная история с per-session нормализацией. Она давала лучший результат на val, но на holdout мы не знали какие там сессии (организаторы законкатенили несколько), поэтому в итоге выбрали глобальную.
Архитектура
Для нейроданных всё ещё отлично работает то, что работает для аудио. Свёртки + трансформер бьют и чистый трансформер, и чистые свёртки по отдельности. Прикрепил картинку с архитектурой.
Несколько вещей которые дали прирост. (1) norm layer с обучаемым scale для каждого канала (+1.5%). В данной случае мы делали z score внутри окна для каждого электрода, (2) Depth-wise conv первым слоем (сначала свёртки отдельно для каждого канала, потом миксуем), (3) weight averaging, мы усредняли веса модели с последних 3 чекпоинтов. Количество подбирали на вале. Не ожидали что сработает, но реально дало +1% на тесте.
Что не сработало
Аугментации для финальной модели ничего не дали, пробовали masking и noise. MAE pretrain тоже не зашёл, но мы тренировали на небольших окнах (256). Кажется, что надо попробовать на больших, верю что должно работать. В конце пытались расширить датасет с помощью генерации, для этого даже обучили conditional DiT. Прироста не было.
p.s. первое место 91.6% так что мы были близки.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20🔥14 5
Forwarded from LIFT feed
Продвинутый ИМК (µECoG): 65 536 электродов, 1024 канала одновременной записи, 16 384 канала стимуляции. Без кабелей, без батареи. Гибкий массив электродов толщиной 50 мкм кладется на кору мозга и адаптируется к ее поверхности, движется вместе с мозгом. Вся электроника интегрирована в один чип. Разработано в рамках программы DARPA по проектированию нейроинженерных систем (NESD).
См. также пресс-релиз от Columbia Engineering, и на сайте стартапа, созданного под коммерциализацию технологии: Kampto Neurotech.
#tech | #prosthesis | #readout | #modulation | #brain
См. также пресс-релиз от Columbia Engineering, и на сайте стартапа, созданного под коммерциализацию технологии: Kampto Neurotech.
“Однокристальный имплантат включает в себя радиомодуль, схему беспроводного питания, цифровое управление, управление питанием, преобразование данных и аналоговые схемы, необходимые для поддержки интерфейсов записи и стимуляции. Релейная станция с батарейным питанием обеспечивает питание и связь с имплантатом, передавая данные по специально разработанной сверхширокополосной радиосвязи, обеспечивающей пропускную способность 100 Мбит/с”.
#tech | #prosthesis | #readout | #modulation | #brain
Nature
A wireless subdural-contained brain–computer interface with 65,536 electrodes and 1,024 channels
Nature Electronics - A flexible micro-electrocorticography brain–computer interface that integrates a 256 × 256 array of electrodes, signal processing, data telemetry and...
🔥5❤1🤯1