Data Secrets
85.5K subscribers
6.48K photos
671 videos
20 files
2.74K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Завтра наконец-то поступит в продажу DGX Spark от Nvidia. Первые экземпляры достались Маску.

Это та самая видеокарта, которая попала в топ-100 изобретений года по версии Times. По сути, самый маленький в мире ИИ-суперкомпьютер. Так что сегодня – большой день.

В основе архитектура NVIDIA Grace Blackwell. Начинка: 128Gb оперативки, 20 ядер CPU, ARM процессор. Пропускная способность в районе 273 ГБ/с. И все это весит всего 1.2кг. А стоит – 4000 долларов 🚨

А еще в честь долгожданного начала продаж (а с момента анонса DGX Spark до сегодняшнего дня прошло чуть меньше года) Дженсен Хуанг сам лично подарил один из первых экземпляров суперкомпьютера Илону Маску.

Подпись: "From a single Spark, a world of Intelligence": то есть "Из одной искры в мир интеллекта".

(Где-то ревниво вздыхает один Альтман)

Больше технических характеристик DGX Spark ищите тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10640🔥24🤯44😁3
Data Secrets
Завтра наконец-то поступит в продажу DGX Spark от Nvidia. Первые экземпляры достались Маску. Это та самая видеокарта, которая попала в топ-100 изобретений года по версии Times. По сути, самый маленький в мире ИИ-суперкомпьютер. Так что сегодня – большой день.…
Тогда VS сейчас

1 фотография: Дженсен Хуанг привез первую видеокарту в OpenAI. Надпись на ней гласит: «Илону и команде OpenAI. Во имя будущего вычислений и человечества, дарю вам первую в мире DGX-1». 2016 год.

2 фотография: Дженсен Хуанг привез Маску DGX Spark в Space X. 2025 год.

Какая-то ностальгия
3🔥223👾27👍2013😁22
Пособие от Ильи Суцкевера: как одним твитом довести до ручки половину Интернета

В общем, утром Суцкевер вдруг взял и запостил одну единственную фразу:

«truly the greatest day ever»


Твитерские усмотрели в этом намек на ИИ, и у всех буквально сорвало крышу. От «AGI достигнут» до «они открыли ASI и вылечили рак» – чего только люди не писали (и продолжают писать).

А Илья вдруг взял и твит удалил. И сразу после выложил новую версию:

«truly the greatest day ever🎗️»


Короче. Оказалось, что он не имел в виду ничего, что было бы хоть немного связно с ИИ (а твит заменил, видимо, потому что сам сильно «удивился» реакции общественности). Речь шла об освобождении заложников в Израиле. Желтая лента – это символ символ надежды в ожидании возвращения заложников домой.

Вот такая история. На данный момент это все, что вам нужно знать о хайпе в Интернете
243😁198👍27🗿108🤯6🔥4👀2
Сэм Альтман пообещал, что в ChatGPT станет меньше цензуры

После выхода GPT-5 пользователи начали массово жаловаться на то, что модель перестала быть человечной, что теперь с ней нельзя поговорить как с другом, что они потеряли в ее лице психолога и тд.

OpenAI оправдывали это тем, что такой ценой старались сделать модель однозначно безопасной для людей с психологическими проблемами (вспоминаем историю о подростке, который покончил с собой после общения с ChatGPT).

Но теперь, кажется, свобод снова должно стать больше. Альтман написал, что они «разработали новые инструменты» для обработки отдельных случаев, и теперь могут безопасно ослабить ограничения для большинства юзеров. В частности:

1. В ближайшее время выйдет дополнительная версия ChatGPT, специально для фанатов человечности ответов и дружеского общения, как с GPT-4o.

2. В декабре, как только более широко введут возрастной ценз, для совершеннолетней аудитории разрешат эротику (что бы это ни значило).

У вайфу Илона Маска появится соперник 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8940👀2016👍43🍓2🤔1
VK запускает соревнование по рекомендашкам: участникам предстоит решать проблему холодного старта

Только что открылась регистрация на VK RecSys Challenge – соревнование по разработке алгоритмов рекомендаций.

Кейс в этом году выбрали очень занятный. Вместо того, что анализировать поведение пользователя и подбирать под него контент, нужно сделать обратное: построить модель, которая будет предсказывать, кому окажется интересен новый клип, даже если он еще ни разу не показывался. Холодный старт в естественной среде обитания.

Работать предстоит с огромным датасетом VK-LSVD (40 миллиардов пользовательских взаимодействий с 20 миллионами коротких видео). Для каждого нового клипа надо подобрать 100 пользователей, которым он, скорее всего, зайдет. При этом каждый пользователь может быть использован не более 100 раз, так что просто воткнуть везде топ-100 самых активных не выйдет.

Если вы студент – это прямо отличный хакатон для получения опыта решения реальной продуктовой задачки. Опытным ML-щикам тоже рекомендуем. Призовой фонд – 2 500 000 рублей 😉

Участвовать можно командой до 4 человек, а подать заявку – до 15 декабря.

Не пропускайте, полезная вещь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿46😁2817🤨73👍1
Новая неделя – новые модели от Qwen

На этот раз у нас Qwen3 VL в размерах 4B и 8B. Две просто отличные модельки для локального запуска и дообучения.

Каждая идет в вариантах Instruct и Thinking. Несмотря на размер, по качеству малышки даже кое-где обгоняют Gemini 2.5 Flash Lite и GPT-5 Nano.

По бенчмаркам видно, что модели почти дотянули до уровня Qwen2.5-VL-72B. А ведь эту модель выпустили всего пол года назад, и она считалась флагманом Qwen.

Кроме того, оптимизировали потребление VRAM и выпустили версии FP8.

Hugging Face
Cookbook
185🔥40👍17😁3
⚡️ Apple релизнули чип M5

Что нового и интересного с точки зрения ИИ:

1. В чипе 10 ядер GPU. Прирост в производительности примерно 30% относительно М4.

2. В каждый блок теперь встроен Neural Accelerator. Прирост в скорости для локальных ИИ-задач примерно в 3.5 раза.

Сюда относятся всякие обработки фотографий, генерация видео, рендеринг, запуски моделек и тд. Примерные разбивки для разных задач (диффузия, CV, LM) смотрите тут.

Кстати про модельки: по ощущениям легко должно тянуть до 7-8В.

3. Пропускная способность памяти ~153 ГБ/с (+30 % к предыдущему поколению). Плюс улучшили энергоэффективность, так что перегреваться от вычислений больше не должен.

Есть только одно НО: цена начинается от $1599
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯963225😁12🤨32👍2🔥2
МТС открывает набор в Школу аналитиков данных — четвертый поток бесплатного онлайн-обучения для студентов последних курсов, Junior/Middle аналитиков и специалистов ИТ-сферы.

Программа рассчитана на 10 месяцев: два вебинара в неделю от экспертов MTS Web Services, разбор практических кейсов, домашние задания и обратная связь от преподавателей.

Ученики курса изучат SQL, Python, ML, Big Data, нейросети, NLP, Spark, ML System Design и научатся применять аналитические навыки в рекламе, геоаналитике и финтехе.

Всего планируется 80 студентов: 50 с обратной связью от преподавателей и 30 только для прослушивания лекций.

Лучшие смогут пройти стажировку в MTS Web Services и даже получить приглашение на работу. За активность начисляются баллы, которые можно обменять на мерч МТС.

Прием заявок продлится до 30 октября, результаты отбора станут известны 7 ноября.

Подать заявку и узнать подробности можно здесь.
😁29👍22🗿159🤯4🔥2
Существующие методы защиты моделей от взломов сломаны: совместная статья от OpenAI, DeepMind и Anthropic

Достаточно радикальная и категоричная работа (и потому интересная). Авторы утверждают, что любые существующие методы защиты LLM от джейлбрейков можно сломать и показывают как 🏴‍☠️

В качестве примера они берут 12 популярных защитных механизмов (Spotlighting, PromptGuard, MELON, Circuit Breakers и др) и демонстрируют, что каждый можно обойти с успехом 90–100%. Даже если в оригинальных статьях заявляется "0% успешных атаки".

Все дело в том, как мы измеряем качество алгоритмов. В большинстве работ механику наивно прогоняют по фиксированному набору известных джейлбрейков, никак не учитывающих саму защиту. Это как если бы антивирус тестировали только на старых вирусах. Естественно, что так ничего не сработает.

Авторы говорят, что нужен другой подход. Против модели должны играть не старые заготовки, а динамический алгоритм, который подстраивается под атаку и может менять стратегию. Это может быть:

RL-агент, который обучается на обратной связи модели.
Какой-нибудь поисковой вид атак типа beam search и генетических алгоритмов.
Если модель открытая, то можно оптимизировать градиент на уровне токенов. То есть постепенно меняем по 1-2 токена, смотрим на влияние, подстраиваемся.
Ну или просто Red-teaming с живыми людьми, если денег не жалко. Это все еще самый эффективный способ.

Сейчас любой из этих методов имеет до 95% успеха взломов на самых популярных защитных системах. Вроде простой стресс-тест, но его не прошел никто. Забавно, конечно, но факт. По сути, это значит, что модели – это новый вид универсальных вирусов, которые мы вообще не умеем отлавливать.

Тем временем любая системная карта любого стартапа: да все безопасно, зуб даем ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10438🤗21😁8🤯5🔥4👀4
Anthropic выпустили Claude Haiku 4.5

Это мини-версия Claude в новом поколении. На SWE-bench модель набирает 73.3%. Это больше, чем у Claude Sonnet 4 (72.7%). А ведь эту модель выпустили всего пол года назад, и она долго считалась SOTA для кодинга. Теперь такое же качество можно получать в три раза дешевле и в два раза быстрее.

Также модель превосходит Sonnet 4 в метриках на Computer Use. В общем, это полноценная замена не только предыдущего малыша Haiku 3.5, но и Sonnet 4 (которая, предположительно, в несколько раз больше по количеству параметров).

Модель уже раскатили в Claude Code, Claude для Chrome, в чат и API. Блогпост.

Осталось дождаться только Claude Opus 4.5
77👍30🔥15😁31
Новая открытая модель от Google сгенерировала правдоподобную гипотезу, которая может привести нас к лекарству от рака

Сегодня Google релизнули модель C2S-Scale 27B, разработанную совместно с Йельским университетом. Она основана на Gemma-2 и предназначена для "понимания" поведения отдельных биологических клеток.

За основу Google берут идею о том, что подобные биологические модели можно масштабировать также, как и LLM, если использовать тот же подход. Они структурируют данные о клетке в виде так называемого Cell sentence: это строка, содержащая транскриптомы – данные об активности тысяч генов в клетке.

Модель может обрабатывать такие данные как текст и воспринимать задачу как языковую: прогнозировать тип клетки, описывать поведение, генерировать гипотетические сценарии и др. Это делает модель почти универсальной. Плюс, такой подход дал возможность загрузить в модель, помимо последовательностей генов, еще и научные тексты.

Работает тактика, мягко говоря, неплохо. Главный на данный момент результат: модель сгенерировала новую гипотезу о поведении раковых клеток, которую на первом этапе уже экспериментально подтвердили в лаборатории. Конкретно, C2S обнаружила препарат, который может делать опухоль заметнее для иммунной системы, и, как следствие, иммунные клетки могут лучше её атаковать.

При проведении дополнительных испытаний это открытие может открыть новый многообещающий путь к разработке лекарства от рака. Представляете?

Блогпост | HuggingFace | Код | Статья
1👀1417467👍17🤯17🔥12🗿64😁2🤔11
Data Secrets
О, новый релиз от Андрея Карпаты Это один из самых безумных репозиториев, которые я когда-либо писал Сразу ссылка: github.com/karpathy/nanochat nanochat – это что-то типа продолжения легендарного nanoGPT. Но если nanoGPT – это, по сути, только предобучение…
Готовый мини-ChatGPT с нуля от Андрея Карпаты

Помните, наверное, что на днях Андрей выложил продолжение проекта nanoGPT – nanochat. Это готовый конвейер для обучения и инференса целого мини-клона ChatGPT. Мы о нем вот тут подробно писали.

Так вот теперь инженер сообщил, что закончил обучать на этом коде первую более крупную версию модели nanochat d32. Самые маленькие модельки на этом пайплайне можно обучить примерно за 100 долларов (учитывая средние цены аренды GPU). nanochat d32 же стоил примерно 1000 долларов и обучался 33 часа.

Можно посмотреть на метрики. Они очень даже неплохие для 32 слоев и 1к долларов (что еще раз подтверждает качество кода).

– На CORE score результат 0.31. Это лучше, чем у GPT-2 (≈0.26)
– На GSM8K (математика) метрика выросла с 8% до 20%

Чудес, конечно, ждать не стоит. Это все еще ультра маленькая моделька. Карпаты говорит, что она как дошкольник. И тем не менее, результаты улучшились, и с инженерной точки зрения это все еще модель, которая прошла все этапы обучения с нуля: претрейн, мидтрейн, SFT и RL. В ней даже есть tool use.

Возможно, скоро Андрей даже выложит веб-версию.

https://github.com/karpathy/nanochat/discussions/8
122👏38👍10🤯105🔥5❤‍🔥3🗿2🤓1
Media is too big
VIEW IN TELEGRAM
Вышла Veo 3.1

1. Первое и главное обновление – улучшили гибкость и контролируемость (и немножно качество). Например, можно убирать элементы из сцены или дорисовывать что-то прямо в кадр. Плюс, теперь доступна загрузка референсов для сохранения стиля, персонажей или даже одежды.

2. Поработали со звуком. Теперь аудио-сопровождение звучит естественнее, а липсинки выглядят более синхронными. Даже на русском языке работает норм.

3. Доступная длина генераций не изменилась, но добавили Scene Extension: можно продолжать видео с последних кадров.

Google сегодня в ударе.

Блогпост | Попробовать
🔥7725🤯6👍33😁1