Data Secrets
85.5K subscribers
6.47K photos
672 videos
20 files
2.74K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
КолЛеГи, мы?
😁17026💯5💘2
This media is not supported in your browser
VIEW IN TELEGRAM
Дональд Трамп: «Никто не знает об ИИ больше, чем Илон Маск, и я был бы открыт для консультаций Илона по вопросам ИИ, если бы был президентом»

Кстати, Илон тоже поддержал новый Калифорнийский проект по регуляции ИИ (как и Виталик Бутерин).

Альтман курит в сторонке
😁6647🤯102🤨2👍1
Data Secrets
Тем временем противостояние века продолжается. Да, эта война растянулась на 4 дня, и еще не закончилась. Апогеем стало заявление Илона Маска о том, что в его self-driving Tesla не используются CNN (которые изобрел Лекун) 🤡 Соболезнования команде Tesla,…
Давайте также вспомним, что Илон Маск AKA лучший знаток ИИ по мнению Трампа – это тот человек, который думает, что в его self-driving автомобилях Tesla не используются CNN

P.S. Спасибо нашим комментаторам за напоминание
6😁11915👍7🤯2💘2
Anthropic пару недель назад незаметно выложили на GitHub интерактивный учебник по промптингу в виде ipynb ноутбуков

Особенно полезно для разрабов, которые работают с API LLM: курс разбит на 9 глав с теорией, примерами, упражнениями и ответами на них. Поможет освоить базовые техники, познакомит с такими фичами, как Prompt caching и отдельно научит оптимизировать ответы для кодинга.

Кстати, вот вам интересный факт
: Anthropic – единственная компания, которая опубликовала в общий доступ свои системные промпты (то есть те промпты с базовыми настройками, которые зашиваются разработчиками в модель как дефолтные). Посмотреть на них можно тут.
👍56🔥2015
Data Secrets
А вы тоже часто видите новости про «в ходе опроса айтишников выяснилось, что каждый третий…», но сами никогда в таких опросах не участвовали? 😑 Если да, этот пост для вас. Наши друзья из Центра научной коммуникации ИТМО проводят анализ профессионального…
Результаты исследования ML-сообщества от VK и ИТМО

Помните, мы просили вас поучаствовать в исследовании о состоянии индустрии, лидерах рынка и в целом ML-карьере в России? Так вот теперь мы делимся с вами его результатами!

Откуда ML-щики (то есть вы) берут информацию и какие источники любят? Как выбирают компанию для работы? Кем себя видят в будущем?

Все самые интересные и неожиданные результаты – в карточках. Спойлер: мы попали в топ-4 самых любимых ML-каналов 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
52🔥22🤯7👍4👌2🍾1
⚡️ Зацените: за последние 18 месяцев стоимость за 2М токенов (input+output) упала в 240 раз! В начале 23 года она равнялась 180 долларам, а сейчас в среднем приближается к 75 центам.
Please open Telegram to view this post
VIEW IN TELEGRAM
50🔥72👍76🤪1
Ничего необычного, просто Linkedin резюме Дженсена Хуанга, который сначала 5 лет работал посудомойщиком и официантом в закусочной, а потом…
🔥1584715😁6👍4🙈2
У Google три новые экспериментальные модели!

В компании представили:

➡️новую уменьшенную Gemini 1.5 Flash-8B
➡️более мощную Gemini 1.5 Pro
➡️и улучшенную Gemini 1.5 Flash

Все модели уже появились на Арене. Новый Gemini-1.5-Flash совершил огромный скачок с 23-го на 6-е место! Gemini-1.5-Pro ​​тоже не отстает и демонстрирует мощные улучшения в коде и математике. А новая мини-модель Gemini-1.5 Flash- 8b превосходит gemma-2-9b и догоняет llama-3-70b.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2412
This media is not supported in your browser
VIEW IN TELEGRAM
Почувствовали энергию AGI, исходящую от этого видео? 🤣

А серьезно, почему модели настолько трудно просто переписать слово? Ответ: все из-за токенизации. По этой же причине, например, GPT не может разобрать, сколько букв r в слове strawberry и очень плохо считает.

Полное объяснения того, почему так происходит и какие еще проблемы порождает токенизация можно найти в этом нашем посте.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁63🔥12
Курс лекций о фундаментальных моделях от канадского университета Waterloo ☺️

В курсе подробно разбираются такие базовые модели, как CNN и RNN. Также вы найдете все о трансформерах: обучение, настройка, и даже разбор например BERT’а и ELECTRA.

Кстати, курс относительно свежий, поэтому авторы рассказывают также о больших языковых и мультимодальных моделях: предварительная обработка данных, файнтюнинг, оптимизация, обучение и многое другое можно найти по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥55👍148
⚙️ Anthropic тихо релизнули еще одну прикольную фичу: она позволит частично менять или получать объяснения кода простым выделением. Всплывающее окно с опциями теперь показывается прямо внутри артефакта и предлагает либо объяснить выделенную часть кода, либо поправить ее.
Please open Telegram to view this post
VIEW IN TELEGRAM
54👍66🔥2514🤯3
Сколько параметров в GPT-4o mini?

Конечно, сама компания в последнее время не раскрывает ни деталей реализации, ни даже количества параметров своих моделей. Но бесследно разработка все равно не проходит, поэтому на Реддит погадали на фактах и... получилось примерно 8В. Вот почему:

▪️ Из утечки препринтов Microsoft известно, что GPT 3.5 Turbo – это 20B модель (см.скрин). В OpenAI заявляли, что GPT-4o mini стоит на 60% меньше, чем предшественник. Несложная математика: 20-60% = 8B

▪️ Microsoft имеет все доступы к моделям OpenAI и, вероятно, осведомлены об архитектурах. Они также пытаются приблизить свои модели к производительности OpenAI, используя, скорее всего, те же подходы. Так что по таким релизам, как Phi 3.5, можно отдаленно судить об архитектурах OpenAI.

▪️ Ужа давно ходили слухи, что GPT-4 имела 16 экспертов (это MoE). Учитывая, что новая Phi 3.5 MoE от Microsoft – это тоже 16 экспертов, и принимая во внимание пункт 2, можно предположить, что GPT-4o mini – это тоже 16 экспертов по примерно 4В параметров. Получается как раз 8В активных.

Кстати, новая архитектура тоже не исключена. Возможно, в OpenAI используют что-то вроде hybrid-mamba 2.
Please open Telegram to view this post
VIEW IN TELEGRAM
52👍34🔥107
Orion: новая загадочная мега-модель от OpenAI

The Information сообщает, что инсайдеры рассказывают о модели, которая должна стать новой флагманской LLM для OpenAI. Да, по сути речь о GPT-5, и оказывается, что разрабатывается она под кодовым названием Orion.

Но зачем же тогда Strawberry? Ведь именно она продвигалась как модель с якобы супер-мощным ризонингом, скиллами в математике и технических вопросах. Ответ: оказывается, Strawberry в перспективе будет некой утилитой. Объясняем 👇

Помните ту самую картинку с китом, иллюстрирующим размеры GPT-5, с весенней конференции Microsoft? А вы задумывались, откуда OpenAI будет брать данные для обучения такого гиганта, если даже для GPT-4 им уже потребовались не только тексты, но и парсинг ютуба? Кажется, тут выход один: синтетика.

При этом синтетика должна быть чистая и без галлюцинаций. Именно для такой генерации и будет использоваться Strawberry. Кстати, сначала планируют выпустить Strawberry поменьше (землянику другими словами).

Ожидается, что две эти модели вместе уведут LLM на новый уровень и в разы бустанут прибыль OpenAI. На фоне этого, кстати, компания открывает новый раунд поиска инвесторов и рассчитывает на оценку в $100+ млрд.

Один вопрос: ну когда уже? 🥺
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥249🌭2