Градиент обреченный
8.05K subscribers
848 photos
21 videos
8 files
467 links
Download Telegram
Выдали ранний доступ для тестирования Imagen 3. Если кому-то интересно, то до Flux и Mj пока не дотягивает...
👍137🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Чемпион по work-life balance.
😁79🔥10👍44🆒2
Сходил на ML тренировку в Питере, пообщались с кучей классных людей. Кто тоже в Питере, пишите.
38👍8🔥61
Forwarded from Адель и МЛь
Phi-3.5

В этот раз три модели:

- Phi-3.5-mini-3.8B
на бенчмарках бьет llama-3.1-8B. Была натренирована на 3.5Т токенов за 10 дней на 80хН100, контекстное окно 128к токенов.

- Phi-3.5-16x3.8B
MoE с активными 6.6B параметрами с двух экспертов. Бьет Gemini Flash. 4.9Т токенов, 23 дня обучения на 512хН100.

- Phi-3.5-V-4.2B
vision модель, которая бьет gpt-4o (?). 500В vision/text токенов, 6 дней на 256хН100.

Я буквально на прошлой неделе пользовался phi-3 и она была очень в порядке. Задача, в целом, была несложная: тегать небольшие тексты. И такая малая LLM мне очень подошла, потому что текстов десятки миллионов и протегать надо быстро. В сочетании с batched inference на vLLM всё просто летало даже на моей 4090. Хочу теперь попробовать новую версию модели. Ну и ждем Gemma-3, как симметричный ответ от Google.

Модели с описаниями на HF - тык
🔥27👍761
🔺 MYTE. Сжимаем UTF при помощи морфем.

Любопытный инженерный подход для того, чтобы нивелировать разницу между кодированием символов латинского и других алфавитов («hello» → 5 байт, «привет» → 12); а также добавить свой байтовый маппинг (несущий какую-то доп. информацию), чтобы сжать им наиболее частые последовательности кодов.

🔸 Собрали набор морфем (типа), обучив Morfessor на 99 википедиях в unsupervised режиме.

🔸 Сгруппировали их по 4096 штук в зависимости от типа алфавита (латинский, нелатинские, абджады, абгуиды и т.д.). Всего 8 групп.

🔸 Составили из них маппинг в пространство, начинающееся на байты 42-49 (8 групп алфавитов) + набор байт 80-BF (64 штуки) от 1 до 3 (так можно запихать до 64^3 последовательностей в каждую группу).

'дом' (utf-8) => ['d0', 'b4', 'd0', 'be', 'd0', 'bc']
'дом' (myte) => ['4c', 'a7', '83']


🔸Коды 41-5A (26 байт) использовались как заглавные буквы A-Z. Поэтому для обозначения заглавных букв стали использовать 41 как маркер.

🔸 Написали код, который этот маппинг применяет и обучили на таких байтовых последовательностях небольшие ByT5, которые назвали MyT5. По качеству получили плюс-минус то же самое, но быстрее.

Код можно взять в GitHub'е у автора статьи, маппинг можно менять на свой.

Интересно, что будет, если обучить на таком обычный BBPE токенизатор. Кажется, что добавление маппинга в кодировку равносильно добавлению в словарь токенов с такими же морфемами (?).

👉 Paper | GitHub | HF
🔥15👍5🤔432
Forwarded from Vikhr models
LLM Arena для русскоязычных моделей

Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!

C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b

RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.

На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.

Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!
👍1374👀2
Почитал недавно пару книг писателя Дмитрия Данилова, в т.ч. «Описание города». В текстах не происходит ничего существенного, развитие медленное, но, если втянуться, то можно получить так называемое удовольствие от чтения.

А вы что читаете/прочитали недавно — художку, нонфишен? Поделитесь и порекомендуйте.

P.S. Из того, что в прошлый раз рекомендовали, кое-что прочитал. Больше всего понравился «Диктатор» и вообще Снегов, ГПиМРМ и «Час Быка».

📚 Что советуют подписчики

• «Ночной поезд на Лиссабон» Паскаль Мерсье
• «Significant Digits», «Orders of Magnitude» фанфики по Гарри Поттеру
• «Древний человек в городе» Пятигорского
• «Одноэтажная Америка» Ильфа и Петрова
• «Пандем» Марины и Сергея Дяченко
• «The Wings Upon Her Back» Саманты Миллс
• «Сумма технологии» Лема
• «Основание» Азимова
• «Рассуждения о первой декаде Тита Ливия» Макиавелли
• «Спин» Роберта Уилсона
• «Анафем» Стивенсона
• «Гедель, Эшер, Бах» Хофштадтера. Ну это мы все начинали читать.
• «Опыты» Монтеня
11🔥4👍3❤‍🔥1😎1
🔺 Transformer Explainer

Классная интерактивная визуализация про то, как работает трансформер.

Можно покрутить температуру и посмотреть как меняются вероятности распределения следующего токена. Можно вбить свой текст. Можно просто почитать статью под диаграммой.

Напомню также про классическую статью Illustrated Transformer

👉 Визуализация | GitHub | Видео
🔥26👍1153
🔺 Pixtral

Mistral выложила веса мультимодальной модели на 12B параметров.

Сначала показалось, что она сделана на основе NeMo, но токенизаторы у них сильно отличаются.

Веса только выложили и официальных деталей/замеров я пока не видел. Через vllm нормально запускается и работает в отличии от Reflection.

Скорее всего русский язык был в обучении, так как надписи на картинках в принципе распознает, хотя иногда и ошибается. Пойдем тестить.

P.S. Коммит в mistral-common.

👉 HF
👍23🔥742
Так, кажется, подвезли работающий Reflection.

We trained these models to spend more time thinking through problems before they respond, much like a person would. Through training, they learn to refine their thinking process, try different strategies, and recognize their mistakes.


https://openai.com/index/introducing-openai-o1-preview/

Upd.

» А и Б сидели на трубе. А упала, Б пропала, что осталось на трубе?

» I'm translating the Russian riddle and notice "и" means both "and" and the letter "И". This connection seems crucial for solving the riddle.

Осталась буква «и».
😁25👍11🔥4💯1
AGI не достигнут
😁74🔥94🗿3👍1
Ух, выровнял «Маленького принца» на удмуртском и добавил в нашу параллельную книгу-трансформер.

🔸 Добавил в Lingtrain Aligner функционал по разбиению строк (пост) после загрузки текстов, поэтому получилось более точно, плюс начал заменять отсутствующие предложения прочерком, чтобы впоследствии можно было и их добавить в готовую книгу. С остальными версиями постепенно буду делать аналогично.

🔸 Таким образом, уже есть параллельная версия книги на 18 языкахалтайском, балкарском, башкирском, дигорском, коми, кубачинском, марийском и горномарийском, мокшанском и эрзянском, орокском, татарском, удмуртским, хакасском, чувашском, якутском, русском и французском.

🔸 Делаю бурятский. Если у вас есть ещё редакции, то смело присылайте. Желательно с указанием переводчика.

👉 Книжка | GitHub
🔥4314👍641🗿1
This media is not supported in your browser
VIEW IN TELEGRAM
Это я выбираю, за какую задачу взяться первой.
😁50💯106👍21
🔺 Mistral и бесплатный API

🔸 По-моему, очень приятная новость, для тех, кто встраивает LLM в свои пет-проекты или просто интересуется темой и не хочет на это тратиться. У Мистраля появился Free план (его надо выбрать в разделе Billing), по которому можно бесплатно вызывать модели по API.

🔸 Работает без VPN, карту привязывать не надо.

🔸 В списке моделей часть называется Free, в том числе мультимодальный Pixtral, но по факту вызываются все.

🔸 Имейте в виду, что ваши запросы на этом плане будут доступны разработчикам и могут быть использованы ими в дальнейшем.

P.S. Программист — это береза, чьи ветви цифрового кода шелестят на ветру инноваций. Mistral Large


👉 Le Chat
| API

🔥 Upd. Лимиты огонь. 1 rps, 500k токенов в минуту, 1B в месяц; даже для Mistral Large. То есть по идее можно поиграться с 128k токенов, посмотреть как оно любимые книжки дописывает и т.д.
4🔥499👍4❤‍🔥2😱2🎉21
Пока шел дождик, накидал скрипт, который парсит страничку с лучшими статьями по ML за неделю, выкачивает abstract'ы и лезет в Claude за объяснениями в разных стилях и генерацией дополнительной информации типа заголовков, эмодзи и тегов.

Красивый UI не смог нагенерить ни чем, так что большинство времени ушло на верстку. Стоит один такой "выпуск" где-то 0.15 долларов.

P.S. Скрипт причешу и выложу, сможете поиграться.

https://averkij.github.io/top_papers/
10261🔥38👍9❤‍🔥3💋3💅21
Тут коллеги из CV команды совместно с Центром исследования жестового языка запустили крутую вещь — словарь РЖЯ (русского жестового языка).

Сейчас записали и выложили несколько сотен видео с разных ракурсов для различных понятий. Планируют добавить еще несколько тысяч.

По-моему, очень круто. Я бы добавил еще какой-то грамматический комментарий о том, как составлять из жестов предложения с видео-примерами или даже мини-курс по РЖЯ.

Проект будет активно развиваться, так что идеи приветствуются. Какие бы слова туда еще добавить?

👉 Сайт | Хабр
2👍2512🔥10
Ура, досчиталось 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
😁117🔥1433👍2🆒1
Чуть почистил скрипт по генерации обзоров статей. Сделал обзоры в стиле разных персонажей, можете поугадывать, хотя это не так сложно.

Перевел парсинг на фид NLP Newsletter со статьями за неделю. Модель — GPT-4o с json_mode, чтобы надежно возвращать все за один запрос.

P.S. Ах да, обещал выложить — скрипт.

P.P.S. Можете поменять API на бесплатный Мистраль и поиграться с ним, если нет токена от openai.

Upd. Поменял на обычный стиль, так тексты по приятней выглядят.

👉 https://averkij.github.io/top_papers/
1016🔥12👍43🆒2
🔺 EuroLLM 1.7B Instruct

Неплохая маленькая модель от альянса UTTER, включающего в себя несколько Европейских университетов.

🔸 Обучили на 4T токенов на языках Евросоюза, причем целенаправленно добавили к ним несколько дополнительных, таких как русский, китайский, турецкий и украинский.

🔸 Токенизатор на 128k токенов с улучшенной относительно Llama 3 фертильностью для всех языков кроме английского.

🔸 В данные добавили по 20% параллельных данных en-xx, xx-en. Добавили код и математику. Обучали в два этапа, заканчивая чистыми данными.

🔸 В итоге моделька качественно генерирует на русском, в отличие от Llama, которая периодически вставляет иностранные слова или токены в текст, причем выглядит это порой очень забавно.

🔸 Зато с фантазией как раз лучше у Ламы 3.2 3B (например, она придумала слоганы для книжного магазина "Книжный ад" — "Ад в каждом томе" и "Стоимость книги: бесконечность").

Обещают обучить модели покрупнее, ждём.

👉 Статья | HF
🔥22👍541
🔺 HFday.ru

Сделал для сообщества сайтик с обзорами статей с HF Daily Papers на русском.

Синхронизируется каждые 2 часа, можно отсортировать по рейтингу или вывести вверх недавно добавленные статьи, чего, кстати, на оригинальной страничке не сделать.

Обзор, теги и прочие данные генерируются через Claude на основе спаршенных с сайта абстрактов.

Развернуто все полностью на GitHub — через Workflow джобы и Pages, что само по себе очень прикольно. Скрипты обновляют файлы с данными, пишут логи и генерируют страничку, которая коммитится обратно в репозиторий. Такую автоматизацию удобно использовать для своих проектов, чуть позже опишу, как это настраивать.

Предыдущие выпуски откладываются в папку prev_papers. Кушает это где-то по 20-30 рублей в день (claude 3.5 sonnet). Код открыт.

В общем, добавляйте в закладки и шарьте с коллегами. Идеи приветствуются.


Upd. Всем привет, кто пользуется и заходит на канал. Пишите как вам, что добавить.

Добавил сортировки, дату публикации, пофиксил баги.

Upd 2. Добавил классификацию промптом через gpt-4o-mini.

Upd 3. Добавил навигацию по дням.

Upd 4. Добавил английский и китайский. Локализовал UI на них.

Upd 5. Добавил навигацию по дням.

Upd 6. Добавил топ статей за месяц. Пользуйтесь фильтрами, там есть логика на объединение и пересечение по категориям.

Код — GitHub
527🔥57👍165🏆2💯1
🔥 А вот и Нобелевка за машинку

Джон Хопфилд и Джеффри Хинтон, 2024.

за фундаментальные открытия и изобретения, обеспечивающие возможность машинного обучения с использованием искусственных нейронных сетей


пресс-релиз
👍46🎉12🔥85🤔5🤷‍♂2🗿2👌1🎄1