Градиент обреченный

🔺 Как люди ломали LLM

Подсмотрел у Тани в канале очень прикольный метод переформулирования промпта, на который отказывается отвечать модель.

Выровненная на политкорректные ответы модель перестает сопротивляться и пишет как угонять машины и прятать трупы, если запрос поставлен в прошедшем времени.

Будущее время тоже работает, но хуже.

👉 Paper | GitHub

🔥34👍124❤3👀2✍1

4.58K viewsSergei Averkiev, 19:53

Градиент обреченный

Во, так тоже работает. #gpt4o

🔥25😱7😁3👍2❤1

3.34K viewsSergei Averkiev, 07:05

Градиент обреченный

🔺 Новый лидер

Модель от Google Gemini 1.5 Pro Experimental 0801 вышла на первое место на лидерборде lmsys, где люди голосуют за подходящие им генерации.

Первое место в том числе и на русском.

P.S. Штуки с прошедшим временем на ней тоже работают.

Ждём Claude-4 и GPT-5.

👉 API | Чат с моделью (вкладка Direct Chat)

🔥11👍4😁3❤1

7.04K viewsSergei Averkiev, 07:33

Градиент обреченный

Ой-ой-ой, полегче.

#agi_остановись

😁55🔥16👍7💯2❤1✍1

5.98K viewsSergei Averkiev, 07:56

Градиент обреченный

Forwarded from Адель и МЛь

У Лекса Фридмана вышло интервью с командой Neuralink и Илоном Максом на 8.5 часов. Блин, восемь с половиной часов Фридмана, как это выдержать?

https://youtu.be/Kbk9BiPhm7o?si=GWKKRF-T9reRV-DL

YouTube

Elon Musk: Neuralink and the Future of Humanity | Lex Fridman Podcast #438

Elon Musk is CEO of Neuralink, SpaceX, Tesla, xAI, and CTO of X. DJ Seo is COO & President of Neuralink. Matthew MacDougall is Head Neurosurgeon at Neuralink. Bliss Chapman is Brain Interface Software Lead at Neuralink. Noland Arbaugh is the first human to…

😁14🤯11❤4👍2🔥2⚡1

4.66K viewsSergei Averkiev, 19:34

Градиент обреченный

🔺 Flux

🔸 Команда Black Forest Labs зарелизила несколько моделей для генерации картинок по тексту. Команда новая, но причастная к самым современным исследованиям в этой области.

🔸 Модели три — Pro, Dev и Schnell, причем последние две выложили в открытый доступ (Apache 2.0 у Schnell, non-commercial у Dev).

Прилагают картинку с SBS, на которой Pro версия выигрывает у всего, что есть, включая Ideogram, SD3, Dall-E 3 и Midjourney v6.

Открытая Dev — тоже.

👉 Убедиться в этом можно тут и тут (Pro версия, бесплатно). Можно дергать по API.

🔸 Сделал несколько описаний различных исторических сцен типа Ньютона с яблоком или Клеопатры и погенерировал их в Flux Pro. По-моему, очень круто. Видимо, ребята действительно сделали SOTA модельки.

👉 HF | GitHub | Пост

🔥20👍66❤3⚡1

6.09K viewsSergei Averkiev, 15:25

Градиент обреченный

Выдали ранний доступ для тестирования Imagen 3. Если кому-то интересно, то до Flux и Mj пока не дотягивает...

👍13❤7🔥3

5.57K viewsSergei Averkiev, 07:17

Градиент обреченный

This media is not supported in your browser

VIEW IN TELEGRAM

Чемпион по work-life balance.

😁79🔥10👍44🆒2

8.2K viewsSergei Averkiev, 07:28

Градиент обреченный

Сходил на ML тренировку в Питере, пообщались с кучей классных людей. Кто тоже в Питере, пишите.

❤38👍8🔥61

5.57K viewsSergei Averkiev, 19:41

Градиент обреченный

Forwarded from Адель и МЛь

Phi-3.5

В этот раз три модели:

- Phi-3.5-mini-3.8B
на бенчмарках бьет llama-3.1-8B. Была натренирована на 3.5Т токенов за 10 дней на 80хН100, контекстное окно 128к токенов.

- Phi-3.5-16x3.8B
MoE с активными 6.6B параметрами с двух экспертов. Бьет Gemini Flash. 4.9Т токенов, 23 дня обучения на 512хН100.

- Phi-3.5-V-4.2B
vision модель, которая бьет gpt-4o (?). 500В vision/text токенов, 6 дней на 256хН100.

Я буквально на прошлой неделе пользовался phi-3 и она была очень в порядке. Задача, в целом, была несложная: тегать небольшие тексты. И такая малая LLM мне очень подошла, потому что текстов десятки миллионов и протегать надо быстро. В сочетании с batched inference на vLLM всё просто летало даже на моей 4090. Хочу теперь попробовать новую версию модели. Ну и ждем Gemma-3, как симметричный ответ от Google.

Модели с описаниями на HF - тык

🔥27👍76⚡1

4.39K viewsSergei Averkiev, 06:43

Градиент обреченный

🔺 MYTE. Сжимаем UTF при помощи морфем.

Любопытный инженерный подход для того, чтобы нивелировать разницу между кодированием символов латинского и других алфавитов («hello» → 5 байт, «привет» → 12); а также добавить свой байтовый маппинг (несущий какую-то доп. информацию), чтобы сжать им наиболее частые последовательности кодов.

🔸 Собрали набор морфем (типа), обучив Morfessor на 99 википедиях в unsupervised режиме.

🔸 Сгруппировали их по 4096 штук в зависимости от типа алфавита (латинский, нелатинские, абджады, абгуиды и т.д.). Всего 8 групп.

🔸 Составили из них маппинг в пространство, начинающееся на байты 42-49 (8 групп алфавитов) + набор байт 80-BF (64 штуки) от 1 до 3 (так можно запихать до 64^3 последовательностей в каждую группу).

'дом' (utf-8) => ['d0', 'b4', 'd0', 'be', 'd0', 'bc']
'дом' (myte) =>  ['4c', 'a7', '83']

🔸Коды 41-5A (26 байт) использовались как заглавные буквы A-Z. Поэтому для обозначения заглавных букв стали использовать 41 как маркер.

🔸 Написали код, который этот маппинг применяет и обучили на таких байтовых последовательностях небольшие ByT5, которые назвали MyT5. По качеству получили плюс-минус то же самое, но быстрее.

Код можно взять в GitHub'е у автора статьи, маппинг можно менять на свой.

Интересно, что будет, если обучить на таком обычный BBPE токенизатор. Кажется, что добавление маппинга в кодировку равносильно добавлению в словарь токенов с такими же морфемами (?).

👉 Paper | GitHub | HF

🔥15👍5🤔4❤3✍2

4.01K viewsSergei Averkiev, 08:20

Градиент обреченный

Forwarded from Vikhr models

LLM Arena для русскоязычных моделей

Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!

C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b

RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.

На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.

Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!

👍137❤4👀2

3.93K viewsSergei Averkiev, 07:05

About

Blog

Apps

Platform