👍35💯4🔥3
Forwarded from Сергей Марков: машинное обучение, искусство и шитпостинг
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: https://markoff.science#book
«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
🔥41👍7👏5 4❤3
🔺 Nemotron. GPT-4 у вас дома.
NVIDIA выложила в открытый доступ свою большую модель Nemotron-4 340B.
🔸 Претрейн шел на 8T токенах, затем изменили распределение данных и обучили еще на 1T токенах (пишут, что на этом этапе добавили вопросно-ответные данные и уменьшили LR). Обучали на 6144 H100.
🔸 На этапе SFT (дообучение на инструкциях), было немного размеченных людьми данных (около 20k), а 98% инструкций были синтетическими.
🔸 Данные. 70% — английский, 15% — код, 15% — мультиязычные данные (моно- и параллельные корпуса). В мультиязычной части было 53 языка, русский там в топе, 3.88%. Больше про данные есть в отчете другой модели (данные были те же).
🔸 Провели SBS тест с GPT-4-1106-preview, получили выигрыш (win : tie : loss = 28.19% : 46.57% : 25.24%).
🔸 Чтобы запустить модель у вас дома, вам понадобятся две стойки по 8 H100 или A100 (80Gb).
👉 Если стоек не нашлось, то пообщаться с моделью можно на чатбот-арене (вкладка direct chat).
👉 Тех. отчет | HF
NVIDIA выложила в открытый доступ свою большую модель Nemotron-4 340B.
🔸 Претрейн шел на 8T токенах, затем изменили распределение данных и обучили еще на 1T токенах (пишут, что на этом этапе добавили вопросно-ответные данные и уменьшили LR). Обучали на 6144 H100.
🔸 На этапе SFT (дообучение на инструкциях), было немного размеченных людьми данных (около 20k), а 98% инструкций были синтетическими.
🔸 Данные. 70% — английский, 15% — код, 15% — мультиязычные данные (моно- и параллельные корпуса). В мультиязычной части было 53 языка, русский там в топе, 3.88%. Больше про данные есть в отчете другой модели (данные были те же).
🔸 Провели SBS тест с GPT-4-1106-preview, получили выигрыш (win : tie : loss = 28.19% : 46.57% : 25.24%).
🔸 Чтобы запустить модель у вас дома, вам понадобятся две стойки по 8 H100 или A100 (80Gb).
👉 Если стоек не нашлось, то пообщаться с моделью можно на чатбот-арене (вкладка direct chat).
👉 Тех. отчет | HF
🔥24😁10🎉5👍4😱2
🔺 «Маленький принц» на хакасском
Благодаря Василию Адешкину @adskat, удалось собрать средства на перевод книги на хакасский язык и, собственно, перевести её (перевел Илья Топоев). Большое им спасибо!
📚 Текст выровнял и добавил к другим редакциям, так что можно читать книгу в любых языковых комбинациях.
👉 Книжка, чат
Благодаря Василию Адешкину @adskat, удалось собрать средства на перевод книги на хакасский язык и, собственно, перевести её (перевел Илья Топоев). Большое им спасибо!
📚 Текст выровнял и добавил к другим редакциям, так что можно читать книгу в любых языковых комбинациях.
👉 Книжка, чат
❤27🔥16👍4🍾1🤗1
🔺 110
🔸 Это не только средняя температура на Юпитере, но и количество языков, которые на днях добавили в Google Translate (список).
🔸 После того, как Meta выпустила модель NNLB для перевода на 200 языков, Google объявил об инициативе по поддержке 1000 языков и приблизился к обещанному уже на четверть.
🔸 При переводе также используется языковая модель (PaLM 2), а среди новых языков есть много распространенных в России (абхазский, аварский, башкирский, бурятский, чеченский, чувашский, крымско-татарский, коми, марийский, осетинский, тувинский, удмуртский, якутский).
🔸 Модель может иногда ошибается в грамматике. Подобный эффект заметен, когда вы общаетесь с языковыми моделями на русском языке, а при обучении таких данных было недостаточно.
🔸 Вообще, подобный шаг — это отличная поддержка для малоресурсных языков, перевод можно встраивать по API в приложения или использовать для того же выравнивания параллельных книг.
🔸 Чем ответит Яндекс?
🔸 Это не только средняя температура на Юпитере, но и количество языков, которые на днях добавили в Google Translate (список).
🔸 После того, как Meta выпустила модель NNLB для перевода на 200 языков, Google объявил об инициативе по поддержке 1000 языков и приблизился к обещанному уже на четверть.
🔸 При переводе также используется языковая модель (PaLM 2), а среди новых языков есть много распространенных в России (абхазский, аварский, башкирский, бурятский, чеченский, чувашский, крымско-татарский, коми, марийский, осетинский, тувинский, удмуртский, якутский).
🔸 Модель может иногда ошибается в грамматике. Подобный эффект заметен, когда вы общаетесь с языковыми моделями на русском языке, а при обучении таких данных было недостаточно.
🔸 Вообще, подобный шаг — это отличная поддержка для малоресурсных языков, перевод можно встраивать по API в приложения или использовать для того же выравнивания параллельных книг.
🔸 Чем ответит Яндекс?
🔥36👍16💯5😁3 1
🔺 GPT-4o mini. Дешевый зверь
Вышла младшая модель GPT-4o с контекстом на 128k и поддержкой картинок. Вышла на замену GPT-3.5 Turbo.
Цена. $0.6 за миллион исходящих токенов и $0.15 за миллион входящих. Это примерно в 3 раза дешевле чем 3.5-turbo и в 20+ раз дешевле обычной версии.
При использовании режима батчей, пользоваться которым очень просто (если вам нужно обработать несколько тысяч запросов в пределах нескольких часов), цена будет еще в два раза ниже.
Вышла младшая модель GPT-4o с контекстом на 128k и поддержкой картинок. Вышла на замену GPT-3.5 Turbo.
Цена. $0.6 за миллион исходящих токенов и $0.15 за миллион входящих. Это примерно в 3 раза дешевле чем 3.5-turbo и в 20+ раз дешевле обычной версии.
При использовании режима батчей, пользоваться которым очень просто (если вам нужно обработать несколько тысяч запросов в пределах нескольких часов), цена будет еще в два раза ниже.
🔥31 6👍3⚡2
Forwarded from Complete AI (Andrey Kuznetsov)
🎬Сегодня вышел выпуск на канале Основа
Получилось довольно круто на мой взгляд! Поговорили с Борисом про современные тренды в ИИ, подискутировали про будущее и возможности современных технологий.
Приглашаю всех посмотреть, выходной как раз этому способствует! Заранее спасибо за просмотр🙏
👉Подкаст
Получилось довольно круто на мой взгляд! Поговорили с Борисом про современные тренды в ИИ, подискутировали про будущее и возможности современных технологий.
Приглашаю всех посмотреть, выходной как раз этому способствует! Заранее спасибо за просмотр🙏
👉Подкаст
YouTube
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ: УГРОЗА или НАДЕЖДА?
😎 Подпишись на канал: https://t.ly/Ae5k
Поддержите нас:
На Boosty (российская карта): https://boosty.to/osnovachannel
На Patreon (иностранная карта): https://patreon.com/osnovachannel
Искусственный интеллект схож с мозгом человека? Робот может думать сам?…
Поддержите нас:
На Boosty (российская карта): https://boosty.to/osnovachannel
На Patreon (иностранная карта): https://patreon.com/osnovachannel
Искусственный интеллект схож с мозгом человека? Робот может думать сам?…
👍12🥰5😎2🤔1 1
А тем временем канал подрос и нас с вами стало 6000. Довольно большое число, учитывая, что мы тут обсуждаем успехи в области очеловечивания машин и смежные вещи.
Друзья, всем спасибо!🤗
Друзья, всем спасибо!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43🎉26 11❤3👍3
🔺 Парад LLM
За последний месяц как из рога изобилия вышло много полезных и не очень языковых моделей. Соберем в один пост.
🔸 Llama 3.1
Линейка из трех моделей 405B, 70B и 8B параметров. Есть детальный отчет об обучении, модель нативно учили под 8 языков (русского среди них нет, поэтому может ошибаться в грамматике) и использование внешних тулов.
Кроме основных моделей выпустили Llama Guard 3 и Prompt Guard для классификации вредоносных промптов и генераций.
HF | пост | тех. репорт | чат с моделью
🔸 Mistral Large 2
123B параметров и много языков, включая русский. Опять же, есть способности по вызову внешних функций. Заявляют качество на уровне GPT-4o и Claude 3 Opus. Веса также выложили на HF.
А еще в честь 2311-й годовщины Архимеда выпустили MathΣtral, 7B модель с улучшенными способностями в математике; и Codestral Mamba для анализа кода. Новая архитектура позволяет работать с увеличенным контекстом, пишут, что тестили на 256k токенов.
HF | Пост | чат с моделью
🔸 Mistral NeMo
Снова Мистраль, но на этот раз 12B и в сотрудничестве с NVIDIA. Мультиязычная (есть русский), по замерам авторов бьет недавно вышедшую Gemma 2 9B и Llama 3 8B. Контекст 128k + обновили токенизатор, теперь он гораздо лучше сжимает тексты на 100+ языках.
HF | пост
🔸 Minitron
Модели на 4B и 8B от NVIDIA. Модели получили путем дистилляции и прунинга 15B. Затраченный компьют оценили как в 40 раз меньше, чем обучать такие модели с нуля, сравнимом или лучшем значении MLLU чем у соответствующих по размеру Gemma и Llama.
Про то, как делали, рассказывают в статье.
HF | GitHub | arxiv
🔸 T-lite
Коллеги из Тинькова также поделились моделью. Особых деталей нет, кроме того, что компьют был небольшой, а качество на бенчах как у chatgpt-3.5.
На русском генерирует действительно неплохо для модели такого размера. На вопрос "кто тебя сделал?" отвечает "разработчики из OpenAI", что намекает на необходимость чистки SFT сета.
HF
🔸 Apple DCLM-7B
Да, действительно это модель от Apple. Из интересного, рассказывают про подготовку датасета (DataComp for Language Models), чистку, удаление MMLU из обучения и т.д. Пишут, что пробовали обучаться на 270 подсетах из CC, чтобы найти наиболее "правильное" распределение.
HF | arxiv
🔸 SmolLM
SoTA модели на 135M, 360M и 1.7B параметров непосредственно от HF. Для экспериментов выложили обучающие данные и, по-моему, это самое интересное.
Сделали синтетический сет Cosmopedia v2 и дополнительно пофильтровали 220B токенов из уже почищенного-перечищенного датасета FineWeb Edu.
Модельки маленькие, можно запускать локально, выложили ONNX версии и демку для запуска прямо в браузере (загружается 172Mb весов).
HF | пост | SmolLM-Corpus | Веб-демо
За последний месяц как из рога изобилия вышло много полезных и не очень языковых моделей. Соберем в один пост.
🔸 Llama 3.1
Линейка из трех моделей 405B, 70B и 8B параметров. Есть детальный отчет об обучении, модель нативно учили под 8 языков (русского среди них нет, поэтому может ошибаться в грамматике) и использование внешних тулов.
Кроме основных моделей выпустили Llama Guard 3 и Prompt Guard для классификации вредоносных промптов и генераций.
HF | пост | тех. репорт | чат с моделью
🔸 Mistral Large 2
123B параметров и много языков, включая русский. Опять же, есть способности по вызову внешних функций. Заявляют качество на уровне GPT-4o и Claude 3 Opus. Веса также выложили на HF.
А еще в честь 2311-й годовщины Архимеда выпустили MathΣtral, 7B модель с улучшенными способностями в математике; и Codestral Mamba для анализа кода. Новая архитектура позволяет работать с увеличенным контекстом, пишут, что тестили на 256k токенов.
HF | Пост | чат с моделью
🔸 Mistral NeMo
Снова Мистраль, но на этот раз 12B и в сотрудничестве с NVIDIA. Мультиязычная (есть русский), по замерам авторов бьет недавно вышедшую Gemma 2 9B и Llama 3 8B. Контекст 128k + обновили токенизатор, теперь он гораздо лучше сжимает тексты на 100+ языках.
HF | пост
🔸 Minitron
Модели на 4B и 8B от NVIDIA. Модели получили путем дистилляции и прунинга 15B. Затраченный компьют оценили как в 40 раз меньше, чем обучать такие модели с нуля, сравнимом или лучшем значении MLLU чем у соответствующих по размеру Gemma и Llama.
Про то, как делали, рассказывают в статье.
HF | GitHub | arxiv
🔸 T-lite
Коллеги из Тинькова также поделились моделью. Особых деталей нет, кроме того, что компьют был небольшой, а качество на бенчах как у chatgpt-3.5.
На русском генерирует действительно неплохо для модели такого размера. На вопрос "кто тебя сделал?" отвечает "разработчики из OpenAI", что намекает на необходимость чистки SFT сета.
HF
🔸 Apple DCLM-7B
Да, действительно это модель от Apple. Из интересного, рассказывают про подготовку датасета (DataComp for Language Models), чистку, удаление MMLU из обучения и т.д. Пишут, что пробовали обучаться на 270 подсетах из CC, чтобы найти наиболее "правильное" распределение.
HF | arxiv
🔸 SmolLM
SoTA модели на 135M, 360M и 1.7B параметров непосредственно от HF. Для экспериментов выложили обучающие данные и, по-моему, это самое интересное.
Сделали синтетический сет Cosmopedia v2 и дополнительно пофильтровали 220B токенов из уже почищенного-перечищенного датасета FineWeb Edu.
Модельки маленькие, можно запускать локально, выложили ONNX версии и демку для запуска прямо в браузере (загружается 172Mb весов).
HF | пост | SmolLM-Corpus | Веб-демо
🔥32👍6 6❤4⚡1
🔺 RuBLiMP
Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.
В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.
Все такие признаки (феномены) поделили на 45 классов и для каждого разметили по 1000 примеров. Таким образом, можно провести подробную диагностику моделей по всем этим признакам на русском языке.
👉 HF | GitHub | Статья
Коллеги сделали очень любопытный тест для языковых моделей. Сам тест простой — модель должна определить правильное предложение, выбрав одно из двух.
В каждой паре изменен только один параметр (морфологический, синтаксический или семантический), поэтому такие пары называются минимальными.
Завтра Олег починит модель и она начнет работать.
Завтра Олег починил модель и она начнет работать.
Все такие признаки (феномены) поделили на 45 классов и для каждого разметили по 1000 примеров. Таким образом, можно провести подробную диагностику моделей по всем этим признакам на русском языке.
👉 HF | GitHub | Статья
👍44🔥17❤7
Будучи в Ереване на экскурсии слышал от гида множество рассказов про армянских изобретателей. И вот наткнулся в книжном на такую вещь.
Рассказывается, что хоть и есть много мифов, типа коробки передач или фена, но изобретений действительно очень много.
Есть даже глава про машинный перевод (!), в котором также одним из первых отметилсяШмидхубер армянин.
Upd. Спасибо за ссылки:
👉 Свежий стрим от автора про его книгу.
👉 Музей изобретений в Ереване.
Рассказывается, что хоть и есть много мифов, типа коробки передач или фена, но изобретений действительно очень много.
Есть даже глава про машинный перевод (!), в котором также одним из первых отметился
Upd. Спасибо за ссылки:
👉 Свежий стрим от автора про его книгу.
👉 Музей изобретений в Ереване.
😁21👍14🔥4🤔2👏1 1
This media is not supported in your browser
VIEW IN TELEGRAM
🔺 SAM 2
Meta выпустила вторую версию свой модели для сегментации (Segment Anything Model) и, если в первой версии можно было сегментировать картинку, то теперь выделять объекты можно на видео.
Кажется, что можно придумать интересные кейсы для спортивных трансляций с подсчетом статистики и всевозможные фильтры для видео-роликов. Какие еще идеи?
Лицензия Apache 2.0. Вместе с моделью релизят датасет на 51k размеченных видео.
👉 GitHub | Датасет | Пост | Демо | Статья
Meta выпустила вторую версию свой модели для сегментации (Segment Anything Model) и, если в первой версии можно было сегментировать картинку, то теперь выделять объекты можно на видео.
Кажется, что можно придумать интересные кейсы для спортивных трансляций с подсчетом статистики и всевозможные фильтры для видео-роликов. Какие еще идеи?
Лицензия Apache 2.0. Вместе с моделью релизят датасет на 51k размеченных видео.
👉 GitHub | Датасет | Пост | Демо | Статья
🔥30👍6👀2
🔺 Как люди ломали LLM
Подсмотрел у Тани в канале очень прикольный метод переформулирования промпта, на который отказывается отвечать модель.
Выровненная на политкорректные ответы модель перестает сопротивляться и пишет как угонять машины и прятать трупы, если запрос поставлен в прошедшем времени.
Будущее время тоже работает, но хуже.
👉 Paper | GitHub
Подсмотрел у Тани в канале очень прикольный метод переформулирования промпта, на который отказывается отвечать модель.
Выровненная на политкорректные ответы модель перестает сопротивляться и пишет как угонять машины и прятать трупы, если запрос поставлен в прошедшем времени.
Будущее время тоже работает, но хуже.
👉 Paper | GitHub
🔥34👍12 4❤3👀2✍1