Дмитрий Савостьянов Вещает
Нейросеть рисует в стиле Genshin Impact. Мы взяли имена + иконки персонажей из Genshin Impact и скормили их нейросети ruDALL-E. Теперь можем рисовать иконки по текстовому описанию. Например, на картинке результат по запросу "xiangling c розовыми волосами".…
ganyu с зелеными волосами. Вдогонку к предыдущему посту.
#Data2vec
Всем здарова! Давненько я тут ничего не писал. Был в Москве, накрыло лавиной встреч и пьянок.
А тем временем Цукерберг пишет, что мол ура-ура, искусственный интеллект всех победит. Теперь нам вообще не нужно размечать данные, а CV, Speech и NLP задачи можно решать одним махом.
Все вокруг говорят про Data2vec. Поэтому нас с вами ждёт цикл постов, где я попробую разобраться, что же там за дататувек и с чем его едят.
План постов такой:
- Мотивация
- Кратко про NLP (обработка естественного языка)
- Кратко про CV (компьютерное зрение)
- Кратко про Speech (синтез и распознавание речи)
- Обзор статьи Data2vec
- Щупаем модель руками
- Генерим идеи применения в играх
Сегодня весь день лечу из Москвы в Вильнюс, как раз попробую не полениться и разобраться со статьей.
Кстати, включил под постами эмоджи. Теперь можете кидаться в меня виртуальными какашками😘
Всем здарова! Давненько я тут ничего не писал. Был в Москве, накрыло лавиной встреч и пьянок.
А тем временем Цукерберг пишет, что мол ура-ура, искусственный интеллект всех победит. Теперь нам вообще не нужно размечать данные, а CV, Speech и NLP задачи можно решать одним махом.
Все вокруг говорят про Data2vec. Поэтому нас с вами ждёт цикл постов, где я попробую разобраться, что же там за дататувек и с чем его едят.
План постов такой:
- Мотивация
- Кратко про NLP (обработка естественного языка)
- Кратко про CV (компьютерное зрение)
- Кратко про Speech (синтез и распознавание речи)
- Обзор статьи Data2vec
- Щупаем модель руками
- Генерим идеи применения в играх
Сегодня весь день лечу из Москвы в Вильнюс, как раз попробую не полениться и разобраться со статьей.
Кстати, включил под постами эмоджи. Теперь можете кидаться в меня виртуальными какашками😘
👍5🔥1
#Data2vec
Мотивация. Заход издалека.
Человеческий мозг чудесным образом умеет работать с изображениями, звуками и текстами одновременно.
Мы можем, прочитав в меню ресторана словосочетание «светлое пиво», представить в голове визуальный образ сего чудесного напитка и параллельно голосом попросить официанта принести бокальчик.
Еще пример. Мы можем, сидя в кафе и переписываясь в телефоне с другом, услышав трек из колонок, вспомнить, что песня играла в фильме «Криминальное чтиво». В итоге описать в деталях сцену с рассказом про четверть-фунтовый с сыром aka рояль с сыром.
А вот искусственный интеллект до недавнего времени плохо справлялся с подобными мультимодальными задачами. Т.е. есть давно существуют нейросети, которые отдельно умеют работать с картинками, другие нейросети умеют работать с текстами, а третьи — со звуками. Но вот чтобы одна сетка и хорошо справлялась сразу со всеми задачами — нет. А очень хочется.
Мотивация. Заход издалека.
Человеческий мозг чудесным образом умеет работать с изображениями, звуками и текстами одновременно.
Мы можем, прочитав в меню ресторана словосочетание «светлое пиво», представить в голове визуальный образ сего чудесного напитка и параллельно голосом попросить официанта принести бокальчик.
Еще пример. Мы можем, сидя в кафе и переписываясь в телефоне с другом, услышав трек из колонок, вспомнить, что песня играла в фильме «Криминальное чтиво». В итоге описать в деталях сцену с рассказом про четверть-фунтовый с сыром aka рояль с сыром.
А вот искусственный интеллект до недавнего времени плохо справлялся с подобными мультимодальными задачами. Т.е. есть давно существуют нейросети, которые отдельно умеют работать с картинками, другие нейросети умеют работать с текстами, а третьи — со звуками. Но вот чтобы одна сетка и хорошо справлялась сразу со всеми задачами — нет. А очень хочется.
Этот канал был не про политику, но…
В свете последних событий я скрыл этот пост, чтобы не отжали имущество.
В свете последних событий я скрыл этот пост, чтобы не отжали имущество.
👍18❤6
Вышла статья про DALL-E 2 от OpenAI.
Модель умеет:
- Генерировать картинки по тексту
- Редактировать участки картинки по текстовому описанию
- Создавать похожие картинки
Пример генераций по запросу “Астронавт на лошади в фотореалистичном стиле”.
Кода как обычно в открытом доступе нет, есть статья.
https://openai.com/dall-e-2/
Модель умеет:
- Генерировать картинки по тексту
- Редактировать участки картинки по текстовому описанию
- Создавать похожие картинки
Пример генераций по запросу “Астронавт на лошади в фотореалистичном стиле”.
Кода как обычно в открытом доступе нет, есть статья.
https://openai.com/dall-e-2/
👍5
Forwarded from эйай ньюз
🔥Meta AI публикует код и веса языковой модели с 175B параметров, сравнимой с GPT-3
(!) Беспрецедентный случай. Это будет самая большая модель с предобученными весами в публичном доступе.
Мои коллеги из Meta AI зарелизили библиотеку Open OPT, которая включает набор предварительно обученных трансформеров (от 125M до 175B параметров), которые работают сравнимо с GPT-3 на 14 языковых бенчмарках. При этом авторы улучшили эффективность тренировки, что позволило сократить количество требуемых ресурсов. Это всего лишь какие-то 992 видеокарты A100 с 80GB VRAM. Круто, что цикл тренировки OPT-175B оставляет в 7 раз меньше углеродного следа (75 тонн CO2) за время обучения, чем GPT-3 (500 тонн).
В библиотеке есть код со всеми трюками для обучения всех моделей, а также предобученные веса. Правда веса самой большой модели OPT-175B можно скачать только по запросу и с research-only лицензией.
❱❱ OPT: Open Pre-trained Transformer Language Models
❱❱❱ Код на GitHub
(!) Беспрецедентный случай. Это будет самая большая модель с предобученными весами в публичном доступе.
Мои коллеги из Meta AI зарелизили библиотеку Open OPT, которая включает набор предварительно обученных трансформеров (от 125M до 175B параметров), которые работают сравнимо с GPT-3 на 14 языковых бенчмарках. При этом авторы улучшили эффективность тренировки, что позволило сократить количество требуемых ресурсов. Это всего лишь какие-то 992 видеокарты A100 с 80GB VRAM. Круто, что цикл тренировки OPT-175B оставляет в 7 раз меньше углеродного следа (75 тонн CO2) за время обучения, чем GPT-3 (500 тонн).
В библиотеке есть код со всеми трюками для обучения всех моделей, а также предобученные веса. Правда веса самой большой модели OPT-175B можно скачать только по запросу и с research-only лицензией.
❱❱ OPT: Open Pre-trained Transformer Language Models
❱❱❱ Код на GitHub
👍2
1 апреля я ушёл из Сбера и долго думал, куда же двигаться дальше. Были мысли про ПМЖ в Литве, про бизнес с ML для игровых студий, про FAANG в Лондоне, но в итоге мое внимание привлекла идея попасть в США.
В Европе я уже пожил, почему бы не пожить в Кремниевой долине. Деревней после Вильнюса меня не испугать, а на бомжей в центре Сан Франциско мне пох, планирую поселиться подальше от города.
Есть различные варианты, как получить визу с правом на работу. Вот некоторые из них:
- L-1 — год работаешь в Американской компании, потом просишь о переводе в их офис в США
- H1B — получаешь оффер от Американской компании и участвуешь в лотерее (заявок больше чем квот)
- Лотерея Green Card — ну тут чистый рандом. Причём знаю тех, кто выиграл, но все равно не смог получить из-за ковида
- O-1 — виза для экстраординарных людей.
Последний вариант с O-1 визой я даже не рассматривал, потому что раньше у них на сайте писали, что наличие Нобелевской премии — хороший повод податься на эту визу. Но недавно познакомился с ребятами из Брянска, из Харькова — простыми разработчиками, которые успешно подались и переехали.
В итоге решил попробовать собрать кейс на O-1. Фирма, с которой на днях подписал договор, говорит, что в среднем стоит закладывать от 3 до 6 месяцев на сбор всех доказательств. Получится или нет — хз. Но история с продажей стартапа GOSU.AI внушает надежду.
Если кому-то эта тема интересна — ставьте лойс, могу периодически рассказывать. А я пока пойду работу на ближайший год искать.
В Европе я уже пожил, почему бы не пожить в Кремниевой долине. Деревней после Вильнюса меня не испугать, а на бомжей в центре Сан Франциско мне пох, планирую поселиться подальше от города.
Есть различные варианты, как получить визу с правом на работу. Вот некоторые из них:
- L-1 — год работаешь в Американской компании, потом просишь о переводе в их офис в США
- H1B — получаешь оффер от Американской компании и участвуешь в лотерее (заявок больше чем квот)
- Лотерея Green Card — ну тут чистый рандом. Причём знаю тех, кто выиграл, но все равно не смог получить из-за ковида
- O-1 — виза для экстраординарных людей.
Последний вариант с O-1 визой я даже не рассматривал, потому что раньше у них на сайте писали, что наличие Нобелевской премии — хороший повод податься на эту визу. Но недавно познакомился с ребятами из Брянска, из Харькова — простыми разработчиками, которые успешно подались и переехали.
В итоге решил попробовать собрать кейс на O-1. Фирма, с которой на днях подписал договор, говорит, что в среднем стоит закладывать от 3 до 6 месяцев на сбор всех доказательств. Получится или нет — хз. Но история с продажей стартапа GOSU.AI внушает надежду.
Если кому-то эта тема интересна — ставьте лойс, могу периодически рассказывать. А я пока пойду работу на ближайший год искать.
👍26
О-1 виза в США
Похоже тема вам интересна, поэтому продолжим. О-1 виза предназначена для людей с «экстраординарными способностями» в области науки, образования, бизнеса, спорта, искусства, телевидения и кино.
Разработчики подаются по научному треку, а менеджеры по бизнесу.
Спойлер: я решил временно камбекнуть из манагера в ML Engineer (Data Scientist в РФ), потому что так проще найти работу на английском языке.
Экстраординарность — красивое слово, но на самом деле в приложении к разработчикам оно означает, что нужно получить ачивки по следующим направлениям:
- Призы и награды в конкурсах, хакатонах, олимпиадах
- Публикации в СМИ о вас и ваших проектах
- Научные публикации
- Членство в закрытых ассоциациях
- Судейство конкурсов, хакатонов, олимпиад
- Ключевые роли в компаниях с отличной репутацией
- Вклад в развитие отрасли
- Высокая ЗП
Если вы не забивали, активно торговали лицом и проявляли себя в комьюнити — поздравляю. Если нет, то это можно исправить за приемлемое время.
Взамен вы получаете:
- Возможность работать в США 3 года
- Возможность менять работодателя
- Возможность податься на гринкарту
- Визу О-3 для членов семьи (не даёт право на работу)
- Отсутсвие квот и лотерей
Похоже тема вам интересна, поэтому продолжим. О-1 виза предназначена для людей с «экстраординарными способностями» в области науки, образования, бизнеса, спорта, искусства, телевидения и кино.
Разработчики подаются по научному треку, а менеджеры по бизнесу.
Спойлер: я решил временно камбекнуть из манагера в ML Engineer (Data Scientist в РФ), потому что так проще найти работу на английском языке.
Экстраординарность — красивое слово, но на самом деле в приложении к разработчикам оно означает, что нужно получить ачивки по следующим направлениям:
- Призы и награды в конкурсах, хакатонах, олимпиадах
- Публикации в СМИ о вас и ваших проектах
- Научные публикации
- Членство в закрытых ассоциациях
- Судейство конкурсов, хакатонов, олимпиад
- Ключевые роли в компаниях с отличной репутацией
- Вклад в развитие отрасли
- Высокая ЗП
Если вы не забивали, активно торговали лицом и проявляли себя в комьюнити — поздравляю. Если нет, то это можно исправить за приемлемое время.
Взамен вы получаете:
- Возможность работать в США 3 года
- Возможность менять работодателя
- Возможность податься на гринкарту
- Визу О-3 для членов семьи (не даёт право на работу)
- Отсутсвие квот и лотерей
🔥6
Написал статью на Хабр про то, как автоматически находить хайлайты в матчах Dota 2. Буду благодарен за лайки, комменты, репосты.
https://habr.com/ru/post/672420/
https://habr.com/ru/post/672420/
Хабр
Ищем хайлайты в матчах Dota 2 на примере Collapse на Magnus в рамках The International 2021
Недавно в Dota 2 появилась возможность нарезать видео-ролики в формате .mp4 при просмотре записей матчей. Я не удержался и решил сделать простой алгоритм поиска интересных моментов aka хайлайтов. Вот...
🔥16
Forwarded from 42 секунды
vc: Яндекс выложил в открытый доступ нейросеть YaLM 100B для генерации текстов на русском и английском
– Это самая большая GPT-подобная модель в свободном доступе
– Нейросеть YaLM от Яндекса содержит 100 млрд параметров
– Она доступна на GitHub по открытой лицензии Apache 2.0
– Модель YaLM обучали на суперкомпьютерах Яндекса
– Она обработала 2ТБ текстов на русском и английском языках
– Яндекс использует YaLM более чем в 20 своих проектах
– Она может создавать описания, генерировать ответы и др.
@ftsec
– Это самая большая GPT-подобная модель в свободном доступе
– Нейросеть YaLM от Яндекса содержит 100 млрд параметров
– Она доступна на GitHub по открытой лицензии Apache 2.0
– Модель YaLM обучали на суперкомпьютерах Яндекса
– Она обработала 2ТБ текстов на русском и английском языках
– Яндекс использует YaLM более чем в 20 своих проектах
– Она может создавать описания, генерировать ответы и др.
@ftsec
👍8
PARTI
Новая модель от Google, где ребята генерируют картинки по длинному текстовому описанию с большим количеством деталей.
Наконец-то пришло время, когда вы можете нарисовать кобру из суши или листьев салата, имея в запасе всего лишь тонну GPU под 20B параметров и ни капли художественного таланта😏
Сайт
Статья
Видео с разбором
Веса не нашел. Либо не справился из-за пивасика в крови, либо их не опубликовали.
Новая модель от Google, где ребята генерируют картинки по длинному текстовому описанию с большим количеством деталей.
Наконец-то пришло время, когда вы можете нарисовать кобру из суши или листьев салата, имея в запасе всего лишь тонну GPU под 20B параметров и ни капли художественного таланта😏
Сайт
Статья
Видео с разбором
Веса не нашел. Либо не справился из-за пивасика в крови, либо их не опубликовали.
🔥7
Здарова, тигры! Я продолжаю торговать лицом и эксплуатировать заезженную тему с анализом данных из Dota 2. В этот раз написал статью на Хабр про то, как распараллелить процесс парсинга матчей с помощью Celery и Flask.
За комменты и лукасышлю виртуальные поцелую в щеку, благодарю от всей души.
https://habr.com/ru/post/677200/
За комменты и лукасы
https://habr.com/ru/post/677200/
Хабр
Часть 2. Пишем сервис парсинга матчей Dota 2 на Celery и Flask
В предыдущей статье мы распарсили реплей одного матча по Dota 2 и нашли хайлайты с помощью кластеризации. В данной статье увеличим масштаб и напишем сервис для параллельного парсинга реплеев на Celery...
👍11🔥3
Здарова, бандиты! Я вам покушац принес. Почитайте про OCR и дотку, пока едите на работу.
Лойсы, комменты как обычно приветствуются.
https://habr.com/ru/post/679762/
Лойсы, комменты как обычно приветствуются.
https://habr.com/ru/post/679762/
Хабр
Часть 3. Распознаем время на видеозаписях матчей Dota 2 с помощью трансформеров
В данном цикле статей мы реализовываем систему автоматического поиска хайлайтов в матчах Dota 2. Для ее создания нам требуется размеченный датасет с тайм-кодами. На YouTube есть множество каналов, где...
🔥8👍1
Жизнь в Литве
Рассказывал недавно в сообществе hegai, как в 2018 году переехал из Москвы в Вильнюс. За 3.5 года успели с женой поработать в нескольких компаниях, пожить в разных квартирах, открыть свой бизнес, родить ребёнка и так далее.
Если кому-то интересно, гляньте запись на ютубе:
https://youtu.be/Pbb74ia689I
Рассказывал недавно в сообществе hegai, как в 2018 году переехал из Москвы в Вильнюс. За 3.5 года успели с женой поработать в нескольких компаниях, пожить в разных квартирах, открыть свой бизнес, родить ребёнка и так далее.
Если кому-то интересно, гляньте запись на ютубе:
https://youtu.be/Pbb74ia689I
YouTube
Переезд в Литву / Релокация в Литву
В этом видео наши спикеры и гости эфира, расскажут про свой опыт переезда в Литву. В видео затрагиваются темы ПМЖ/ВНЖ, открытие счета в Литве, аренда жилья в Литве и многое другое.
Ссылка на чат hegai по релокации - https://t.iss.one/+o7_Yh0R1vMAwOWNi
Таймкоды:…
Ссылка на чат hegai по релокации - https://t.iss.one/+o7_Yh0R1vMAwOWNi
Таймкоды:…
👍8🌭2
В стиле Warcraft
Наткнулся в соседнем чатике на подборку картинок, сгенерированных нейронкой по текстовому описанию в стиле Wow.
Почти уверен, в ближайшие пару лет дизайнеры начнут активно пользоваться подобными сетками для создания маркетинговых креативов. Последний затык — время инференса.
Под капотом, вроде как, модель Stable Diffusion.
Источник
Наткнулся в соседнем чатике на подборку картинок, сгенерированных нейронкой по текстовому описанию в стиле Wow.
Почти уверен, в ближайшие пару лет дизайнеры начнут активно пользоваться подобными сетками для создания маркетинговых креативов. Последний затык — время инференса.
Под капотом, вроде как, модель Stable Diffusion.
Источник
🔥7