Forwarded from Complete AI (Andrey Kuznetsov)
🔥Не перестаю гордиться нашей командой, которая заряжена строить крутые решения с горящими глазами и испытывать восхищение от получающихся результатов. Продолжаем подогревать Kandinsky 2.1😊
🤫Скоро раскроем подробности!
🤫Скоро раскроем подробности!
❤36🤡13🔥5🤯2🥱2👎1
Forwarded from DL in NLP (Vlad Lialin)
PyTorch 2.0 release
Блог
Github release notes
Сегодня pytorch 2.0 вышел с nightly на релиз. Вот его новые фичи, часть всё ещё в бете:
1. Полная backward compatibility и никаких серьёзных изменений стандарнтых API типа torch.nn — всё ещё наш любимый торч
1. Быстрее чем 1.X благодаря тому что куски переписали на Triton и C++
1. Accelerated Transformers (i.e. Better Transformers) — фичи для быстрого и эффективного exact attention, такие как Flash attention.
1. Лучшая поддержка MPS на MacOS и оптимизации для AWS Graviton3
1. Jax-like torch.func
Главная фича:
Но по-настоящему самая главная фича (потому что её я написал) это что
Блог
Github release notes
Сегодня pytorch 2.0 вышел с nightly на релиз. Вот его новые фичи, часть всё ещё в бете:
1. Полная backward compatibility и никаких серьёзных изменений стандарнтых API типа torch.nn — всё ещё наш любимый торч
1. Быстрее чем 1.X благодаря тому что куски переписали на Triton и C++
1. Accelerated Transformers (i.e. Better Transformers) — фичи для быстрого и эффективного exact attention, такие как Flash attention.
1. Лучшая поддержка MPS на MacOS и оптимизации для AWS Graviton3
1. Jax-like torch.func
Главная фича:
torch.compile
, который заменяет старые torchscript и jit. Обещает быть более user-friendly.Но по-настоящему самая главная фича (потому что её я написал) это что
__repr__
ModuleList теперь выглядит компактно когда модули повторяются.🔥39👍9⚡1❤1
YTsaurus
Яндекс выпустил в открытый доступ «Вайтизавр» - платформу распределённого хранения и обработки больших данных, которую они делали почти 10 лет.
Вычислительный кластер YTsaurus способен:
-> хранить эксабайты данных
-> использовать HDD, SSD и RAM для хранения данных
-> обрабатывать данные на сотнях тысяч Hyper Threading ядер
-> решать задачи машинного обучения на тысячах GPU
-> хранить и обрабатывать данные десятков тысяч пользователей
Топовые кейсы:
— Показ рекламы
— Обучение моделей на суперкомпьютерах
— Построение поискового индекса
— Построение хранилища данных
Github | Сайт
Яндекс выпустил в открытый доступ «Вайтизавр» - платформу распределённого хранения и обработки больших данных, которую они делали почти 10 лет.
Вычислительный кластер YTsaurus способен:
-> хранить эксабайты данных
-> использовать HDD, SSD и RAM для хранения данных
-> обрабатывать данные на сотнях тысяч Hyper Threading ядер
-> решать задачи машинного обучения на тысячах GPU
-> хранить и обрабатывать данные десятков тысяч пользователей
Топовые кейсы:
— Показ рекламы
— Обучение моделей на суперкомпьютерах
— Построение поискового индекса
— Построение хранилища данных
Github | Сайт
🔥38🤡3👍1
Forwarded from Love. Death. Transformers.
Поддержим опенсурс, тут делается важная штука - открытая русскоязычная инструктивная модель, ребята нагенерили через gpt инструкцй и теперь просят вашей помощи в фильтрации!
Вот небольшая инструкцич по использованию:
Когда задание можно считать плохим:
- Из него непонятно, что нужно делать.
- Оно невыполнимо языковой моделью. Например, описание несуществующей картинки.
- Задание и вход не согласуются. Например, задание предполагает предложение на русском, а подаётся предложение на английском.
Если задание написано просто неграмотным русским языком, но из него ясно, что нужно делать - это ок.
Когда ответ можно считать плохим:
- Когда ответ некорректный или неполный.
- Когда модель в ответ на личные вопросы притворяется человеком. Например, говорит, что она вчера была в Париже.
- Когда ответ написан неграмотно.
Бот где размечать: @InstructAnnotBot
Уже готовый грязный сет:
https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca
Вот небольшая инструкцич по использованию:
Когда задание можно считать плохим:
- Из него непонятно, что нужно делать.
- Оно невыполнимо языковой моделью. Например, описание несуществующей картинки.
- Задание и вход не согласуются. Например, задание предполагает предложение на русском, а подаётся предложение на английском.
Если задание написано просто неграмотным русским языком, но из него ясно, что нужно делать - это ок.
Когда ответ можно считать плохим:
- Когда ответ некорректный или неполный.
- Когда модель в ответ на личные вопросы притворяется человеком. Например, говорит, что она вчера была в Париже.
- Когда ответ написан неграмотно.
Бот где размечать: @InstructAnnotBot
Уже готовый грязный сет:
https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca
huggingface.co
IlyaGusev/ru_turbo_alpaca · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👏23❤7😐2👎1😁1
🧹 Автоматическая чистка данных
Cleanlab и CleanVision - это два мощных инструмента для автоматической чистки датасетов.
Cleanlab - инструмент способный находить в наборах проблемные метки используя популярные фреймворки (torch, hf, sk-learn) и такие модальности как текст, изображения, табличные данные и звук.
CleanVision - позволяет находить копии и пересветы изображений, а также другие артефакты в датасетах компьютерного зрения.
Я попробовал второй инструмент во время участия в соревновании по классификации. Пара строк кода помогла мне найти и визуализировать проблемные места за 20 минут на датасете из 80к картинок.
CleanVision
Cleanlab
Демонстрация label issue ImageNet
Cleanlab и CleanVision - это два мощных инструмента для автоматической чистки датасетов.
Cleanlab - инструмент способный находить в наборах проблемные метки используя популярные фреймворки (torch, hf, sk-learn) и такие модальности как текст, изображения, табличные данные и звук.
CleanVision - позволяет находить копии и пересветы изображений, а также другие артефакты в датасетах компьютерного зрения.
Я попробовал второй инструмент во время участия в соревновании по классификации. Пара строк кода помогла мне найти и визуализировать проблемные места за 20 минут на датасете из 80к картинок.
CleanVision
Cleanlab
Демонстрация label issue ImageNet
🔥37👍8❤3
Forwarded from Reliable ML
Проблема оценки финансовых эффектов от дата-команд стала критичной
Gartner Data & Analytics Conference 2023 - Review
В мире прекрасного будущего ИИ все только и говорят, что об ошеломительных эффектах от анализа данных и вообще деятельности дата-команд. А видели ли вы в реальности эти эффекты: конкретные потоки денег как результат внедрения проектов по анализу данных? Знаем, что многие сейчас задумаются. Ответ неоднозначен. Вот и Gartner на своей ведущей конференции по Data & Analytics в этом году задумались о проблеме оценки эффектов от дата-команд.
Согласно их исследованию, начиная с 1975 г. неуклонно снижается доля компаний, которые измеряют конкретный финансовый эффект от проектов по анализу данных (рост выручки, снижение издержек, рост производительности и снижение рисков). Уже в 2020 г. более 90% инвестиций в данные (против 17% в 1975 г.) обосновывалось так называемыми стратегическими целями: созданием инноваций, данных как актива, веса бренда.
Такой вот интересный тренд.
И дальше можно много рассуждать о том, как и почему мы к этому пришли и что же будет дальше на фоне сгущающихся туч в мировой макроэкономической конъюнктуре.
Позвольте и нам поделиться своими мыслями.
О том, почему сформировался тренд
- Светлая сторона - погоня за конкурентным преимуществом. Обосновывать эффект от анализа данных стратегическими целями во многих случаях вполне нормально. Развитие отрасли за последние годы стало очевидно уже, кажется, всем: ChatGPT здесь делает контрольный выстрел последним сомневающимся. В момент прорыва ни одна компания, которая хочет выжить, не хочет остаться в числе безнадежно отстающих, а значит, проигравших.
- Темная сторона - реальные сложности с оценкой эффекта дата-команд. Обосновывать эффект стратегическими целями иногда приходится вынужденно, когда не вкладываешься в понимание того, какие реальные финансовые эффекты могут принести инвестиции в данные и как это можно измерять. Множество компаний вкладывают колоссальные деньги в проекты по улучшению бизнес-процессов на основе данных, но при этом экономят на создании методологии оценки эффектов от этих проектов (АБ-тестирование, пост-инвест анализ дата-проектов, и др.). С каждым новым проектом такие компании всё сильнее увязают в ловушке неопределенности - для них растет риск итогового банкротства всей активности по работе с данными, или чрезмерного раздувания штата дата-команды без понимания успешности их деятельности.
При этом на нашей практике внедрение подобных методологий - всегда в итоге было сопряжено с наибольшими среди всех дата-проектов эффектами. Поскольку отсеивать миллиарды лишних инвестиций на старте или при пилотировании, как правило, довольно ценно 🙂
Что будет дальше
- Темная сторона - рост уязвимости дата-команд в условиях сложной макроэкономической ситуации на мировых рынках. Если 90% эффектов работы каких-то типов команд нельзя “пощупать руками”, поскольку они где-то в прекрасном будущем, при усилении экономического кризиса именно такие команды первыми попадают под удар. К сожалению, начало этого тренда во многом подтвердилось 2022м годом и рядом масштабных lay-offs в крупных компаниях (тут даже ссылки приводить не будем, всё на слуху).
- Светлая сторона - повышение интереса к оценкам реального финансового эффекта. На фоне всего вышеперечисленного мы ожидаем, что в 2024-2025 гг. возникнет перелом тренда - больше инвестиций будут обосновываться реальным финансовым эффектом.
А это будет означать рост интереса к методикам типа Reliable ML: к тому, как организовать работу дата-команд, чтобы эффект от их деятельности был измеримым и финансово положительным. Для этого нужно думать про: ML System Design (чтобы не попасть в заведомо неприбыльные или нереализуемые проекты), Causal Inference (чтобы не попасть в ловушку ложных закономерностей), и АБ-тестирование (чтобы корректно понять, принесет ли ваш прототип деньги при масштабировании).
Ваш @Reliable ML
Gartner Data & Analytics Conference 2023 - Review
В мире прекрасного будущего ИИ все только и говорят, что об ошеломительных эффектах от анализа данных и вообще деятельности дата-команд. А видели ли вы в реальности эти эффекты: конкретные потоки денег как результат внедрения проектов по анализу данных? Знаем, что многие сейчас задумаются. Ответ неоднозначен. Вот и Gartner на своей ведущей конференции по Data & Analytics в этом году задумались о проблеме оценки эффектов от дата-команд.
Согласно их исследованию, начиная с 1975 г. неуклонно снижается доля компаний, которые измеряют конкретный финансовый эффект от проектов по анализу данных (рост выручки, снижение издержек, рост производительности и снижение рисков). Уже в 2020 г. более 90% инвестиций в данные (против 17% в 1975 г.) обосновывалось так называемыми стратегическими целями: созданием инноваций, данных как актива, веса бренда.
Такой вот интересный тренд.
И дальше можно много рассуждать о том, как и почему мы к этому пришли и что же будет дальше на фоне сгущающихся туч в мировой макроэкономической конъюнктуре.
Позвольте и нам поделиться своими мыслями.
О том, почему сформировался тренд
- Светлая сторона - погоня за конкурентным преимуществом. Обосновывать эффект от анализа данных стратегическими целями во многих случаях вполне нормально. Развитие отрасли за последние годы стало очевидно уже, кажется, всем: ChatGPT здесь делает контрольный выстрел последним сомневающимся. В момент прорыва ни одна компания, которая хочет выжить, не хочет остаться в числе безнадежно отстающих, а значит, проигравших.
- Темная сторона - реальные сложности с оценкой эффекта дата-команд. Обосновывать эффект стратегическими целями иногда приходится вынужденно, когда не вкладываешься в понимание того, какие реальные финансовые эффекты могут принести инвестиции в данные и как это можно измерять. Множество компаний вкладывают колоссальные деньги в проекты по улучшению бизнес-процессов на основе данных, но при этом экономят на создании методологии оценки эффектов от этих проектов (АБ-тестирование, пост-инвест анализ дата-проектов, и др.). С каждым новым проектом такие компании всё сильнее увязают в ловушке неопределенности - для них растет риск итогового банкротства всей активности по работе с данными, или чрезмерного раздувания штата дата-команды без понимания успешности их деятельности.
При этом на нашей практике внедрение подобных методологий - всегда в итоге было сопряжено с наибольшими среди всех дата-проектов эффектами. Поскольку отсеивать миллиарды лишних инвестиций на старте или при пилотировании, как правило, довольно ценно 🙂
Что будет дальше
- Темная сторона - рост уязвимости дата-команд в условиях сложной макроэкономической ситуации на мировых рынках. Если 90% эффектов работы каких-то типов команд нельзя “пощупать руками”, поскольку они где-то в прекрасном будущем, при усилении экономического кризиса именно такие команды первыми попадают под удар. К сожалению, начало этого тренда во многом подтвердилось 2022м годом и рядом масштабных lay-offs в крупных компаниях (тут даже ссылки приводить не будем, всё на слуху).
- Светлая сторона - повышение интереса к оценкам реального финансового эффекта. На фоне всего вышеперечисленного мы ожидаем, что в 2024-2025 гг. возникнет перелом тренда - больше инвестиций будут обосновываться реальным финансовым эффектом.
А это будет означать рост интереса к методикам типа Reliable ML: к тому, как организовать работу дата-команд, чтобы эффект от их деятельности был измеримым и финансово положительным. Для этого нужно думать про: ML System Design (чтобы не попасть в заведомо неприбыльные или нереализуемые проекты), Causal Inference (чтобы не попасть в ловушку ложных закономерностей), и АБ-тестирование (чтобы корректно понять, принесет ли ваш прототип деньги при масштабировании).
Ваш @Reliable ML
👍13❤4🤡3🔥1🥱1
Forwarded from Data Science by ODS.ai 🦜
🕊Twitter Recommendation Algorithm
#Twitter disclosed the sources of its recommendation engine.
GitHub: https://github.com/twitter/the-algorithm
Blog post: https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
#recommenders #recsys #recommendation
#Twitter disclosed the sources of its recommendation engine.
GitHub: https://github.com/twitter/the-algorithm
Blog post: https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
#recommenders #recsys #recommendation
👍23🤡3
Forwarded from Complete AI (Andrey Kuznetsov)
🚀Kandinsky 2.1🚀
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные изменения относительно предшественницы 2.0.
Отличительные особенности включают:
📌3.3B параметров
📌Разрешение генераций - 768x768
📌Image prior трансформер
📌Новый автоэнкодер изображений MoVQ
📌Дообучение на очень чистом сете из 172M пар «текст-изображение»
📌Режимы работы: генерация по тексту, смешивание изображение, генерация изображений по образцу, изменение изображений по тексту, inpainting/outpainting
Всё это позволило добиться впечатляющего качества на различных доменах генераций.
FID на датасете COCO_30k достигает значения 8.21🔥 По публичным данным на сегодняшний день лучше только eDiffI (NVidia) и Imagen (Google Reseacrh).
Детально о модели можно прочитать в статье на Хабре, а протестировать Kandinsky 2.1 можно тут:
📍Телеграм-бот
📍FusionBrain.AI
📍GitHub
📍HuggingFace
📍rudalle.ru
📍MLSpace
Спасибо всей команде за слаженную и качественную работу - испытываю несказанное признание каждому🔥
@complete_ai
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные изменения относительно предшественницы 2.0.
Отличительные особенности включают:
📌3.3B параметров
📌Разрешение генераций - 768x768
📌Image prior трансформер
📌Новый автоэнкодер изображений MoVQ
📌Дообучение на очень чистом сете из 172M пар «текст-изображение»
📌Режимы работы: генерация по тексту, смешивание изображение, генерация изображений по образцу, изменение изображений по тексту, inpainting/outpainting
Всё это позволило добиться впечатляющего качества на различных доменах генераций.
FID на датасете COCO_30k достигает значения 8.21🔥 По публичным данным на сегодняшний день лучше только eDiffI (NVidia) и Imagen (Google Reseacrh).
Детально о модели можно прочитать в статье на Хабре, а протестировать Kandinsky 2.1 можно тут:
📍Телеграм-бот
📍FusionBrain.AI
📍GitHub
📍HuggingFace
📍rudalle.ru
📍MLSpace
Спасибо всей команде за слаженную и качественную работу - испытываю несказанное признание каждому🔥
@complete_ai
Telegram
Kandinsky 2.1
Kandinsky 2.1 by Sber AI
❤33🔥11👍7👎1