YTsaurus
Яндекс выпустил в открытый доступ «Вайтизавр» - платформу распределённого хранения и обработки больших данных, которую они делали почти 10 лет.
Вычислительный кластер YTsaurus способен:
-> хранить эксабайты данных
-> использовать HDD, SSD и RAM для хранения данных
-> обрабатывать данные на сотнях тысяч Hyper Threading ядер
-> решать задачи машинного обучения на тысячах GPU
-> хранить и обрабатывать данные десятков тысяч пользователей
Топовые кейсы:
— Показ рекламы
— Обучение моделей на суперкомпьютерах
— Построение поискового индекса
— Построение хранилища данных
Github | Сайт
Яндекс выпустил в открытый доступ «Вайтизавр» - платформу распределённого хранения и обработки больших данных, которую они делали почти 10 лет.
Вычислительный кластер YTsaurus способен:
-> хранить эксабайты данных
-> использовать HDD, SSD и RAM для хранения данных
-> обрабатывать данные на сотнях тысяч Hyper Threading ядер
-> решать задачи машинного обучения на тысячах GPU
-> хранить и обрабатывать данные десятков тысяч пользователей
Топовые кейсы:
— Показ рекламы
— Обучение моделей на суперкомпьютерах
— Построение поискового индекса
— Построение хранилища данных
Github | Сайт
🔥38🤡3👍1
Forwarded from Love. Death. Transformers.
Поддержим опенсурс, тут делается важная штука - открытая русскоязычная инструктивная модель, ребята нагенерили через gpt инструкцй и теперь просят вашей помощи в фильтрации!
Вот небольшая инструкцич по использованию:
Когда задание можно считать плохим:
- Из него непонятно, что нужно делать.
- Оно невыполнимо языковой моделью. Например, описание несуществующей картинки.
- Задание и вход не согласуются. Например, задание предполагает предложение на русском, а подаётся предложение на английском.
Если задание написано просто неграмотным русским языком, но из него ясно, что нужно делать - это ок.
Когда ответ можно считать плохим:
- Когда ответ некорректный или неполный.
- Когда модель в ответ на личные вопросы притворяется человеком. Например, говорит, что она вчера была в Париже.
- Когда ответ написан неграмотно.
Бот где размечать: @InstructAnnotBot
Уже готовый грязный сет:
https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca
Вот небольшая инструкцич по использованию:
Когда задание можно считать плохим:
- Из него непонятно, что нужно делать.
- Оно невыполнимо языковой моделью. Например, описание несуществующей картинки.
- Задание и вход не согласуются. Например, задание предполагает предложение на русском, а подаётся предложение на английском.
Если задание написано просто неграмотным русским языком, но из него ясно, что нужно делать - это ок.
Когда ответ можно считать плохим:
- Когда ответ некорректный или неполный.
- Когда модель в ответ на личные вопросы притворяется человеком. Например, говорит, что она вчера была в Париже.
- Когда ответ написан неграмотно.
Бот где размечать: @InstructAnnotBot
Уже готовый грязный сет:
https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca
huggingface.co
IlyaGusev/ru_turbo_alpaca · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👏23❤7😐2👎1😁1
🧹 Автоматическая чистка данных
Cleanlab и CleanVision - это два мощных инструмента для автоматической чистки датасетов.
Cleanlab - инструмент способный находить в наборах проблемные метки используя популярные фреймворки (torch, hf, sk-learn) и такие модальности как текст, изображения, табличные данные и звук.
CleanVision - позволяет находить копии и пересветы изображений, а также другие артефакты в датасетах компьютерного зрения.
Я попробовал второй инструмент во время участия в соревновании по классификации. Пара строк кода помогла мне найти и визуализировать проблемные места за 20 минут на датасете из 80к картинок.
CleanVision
Cleanlab
Демонстрация label issue ImageNet
Cleanlab и CleanVision - это два мощных инструмента для автоматической чистки датасетов.
Cleanlab - инструмент способный находить в наборах проблемные метки используя популярные фреймворки (torch, hf, sk-learn) и такие модальности как текст, изображения, табличные данные и звук.
CleanVision - позволяет находить копии и пересветы изображений, а также другие артефакты в датасетах компьютерного зрения.
Я попробовал второй инструмент во время участия в соревновании по классификации. Пара строк кода помогла мне найти и визуализировать проблемные места за 20 минут на датасете из 80к картинок.
CleanVision
Cleanlab
Демонстрация label issue ImageNet
🔥37👍8❤3
Forwarded from Reliable ML
Проблема оценки финансовых эффектов от дата-команд стала критичной
Gartner Data & Analytics Conference 2023 - Review
В мире прекрасного будущего ИИ все только и говорят, что об ошеломительных эффектах от анализа данных и вообще деятельности дата-команд. А видели ли вы в реальности эти эффекты: конкретные потоки денег как результат внедрения проектов по анализу данных? Знаем, что многие сейчас задумаются. Ответ неоднозначен. Вот и Gartner на своей ведущей конференции по Data & Analytics в этом году задумались о проблеме оценки эффектов от дата-команд.
Согласно их исследованию, начиная с 1975 г. неуклонно снижается доля компаний, которые измеряют конкретный финансовый эффект от проектов по анализу данных (рост выручки, снижение издержек, рост производительности и снижение рисков). Уже в 2020 г. более 90% инвестиций в данные (против 17% в 1975 г.) обосновывалось так называемыми стратегическими целями: созданием инноваций, данных как актива, веса бренда.
Такой вот интересный тренд.
И дальше можно много рассуждать о том, как и почему мы к этому пришли и что же будет дальше на фоне сгущающихся туч в мировой макроэкономической конъюнктуре.
Позвольте и нам поделиться своими мыслями.
О том, почему сформировался тренд
- Светлая сторона - погоня за конкурентным преимуществом. Обосновывать эффект от анализа данных стратегическими целями во многих случаях вполне нормально. Развитие отрасли за последние годы стало очевидно уже, кажется, всем: ChatGPT здесь делает контрольный выстрел последним сомневающимся. В момент прорыва ни одна компания, которая хочет выжить, не хочет остаться в числе безнадежно отстающих, а значит, проигравших.
- Темная сторона - реальные сложности с оценкой эффекта дата-команд. Обосновывать эффект стратегическими целями иногда приходится вынужденно, когда не вкладываешься в понимание того, какие реальные финансовые эффекты могут принести инвестиции в данные и как это можно измерять. Множество компаний вкладывают колоссальные деньги в проекты по улучшению бизнес-процессов на основе данных, но при этом экономят на создании методологии оценки эффектов от этих проектов (АБ-тестирование, пост-инвест анализ дата-проектов, и др.). С каждым новым проектом такие компании всё сильнее увязают в ловушке неопределенности - для них растет риск итогового банкротства всей активности по работе с данными, или чрезмерного раздувания штата дата-команды без понимания успешности их деятельности.
При этом на нашей практике внедрение подобных методологий - всегда в итоге было сопряжено с наибольшими среди всех дата-проектов эффектами. Поскольку отсеивать миллиарды лишних инвестиций на старте или при пилотировании, как правило, довольно ценно 🙂
Что будет дальше
- Темная сторона - рост уязвимости дата-команд в условиях сложной макроэкономической ситуации на мировых рынках. Если 90% эффектов работы каких-то типов команд нельзя “пощупать руками”, поскольку они где-то в прекрасном будущем, при усилении экономического кризиса именно такие команды первыми попадают под удар. К сожалению, начало этого тренда во многом подтвердилось 2022м годом и рядом масштабных lay-offs в крупных компаниях (тут даже ссылки приводить не будем, всё на слуху).
- Светлая сторона - повышение интереса к оценкам реального финансового эффекта. На фоне всего вышеперечисленного мы ожидаем, что в 2024-2025 гг. возникнет перелом тренда - больше инвестиций будут обосновываться реальным финансовым эффектом.
А это будет означать рост интереса к методикам типа Reliable ML: к тому, как организовать работу дата-команд, чтобы эффект от их деятельности был измеримым и финансово положительным. Для этого нужно думать про: ML System Design (чтобы не попасть в заведомо неприбыльные или нереализуемые проекты), Causal Inference (чтобы не попасть в ловушку ложных закономерностей), и АБ-тестирование (чтобы корректно понять, принесет ли ваш прототип деньги при масштабировании).
Ваш @Reliable ML
Gartner Data & Analytics Conference 2023 - Review
В мире прекрасного будущего ИИ все только и говорят, что об ошеломительных эффектах от анализа данных и вообще деятельности дата-команд. А видели ли вы в реальности эти эффекты: конкретные потоки денег как результат внедрения проектов по анализу данных? Знаем, что многие сейчас задумаются. Ответ неоднозначен. Вот и Gartner на своей ведущей конференции по Data & Analytics в этом году задумались о проблеме оценки эффектов от дата-команд.
Согласно их исследованию, начиная с 1975 г. неуклонно снижается доля компаний, которые измеряют конкретный финансовый эффект от проектов по анализу данных (рост выручки, снижение издержек, рост производительности и снижение рисков). Уже в 2020 г. более 90% инвестиций в данные (против 17% в 1975 г.) обосновывалось так называемыми стратегическими целями: созданием инноваций, данных как актива, веса бренда.
Такой вот интересный тренд.
И дальше можно много рассуждать о том, как и почему мы к этому пришли и что же будет дальше на фоне сгущающихся туч в мировой макроэкономической конъюнктуре.
Позвольте и нам поделиться своими мыслями.
О том, почему сформировался тренд
- Светлая сторона - погоня за конкурентным преимуществом. Обосновывать эффект от анализа данных стратегическими целями во многих случаях вполне нормально. Развитие отрасли за последние годы стало очевидно уже, кажется, всем: ChatGPT здесь делает контрольный выстрел последним сомневающимся. В момент прорыва ни одна компания, которая хочет выжить, не хочет остаться в числе безнадежно отстающих, а значит, проигравших.
- Темная сторона - реальные сложности с оценкой эффекта дата-команд. Обосновывать эффект стратегическими целями иногда приходится вынужденно, когда не вкладываешься в понимание того, какие реальные финансовые эффекты могут принести инвестиции в данные и как это можно измерять. Множество компаний вкладывают колоссальные деньги в проекты по улучшению бизнес-процессов на основе данных, но при этом экономят на создании методологии оценки эффектов от этих проектов (АБ-тестирование, пост-инвест анализ дата-проектов, и др.). С каждым новым проектом такие компании всё сильнее увязают в ловушке неопределенности - для них растет риск итогового банкротства всей активности по работе с данными, или чрезмерного раздувания штата дата-команды без понимания успешности их деятельности.
При этом на нашей практике внедрение подобных методологий - всегда в итоге было сопряжено с наибольшими среди всех дата-проектов эффектами. Поскольку отсеивать миллиарды лишних инвестиций на старте или при пилотировании, как правило, довольно ценно 🙂
Что будет дальше
- Темная сторона - рост уязвимости дата-команд в условиях сложной макроэкономической ситуации на мировых рынках. Если 90% эффектов работы каких-то типов команд нельзя “пощупать руками”, поскольку они где-то в прекрасном будущем, при усилении экономического кризиса именно такие команды первыми попадают под удар. К сожалению, начало этого тренда во многом подтвердилось 2022м годом и рядом масштабных lay-offs в крупных компаниях (тут даже ссылки приводить не будем, всё на слуху).
- Светлая сторона - повышение интереса к оценкам реального финансового эффекта. На фоне всего вышеперечисленного мы ожидаем, что в 2024-2025 гг. возникнет перелом тренда - больше инвестиций будут обосновываться реальным финансовым эффектом.
А это будет означать рост интереса к методикам типа Reliable ML: к тому, как организовать работу дата-команд, чтобы эффект от их деятельности был измеримым и финансово положительным. Для этого нужно думать про: ML System Design (чтобы не попасть в заведомо неприбыльные или нереализуемые проекты), Causal Inference (чтобы не попасть в ловушку ложных закономерностей), и АБ-тестирование (чтобы корректно понять, принесет ли ваш прототип деньги при масштабировании).
Ваш @Reliable ML
👍13❤4🤡3🔥1🥱1
Forwarded from Data Science by ODS.ai 🦜
🕊Twitter Recommendation Algorithm
#Twitter disclosed the sources of its recommendation engine.
GitHub: https://github.com/twitter/the-algorithm
Blog post: https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
#recommenders #recsys #recommendation
#Twitter disclosed the sources of its recommendation engine.
GitHub: https://github.com/twitter/the-algorithm
Blog post: https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
#recommenders #recsys #recommendation
👍23🤡3
Forwarded from Complete AI (Andrey Kuznetsov)
🚀Kandinsky 2.1🚀
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные изменения относительно предшественницы 2.0.
Отличительные особенности включают:
📌3.3B параметров
📌Разрешение генераций - 768x768
📌Image prior трансформер
📌Новый автоэнкодер изображений MoVQ
📌Дообучение на очень чистом сете из 172M пар «текст-изображение»
📌Режимы работы: генерация по тексту, смешивание изображение, генерация изображений по образцу, изменение изображений по тексту, inpainting/outpainting
Всё это позволило добиться впечатляющего качества на различных доменах генераций.
FID на датасете COCO_30k достигает значения 8.21🔥 По публичным данным на сегодняшний день лучше только eDiffI (NVidia) и Imagen (Google Reseacrh).
Детально о модели можно прочитать в статье на Хабре, а протестировать Kandinsky 2.1 можно тут:
📍Телеграм-бот
📍FusionBrain.AI
📍GitHub
📍HuggingFace
📍rudalle.ru
📍MLSpace
Спасибо всей команде за слаженную и качественную работу - испытываю несказанное признание каждому🔥
@complete_ai
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные изменения относительно предшественницы 2.0.
Отличительные особенности включают:
📌3.3B параметров
📌Разрешение генераций - 768x768
📌Image prior трансформер
📌Новый автоэнкодер изображений MoVQ
📌Дообучение на очень чистом сете из 172M пар «текст-изображение»
📌Режимы работы: генерация по тексту, смешивание изображение, генерация изображений по образцу, изменение изображений по тексту, inpainting/outpainting
Всё это позволило добиться впечатляющего качества на различных доменах генераций.
FID на датасете COCO_30k достигает значения 8.21🔥 По публичным данным на сегодняшний день лучше только eDiffI (NVidia) и Imagen (Google Reseacrh).
Детально о модели можно прочитать в статье на Хабре, а протестировать Kandinsky 2.1 можно тут:
📍Телеграм-бот
📍FusionBrain.AI
📍GitHub
📍HuggingFace
📍rudalle.ru
📍MLSpace
Спасибо всей команде за слаженную и качественную работу - испытываю несказанное признание каждому🔥
@complete_ai
Telegram
Kandinsky 2.1
Kandinsky 2.1 by Sber AI
❤33🔥11👍7👎1
Обсуждать генерации кандинского можно здесь https://t.iss.one/betterdatacommunity/13731
🥱9🔥5👎1
Complete AI
🚀Kandinsky 2.1🚀 Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные…
Кандинский 2.1 на 4 месте в Github trending!
GitHub
GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.
❤42👍16🔥11🥱3👎2🤡2⚡1😢1
Forwarded from NLP Core Team
Новая SOTA модель для русского языка FRED-T5 доступна на HuggingFace. 🚀🚀🚀
FRED-T5-1.7B
FRED-T5-large (820M)
Модель 1.7B показала лучший скор на RussianSuperGLUE и на текущий момент является SOTA для русского языка.
FRED-T5 основана на базе архитектуры T5. Изначально мы целились в ПРОМопригодность модели при выборе архитектуры. Мы использовали bbpe токенайзер от ruGPT3 (до large размера). Модель обучалась на миксе денойзеров. Денойзеры похожие, как в пейпере UL2. Если не слышали про UL2, то можно тут прочитать. Мы использовали равномерное распределение в задачах span corruption при выборе длины спана. И у нас было 7 денойзеров на каждый вариант семплирования (в UL2 было 3). Модель первую часть тренировки обучалась на 3.5Gb данных (чуть больше 1% от всего сета 300Gb). После она была дообучена на всем сете. Всего модель видела 1.5T токенов.
Вот такие денойзеры:
‘<LM>’:(µ = L/4, r = 0.25)
‘<SC1>’:(µ = 3, r = 0.15)
‘<SC2>’:(µ = 8, r = 0.15)
<SC3>’:(µ = 64, r = 0.15)
‘<SC4>’:(µ = 3, r = 0.5)
‘<SC5>’:(µ = 8, r = 0.5)
‘<SC6>’:(µ = 64, r = 0.5)
µ — это средняя длина спана в токенах, а r— это доля удаленных токенов
Ничего не поняли?) Через пару дней выйдет наша статья на Хабре, где мы расскажем детали.
Как можно юзать модель?
Берем токенизатор GPT2 и модель T5 из HF.
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained(('ai-forever/FRED-T5-1.7B')
Не забывайте руками добавлять ‘</s>’ если он нужен вам. GPT2Tokenizer не делает это по умолчанию.
Советы по файнтюну.
При файнтюне модели можно использовать префиксы денойзеров, которые использовались при обучении ‘<LM>’, ‘<SC1>’,...’<SC6>’. Добавляете в начале текста, подаваемого на энкодер. Если задача LM, то лучше использовать префикс ‘<LM>’, в остальных случаях можно без префикса. При файнтюне на RSG мы не увидели значимых различий в предиктах в зависимости от префикса и без его использования. Если ваша задача похожа на одну из задач денойзинга, то конечно стоит попробовать взять соответствующий префикс. Мы часто при файнтюне используем оптимизатор Adafactor c постоянным lr=0.001. Он чаще дает лучшие результаты чем AdamW.
FRED-T5-1.7B
FRED-T5-large (820M)
Модель 1.7B показала лучший скор на RussianSuperGLUE и на текущий момент является SOTA для русского языка.
FRED-T5 основана на базе архитектуры T5. Изначально мы целились в ПРОМопригодность модели при выборе архитектуры. Мы использовали bbpe токенайзер от ruGPT3 (до large размера). Модель обучалась на миксе денойзеров. Денойзеры похожие, как в пейпере UL2. Если не слышали про UL2, то можно тут прочитать. Мы использовали равномерное распределение в задачах span corruption при выборе длины спана. И у нас было 7 денойзеров на каждый вариант семплирования (в UL2 было 3). Модель первую часть тренировки обучалась на 3.5Gb данных (чуть больше 1% от всего сета 300Gb). После она была дообучена на всем сете. Всего модель видела 1.5T токенов.
Вот такие денойзеры:
‘<LM>’:(µ = L/4, r = 0.25)
‘<SC1>’:(µ = 3, r = 0.15)
‘<SC2>’:(µ = 8, r = 0.15)
<SC3>’:(µ = 64, r = 0.15)
‘<SC4>’:(µ = 3, r = 0.5)
‘<SC5>’:(µ = 8, r = 0.5)
‘<SC6>’:(µ = 64, r = 0.5)
µ — это средняя длина спана в токенах, а r— это доля удаленных токенов
Ничего не поняли?) Через пару дней выйдет наша статья на Хабре, где мы расскажем детали.
Как можно юзать модель?
Берем токенизатор GPT2 и модель T5 из HF.
tokenizer = GPT2Tokenizer.from_pretrained('ai-forever/FRED-T5-1.7B',eos_token='</s>')
model = T5ForConditionalGeneration.from_pretrained(('ai-forever/FRED-T5-1.7B')
Не забывайте руками добавлять ‘</s>’ если он нужен вам. GPT2Tokenizer не делает это по умолчанию.
Советы по файнтюну.
При файнтюне модели можно использовать префиксы денойзеров, которые использовались при обучении ‘<LM>’, ‘<SC1>’,...’<SC6>’. Добавляете в начале текста, подаваемого на энкодер. Если задача LM, то лучше использовать префикс ‘<LM>’, в остальных случаях можно без префикса. При файнтюне на RSG мы не увидели значимых различий в предиктах в зависимости от префикса и без его использования. Если ваша задача похожа на одну из задач денойзинга, то конечно стоит попробовать взять соответствующий префикс. Мы часто при файнтюне используем оптимизатор Adafactor c постоянным lr=0.001. Он чаще дает лучшие результаты чем AdamW.
huggingface.co
ai-forever/FRED-T5-1.7B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥18👍5❤2🎉1🤣1
Forwarded from Complete AI (Andrey Kuznetsov)
🔥Мы тут подсчитали - на текущий момент (10.04.2023) модель Kandinsky 2.1 собрала 2 млн. уникальных пользователей и создала больше 10 млн. изображений. Это наш самый масштабный и результативный проект🚀
My Sber AI Team - one love🙏❤️
@complete_ai
My Sber AI Team - one love🙏❤️
@complete_ai
❤43👍8👎4🤡3🔥2
Forwarded from Дата-Утренник
💡 Metric Learning
(Туториалы в конце)
👉 Одно из направлений в глубоком обучении, которое нацелено на качественное кодирование модальностей.
☝️Активно применяется в задачах ранжирования, поиска, детектирования выбросов и кластеризации.
📎 Отличается от классического подхода к обучению тем, что наша главная задача - минимизировать расстояние между векторами похожих объектов основываясь на деталях, семантике.
Выделяют 2 основных подхода к обучению:
1️⃣ Контролируемое - мы хотим создать границу между классами, учитывать расстояние до ближайшей границы другого класса и объектами внутри классов.
2️⃣ Обучение без учителя - нелинейная техника для понижения размерности c сохранением структуры данных.
Может быть интересно:
Active Metric Learning - алгоритм сам решает, на чем лучше обучаться и экономит ресурсы пользователя.
Laplacian Eigenmaps - метод понижения размерности для сохранения локальной геометрии объектов (ближайшие объекты остаются близкими).
@memorial_edition
Metric Learning Tutorial [Parag Jain]
Практический Metric learning
sklearn-metric-learn
(Туториалы в конце)
👉 Одно из направлений в глубоком обучении, которое нацелено на качественное кодирование модальностей.
☝️Активно применяется в задачах ранжирования, поиска, детектирования выбросов и кластеризации.
📎 Отличается от классического подхода к обучению тем, что наша главная задача - минимизировать расстояние между векторами похожих объектов основываясь на деталях, семантике.
Выделяют 2 основных подхода к обучению:
1️⃣ Контролируемое - мы хотим создать границу между классами, учитывать расстояние до ближайшей границы другого класса и объектами внутри классов.
2️⃣ Обучение без учителя - нелинейная техника для понижения размерности c сохранением структуры данных.
Может быть интересно:
Active Metric Learning - алгоритм сам решает, на чем лучше обучаться и экономит ресурсы пользователя.
Laplacian Eigenmaps - метод понижения размерности для сохранения локальной геометрии объектов (ближайшие объекты остаются близкими).
@memorial_edition
Metric Learning Tutorial [Parag Jain]
Практический Metric learning
sklearn-metric-learn
🔥13👍6🤡2
Forwarded from Дата-Утренник
Ограничения искусственного интеллекта
OpenAI считают (и заявляли в дискуссиях с правительствами), что запуск процесса тренировки подобных моделей должен сопровождаться сообщением о нём государству и/или регулятору. [2023]
Если вы думаете, что только сейчас начали стандартизировать искусственный интеллект, то вы сильно ошибаетесь.
Вот пример:
The AI Methods, Capabilities and Criticality Grid [2021]
Документ, который описывает возможное применение искусственного интеллекта в бизнесе и его последствия. Это своего рода переводчик с языка программистов на язык бизнеса, который поможет понять, что можно ожидать от разработки и какие преимущества она может принести.
Несколько других интересных событий:
ИИ системы могут получать патенты в соответствии с австралийским патентным законодательством [2021]
Апелляционный суд США окончательно разрешил собирать публичные данные в Интернете [2022]
@data_morning
Также стоит упомянуть историю с Copilot, где разработчики жаловались на то, что модель просто повторяет их код без изменений. Новости об этом были актуальны недавно, но последний апдейт по этой теме был 4 ноября 2022.
OpenAI считают (и заявляли в дискуссиях с правительствами), что запуск процесса тренировки подобных моделей должен сопровождаться сообщением о нём государству и/или регулятору. [2023]
Если вы думаете, что только сейчас начали стандартизировать искусственный интеллект, то вы сильно ошибаетесь.
Вот пример:
The AI Methods, Capabilities and Criticality Grid [2021]
Документ, который описывает возможное применение искусственного интеллекта в бизнесе и его последствия. Это своего рода переводчик с языка программистов на язык бизнеса, который поможет понять, что можно ожидать от разработки и какие преимущества она может принести.
Несколько других интересных событий:
ИИ системы могут получать патенты в соответствии с австралийским патентным законодательством [2021]
Апелляционный суд США окончательно разрешил собирать публичные данные в Интернете [2022]
@data_morning
Также стоит упомянуть историю с Copilot, где разработчики жаловались на то, что модель просто повторяет их код без изменений. Новости об этом были актуальны недавно, но последний апдейт по этой теме был 4 ноября 2022.
👍11🔥2❤1👎1
Forwarded from Дата-Утренник (Максим Герасимов)
Tweets for Stocks
Вы наверняка слышали о том, как сообщения известных личностей могут повлиять на цены акций. Нашел проект, в котором решили проверить существует ли зависимость между твитами и изменением цен на акции.
Для этого они использовали несколько моделей, включая catboost, tr roberta и naive bayes. Наилучший результат на классификации (повышение/понижение цены) составил 0,58.
@data_morning
В репозитории есть все ноутбуки.
Страница проекта
Вы наверняка слышали о том, как сообщения известных личностей могут повлиять на цены акций. Нашел проект, в котором решили проверить существует ли зависимость между твитами и изменением цен на акции.
Для этого они использовали несколько моделей, включая catboost, tr roberta и naive bayes. Наилучший результат на классификации (повышение/понижение цены) составил 0,58.
@data_morning
В репозитории есть все ноутбуки.
Страница проекта
👍28❤4😁2
Forwarded from Dealer.AI
Self-supervised learning book.
Ну, что, други. Прошли сутки, пора выдыхать и тянуть нашу DS'ную лямку дальше. Работку работать.
Поэтому я со свежими новостями.
Тут давече, Мета, выпустила на arxiv книжку по самообучению. ;)
Напомню, что мой любимый metric-learning, contrastive learning и обучение LM'ок в тч сводится к self-supervised. Поэтому берём на вооружение книженцию, я уже посмотрел чутка. Точно будет полезно, особенно есть как математические выкладки, так и полезные usefull хинты для практики.
Налетай!
Ну, что, други. Прошли сутки, пора выдыхать и тянуть нашу DS'ную лямку дальше. Работку работать.
Поэтому я со свежими новостями.
Тут давече, Мета, выпустила на arxiv книжку по самообучению. ;)
Напомню, что мой любимый metric-learning, contrastive learning и обучение LM'ок в тч сводится к self-supervised. Поэтому берём на вооружение книженцию, я уже посмотрел чутка. Точно будет полезно, особенно есть как математические выкладки, так и полезные usefull хинты для практики.
Налетай!
arXiv.org
A Cookbook of Self-Supervised Learning
Self-supervised learning, dubbed the dark matter of intelligence, is a promising path to advance machine learning. Yet, much like cooking, training SSL methods is a delicate art with a high...
👍39🥰4
Forwarded from Соне нравится (или нет)
Мы с частью нашей команды активно потрудились в начале этого года и теперь готовы представить наш качественно размеченный датасет для обучения моделей в задачах Face Parsing и Portrait Segmentation. Решать данные задачи с нашим датасетом стало так просто, что мы назвали его EasyPortrait. 😎
Все мы не первый день в машинном обучении и знаем, что большую часть успеха в обучении модели играют данные. И прежде, чем обучать модель, стоит оценить качество данных, с которыми нужно работать. Если данные хорошо размечены, их много и они разнообразныеа ещё у ML-разработчика прямые руки, то можно взять стандартный пайплайн обучения без каких-либо усложнений и быстро обучить модель с лёгкой архитектурой, получая на уже относительно ранних шагах достаточно высокие метрики. Если же ситуация с данными неутешительная, то в ход идут усложнения пайплайна обучения или препроцессинга данных.
Я и мои work-✨ besties✨ предполагали, что наш датасет будет использоваться для разработки моделей для приложений с видеозвонками, где есть спрос на сегментацию фона, чтобы его заблюрить, или на сегментацию кожи и зубов для бьютификации. 💅✨ Поэтому данные модели должны быть максимально лёгкими и быстрыми, чтобы работать в риал-тайме почти без пропусков кадров, ведь пайплайн инференса будет происходить на CPU вашего любимого компьютера! А ещё мы так и не нашли ни одного датасета из всех существующих, который бы удовлетворил наши требования при решении задач Face Parsing и Portrait Segmentation, поэтому прошу любить и активно использовать EasyPortrait в своих задачах, вам должно понравится.
А ещё не забудьте усыпать нам звёздами репозиторий на GitHub. Нам было бы приятно! И ещё будем очень признательны за фидбек, а также мы готовы к совместным проектам!🥰
➡️ Ссылки:
💙 Arxiv
💙 GitHub
💙 Habr
💙 Medium (soon)
Все мы не первый день в машинном обучении и знаем, что большую часть успеха в обучении модели играют данные. И прежде, чем обучать модель, стоит оценить качество данных, с которыми нужно работать. Если данные хорошо размечены, их много и они разнообразные
Я и мои work-
А ещё не забудьте усыпать нам звёздами репозиторий на GitHub. Нам было бы приятно! И ещё будем очень признательны за фидбек, а также мы готовы к совместным проектам!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤31👍8🔥5🤩1
Forwarded from Дата-Утренник (Максим Герасимов)
ML Model Watermarking
SAP сделали инструмент для защиты моделей машинного обучения путем добавления водяных знаков (в веса модели) на основных фреймворках: Scikit-learn, PyTorch, HuggingFace.
Добавление водяных знаков не сильно влияет на точность модели, но позволяет доказать ее владение и предотвратить несанкционированное использование.
@data_morning
github
SAP сделали инструмент для защиты моделей машинного обучения путем добавления водяных знаков (в веса модели) на основных фреймворках: Scikit-learn, PyTorch, HuggingFace.
Добавление водяных знаков не сильно влияет на точность модели, но позволяет доказать ее владение и предотвратить несанкционированное использование.
@data_morning
github
🔥46🤡14👍7
Тот самый хардкорный курс по машинному обучению от топов рынка!
Валерий Бабушкин (Vice President, Data Science в Blockchainꓸcom, ранее работал в Facebook, Alibaba, X5 Group, Яндекс) со своими коллегами — руководителями Data Science направлений в крупнейших компаниях помогут вывести ваши знания на новый уровень.
Вы научитесь решать нестандартные ML-задачи, востребованные бизнесом.
От предсказания ценовых диапазонов до решения маркетинговых задач с помощью uplift-моделирования.
Этот курс может стать для вас вызовом — придётся нехило попотеть (поэтому курс и называется HARD ML) Но оно определённо того стоит, ведь знания прикладные: каждый модуль заканчивается разработкой ML-сервиса, который будет не стыдно показать будущему работодателю.
Следующий поток стартует уже 5 июня, а по промокоду GRADIENTML27 вы получите скидку 5%. Ждем вас!
[Зарегистрироваться]
Валерий Бабушкин (Vice President, Data Science в Blockchainꓸcom, ранее работал в Facebook, Alibaba, X5 Group, Яндекс) со своими коллегами — руководителями Data Science направлений в крупнейших компаниях помогут вывести ваши знания на новый уровень.
Вы научитесь решать нестандартные ML-задачи, востребованные бизнесом.
От предсказания ценовых диапазонов до решения маркетинговых задач с помощью uplift-моделирования.
Этот курс может стать для вас вызовом — придётся нехило попотеть (поэтому курс и называется HARD ML) Но оно определённо того стоит, ведь знания прикладные: каждый модуль заканчивается разработкой ML-сервиса, который будет не стыдно показать будущему работодателю.
Следующий поток стартует уже 5 июня, а по промокоду GRADIENTML27 вы получите скидку 5%. Ждем вас!
[Зарегистрироваться]
👎51👍17🤡13🥱4❤1
Forwarded from Нейрокузня | DreamForge
Пока SDXL еще не полностью вышла в открытый доступ, продолжаем выжимать всё возможное из нынешних моделей.
Почти месяц назад я разработал в рамках своей дипломной работы скрипт для Stable Diffusion WebUI, призванный помочь и новичкам, только осваивающим интерфейс, и бывалым энтузиастам в создании качественных изображений с минимальными усилиями. И наконец я готов этот скрипт, пусть и все еще на стадии поздней беты, выложить в открытый доступ.
AutoChar осуществляет автоматический инпеинт обнаруженных лиц и глаз на них, налаживает двухэтапный апскейл изображения, а так же чистит изначальную генерацию от шума.
Всё, впрочем, детально регулируется или выключается по мере надобности, при этом все настройки скрыты за шторкой, у новичков глаза разбегаться не будут. Базовые настройки достаточно универсальны, но в случае чего их всегда можно адаптировать под задачу.
Десятки лишних кликов и ручное рисований масок лиц мышкой теперь в прошлом, иллюстрация получается значительно лучше с одной кнопки. По сути, я автоматизировал свой собственный алгоритм работы и не надо верить мне на слово, сами попробуйте и оцените, насколько много времени и сил AutoChar экономит.
Пока реализованы не все задуманные мной и предложенные первыми тестерами функции, но всё впереди! Забрасывать разработку не намерен, т.к. каждый день использую скрипт сам в своей работе и сам заинтересован в его улучшении. Буду рад всем предложениям, пожеланиям и сообщениям об ошибках.
https://github.com/alexv0iceh/AutoChar
https://www.reddit.com/r/StableDiffusion/comments/14h5qa3/autochar_new_automatic1111_webui_script_for/
https://civitai.com/models/95923?modelVersionId=102438
Почти месяц назад я разработал в рамках своей дипломной работы скрипт для Stable Diffusion WebUI, призванный помочь и новичкам, только осваивающим интерфейс, и бывалым энтузиастам в создании качественных изображений с минимальными усилиями. И наконец я готов этот скрипт, пусть и все еще на стадии поздней беты, выложить в открытый доступ.
AutoChar осуществляет автоматический инпеинт обнаруженных лиц и глаз на них, налаживает двухэтапный апскейл изображения, а так же чистит изначальную генерацию от шума.
Всё, впрочем, детально регулируется или выключается по мере надобности, при этом все настройки скрыты за шторкой, у новичков глаза разбегаться не будут. Базовые настройки достаточно универсальны, но в случае чего их всегда можно адаптировать под задачу.
Десятки лишних кликов и ручное рисований масок лиц мышкой теперь в прошлом, иллюстрация получается значительно лучше с одной кнопки. По сути, я автоматизировал свой собственный алгоритм работы и не надо верить мне на слово, сами попробуйте и оцените, насколько много времени и сил AutoChar экономит.
Пока реализованы не все задуманные мной и предложенные первыми тестерами функции, но всё впереди! Забрасывать разработку не намерен, т.к. каждый день использую скрипт сам в своей работе и сам заинтересован в его улучшении. Буду рад всем предложениям, пожеланиям и сообщениям об ошибках.
https://github.com/alexv0iceh/AutoChar
https://www.reddit.com/r/StableDiffusion/comments/14h5qa3/autochar_new_automatic1111_webui_script_for/
https://civitai.com/models/95923?modelVersionId=102438
🔥42👏2❤1👍1