Создаём субтитры для любого видео в интернете с помощью нейросети в браузере.
Довольно часто пользователи смотрят видео с субтитрами, и тому есть разные причины. Например, кто-то хочет посмотреть видео там, где нужно соблюдать тишину или, наоборот, где слишком шумно. Или пользователь включает субтитры, когда ему непонятно, что говорит спикер. Для слабослышащих людей субтитры — это один из немногих способов ознакомиться с содержанием видеороликов.
Но чаще всего включить субтитры в видеоплеере сайта доступны, только когда владелец веб-ресурса предусмотрел такую возможность. Яндекс Браузер решил эту проблему: он научился самостоятельно генерировать субтитры для видео на русском языке. Новая функция работает на любых сайтах: видеохостинги, социальные сети, страницы телеканалов. Также субтитры работают для роликов, которые доступны только после авторизации или загружены в облачные хранилища. Это стало возможным благодаря нейросети, встроенной в десктопную версию Браузера.
В этой статье я расскажу, как мы построили модель для генерации субтитров и на что нам пришлось пойти, чтобы она стала потреблять в 5 раз меньше оперативной памяти. А ещё поговорим про квантизацию свёрток и трансформеров и почему fp16 не так прост, как кажется.
Читать далее https://habr.com/ru/companies/yandex/articles/758782/
  
  Довольно часто пользователи смотрят видео с субтитрами, и тому есть разные причины. Например, кто-то хочет посмотреть видео там, где нужно соблюдать тишину или, наоборот, где слишком шумно. Или пользователь включает субтитры, когда ему непонятно, что говорит спикер. Для слабослышащих людей субтитры — это один из немногих способов ознакомиться с содержанием видеороликов.
Но чаще всего включить субтитры в видеоплеере сайта доступны, только когда владелец веб-ресурса предусмотрел такую возможность. Яндекс Браузер решил эту проблему: он научился самостоятельно генерировать субтитры для видео на русском языке. Новая функция работает на любых сайтах: видеохостинги, социальные сети, страницы телеканалов. Также субтитры работают для роликов, которые доступны только после авторизации или загружены в облачные хранилища. Это стало возможным благодаря нейросети, встроенной в десктопную версию Браузера.
В этой статье я расскажу, как мы построили модель для генерации субтитров и на что нам пришлось пойти, чтобы она стала потреблять в 5 раз меньше оперативной памяти. А ещё поговорим про квантизацию свёрток и трансформеров и почему fp16 не так прост, как кажется.
Читать далее https://habr.com/ru/companies/yandex/articles/758782/
Хабр
  
  Создаём субтитры для любого видео в интернете с помощью нейросети в браузере
  Довольно часто пользователи смотрят видео с субтитрами, и тому есть разные причины. Например, кто‑то хочет посмотреть видео там, где нужно соблюдать тишину или, наоборот, где слишком шумно....
  Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций.
2023-й — однозначно год генеративного искусственного интеллекта и сервисов на его основе, которые используют в разных кейсах и сценариях. Но даже при этом для многих сфера генеративного ИИ остается на уровне пользовательского интереса. Это упущение, ведь потенциал GPT-моделей и им подобных не ограничен поиском ответов на классические вопросы и даже ассистированием в процессе разработки. А их создание не относится к числу нерешаемых задач тысячелетия. GPT — технология, которую можно приручить, и это проще, чем кажется.
Читать дальше →https://habr.com/ru/companies/vk/articles/761092
  
  2023-й — однозначно год генеративного искусственного интеллекта и сервисов на его основе, которые используют в разных кейсах и сценариях. Но даже при этом для многих сфера генеративного ИИ остается на уровне пользовательского интереса. Это упущение, ведь потенциал GPT-моделей и им подобных не ограничен поиском ответов на классические вопросы и даже ассистированием в процессе разработки. А их создание не относится к числу нерешаемых задач тысячелетия. GPT — технология, которую можно приручить, и это проще, чем кажется.
Читать дальше →https://habr.com/ru/companies/vk/articles/761092
Хабр
  
  Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций
  2023-й — однозначно год генеративного искусственного интеллекта и сервисов на его основе, которые используют в разных кейсах и сценариях. Но даже при этом для многих сфера генеративного ИИ остается на...
  Forwarded from Шпаргалки для айтишников
  
Классические уравнения и диаграммы в машинном обучении
https://github.com/soulmachine/machine-learning-cheat-sheet
  https://github.com/soulmachine/machine-learning-cheat-sheet
Платформа для анализа данных за вечер.
Текущее состояние российского рынка аналитических и ML-решений сложно назвать стабильным. Какие-то инструменты более недоступны, а на их место регулярно приходят новые. Причем не только вендорские, но еще и open source, а также облачные сервисы.
Инструменты «из коробки» не всегда подходят для решения всех необходимых задач. Какие-то слишком сложны для базовой аналитики, другие стоят больших денег, третьи заточены под определенный тип данных или более узкие задачи.
Один из набирающих популярность вариантов — собрать собственное решение, можно сказать, небольшую платформу данных. Варианты могут быть разнообразные — от разработки софта до интеграции готовых open source-элементов. Касаться первого варианта сегодня бы не хотелось, а вот второй рассмотрим подробнее.
В статье рассказываем, как всего за час (или почти) подготовить облачное окружение, создать свою небольшую платформу для анализа данных и спарсить весь Hugging Face.
Читать дальше →https://habr.com/ru/companies/selectel/articles/761948
  
  Текущее состояние российского рынка аналитических и ML-решений сложно назвать стабильным. Какие-то инструменты более недоступны, а на их место регулярно приходят новые. Причем не только вендорские, но еще и open source, а также облачные сервисы.
Инструменты «из коробки» не всегда подходят для решения всех необходимых задач. Какие-то слишком сложны для базовой аналитики, другие стоят больших денег, третьи заточены под определенный тип данных или более узкие задачи.
Один из набирающих популярность вариантов — собрать собственное решение, можно сказать, небольшую платформу данных. Варианты могут быть разнообразные — от разработки софта до интеграции готовых open source-элементов. Касаться первого варианта сегодня бы не хотелось, а вот второй рассмотрим подробнее.
В статье рассказываем, как всего за час (или почти) подготовить облачное окружение, создать свою небольшую платформу для анализа данных и спарсить весь Hugging Face.
Читать дальше →https://habr.com/ru/companies/selectel/articles/761948
Хабр
  
  Платформа для анализа данных за вечер
  Текущее состояние российского рынка аналитических и ML-решений сложно назвать стабильным. Какие-то инструменты более недоступны, а на их место регулярно приходят новые. Причем не только вендорские, но...
  This media is not supported in your browser
    VIEW IN TELEGRAM
  Это такой впечатляющий набор данных. Пакет Python Leafmap теперь поддерживает загрузку Google Open Buildings, крупнейшего набора данных о зданиях, для любой страны с помощью всего лишь одной строки кода
https://github.com/opengeos/leafmap
https://leafmap.org/notebooks/81_buildings/
  https://github.com/opengeos/leafmap
https://leafmap.org/notebooks/81_buildings/
This media is not supported in your browser
    VIEW IN TELEGRAM
  Самая впечатляющая статья, которую я видел на этой неделе.
Generative Image Dynamics преобразует неподвижные изображения в видео или интерактивные сцены. Команда Google обучила модель, используя набор данных траекторий движения из реальных видеороликов естественных колебательных движений
https://generative-dynamics.github.io/
  Generative Image Dynamics преобразует неподвижные изображения в видео или интерактивные сцены. Команда Google обучила модель, используя набор данных траекторий движения из реальных видеороликов естественных колебательных движений
https://generative-dynamics.github.io/
От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению.
Привет, Хабр! Меня все еще зовут Ефим, и я все еще MLOps-инженер в отделе Data- и ML-продуктов Selectel. В предыдущей статье я кратко рассказал про основные ресурсы, которые могут помочь начинающему специалисту ворваться в бурлящий котел Data Science. Но после выхода материала я понял, что задача систематизации знаний гораздо сложнее, чем казалось. Настолько, что проиллюстрировать ее можно только табличкой ниже:
В этом тексте хочу исправиться: разбить знания по Data Science и машинному обучению на несколько теоретических блоков и дать больше полезных материалов. Подробности под катом! Читать дальше →https://habr.com/ru/companies/selectel/articles/762098
  
  Привет, Хабр! Меня все еще зовут Ефим, и я все еще MLOps-инженер в отделе Data- и ML-продуктов Selectel. В предыдущей статье я кратко рассказал про основные ресурсы, которые могут помочь начинающему специалисту ворваться в бурлящий котел Data Science. Но после выхода материала я понял, что задача систематизации знаний гораздо сложнее, чем казалось. Настолько, что проиллюстрировать ее можно только табличкой ниже:
В этом тексте хочу исправиться: разбить знания по Data Science и машинному обучению на несколько теоретических блоков и дать больше полезных материалов. Подробности под катом! Читать дальше →https://habr.com/ru/companies/selectel/articles/762098
Хабр
  
  От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению
  Привет, Хабр! Меня все еще зовут Ефим, и я все еще MLOps-инженер в отделе Data- и ML-продуктов Selectel . В предыдущей статье я кратко рассказал про основные ресурсы, которые могут помочь начинающему...
  ❗️ Как стать высокооплачиваемым специалистом в ML?
👉 Совершенствуй мастерство ML в сообществе единомышленников на открытом уроке 26 сентября в 20:00 мск — «Алгоритм PCA как один из популярных Unsupervised алгоритмов ML»
🔹 Зачастую нам приходится проецировать многомерные данные на плоскость либо в пространство меньшей размерности. На открытом уроке вы узнаете, что из себя представляет задача снижения размерности
📌 Результаты урока:
Вы изучите основные техники снижения размерности и изучите метод PCA
👉 РЕГИСТРАЦИЯ
https://otus.pw/NTdB/
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KN7dJ
  👉 Совершенствуй мастерство ML в сообществе единомышленников на открытом уроке 26 сентября в 20:00 мск — «Алгоритм PCA как один из популярных Unsupervised алгоритмов ML»
🔹 Зачастую нам приходится проецировать многомерные данные на плоскость либо в пространство меньшей размерности. На открытом уроке вы узнаете, что из себя представляет задача снижения размерности
📌 Результаты урока:
Вы изучите основные техники снижения размерности и изучите метод PCA
👉 РЕГИСТРАЦИЯ
https://otus.pw/NTdB/
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KN7dJ
Оптимизация вашего LLM в производстве
В этом сообщении блога мы рассмотрим наиболее эффективные на момент написания этого сообщения методы решения проблем для эффективного развертывания LLM: https://huggingface.co/blog/optimize-llm
  
  В этом сообщении блога мы рассмотрим наиболее эффективные на момент написания этого сообщения методы решения проблем для эффективного развертывания LLM: https://huggingface.co/blog/optimize-llm
huggingface.co
  
  Optimizing your LLM in production
  We’re on a journey to advance and democratize artificial intelligence through open source and open science.
  This media is not supported in your browser
    VIEW IN TELEGRAM
  Кураторский список интерактивных демонстраций машинного обучения
https://github.com/MilesCranmer/awesome-ml-demos
https://github.com/MilesCranmer/awesome-ml-demos
👍2
  Беспрепятственная интеграция LLM как функций Python
Легко интегрируйте большие языковые модели в свой код Python. Просто используйте @promptдекоратор для создания функций, возвращающих структурированный вывод из LLM. Комбинируйте запросы LLM и вызов функций с обычным кодом Python для создания сложной логики. https://github.com/jackmpcollins/magentic
  
  Легко интегрируйте большие языковые модели в свой код Python. Просто используйте @promptдекоратор для создания функций, возвращающих структурированный вывод из LLM. Комбинируйте запросы LLM и вызов функций с обычным кодом Python для создания сложной логики. https://github.com/jackmpcollins/magentic
GitHub
  
  GitHub - jackmpcollins/magentic: Seamlessly integrate LLMs as Python functions
  Seamlessly integrate LLMs as Python functions. Contribute to jackmpcollins/magentic development by creating an account on GitHub.
  This media is not supported in your browser
    VIEW IN TELEGRAM
  Водяные знаки мертвы. Этот новый метод позволит мгновенно удалять объекты и водяные знаки. 
Сайт проекта: https://shangchenzhou.com/projects/ProPainter
  Сайт проекта: https://shangchenzhou.com/projects/ProPainter
Освоение сегментации клиентов с помощью LLM
К проекту сегментации клиентов можно подойти разными способами. В этой статье я научу вас передовым методам не только определения кластеров, но и анализа результатов. Этот пост предназначен для тех специалистов по данным, которые хотят иметь несколько инструментов для решения проблем кластеризации и быть на шаг ближе к тому, чтобы стать старшим DS. https://towardsdatascience.com/mastering-customer-segmentation-with-llm-3d9008235f41
  
  К проекту сегментации клиентов можно подойти разными способами. В этой статье я научу вас передовым методам не только определения кластеров, но и анализа результатов. Этот пост предназначен для тех специалистов по данным, которые хотят иметь несколько инструментов для решения проблем кластеризации и быть на шаг ближе к тому, чтобы стать старшим DS. https://towardsdatascience.com/mastering-customer-segmentation-with-llm-3d9008235f41
Medium
  
  Mastering Customer Segmentation with LLM
  Unlock advanced customer segmentation techniques using LLMs, and improve your clustering models with advanced techniques
🔥2
  Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации.
Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.
В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.
Читать далее https://habr.com/ru/companies/yandex/articles/763832
  
  Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.
В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.
Читать далее https://habr.com/ru/companies/yandex/articles/763832
Хабр
  
  Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации
  Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший...
  Stable Diffusion: text-to-person.
Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.
Читать далееhttps://habr.com/ru/articles/764700
  
  Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.
Читать далееhttps://habr.com/ru/articles/764700
Хабр
  
  Stable Diffusion: text-to-person
  Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с...
  This media is not supported in your browser
    VIEW IN TELEGRAM
  Представляем программы развития нейронов (NDP). Вместо нейронных сетей с фиксированной архитектурой мы позволяем нейронным сетям расти посредством динамического 🧬🧠процесса самоорганизации, вдохновленного тем, как развиваются биологические нервные системы. PDF 👇
https://arxiv.org/abs/2307.08197
  https://arxiv.org/abs/2307.08197
Нейронные сети для планирования движения беспилотных автомобилей
Планировщик движения беспилотного автомобиля — это алгоритм-помощник, который общается с другими участниками движения посредством манёвров. То есть он действует так, чтобы другим было понятно, куда поедет беспилотник, и сам по действиям других пытается определить, кто куда будет двигаться и почему.
В диалоговых системах совсем недавно произошла революция из-за появления ChatGPT. В беспилотных автомобилях революции, к сожалению, пока не произошло, но если это случится, то как раз в той области, про которую будет мой рассказ.
Под катом — детальный разбор логики движения беспилотника, примеры свёрточных и трансформерных архитектур моделей для предсказания движения и много формул для расчёта вероятных траекторий других машин и пешеходов. А ещё я расскажу, в чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.
https://habr.com/ru/companies/yandex/articles/763348/
  
  Планировщик движения беспилотного автомобиля — это алгоритм-помощник, который общается с другими участниками движения посредством манёвров. То есть он действует так, чтобы другим было понятно, куда поедет беспилотник, и сам по действиям других пытается определить, кто куда будет двигаться и почему.
В диалоговых системах совсем недавно произошла революция из-за появления ChatGPT. В беспилотных автомобилях революции, к сожалению, пока не произошло, но если это случится, то как раз в той области, про которую будет мой рассказ.
Под катом — детальный разбор логики движения беспилотника, примеры свёрточных и трансформерных архитектур моделей для предсказания движения и много формул для расчёта вероятных траекторий других машин и пешеходов. А ещё я расскажу, в чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.
https://habr.com/ru/companies/yandex/articles/763348/
Хабр
  
  Нейронные сети для планирования движения беспилотных автомобилей
  Планировщик движения беспилотного автомобиля — это алгоритм-помощник, который общается с другими участниками движения посредством манёвров. То есть он действует так, чтобы другим было понятно, куда...
  Общие распределения вероятностей, которые встречаются в природе и почему математика является языком Вселенной. 
По сути, закономерности Вселенной повторяются, что делает возможным машинное обучение и искусственный интеллект. По сути, при обучении моделей ML, включая NN, мы пытаемся смоделировать закономерности в данных. Хорошая модель может предсказать невидимые точки данных , которые являются частью исходного распределения данных. Вот общие распределения вероятностей и места их естественного возникновения. https://threadreaderapp.com/thread/1708664380987220427.html
По сути, закономерности Вселенной повторяются, что делает возможным машинное обучение и искусственный интеллект. По сути, при обучении моделей ML, включая NN, мы пытаемся смоделировать закономерности в данных. Хорошая модель может предсказать невидимые точки данных , которые являются частью исходного распределения данных. Вот общие распределения вероятностей и места их естественного возникновения. https://threadreaderapp.com/thread/1708664380987220427.html
👍1