Big data world
2.37K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Создаём субтитры для любого видео в интернете с помощью нейросети в браузере.

Довольно часто пользователи смотрят видео с субтитрами, и тому есть разные причины. Например, кто-то хочет посмотреть видео там, где нужно соблюдать тишину или, наоборот, где слишком шумно. Или пользователь включает субтитры, когда ему непонятно, что говорит спикер. Для слабослышащих людей субтитры — это один из немногих способов ознакомиться с содержанием видеороликов.

Но чаще всего включить субтитры в видеоплеере сайта доступны, только когда владелец веб-ресурса предусмотрел такую возможность. Яндекс Браузер решил эту проблему: он научился самостоятельно генерировать субтитры для видео на русском языке. Новая функция работает на любых сайтах: видеохостинги, социальные сети, страницы телеканалов. Также субтитры работают для роликов, которые доступны только после авторизации или загружены в облачные хранилища. Это стало возможным благодаря нейросети, встроенной в десктопную версию Браузера.

В этой статье я расскажу, как мы построили модель для генерации субтитров и на что нам пришлось пойти, чтобы она стала потреблять в 5 раз меньше оперативной памяти. А ещё поговорим про квантизацию свёрток и трансформеров и почему fp16 не так прост, как кажется.

Читать далее https://habr.com/ru/companies/yandex/articles/758782/
Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций.

2023-й — однозначно год генеративного искусственного интеллекта и сервисов на его основе, которые используют в разных кейсах и сценариях. Но даже при этом для многих сфера генеративного ИИ остается на уровне пользовательского интереса. Это упущение, ведь потенциал GPT-моделей и им подобных не ограничен поиском ответов на классические вопросы и даже ассистированием в процессе разработки. А их создание не относится к числу нерешаемых задач тысячелетия. GPT — технология, которую можно приручить, и это проще, чем кажется.

Читать дальше →https://habr.com/ru/companies/vk/articles/761092
Классические уравнения и диаграммы в машинном обучении

https://github.com/soulmachine/machine-learning-cheat-sheet
Платформа для анализа данных за вечер.

Текущее состояние российского рынка аналитических и ML-решений сложно назвать стабильным. Какие-то инструменты более недоступны, а на их место регулярно приходят новые. Причем не только вендорские, но еще и open source, а также облачные сервисы.

Инструменты «из коробки» не всегда подходят для решения всех необходимых задач. Какие-то слишком сложны для базовой аналитики, другие стоят больших денег, третьи заточены под определенный тип данных или более узкие задачи.

Один из набирающих популярность вариантов — собрать собственное решение, можно сказать, небольшую платформу данных. Варианты могут быть разнообразные — от разработки софта до интеграции готовых open source-элементов. Касаться первого варианта сегодня бы не хотелось, а вот второй рассмотрим подробнее.

В статье рассказываем, как всего за час (или почти) подготовить облачное окружение, создать свою небольшую платформу для анализа данных и спарсить весь Hugging Face.

Читать дальше →https://habr.com/ru/companies/selectel/articles/761948
This media is not supported in your browser
VIEW IN TELEGRAM
Это такой впечатляющий набор данных. Пакет Python Leafmap теперь поддерживает загрузку Google Open Buildings, крупнейшего набора данных о зданиях, для любой страны с помощью всего лишь одной строки кода

https://github.com/opengeos/leafmap

https://leafmap.org/notebooks/81_buildings/
This media is not supported in your browser
VIEW IN TELEGRAM
Самая впечатляющая статья, которую я видел на этой неделе.

Generative Image Dynamics преобразует неподвижные изображения в видео или интерактивные сцены. Команда Google обучила модель, используя набор данных траекторий движения из реальных видеороликов естественных колебательных движений

https://generative-dynamics.github.io/
От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению.

Привет, Хабр! Меня все еще зовут Ефим, и я все еще MLOps-инженер в отделе Data- и ML-продуктов Selectel. В предыдущей статье я кратко рассказал про основные ресурсы, которые могут помочь начинающему специалисту ворваться в бурлящий котел Data Science. Но после выхода материала я понял, что задача систематизации знаний гораздо сложнее, чем казалось. Настолько, что проиллюстрировать ее можно только табличкой ниже:

В этом тексте хочу исправиться: разбить знания по Data Science и машинному обучению на несколько теоретических блоков и дать больше полезных материалов. Подробности под катом! Читать дальше →https://habr.com/ru/companies/selectel/articles/762098
❗️ Как стать высокооплачиваемым специалистом в ML?

👉 Совершенствуй мастерство ML в сообществе единомышленников на открытом уроке 26 сентября в 20:00 мск — «Алгоритм PCA как один из популярных Unsupervised алгоритмов ML»

🔹 Зачастую нам приходится проецировать многомерные данные на плоскость либо в пространство меньшей размерности. На открытом уроке вы узнаете, что из себя представляет задача снижения размерности

📌 Результаты урока:

Вы изучите основные техники снижения размерности и изучите метод PCA

👉 РЕГИСТРАЦИЯ

https://otus.pw/NTdB/

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KN7dJ
Оптимизация вашего LLM в производстве

В этом сообщении блога мы рассмотрим наиболее эффективные на момент написания этого сообщения методы решения проблем для эффективного развертывания LLM: https://huggingface.co/blog/optimize-llm
This media is not supported in your browser
VIEW IN TELEGRAM
Кураторский список интерактивных демонстраций машинного обучения

https://github.com/MilesCranmer/awesome-ml-demos
👍2
Беспрепятственная интеграция LLM как функций Python

Легко интегрируйте большие языковые модели в свой код Python. Просто используйте @promptдекоратор для создания функций, возвращающих структурированный вывод из LLM. Комбинируйте запросы LLM и вызов функций с обычным кодом Python для создания сложной логики. https://github.com/jackmpcollins/magentic
This media is not supported in your browser
VIEW IN TELEGRAM
Водяные знаки мертвы. Этот новый метод позволит мгновенно удалять объекты и водяные знаки.

Сайт проекта: https://shangchenzhou.com/projects/ProPainter
Освоение сегментации клиентов с помощью LLM

К проекту сегментации клиентов можно подойти разными способами. В этой статье я научу вас передовым методам не только определения кластеров, но и анализа результатов. Этот пост предназначен для тех специалистов по данным, которые хотят иметь несколько инструментов для решения проблем кластеризации и быть на шаг ближе к тому, чтобы стать старшим DS. https://towardsdatascience.com/mastering-customer-segmentation-with-llm-3d9008235f41
🔥2
Яндекс Карты открывают крупнейший русскоязычный датасет отзывов на организации.

Сегодня мы хотим поделиться новостью для всех, кто занимается анализом данных в области лингвистики и машинного обучения. Яндекс выкладывает в открытый доступ крупнейший русскоязычный датасет отзывов об организациях, опубликованных на Яндекс Картах. Это 500 тысяч отзывов со всей России с января по июль 2023 года.

В этой статье я расскажу, чем полезны отзывы с точки зрения исследований, в чём особенность этого датасета, а также покажу примеры задач, которые можно решать с его помощью.

Читать далее https://habr.com/ru/companies/yandex/articles/763832
Компьютерное зрение в браузере менее чем за 10 строк JavaScript🔥
Stable Diffusion: text-to-person.

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.

Читать далееhttps://habr.com/ru/articles/764700
This media is not supported in your browser
VIEW IN TELEGRAM
Представляем программы развития нейронов (NDP). Вместо нейронных сетей с фиксированной архитектурой мы позволяем нейронным сетям расти посредством динамического 🧬🧠процесса самоорганизации, вдохновленного тем, как развиваются биологические нервные системы. PDF 👇
https://arxiv.org/abs/2307.08197
Нейронные сети для планирования движения беспилотных автомобилей

Планировщик движения беспилотного автомобиля — это алгоритм-помощник, который общается с другими участниками движения посредством манёвров. То есть он действует так, чтобы другим было понятно, куда поедет беспилотник, и сам по действиям других пытается определить, кто куда будет двигаться и почему.

В диалоговых системах совсем недавно произошла революция из-за появления ChatGPT. В беспилотных автомобилях революции, к сожалению, пока не произошло, но если это случится, то как раз в той области, про которую будет мой рассказ.

Под катом — детальный разбор логики движения беспилотника, примеры свёрточных и трансформерных архитектур моделей для предсказания движения и много формул для расчёта вероятных траекторий других машин и пешеходов. А ещё я расскажу, в чём преимущества машинного обучения перед эвристиками и чем может помочь Reinforcement Learning.

https://habr.com/ru/companies/yandex/articles/763348/
Общие распределения вероятностей, которые встречаются в природе и почему математика является языком Вселенной.

По сути, закономерности Вселенной повторяются, что делает возможным машинное обучение и искусственный интеллект. По сути, при обучении моделей ML, включая NN, мы пытаемся смоделировать закономерности в данных. Хорошая модель может предсказать невидимые точки данных , которые являются частью исходного распределения данных. Вот общие распределения вероятностей и места их естественного возникновения. https://threadreaderapp.com/thread/1708664380987220427.html
👍1