Big data world
2.37K subscribers
412 photos
64 videos
18 files
1.25K links
Интересные статьи Data Science : Big Data : Machine Learning : Deep Learning

По вопросам сотрудничества- @Daily_admin_info

По иным темам @un_ixtime
Download Telegram
Обучение LLM: RLHF и его альтернативы

Я часто ссылаюсь на процесс под названием «Обучение с подкреплением с обратной связью с человеком» (RLHF) при обсуждении LLM, будь то в исследовательских новостях или в учебных пособиях. RLHF является неотъемлемой частью современного процесса обучения LLM благодаря своей способности учитывать человеческие предпочтения в среде оптимизации, что может повысить полезность и безопасность модели.

В этой статье я пошагово разберу RLHF

https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives
📝Построение моделей на основе SQL в MLflow для оптимизированного управления жизненным циклом машинного обучения

Пошаговое руководство по интеграции моделей SQL в экосистему MLflow

https://levelup.gitconnected.com/bridging-the-gap-constructing-sql-based-models-in-mlflow-for-streamlined-ml-lifecycle-management-f7c4b9e4e667

📝Точная настройка больших языковых моделей (LLM)

https://towardsdatascience.com/fine-tuning-large-language-models-llms-23473d763b91
Концептуальный обзор с примером кода Python
👍2
В последнее время HN проявляет большой интерес к тонкой настройке LLM с открытым исходным кодом. Я несколько лет экспериментировал с тонкой настройкой моделей и хотел поделиться некоторыми идеями и практическим кодом. Я собрал все, что узнал, в небольшой набор блокнотов по адресу

https://github.com/OpenPipe/OpenPipe/tree/main/examples/classify-recipes
Media is too big
VIEW IN TELEGRAM
Новая модель сегментации видео для "отслеживания чего угодно" без обучения по видео для любой отдельной задачи.

🖥 Github: https://github.com/hkchengrex/Tracking-Anything-with-DEVA

🖥 Colab: https://colab.research.google.com/drive/1OsyNVoV_7ETD1zIE8UWxL3NXxu12m_YZ?usp=sharing

Project: https://hkchengrex.github.io/Tracking-Anything-with-DEVA/

📕 Paper: https://arxiv.org/abs/2309.03903v1

⭐️ Docs: https://paperswithcode.com/dataset/burst
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Создание модели линейной регрессии в Python

В этом посте я создам модель линейной регрессии, используя библиотеку scipy , и сравню эту модель с моделью линейной регрессии, найденной в библиотеке sklearn . Конечно, наша цель здесь — не конкурировать с библиотекой sklearn, однако по мере построения модели вы узнаете больше о том, как работает линейная регрессия и лежащая в ее основе динамика. https://medium.com/@ozzgur.sanli/creating-a-linear-regression-model-in-python-c5ee20b50aec
Комплексное руководство по созданию приложений LLM на основе RAG

https://github.com/ray-project/llm-applications/blob/main/notebooks/rag.ipynb
Создаём субтитры для любого видео в интернете с помощью нейросети в браузере.

Довольно часто пользователи смотрят видео с субтитрами, и тому есть разные причины. Например, кто-то хочет посмотреть видео там, где нужно соблюдать тишину или, наоборот, где слишком шумно. Или пользователь включает субтитры, когда ему непонятно, что говорит спикер. Для слабослышащих людей субтитры — это один из немногих способов ознакомиться с содержанием видеороликов.

Но чаще всего включить субтитры в видеоплеере сайта доступны, только когда владелец веб-ресурса предусмотрел такую возможность. Яндекс Браузер решил эту проблему: он научился самостоятельно генерировать субтитры для видео на русском языке. Новая функция работает на любых сайтах: видеохостинги, социальные сети, страницы телеканалов. Также субтитры работают для роликов, которые доступны только после авторизации или загружены в облачные хранилища. Это стало возможным благодаря нейросети, встроенной в десктопную версию Браузера.

В этой статье я расскажу, как мы построили модель для генерации субтитров и на что нам пришлось пойти, чтобы она стала потреблять в 5 раз меньше оперативной памяти. А ещё поговорим про квантизацию свёрток и трансформеров и почему fp16 не так прост, как кажется.

Читать далее https://habr.com/ru/companies/yandex/articles/758782/
Разработка систем генеративного ИИ на базе ML Platform: создаем конкурента ChatGPT без миллионных инвестиций.

2023-й — однозначно год генеративного искусственного интеллекта и сервисов на его основе, которые используют в разных кейсах и сценариях. Но даже при этом для многих сфера генеративного ИИ остается на уровне пользовательского интереса. Это упущение, ведь потенциал GPT-моделей и им подобных не ограничен поиском ответов на классические вопросы и даже ассистированием в процессе разработки. А их создание не относится к числу нерешаемых задач тысячелетия. GPT — технология, которую можно приручить, и это проще, чем кажется.

Читать дальше →https://habr.com/ru/companies/vk/articles/761092
Классические уравнения и диаграммы в машинном обучении

https://github.com/soulmachine/machine-learning-cheat-sheet
Платформа для анализа данных за вечер.

Текущее состояние российского рынка аналитических и ML-решений сложно назвать стабильным. Какие-то инструменты более недоступны, а на их место регулярно приходят новые. Причем не только вендорские, но еще и open source, а также облачные сервисы.

Инструменты «из коробки» не всегда подходят для решения всех необходимых задач. Какие-то слишком сложны для базовой аналитики, другие стоят больших денег, третьи заточены под определенный тип данных или более узкие задачи.

Один из набирающих популярность вариантов — собрать собственное решение, можно сказать, небольшую платформу данных. Варианты могут быть разнообразные — от разработки софта до интеграции готовых open source-элементов. Касаться первого варианта сегодня бы не хотелось, а вот второй рассмотрим подробнее.

В статье рассказываем, как всего за час (или почти) подготовить облачное окружение, создать свою небольшую платформу для анализа данных и спарсить весь Hugging Face.

Читать дальше →https://habr.com/ru/companies/selectel/articles/761948
This media is not supported in your browser
VIEW IN TELEGRAM
Это такой впечатляющий набор данных. Пакет Python Leafmap теперь поддерживает загрузку Google Open Buildings, крупнейшего набора данных о зданиях, для любой страны с помощью всего лишь одной строки кода

https://github.com/opengeos/leafmap

https://leafmap.org/notebooks/81_buildings/
This media is not supported in your browser
VIEW IN TELEGRAM
Самая впечатляющая статья, которую я видел на этой неделе.

Generative Image Dynamics преобразует неподвижные изображения в видео или интерактивные сцены. Команда Google обучила модель, используя набор данных траекторий движения из реальных видеороликов естественных колебательных движений

https://generative-dynamics.github.io/
От логики и риторики до теории множеств и матанализа. Полезные материалы по Data Science и машинному обучению.

Привет, Хабр! Меня все еще зовут Ефим, и я все еще MLOps-инженер в отделе Data- и ML-продуктов Selectel. В предыдущей статье я кратко рассказал про основные ресурсы, которые могут помочь начинающему специалисту ворваться в бурлящий котел Data Science. Но после выхода материала я понял, что задача систематизации знаний гораздо сложнее, чем казалось. Настолько, что проиллюстрировать ее можно только табличкой ниже:

В этом тексте хочу исправиться: разбить знания по Data Science и машинному обучению на несколько теоретических блоков и дать больше полезных материалов. Подробности под катом! Читать дальше →https://habr.com/ru/companies/selectel/articles/762098
❗️ Как стать высокооплачиваемым специалистом в ML?

👉 Совершенствуй мастерство ML в сообществе единомышленников на открытом уроке 26 сентября в 20:00 мск — «Алгоритм PCA как один из популярных Unsupervised алгоритмов ML»

🔹 Зачастую нам приходится проецировать многомерные данные на плоскость либо в пространство меньшей размерности. На открытом уроке вы узнаете, что из себя представляет задача снижения размерности

📌 Результаты урока:

Вы изучите основные техники снижения размерности и изучите метод PCA

👉 РЕГИСТРАЦИЯ

https://otus.pw/NTdB/

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: LjN8KN7dJ
Оптимизация вашего LLM в производстве

В этом сообщении блога мы рассмотрим наиболее эффективные на момент написания этого сообщения методы решения проблем для эффективного развертывания LLM: https://huggingface.co/blog/optimize-llm
This media is not supported in your browser
VIEW IN TELEGRAM
Кураторский список интерактивных демонстраций машинного обучения

https://github.com/MilesCranmer/awesome-ml-demos
👍2
Беспрепятственная интеграция LLM как функций Python

Легко интегрируйте большие языковые модели в свой код Python. Просто используйте @promptдекоратор для создания функций, возвращающих структурированный вывод из LLM. Комбинируйте запросы LLM и вызов функций с обычным кодом Python для создания сложной логики. https://github.com/jackmpcollins/magentic
This media is not supported in your browser
VIEW IN TELEGRAM
Водяные знаки мертвы. Этот новый метод позволит мгновенно удалять объекты и водяные знаки.

Сайт проекта: https://shangchenzhou.com/projects/ProPainter
Освоение сегментации клиентов с помощью LLM

К проекту сегментации клиентов можно подойти разными способами. В этой статье я научу вас передовым методам не только определения кластеров, но и анализа результатов. Этот пост предназначен для тех специалистов по данным, которые хотят иметь несколько инструментов для решения проблем кластеризации и быть на шаг ближе к тому, чтобы стать старшим DS. https://towardsdatascience.com/mastering-customer-segmentation-with-llm-3d9008235f41
🔥2