Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как построить полностью автоматизированный конвейер обнаружения отклонения данных

Статья, в которой объясняется, как разработать рабочий процесс, который обнаруживает отклонение данных, уведомляет группу обработки данных и запускает переобучение модели с помощью Kestra, библиотеки с открытым исходным кодом.

Читать статью

🔥5

3.13K views18:34

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Почему вам (вероятно) не нужно настраивать LLM

Люди часто сталкиваются с проблемами с LLM базовой модели — «модель не дала того, что я хотел», или «модель галлюцинировала, ее ответ не имеет смысла», или «модель ничего не знает об Y, потому что не была обучена этому». Иногда люди обращаются к довольно сложному методу, называемому тонкой настройкой, в надежде, что он решит все вышеперечисленные проблемы. В этом посте автор говорит о том, почему вашему приложению, вероятно, не нужна тонкая настройка.

Читать статью

👍2

2.83K views08:31

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Очередной #дайджест по Python:

🐍 Чтобы ускорить работу Numba и кода NumPy, нужно понять, как работают процессоры
Автор учит ускорять код вплоть до 25 раз по сравнению с первоначальной версией.

🐍 Метаданные как обезбол при миграции
Почему и зачем они пригодятся.

🐍 Строим пайплайн в sсikit-learn — пошаговое руководство
Как построить пайплайн в библиотеке scikit-learn на базе встроенных инструментов и сократить количество кода при преобразовании данных.

🐍Разработка RESTful API на Python с помощью HappyX

🐍 BI-аналитика на коленке: делаем веб-аналитику в DataLens
Автор делится рабочим опытом создания аналитики.

👍2

2.72K views18:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека программиста | программирование, кодинг, разработка

🤖 Generative AI: как ускорить разработку с помощью Github Copilot и Databricks English SDK

Давайте разберемся, что же могут помощники и SDK, а чего от них ожидать еще рано. Рассмотрим наиболее популярные решения от Github и Databricks: варианты использования и их ограничения. Также поговорим о перспективах профессии AI-инженера.

🔗 Читать статью
🔗 Зеркало

👍4

2.45K views07:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Понимание автоматической дифференциации в 30 строках Python

В этой статье автор пробует итеративно построить простейший код для автоматического вычисления производных по скалярам.

Читать статью

👍1

2.91K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Создайте свой клон с помощью Fine-tuned LLM

Цель этой статьи — показать, как эффективно и с минимальными затратами настроить LLM на пользовательском датасете. Мы рассмотрим использование модели Falcon-7B с адаптерами LoRa, с использованием библиотеки Lit-GPT.

Читать статью

👍5🔥3

2.97K views07:26

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как интерпретируется термин смещения в линейных моделях?

Смещение — это просто разница между прогнозируемым значением и фактическим/истинным значением. Его можно интерпретировать как расстояние от среднего прогноза и истинного значения, т.е. истинное значение минус среднее значение (прогнозы). Но не путайте точность и смещение.
#вопросы_с_собеседований

👍2

3.04K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Алгебраическая топология для специалистов по данным

Эта книга дает подробное введение в топологический анализ данных, применение алгебраической топологии в науке о данных.

Читать статью

❤3

3.02K views07:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬🦙 LlamaIndex: создаем чат-бота без боли и страданий. Часть 2

Продолжаем изучать фреймворк для создания AI-ботов. В этой части узнаем про тонкости индексирования собственной базы документов.

🔗Читать статью

🔥3

17.1K views14:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Создание файлов шаблонов с помощью R

Если вы регулярно копируете и вставляете контент между файлами, вы можете использовать R, чтобы сделать это за вас! Для повторяющихся задач, которые вы не можете полностью автоматизировать, использование файлов шаблонов — отличный способ сэкономить время, и в этом посте описано, как их выполнить в R.

Читать статью

2.89K views18:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие могут быть опасности при работе с LLM и как защитить решения, основанные на них?

На этот вопрос ответят ребята из VK в своем онлайн-семинаре Adversarial Prompting and Jailbreaking of LLMs.

Регистрация

2.73K views06:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Overdetection или SFTE. Другие возможности применения YOLO

В этой статье описан подход (идея), как при помощи детектирующей нейросети решать более сложные задачи, чем детекция. Идея, лежащая в основе: давайте решать не задачу детекции объекта, а задачу детекции ситуации. Причем, вместо того, чтобы конструировать новую нейросетевую архитектуру, мы будем конструировать входящий кадр. А решать саму задачу будем при помощи стандартных предобученных сетей.

Читать статью

👍3

2.74K views09:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Очередной #дайджест по Python:

🐍 Профилирование Python — почему и где тормозит ваш код
Почему скрипт работает так медленно? Какая его часть тормозит? Дело в чтении данных, их обработке или сохранении? Как ускорить исполнение? Действительно ли скрипт вообще медленный? Ответить на все эти вопросы поможет инструмент под названием «профилировщик» (profiler).

🐍 Анализ текстовых данных с использованием тематического моделирования
Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду.

🐍 Разбираемся в «базовых» алгоритмах для высоконагруженного проекта
Автор собрал примерный список алгоритмов, которые использует в работе с высоконагруженным проектом с большой кодовой базой.

🐍Использование конечных автоматов с несколькими активными состояниями для автоматизации бизнес-процессов
Необычная статья про слияние теории ведения бизнеса и программирования.

🐍 JSON и XML для новичков
Практическое введение в тему.

👍4

2.92K views11:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Любите ли вы писать тесты? Или считаете эту работу слишком скучной и бесполезной?
#интерактив

2.98K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

aquarel: стилизация Matplotlib стала проще

Aquarel — это легкий механизм создания шаблонов и оболочка вокруг rcparams, упрощающая стилизацию графиков. Шаблоны Aquarel можно определять программно, сериализовать и публиковать в формате JSON.

Открыть репозиторий

👍8

3.15K views07:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие проблемы могут решить нейронные сети?

Нейронные сети хороши для решения нелинейных задач. Хорошими примерами являются задачи, которые относительно просты для людей (из-за опыта, интуиции, понимания и т. д.), но сложны для традиционных моделей регрессии: распознавание речи, распознавание рукописного текста, идентификация изображений и т. д.
#вопросы_с_собеседований

2.96K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧮 Большие языковые модели: стоит ли бояться больших калькуляторов?

Разберём, можно ли считать большие языковые модели разумными (и почему ответ — нет).

Читать статью

👍2❤1

13.3K views07:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Делаем LLM легче с помощью AutoGPTQ и трансформаторов

Сообщение в блоге, в котором представлена интеграция библиотеки AutoGPTQ в Transformers, позволяющая квантовать LLM с помощью метода GPTQ.

Читать статью

🔥3👍2❤1

3.14K views11:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Часто ли вы прибегаете к помощи нейросетей в работе?
#интерактив

2.78K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍1

2.59K views07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧐

Почему детектирование — самая недооцененная часть обработки речи

Но при этом одна из самых важных

👉 VAD (voice activity detection) — модель детектирования человеческой речи на аудио сигналах, характеристики которой во многом определяют качество работы всей системы.

Легче всего в этом убедиться на примере умной колонки. В ней обычно задействованы все три основные речевые модели: детектирование, распознавание и синтез. VAD работает в фоне, по его результатам активируется модель ASR (automatic speech recognition) и, затем, синтез. Соответственно, чем больше ресурсов потребляет фоновый VAD, тем меньше их остается основным моделям. Так же и с качеством: детектирование не всей речи напрямую сказывается на результатах распознавания, а если детектируются лишние звуки, то ASR работает дольше и увеличивается время на ответ пользователю.

➡️Несмотря на это, по запросам voice activity detection, speech to text, speech synthesis на arxiv находится 58, 539 и 427 статей соответственно. Почему не смотря на свою важность, детектирование практически в 10 раз менее популярно, чем распознавание и синтез?

1. Ограниченность в ресурсах

На VAD всегда ставится много ограничений: обработка в режиме реального времени, высокие показатели полноты детектирования, работа модели в фоновом режиме и тд. Поэтому исследователям часто интереснее заниматься обучением моделей в других задачах с большей нацеленностью на качество обучения, а в детектировании использовать классические алгоритмы, не требующие больших затрат оперативной памяти.

2. Невидимость для пользователей

В большинстве случаев пользователи взаимодействуют с голосовыми интерфейсами, приложениями или системами распознавания речи, в которых не виден сам процесс детектирования речи, из-за чего создается впечатление, что эта часть менее значима.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

2.87K viewsedited 07:03

About

Blog

Apps

Platform