Очередной #дайджест по Python:
🐍 Чтобы ускорить работу Numba и кода NumPy, нужно понять, как работают процессоры
Автор учит ускорять код вплоть до 25 раз по сравнению с первоначальной версией.
🐍 Метаданные как обезбол при миграции
Почему и зачем они пригодятся.
🐍 Строим пайплайн в sсikit-learn — пошаговое руководство
Как построить пайплайн в библиотеке scikit-learn на базе встроенных инструментов и сократить количество кода при преобразовании данных.
🐍Разработка RESTful API на Python с помощью HappyX
🐍 BI-аналитика на коленке: делаем веб-аналитику в DataLens
Автор делится рабочим опытом создания аналитики.
🐍 Чтобы ускорить работу Numba и кода NumPy, нужно понять, как работают процессоры
Автор учит ускорять код вплоть до 25 раз по сравнению с первоначальной версией.
🐍 Метаданные как обезбол при миграции
Почему и зачем они пригодятся.
🐍 Строим пайплайн в sсikit-learn — пошаговое руководство
Как построить пайплайн в библиотеке scikit-learn на базе встроенных инструментов и сократить количество кода при преобразовании данных.
🐍Разработка RESTful API на Python с помощью HappyX
🐍 BI-аналитика на коленке: делаем веб-аналитику в DataLens
Автор делится рабочим опытом создания аналитики.
👍2
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🤖 Generative AI: как ускорить разработку с помощью Github Copilot и Databricks English SDK
Давайте разберемся, что же могут помощники и SDK, а чего от них ожидать еще рано. Рассмотрим наиболее популярные решения от Github и Databricks: варианты использования и их ограничения. Также поговорим о перспективах профессии AI-инженера.
🔗 Читать статью
🔗 Зеркало
Давайте разберемся, что же могут помощники и SDK, а чего от них ожидать еще рано. Рассмотрим наиболее популярные решения от Github и Databricks: варианты использования и их ограничения. Также поговорим о перспективах профессии AI-инженера.
🔗 Читать статью
🔗 Зеркало
👍4
Понимание автоматической дифференциации в 30 строках Python
В этой статье автор пробует итеративно построить простейший код для автоматического вычисления производных по скалярам.
Читать статью
В этой статье автор пробует итеративно построить простейший код для автоматического вычисления производных по скалярам.
Читать статью
👍1
Создайте свой клон с помощью Fine-tuned LLM
Цель этой статьи — показать, как эффективно и с минимальными затратами настроить LLM на пользовательском датасете. Мы рассмотрим использование модели Falcon-7B с адаптерами LoRa, с использованием библиотеки Lit-GPT.
Читать статью
Цель этой статьи — показать, как эффективно и с минимальными затратами настроить LLM на пользовательском датасете. Мы рассмотрим использование модели Falcon-7B с адаптерами LoRa, с использованием библиотеки Lit-GPT.
Читать статью
👍5🔥3
Как интерпретируется термин смещения в линейных моделях?
Смещение — это просто разница между прогнозируемым значением и фактическим/истинным значением. Его можно интерпретировать как расстояние от среднего прогноза и истинного значения, т.е. истинное значение минус среднее значение (прогнозы). Но не путайте точность и смещение.
#вопросы_с_собеседований
Смещение — это просто разница между прогнозируемым значением и фактическим/истинным значением. Его можно интерпретировать как расстояние от среднего прогноза и истинного значения, т.е. истинное значение минус среднее значение (прогнозы). Но не путайте точность и смещение.
#вопросы_с_собеседований
👍2
Алгебраическая топология для специалистов по данным
Эта книга дает подробное введение в топологический анализ данных, применение алгебраической топологии в науке о данных.
Читать статью
Эта книга дает подробное введение в топологический анализ данных, применение алгебраической топологии в науке о данных.
Читать статью
❤3
💬🦙 LlamaIndex: создаем чат-бота без боли и страданий. Часть 2
Продолжаем изучать фреймворк для создания AI-ботов. В этой части узнаем про тонкости индексирования собственной базы документов.
🔗Читать статью
Продолжаем изучать фреймворк для создания AI-ботов. В этой части узнаем про тонкости индексирования собственной базы документов.
🔗Читать статью
🔥3
Создание файлов шаблонов с помощью R
Если вы регулярно копируете и вставляете контент между файлами, вы можете использовать R, чтобы сделать это за вас! Для повторяющихся задач, которые вы не можете полностью автоматизировать, использование файлов шаблонов — отличный способ сэкономить время, и в этом посте описано, как их выполнить в R.
Читать статью
Если вы регулярно копируете и вставляете контент между файлами, вы можете использовать R, чтобы сделать это за вас! Для повторяющихся задач, которые вы не можете полностью автоматизировать, использование файлов шаблонов — отличный способ сэкономить время, и в этом посте описано, как их выполнить в R.
Читать статью
Какие могут быть опасности при работе с LLM и как защитить решения, основанные на них?
На этот вопрос ответят ребята из VK в своем онлайн-семинаре Adversarial Prompting and Jailbreaking of LLMs.
Регистрация
На этот вопрос ответят ребята из VK в своем онлайн-семинаре Adversarial Prompting and Jailbreaking of LLMs.
Регистрация
Overdetection или SFTE. Другие возможности применения YOLO
В этой статье описан подход (идея), как при помощи детектирующей нейросети решать более сложные задачи, чем детекция. Идея, лежащая в основе: давайте решать не задачу детекции объекта, а задачу детекции ситуации. Причем, вместо того, чтобы конструировать новую нейросетевую архитектуру, мы будем конструировать входящий кадр. А решать саму задачу будем при помощи стандартных предобученных сетей.
Читать статью
В этой статье описан подход (идея), как при помощи детектирующей нейросети решать более сложные задачи, чем детекция. Идея, лежащая в основе: давайте решать не задачу детекции объекта, а задачу детекции ситуации. Причем, вместо того, чтобы конструировать новую нейросетевую архитектуру, мы будем конструировать входящий кадр. А решать саму задачу будем при помощи стандартных предобученных сетей.
Читать статью
👍3
Очередной #дайджест по Python:
🐍 Профилирование Python — почему и где тормозит ваш код
Почему скрипт работает так медленно? Какая его часть тормозит? Дело в чтении данных, их обработке или сохранении? Как ускорить исполнение? Действительно ли скрипт вообще медленный? Ответить на все эти вопросы поможет инструмент под названием «профилировщик» (profiler).
🐍 Анализ текстовых данных с использованием тематического моделирования
Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду.
🐍 Разбираемся в «базовых» алгоритмах для высоконагруженного проекта
Автор собрал примерный список алгоритмов, которые использует в работе с высоконагруженным проектом с большой кодовой базой.
🐍Использование конечных автоматов с несколькими активными состояниями для автоматизации бизнес-процессов
Необычная статья про слияние теории ведения бизнеса и программирования.
🐍 JSON и XML для новичков
Практическое введение в тему.
🐍 Профилирование Python — почему и где тормозит ваш код
Почему скрипт работает так медленно? Какая его часть тормозит? Дело в чтении данных, их обработке или сохранении? Как ускорить исполнение? Действительно ли скрипт вообще медленный? Ответить на все эти вопросы поможет инструмент под названием «профилировщик» (profiler).
🐍 Анализ текстовых данных с использованием тематического моделирования
Анализ текстовых данных становится все более важным в наше время, когда огромные объемы информации генерируются и обмениваются каждую секунду.
🐍 Разбираемся в «базовых» алгоритмах для высоконагруженного проекта
Автор собрал примерный список алгоритмов, которые использует в работе с высоконагруженным проектом с большой кодовой базой.
🐍Использование конечных автоматов с несколькими активными состояниями для автоматизации бизнес-процессов
Необычная статья про слияние теории ведения бизнеса и программирования.
🐍 JSON и XML для новичков
Практическое введение в тему.
👍4
Любите ли вы писать тесты? Или считаете эту работу слишком скучной и бесполезной?
#интерактив
#интерактив
aquarel: стилизация Matplotlib стала проще
Aquarel — это легкий механизм создания шаблонов и оболочка вокруг rcparams, упрощающая стилизацию графиков. Шаблоны Aquarel можно определять программно, сериализовать и публиковать в формате JSON.
Открыть репозиторий
Aquarel — это легкий механизм создания шаблонов и оболочка вокруг rcparams, упрощающая стилизацию графиков. Шаблоны Aquarel можно определять программно, сериализовать и публиковать в формате JSON.
Открыть репозиторий
👍8
Какие проблемы могут решить нейронные сети?
Нейронные сети хороши для решения нелинейных задач. Хорошими примерами являются задачи, которые относительно просты для людей (из-за опыта, интуиции, понимания и т. д.), но сложны для традиционных моделей регрессии: распознавание речи, распознавание рукописного текста, идентификация изображений и т. д.
#вопросы_с_собеседований
Нейронные сети хороши для решения нелинейных задач. Хорошими примерами являются задачи, которые относительно просты для людей (из-за опыта, интуиции, понимания и т. д.), но сложны для традиционных моделей регрессии: распознавание речи, распознавание рукописного текста, идентификация изображений и т. д.
#вопросы_с_собеседований
🧮 Большие языковые модели: стоит ли бояться больших калькуляторов?
Разберём, можно ли считать большие языковые модели разумными (и почему ответ — нет).
Читать статью
Разберём, можно ли считать большие языковые модели разумными (и почему ответ — нет).
Читать статью
👍2❤1
Делаем LLM легче с помощью AutoGPTQ и трансформаторов
Сообщение в блоге, в котором представлена интеграция библиотеки AutoGPTQ в Transformers, позволяющая квантовать LLM с помощью метода GPTQ.
Читать статью
Сообщение в блоге, в котором представлена интеграция библиотеки AutoGPTQ в Transformers, позволяющая квантовать LLM с помощью метода GPTQ.
Читать статью
🔥3👍2❤1
Часто ли вы прибегаете к помощи нейросетей в работе?
#интерактив
#интерактив
Но при этом одна из самых важных
Легче всего в этом убедиться на примере умной колонки. В ней обычно задействованы все три основные речевые модели: детектирование, распознавание и синтез. VAD работает в фоне, по его результатам активируется модель ASR (automatic speech recognition) и, затем, синтез. Соответственно, чем больше ресурсов потребляет фоновый VAD, тем меньше их остается основным моделям. Так же и с качеством: детектирование не всей речи напрямую сказывается на результатах распознавания, а если детектируются лишние звуки, то ASR работает дольше и увеличивается время на ответ пользователю.
1. Ограниченность в ресурсах
На VAD всегда ставится много ограничений: обработка в режиме реального времени, высокие показатели полноты детектирования, работа модели в фоновом режиме и тд. Поэтому исследователям часто интереснее заниматься обучением моделей в других задачах с большей нацеленностью на качество обучения, а в детектировании использовать классические алгоритмы, не требующие больших затрат оперативной памяти.
2. Невидимость для пользователей
В большинстве случаев пользователи взаимодействуют с голосовыми интерфейсами, приложениями или системами распознавания речи, в которых не виден сам процесс детектирования речи, из-за чего создается впечатление, что эта часть менее значима.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
-35% на самый хардкорный курс по вышмату!
🌟 «Математика для Data Science» 🌟
19 490 рублей29 990 рублей до 5 сентября
Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
🔥 Переходите и активируйте пробную версию курса – https://proglib.io/w/f95360e1
🌟 «Математика для Data Science» 🌟
19 490 рублей
Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
🔥 Переходите и активируйте пробную версию курса – https://proglib.io/w/f95360e1
❤1👾1
Дайджест ресурсов для построения модели детектирования речи
- Одна из прорывных статей по VAD за последние 10 лет. За основу архитектуры взяты слои GRU и CNN, есть быстрая версия, работающая на сыром оцифрованном потоке и более качественная, с предварительным мел-спектрограммным преобразованием.
- Репозиторий с блокнотом на pytorch. В реализации используется архитектура, похожая на приведенную в статье выше.
- Предобученный VAD с отличными результатами и ссылкой на репозиторий с примерами использования и сравнением с другими решениями. Создатели, к сожалению не делятся исходным кодом и архитектурой модели.
- Самое популярное классическое решение от гугла: webRTC VAD. Нетребовательное стабильное решение с недостатками, с которого стоит начать и с которым стоит сравнивать свое решение.
- Удобный пакет для работы со звуком на питон.
- Еще одно хорошее решение, обходящее webRTC.
- Статья про работу с аудио и представлением сигнала.
- Одна из прорывных статей по VAD за последние 10 лет. За основу архитектуры взяты слои GRU и CNN, есть быстрая версия, работающая на сыром оцифрованном потоке и более качественная, с предварительным мел-спектрограммным преобразованием.
- Репозиторий с блокнотом на pytorch. В реализации используется архитектура, похожая на приведенную в статье выше.
- Предобученный VAD с отличными результатами и ссылкой на репозиторий с примерами использования и сравнением с другими решениями. Создатели, к сожалению не делятся исходным кодом и архитектурой модели.
- Самое популярное классическое решение от гугла: webRTC VAD. Нетребовательное стабильное решение с недостатками, с которого стоит начать и с которым стоит сравнивать свое решение.
- Удобный пакет для работы со звуком на питон.
- Еще одно хорошее решение, обходящее webRTC.
- Статья про работу с аудио и представлением сигнала.
❤7