Любите ли вы писать тесты? Или считаете эту работу слишком скучной и бесполезной?
#интерактив
#интерактив
aquarel: стилизация Matplotlib стала проще
Aquarel — это легкий механизм создания шаблонов и оболочка вокруг rcparams, упрощающая стилизацию графиков. Шаблоны Aquarel можно определять программно, сериализовать и публиковать в формате JSON.
Открыть репозиторий
Aquarel — это легкий механизм создания шаблонов и оболочка вокруг rcparams, упрощающая стилизацию графиков. Шаблоны Aquarel можно определять программно, сериализовать и публиковать в формате JSON.
Открыть репозиторий
👍8
Какие проблемы могут решить нейронные сети?
Нейронные сети хороши для решения нелинейных задач. Хорошими примерами являются задачи, которые относительно просты для людей (из-за опыта, интуиции, понимания и т. д.), но сложны для традиционных моделей регрессии: распознавание речи, распознавание рукописного текста, идентификация изображений и т. д.
#вопросы_с_собеседований
Нейронные сети хороши для решения нелинейных задач. Хорошими примерами являются задачи, которые относительно просты для людей (из-за опыта, интуиции, понимания и т. д.), но сложны для традиционных моделей регрессии: распознавание речи, распознавание рукописного текста, идентификация изображений и т. д.
#вопросы_с_собеседований
🧮 Большие языковые модели: стоит ли бояться больших калькуляторов?
Разберём, можно ли считать большие языковые модели разумными (и почему ответ — нет).
Читать статью
Разберём, можно ли считать большие языковые модели разумными (и почему ответ — нет).
Читать статью
👍2❤1
Делаем LLM легче с помощью AutoGPTQ и трансформаторов
Сообщение в блоге, в котором представлена интеграция библиотеки AutoGPTQ в Transformers, позволяющая квантовать LLM с помощью метода GPTQ.
Читать статью
Сообщение в блоге, в котором представлена интеграция библиотеки AutoGPTQ в Transformers, позволяющая квантовать LLM с помощью метода GPTQ.
Читать статью
🔥3👍2❤1
Часто ли вы прибегаете к помощи нейросетей в работе?
#интерактив
#интерактив
Но при этом одна из самых важных
Легче всего в этом убедиться на примере умной колонки. В ней обычно задействованы все три основные речевые модели: детектирование, распознавание и синтез. VAD работает в фоне, по его результатам активируется модель ASR (automatic speech recognition) и, затем, синтез. Соответственно, чем больше ресурсов потребляет фоновый VAD, тем меньше их остается основным моделям. Так же и с качеством: детектирование не всей речи напрямую сказывается на результатах распознавания, а если детектируются лишние звуки, то ASR работает дольше и увеличивается время на ответ пользователю.
1. Ограниченность в ресурсах
На VAD всегда ставится много ограничений: обработка в режиме реального времени, высокие показатели полноты детектирования, работа модели в фоновом режиме и тд. Поэтому исследователям часто интереснее заниматься обучением моделей в других задачах с большей нацеленностью на качество обучения, а в детектировании использовать классические алгоритмы, не требующие больших затрат оперативной памяти.
2. Невидимость для пользователей
В большинстве случаев пользователи взаимодействуют с голосовыми интерфейсами, приложениями или системами распознавания речи, в которых не виден сам процесс детектирования речи, из-за чего создается впечатление, что эта часть менее значима.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
-35% на самый хардкорный курс по вышмату!
🌟 «Математика для Data Science» 🌟
19 490 рублей29 990 рублей до 5 сентября
Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
🔥 Переходите и активируйте пробную версию курса – https://proglib.io/w/f95360e1
🌟 «Математика для Data Science» 🌟
19 490 рублей
Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
🔥 Переходите и активируйте пробную версию курса – https://proglib.io/w/f95360e1
❤1👾1
Дайджест ресурсов для построения модели детектирования речи
- Одна из прорывных статей по VAD за последние 10 лет. За основу архитектуры взяты слои GRU и CNN, есть быстрая версия, работающая на сыром оцифрованном потоке и более качественная, с предварительным мел-спектрограммным преобразованием.
- Репозиторий с блокнотом на pytorch. В реализации используется архитектура, похожая на приведенную в статье выше.
- Предобученный VAD с отличными результатами и ссылкой на репозиторий с примерами использования и сравнением с другими решениями. Создатели, к сожалению не делятся исходным кодом и архитектурой модели.
- Самое популярное классическое решение от гугла: webRTC VAD. Нетребовательное стабильное решение с недостатками, с которого стоит начать и с которым стоит сравнивать свое решение.
- Удобный пакет для работы со звуком на питон.
- Еще одно хорошее решение, обходящее webRTC.
- Статья про работу с аудио и представлением сигнала.
- Одна из прорывных статей по VAD за последние 10 лет. За основу архитектуры взяты слои GRU и CNN, есть быстрая версия, работающая на сыром оцифрованном потоке и более качественная, с предварительным мел-спектрограммным преобразованием.
- Репозиторий с блокнотом на pytorch. В реализации используется архитектура, похожая на приведенную в статье выше.
- Предобученный VAD с отличными результатами и ссылкой на репозиторий с примерами использования и сравнением с другими решениями. Создатели, к сожалению не делятся исходным кодом и архитектурой модели.
- Самое популярное классическое решение от гугла: webRTC VAD. Нетребовательное стабильное решение с недостатками, с которого стоит начать и с которым стоит сравнивать свое решение.
- Удобный пакет для работы со звуком на питон.
- Еще одно хорошее решение, обходящее webRTC.
- Статья про работу с аудио и представлением сигнала.
❤7
Почему Swift может заменить Python в мл?
Статья про перспективы языка Swift, поддержку от некоторых популярных фреймворков (TensorFlow) и плюсы языка относительно Python.
Основные тезисы:
🔸 Поддержка от передовых фреймворков из мл
🔸 Математические функции
🔸 Скорость
🔸 Импортируемость Python в Swift
🔸 Возможность писать как высокоуровневый, так и низкоуровневый код
Статье уже почти 4 года, но существенные обновления для Swift происходят только последнее время, так что будет интересно как уже в ближайшие пол года изменится индустрия и какую роль в этом сыграет Swift.
Ссылка на статью
Статья про перспективы языка Swift, поддержку от некоторых популярных фреймворков (TensorFlow) и плюсы языка относительно Python.
Основные тезисы:
🔸 Поддержка от передовых фреймворков из мл
🔸 Математические функции
🔸 Скорость
🔸 Импортируемость Python в Swift
🔸 Возможность писать как высокоуровневый, так и низкоуровневый код
Статье уже почти 4 года, но существенные обновления для Swift происходят только последнее время, так что будет интересно как уже в ближайшие пол года изменится индустрия и какую роль в этом сыграет Swift.
Ссылка на статью
😁12👍5🤯3❤1👾1
Самые полезные каналы для программистов в одной подборке!
Сохраняйте себе, чтобы не потерять 💾
🔥Для всех
Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
☕Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков
👾Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту
🦫Go
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go
🧠C++
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++
💻Другие профильные каналы
Библиотека фронтендера
Библиотека шарписта
Библиотека мобильного разработчика
Библиотека хакера
Библиотека питониста
Библиотека devops’a
Библиотека тестировщика
Библиотека пхпшника
💼Каналы с вакансиями
Вакансии по питону, Django, Flask
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии по C#, .NET, Unity
Вакансии по PHP, Symfony, Laravel
Вакансии по DevOps & SRE
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈
Сохраняйте себе, чтобы не потерять 💾
🔥Для всех
Библиотека программиста — новости, статьи, досуг, фундаментальные темы
Книги для программистов
IT-мемы
☕Java
Библиотека джависта — полезные статьи по Java, новости и обучающие материалы
Библиотека Java для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Java — код, квизы и тесты
Вакансии для java-разработчиков
👾Data Science
Библиотека Data Science — полезные статьи, новости и обучающие материалы
Библиотека Data Science для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Data Science — код, квизы и тесты
Вакансии по Data Science, анализу данных, аналитике, искусственному интеллекту
🦫Go
Библиотека Go разработчика — полезные статьи, новости и обучающие материалы по Go
Библиотека Go для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по Go — код, квизы и тесты
Вакансии по Go
🧠C++
Библиотека C/C++ разработчика — полезные статьи, новости и обучающие материалы по C++
Библиотека C++ для собеса — тренируемся отвечать на каверзные вопросы во время интервью и технического собеседования
Библиотека задач по C++ — код, квизы и тесты
Вакансии по C++
💻Другие профильные каналы
Библиотека фронтендера
Библиотека шарписта
Библиотека мобильного разработчика
Библиотека хакера
Библиотека питониста
Библиотека devops’a
Библиотека тестировщика
Библиотека пхпшника
💼Каналы с вакансиями
Вакансии по питону, Django, Flask
Вакансии по фронтенду, джаваскрипт, React, Angular, Vue
Вакансии по C#, .NET, Unity
Вакансии по PHP, Symfony, Laravel
Вакансии по DevOps & SRE
Вакансии для мобильных разработчиков
Вакансии по QA тестированию
InfoSec Jobs — вакансии по информационной безопасности
📁Чтобы добавить папку с нашими каналами, нажмите 👉сюда👈
👍2❤1
ДС обзор LLM
Большие языковые модели изменяют обработку языка. Они полезны для разных задач, но их эффективное использование требует понимания их возможностей и ограничений.
Модели отличаются стратегиями обучения, архитектурами и областями применения. Они подразделяются на два типа: модели с архитектурой кодер-декодер или только кодер и только декодер. На эволюционном дереве моделей видно, что:
🔷 Модели только декодировщика постепенно стали доминировать. После внедрения GPT-3 в 2021 году, они стали популярными, а модели только кодировщика постепенно ушли на второй план.
🔷 OpenAI по-прежнему лидирует в разработке LLM. Другие компании и институты пытаются догнать OpenAI, но пока это сложно.
🔷 Meta активно вносит вклад в открытые LLM и содействует исследованиям. Они отличаются направленносттью в сторону открытых LLM.
🔷 LLM все же становятся более закрытыми. С GPT-3 многие компании начали закрывать свои разработки, что затрудняет исследования для ученых. Это может способствовать более популярному исследованию на основе API.
🔷 Модели с архитектурой кодировщик-декодировщик все еще обещают выпустить, но модели только декодировщика на данный момент более гибки и универсальны.
Большие языковые модели изменяют обработку языка. Они полезны для разных задач, но их эффективное использование требует понимания их возможностей и ограничений.
Модели отличаются стратегиями обучения, архитектурами и областями применения. Они подразделяются на два типа: модели с архитектурой кодер-декодер или только кодер и только декодер. На эволюционном дереве моделей видно, что:
🔷 Модели только декодировщика постепенно стали доминировать. После внедрения GPT-3 в 2021 году, они стали популярными, а модели только кодировщика постепенно ушли на второй план.
🔷 OpenAI по-прежнему лидирует в разработке LLM. Другие компании и институты пытаются догнать OpenAI, но пока это сложно.
🔷 Meta активно вносит вклад в открытые LLM и содействует исследованиям. Они отличаются направленносттью в сторону открытых LLM.
🔷 LLM все же становятся более закрытыми. С GPT-3 многие компании начали закрывать свои разработки, что затрудняет исследования для ученых. Это может способствовать более популярному исследованию на основе API.
🔷 Модели с архитектурой кодировщик-декодировщик все еще обещают выпустить, но модели только декодировщика на данный момент более гибки и универсальны.
👍6
Как обучить LLM (GPT, LLAMA, BERT и др) на своих данных?
В источнике представлен актуальный гайд по обучению предобученных языковых моделей. Автор берет за основу базовый BERT и обучает на своей базе знаний. Описывается как формировать данные для решения Q&A задачи и какие инструменты лучше использовать, как затем подавать данные в модель и как ей пользоваться. Гайд достаточно короткий и простой.
💫 Ссылка на источник
В источнике представлен актуальный гайд по обучению предобученных языковых моделей. Автор берет за основу базовый BERT и обучает на своей базе знаний. Описывается как формировать данные для решения Q&A задачи и какие инструменты лучше использовать, как затем подавать данные в модель и как ей пользоваться. Гайд достаточно короткий и простой.
💫 Ссылка на источник
👍12
Построение мел-спектрограммного преобразования с помощью библиотеки librosa
Мел-спектрограммное преобразование — это метод анализа звуковых сигналов, который преобразует аудио сигнал в спектрограмму с учетом восприятия человеком звуков по частоте. Это помогает улучшить различение между звуками важными для человека. Оно широко используется в распознавании речи.
Мел-спектрограммное преобразование — это метод анализа звуковых сигналов, который преобразует аудио сигнал в спектрограмму с учетом восприятия человеком звуков по частоте. Это помогает улучшить различение между звуками важными для человека. Оно широко используется в распознавании речи.
👍4❤1🔥1
Какие языки программирования могут заменить Python в Data Science?
Недавно писали пост про перспективы языка Swift в машинном обучении, сегодня продолжаем эту тему.
🟠 R
В области статистики и исследований уже конкурирует с Python, но вряд ли пойдет дальше. Основная проблема - ограничение в оперативной памяти и приоритет на исследования, а не на продакшен.
🟠 Scala
Scala уже сейчас является практически необходимым инструментов в работе Data Engineer вместе с Apache Spark, так как он очень удобен в обработке больших данных, при этом оставаясь не очень популярным языком в целом. Также Scala работает на JVM и обеспечивает лучшую поддержку парадигмы функционального программирования, что очень ускоряет обработку больших данных.
🟠 Go
Go выглядит сейчас скорее как конкурент Scala в Data Engineering, так как является одним из лучших яп для паралельной обработки и изначально задумывался Google во многом для этих целей, но на нем достаточно сложно проводить быстрые исследования, что очень важно в DS.
🟠 Julia
В теории звучит как идеальный язык программирования для DS:
- удобный и простой синтаксис
- возможность использовать код на Python
- высокая производительность (обгоняет Python, R, MATLAB)
- интерактивность не смотря на то, что язык компилируемый
При этом язык на старте своего развития, но уже вошел в топ-5 любимых языков программирования среди разработчиков по версии Stack Overflow.
Основной минус пока что в отсутствии такой экосистемы, как у Python, но это звучит как вопрос времени.
🟠 Huskell
Этот язык полностью функциональный, что является как плюсом, так и минусом. Его сложно освоить, функциональная парадигма подразумевает полностью отличное от привычного мышление, но это может окупиться засчет скорости обработки больших данных и затратах на время и количество кода. Сейчас этот яп используется для вычислений, обработки данных и написания бэкенда.
Из минусов очень высокий порог вхождения и медленное развитие, но многие разработчики Huskell переходят на Scala из-за поддержки функциональной парадигмы последнего и быстро становятся востребованы в этой области. Есть даже статья, где описана миграция бэкенда с JS на Huskell, причем разработчик Huskell один написал аналогичный код быстрее, чем группа из пяти разработчиков JS.
Недавно писали пост про перспективы языка Swift в машинном обучении, сегодня продолжаем эту тему.
🟠 R
В области статистики и исследований уже конкурирует с Python, но вряд ли пойдет дальше. Основная проблема - ограничение в оперативной памяти и приоритет на исследования, а не на продакшен.
🟠 Scala
Scala уже сейчас является практически необходимым инструментов в работе Data Engineer вместе с Apache Spark, так как он очень удобен в обработке больших данных, при этом оставаясь не очень популярным языком в целом. Также Scala работает на JVM и обеспечивает лучшую поддержку парадигмы функционального программирования, что очень ускоряет обработку больших данных.
🟠 Go
Go выглядит сейчас скорее как конкурент Scala в Data Engineering, так как является одним из лучших яп для паралельной обработки и изначально задумывался Google во многом для этих целей, но на нем достаточно сложно проводить быстрые исследования, что очень важно в DS.
🟠 Julia
В теории звучит как идеальный язык программирования для DS:
- удобный и простой синтаксис
- возможность использовать код на Python
- высокая производительность (обгоняет Python, R, MATLAB)
- интерактивность не смотря на то, что язык компилируемый
При этом язык на старте своего развития, но уже вошел в топ-5 любимых языков программирования среди разработчиков по версии Stack Overflow.
Основной минус пока что в отсутствии такой экосистемы, как у Python, но это звучит как вопрос времени.
🟠 Huskell
Этот язык полностью функциональный, что является как плюсом, так и минусом. Его сложно освоить, функциональная парадигма подразумевает полностью отличное от привычного мышление, но это может окупиться засчет скорости обработки больших данных и затратах на время и количество кода. Сейчас этот яп используется для вычислений, обработки данных и написания бэкенда.
Из минусов очень высокий порог вхождения и медленное развитие, но многие разработчики Huskell переходят на Scala из-за поддержки функциональной парадигмы последнего и быстро становятся востребованы в этой области. Есть даже статья, где описана миграция бэкенда с JS на Huskell, причем разработчик Huskell один написал аналогичный код быстрее, чем группа из пяти разработчиков JS.
👍3🤔2🤯2👾2🔥1😁1
Альтернативы Python для Data Science, завершение
Третий завершающий пост на тему альтернатив Python в DS.
🟧 На данный момент есть два перспективных языка, которые при должном развитии могли бы заменить Python целиком в DS - это Swift и Julia, их объединяет возможность использовать Python из коробки, простой и понятный синтаксис, быстрое написание кода, компилируемость и значительно более высокая производительность, чем в Python/R/MATHLAB.
🟧 Однако Swift последнее время развивается в направлении быстрого запуска решений на готовых архитектурах в продакшен, уходя от исследований и развития индустрии. При этом Swift остается закрытым яп для Apple. Поэтому если вы хотите обучать ии для мобильных приложений, то определенно стоит углубиться в Swift.
🟧 Julia же наоборот позиционируется как открытый яп, который любят и развивают разработчики, не смотря на то, что он компилируемый, он интерактивный, благодаря чему для него уже сделали поддержку Jupyter Notebook - неотъемлемый инструмент Data Scientist. Скорее всего Julia будет только больше набирать популярность, так что на этот яп точно стоит обратить внимание.
🟦 В ИИ есть много областей, кроме непосредственно обучения моделей и остальные языки из подборки используются именно в них и вряд ли заменят Python в целом.
🟦 Если вы хотите заниматься исследованиями в отрыве продакшена и больше в сфере статистики и классического машинного обучения, то вам подойдет R.
🟦 Для задач Data Engineering уже практически обязательно владеть Scala с Apache Spark
🟦 Также отдельно хочется выделить Huskell, который может использоваться и в математических исследованиях вместо R, и в задачах обработки больших данных вместо Scala, однако у него очень высокий порог вхождения и немного подобных вакансий, часто вакансии появляются сразу внутри комьюнити.
Третий завершающий пост на тему альтернатив Python в DS.
🟧 На данный момент есть два перспективных языка, которые при должном развитии могли бы заменить Python целиком в DS - это Swift и Julia, их объединяет возможность использовать Python из коробки, простой и понятный синтаксис, быстрое написание кода, компилируемость и значительно более высокая производительность, чем в Python/R/MATHLAB.
🟧 Однако Swift последнее время развивается в направлении быстрого запуска решений на готовых архитектурах в продакшен, уходя от исследований и развития индустрии. При этом Swift остается закрытым яп для Apple. Поэтому если вы хотите обучать ии для мобильных приложений, то определенно стоит углубиться в Swift.
🟧 Julia же наоборот позиционируется как открытый яп, который любят и развивают разработчики, не смотря на то, что он компилируемый, он интерактивный, благодаря чему для него уже сделали поддержку Jupyter Notebook - неотъемлемый инструмент Data Scientist. Скорее всего Julia будет только больше набирать популярность, так что на этот яп точно стоит обратить внимание.
🟦 В ИИ есть много областей, кроме непосредственно обучения моделей и остальные языки из подборки используются именно в них и вряд ли заменят Python в целом.
🟦 Если вы хотите заниматься исследованиями в отрыве продакшена и больше в сфере статистики и классического машинного обучения, то вам подойдет R.
🟦 Для задач Data Engineering уже практически обязательно владеть Scala с Apache Spark
🟦 Также отдельно хочется выделить Huskell, который может использоваться и в математических исследованиях вместо R, и в задачах обработки больших данных вместо Scala, однако у него очень высокий порог вхождения и немного подобных вакансий, часто вакансии появляются сразу внутри комьюнити.
❤6👍3
Простой гайд по построению модели синтеза речи
Недавно выходило несколько постов про нейросетевую обработку звука, данный гайд объединяет предыдущие подборки в результат, который можно потрогать. В основном используются фреймворки, представленные ранее в подборке.
Ссылка на источник
Недавно выходило несколько постов про нейросетевую обработку звука, данный гайд объединяет предыдущие подборки в результат, который можно потрогать. В основном используются фреймворки, представленные ранее в подборке.
Ссылка на источник
👍6🔥1
Трансформеры
Статься на русском с очень подробным объяснением архитектуры Transformers.
На данный момент эта архитектура используется почти во всех сферах ИИ, особенно в обработке естественного языка. Все LLM основаны именно на этой архитектуре.
Ссылка на источник
Статься на русском с очень подробным объяснением архитектуры Transformers.
На данный момент эта архитектура используется почти во всех сферах ИИ, особенно в обработке естественного языка. Все LLM основаны именно на этой архитектуре.
Ссылка на источник
👍6❤3