Спринт-интенсив Visiology: +300 к HR-карме бренда и куча красивых дашбордов
Привет, Хабр! Буквально на прошлой неделе мы завершили наш небольшой спринт-интенсив. Он доказал, что за 10 дней вполне можно познакомиться с платформой Visiology до такой степени, чтобы начать делать свои собственные дашборды, разбираться с особенностями загрузки данных и построения модели и другими нюансами работы с BI. Что интересно, в нашем спринте принимали участие как опытные BI-щики, так и начинающие специалисты. Под катом — несколько мнений активных участников, а также примеры дашбордов, созданных в ходе обучения.
Узнать, как это было...
Читать: https://habr.com/ru/companies/visiology/articles/740438/
Привет, Хабр! Буквально на прошлой неделе мы завершили наш небольшой спринт-интенсив. Он доказал, что за 10 дней вполне можно познакомиться с платформой Visiology до такой степени, чтобы начать делать свои собственные дашборды, разбираться с особенностями загрузки данных и построения модели и другими нюансами работы с BI. Что интересно, в нашем спринте принимали участие как опытные BI-щики, так и начинающие специалисты. Под катом — несколько мнений активных участников, а также примеры дашбордов, созданных в ходе обучения.
Узнать, как это было...
Читать: https://habr.com/ru/companies/visiology/articles/740438/
👍1
PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив
Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.
Читать: https://habr.com/ru/companies/avito/articles/740232/
Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.
Читать: https://habr.com/ru/companies/avito/articles/740232/
Почему для MLOps лучше выбирать Open Source, а не проприетарное ПО
Самому обеспечивать гибкость и контроль собственного ML-пайплайна — это важно. Команды по машинному обучению могут использовать проприетарные платформы или создавать собственные решения с помощью Open-Source-инструментов. Компании часто представляют проприетарные платформы как более мощные, эффективные и простые в использовании. Но в действительности они часто оказываются более сложными и менее мощными, чем их Open-Source-конкуренты.
Читать: https://habr.com/ru/companies/vk/articles/735720/
Самому обеспечивать гибкость и контроль собственного ML-пайплайна — это важно. Команды по машинному обучению могут использовать проприетарные платформы или создавать собственные решения с помощью Open-Source-инструментов. Компании часто представляют проприетарные платформы как более мощные, эффективные и простые в использовании. Но в действительности они часто оказываются более сложными и менее мощными, чем их Open-Source-конкуренты.
Читать: https://habr.com/ru/companies/vk/articles/735720/
Как создать платформу для управления 50 000 сотрудниками в ритейле при помощи частного облака
Как отслеживать эффективность сотрудников по всей стране, хранить терабайты данных и поддерживать доступность сервиса на высоком уровне? Платформа Imredi пять лет назад выбрала в качестве облачного провайдера Selectel и в 2022 году вышла на выручку в 200 млн в год. Рассказываем, какие решения использовались при построении платформы, как организована ее техническая часть и какие преобразования ожидаются в будущем.
Читать: https://habr.com/ru/companies/selectel/articles/740258/
Как отслеживать эффективность сотрудников по всей стране, хранить терабайты данных и поддерживать доступность сервиса на высоком уровне? Платформа Imredi пять лет назад выбрала в качестве облачного провайдера Selectel и в 2022 году вышла на выручку в 200 млн в год. Рассказываем, какие решения использовались при построении платформы, как организована ее техническая часть и какие преобразования ожидаются в будущем.
Читать: https://habr.com/ru/companies/selectel/articles/740258/
Как аннотировать документы для обучения ИИ распознавания текста
Введение в ИИ для распознавания текста
Автоматизированная обработка документов — необходимое требование для модернизации рабочих процессов современных компаний; оно связано с широким спектром процессов, например, с управлением расходами, автоматизацией кредиторских задолженностей, снабжением, бухгалтерским делом, страхованием, адаптацией пользователей и сотрудников, подачей заявок на кредит, приёмом на страхование и так далее.
Однако обработка неструктурированных данных, например, PDF или отсканированных документов, при помощи ИИ — не такая уж простая задача. Для обучения и поддержки инструментов ИИ обработки и парсинга документов необходимо высококачественное аннотирование данных.
По оценкам специалистов, рынок интеллектуальной обработки документов к 2028 году вырастет до 6,3 миллиардов долларов, а большая часть решений для распознавания текста в этой сфере уже использует ИИ и машинное обучение.
Читать: https://habr.com/ru/articles/747238/
Введение в ИИ для распознавания текста
Автоматизированная обработка документов — необходимое требование для модернизации рабочих процессов современных компаний; оно связано с широким спектром процессов, например, с управлением расходами, автоматизацией кредиторских задолженностей, снабжением, бухгалтерским делом, страхованием, адаптацией пользователей и сотрудников, подачей заявок на кредит, приёмом на страхование и так далее.
Однако обработка неструктурированных данных, например, PDF или отсканированных документов, при помощи ИИ — не такая уж простая задача. Для обучения и поддержки инструментов ИИ обработки и парсинга документов необходимо высококачественное аннотирование данных.
По оценкам специалистов, рынок интеллектуальной обработки документов к 2028 году вырастет до 6,3 миллиардов долларов, а большая часть решений для распознавания текста в этой сфере уже использует ИИ и машинное обучение.
Читать: https://habr.com/ru/articles/747238/
Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 2
В первой части статьи я остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части я приведу ответы и расскажу, что и в какой степени влияет на качество моделей. А также для дата-сайентистов приведу код Python, который был использован для получения картинок в задании. Все исходные изображения, использованные в статье, взяты из бесплатных фотостоков.
Читать: https://habr.com/ru/companies/rosbank/articles/750492/
В первой части статьи я остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части я приведу ответы и расскажу, что и в какой степени влияет на качество моделей. А также для дата-сайентистов приведу код Python, который был использован для получения картинок в задании. Все исходные изображения, использованные в статье, взяты из бесплатных фотостоков.
Читать: https://habr.com/ru/companies/rosbank/articles/750492/
Как создавать качественные ML-системы. Часть 2: приручаем хаос
Команда VK Cloud перевела вторую статью из серии о создании ML-систем. Первую читайте по ссылке. Здесь поговорим о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.
Читать: https://habr.com/ru/companies/vk/articles/749852/
Команда VK Cloud перевела вторую статью из серии о создании ML-систем. Первую читайте по ссылке. Здесь поговорим о Data-centric ИИ, данных для обучения, разметке и очистке, синтетических данных и еще немного о Data Engineering и ETL.
Читать: https://habr.com/ru/companies/vk/articles/749852/
Теория вероятностей в разработке: где применяется и что можно изучить для более глубокого понимания темы
Часто приходится слышать, что математика, включая статистику и теорию вероятностей с комбинаторикой, не слишком нужна разработчику. Что ж, в некоторых случаях это действительно так. Но для представителей ряда направлений всё это нужно. Кому именно требуется теория вероятностей с сопутствующими дисциплинами и зачем? Об этом поговорим под катом. И сразу хочу пояснить, что статья предназначена для начинающих специалистов.
Читать: https://habr.com/ru/companies/ru_mts/articles/750772/
Часто приходится слышать, что математика, включая статистику и теорию вероятностей с комбинаторикой, не слишком нужна разработчику. Что ж, в некоторых случаях это действительно так. Но для представителей ряда направлений всё это нужно. Кому именно требуется теория вероятностей с сопутствующими дисциплинами и зачем? Об этом поговорим под катом. И сразу хочу пояснить, что статья предназначена для начинающих специалистов.
Читать: https://habr.com/ru/companies/ru_mts/articles/750772/
Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 3
В предыдущей части вы узнали, что качество модели Data Science в первую очередь зависит от исходных данных: растет, если у вас больше исходных переменных и уровней градации каждой из них, более равномерно распределены значения каждой из переменных; если у вас меньше пропущенных значений и они менее скоррелированы друг с другом. И наконец, если ваша модель распознает события из прошлого, а не предсказывает будущее.
В третьей, заключительной части статьи я дам ответы по рисункам из предыдущей части. И для дата-сайентистов приведу общий код Python, который использовался для получения всех представленных ниже изображений.
Читать: https://habr.com/ru/companies/rosbank/articles/750810/
В предыдущей части вы узнали, что качество модели Data Science в первую очередь зависит от исходных данных: растет, если у вас больше исходных переменных и уровней градации каждой из них, более равномерно распределены значения каждой из переменных; если у вас меньше пропущенных значений и они менее скоррелированы друг с другом. И наконец, если ваша модель распознает события из прошлого, а не предсказывает будущее.
В третьей, заключительной части статьи я дам ответы по рисункам из предыдущей части. И для дата-сайентистов приведу общий код Python, который использовался для получения всех представленных ниже изображений.
Читать: https://habr.com/ru/companies/rosbank/articles/750810/
4 онлайн-курса по анализу данных для начинающих
— Курс «Продуктовый аналитик в IT»
Старт 14 сентября, онлайн, 74 000 ₽
На курсе изучите продуктовый анализ в data-driven компаниях с нуля за 4,5 месяца. Научитесь обрабатывать и подготавливать данные при помощи SQL и Python, визуализировать и наглядно представлять полученные результаты, а также проводить сегментацию аудитории и запускать A/B-тесты.
— Курс «Бизнес-аналитик в IT»
Старт 23 августа, онлайн, 78 000 ₽
Освоите базовые знания устройства программных продуктов и коммерческой разработки ПО, научитесь деловой коммуникации с клиентами и командой разработки, а также изучите основные техники сбора, анализа и спецификации требований к разработке ПО. Также научитесь составлять артефакты, с которыми работает бизнес-аналитик, и поймёте свою роль в команде разработки и бизнесе.
— Курс «Аналитика с 0: быстрый старт»
Постоянный доступ, онлайн, от 45 000 ₽
На курсе научитесь собирать, обрабатывать и анализировать данные с помощью SQL, Excel и Google Sheets. Сможете визуализировать полученные данные с помощью Tableau и научитесь работать с основными метриками IT-продуктов для их улучшения.
— Курс «Аналитика на Python»
Постоянный доступ, онлайн, от 39 000 ₽
На курсе освоите навыки анализа данных с помощью Python, включая работу с большими данными, библиотеками Pandas и NumPy. Также научитесь парсить данные из интернета, включая веб-страницы, профили Вконтакте и открытые API.
#курсы
— Курс «Продуктовый аналитик в IT»
Старт 14 сентября, онлайн, 74 000 ₽
На курсе изучите продуктовый анализ в data-driven компаниях с нуля за 4,5 месяца. Научитесь обрабатывать и подготавливать данные при помощи SQL и Python, визуализировать и наглядно представлять полученные результаты, а также проводить сегментацию аудитории и запускать A/B-тесты.
— Курс «Бизнес-аналитик в IT»
Старт 23 августа, онлайн, 78 000 ₽
Освоите базовые знания устройства программных продуктов и коммерческой разработки ПО, научитесь деловой коммуникации с клиентами и командой разработки, а также изучите основные техники сбора, анализа и спецификации требований к разработке ПО. Также научитесь составлять артефакты, с которыми работает бизнес-аналитик, и поймёте свою роль в команде разработки и бизнесе.
— Курс «Аналитика с 0: быстрый старт»
Постоянный доступ, онлайн, от 45 000 ₽
На курсе научитесь собирать, обрабатывать и анализировать данные с помощью SQL, Excel и Google Sheets. Сможете визуализировать полученные данные с помощью Tableau и научитесь работать с основными метриками IT-продуктов для их улучшения.
— Курс «Аналитика на Python»
Постоянный доступ, онлайн, от 39 000 ₽
На курсе освоите навыки анализа данных с помощью Python, включая работу с большими данными, библиотеками Pandas и NumPy. Также научитесь парсить данные из интернета, включая веб-страницы, профили Вконтакте и открытые API.
#курсы
Пример уменьшения размерности данных с помощью линейных и нелинейных методов в Python
Уменьшение размерности данных широко используется в области машинного обучения и анализа данных. Его цель состоит в том, чтобы упростить обработку данных за счет уменьшения количества объектов в наборе данных при сохранении ключевой информации. Когда мы сталкиваемся с данными большой размерности, уменьшение размерности может помочь нам снизить вычислительную сложность, повысить производительность и результативность модели.
Читать: https://habr.com/ru/articles/751050/
Уменьшение размерности данных широко используется в области машинного обучения и анализа данных. Его цель состоит в том, чтобы упростить обработку данных за счет уменьшения количества объектов в наборе данных при сохранении ключевой информации. Когда мы сталкиваемся с данными большой размерности, уменьшение размерности может помочь нам снизить вычислительную сложность, повысить производительность и результативность модели.
Читать: https://habr.com/ru/articles/751050/
Коллаборативная фильтрация vs Рейтинг фильма на Кинопоиске. Мой опыт написания кино рекомендательной системы
Некоторое время назад я решил написать рекомендательную систему для фильмов. Подобные системы умеют предсказывать оценку фильма, который пользователь еще не смотрел, на основании его оценок других, ранее просмотренных фильмов.
И результаты меня удивили
Читать: https://habr.com/ru/articles/751006/
Некоторое время назад я решил написать рекомендательную систему для фильмов. Подобные системы умеют предсказывать оценку фильма, который пользователь еще не смотрел, на основании его оценок других, ранее просмотренных фильмов.
И результаты меня удивили
Читать: https://habr.com/ru/articles/751006/
One big problem with booster studies (and observational studies of Covid19 vaccines)
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/07/one-big-problem-with-booster-studies-and-observational-studies-of-covid19-vaccines.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/07/one-big-problem-with-booster-studies-and-observational-studies-of-covid19-vaccines.html
Работа с хребтами (ridge plot) в Seaborn
Визуализация данных является важной частью анализа данных, помогая нам лучше понять данные, выявлять закономерности и тенденции. Среди многих инструментов визуализации данных библиотека seaborn пользуется популярностью благодаря относительной простоте в использовании и настройке достаточно красивых и информативных диаграмм.
В этой статье рассматривается вопрос касающийся использования библиотеки seaborn для создания красивых карт хребтов и разъясняется их использование, а также демонтируется гибкость библиотеки с помощью демонстрации кода.
Читать: https://habr.com/ru/articles/751550/
Визуализация данных является важной частью анализа данных, помогая нам лучше понять данные, выявлять закономерности и тенденции. Среди многих инструментов визуализации данных библиотека seaborn пользуется популярностью благодаря относительной простоте в использовании и настройке достаточно красивых и информативных диаграмм.
В этой статье рассматривается вопрос касающийся использования библиотеки seaborn для создания красивых карт хребтов и разъясняется их использование, а также демонтируется гибкость библиотеки с помощью демонстрации кода.
Читать: https://habr.com/ru/articles/751550/
Работа со скрипичной диаграммой (Violin Plot) в Seaborn
Скрипичные диаграммы могут эффективно отображать распределение данных, сравнивать различные наборы данных и выявлять аномалии (выбросы) и тенденции. В этой статье мы рассмотрим четыре различных стиля скрипичных диаграмм Seaborn, включая обычную, сгруппированную, горизонтальную и улучшенную версии, и разберемся в случаях их применения, преимуществах и недостатках. Мы также покажем, как улучшить код, чтобы нарисовать структурированную скрипку.
Читать: https://habr.com/ru/articles/751898/
Скрипичные диаграммы могут эффективно отображать распределение данных, сравнивать различные наборы данных и выявлять аномалии (выбросы) и тенденции. В этой статье мы рассмотрим четыре различных стиля скрипичных диаграмм Seaborn, включая обычную, сгруппированную, горизонтальную и улучшенную версии, и разберемся в случаях их применения, преимуществах и недостатках. Мы также покажем, как улучшить код, чтобы нарисовать структурированную скрипку.
Читать: https://habr.com/ru/articles/751898/
Ребят, ищем пишущего IT-редактора блогов в Tproger
Условия: удалёнка, фултайм
Что делать:
— искать темы, которые понравятся клиентам и заинтересуют читателей;
— вникать в эти темы настолько, чтобы говорить с экспертами примерно на одном языке;
— проводить интервью и собирать фактуру;
— превращать фактуру в статью, которую захочется читать и репостить;
— дорабатывать статью вместе с экспертами и менеджерами клиента.
Требования:
— пишете логично и ёмко, видите стилистические и речевые ошибки в тексте;
— быстро находите и проверяете информацию (в том числе в англоязычных источниках);
— любите общаться с экспертами и умеете их разговорить;
— спокойно реагируете на комментарии, но можете отстоять свою позицию, если правка неуместна;
— тактично вносите правки, чтобы автор не расстраивался, а был благодарен за помощь;
— знаете, что такое ключевое слово, мета-описание и зачем нужен Wordstat.
Чтобы откликнуться, заполняйте анкету.
#вакансии #работа
Условия: удалёнка, фултайм
Что делать:
— искать темы, которые понравятся клиентам и заинтересуют читателей;
— вникать в эти темы настолько, чтобы говорить с экспертами примерно на одном языке;
— проводить интервью и собирать фактуру;
— превращать фактуру в статью, которую захочется читать и репостить;
— дорабатывать статью вместе с экспертами и менеджерами клиента.
Требования:
— пишете логично и ёмко, видите стилистические и речевые ошибки в тексте;
— быстро находите и проверяете информацию (в том числе в англоязычных источниках);
— любите общаться с экспертами и умеете их разговорить;
— спокойно реагируете на комментарии, но можете отстоять свою позицию, если правка неуместна;
— тактично вносите правки, чтобы автор не расстраивался, а был благодарен за помощь;
— знаете, что такое ключевое слово, мета-описание и зачем нужен Wordstat.
Чтобы откликнуться, заполняйте анкету.
#вакансии #работа
Книга «Data Science в действии»
Привет, Хаброжители!
В проектах обработки и анализа данных много движущихся частей, и требуются практика и знания, чтобы создать гармоничную комбинацию кода, алгоритмов, наборов данных, форматов и визуальных представлений. Эта уникальная книга содержит описание пяти практических проектов, включая отслеживание вспышек заболеваний по заголовкам новостей, анализ социальных сетей и поиск закономерностей в данных о переходах по рекламным объявлениям.
Автор не ограничивается поверхностным обсуждением теории и искусственными примерами. Исследуя представленные проекты, вы узнаете, как устранять распространенные проблемы, такие как отсутствующие и искаженные данные и алгоритмы, не соответствующие создаваемой модели. По достоинству оцените подробные инструкции по настройке и детальные обсуждения решений, в которых описываются типичные точки отказа, и обретите уверенность в своих навыках.
Читать: https://habr.com/ru/companies/piter/articles/752258/
Привет, Хаброжители!
В проектах обработки и анализа данных много движущихся частей, и требуются практика и знания, чтобы создать гармоничную комбинацию кода, алгоритмов, наборов данных, форматов и визуальных представлений. Эта уникальная книга содержит описание пяти практических проектов, включая отслеживание вспышек заболеваний по заголовкам новостей, анализ социальных сетей и поиск закономерностей в данных о переходах по рекламным объявлениям.
Автор не ограничивается поверхностным обсуждением теории и искусственными примерами. Исследуя представленные проекты, вы узнаете, как устранять распространенные проблемы, такие как отсутствующие и искаженные данные и алгоритмы, не соответствующие создаваемой модели. По достоинству оцените подробные инструкции по настройке и детальные обсуждения решений, в которых описываются типичные точки отказа, и обретите уверенность в своих навыках.
Читать: https://habr.com/ru/companies/piter/articles/752258/
Ликбез по LLM, новинки от Nvidia и видеокейс по внедрению MLOps
Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.
Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/752458/
Всем привет! Новый выпуск нашего «Вестника» по ML и дата-аналитике получился очень насыщенным и разносторонне полезным. Во-первых, сразу несколько объемных ликбезов по LLM – на английском языке, но в нашей сфере по-другому никак. Зато есть очень толковый русскоязычный текст про актуальные подходы к ELT – нашел здесь, на Хабре. Еще много полезностей для любителей рыночных отчетов, красочных сборок инструментов и так далее. Точно обогатитесь парочкой говорящих скринов.
Еще больше полезных текстов по DataOps и MLOps, а также целое комьюнити на почти 1,5К человек — в Telegram-сообществе «MLечный путь».
Читать: https://habr.com/ru/companies/selectel/articles/752458/
A sports analogy for data processing rules
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/a-sports-analogy-for-data-processing-rules.html
Read: https://junkcharts.typepad.com/numbersruleyourworld/2023/08/a-sports-analogy-for-data-processing-rules.html
Свойство типа Controller Service в кастомном процессоре NiFi
В этой короткой статье я хочу показать, как использовать в качестве одного из свойств кастомного процессора NiFi стандартную службу Controller Service, а также как написать тест для такого процессора.В качестве примера будем использовать стандартную службу SSLContextService.
Читать: https://habr.com/ru/articles/752690/
В этой короткой статье я хочу показать, как использовать в качестве одного из свойств кастомного процессора NiFi стандартную службу Controller Service, а также как написать тест для такого процессора.В качестве примера будем использовать стандартную службу SSLContextService.
Читать: https://habr.com/ru/articles/752690/