За три месяца 36 отчётов — как «Ренессанс Страхование» перенесла работу с данными в Yandex Cloud
«Ренессанс Страхование» использовала накопленные за более чем 25 лет данные для разработки конкурентоспособных продуктов страхования. Чтобы сократить время на подготовку отчётов, компания перенесла BI-инструменты на облачную платформу Yandex Cloud.
Всего за три месяца перенесли 36 отчетов в Yandex Cloud, с которыми работают более 400 активных пользователей. Благодаря сервису для анализа и визуализации данных Yandex DataLens удалось сократить расходы на BI-аналитику и увеличить скорость обработки информации.
Читайте подробнее на сайте ➡️
«Ренессанс Страхование» использовала накопленные за более чем 25 лет данные для разработки конкурентоспособных продуктов страхования. Чтобы сократить время на подготовку отчётов, компания перенесла BI-инструменты на облачную платформу Yandex Cloud.
Всего за три месяца перенесли 36 отчетов в Yandex Cloud, с которыми работают более 400 активных пользователей. Благодаря сервису для анализа и визуализации данных Yandex DataLens удалось сократить расходы на BI-аналитику и увеличить скорость обработки информации.
Читайте подробнее на сайте ➡️
👍10❤4🔥2
Когда я впервые начал работать с визуализацией данных, я обнаружил, что мне трудно выбрать правильный тип диаграммы для точного представления данных.
Было неприятно тратить часы на создание визуализации только для того, чтобы понять, что она неэффективно передаёт задуманный смысл. Вскоре я понял, что был не одинок в своей проблеме. Многие новички сталкивались с подобным при работе с визуализацией данных, вот почему я пишу эту статью (чтобы сэкономить ваше время и лучше разобраться в графиках). Я также приведу вам примеры кода.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤5👎2🔥1
Вы когда-нибудь обнаруживали, что застряли в середине проекта, пытаясь решить сложную проблему? Что ж, вы не одиноки. Многие разработчики сталкиваются с такими проблемами при создании программного обеспечения, и именно в данных ситуациях пригождаются библиотеки.
Они помогают вам легко создавать сложные и трудоёмкие ПО, экономя ваше время и усилия. С таким количеством библиотек может быть трудно решить, какую из них использовать. Итак, я составил список из 7 библиотек Python, которые обязательно помогут вам на вашем пути разработчика.
1. Dash
Это самый загружаемый и надёжный Python-фреймворк для создания веб-приложений в сферах ML и data science. Эта библиотека связывает современные элементы пользовательского интерфейса, такие как выпадающие списки, ползунки и графики, непосредственно с вашим аналитическим кодом на Python. На GitHub у неё более 18 тысяч звёзд. Вы можете ознакомиться с данной библиотекой здесь.
2. PyWhatKit
В настоящее время это одна из самых популярных библиотек для автоматизации WhatsApp и YouTube. Она проста в использовании и не требует от вас каких-либо дополнительных настроек. Библиотека PyWhatKit включает в себя множество функций, таких как отправка изображения группе WhatsApp или контакту, преобразование изображения в формат ASCII, отправка писем с HTML-кодом и многое другое. У неё более 1 тысячи звёзд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.
3. Alive-progress
Отображение экрана загрузки или индикатора выполнения во время вычисления или загрузки данных является одной из распространённых практик при разработке программного обеспечения для улучшения пользовательского интерфейса. Как вы уже догадались по названию, эта библиотека предоставляет красивый индикатор выполнения. Она также включает в себя множество функций, таких как настройка, live spinner, ETA, классная анимация и многое другое. У неё более 4 тысяч звёзд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.
4. TextBlob
Если вам приходится работать с обработкой текста, то это хороший ресурс для вас. Эта библиотека предоставляет простой API для погружения в обычные задачи обработки естественного языка (NLP), такие как пометка частей речи, извлечение именных фраз, анализ настроений, классификация, перевод и многое другое. Она обладает множеством функций, таких как извлечение именных фраз, анализ настроений, исправление орфографии и многое другое. У неё более 8 тысяч звезд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.
5. Pdfplumber
Как следует из названия, если вам приходится работать с pdf, то это хороший ресурс для вас. Эта библиотека поможет вам извлекать текст и таблицы из PDF-файлов, упрощая точную обработку больших объёмов PDF-данных. У неё более 3,5 тысяч звезд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.
6. Pdoc
Документация – один из важнейших этапов разработки программного обеспечения. Как вы уже догадались, эта библиотека поможет вам с документацией API вашего проекта. Она включает в себя множество функций, таких как Documentation is plain Markdown, первоклассную поддержку аннотаций типов, все другие современные функции Python 3, встроенный веб-сервер с оперативной перезагрузкой и многое другое. Эта библиотека имеет более 1,5 тысяч звёзд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.
7. Pyrogram
Эта библиотека позволяет создавать Telegram-ботов и приложения на Python, включая поддержку асинхронного программирования и зашифрованных сообщений. Она также позволяет вам легко взаимодействовать с основным Telegram API через учётную запись пользователя (пользовательский клиент) или идентификатор бота (альтернатива bot API). У неё более 3 тысяч звёзд на GitHub. Вы можете ознакомиться с данной библиотекой здесь.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥7❤1
В этом посте мы познакомимся с возможностями YOLOv7 для определения поз людей на видео, обсудим принцип работы алгоритма, разберёмся, чем принципиально отличается подход к детекции скелетов человека в модели YOLOv7 и других фреймворках, подробно пройдёмся по всем шагам запуска на инференс предобученной модели YOLOv7-pose для детекции людей с их скелетами.
В процессе копания в первоисточниках и не только, мне удалось почерпнуть несколько интересных фактов о YOLO, чем я поделюсь. Некоторые труднопереводимые термины будут оставаться как есть.
▪ Читать
▪ Код
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥2
Python В SQL — Теперь можно загружать данные в 20 раз быстрее
Работа с массивными наборами данных – повседневное дело для большинства специалистов по обработке данных. Не было бы никаких проблем, если бы они сразу передавались потоком в базу данных.
Но, зачастую, случается так, что загрузка данных происходит очень долго. В таких случаях программистам приходится занимать себя другими делами, дожидаясь, пока процесс полностью завершится. Такой вариант подходит далеко не всем!
Если вы действительно хотите сократить это время, вам нужен наиболее оптимальный способ загрузки данных в БД.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤4🔥2
Дзен приглашает на свой апрельский офлайн-митап про факторизацию в рекомендательных системах
На встрече обсудят обучение факторизации в реальном времени и перенос её с ALS на SGD, а также опыт Дзена по улучшению рекомендаций коротких видео и увеличению их аудитории в несколько раз. Доклады будут полезны и новичкам ML-инженерии, и опытным спецам. Кроме этого, будет ML-квиз, а после — возможность для нетворкинга на афтепати.
Количество мест ограничено, регистрируйтесь по ссылке.
@data_analysis_ml
На встрече обсудят обучение факторизации в реальном времени и перенос её с ALS на SGD, а также опыт Дзена по улучшению рекомендаций коротких видео и увеличению их аудитории в несколько раз. Доклады будут полезны и новичкам ML-инженерии, и опытным спецам. Кроме этого, будет ML-квиз, а после — возможность для нетворкинга на афтепати.
Количество мест ограничено, регистрируйтесь по ссылке.
@data_analysis_ml
Карьера в Дзене
Hiring days для backend-разработчиков
Получи оффер в Дзен за два дня Для разработчиков с опытом работы от двух лет
❤4👍1👎1🔥1
В этом наборе упражнений мы поработаем с SQL и T-SQL. С помощью этих упражнений мы будем создавать различные запросы SQL и T-SQL, чтобы отточить навыки работы с запросами.
Независимо от того, являетесь ли вы новичком или опытным разработчиком, эти упражнения помогут укрепить знания и подготовиться к реальным собеседованиям. Так что давайте погрузимся в работу и начнём решать задачи!
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🥰2❤1
Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN
Добрый день! В посте, на примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.
Задача тематического моделирования возникает очень часто, когда существует необходимость в обработке большого количества текстовой информации.
Тематическое моделирование – это разбиение коллекции текстовых документов на группы, в которых элементы имеют общую тематику. Стоит понимать, что один документ может иметь разные темы, в таком случае документ определяется распределением тематик, однако для нашей задачи крайне необходимо, чтобы документ однозначно принадлежал определенной группе. Использование метода предполагает то, что никаких дополнительных данных, кроме самого текста не используется.
Способов применения тематического моделирования в реальных задачах множество. Например, вы можете автоматически определять тематику письма в электронной почте, а после ранжировать его.
В задаче информационного поиска тематическое моделирование позволяет более качественно отбирать информацию по текстовому запросу. Исследователям, которые работают с текстовой информацией просто необходим инструмент, который может структурировать объемные текстовые массивы. Интересно и то, что предметом исследования может быть не только человеческий язык, но и любые текстоподобные данные: программный код, банковские транзакции, музыкальные произведения.
▪Читать
@data_analysis_ml
Добрый день! В посте, на примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.
Задача тематического моделирования возникает очень часто, когда существует необходимость в обработке большого количества текстовой информации.
Тематическое моделирование – это разбиение коллекции текстовых документов на группы, в которых элементы имеют общую тематику. Стоит понимать, что один документ может иметь разные темы, в таком случае документ определяется распределением тематик, однако для нашей задачи крайне необходимо, чтобы документ однозначно принадлежал определенной группе. Использование метода предполагает то, что никаких дополнительных данных, кроме самого текста не используется.
Способов применения тематического моделирования в реальных задачах множество. Например, вы можете автоматически определять тематику письма в электронной почте, а после ранжировать его.
В задаче информационного поиска тематическое моделирование позволяет более качественно отбирать информацию по текстовому запросу. Исследователям, которые работают с текстовой информацией просто необходим инструмент, который может структурировать объемные текстовые массивы. Интересно и то, что предметом исследования может быть не только человеческий язык, но и любые текстоподобные данные: программный код, банковские транзакции, музыкальные произведения.
▪Читать
@data_analysis_ml
👍8❤2🥰1
Построим конвейер данных с их приемом в ClickHouse через Kafka и агрегированием автоматически обновляемых данных. Возьмем набор данных о мировых ценах на продовольствие, хоть и неидеальный для Kafka из-за отсутствия критериев скорости.
Сначала создадим на Python скрипт для выдачи сообщений — строк набора данных. Затем настроим ClickHouse для их получения и обработки, а после поэкспериментируем с представлением в реальном времени и удалением данных.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🔥2
Повысьте производительность ChatGPT с помощью Prompt Engineering
ChatGPT генерирует ответы, используя метод, называемый авторегрессией, который включает в себя предсказание наиболее вероятного следующего слова в последовательности на основе предыдущих слов. Но, если вы попробуете ChatGPT, вы поймёте, что качество данного ответа напрямую будет зависеть от качества вопроса.
Секрет получения наилучшего возможного ответа заключается в том, чтобы понять, как ChatGPT будет его генерировать, и соответствующим образом сформулировать вопрос.
В этой статье мы обсудим несколько приёмов написания хороших подсказок для ChatGPT, чтобы вы могли использовать их для решения желаемой задачи.
▪Читать
@Chatgpturbobot
@data_analysis_ml
ChatGPT генерирует ответы, используя метод, называемый авторегрессией, который включает в себя предсказание наиболее вероятного следующего слова в последовательности на основе предыдущих слов. Но, если вы попробуете ChatGPT, вы поймёте, что качество данного ответа напрямую будет зависеть от качества вопроса.
Секрет получения наилучшего возможного ответа заключается в том, чтобы понять, как ChatGPT будет его генерировать, и соответствующим образом сформулировать вопрос.
В этой статье мы обсудим несколько приёмов написания хороших подсказок для ChatGPT, чтобы вы могли использовать их для решения желаемой задачи.
▪Читать
@Chatgpturbobot
@data_analysis_ml
👍8❤4🔥1
Как специалист по Data Science, могу сказать, что данные являются основой любого проекта. В этой статье рассматриваются наиболее распространённые и популярные наборы данных.
Также мы привели примеры кода для извлечения данных и загрузки в DataFrame. Давайте начинать!
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🔥2🥰1
После революционного шага, сделанного ChatGPT от OpenAI в области NLP, развитие искусственного интеллекта продолжается, и Meta AI вносит поразительный прогресс в компьютерное зрение.
Исследовательская группа Meta AI представила модель под названием Segment Anything Model (SAM) и набор данных из 1 миллиарда масок на 11 миллионах изображений.
Сегментация изображения – это разбиение изображения на множество покрывающих его областей.
▪ Читать
▪ Github
▪ Project
▪Статья
▪Датасет
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤7👍3
В этой статье мы исследуем потенциал метода визуализации для получения представления о траектории движения режущего инструмента во время обработки. Мы демонстрируем, как визуализация помогла выявить проблемы с новыми данными, показывая, что проблемы были в самом процессе, а не в модели.
Наши результаты подчёркивают важность визуализации данных как инструмента для получения информации о сложных процессах и устранения неполадок в моделях машинного обучения.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥1
👁🗨 Освоение OpenCV с помощью Python: Полное руководство по обработке изображений и компьютерному зрению
OpenCV – это библиотека с открытым исходным кодом, которая предоставляет разработчикам инструменты и алгоритмы для задач компьютерного зрения и машинного обучения.
Она поддерживает несколько языков программирования, включая C++, Java и Python. Привязки Python для OpenCV, известные как opencv-python, позволяют разработчикам Python легко использовать возможности OpenCV в своих приложениях.
▪Читать
@data_analysis_ml
OpenCV – это библиотека с открытым исходным кодом, которая предоставляет разработчикам инструменты и алгоритмы для задач компьютерного зрения и машинного обучения.
Она поддерживает несколько языков программирования, включая C++, Java и Python. Привязки Python для OpenCV, известные как opencv-python, позволяют разработчикам Python легко использовать возможности OpenCV в своих приложениях.
▪Читать
@data_analysis_ml
👍10🔥2❤1
Я решил подробно рассказать о том, как я подхожу к использованию SQL для запроса баз данных. Я принял участие в еженедельном конкурсе Danny’s SQL challenge, чтобы начать тематическое исследование по этой теме. Вся необходимая вам информация об этом испытании доступна здесь.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍3🔥3
В этом пошаговом руководстве я покажу вам, как создать чат-бота с искусственным интеллектом с помощью Python.
Не волнуйтесь, если вы ничего не смыслите в программировании – я объясню всё на понятном языке, а примеры кода будут очень простыми.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥2❤1⚡1👎1
Pathlib, возможно, моя любимая библиотека (очевидно, после Sklearn). А учитывая, что в мире насчитывается более 130 тысяч библиотек, это о чём-то да говорит. Pathlib помогает мне превратить подобный код, написанный в os.path…
import os
dir_path = "/home/user/documents"
files = [os.path.join(dir_path, f) for f in os.listdir(dir_path) \
if
os.path.isfile(os.path.join(dir_path, f)) and f.endswith(".txt")]
…в это:
from pathlib import Path
files = list(dir_path.glob("*.txt"))
▪ Читать дальше
@data_analysis_ml1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥5❤1
Заставить функцию работать – это одно. Другое дело – реализовать это с помощью точного и элегантного кода.
Как упоминалось в “The Zen of Python”: “красивое лучше, чем уродливое”. Хороший язык программирования, такой как Python, всегда предоставит соответствующий синтаксический сахар, который поможет разработчикам легко писать элегантный код.
В этой статье освещаются 19 важнейших синтаксических ошибок в Python. Путь к мастерству предполагает их понимание и умелое использование.
▪ Читать
@data_analysis_ml1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤2🔥2🤨1
🗒 Пайплайн для создания классификации текстовой информации
Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.
Представим ситуацию. Перед вами важная задача — классифицировать огромный поток входящих обращений сотрудников/клиентов для дальнейшего анализа профильными сотрудниками на предмет отклонений и для построения интересующих статистик. Первое решение, приходящее в голову — в ручном режиме просматривать обращения и проводить их классификацию. Спустя пару часов, приходит осознание того, что решение было не самым правильным и так задачу не выполнить в срок. Как же тогда поступить? Именно об этом будет следующий пост.
Задача классификации текстовых данных на языке Python довольно обширная тема, в ней могут встречаться как automl‑подходы, модели тематического моделирования так и нейросетевые методы. В рамках данного поста будет рассмотрен относительно эталонный pipeline для решения данной задачи с помощью классических моделей машинного обучения, предназначенных для классификации.
▪ Читать
@data_analysis_ml1
Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.
Представим ситуацию. Перед вами важная задача — классифицировать огромный поток входящих обращений сотрудников/клиентов для дальнейшего анализа профильными сотрудниками на предмет отклонений и для построения интересующих статистик. Первое решение, приходящее в голову — в ручном режиме просматривать обращения и проводить их классификацию. Спустя пару часов, приходит осознание того, что решение было не самым правильным и так задачу не выполнить в срок. Как же тогда поступить? Именно об этом будет следующий пост.
Задача классификации текстовых данных на языке Python довольно обширная тема, в ней могут встречаться как automl‑подходы, модели тематического моделирования так и нейросетевые методы. В рамках данного поста будет рассмотрен относительно эталонный pipeline для решения данной задачи с помощью классических моделей машинного обучения, предназначенных для классификации.
▪ Читать
@data_analysis_ml1
👍10❤🔥4❤3🔥2