Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
269 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🖥 13 упражнений по SQL с решениями

В этом наборе упражнений мы поработаем с SQL и T-SQL. С помощью этих упражнений мы будем создавать различные запросы SQL и T-SQL, чтобы отточить навыки работы с запросами.

Независимо от того, являетесь ли вы новичком или опытным разработчиком, эти упражнения помогут укрепить знания и подготовиться к реальным собеседованиям. Так что давайте погрузимся в работу и начнём решать задачи!

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🥰21
Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

Добрый день! В посте, на примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.

Задача тематического моделирования возникает очень часто, когда существует необходимость в обработке большого количества текстовой информации.

Тематическое моделирование – это разбиение коллекции текстовых документов на группы, в которых элементы имеют общую тематику. Стоит понимать, что один документ может иметь разные темы, в таком случае документ определяется распределением тематик, однако для нашей задачи крайне необходимо, чтобы документ однозначно принадлежал определенной группе. Использование метода предполагает то, что никаких дополнительных данных, кроме самого текста не используется.

Способов применения тематического моделирования в реальных задачах множество. Например, вы можете автоматически определять тематику письма в электронной почте, а после ранжировать его.

В задаче информационного поиска тематическое моделирование позволяет более качественно отбирать информацию по текстовому запросу. Исследователям, которые работают с текстовой информацией просто необходим инструмент, который может структурировать объемные текстовые массивы. Интересно и то, что предметом исследования может быть не только человеческий язык, но и любые текстоподобные данные: программный код, банковские транзакции, музыкальные произведения.

Читать

@data_analysis_ml
👍82🥰1
🔍 Конвейер данных в реальном времени с Kafka и ClickHouse

Построим конвейер данных с их приемом в ClickHouse через Kafka и агрегированием автоматически обновляемых данных. Возьмем набор данных о мировых ценах на продовольствие, хоть и неидеальный для Kafka из-за отсутствия критериев скорости.

Сначала создадим на Python скрипт для выдачи сообщений — строк набора данных. Затем настроим ClickHouse для их получения и обработки, а после поэкспериментируем с представлением в реальном времени и удалением данных.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥2
Повысьте производительность ChatGPT с помощью Prompt Engineering

ChatGPT генерирует ответы, используя метод, называемый авторегрессией, который включает в себя предсказание наиболее вероятного следующего слова в последовательности на основе предыдущих слов. Но, если вы попробуете ChatGPT, вы поймёте, что качество данного ответа напрямую будет зависеть от качества вопроса.

Секрет получения наилучшего возможного ответа заключается в том, чтобы понять, как ChatGPT будет его генерировать, и соответствующим образом сформулировать вопрос.

В этой статье мы обсудим несколько приёмов написания хороших подсказок для ChatGPT, чтобы вы могли использовать их для решения желаемой задачи.

Читать
@Chatgpturbobot

@data_analysis_ml
👍84🔥1
🖥 Наборы данных для машинного обучения (ML) и экспериментов

Как специалист по Data Science, могу сказать, что данные являются основой любого проекта. В этой статье рассматриваются наиболее распространённые и популярные наборы данных.

Также мы привели примеры кода для извлечения данных и загрузки в DataFrame. Давайте начинать!

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94🔥2🥰1
⚜️ Meta AI представляет революционную модель сегментации изображений, обученную на 1 миллиарде масок

После революционного шага, сделанного ChatGPT от OpenAI в области NLP, развитие искусственного интеллекта продолжается, и Meta AI вносит поразительный прогресс в компьютерное зрение.

Исследовательская группа Meta AI представила модель под названием Segment Anything Model (SAM) и набор данных из 1 миллиарда масок на 11 миллионах изображений.

Сегментация изображения – это разбиение изображения на множество покрывающих его областей.

Читать
Github
Project
Статья
Датасет

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥117👍3
📊 Визуализация траекторий движения инструмента при обработке ЧПУ с помощью динамической точечной 3D-диаграммы

В этой статье мы исследуем потенциал метода визуализации для получения представления о траектории движения режущего инструмента во время обработки. Мы демонстрируем, как визуализация помогла выявить проблемы с новыми данными, показывая, что проблемы были в самом процессе, а не в модели.

Наши результаты подчёркивают важность визуализации данных как инструмента для получения информации о сложных процессах и устранения неполадок в моделях машинного обучения.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥1
🖥 Дзен Python ООП: лучшие практики и шаблоны проектирования Python

🎞 Video
Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91🔥1
👁‍🗨 Освоение OpenCV с помощью Python: Полное руководство по обработке изображений и компьютерному зрению

OpenCV – это библиотека с открытым исходным кодом, которая предоставляет разработчикам инструменты и алгоритмы для задач компьютерного зрения и машинного обучения.

Она поддерживает несколько языков программирования, включая C++, Java и Python. Привязки Python для OpenCV, известные как opencv-python, позволяют разработчикам Python легко использовать возможности OpenCV в своих приложениях.

Читать

@data_analysis_ml
👍10🔥21
🖥 Освоение SQL: Использование данных для решения сложных задач

Я решил подробно рассказать о том, как я подхожу к использованию SQL для запроса баз данных. Я принял участие в еженедельном конкурсе Danny’s SQL challenge, чтобы начать тематическое исследование по этой теме. Вся необходимая вам информация об этом испытании доступна здесь.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍3🔥3
🤖 Создайте своего собственного чат-бота с искусственным интеллектом на Python

В этом пошаговом руководстве я покажу вам, как создать чат-бота с искусственным интеллектом с помощью Python.

Не волнуйтесь, если вы ничего не смыслите в программировании – я объясню всё на понятном языке, а примеры кода будут очень простыми.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥211👎1
🖥 Прощай, os.path: 15 хитростей Pathlib для быстрого освоения файловой системы на Python

Pathlib, возможно, моя любимая библиотека (очевидно, после Sklearn). А учитывая, что в мире насчитывается более 130 тысяч библиотек, это о чём-то да говорит. Pathlib помогает мне превратить подобный код, написанный в os.path…

import os

dir_path = "/home/user/documents"

files = [os.path.join(dir_path, f) for f in os.listdir(dir_path) \
if
os.path.isfile(os.path.join(dir_path, f)) and f.endswith(".txt")]

…в это:

from pathlib import Path

files = list(dir_path.glob("*.txt"))


Читать дальше

@data_analysis_ml1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥51
🖥 19 советов для улучшения вашего синтаксиса в Python

Заставить функцию работать – это одно. Другое дело – реализовать это с помощью точного и элегантного кода.

Как упоминалось в “The Zen of Python”: “красивое лучше, чем уродливое”. Хороший язык программирования, такой как Python, всегда предоставит соответствующий синтаксический сахар, который поможет разработчикам легко писать элегантный код.

В этой статье освещаются 19 важнейших синтаксических ошибок в Python. Путь к мастерству предполагает их понимание и умелое использование.

Читать

@data_analysis_ml1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍122🔥2🤨1
🗒 Пайплайн для создания классификации текстовой информации

Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.

Представим ситуацию. Перед вами важная задача — классифицировать огромный поток входящих обращений сотрудников/клиентов для дальнейшего анализа профильными сотрудниками на предмет отклонений и для построения интересующих статистик. Первое решение, приходящее в голову — в ручном режиме просматривать обращения и проводить их классификацию. Спустя пару часов, приходит осознание того, что решение было не самым правильным и так задачу не выполнить в срок. Как же тогда поступить? Именно об этом будет следующий пост.

Задача классификации текстовых данных на языке Python довольно обширная тема, в ней могут встречаться как automl‑подходы, модели тематического моделирования так и нейросетевые методы. В рамках данного поста будет рассмотрен относительно эталонный pipeline для решения данной задачи с помощью классических моделей машинного обучения, предназначенных для классификации.

Читать

@data_analysis_ml1
👍10❤‍🔥43🔥2
🤖 Создайте чат-бота с нуля, используя Python и TensorFlow

Создание чат-бота может быть сложной задачей, но при наличии правильных инструментов и техник это может стать увлекательным и полезным занятием. В этом руководстве мы создадим простого чат-бота с использованием Python и библиотеки Natural Language Toolkit (NLTK).

Вот шаги, которым мы будем следовать:

Настройка среды разработки
Определение постановки задач
Сбор и предварительная обработка данных
Обучение модели
Создание интерфейса чат-бота
Тестирование чат-бота

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍124👎1🔥1
🖥 Скрытые возможности Python: набор инструментов для эффективного и гибкого написания кода

Добро пожаловать в мир Python, универсального и мощного языка программирования, известного своей простотой, удобочитаемостью и обширной экосистемой библиотек.

В этой статье мы рассмотрим скрытые функциональные возможности Python, включая магические методы, контекстные менеджеры, понимание списков, декораторы, генераторы, динамическую типизацию и метапрограммирование, которые могут значительно улучшить ваши навыки программирования.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍131🔥1
Как ChatGPT и GPT-4 можно использовать для создания 3D-контента

Спрос на 3D-миры и виртуальные среды растёт в геометрической прогрессии во всех отраслях промышленности. 3D-рабочие процессы являются основой промышленной цифровизации, разработки симуляций в реальном времени для тестирования и валидации автономных транспортных средств и роботов, эксплуатации цифровых двойников для оптимизации промышленного производства и прокладывания новых путей для научных открытий.

Сегодня 3D-дизайн и построение мира по-прежнему в значительной степени выполняются вручную. В то время как 2D-художники и дизайнеры получили в своё распоряжение вспомогательные инструменты, 3D-рабочие процессы по-прежнему заполнены повторяющимися, утомительными задачами.

Создание или поиск объектов – это трудоёмкий процесс, требующий специальных навыков 3D, оттачиваемых с течением времени, таких как моделирование и текстурирование. Правильное размещение объектов и доведение 3D-среды до совершенства требует нескольких часов тонкой настройки.

Чтобы сократить количество ручных, повторяющихся задач и помочь создателям и дизайнерам сосредоточиться на творческих, приятных аспектах своей работы, NVIDIA запустила множество проектов в области искусственного интеллекта, таких как generative AI tools для виртуальных миров.

Читать
@Chatgpturbobot

@data_analysis_ml
👍54🔥3
🔥 Проекты курса Аналитик данных (Яндекс.Практикум)

В репозитории представлены проекты c кодом курса Аналитик данных. Отличный вариант для практики.

🖥 https://github.com/ovalentinka/Data_analyst?

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👎23👍119🔥3
Разработчики, архитекторы, Data Science и R&D-специалисты Нижнего Новгорода, вы здесь? Сбер приглашает вас на инженерный митап RecSys Community, который пройдет 25 апреля в Сo-working Garage 💻

О чем расскажут спикеры?

✔️ Рассмотрят подходы к применению трансформеров в рекомендательных системах и поделятся успешными кейсам.

✔️ Покажут, как используют AmazMe для обработки персонализированных и мультимодальных рекомендаций.

✔️ Раскроют все секреты, какие изменения помогли сделать рекомендательную систему поиска друзей такой точной.

Конечно же, на митапе будут Q&A-сессии, кофе-брейк, розыгрыш мерча и интересное общение. Встречаемся 25 апреля в Co-working Garage по адресу: ул. Октябрьская, д.35. Сбор гостей в 18:30.

Зарегистрироваться!⚡️
👍32💔1
🖥 9 встроенных декораторов Python, которые помогут оптимизировать код

“Лучше проще, чем сложнее” — оптимальным примером использования этого философского положения “Python-дзена” являются декораторы.
Важно помнить, что существует много функциональных встроенных декораторов Python, которые значительно облегчают жизнь разработчику. С их помощью можно использовать всего одну строку кода для добавления сложных функций к существующим функциям и классам.

Представляю вашему вниманию топ-9 декораторов, которые покажут, насколько элегантным может быть Python.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥41