В этом наборе упражнений мы поработаем с SQL и T-SQL. С помощью этих упражнений мы будем создавать различные запросы SQL и T-SQL, чтобы отточить навыки работы с запросами.
Независимо от того, являетесь ли вы новичком или опытным разработчиком, эти упражнения помогут укрепить знания и подготовиться к реальным собеседованиям. Так что давайте погрузимся в работу и начнём решать задачи!
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🥰2❤1
Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN
Добрый день! В посте, на примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.
Задача тематического моделирования возникает очень часто, когда существует необходимость в обработке большого количества текстовой информации.
Тематическое моделирование – это разбиение коллекции текстовых документов на группы, в которых элементы имеют общую тематику. Стоит понимать, что один документ может иметь разные темы, в таком случае документ определяется распределением тематик, однако для нашей задачи крайне необходимо, чтобы документ однозначно принадлежал определенной группе. Использование метода предполагает то, что никаких дополнительных данных, кроме самого текста не используется.
Способов применения тематического моделирования в реальных задачах множество. Например, вы можете автоматически определять тематику письма в электронной почте, а после ранжировать его.
В задаче информационного поиска тематическое моделирование позволяет более качественно отбирать информацию по текстовому запросу. Исследователям, которые работают с текстовой информацией просто необходим инструмент, который может структурировать объемные текстовые массивы. Интересно и то, что предметом исследования может быть не только человеческий язык, но и любые текстоподобные данные: программный код, банковские транзакции, музыкальные произведения.
▪Читать
@data_analysis_ml
Добрый день! В посте, на примере задачи поиска логических ошибок робота, я продемонстрирую, как методы тематического моделирования помогут исследователя при работе с большим объемом текстовых данных.
Задача тематического моделирования возникает очень часто, когда существует необходимость в обработке большого количества текстовой информации.
Тематическое моделирование – это разбиение коллекции текстовых документов на группы, в которых элементы имеют общую тематику. Стоит понимать, что один документ может иметь разные темы, в таком случае документ определяется распределением тематик, однако для нашей задачи крайне необходимо, чтобы документ однозначно принадлежал определенной группе. Использование метода предполагает то, что никаких дополнительных данных, кроме самого текста не используется.
Способов применения тематического моделирования в реальных задачах множество. Например, вы можете автоматически определять тематику письма в электронной почте, а после ранжировать его.
В задаче информационного поиска тематическое моделирование позволяет более качественно отбирать информацию по текстовому запросу. Исследователям, которые работают с текстовой информацией просто необходим инструмент, который может структурировать объемные текстовые массивы. Интересно и то, что предметом исследования может быть не только человеческий язык, но и любые текстоподобные данные: программный код, банковские транзакции, музыкальные произведения.
▪Читать
@data_analysis_ml
👍8❤2🥰1
Построим конвейер данных с их приемом в ClickHouse через Kafka и агрегированием автоматически обновляемых данных. Возьмем набор данных о мировых ценах на продовольствие, хоть и неидеальный для Kafka из-за отсутствия критериев скорости.
Сначала создадим на Python скрипт для выдачи сообщений — строк набора данных. Затем настроим ClickHouse для их получения и обработки, а после поэкспериментируем с представлением в реальном времени и удалением данных.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤2🔥2
Повысьте производительность ChatGPT с помощью Prompt Engineering
ChatGPT генерирует ответы, используя метод, называемый авторегрессией, который включает в себя предсказание наиболее вероятного следующего слова в последовательности на основе предыдущих слов. Но, если вы попробуете ChatGPT, вы поймёте, что качество данного ответа напрямую будет зависеть от качества вопроса.
Секрет получения наилучшего возможного ответа заключается в том, чтобы понять, как ChatGPT будет его генерировать, и соответствующим образом сформулировать вопрос.
В этой статье мы обсудим несколько приёмов написания хороших подсказок для ChatGPT, чтобы вы могли использовать их для решения желаемой задачи.
▪Читать
@Chatgpturbobot
@data_analysis_ml
ChatGPT генерирует ответы, используя метод, называемый авторегрессией, который включает в себя предсказание наиболее вероятного следующего слова в последовательности на основе предыдущих слов. Но, если вы попробуете ChatGPT, вы поймёте, что качество данного ответа напрямую будет зависеть от качества вопроса.
Секрет получения наилучшего возможного ответа заключается в том, чтобы понять, как ChatGPT будет его генерировать, и соответствующим образом сформулировать вопрос.
В этой статье мы обсудим несколько приёмов написания хороших подсказок для ChatGPT, чтобы вы могли использовать их для решения желаемой задачи.
▪Читать
@Chatgpturbobot
@data_analysis_ml
👍8❤4🔥1
Как специалист по Data Science, могу сказать, что данные являются основой любого проекта. В этой статье рассматриваются наиболее распространённые и популярные наборы данных.
Также мы привели примеры кода для извлечения данных и загрузки в DataFrame. Давайте начинать!
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤4🔥2🥰1
После революционного шага, сделанного ChatGPT от OpenAI в области NLP, развитие искусственного интеллекта продолжается, и Meta AI вносит поразительный прогресс в компьютерное зрение.
Исследовательская группа Meta AI представила модель под названием Segment Anything Model (SAM) и набор данных из 1 миллиарда масок на 11 миллионах изображений.
Сегментация изображения – это разбиение изображения на множество покрывающих его областей.
▪ Читать
▪ Github
▪ Project
▪Статья
▪Датасет
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤7👍3
В этой статье мы исследуем потенциал метода визуализации для получения представления о траектории движения режущего инструмента во время обработки. Мы демонстрируем, как визуализация помогла выявить проблемы с новыми данными, показывая, что проблемы были в самом процессе, а не в модели.
Наши результаты подчёркивают важность визуализации данных как инструмента для получения информации о сложных процессах и устранения неполадок в моделях машинного обучения.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥1
👁🗨 Освоение OpenCV с помощью Python: Полное руководство по обработке изображений и компьютерному зрению
OpenCV – это библиотека с открытым исходным кодом, которая предоставляет разработчикам инструменты и алгоритмы для задач компьютерного зрения и машинного обучения.
Она поддерживает несколько языков программирования, включая C++, Java и Python. Привязки Python для OpenCV, известные как opencv-python, позволяют разработчикам Python легко использовать возможности OpenCV в своих приложениях.
▪Читать
@data_analysis_ml
OpenCV – это библиотека с открытым исходным кодом, которая предоставляет разработчикам инструменты и алгоритмы для задач компьютерного зрения и машинного обучения.
Она поддерживает несколько языков программирования, включая C++, Java и Python. Привязки Python для OpenCV, известные как opencv-python, позволяют разработчикам Python легко использовать возможности OpenCV в своих приложениях.
▪Читать
@data_analysis_ml
👍10🔥2❤1
Я решил подробно рассказать о том, как я подхожу к использованию SQL для запроса баз данных. Я принял участие в еженедельном конкурсе Danny’s SQL challenge, чтобы начать тематическое исследование по этой теме. Вся необходимая вам информация об этом испытании доступна здесь.
▪Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍3🔥3
В этом пошаговом руководстве я покажу вам, как создать чат-бота с искусственным интеллектом с помощью Python.
Не волнуйтесь, если вы ничего не смыслите в программировании – я объясню всё на понятном языке, а примеры кода будут очень простыми.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥2❤1⚡1👎1
Pathlib, возможно, моя любимая библиотека (очевидно, после Sklearn). А учитывая, что в мире насчитывается более 130 тысяч библиотек, это о чём-то да говорит. Pathlib помогает мне превратить подобный код, написанный в os.path…
import os
dir_path = "/home/user/documents"
files = [os.path.join(dir_path, f) for f in os.listdir(dir_path) \
if
os.path.isfile(os.path.join(dir_path, f)) and f.endswith(".txt")]
…в это:
from pathlib import Path
files = list(dir_path.glob("*.txt"))
▪ Читать дальше
@data_analysis_ml1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥5❤1
Заставить функцию работать – это одно. Другое дело – реализовать это с помощью точного и элегантного кода.
Как упоминалось в “The Zen of Python”: “красивое лучше, чем уродливое”. Хороший язык программирования, такой как Python, всегда предоставит соответствующий синтаксический сахар, который поможет разработчикам легко писать элегантный код.
В этой статье освещаются 19 важнейших синтаксических ошибок в Python. Путь к мастерству предполагает их понимание и умелое использование.
▪ Читать
@data_analysis_ml1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤2🔥2🤨1
🗒 Пайплайн для создания классификации текстовой информации
Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.
Представим ситуацию. Перед вами важная задача — классифицировать огромный поток входящих обращений сотрудников/клиентов для дальнейшего анализа профильными сотрудниками на предмет отклонений и для построения интересующих статистик. Первое решение, приходящее в голову — в ручном режиме просматривать обращения и проводить их классификацию. Спустя пару часов, приходит осознание того, что решение было не самым правильным и так задачу не выполнить в срок. Как же тогда поступить? Именно об этом будет следующий пост.
Задача классификации текстовых данных на языке Python довольно обширная тема, в ней могут встречаться как automl‑подходы, модели тематического моделирования так и нейросетевые методы. В рамках данного поста будет рассмотрен относительно эталонный pipeline для решения данной задачи с помощью классических моделей машинного обучения, предназначенных для классификации.
▪ Читать
@data_analysis_ml1
Актуальность работы с большими объемами текстовой информации ещё долгое время (а может быть и всегда) будет неоспорима. При этом спектр задач весьма вариативен — от задач по поиску именованных сущностей, до классификации и кластеризации текстов обрабатываемых документов.
Представим ситуацию. Перед вами важная задача — классифицировать огромный поток входящих обращений сотрудников/клиентов для дальнейшего анализа профильными сотрудниками на предмет отклонений и для построения интересующих статистик. Первое решение, приходящее в голову — в ручном режиме просматривать обращения и проводить их классификацию. Спустя пару часов, приходит осознание того, что решение было не самым правильным и так задачу не выполнить в срок. Как же тогда поступить? Именно об этом будет следующий пост.
Задача классификации текстовых данных на языке Python довольно обширная тема, в ней могут встречаться как automl‑подходы, модели тематического моделирования так и нейросетевые методы. В рамках данного поста будет рассмотрен относительно эталонный pipeline для решения данной задачи с помощью классических моделей машинного обучения, предназначенных для классификации.
▪ Читать
@data_analysis_ml1
👍10❤🔥4❤3🔥2
Создание чат-бота может быть сложной задачей, но при наличии правильных инструментов и техник это может стать увлекательным и полезным занятием. В этом руководстве мы создадим простого чат-бота с использованием Python и библиотеки Natural Language Toolkit (NLTK).
Вот шаги, которым мы будем следовать:
▪Настройка среды разработки
▪Определение постановки задач
▪Сбор и предварительная обработка данных
▪Обучение модели
▪Создание интерфейса чат-бота
▪Тестирование чат-бота
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤4👎1🔥1
Добро пожаловать в мир Python, универсального и мощного языка программирования, известного своей простотой, удобочитаемостью и обширной экосистемой библиотек.
В этой статье мы рассмотрим скрытые функциональные возможности Python, включая магические методы, контекстные менеджеры, понимание списков, декораторы, генераторы, динамическую типизацию и метапрограммирование, которые могут значительно улучшить ваши навыки программирования.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤1🔥1
Как ChatGPT и GPT-4 можно использовать для создания 3D-контента
Спрос на 3D-миры и виртуальные среды растёт в геометрической прогрессии во всех отраслях промышленности. 3D-рабочие процессы являются основой промышленной цифровизации, разработки симуляций в реальном времени для тестирования и валидации автономных транспортных средств и роботов, эксплуатации цифровых двойников для оптимизации промышленного производства и прокладывания новых путей для научных открытий.
Сегодня 3D-дизайн и построение мира по-прежнему в значительной степени выполняются вручную. В то время как 2D-художники и дизайнеры получили в своё распоряжение вспомогательные инструменты, 3D-рабочие процессы по-прежнему заполнены повторяющимися, утомительными задачами.
Создание или поиск объектов – это трудоёмкий процесс, требующий специальных навыков 3D, оттачиваемых с течением времени, таких как моделирование и текстурирование. Правильное размещение объектов и доведение 3D-среды до совершенства требует нескольких часов тонкой настройки.
Чтобы сократить количество ручных, повторяющихся задач и помочь создателям и дизайнерам сосредоточиться на творческих, приятных аспектах своей работы, NVIDIA запустила множество проектов в области искусственного интеллекта, таких как generative AI tools для виртуальных миров.
▪ Читать
▪ @Chatgpturbobot
@data_analysis_ml
Спрос на 3D-миры и виртуальные среды растёт в геометрической прогрессии во всех отраслях промышленности. 3D-рабочие процессы являются основой промышленной цифровизации, разработки симуляций в реальном времени для тестирования и валидации автономных транспортных средств и роботов, эксплуатации цифровых двойников для оптимизации промышленного производства и прокладывания новых путей для научных открытий.
Сегодня 3D-дизайн и построение мира по-прежнему в значительной степени выполняются вручную. В то время как 2D-художники и дизайнеры получили в своё распоряжение вспомогательные инструменты, 3D-рабочие процессы по-прежнему заполнены повторяющимися, утомительными задачами.
Создание или поиск объектов – это трудоёмкий процесс, требующий специальных навыков 3D, оттачиваемых с течением времени, таких как моделирование и текстурирование. Правильное размещение объектов и доведение 3D-среды до совершенства требует нескольких часов тонкой настройки.
Чтобы сократить количество ручных, повторяющихся задач и помочь создателям и дизайнерам сосредоточиться на творческих, приятных аспектах своей работы, NVIDIA запустила множество проектов в области искусственного интеллекта, таких как generative AI tools для виртуальных миров.
▪ Читать
▪ @Chatgpturbobot
@data_analysis_ml
👍5❤4🔥3
🔥 Проекты курса Аналитик данных (Яндекс.Практикум)
В репозитории представлены проекты c кодом курса Аналитик данных. Отличный вариант для практики.
🖥 https://github.com/ovalentinka/Data_analyst?
@data_analysis_ml
В репозитории представлены проекты c кодом курса Аналитик данных. Отличный вариант для практики.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👎23👍11❤9🔥3
Разработчики, архитекторы, Data Science и R&D-специалисты Нижнего Новгорода, вы здесь? Сбер приглашает вас на инженерный митап RecSys Community, который пройдет 25 апреля в Сo-working Garage 💻
О чем расскажут спикеры?
✔️ Рассмотрят подходы к применению трансформеров в рекомендательных системах и поделятся успешными кейсам.
✔️ Покажут, как используют AmazMe для обработки персонализированных и мультимодальных рекомендаций.
✔️ Раскроют все секреты, какие изменения помогли сделать рекомендательную систему поиска друзей такой точной.
Конечно же, на митапе будут Q&A-сессии, кофе-брейк, розыгрыш мерча и интересное общение. Встречаемся 25 апреля в Co-working Garage по адресу: ул. Октябрьская, д.35. Сбор гостей в 18:30.
Зарегистрироваться!⚡️
О чем расскажут спикеры?
✔️ Рассмотрят подходы к применению трансформеров в рекомендательных системах и поделятся успешными кейсам.
✔️ Покажут, как используют AmazMe для обработки персонализированных и мультимодальных рекомендаций.
✔️ Раскроют все секреты, какие изменения помогли сделать рекомендательную систему поиска друзей такой точной.
Конечно же, на митапе будут Q&A-сессии, кофе-брейк, розыгрыш мерча и интересное общение. Встречаемся 25 апреля в Co-working Garage по адресу: ул. Октябрьская, д.35. Сбор гостей в 18:30.
Зарегистрироваться!⚡️
👍3❤2💔1
“Лучше проще, чем сложнее” — оптимальным примером использования этого философского положения “Python-дзена” являются декораторы.
Важно помнить, что существует много функциональных встроенных декораторов Python, которые значительно облегчают жизнь разработчику. С их помощью можно использовать всего одну строку кода для добавления сложных функций к существующим функциям и классам.
Представляю вашему вниманию топ-9 декораторов, которые покажут, насколько элегантным может быть Python.
▪ Читать
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥4❤1