Яндекс уже применяет нейросеть YandexGPT в браузере и в Алисе, голосовом помощнике. Какие профессии нужны, чтобы нейросеть становилась умнее, и как отбирают данные для обучения — расскажут сотрудники, работающие над YandexGPT.
→ Бесплатно, 21 августа в 19:00 Мск
Наши спикеры:
◾️Николай Зинов
Руководитель группы YaLM Alignment в Яндексе
◾️Ирина Барская
Руководитель службы аналитики и исследований в Яндексе
Вы узнаете:
— что такое нейросетевые языковые модели;
— как модель предобучают на гигантском наборе текстов, а затем учат делать то, что попросит человек;
— кто в этом участвует: разработчики, аналитики и другие специалисты;
— как аналитики собирают данные и почему эти данные так важны.
→ Зарегистрируйтесь на вебинар
Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid:LjN8JvPzS
→ Бесплатно, 21 августа в 19:00 Мск
Наши спикеры:
◾️Николай Зинов
Руководитель группы YaLM Alignment в Яндексе
◾️Ирина Барская
Руководитель службы аналитики и исследований в Яндексе
Вы узнаете:
— что такое нейросетевые языковые модели;
— как модель предобучают на гигантском наборе текстов, а затем учат делать то, что попросит человек;
— кто в этом участвует: разработчики, аналитики и другие специалисты;
— как аналитики собирают данные и почему эти данные так важны.
→ Зарегистрируйтесь на вебинар
Реклама АНО ДПО "Образовательные технологии Яндекса", ИНН:7704282033, erid:LjN8JvPzS
👍5👎2
✔ Redis Explained
Глубокое техническое погружение во все тонкости Redis.
В статье рассматриваются различные топологии Redis, персистентность данных и форкинг процессов.
Отличная иллюстрированная статья для глубокого понимания Redis.
▪Читать
@data_analysis_ml
Глубокое техническое погружение во все тонкости Redis.
В статье рассматриваются различные топологии Redis, персистентность данных и форкинг процессов.
Отличная иллюстрированная статья для глубокого понимания Redis.
▪Читать
@data_analysis_ml
👍10🔥2❤1
Для решения задачи мониторинга данных в голландском банке ING была разработана библиотека Popmon для Python, название которой является сокращением от «population monitoring» — «наблюдение за популяцией».
В качестве датасета для демонстрации я буду использовать данные ежедневных замеров метеорологических сенсоров с 1961 по 1978 год: показания трех датчиков, минимальная и максимальная температура воздуха, минимальная температура травы, количество осадков и скорость ветра. Целью датасета является предсказание скорости ветра. Источник находится здесь.
Данная библиотека позволяет найти отклонения по входным и выходным данным в датасетах. Также имеется возможность провести сравнительный анализ датасета на основе статистики из другого.
Popmon умеет работать с датафреймами из библиотек Pandas и PySpark. В целях демонстрации я буду использовать Pandas.
▪Читать дальше
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3🥰1
🟡 Дайджест полезных материалов из мира : Data Science за неделю
Почитать:
— Опыт работы с данными или с чем может столкнуться аналитик
— Кто, как и ради чего создаёт онлайн-образование в IT-сфере: истории пяти экспертов
— Тестирование грамматики Llama Cpp, основанной на ограничениях выборки
— 2 ВИЗУАЛИЗАЦИИ, КОТОРЫЕ ЛЕГЧЕ С ПИТОНОМ (по сравнению с TABLEAU)
— Как получить real-time данные смарт-контракта, используя The Graph (пишем свой сабграф)
— Apache Spark 3.4 для Databricks Runtime 13.0
— ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock
— Enhancing Database Performance: In-Depth Query Optimization with ApacheAGE
— Step by step guide to becoming a Data Scientist in 2023
— Visual Language Processing: Bridging Vision and Language with Transformers
— Guia Avançado do Método `merge` no Pandas com Exemplos
— 8 Completely FREE Big Data Resources
— CV-based self-diagnosis telemedicine application
— A Powerful Tool for Data Engineers: Apache Doris 2.0.0 is Production-Ready!
— Embracing Modularity: Template for Structuring Machine Learning Projects
— ⛏ Get Mining into Data with These Top 5 Resources
— Python Data Type
Посмотреть:
🌐 Универсальный рецепт по написанию и аннотированию декораторов Python.
🌐 NVIDIA Omniverse: Virtual Worlds Come Alive
🌐 Lightning Interview "Hands-On Generative AI Applications"
Хорошего дня!
@data_analysis_ml
Почитать:
— Опыт работы с данными или с чем может столкнуться аналитик
— Кто, как и ради чего создаёт онлайн-образование в IT-сфере: истории пяти экспертов
— Тестирование грамматики Llama Cpp, основанной на ограничениях выборки
— 2 ВИЗУАЛИЗАЦИИ, КОТОРЫЕ ЛЕГЧЕ С ПИТОНОМ (по сравнению с TABLEAU)
— Как получить real-time данные смарт-контракта, используя The Graph (пишем свой сабграф)
— Apache Spark 3.4 для Databricks Runtime 13.0
— ML-искусство переживать проблемы: как избегать разочарований и находить аналоги товаров в периоды out-of-stock
— Enhancing Database Performance: In-Depth Query Optimization with ApacheAGE
— Step by step guide to becoming a Data Scientist in 2023
— Visual Language Processing: Bridging Vision and Language with Transformers
— Guia Avançado do Método `merge` no Pandas com Exemplos
— 8 Completely FREE Big Data Resources
— CV-based self-diagnosis telemedicine application
— A Powerful Tool for Data Engineers: Apache Doris 2.0.0 is Production-Ready!
— Embracing Modularity: Template for Structuring Machine Learning Projects
— ⛏ Get Mining into Data with These Top 5 Resources
— Python Data Type
Посмотреть:
🌐 Универсальный рецепт по написанию и аннотированию декораторов Python.
🌐 NVIDIA Omniverse: Virtual Worlds Come Alive
🌐 Lightning Interview "Hands-On Generative AI Applications"
Хорошего дня!
@data_analysis_ml
👍8🔥4❤3
Если вы хотите автоматически спарить веб-сайт за несколько строк кода на #Python, попробуйте autoscraper.
С помощью autoscraper можно извлекать элементы с определенными шаблонами, просто предоставив текст с этим шаблоном.
$ pip install autoscraper
▪Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥4❤1
Парсинг или веб-скрапинг — это автоматизированный сбор и структурирование информации из открытых источников при помощи специальной программы, называемой парсером. Технически получить доступ к открытой информации можно с помощью API, но как правило доступ ограничен или требует вложения денежных средств.
Рассмотрим принцип работы парсинга. Данный процесс происходит в несколько этапов:
1. Отправка HTTP-запроса на сервер.
2. Поиск необходимых данных.
3. Трансформация полученных данных.
При отправке HTTP-запроса на сервер у нас есть два варианта:
• отправить запрос и ждать, пока сервер даст ответ (синхронный запрос);
• отправить запрос и продолжить работу. Когда данные будут получены, программа вызовет функцию обработчик события (асинхронный запрос).
У каждой из представленных реализаций есть свои плюсы и минусы. Так, например, асинхронный запрос значительно увеличивает производительность кода, поскольку позволяет обрабатывать несколько запросов одновременно, но его довольно сложно реализовать. В свою очередь, синхронный запрос прост в разработке и отладке, но имеет низкую эффективность за счёт последовательной отправки HTTP-запросов.
Основные проблемы парсинга
Парсинг, как и любая технология, сталкивается с рядом проблем. Перечислим наиболее актуальные:
• блокировка доступа к данным: использование CAPTCHA, блокирование IP-адресов и другое;
• скорость выполнения: большой объем данных требует много ресурсов и времени;
• сложность обработки ошибок: ошибки соединения, ошибки синтаксиса и другие;
• работа с динамическим контентом: необходимо разрабатывать специальные инструменты для анализа сайтов, использующих технологии ajax и javascript.
Реализация парсера на основе Beautiful Soup. Обзор возможностей.
Beautiful Soup — это библиотека Python для извлечения данных из файлов форматов HTML и XML. Beautiful Soup (или BS4) использует DOM-модель (Document Object Model) для трансформации и извлечения данных.
Основными возможностями BS4 являются:
• поиск элементов на странице по тегу, классу, id и другим атрибутам;
• извлечение текста и атрибутов элементов;
• навигация по дереву элементов страницы;
• манипуляции с HTML-кодом, такие как добавление, удаление или изменение элементов.
Для извлечения данных из HTML-кода необходимо использовать конструктор BeautifulSoup(), который принимает два аргумента: разметку (HTML-код) и анализатор (необходим для обработки HTML-кода). BS4 поддерживает различные библиотеки для синтаксического анализа, включая стандартные html.parser, а также более быстрые, такие как lxml и html5lib. В нашем случае будем использовать lxml. Также, для отправки запросов на сайт воспользуемся библиотекой requests.
Реализация кода на базе Beautiful Soup
Для начала установим и импортируем библиотеки.
# установка
pip install beautifulsoup4
pip install requests
pip install lxml
# импорт
from bs4 import BeautifulSoup
import requests
📌 Продолжение
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍5🔥2
☝️Низкое качество #данных может привести к неверным выводам и плохой работе модели.
pandera предоставляет гибкий и удобный API для выполнения проверки данных на объектах типа
▪Github
▪Документация
@data_analysis_ml
pandera предоставляет гибкий и удобный API для выполнения проверки данных на объектах типа
dataframe
, чтобы сделать конвейеры обработки данных более читаемыми и надежными.▪Github
▪Документация
@data_analysis_ml
👍9❤2🔥2
👩🎓Получаем степень в области Data Science с лучшими бесплатными курсами.
📂 Python:
https://cs50.harvard.edu/python/2022/
📂 Machine Learning:
https://developers.google.com/machine-learning/crash-course
📂 Deep Learning
https://introtodeeplearning.com
📂 Data Analysis
https://pll.harvard.edu/course/data-analysis-life-sciences-4-high-dimensional-data-analysis
📂 Линейная Алгебра
https://pll.harvard.edu/course/data-analysis-life-sciences-2-introduction-linear-models-and-matrix-algebra
📂 Excel и PowerBI
https://learn.microsoft.com/training/paths/modern-analytics/
📂 Визуализация данных:
https://pll.harvard.edu/course/data-science-visualization
📂 PowerBI
https://learn.microsoft.com/users/collinschedler-0717/collections/m14nt4rdwnwp04
📂 Tableau:
https://tableau.com/learn/training
📂 Statistics:
https://cognitiveclass.ai/courses/statistics-101…
📂 SQL:
https://online.stanford.edu/courses/soe-ydatabases0005-databases-relational-databases-and-sql
@data_analysis_ml
📂 Python:
https://cs50.harvard.edu/python/2022/
📂 Machine Learning:
https://developers.google.com/machine-learning/crash-course
📂 Deep Learning
https://introtodeeplearning.com
📂 Data Analysis
https://pll.harvard.edu/course/data-analysis-life-sciences-4-high-dimensional-data-analysis
📂 Линейная Алгебра
https://pll.harvard.edu/course/data-analysis-life-sciences-2-introduction-linear-models-and-matrix-algebra
📂 Excel и PowerBI
https://learn.microsoft.com/training/paths/modern-analytics/
📂 Визуализация данных:
https://pll.harvard.edu/course/data-science-visualization
📂 PowerBI
https://learn.microsoft.com/users/collinschedler-0717/collections/m14nt4rdwnwp04
📂 Tableau:
https://tableau.com/learn/training
📂 Statistics:
https://cognitiveclass.ai/courses/statistics-101…
📂 SQL:
https://online.stanford.edu/courses/soe-ydatabases0005-databases-relational-databases-and-sql
@data_analysis_ml
❤15👍12🔥9
Неявные связи в графах. Что это и как с ними работать, разберу на примерах.
Граф — множество узлов, объединенных множеством ребер.
С узлами все понятно, взяли города России, клиентов банка или компьютеры в сети, и получили множество объектов, которые и будут узлами для графа.
Что же с ребрами? На первый взгляд все просто: города соединены дорогами, клиенты совершают переводы денежных средств, а компьютеры постоянно обмениваются информацией. Все, что было перечислено, относится к явным типам связей.
Существует факт взаимосвязи между объектами: если дороги нет, то ребро между узлами отсутствует.
Что же относится к неявным связям? Неявные связи сложнее, они могут зависеть от явных связей или же быть самостоятельными.
Например, возьмем двух людей, которые работают на абсолютно разных работах, живут в разных концах города. На первый взгляд, они не имеют ничего общего, но при этом они оба по выходным приходят на матч любимой команды – это и есть неявная связь.
Теперь перейдем к практическому примеру.
Есть 2 файла:
Следующим этапом будет создание графа. Для этой задачи понадобятся следующие python-библиотеки:
Перед созданием графа взглянем на данные, с которыми нам предстоит работать.
Описание данных:
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤2🔥2
⚡ Event-Driven Declarative Orchestrator
Популярные библиотеки оркестровки потоков операций по обработке данных, такие как Airflow, требуют написания Python-кода для использования их возможностей, что усложняет код и затрудняет работу с проектом.
Чтобы отделить код data science от логики оркестровки, используйте библиотеку Kestra.
▪Github
▪Демо
@data_analysis_ml
Популярные библиотеки оркестровки потоков операций по обработке данных, такие как Airflow, требуют написания Python-кода для использования их возможностей, что усложняет код и затрудняет работу с проектом.
Чтобы отделить код data science от логики оркестровки, используйте библиотеку Kestra.
▪Github
▪Демо
@data_analysis_ml
❤7👍4🔥1😁1
🚀 Ruff
Ruff - это #Python-линтер, написанный на Rust, который может быть использован для замены различных инструментов, таких как Flake8, isort, pydocstyle, yesqa, eradicate, pyupgrade и autoflake.
Ruff также работает в 10-100 раз быстрее, чем существующие линтеры.
▪Github
▪Документация
@data_analysis_ml
Ruff - это #Python-линтер, написанный на Rust, который может быть использован для замены различных инструментов, таких как Flake8, isort, pydocstyle, yesqa, eradicate, pyupgrade и autoflake.
Ruff также работает в 10-100 раз быстрее, чем существующие линтеры.
pip install ruff
▪Github
▪Документация
@data_analysis_ml
👍6🔥4❤2👎1
🧑Использование библиотеки Facerecognition и фреймворка Django для распознавания лиц в реальном времени
В этом посте рассмотрим, как использовать библиотеку Facerecognition для распознавания лиц на изображениях. Комбинируя ее с веб-фреймворком Django, мы покажем этапы создания веб-приложения пропускной системы.
Здесь вы найдете простые и понятные инструкции, шаг за шагом, которые помогут создать свою собственную пропускную систему, способную распознавать лица и управлять доступом в компании.
В процессе решения задачи было выделено 3 основных фреймворка для создания веб-приложений: Django, Flask и FastAPI. Рассмотрим особенности каждого из них.
Одним из плюсов фреймворка FastAPI является поддержка асинхронных процессов. Такие процессы позволяют увеличить скорость обработки данных в разы. Также плюсом данного фреймворка является поддержка из коробки Websockets. Благодаря указанному протоколу пользователь может получать данные в режиме реального времени.
📌Читать дальше
📌Github
@data_analysis_ml
В этом посте рассмотрим, как использовать библиотеку Facerecognition для распознавания лиц на изображениях. Комбинируя ее с веб-фреймворком Django, мы покажем этапы создания веб-приложения пропускной системы.
Здесь вы найдете простые и понятные инструкции, шаг за шагом, которые помогут создать свою собственную пропускную систему, способную распознавать лица и управлять доступом в компании.
В процессе решения задачи было выделено 3 основных фреймворка для создания веб-приложений: Django, Flask и FastAPI. Рассмотрим особенности каждого из них.
Одним из плюсов фреймворка FastAPI является поддержка асинхронных процессов. Такие процессы позволяют увеличить скорость обработки данных в разы. Также плюсом данного фреймворка является поддержка из коробки Websockets. Благодаря указанному протоколу пользователь может получать данные в режиме реального времени.
📌Читать дальше
📌Github
@data_analysis_ml
👍6❤3🔥1
AutoGPT — это автономный агент, одна из форм ИИ, автономно решающая поставленную задачу.
Это позволяет агенту AutoGPT объединять выводы и суждения независимо.
Сейчас на Github представлены три наиболее популярных AutoGPT:
Запускать эти популярные AutoGPT можно после локальной установки. А для этого требуется определенный опыт программирования, поскольку агент работает на Python и требует ключей OpenAI и приложения Pinecone.
Поскольку эксперимент находится в стадии разработки, можно ожидать, что AutoGPT скоро станет удобнее для пользователя, получит приятный и интуитивно понятный интерфейс.
Они используются в различных сферах, таких как туризм (например, Expedia) и возможно в будущем и в медицине.
Целью этих разработок является создание активных агентов ИИ, которые могут принимать самостоятельные решения.
Это выводит ChatGPT на новый уровень и превращает ИИ в помощника человека.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4❤3
🔥 Дайджест полезных материалов из мира : Data Science за неделю
Почитать:
— Неструктурированные данные: примеры, инструменты, методики и рекомендации
— Строим пайплайн в sсikit-learn — пошаговое руководство
— Цифровая трансформация цементного завода (ч.9): автоматическая корректировка качества муки
— MLOps от Gucci и оценка уровня Data Driven’ности в компании
— Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (1 и 2 место)
— Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером
— Преобразование табличных данных в Python
— Работа с матрицами в python
— SRP: Refactoring the Data Science Beyond Classes
— NumPy Tutorial #9: Array Join
— How to use Kaggle for Climate Change studies
— Apache Flink
— Troubleshooting SQL Server Errors - A Comprehensive Guide
— NumPy Tutorial #8: Array Iterating
— How to handle datasets with missing values In machine learning
— 5 FREE Machine Learning Online Courses
— NumPy Tutorial #7: Array Reshape
— The most important skills for data scientist
Посмотреть:
🌐 How to use GitHub Codespaces for Coding and Data Science (⏱ 11:53)
🌐 Практика парсинга Python (⏱ 05:27)
🌐 Уроки Парсинга на Python Сравниваем Scrappy и bs4 (⏱ 10:06)
🌐 Большой гайд по парсингу на Python. Часть 3 Работаем с selenium (⏱ 06:14)
🌐 Уроки Golang с нуля /#24 - Тесты (⏱ 09:50)
🌐 Полный Гайд по парсингу на Python: от азов до продвинутых техниик,. Часть 1 (⏱ 07:04)
🌐 Полный Гайд по парсингу на Python: Практика. Часть 2 (⏱ 05:59)
🌐 ODSC APAC Keynote Talk "Infuse Generative AI in your Apps Using Azure OpenAI Service" (⏱ 24:32)
🌐 Lightning Interview "Confident Data Science" (⏱ 48:13)
🌐 ODSC APAC Keynote Talk "Navigating the Post Pandemic Credit Risk Landscape with AI/ML Innovation" (⏱ 23:24)
🌐 New AI Beats DeepMind’s AlphaGo Variants 97% Of The Time! (⏱ 06:01)
🌐 AI Mind Reading Experiment! (⏱ 05:47)
Хорошего дня!
@data_analysis_ml
Почитать:
— Неструктурированные данные: примеры, инструменты, методики и рекомендации
— Строим пайплайн в sсikit-learn — пошаговое руководство
— Цифровая трансформация цементного завода (ч.9): автоматическая корректировка качества муки
— MLOps от Gucci и оценка уровня Data Driven’ности в компании
— Kaggle для футболистов. Разбираем подходы призеров соревнований по детекции столкновений (1 и 2 место)
— Вам в хранилище или к озеру? Чем занимаются специалисты по работе с данными и как стать Data-инженером
— Преобразование табличных данных в Python
— Работа с матрицами в python
— SRP: Refactoring the Data Science Beyond Classes
— NumPy Tutorial #9: Array Join
— How to use Kaggle for Climate Change studies
— Apache Flink
— Troubleshooting SQL Server Errors - A Comprehensive Guide
— NumPy Tutorial #8: Array Iterating
— How to handle datasets with missing values In machine learning
— 5 FREE Machine Learning Online Courses
— NumPy Tutorial #7: Array Reshape
— The most important skills for data scientist
Посмотреть:
🌐 How to use GitHub Codespaces for Coding and Data Science (⏱ 11:53)
🌐 Практика парсинга Python (⏱ 05:27)
🌐 Уроки Парсинга на Python Сравниваем Scrappy и bs4 (⏱ 10:06)
🌐 Большой гайд по парсингу на Python. Часть 3 Работаем с selenium (⏱ 06:14)
🌐 Уроки Golang с нуля /#24 - Тесты (⏱ 09:50)
🌐 Полный Гайд по парсингу на Python: от азов до продвинутых техниик,. Часть 1 (⏱ 07:04)
🌐 Полный Гайд по парсингу на Python: Практика. Часть 2 (⏱ 05:59)
🌐 ODSC APAC Keynote Talk "Infuse Generative AI in your Apps Using Azure OpenAI Service" (⏱ 24:32)
🌐 Lightning Interview "Confident Data Science" (⏱ 48:13)
🌐 ODSC APAC Keynote Talk "Navigating the Post Pandemic Credit Risk Landscape with AI/ML Innovation" (⏱ 23:24)
🌐 New AI Beats DeepMind’s AlphaGo Variants 97% Of The Time! (⏱ 06:01)
🌐 AI Mind Reading Experiment! (⏱ 05:47)
Хорошего дня!
@data_analysis_ml
🔥16👍8❤7