Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
— Как «воспитать ламу» и ускорить ML-эксперименты
— Airflow vs NiFi: исследуем оркестратор для формирования витрин данных
— Сравнение методов веб-скрепинга для данных Википедии: Beautiful Soup против WikipediaAPI
— Применение нейросетевых подходов для формирования признаков в моделях
— ipywidgets: создаем графические приложения на базе Jupyter
— Как использовать GPU для ускорения аналитической обработки данных
— Введение в библиотеку Diffusers и диффузионные модели
— 70 % программистов пользуются ИИ-ассистентами. Скоро код будут писать алгоритмы?
— Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений
— LLaMA 2, RWKV, Santacoder и другие LLM на iOS
— MLOps на примере прогноза движений акций с помощью MLRun
— Using ggplot2 for Visualization in R
— ИИ вместо астролога или как я создавала астробота Катю
— Learning to Decode the Surface Code with a Recurrent, Transformer-Based Neural Network
— Milvus Adventures | October 13, 2023
— Data Science Roadmap
— Exploratory Data Analysis with Data Visualization Techniques
— Data Visualization
— Exploratory Data Analysis using Data Visualization Techniques.
— Exploratory Data Analysis using Data Visualization Techniques
— Nobel Laureates’ Countries, or Creating a Word Cloud with JS
— Data Modelling
— Exploratory Data Analysis using Data Visualization Techniques
— Exploratory Data Analysis using Data Visualization Techniques
— Stream Processing Engines and Streaming Databases: Design, Use Cases, and the Future

Посмотреть:
🌐 Chatgpt, Bard , Claude, Theb - используй API лучших нейросетей бесплатно и без ВПН на Python. (⏱ 05:23)
🌐 NLP практика. Определяем тональность текста при помощи NLTK и DL (⏱ 19:37)
🌐 Django шаблонизация и маршрутизация (⏱ 09:11)
🌐 Задача, которая очень часто встречается на собеседованиях #python (⏱ 00:59)
🌐 Решение непростой задачи с Leetcode, часто всплывает на собеседования #pythontutorial (⏱ 00:59)
🌐 Хитрая задача с собеседования #Python (⏱ 00:59)
🌐 Lightning Interview "The Storied History of Video Games and AI" (⏱ 46:35)
🌐 Accelerate your AI/ML Initiatives and Deliver Business Value Quickly (⏱ 33:08)
🌐 Leveraging Generative AI in Education - A M Aditya (⏱ 31:24)
🌐 Google’s New AI Watched 2,500 Videos! But Why? (⏱

Хорошего дня!

@data_analysis_ml

👍13❤3🔥3

7.94K viewsedited 08:52

Анализ данных (Data analysis)

🖥

Если вы работаете с блокнотами jupyter для работы с Python и Data Science, попробуйте эти волшебные команды, которые сэкономят вам массу времени:🧵

1. Jupyter AI: выберите любую модель и пообщайтесь с ней прямо из блокнота Jupyter.

Используйте волшебную команду "%%ai", чтобы указать модель и пообщаться с ней, используя промыт на естественном языке: https://github.com/jupyterlab/jupyter-ai

2. %%latex:

Это позволяет отображать LaTeX-код в Jupyter Notebook. Картинка 2.

3. %%sql

С помощью команд %sql(line magic) и %%sql(cell magic) можно выполнить любой SQL-запрос. Картинка 3.

4. %run

Запуск Python-файла в блокноте становится простым.

Если у вас есть python-файл, например, "demo .py", и вы хотите запустить его в блокноте, то это можно сделать с помощью следующей команды

%run demo .py

5. %%writefile

Пример:

%%writefile app .py

В результате будет создан новый файл "app .py" со всем содержимым, присутствующим в ячейке.

6. %history -n

Все мы случайно удаляем команды и их результаты в блокноте.

Для отображения всех предыдущих команд можно воспользоваться этой волшебной командой

-n поможет получить последние n команд

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30🔥14❤3

8.66K views09:12

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

GitUp

В командах Git иногда можно запутаться (путаница между "git reset" и "git revert" может привести к непредвиденным последствиям). Кроме того, исправление ошибок в Git может быть сложным.

GitUp представляет удобную модель взаимодействия с #Git, которая позволяет работать с Git быстро и безопасно.

GitUp предоставляет:

🔹 Быстрая отмена/повтор практически всех операций
🔹 Мгновенный поиск по всему репо, включая diff-содержимое
🔹 Интерактивный граф репо для редактирования репозитория.
🔹 Удобный пользовательский интерфейс, который работает быстрее, чем командная строка.

• Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11🔥4❤2

7.13K views11:16

Анализ данных (Data analysis)

Графовые сверточные сети: введение в GNN

Графовые нейронные сети (GNN) представляют собой одну из наиболее интересных и быстро развивающихся архитектур в области глубокого обучения.

Будучи моделями глубокого обучения, предназначенными для обработки данных, структурированных в виде графов, GNN обладают универсальностью и огромными обучающими возможностями.

Среди различных типов GNN наиболее распространенной и широко применяемой моделью стали графовые сверточные сети (GCN).

Инновационность GCN обусловлена их способностью использовать для прогнозирования как особенности узла, так и его локальность, что обеспечивает эффективный способ обработки данных, структурированных в виде графов.

В этой статье будет подробно описан механизм работы слоя GCN с объяснением его внутреннего устройства.
Кроме того, вы узнаете, как практически применять этот слой для решения задач классификации узлов с использованием в качестве инструмента PyTorch Geometric.

PyTorch Geometric (PyG) — это специализированное расширение PyTorch, созданное для разработки и реализации GNN. Эта продвинутая и в то же время удобная в использовании библиотека предоставляет полный набор инструментов для машинного обучения на основе графов.

📌 Читать дальше
📌 PyTorch Geometric

@data_analysis_ml

👍14❤2🔥1

6.97K views11:03

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Build Web Apps in Jupyter Notebook

Если вы хотите создать веб-приложение в вашем #JupyterNotebook, попробуйте Mercury.

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19👍9❤2

7.19K views10:36

Анализ данных (Data analysis)

🖥

Шпаргалка по различным базам данных в облачных сервисах и соответствующим им вариантам с открытым исходным кодом .

Выбор подходящей базы данных для своего проекта - сложная задача. Существует множество видов баз данных, каждая из которых подходит для разных случаев использования.

Данная шпаргалка поможет определить, какой сервис соответствует потребностям вашего проекта, и избежать возможных "подводных камней".

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22🔥5❤4

7.84K views09:39

Анализ данных (Data analysis)

📒 GigaChat нового поколения.

Разработчики @gigachat_bot изменили подход к обучению модели, а потому практически все умения модели были улучшены. В частности, речь идет о сокращении текстов, ответов на вопросы и генерации идей.

Появился и бот GigaChat в социальной сети «ВКонтакте» — после активации, его можно использовать для самых разных целей: от создания текстов до генерации изображений (за счет интеграции с Kandinsky).

Число уникальных пользователей GigaChat достигло 1 млн.

• Попробовать

@data_analysis_ml

👍12❤1👎1🔥1🤣1

44.6K views16:01

Анализ данных (Data analysis)

🌳Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Деревья решений представляют собой семейство алгоритмов, которые естественным образом могут обрабатывать как категориальные, так и числовые функции.

Главные преимущества алгоритма: устойчивость к выбросам в данных, возможность использования данных разных типов и в разных масштабах без предварительной обработки или нормализации, и главное — ДОСТУПНОСТЬ ДЛЯ ПОНИМАНИЯ.

На самом деле используются одни и те же рассуждения, воплощенные в деревьях решений, неявно в повседневной жизни. Например, серия решений «да/нет», которые приводят к прогнозу будет ли тренировка на улице или нет.

Модель дерева решений сама “придумывает” эти развилки. Чем больше развилок, тем точнее модель будет работать на тренировочных данных, но на тестовых значениях она начнет чаще ошибаться. Необходим некоторый баланс, чтобы избежать этого явления, известного как переобучение.

## Случайные леса решений

Деревья решений обобщаются в более мощный алгоритм, называемый случайные леса. Случайные леса объединяют множество деревьев решений, чтобы снизить риск

переоснащения и обучения деревьев решений отдельно. Объединение прогнозов уменьшает дисперсию прогнозов, делает результирующую модель более обобщенной и повышает производительность на тестовых данных.

Подготовка данных

📌 Читать

@data_analysis_ml

👍11❤3🔥1👏1

6.94K views18:01

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

PlotAI 🎨🤖

PlotAI - ии инструмент для генерации графиков на Matplotlib.

— пользователь подает на вход датафрейм;
— PlotAI создаёт промт для LLM, который содержит первые пять записей и генерирует код Python;
— возвращенный код Python выполняется, и отображается график.

pip install plotai

▪Github

@data_analysis_ml

👍29❤4🔥4

7.24K views11:08

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Машинного обучения за неделю

Почитать:
— Исследование рыночной корзины на основе данных розничной торговли в Стамбуле
— Классификация текстов в spaCy: пошаговая инструкция
— Как мы запустили автобиддер для управления рекламными кампаниями в Ozon?
— Приглашаем на Ozon Tech Community ML&DS Meetup
— Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?
— Первое слово из нераспечатанного Геркуланумского папируса обнаружено 21-летним студентом факультета информатики
— Построение ML модели для оценки текста языкового экзамена
— Разметка данных при помощи GPT-4
— Антон Мальцев про удобные NPU, Computer Vision для коботов и восстание неуклюжих машин
— От A/B-тестирования к Causal Inference в оффлайн ритейле
— What was that commit? Searching GitHub with OpenAI embeddings
— Simplifying the Fundamentals of Machine Learning
— Data Cleaning with Pandas
— Using machine learning to predict the selling price of a property
— Engineering Practice for Real-time Feature Store in Decision-Making Machine Learning
— What are biases in Machine Learning?
— Hacktoberfest Machine Learning Projects for JS/TS Developers 🎃
— Build a Text Summarization app using Reflex (Pure Python)
— Diving Deep into AI with open-appsec: A Personal Journey of Discovery and Growth
— AI-Powered Cybersecurity: The Future of Protection

Посмотреть:
🌐 Building a Data-Driven Workforce - Dominic Bohan (⏱ 32:52)
🌐 Enabling AI Transformation: MLOps Infrastructure, AI Command Centre & Data Science in Telecom (⏱ 33:08)
🌐 Пишем телеграм бота для скачивания #yotube видео (⏱ 20:41)

Хорошего дня!

@data_analysis_ml

👍10🔥3❤1🥰1

7K views11:01

Анализ данных (Data analysis)

💸

Прогнозированию биткоина при помощи VAR (векторной авторегрессии), XGBoost и Facebook Prophet.

В этом ролике разобраны 3 метода прогнозирования: VAR, XGBoost, FB Prophet.

▪ Видео
▪ Код из видео

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Прогнозирование цены биткоина при помощи VAR, XGBoost, FB Prophet

Прогнозирование биткоина — это одна из самых популярных тем.
В этом ролике разобраны 3 метода прогнозирования: VAR, XGBoost, FB Prophet.

🔥 Telegram канал с к кучей фишек и кодом из видео:
https://t.iss.one/data_analysis_ml
📌 Машинное обучение - https://t.…

👍13🔥3🤣3❤2👎1🤯1

7.54K viewsedited 09:12

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

📑 𝐦𝐥𝐟𝐥𝐨𝐰.𝐚𝐮𝐭𝐨𝐥𝐨𝐠()

Сохранение параметров, метрик во время обучения позволяет воспроизводить эксперименты и выбирать наиболее эффективную модель. Однако написание множества записей в логах может быть обременительным.

Для автоматического логирования добавьте 𝐦𝐥𝐟𝐥𝐨𝐰.𝐚𝐮𝐭𝐨𝐥𝐨𝐠() перед вашим кодом обучения модели.

▪ Github

@data_analysis_ml

👍17🔥6❤2

6.72K views12:10

Анализ данных (Data analysis)

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Визуализация стохастической модели пробоя диэлектрика (Ref: Fractal Dimension of Dielectric Breakdown

🖥

Код

#python, #numpy #matplotlib

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥10❤2

6.4K viewsedited 10:49

Анализ данных (Data analysis)

🎓 Open Source AI Projects and Tools to Try in 2023

Существует множество инструментов искусственного интеллекта, и многие из них имеют открытый исходный код и бесплатны для использования.

Чтобы помочь вам узнать о некоторых полезных из них, представляем вам это подробное руководство для дата саентистов.

Он рассказывает о таких инструментах, как Tensorflow, Hugging Face Transformers, Fauxpilot и других.

https://www.freecodecamp.org/news/open-source-ai/

@data_analysis_ml

❤9👍3🔥1

6.24K views11:02

Анализ данных (Data analysis)

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

При просмотре кода на #GitHub навигация по файлам может быть неудобной. Попробуйте редактор GitHub.deb с интерфейсом, похожим на VSCode, для удобного просмотра и работы с проектами.

Этот редактор также отлично подходит для быстрых коммитов.

@data_analysis_ml

👍15🔥4❤1

6.19K views17:03

Анализ данных (Data analysis)

🌐

ИИ с открытым исходным кодом захватывает мир.

Бесплатная книга с кодом, которая поможет вам идти в ногу со всем происходящим в мире AI:

State of Open Source AI Book - 2023 Edition

В книге рассматриваются следующие темы:
- ИИ Модели
- Файнтюниг
- Оценка моделей
- Векторные базы данных
- Инструментальные средства разработки
- Механизмы MLOps
и многое другое

И все это бесплатно.

📚 GitHub

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍5🔥3👎1

7.25K views11:01

Анализ данных (Data analysis)

🖥

Skrub

Часто записи в одной таблице могут не соттветсвовать запясям в другой таблице. Например, в одной таблице может быть "Yemen", а в другой - "Yemen, Rep".

Функция 𝐟𝐮𝐳𝐳𝐲_𝐣𝐨𝐢𝐧() в skrub позволяет объединить эти таблицы с учетом различных вариаций полей.

pip install git+https://github.com/skrub-data/skrub.git

▪Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21🔥3❤1🥰1

6.9K views16:51

Анализ данных (Data analysis)

☄️ Ray - это унифицированный фреймворк для масштабирования приложений ИИ и Python.

Ray состоит из ядра распределенной среды выполнения и набора библиотек ИИ.

На картинке пример кода, для динамического запуска очереди из 𝗡 заданий на 𝗞 GPU.

▪Github
▪Ray

@data_analysis_ml

👍12❤3🔥1

6.32K viewsedited 10:19

Анализ данных (Data analysis)

🥇 The Most Comprehensive List of Kaggle Solutions and Ideas.

Этот репозиторий - настоящее золото для всех начинающих и практикующих специалистов в области Data Science, Machine Learning!

Просто зайдите и получите доступ практически ко всем лучшим решениям и идеям, которыми поделились топовые участники соревнований Kaggle.

▪Github
▪Сайт

@data_analysis_ml

👍26🔥5❤4

7.91K views18:03

About

Blog

Apps

Platform