Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
270 videos
1 file
2.06K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🎓🏆 Вышли новые лекции бесплатного курса: Stanford CS224N: Natural Language Processing with Deep Learning

Курс Stanford NLP является, пожалуй, одним из лучших курсов по Deep NLP в Интернете. Сейчас в открытом доступе находятся новые лекции 2023 года.

Курс охватывает фундаментальные методы и темы, связанные с глубоким обучением, применяемым в NLP.

От архитектур (RNNs, LSTMs, трансформров), предварительного обучения, генерации NLP кода, до новых тем, таких как промпи-инжиниринг, RLHF, мультимодальные агенты и многое другое.

Лекции
Курс

@data_analysis_ml
19🔥9👍3
This media is not supported in your browser
VIEW IN TELEGRAM
💬 Flowise - Build LLM Apps Easily

Если вы хотите использовать drag-and-drop UI для создания своего LLM потока, попробуйте Flowise.

UI с открытым исходным кодом для построения LLM модели с использованием LangchainJS, написанный на Node Typescript/Javascript

git clone https://github.com/FlowiseAI/Flowise.git

Github
Примеры

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥53
👋 Генерация синтетических изображений с использованием диффузионно-трансформерной модели (DiT)

На практике в машинном обучении, особенно при работе с нейронными сетями, часто сталкиваются с проблемой нехватки данных для обучения модели или получения стабильных результатов.
Мы оказались в подобной ситуации, решая задачу компьютерного зрения связанную с анализом нарушений в помещениях закрытого типа. Недостаточно изображений для качественной модели, а аугментация и спарсить изображения из Интернета невозможно.

Поэтому нам понадобился синтетический датасет, состоящий из похожих на имеющиеся изображений. Мы решили использовать модель DiT (Diffusion Transformer) от Facebook Research. DiT обучалась на ImageNet и имеет 4 модели разных размеров.

Таблица размерностей DiT моделей в изображении.

📌Читать статью

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥2
📈📊 Визуализация распределений вероятностей в Python.


📌 Другие виды распределения

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥86💔1
📊 7 малоизвестных инструментов визуализации данных, которые заслуживают вашего внимания

1. Vega-Lite: https://github.com/vega/vega-lite

2. RawGraphs: https://github.com/rawgraphs/raw

3. Superset: https://github.com/apache/superset

4. Metabase: https://github.com/metabase/metabase

5. Visidata: https://github.com/saulpw/visidata

6. Chart.js: https://github.com/chartjs/Chart.js

7. C3.js: https://github.com/c3js/c3

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍164🔥4🥱2
💫 Создай, оформи, опубликуй. Sphinx — незаменимый помощник в мире Python документации

Sphinx — это профессиональный инструмент для создания обширной и качественной документации. Он изначально был создан для написания документации к языку Python, но со временем стал популярным выбором среди разработчиков различных языков программирования.

Sphinx использует простой в разметке текстовый формат reStructuredText (reST) для создания документации, и способен компилировать эту разметку в различные форматы, такие как HTML, PDF, ePub, Texinfo, и другие.

С помощью Sphinx, мы можем создавать структурированную и красиво оформленную документацию, которая может включать в себя автоматически генерируемые разделы.

Где используется Sphinx?
▪️Для документации ваших собственных проектов
Sphinx является превосходным инструментом для документирования любого проекта, будь то небольшой проект с открытым исходным кодом или крупномасштабное корпоративное приложение. Благодаря его гибкости и функциональности, Sphinx обеспечивает все необходимые инструменты для создания качественной, структурированной и доступной документации. Кроме того, Sphinx обеспечивает поддержку международной локализации, что позволяет создавать документацию на разных языках. Расширяемость Sphinx через модули также позволяет адаптировать процесс создания документации под конкретные потребности проекта. Все эти функции делают Sphinx отличным выбором для документации вашего проекта, независимо от его масштаба и сложности.
▪️Python Documentation
Как уже было сказано выше, Sphinx первоначально был создан для документирования самого языка Python, и по‑прежнему используется на официальном сайте Python для предоставления документации по языку и стандартным библиотекам.
▪️Read the Docs
Это популярная платформа для хостинга документации, которая тесно интегрирована с Sphinx. Она позволяет автоматически собирать и публиковать документацию из репозиториев на GitHub, GitLab и других сервисах. Read the Docs поддерживает формат reStructuredText и предоставляет множество дополнительных функций для улучшения качества документации.

Проекты с открытым исходным кодом, корпоративные и научные проекты.

Множество проектов с открытым исходным кодом используют Sphinx для создания их документации. Некоторые из них включают:

Django
Это высокоуровневый веб‑фреймворк Python, который следует принципу «Не изобретай велосипед». Документация Django, известная своим высоким качеством и полнотой, написана с использованием Sphinx. Это включает подробные справочные материалы, руководства по разработке, и руководства по API. Использование Sphinx в таком масштабном и влиятельном проекте, как Django, является отличным подтверждением его надежности и эффективности.
The Linux Kernel
Sphinx используется для документирования ядра Linux, одного из самых значимых и сложных проектов с открытым исходным кодом в мире.
TensorFlow
Платформа от Google для машинного обучения. Документация TensorFlow, которая включает в себя описания API, руководства и учебные материалы, создана с использованием Sphinx.
Pandas
Библиотека Python для обработки и анализа данных, которая использует Sphinx для создания своей обширной документации, включающей справочные материалы, руководства и учебные пособия.
NumPy
Библиотека для научных вычислений на Python, которая широко использует Sphinx для создания своей документации. Это подтверждает статус Sphinx как стандартного инструмента для документации в научной и академической среде Python.

Инициализация Sphinx в нашем проекте
Где скачать Sphinx?
Sphinx – это программное обеспечение с открытым исходным кодом, и его можно легко установить с помощью пакетного менеджера Python — pip. Для установки Sphinx, выполним следующую команду в терминале:
$ pip install Sphinx

Также можно посетить официальный сайт Sphinx для получения дополнительной информации.

После того, как мы установили Sphinx, мы можем начать использовать его для создания документации.
Рассмотрим, как инициализировать Sphinx в нашем проекте.

Читать дальше

@data_analysis_ml
10👍6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
📈 Awesome Machine Learning Demos Awesome

Примеры с кодом и интерактивные визуализации мл моделей.

Вероятностные модели
Код | Демо
Код | Демо
TensorFlow neural network playground
Код | Демо
Convolutional neural networks
Код | Демо
Код | Демо
Демо
Unsupervised learning and preprocessing
K-means clustering

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥64
Крутая олимпиада по анализу данных DANO.

Открыта регистрация на олимпиаду по анализу данных от Тинькофф и НИУ ВШЭ где победители и призеры получат дополнительные преимущества при поступлении в различные высшие учебные заведения по всей стране. Например, в НИУ ВШЭ, УрФУ, Университет Иннополис, РЭШ, ИТМО и АГУ. Десять участников, набравших наибольшее количество баллов, также будут иметь возможность обучаться в Центральном университете, за счет выделенных грантов, которые покроют 100% стоимости обучения. Зарегестрироваться можно до 4 октября.

Этапы олимпиады

Первый (отборочный) этап. Направлен на проверку базовых знаний математики и логики. Открыт для всех желающих.

Второй (отборочный) этап. Направлен на проверку умения анализировать данные. Открыт только для школьников, победивших или занявших призовое место в предыдущем этапе.

Заключительный этап состоит из двух туров: сначала участники решают задачи продвинутого уровня по анализу данных, а во втором туре работают над реальным командным исследовательским проектом совместно с экспертами. Второй тур пройдет офлайн — с выездом на неделю в Подмосковье.

@data_analysis_ml
7👍2👎1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 GIF

Если вы хотите без особых усилий анимировать график matplotlib в Python, используйте библиотеку gif.

Следующая анимация создана с помощью gif.

pip install gif

import gif
from random import randint
from matplotlib import pyplot as plt

x = [randint(0, 100) for _ in range(100)]
y = [randint(0, 100) for _ in range(100)]

# (Optional) Set the dots per inch resolution to 300
gif.options.matplotlib["dpi"] = 300

# Decorate a plot function with @gif.frame
@gif.frame
def plot(i):
xi = x[i*10:(i+1)*10]
yi = y[i*10:(i+1)*10]
plt.scatter(xi, yi)
plt.xlim((0, 100))
plt.ylim((0, 100))

# Construct "frames"
frames = [plot(i) for i in range(10)]

# Save "frames" to gif with a specified duration (milliseconds) between each frame
gif.save(frames, 'example.gif', duration=50)

Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥85🥰2
🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
TechArena Ireland: как готовился хакатон
Визуализация распределений вероятностей в Python.
Построение пайплайна обработки данных в реальном времени с использованием Python
Исследования возможностей нейронных сетей глубокого обучения в распознавании маскируемого трафика
Как мы создавали self-service функционал проверки качества данных для ML-моделей
Становясь Пангеей: будущее современного стека для анализа данных
Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами
Как оценить объем работ по миграции хранилища данных на Arenadata DB / Greenplum: методика и пример
Data Science for Beginners: 2023 - 2024 Complete Roadmap
A Beginner's Guide to Data Analytics: Understanding the Fundamentals
The Start of My Year-long Journey into AI: From Novice to Engineer
Data Science for Beginners: 2023–2024 Complete Roadmap
Data Science for Beginners: 2023 - 2024 Complete Roadmap
Data Science Roadmap.
How can Ed-tech companies adopt AI, and what ways will it help in revenue generation and in work Operations?
Matplotlib Tutorial: Let’s Take Your Country Maps to Another Level
Data Analysis with SQL
Autoscout24 SQL Analysis

Посмотреть:
🌐 Large Language Models Are Not (Necessarily) Generative Ai - Karin Verspoor, PhD ( 29:59)
🌐 Django начало работы. ( 08:18)
🌐 Популярная задача с собеседования в Яндекс #python #задача #программирование #собеседование ( 01:00)
🌐 Новые функции в IOS 17 ( 00:29)
🌐 TokenFlow редактирование видео с помощью текстового описания ( 00:22)
🌐 Парсер телеграм каналов на Python. Гайд по написанию мощного бота. ( 11:58)
🌐 Задача из Собеседования в Яндекс с зарплатой 85000 рублей #python #собеседование #задача #yandex ( 00:59)
🌐 Асинхронный парсинг сайтов на Python ( 22:06)
🌐 Evolving Trends in Prompt Engineering for LLMs with Built-in Responsible AI Practices ( 33:21)
🌐 OpenAI’s ChatGPT Has Been Supercharged! ( 06:48)
🌐 Evolving Trends in Prompt Engineering for LLMs with Built-in Responsible AI Practices ( 33:21)
🌐 OpenAI’s ChatGPT Has Been Supercharged! ( 06:48)
🌐 New AI Listened To 20,000 Hours Of Music. What Did It Learn? ( 07:33)

Хорошего дня!

@data_analysis_ml
👍12🔥74💔1
🔪 Jackknife+: «швейцарский нож» в конформном прогнозировании для регрессии

Jackknife+ — это эффективный метод конформного прогнозирования, разработанный ведущими исследователями в области машинного обучения из Чикагского университета, Стэнфордского университета, Университета Карнеги-Меллона и Калифорнийского университета в Беркли.

Наша задача — построить функцию регрессии с помощью обучающих данных, которые включают пары признаков (Xi, Yi). Нам нужно предсказать выход Yn+1 для нового вектора признаков Xn+1=x и создать соответствующий интервал погрешности для этого предсказания. Предположительно данный интервал будет включать истинное значение Yn+1 с заранее определенной вероятностью охвата.

Прямой подход может заключаться в подгонке базовой регрессионной модели к обучающим данным, вычислении остатков и использовании этих остатков для оценки квантиля. Этот квантиль затем может быть использован для определения ширины интервала прогнозирования для новой тестовой точки.

Однако такой подход имеет тенденцию недооценивать фактическую погрешность из-за чрезмерной подгонки: остатки, полученные из обучающего множества, обычно меньше, чем те, которые можно было бы получить на основе неизвестных тестовых данных.

📌Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🔥2