Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.08K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🔜 DSGW - Data Science GPU Workplace

Проект DSGW призван упростить разворот полноценного рабочего места на сервере с GPU для Data Science разработки

DSGW базируется на:
— Ubuntu 22.04
— Nvidia CUDA 12.3.2
— Nvidia cuDNN 9
— Python 3.12
— VsCode Server

🤓 GitLab

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍144🔥2
💡 Во время работы с таблицами в Spark возникают ситуации, когда для обработки данных набора встроенных функций оказывается недостаточно.

В этом случае можно выгрузить таблицу в Pandas DataFrame и обрабатывать данные на Python привычными функциями. Однако, есть способ сделать это быстрее – UDF-функции в Spark.

UDF (User Defined Functions)
– это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.

Использование UDFS в PySpark может помочь упростить выполнение сложных запросов #SQL, за счет запуска сложных операций в одном вызове функции.

В приведенном примере кода мы определяем UDF с именем modify_name, эта функция приводит все имена в нашей таблице к верхнему регистру.

📌 Подробнее о UDF

@data_analysis_ml
👍155❤‍🔥2🔥2🥰1
Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции

Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.

И вы понимаете почему.

Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз :

Если ты очень-очень глуп, как ты можешь осознать, что ты очень-очень глуп?

Разумеется, психологи очень осмотрительны, что бы убеждаться, что доказательства воспроизводимы. Но, конечно же, каждый раз, когда вы их ищете, из данных выскакивает сам эффект Даннинга-Крюгера. Таким образом кажется, что все стоит на прочной основе.

Вот только есть проблема.

Эффект Даннинга-Крюгера также возникает из данных, в которых его не должно быть. Например, если вы тщательно обработаете случайные данные так, чтобы они не содержали эффекта Даннинга-Крюгера, вы все равно обнаружите этот эффект . Причина оказывается до неприличия простой: эффект Даннинга-Крюгера не имеет ничего общего с человеческой психологией. Это статистический артефакт — потрясающий пример автокорреляции.

💥 Читать дальше

@data_analysis_ml
15👍11❤‍🔥4🔥2
Знакомьтесь, #Moirai: Библиотека, которая революционизирует прогнозирование временных рядов с помощью универсальных моделей!

Целью этой библиотеки является предоставление унифицированного решения для работы с временными рядами.

Uni2TS также предоставляет инструменты для точной настройки, оценки и прогнозирования временных рядов.

Github
Hf
Blog

@data_analysis_ml
👍177🥰1
🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜

Датасеты содержитат миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )

PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds

@data_analysis_ml
👍16❤‍🔥4🥰2
Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки
до 12 мая, успейте зарегистрироваться.

ШАД для вас, если вы:

· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования

Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.

Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.
👍65🔥3
📌Подборка полезных материалов по Data Science

Держите, здесь ссылки на шпаргалки, полезные статьи, курсы на Stepik и ещё много всего
Enjoy)

📎 Ссылка

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍4🥰1
💲 Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей (LLM).

С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов.

Такие датасеты полезны для:
• оценки LLM
• точной настройки LLM
• тестирования финансовых инструментов
• и многого другого

Проект полностью открытым исходным кодом.

pip financial-datasets.

GitHub: https://github.com/virattt/financial-datasets

Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1

@data_analysis_ml
👍7🥰7❤‍🔥43🔥2
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению.

Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.

100 вопросов для собеседования по машинному обучению в 2024 году

50 вопросов для собеседования по компьютерному зрению в 2024 году

50 вопросов для интервью по глубинному обучению в 2024 году

50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году

100 вопросов с собеседований Data Science 

@machinelearning_interview
👍8❤‍🔥5🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
📌Основные типы распределений вероятностей в примерах

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения.

В данной статье автор делает упор не на функции и формулы, которые обычно сопутствуют распределениям (функции вероятности, распределения, PMF, PDF, CDF). Скорее он пытается показать, как генерируются те или иные распределения на конкретных примерах.

Отличная статья для понимания сути этих распределений и того, как они в итоге применяются на практике для решения конкретных задач анализа.
Enjoy)

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥5👍4❤‍🔥1
🔥 Компания Anthropic только что выпустила метод джейлбрейка, позволяющий обойти все меры безопасности LLMs.

"manyshot jailbreaking" использует преимущества больших контекстных окон, добавляя в промпты сотни вредоносных диалогов между человеком и искусственным интеллектом.

Простого включения очень большого количества фальшивых диалогов, предшествующих последнему вопросу, было достаточно, чтобы обойти меры безопасности.

🔥 Подробнее

@data_analysis_ml
🔥11👍6🤔42
👨‍🎓 AIDE стала первым агентом искусственного интеллекта человеческого уровня для работы с данными!

AIDE превосходит половину специалистов по обработке данных в широком спектре конкурсов Kaggle, превосходя обычных агентов AutoML, LangChain и ChatGPT 🏆

Статья
Github

@data_analysis_ml
😐34🔥113👍3😁2🐳1
📌Machine learning pipeline — основы. Cookiecutter и Hydra

Простые проекты по Data Science делаются в Jupyter Notebooks и это нормально.
Но с увеличением сложности начинаются проблемы; например, вы строите несколько типов моделей с несколькими вариантами заполнения пропусков (среднее, медиана), генерируете набор feature engineering и применяете разные варианты разбиения выборки.
Можно разместить весь этот код в один Jupyter Notebooks и логгировать метрики и конфиги. Код получится громоздкий и не поворотливый. Для запуска экспериментов надо будет или перескакивать или комментировать ячейки, которые не нужно запускать.

Для решения этих проблем рекомендую использовать pipeline для автоматизации рабочих процессов машинного обучения. Основная цель создания пайплайна — это контроль. Хорошо организованный пайплайн делает реализацию более гибкой.
Об этом и идёт речь в статье, а также о Cookiecutter и Hydra, которые помогают строить пайплайны.

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106❤‍🔥1🔥1
📌Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров

Это совершенно гениальная идея сделать модели на основе трансформеров более эффективными.

Немного деталей:
Mixture-of-Depths уменьшает объем внимания, доступного каждому уровню, и заставляет нейронную сеть обращать внимание на важную информацию.

Использование Mixture-of-Depths минимизирует потери вычислений и обеспечивает динамическое распределение вычислений на основе входной последовательности.

Mixture-of-Depths ограничивает количество токенов, которые могут участвовать в вычислениях self-attention и MLP на данном уровне.

Токены, подлежащие обработке, определяются сетью с использованием механизма маршрутизации top-k.

Метод Mixture-of-Depths использует статический граф вычислений с известными размерами тензора.

Вычислительные затраты в целом предсказуемы, но динамичны и зависят от контекста на уровне токенов.

📎 Исследование, посвящённое Mixture-of-Depths

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🥰2
🖥 Задачи ML на Swift без Python, нейронных сетей и библиотек

Для решения задач ML большинство разработчиков предпочитают интегрировать библиотеки Python в свой язык/среду, вместо рассмотрения альтернативных решений (а они есть).

В статье предлагается решить классическую задачу ML, используя язык Swift без использования библиотек.

Статья не является руководством по написанию на Swift, а показывает, что ML задачи можно решать не только с помощью Python, и в этом даже есть плюсы

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🥰43🥴2❤‍🔥1🤣1