Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
278 videos
1 file
2.08K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
💼 Quantstats

Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.

QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.

Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.

Github

@data_analysis_ml
👍334🥰1
🔜 DSGW - Data Science GPU Workplace

Проект DSGW призван упростить разворот полноценного рабочего места на сервере с GPU для Data Science разработки

DSGW базируется на:
— Ubuntu 22.04
— Nvidia CUDA 12.3.2
— Nvidia cuDNN 9
— Python 3.12
— VsCode Server

🤓 GitLab

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍144🔥2
💡 Во время работы с таблицами в Spark возникают ситуации, когда для обработки данных набора встроенных функций оказывается недостаточно.

В этом случае можно выгрузить таблицу в Pandas DataFrame и обрабатывать данные на Python привычными функциями. Однако, есть способ сделать это быстрее – UDF-функции в Spark.

UDF (User Defined Functions)
– это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.

Использование UDFS в PySpark может помочь упростить выполнение сложных запросов #SQL, за счет запуска сложных операций в одном вызове функции.

В приведенном примере кода мы определяем UDF с именем modify_name, эта функция приводит все имена в нашей таблице к верхнему регистру.

📌 Подробнее о UDF

@data_analysis_ml
👍155❤‍🔥2🔥2🥰1
Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции

Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.

И вы понимаете почему.

Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз :

Если ты очень-очень глуп, как ты можешь осознать, что ты очень-очень глуп?

Разумеется, психологи очень осмотрительны, что бы убеждаться, что доказательства воспроизводимы. Но, конечно же, каждый раз, когда вы их ищете, из данных выскакивает сам эффект Даннинга-Крюгера. Таким образом кажется, что все стоит на прочной основе.

Вот только есть проблема.

Эффект Даннинга-Крюгера также возникает из данных, в которых его не должно быть. Например, если вы тщательно обработаете случайные данные так, чтобы они не содержали эффекта Даннинга-Крюгера, вы все равно обнаружите этот эффект . Причина оказывается до неприличия простой: эффект Даннинга-Крюгера не имеет ничего общего с человеческой психологией. Это статистический артефакт — потрясающий пример автокорреляции.

💥 Читать дальше

@data_analysis_ml
15👍11❤‍🔥4🔥2
Знакомьтесь, #Moirai: Библиотека, которая революционизирует прогнозирование временных рядов с помощью универсальных моделей!

Целью этой библиотеки является предоставление унифицированного решения для работы с временными рядами.

Uni2TS также предоставляет инструменты для точной настройки, оценки и прогнозирования временных рядов.

Github
Hf
Blog

@data_analysis_ml
👍177🥰1
🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜

Датасеты содержитат миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )

PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds

@data_analysis_ml
👍16❤‍🔥4🥰2
Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки
до 12 мая, успейте зарегистрироваться.

ШАД для вас, если вы:

· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования

Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.

Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.
👍65🔥3
📌Подборка полезных материалов по Data Science

Держите, здесь ссылки на шпаргалки, полезные статьи, курсы на Stepik и ещё много всего
Enjoy)

📎 Ссылка

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍4🥰1
💲 Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей (LLM).

С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов.

Такие датасеты полезны для:
• оценки LLM
• точной настройки LLM
• тестирования финансовых инструментов
• и многого другого

Проект полностью открытым исходным кодом.

pip financial-datasets.

GitHub: https://github.com/virattt/financial-datasets

Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1

@data_analysis_ml
👍7🥰7❤‍🔥43🔥2
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению.

Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.

100 вопросов для собеседования по машинному обучению в 2024 году

50 вопросов для собеседования по компьютерному зрению в 2024 году

50 вопросов для интервью по глубинному обучению в 2024 году

50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году

100 вопросов с собеседований Data Science 

@machinelearning_interview
👍8❤‍🔥5🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
📌Основные типы распределений вероятностей в примерах

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения.

В данной статье автор делает упор не на функции и формулы, которые обычно сопутствуют распределениям (функции вероятности, распределения, PMF, PDF, CDF). Скорее он пытается показать, как генерируются те или иные распределения на конкретных примерах.

Отличная статья для понимания сути этих распределений и того, как они в итоге применяются на практике для решения конкретных задач анализа.
Enjoy)

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥5👍4❤‍🔥1
🔥 Компания Anthropic только что выпустила метод джейлбрейка, позволяющий обойти все меры безопасности LLMs.

"manyshot jailbreaking" использует преимущества больших контекстных окон, добавляя в промпты сотни вредоносных диалогов между человеком и искусственным интеллектом.

Простого включения очень большого количества фальшивых диалогов, предшествующих последнему вопросу, было достаточно, чтобы обойти меры безопасности.

🔥 Подробнее

@data_analysis_ml
🔥11👍6🤔42
👨‍🎓 AIDE стала первым агентом искусственного интеллекта человеческого уровня для работы с данными!

AIDE превосходит половину специалистов по обработке данных в широком спектре конкурсов Kaggle, превосходя обычных агентов AutoML, LangChain и ChatGPT 🏆

Статья
Github

@data_analysis_ml
😐34🔥113👍3😁2🐳1