Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.08K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📌Python Data Science Bootcamp

Держите мощное практическое видео по работе с Pandas, Matplotlib, NumPy, Seaborn, Scikit-learn, Plotly

Ключевые моменты в видео:
01:28:00 — Pandas
02:54:02 — NumPy
03:05:26 — Визуализация данных с помощью Matplotlib
03:26:22 — Визуализация данных с помощью Seaborn
04:39:40 — Анализ данных
05:03:12 — Элементы ML, использование Scikit-learn

📎 Видео

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍393🥰3
📌Временная сложность разных ML-алгоритмов

И вспомним про некоторые алгоритмы

Логистическая регрессия
Где применять — там, где требуется несложная классификация малого числа объектов на малое число классов.

K-means
Может сгруппировать объекты по степени похожести.
Где применять — поиск закономерностей, классификация объектов по нескольким параметрам. Работа с объектами, которые можно описывать набором переменных.

Метод опорных векторов (SVM)
Пытается построить такую линию, чтобы самым точным образом разделить между собой разные типы объектов.
Где применять — классификация объектов.

Байесовский классификатор
Определяет класс, к которому принадлежит объект. В основе — расчет вероятности, с которой объект относится к тому или иному типу данных.
Где применять — в задачах классификации, конечно же. Например, классическая задача — сказать, относится ли письмо к спаму или нет.

📎 А вот подробная статья по самым популярным ML-алгоритмам

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
29👍12🔥3
▶️xAI анонсировала ИИ-модель Grok-1.5

Стартап Илона Маска X.ai объявил о скором выходе новой версии ИИ-модели Grok. Версия Grok-1.5 станет основой чат-бота Grok соцсети X «в ближайшие дни». Согласно результатам тестов, обновлённая модель показывает улучшенные по сравнению с первой версией результаты в тестах по математике и программированию.

По данным X.ai, Grok-1.5 более чем вдвое превысила показатели Grok-1 в популярном математическом тесте MATH и набрала на 10% больше в тесте HumanEval на способность генерировать код и решать задачи по программированию.

Как отмечает TechCrunch, пока трудно предсказать, как эти результаты отразятся на реальном использовании чат-бота: то, как ИИ сдаёт тесты, не всегда коррелирует с его способностью выполнять повседневные задачи пользователей.

Серьёзным улучшением стал увеличенный объём контекста, который Grok-1.5 способна воспринимать по сравнению с предыдущей версией. Как сообщают разработчики, Grok-1.5 может обрабатывать до 128 000 токенов, что позволит чат-боту выполнять более сложные запросы и лучше понимать входящие данные.

«[Grok-1.5 способна] использовать информацию из значительно более объёмных документов, — пишет X.ai. — Более того, модель может обрабатывать более сложные запросы, сохраняя при этом способность следовать инструкциям по мере расширения контекстного окна»

Модель Grok от X.ai отличается от других моделей генеративного ИИ способностью отвечать на вопросы по темам, которые обычно закрыты для других моделей, таким как заговоры и противоречивые политические идеи. Модели также отвечают на вопросы с «бунтарской жилкой», по словам Маска, и могут грубо выражаться, если их попросят.

В ближайшее время доступ к Grok-1.5 получат участники программы раннего тестирования X.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🥰54❤‍🔥1
🌟 Microsoft построит дата-центр Stargate для OpenAI за $100 млрд

По информации нескольких источников СМИ, Microsoft профинансирует строительство крупнейшего в мире дата-центра под названием Stargate для OpenAI. Проект оценивается в $100 млрд, займёт около шести лет на реализацию и будет включать в себя кластер из суперкомпьютеров с искусственным интеллектом.

В рамках проекта Stargate каждый суперкомпьютер в кластере будет включать в себя «миллионы специализированных серверных чипов» для поддержки ИИ-систем OpenAI.

Эксперты считают, что это самый амбициозный проект Microsoft, «который будет в 100 раз дороже, чем некоторые из крупнейших современных дата-центров».

В Microsoft и OpenAI планируют, что первый суперкомпьютер проекта Stargate появится в 2026 году, а в 2028 году к нему добавится ещё серия аналогичных установок. Руководство Microsoft планирует запустить Stargate на полную мощность до 2030 года.

По данным СМИ, что реализация проекта Stargate зависит от того, сможет ли OpenAI представить свою ИИ-модель следующего поколения GPT-5 в определённые сроки. В компании планирует запустить GPT-5 где-то в начале 2025 года без уточнения даты.

В марте этого года СМИ сообщили, что OpenAI уже некоторое время активно тестирует в закрытом формате следующее поколение модели искусственного интеллекта под названием GPT-5. По словам тестировщиков, эта модель существенно лучше GPT-4. Там доступны новые опции типа интеллектуального агента, который умеет самостоятельно выполнять задания человека в течение длительных промежутков времени, а также различные системы для автономного выполнения задач.

Ранее глава OpenAI Сэм Альтман заявил, что разработчики обучают ИИ-модель пятого поколения не только на открытой информации и комбинациях общедоступных наборов данных в интернете, но и на внутренних базах данных многих крупных IT-компаний, которые сотрудничают с OpenAI.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍125😱2🥰1
💼 Quantstats

Полезная библиотека QuantStats на Python, которая выполняет анализ финансового портфеля, позволяя инвесторам и аналитикам данных лучше понимать свою работу.

QuantStats предоставляет функции для углубленной аналитики, визуализации данных и генерации метрик риска.

Чтобы визуализировать и анализировать эффективность роста цен конкретных акций в вашем портфеле, используя всего несколько строк на #Python, попробуйте Quantitated.

Github

@data_analysis_ml
👍334🥰1
🔜 DSGW - Data Science GPU Workplace

Проект DSGW призван упростить разворот полноценного рабочего места на сервере с GPU для Data Science разработки

DSGW базируется на:
— Ubuntu 22.04
— Nvidia CUDA 12.3.2
— Nvidia cuDNN 9
— Python 3.12
— VsCode Server

🤓 GitLab

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍144🔥2
💡 Во время работы с таблицами в Spark возникают ситуации, когда для обработки данных набора встроенных функций оказывается недостаточно.

В этом случае можно выгрузить таблицу в Pandas DataFrame и обрабатывать данные на Python привычными функциями. Однако, есть способ сделать это быстрее – UDF-функции в Spark.

UDF (User Defined Functions)
– это функции, которые не содержатся во встроенных модулях Spark и определяются самим пользователем. UDF позволяют расширить возможности обработки данных и могут содержать в себе комбинацию встроенных функций.

Использование UDFS в PySpark может помочь упростить выполнение сложных запросов #SQL, за счет запуска сложных операций в одном вызове функции.

В приведенном примере кода мы определяем UDF с именем modify_name, эта функция приводит все имена в нашей таблице к верхнему регистру.

📌 Подробнее о UDF

@data_analysis_ml
👍155❤‍🔥2🔥2🥰1
Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции

Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.

И вы понимаете почему.

Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз :

Если ты очень-очень глуп, как ты можешь осознать, что ты очень-очень глуп?

Разумеется, психологи очень осмотрительны, что бы убеждаться, что доказательства воспроизводимы. Но, конечно же, каждый раз, когда вы их ищете, из данных выскакивает сам эффект Даннинга-Крюгера. Таким образом кажется, что все стоит на прочной основе.

Вот только есть проблема.

Эффект Даннинга-Крюгера также возникает из данных, в которых его не должно быть. Например, если вы тщательно обработаете случайные данные так, чтобы они не содержали эффекта Даннинга-Крюгера, вы все равно обнаружите этот эффект . Причина оказывается до неприличия простой: эффект Даннинга-Крюгера не имеет ничего общего с человеческой психологией. Это статистический артефакт — потрясающий пример автокорреляции.

💥 Читать дальше

@data_analysis_ml
15👍11❤‍🔥4🔥2
Знакомьтесь, #Moirai: Библиотека, которая революционизирует прогнозирование временных рядов с помощью универсальных моделей!

Целью этой библиотеки является предоставление унифицированного решения для работы с временными рядами.

Uni2TS также предоставляет инструменты для точной настройки, оценки и прогнозирования временных рядов.

Github
Hf
Blog

@data_analysis_ml
👍177🥰1
🔥 Сегодня выпущены два самых больших открытых набора данных для распознавания текста за всю историю 📜 📜

Датасеты содержитат миллионы реальных документов, изображений и текстов для задач распознавания текста, анализа и разбора документов VQA.: https://huggingface.co/datasets/pixparse/idl-wds
Датасет дополнен аннотациями из проекта idl_data Бриттена и др. (https://arxiv.org/abs/2202.12985 )

PDFA: https://huggingface.co/datasets/pixparse/pdfa-eng-wds

@data_analysis_ml
👍16❤‍🔥4🥰2
Хотите учиться у экспертов в области IT? Школа анализа данных Яндекса принимает заявки
до 12 мая, успейте зарегистрироваться.

ШАД для вас, если вы:

· интересуетесь Machine Learning
· имеете хорошую математическую подготовку
· уверенно владеете каким-либо языком программирования

Программа длится два года, обучение бесплатное. Можно выбрать одно из направлений: Data
Science, инфраструктура больших данных, разработка машинного обучения или анализ
данных и ИИ в прикладных науках.

Больше об учёбе в ШАД и возможностях для выпускников расскажем на днях открытых
дверей. Узнать даты и зарегистрироваться можно по ссылке.
👍65🔥3
📌Подборка полезных материалов по Data Science

Держите, здесь ссылки на шпаргалки, полезные статьи, курсы на Stepik и ещё много всего
Enjoy)

📎 Ссылка

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍4🥰1
💲 Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей (LLM).

С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов.

Такие датасеты полезны для:
• оценки LLM
• точной настройки LLM
• тестирования финансовых инструментов
• и многого другого

Проект полностью открытым исходным кодом.

pip financial-datasets.

GitHub: https://github.com/virattt/financial-datasets

Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1

@data_analysis_ml
👍7🥰7❤‍🔥43🔥2
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению.

Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.

100 вопросов для собеседования по машинному обучению в 2024 году

50 вопросов для собеседования по компьютерному зрению в 2024 году

50 вопросов для интервью по глубинному обучению в 2024 году

50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году

100 вопросов с собеседований Data Science 

@machinelearning_interview
👍8❤‍🔥5🥰2