Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

47.1K subscribers

2.64K photos

304 videos

1 file

2.29K links

Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

47.1K subscribers

Анализ данных (Data analysis)

⚡️

Если вы ищете открыте датасетов для работы - вот 7 бесплатных источников данных, где вы можете найти данные для любых задач.

1. Репозиторий Awesome Data Github

В этом репозитории вы найдете ссылки на открыте наборы данных, которые содержат изображения, текст, аудио и табличные данные.
https://github.com/awesomedata/awesome-public-datasets

2. Kaggle

Более 1000 датасетов, которые можно легко скачать и работать с ними, совершенно бесплатно.
https://www.kaggle.com/datasets

3. Открытый реестр данных на AWS

Поиск и обмен датасетами х с помощью ресурсов AWS.

4. Open ML

Более 20K+ наборов данных на Open ML
https://openml.org

5. Papers with Code

Papers with Code содержит более 7000 открытыз наборов данных по всем возможным тематикам.
https://paperswithcode.com/datasets

6. Hugging Face

На Hugging Face вы можете найти 80K+ наборов данных.
https://huggingface.co/datasets

7. Dagshub

Много бесплатных даатсетов можно найти на Dagshub:
https://dagshub.com/datasets/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍10🔥5

7.36K views11:36

Анализ данных (Data analysis)

🔥

100 слайдов о внутреннем устройстве PyTorch 2 с упором на последние нововведения (Dynamo, Inductor и ExecuTorch).

📚

PDF: https://drive.google.com/file/d/1XBox0G3FI-71efQQjmqGh0-VkCd-AHPL/view?usp=drive_link

💻

Slideshare: https://slideshare.net/perone/pytorch-2-internals

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍9❤1

6.58K views16:03

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🖥

Одна из самых глубоких статей объяняющих LLM.

Автор, показывает что понимание и сжатие данных для llm- это две стороны одной медали.🪙

И что интересно, когда мы имеем дело с предсказанием слов, cжатие данных с потерями, выглядит умнее, чем сжатие без потерь! 💡

Ниже приводится объяснение того, почему ChatGPT дает нам иллюзию понимания:

"Тот факт, что ChatGPT перефразирует материал из Сети, а не цитирует его слово в слово... создает иллюзию, что ChatGPT понимает материал".

У людей заучивание не является показателем подлинного обучения, поэтому неспособность ChatGPT выдавать точные цитаты сайтов, как раз и заставляет нас думать, что он чему-то научился.

Когда мы имеем дело с последовательностями слов, сжатие с потерями выглядит умнее, чем сжатие без потерь".

Полный текст статьи читайте здесь: https://newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥4❤2

7.23K views09:01

Анализ данных (Data analysis)

💡

Сейчас происходит слишком много событий, так что вот просто сымые интересные проекты за последние дни со ссылоками

▪GPT-4 + Medprompt -> SOTA MMLU
https://microsoft.com/en-us/research/blog/steering-at-the-frontier-extending-the-power-of-prompting/

▪Mixtral 8x7B @ MLX
https://github.com/ml-explore/mlx-examples/tree/main/mixtral

▪За пределами человеческих данных: Масштабирование самообучения для решения проблем с помощью языковых моделей
https://arxiv.org/abs/2312.06585

▪Phi-2 (2.7B), самая маленькая и самая впечатляющая модель
https://microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/

▪LLM360: На пути к полностью прозрачным LLM с открытым исходным кодом
https://arxiv.org/abs/2312.06550

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤2🔥1

6.83K views07:47

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Новый беспланый курс по Reinforcement Learning from Human Feedback!

RLHF - это одна из ключевых техник, которая привела к появлению современных LLM.

В этом курсе, который ведет Никита Намджоши, разработчик из GenAI в
Google cloud, вы узнаете, как работает RLHF, в том числе как применить его для настройки LLM в собственных приложениях.

Вы также воспользуетесь библиотекой с открытым исходным кодом для настройки базового LLM и оцените настроенную модель, сравнив ее ответы до и после RLHF-настройки.

deeplearning.ai/short-courses/reinforcement-learning-from-human-feedback/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤2🔥1

6.37K views05:02

Анализ данных (Data analysis)

📈

SlimSAM: 0.1% Data Makes Segment Anything Slim

Внушительный размер модели и высокие вычислительные требования модели Segment Anything Model (SAM) сделали ее громоздкой для развертывания на устройствах с ограниченными ресурсами.

Существующие подходы к сжатию SAM обычно предполагают обучение новой сети с нуля, что ставит перед разработчиками сложную задачу компромисса между степенью сжатия и производительностью модели.

Для решения этой проблемы представлен SlimSAM - новый метод сжатия SAM, который обеспечивает превосходную производительность при значительно меньших затратах на обучение.

Это достигается за счет эффективного повторного использования предварительно обученных моделей с помощью единой системы обрезки и дистилляции.

В отличие от предыдущих методов обрезки, мы тщательно обрезаем и дистиллируем разрозненные структуры моделей поочередно.

SlimSAM обеспечивает значительный прирост производительности и требует в 10 раз меньше затрат на обучение, чем другие существующие методы.

Даже по сравнению с оригинальным SAM-H, SlimSAM достигает приближающейся производительности при сокращении количества параметров всего до 0,9% (5,7M), MAC до 0,8% (21G) и требуя всего 0,1% (10k) обучающих данных SAM.

🖥

Code: https://github.com/czg1225/SlimSAM

🌟

Colab: https://modelslab.com

📚

Paper: https://arxiv.org/abs/2312.05284

⚡️

Dataset: https://tianxingwu.github.io/pages/FreeInit/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤1🔥1🥰1

6K viewsedited 16:03

Анализ данных (Data analysis)

📈

PromptBench: A Unified Library for Evaluating and Understanding Large Language Models.

PromptBench - это основанный на Pytorch пакет Python для оценки больших языковых моделей (LLM). Он предоставляет удобные API для исследователей, чтобы проводить оценку LLM.

🖥

Code: https://github.com/microsoft/promptbench

🌟

Docs: https://promptbench.readthedocs.io/en/latest/

📚

Paper: https://arxiv.org/abs/2312.07910v1

⚡️

Dataset: https://paperswithcode.com/dataset/mmlu

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤2🔥2

6.65K views18:23

Анализ данных (Data analysis)

🎉 Лучшие Open Source проекты 2023 года.

Выбрана вторая группа победителей программы Google Open Source Peer Bonus Program 2023 года

138 победителей были выбраны за влияние их вклада в проект с открытым исходным кодом, качество их работы и преданность открытому исходному коду.

👉

https://opensource.googleblog.com/2023/12/google-open-source-peer-bonus-program-announces-second-group-of-2023-winners.html

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤4👍2

6.9K views10:02

Анализ данных (Data analysis)

Улучшение нейросетей, рекомендаций и медицинская диагностика — только часть решений, где могут пригодиться ML-исследования. Авторов самых перспективных из них отметил Яндекс на Yandex ML Prize.

Yandex ML Prize — международная премия, которая уже пятый год поддерживает учёных-новичков и мотивирует их заниматься наукой. Участники изучают подходы и алгоритмы, которые позже могут лечь в основу разных технологий и продуктов. Например, поисковых сервисов или компьютерной графики. А ещё способны улучшить медицину: помогать изучать клетки живых организмов или находить редкие болезни на ранних этапах.

В этом году 11 лауреатов получили от Яндекса премии от 500 тысяч до 1 миллиона рублей, грант на использование платформы Yandex Cloud для экспериментов и больших вычислений и другие призы.

@data_analysis_ml

❤9🎉4👍2

6.77K views17:02

Анализ данных (Data analysis)

⚡️ Python совет

При объединении двух датафреймов Pandas с одинаковыми именами столбцов по умолчанию к именам столбцов добавляются суффиксы

"_x" и "_y".

Чтобы улучшить читаемость кода, вы можете указать собственные суффиксы.

#Python

@data_analysis_ml

👍44🥱3❤2😁2🔥1

7.17K views19:01

Анализ данных (Data analysis)

🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:
— Как извлекать пользу из данных: подборка материалов
— Что нового в Apache Spark 3.4.0 — Spark Connect — Доработки для Shuffle
— Инструменты продуктового аналитика VK, или Как мы работаем с большими данными
— Наиболее часто используемые команды Linux
— 79 Ресурсов, которые следует прочитать, чтобы улучшить свои навыки в области проектирования систем:
— Бесплатные сертификационные курсы для специалистов по данным
— Бесконечные проверки – к успешному развитию: как мы обеспечиваем качество данных
— Как мы наводим порядок с данными в столичном транспортном институте
— Introduction to NannyML: Model Evaluation without labels
— AI in Finance: Transforming Investment Strategies and Risk Management
— How to Use Pandas for Data Analysis
— Telemedicine capabilities expanded through artificial intelligence
— Google Cloud Storage com Python: Um Guia Completo
— Navigating Financial Insights: Analyzing Stock Data with Python and Visualization
— Unveiling Joint Variability: Exploring Covariance
— Navigating Financial Relationships: Understanding Correlation in Finance
— Amazon QuickSight Summary
— 6 Data Science Projects That Can Supercharge Your Job Prospects!

Посмотреть:
🌐 Mixtral 8x7B - это сет из 8 нейронок, которые работают вместе
🌐 How to use Llama2 locally (⏱ 09:00)
🌐 Ollama — модель уровня GPT. Используй GPT без ограничений и абсолютно бесплатно. (⏱ 07:40)
🌐 Shutil: лучший инструмент для управления файлами Python. (⏱ 17:05)
🌐 💡Задача Python: Максимальное среднее подмассива (⏱ 01:00)
🌐 Как использовать API ChatGpt. Работа с Api c нуля (⏱ 12:42)
🌐 Нахождение позиций в отсортированном массиве #python #array #shorts #сортировка (⏱ 00:40)
🌐 Lightning Interview "Catastrophic AI Risks" (⏱ 01:04:57)
🌐 Finetuning, Serving, and Evaluating LLMs in the Wild - Hao Zhang, PhD (⏱ 29:20)
🌐 New AI: 6,000,000,000 Steps In 24 Hours! (⏱ 08:28)
🌐 NVIDIA’s New AI: Virtual Worlds From Nothing! + Gemini Update! (⏱ 09:40)

Хорошего дня!

@data_analysis_ml

👍17❤8🔥6

7.43K views08:56

Анализ данных (Data analysis)

🔥Подборка лучших обучающих каналов для программистов.

➡️Делитесь с коллегами и Сохраняйте себе, чтобы не потерять

⚡Машинное обучение

Machine Learning - полезные статьи новости гайды и разбор кода
Ml Собеседование - подготовка к собеседовению мл, алгоритмам, кодингу
Ml ru - актуальные статьи, новости, код и обучающие материалы
Ml Jobs - вакансии ML
ML Книги - актуальные бесплатные книги МО
ML чат

🚀 Data Science

Анализ данных - полезные фишки, код, гайды и советы, маст-хэв датасаентиста
Data Jobs - ds вакансии
Аналитик данных
Data Science книги - актуальные бесплатные книги
Big data

🏆 Golang
Golang - подробные гайды, разбор кода, лучшие практики, заметки
Golang собеседование
Golang вакансии
Golang книги
Golang задачи и тесты
Golang чат
Golang news - новости go

#️⃣C#

С# академия
С# заметки — код, лучшие практики, заметки программиста c#
С# задачи и тесты
С# библиотека - актуальные бесплатные книги
C# вакансии - работа

🐍 Python

Python/django
Python Собеседование - подготовка к собеседовению python и разбор алгоритмов
Pro python - статьи, новости, код и обучающие материалы
Python Jobs - вакансии Python
Python чат
Python книги

☕ Java

Java академия
Java вакансии
Java чат
Java вопросы с собеседований
Java книги

💻 C++

C++ академия
С++ книги
C++ задачи - подготовка к собеседовению мл, алгоритмам
C++ вакансии

💥 Хакинг Kali Linux

Kali linux
linux_kal - kali чат
Информационная безопасность

🐧 Linux

Linux academy

🦀 Rust
Rust программирование
Rust чат

🛢Базы данных
Sql базы данных
Библиотека баз данных
SQL чат

📲 Мобильная разработка
Android разработка
Мобильный разработчик гайды и уроки

🖥 Javascript/React/PHP
Javascript академия
React программирование
PHP
Книги frontend
Задачи frontend

🇬🇧 Английский для программистов

🧠 Искусственный интеллект
ИИ и технологии
Neural - нейросети для работы и жизни
Книги ИИ
Artificial Intelligence

🔥 DevOPs
Devops для программистов
Книги Devops
Docker

📓 Книги
Библиотеки Книг для программситов

💼 Папка с вакансиями:
Папка Go разработчика:
Папка Python разработчика:
Папка Data Science
Папка Java разработчика
Папка C#

👍15❤8🔥2

7.42K viewsedited 08:23

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

Хотите поэкспериментировать с различными методами обработки данных и гиперпараметрами модели? Редактирование конфигурационного файла вручную каждый раз может быть хлопотным.

Hydra позволяет быстро и легко создавать ин настраивать конфиги, выбирать опции из различных групп конфигураций.

@data_analysis_ml

👍13🔥3❤2

7.4K views10:20

Анализ данных (Data analysis)

"Дайте мне 7B Llama 2 и GPU, и я изменю мир".
-- Архимед

@data_analysis_ml

😁36👍9❤2🥱1

6.93K views11:54

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

Представляем MakeReal в jupyter-tldraw ✨.

Теперь вы можете вручную рисовать графики сюжет и MakeReal будет превращать их в код c использованием matplotlib прямо в блокноте!

▪Github

@data_analysis_ml

👍46🔥7🥰5❤2🤣2

9.67K views12:46

Анализ данных (Data analysis)

⚡️

Colab T4

Выпущена новая версия Colab 🥳

▪Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28🔥8❤5

7.31K views06:01

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Выпущен новый инструмент, который упрощает перенос вашего датасета с GitHub в Hugging Face Hub! 🚀

У вас есть ценные датасеты, спрятанные в папке 'data' в репозитории GitHub? Теперь вы можете поделиться ими с ML-сообществом всего за несколько минут 🤗.

https://huggingface.co/spaces/librarian-bots/github-to-huggingface-dataset-migration-tool

@data_analysis_ml

👍13❤3🔥1

7.87K views11:01

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🪐 nbcommands позволяет использовать команды Unix в блокнотах Jupyter.

Это позволяет взаимодействовать с блокнотами Jupyter без запуска сервера блокнотов.

pip install nbcommands

▪Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤4👍4

7.1K views08:02

Анализ данных (Data analysis)

🖥 Чтобы протестировать наличие определенного исключения в модульном тестировании, используйте функцию pytest.raises.

Например, с его помощью можно проверить, будет ли выброшена ошибка ValueError при наличии NaN-значений в столбце group.

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11🔥4❤2

7.52K viewsedited 13:51

Анализ данных (Data analysis)

🖥

Ранний релиз: Skrub - новый инструмент для подготовки данных.

▪Подготовка таблиц для машинного обучения
▪Создан для работы со scikit-learn, Python
▪Устойчив к зашумленным данным
▪Работает с фреймами данных pandas

pip install skrub -U

https://skrub-data.org/stable/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18👍9❤8

8.4K views09:02