Анализ данных (Data analysis)
46.3K subscribers
2.33K photos
275 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
💫 Карпатый объявил о своем уходе из OpenAI 4 дня назад.

Сегодня он выпустил реализацию алгоритма Byte Pair Encoding, лежащего в основе GPT и большинства LLM.

Byte Pair Encoding: "Минимальный, чистый, код для алгоритма Byte Pair Encoding (BPE), обычно используемого в токенизации LLM".

Самое интересное? Он написан в 70 строках на чистом питоне. (На самом деле это 37 строк кода, если убрать комментарии и пустые строки.)

Github

@data_analysis_ml
👍34🔥93
💡 A Guide to Production Level Deep Learning 🎬 📜 ⛴️

Руководство по созданию практических систем глубокого обучения производственного уровня для использования в реальных приложениях.

Github

@data_analysis_ml
👍123🔥2🤔2
💫 Шпаргалка для алгособеса — алгоритмическая сложность, структуры данных, методы сортировки и Дейкстра

Читать

@data_analysis_ml
👍154🔥2
Log-based testing 🪵

logot
позволяет легко проверить, правильно ли ваш код ведет журнал.

Правильное логированеи гарантирует, что ваш код можно отладить во время выполнения, но зачем вообще анализировать логи?

Иногда проверка логов - это единственный разумный способ убедиться в том, что ваш код действительно работает правильно! Особенно это касается многопоточного или асинхронного кода.

Github
Docs

@data_analysis_ml
👍103👎1🔥1
🖥 Лучшие бесплатные курсы по искусственному интеллекту в 2024 году.

Читать

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍4🔥2
🎉 Андрей Карпати снова в деле!

Только что вышел новый двухчасовой туториал по созданию GPT Tokenizer.

В этой лекции вы с нуля построите свой токенизатор, используемый в GPT от OpenAI.

В процессе вы увидите, что многие странные поведения и проблемы LLM на самом деле связаны именно с токенизацией.

В лекции рассматривается ряд этих проблем, и обсуждается, почему именно токенизация виновата в них, и почему в идеале кто-то должен найти способ полностью удалить этот этап.

Video:
https://www.youtube.com/watch?v=zduSFxRajkE

Colab:
https://colab.research.google.com/drive/1y0KnCFZvGVf_odSfcNAws6kcDD7HsI0L?usp=sharing

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍6🔥5
🚀 Вот это да. Google только что выпустила Gemma, самый мощный открытый LLM.

Открытый для коммерческого использования, он превосходит Mistral AI 7B и LLaMa 2 в тестах Human Eval и MMLU.

Это первый открытый LLM, основанный на Gemini.


Подробности:
- Поставляется в двух вариантах: 2B и 7B.
- Превосходит Mistral 7B, DeciLM 7B и Qwen1.5 7B.
- Модели в вариантах 2B и 7B.
- 8192 Контекстное окно по умолчанию.
- Оценка MMLU 64,56, средняя оценка в таблице лидеров 63,75 для 7B.
Модель -2B, совместимая с мобильными телефонами.

Доступна на HuggingFace, Kaggle и Vertex AI.

HF: https://huggingface.co/google/gemma-2b-it
Project: ai.google.dev/gemma

@data_analysis_ml
👍266🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
💫 The Tokenizer Playground

После просмотра новой лекии от Карпати, если вы хотите узнать больше о том, как различные LLM модели (например, GPT4, Llama, T5, BERT) токенизируют текст, посмотрите "The Tokenizer Playground": веб-приложение, которое создана на базе 🤗 Transformers.js, с которым вы сможете поиграться с токенизацией разных моделей на практике!

🔗 https://huggingface.co/spaces/Xenova/the-tokenizer-playground

@data_analysis_ml
🔥174👍3
🎯Высокопроизводительная модель INT4 Mistral-7B доступна для всех.

Intel Neural Compressor (превосходящая GPTQ и AWQ) и эффективно инференцированная Intel Extension for Transformers!

🤗 Модель: https://huggingface.co/Intel/Mistral-7B-v0.1-int4-inc
🌟https://github.com/intel/neural-compressor

@data_analysis_ml
👍114🥰3🍌2
👉Трансформеры для глубокого обучения. Лекции от Стэнфорда.

Изучите детали того, как работают трансформеры, и изучите их различные виды с этим плейлистом. 25 лекций, последняя вышла 4 недели назад.

🔗 Смотреть

@data_analysis_ml
👍217🔥4
🔥 Дайджест полезных материалов из мира Data Science за неделю

Почитать:

40 Полезных инструментов Дата Саентиста
Вакуумируй это: сбор и удаление мусора в базе данных Greenplum
Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
На что стоит рассчитывать на первой работе: путь стажера (data engineer)
📊 Logistic Regression in a Nutshell
Introduction to dbt
FiftyOne Computer Vision Tips and Tricks - Feb 23, 2024
Why Python and SQL are Must-Have Skills for Marketing Analysts in the Age of Big Data
Gráfico de Halteres [R-ggplot2]
"Day 32 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -11)
High Frequency Data Analysis: Converting High-frequency Signals to Discrete Buy/Sell Signals
Evaluating LLM Models for Production Systems: Methods and Practices
Amazon Forecast Overview
Turn Text Into Structured Data Using JavaScript & OpenAI's GPT

Полезные инструменты:

Взаимодействуйте с новейшими современными API моделей ИИ с NVIDIA, прямо из браузера.
Gemma - это семейство легких, современных открытых моделей, созданных на основе исследований и технологий, использованных при создании моделей Google Gemini.
Stable Diffusion 3
MotionCtrl

Посмотреть:
🌐 Лучшие бесплатные курсы и книги по Python в 2024 год. ( 08:28)
🌐 Golang: Шпаргалка для алгособеса. Алгоритмы сортировки ( 19:18)
🌐 Interview "No-Code and Low-Code AI: The New Era of Inclusive Tech Development" ( 46:59)
🌐 Stable Video AI Just Got Supercharged! - For Free! ( 07:42)
🌐 DeepMind Gemini 1.5 - An AI That Remembers! ( 08:34)
🌐 OpenAI Sora: A Closer Look!

Хорошего дня!

@data_analysis_ml
👍184🔥4🥰1
😺 Awesome CatBoost

Кураторский список ресурсов, обучающих матералов, репозиториев с открытым исходным кодом, руководств, блогов для работы с Catboost.

Catboost
Github
Awesome CatBoost
Примеры с кодом

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍4🔥2
⚡️ Шпаргалка по ML

Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:
❯ метод понижения размерности PCA
❯ ложноположительные, ложноотрицательные ошибки
❯ наивный Байесовский классификатор
❯ регрессионный анализ
❯ регуляризация
❯ архитектура, устройство, известные реализации нейронных сетей CNN
❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево

Поможет без проблем подготовиться к собесу и освежить знания

📁 PDF

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍10🔥5❤‍🔥2🤩1🥴1