💫 Шпаргалка для алгособеса — алгоритмическая сложность, структуры данных, методы сортировки и Дейкстра
▪Читать
@data_analysis_ml
▪Читать
@data_analysis_ml
👍15❤4🔥2
Log-based testing 🪵
logot позволяет легко проверить, правильно ли ваш код ведет журнал.
Правильное логированеи гарантирует, что ваш код можно отладить во время выполнения, но зачем вообще анализировать логи?
Иногда проверка логов - это единственный разумный способ убедиться в том, что ваш код действительно работает правильно! Особенно это касается многопоточного или асинхронного кода.
▪Github
▪Docs
@data_analysis_ml
logot позволяет легко проверить, правильно ли ваш код ведет журнал.
Правильное логированеи гарантирует, что ваш код можно отладить во время выполнения, но зачем вообще анализировать логи?
Иногда проверка логов - это единственный разумный способ убедиться в том, что ваш код действительно работает правильно! Особенно это касается многопоточного или асинхронного кода.
▪Github
▪Docs
@data_analysis_ml
👍10❤3👎1🔥1
Только что вышел новый двухчасовой туториал по созданию GPT Tokenizer.
В этой лекции вы с нуля построите свой токенизатор, используемый в GPT от OpenAI.
В процессе вы увидите, что многие странные поведения и проблемы LLM на самом деле связаны именно с токенизацией.
В лекции рассматривается ряд этих проблем, и обсуждается, почему именно токенизация виновата в них, и почему в идеале кто-то должен найти способ полностью удалить этот этап.
Video: https://www.youtube.com/watch?v=zduSFxRajkE
Colab: https://colab.research.google.com/drive/1y0KnCFZvGVf_odSfcNAws6kcDD7HsI0L?usp=sharing
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Let's build the GPT Tokenizer
The Tokenizer is a necessary and pervasive component of Large Language Models (LLMs), where it translates between strings and tokens (text chunks). Tokenizers are a completely separate stage of the LLM pipeline: they have their own training sets, training…
❤15👍6🔥5
🚀 Вот это да. Google только что выпустила Gemma, самый мощный открытый LLM.
Открытый для коммерческого использования, он превосходит Mistral AI 7B и LLaMa 2 в тестах Human Eval и MMLU.
Это первый открытый LLM, основанный на Gemini.
Подробности:
- Поставляется в двух вариантах: 2B и 7B.
- Превосходит
- Модели в вариантах 2B и 7B.
- 8192 Контекстное окно по умолчанию.
- Оценка MMLU 64,56, средняя оценка в таблице лидеров 63,75 для 7B.
Модель -2B, совместимая с мобильными телефонами.
Доступна на HuggingFace, Kaggle и Vertex AI.
▪HF: https://huggingface.co/google/gemma-2b-it
▪Project: ai.google.dev/gemma
@data_analysis_ml
Открытый для коммерческого использования, он превосходит Mistral AI 7B и LLaMa 2 в тестах Human Eval и MMLU.
Это первый открытый LLM, основанный на Gemini.
Подробности:
- Поставляется в двух вариантах: 2B и 7B.
- Превосходит
Mistral 7B, DeciLM 7B и Qwen1.5 7B.
- Модели в вариантах 2B и 7B.
- 8192 Контекстное окно по умолчанию.
- Оценка MMLU 64,56, средняя оценка в таблице лидеров 63,75 для 7B.
Модель -2B, совместимая с мобильными телефонами.
Доступна на HuggingFace, Kaggle и Vertex AI.
▪HF: https://huggingface.co/google/gemma-2b-it
▪Project: ai.google.dev/gemma
@data_analysis_ml
👍26❤6🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
💫 The Tokenizer Playground
После просмотра новой лекии от Карпати, если вы хотите узнать больше о том, как различные LLM модели (например,
🔗 https://huggingface.co/spaces/Xenova/the-tokenizer-playground
@data_analysis_ml
После просмотра новой лекии от Карпати, если вы хотите узнать больше о том, как различные LLM модели (например,
GPT4, Llama, T5, BERT
) токенизируют текст, посмотрите "The Tokenizer Playground
": веб-приложение, которое создана на базе 🤗 Transformers.js, с которым вы сможете поиграться с токенизацией разных моделей на практике!🔗 https://huggingface.co/spaces/Xenova/the-tokenizer-playground
@data_analysis_ml
🔥17❤4👍3
🎯Высокопроизводительная модель INT4 Mistral-7B доступна для всех.
Intel Neural Compressor (превосходящая GPTQ и AWQ) и эффективно инференцированная Intel Extension for Transformers!
🤗 Модель: https://huggingface.co/Intel/Mistral-7B-v0.1-int4-inc
🌟https://github.com/intel/neural-compressor
@data_analysis_ml
Intel Neural Compressor (превосходящая GPTQ и AWQ) и эффективно инференцированная Intel Extension for Transformers!
🤗 Модель: https://huggingface.co/Intel/Mistral-7B-v0.1-int4-inc
🌟https://github.com/intel/neural-compressor
@data_analysis_ml
👍11❤4🥰3🍌2
👉Трансформеры для глубокого обучения. Лекции от Стэнфорда.
Изучите детали того, как работают трансформеры, и изучите их различные виды с этим плейлистом. 25 лекций, последняя вышла 4 недели назад.
🔗 Смотреть
@data_analysis_ml
Изучите детали того, как работают трансформеры, и изучите их различные виды с этим плейлистом. 25 лекций, последняя вышла 4 недели назад.
🔗 Смотреть
@data_analysis_ml
👍21❤7🔥4
🔥 Дайджест полезных материалов из мира Data Science за неделю
Почитать:
— 40 Полезных инструментов Дата Саентиста
— Вакуумируй это: сбор и удаление мусора в базе данных Greenplum
— Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
— На что стоит рассчитывать на первой работе: путь стажера (data engineer)
— 📊 Logistic Regression in a Nutshell
— Introduction to dbt
— FiftyOne Computer Vision Tips and Tricks - Feb 23, 2024
— Why Python and SQL are Must-Have Skills for Marketing Analysts in the Age of Big Data
— Gráfico de Halteres [R-ggplot2]
— "Day 32 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -11)
— High Frequency Data Analysis: Converting High-frequency Signals to Discrete Buy/Sell Signals
— Evaluating LLM Models for Production Systems: Methods and Practices
— Amazon Forecast Overview
— Turn Text Into Structured Data Using JavaScript & OpenAI's GPT
Полезные инструменты:
▪ Взаимодействуйте с новейшими современными API моделей ИИ с NVIDIA, прямо из браузера.
▪Gemma - это семейство легких, современных открытых моделей, созданных на основе исследований и технологий, использованных при создании моделей Google Gemini.
▪ Stable Diffusion 3
▪MotionCtrl
Посмотреть:
🌐 Лучшие бесплатные курсы и книги по Python в 2024 год. (⏱ 08:28)
🌐 Golang: Шпаргалка для алгособеса. Алгоритмы сортировки (⏱ 19:18)
🌐 Interview "No-Code and Low-Code AI: The New Era of Inclusive Tech Development" (⏱ 46:59)
🌐 Stable Video AI Just Got Supercharged! - For Free! (⏱ 07:42)
🌐 DeepMind Gemini 1.5 - An AI That Remembers! (⏱ 08:34)
🌐 OpenAI Sora: A Closer Look!
Хорошего дня!
@data_analysis_ml
Почитать:
— 40 Полезных инструментов Дата Саентиста
— Вакуумируй это: сбор и удаление мусора в базе данных Greenplum
— Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
— На что стоит рассчитывать на первой работе: путь стажера (data engineer)
— 📊 Logistic Regression in a Nutshell
— Introduction to dbt
— FiftyOne Computer Vision Tips and Tricks - Feb 23, 2024
— Why Python and SQL are Must-Have Skills for Marketing Analysts in the Age of Big Data
— Gráfico de Halteres [R-ggplot2]
— "Day 32 of My Learning Journey: Setting Sail into Data Excellence! Today's Focus: Mathematics for Data Analysis (Stats Day -11)
— High Frequency Data Analysis: Converting High-frequency Signals to Discrete Buy/Sell Signals
— Evaluating LLM Models for Production Systems: Methods and Practices
— Amazon Forecast Overview
— Turn Text Into Structured Data Using JavaScript & OpenAI's GPT
Полезные инструменты:
▪ Взаимодействуйте с новейшими современными API моделей ИИ с NVIDIA, прямо из браузера.
▪Gemma - это семейство легких, современных открытых моделей, созданных на основе исследований и технологий, использованных при создании моделей Google Gemini.
▪ Stable Diffusion 3
▪MotionCtrl
Посмотреть:
🌐 Лучшие бесплатные курсы и книги по Python в 2024 год. (⏱ 08:28)
🌐 Golang: Шпаргалка для алгособеса. Алгоритмы сортировки (⏱ 19:18)
🌐 Interview "No-Code and Low-Code AI: The New Era of Inclusive Tech Development" (⏱ 46:59)
🌐 Stable Video AI Just Got Supercharged! - For Free! (⏱ 07:42)
🌐 DeepMind Gemini 1.5 - An AI That Remembers! (⏱ 08:34)
🌐 OpenAI Sora: A Closer Look!
Хорошего дня!
@data_analysis_ml
👍18❤4🔥4🥰1
Кураторский список ресурсов, обучающих матералов, репозиториев с открытым исходным кодом, руководств, блогов для работы с Catboost.
▪Catboost
▪Github
▪Awesome CatBoost
▪Примеры с кодом
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍4🔥2
Нереальной полезности пост — ловите Cheatsheet по Machine Learning, тут разобраны самые основные понятия и даже больше:
❯ метод понижения размерности PCA
❯ ложноположительные, ложноотрицательные ошибки
❯ наивный Байесовский классификатор
❯ регрессионный анализ
❯ регуляризация
❯ архитектура, устройство, известные реализации нейронных сетей CNN
❯ базовые структуры данных: массив, связный список, стек, очередь, хеш-таблица, дерево
Поможет без проблем подготовиться к собесу и освежить знания
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47👍10🔥5❤🔥2🤩1🥴1
This media is not supported in your browser
VIEW IN TELEGRAM
Приемущества
1. Декларативный подход: Altair предлагает декларативный подход к созданию графиков, что означает, что вы описываете, какие данные вы хотите визуализировать и как, а библиотека заботится о деталях.
2. Простота использования: Altair позволяет генерировать красивые графики с минимальным количеством кода. Это делает его отличным выбором для быстрого создания визуализаций.
3. Легкая Интеграция: Altair хорошо интегрируется с Pandas, Jupyter Notebook и JupyterLab для , что упрощает работу с данными.
4.Интерактивность: Позволяет создавать интерактивные графики без усилий.
Недостатки
1. Ограниченные возможности настройки: В сравнении с Matplotlib, Altair предоставляет меньше возможностей для настройки графиков.
2. Ограниченная документация: Altair не обладает богатой документацией.
pip install altair
▪Github
▪Docs
▪Colab
▪Примеры
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤6🔥6