Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📌Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров

Это совершенно гениальная идея сделать модели на основе трансформеров более эффективными.

Немного деталей:
Mixture-of-Depths уменьшает объем внимания, доступного каждому уровню, и заставляет нейронную сеть обращать внимание на важную информацию.

Использование Mixture-of-Depths минимизирует потери вычислений и обеспечивает динамическое распределение вычислений на основе входной последовательности.

Mixture-of-Depths ограничивает количество токенов, которые могут участвовать в вычислениях self-attention и MLP на данном уровне.

Токены, подлежащие обработке, определяются сетью с использованием механизма маршрутизации top-k.

Метод Mixture-of-Depths использует статический граф вычислений с известными размерами тензора.

Вычислительные затраты в целом предсказуемы, но динамичны и зависят от контекста на уровне токенов.

📎 Исследование, посвящённое Mixture-of-Depths

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🥰2
🖥 Задачи ML на Swift без Python, нейронных сетей и библиотек

Для решения задач ML большинство разработчиков предпочитают интегрировать библиотеки Python в свой язык/среду, вместо рассмотрения альтернативных решений (а они есть).

В статье предлагается решить классическую задачу ML, используя язык Swift без использования библиотек.

Статья не является руководством по написанию на Swift, а показывает, что ML задачи можно решать не только с помощью Python, и в этом даже есть плюсы

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🥰43🥴2❤‍🔥1🤣1
🔥 Дайджест полезных материалов из мира Data Science за неделю

Инструменты
Command R+ - Новая модель с открытым исходным кодом показывает крутые результаты на уровне с GPT-4 и Claude 3. 104 миллиарда параметров, 128к контекста
LLocalSearch - полностью локально работающая система метапоиска, использующая LLM-агентов.
DINO-Tracker: Новая SOTA для отслеживания объектов.
Stable Audio 2.0 Stability AI представили нейросеть Stable Audio 2.0 для генерации треков с вокалом.
MagicLens: новое семейство моделей для поиска изображений от Google.
SV3D - еще один проект от Stability AI- новая модель для реконструкции изображения в 3D в хорошем качетсве.
Gaussian Head Avatar - качественная генерация ваш 3D-аватаров сразу с нескольких ракурсов.
Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей

Почитать:
Как OpenAI создавали бота, который победил проигроков в Dota 2
Огромный список лучших бесплатных курсов Data Science.
Аппаратные требования больших языковых моделей ИИ сокращаются вдвое каждые восемь месяцев
Fashion is ML profession! Материалы митапа
Как обнаружить галлюцинации в LLM?
Браузерная интерактивная игра от tensorflow, которая позволяет настраивать и обучать нейросеть
Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров
Как мы реализовали текстовый поиск за 48 часов
Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению
Open Source в российском ИИ: исследование ландшафта
Размышления о высококачественных данных, собранных людьми
Идеи улучшения точности, удобства и скорости языковых моделей
Введение в нейросети: что, зачем и как?
Как я стал специалистом по машинному обучению. Open AI и Dota 2
Introduction to LLM Ops: Reliable and Scalable LLM Integration
JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset
Machine Learning in Application Development
Let's detect flowers! (with SageMaker and DeepLens)
FiftyOne Computer Vision Tips and Tricks - April 5, 2024
Trustworthy AI: Navigating the Ethical Challenges of AI Deployment and Decision-Making
SVM and Kernels: The Math that Makes Classification Magic
Get Hired Faster: How to use Lyzr-Automata to draft personalised cold emails
AI: The new Frontier Of War
Auto-Merging: RAG Retrieval Technique
Sentence Window Retrieval: Optimizing LLM Performance

Посмотреть:
🌐 Введение в Трансформеры от
3Blue1Brown. Неповторимый стиль автора, красивая анимация и подробное разъяснение сложных тем простыми словами
( 27:13)
🌐 Эндрю Ын рассказывает о том, как будут развиваться ИИ-агенты ( 13:39)
🌐 100 вопросов с собеседований Data Science ( 36:48)
🌐 Continual Learning of Natural Language Processing Tasks with Bing Liu, PhD ( 46:38)
🌐 Navigating the GENAI Frontier: Empowering Data Scientists as Ethical Innovators with Alison Cossette ( 35:19)
🌐 Vision To Make 1% Top Data Data Scientist ( 09:08)
🌐 ИИ против ИИ в Street Fighter III ( 09:01)

Хорошего дня!

@data_analysis_ml
👍195🥰1
💛 Visualizing Attention, a Transformer's Heart

Внимание - ключевой механизм в трансформерах и LLM. В этом видео представлен подробнейший разбор механизма внимания с красивой анимацией.

Новый крутой ролик от 3Blue1Brown.

Видео

@data_analysis_ml
❤‍🔥17👍73🥰2
А/Б тестирование на маленьких выборках. Построение собственного критерия

Держите полезный контент)
В этой статье мы:
рассмотрим кейс, в котором классические статистические критерии не работают
разберёмся, почему так происходит
научимся строить свои собственные критерии по историческим данным
обсудим плюсы и минусы такого подхода.

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍156🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ BertViz - это интерактивный инструмент для визуализации работы механизма внимания в моделях основаных на Трансформерах, таких как #BERT, GPT2 и T5.

Инструмент дает представление о процессе принятия решений в модели и о том, как она распределяется внимание между различными частями входных данных.

Github

@data_analysis_ml
👍21🔥52❤‍🔥1
Yandex Cloud опубликовала программу сертификации по облачным технологиям.

Онлайн-тестирование пригодится инженерам, разработчикам, аналитикам, администраторам, архитекторам, DevOps и другим специалистам, которые хотят официально подтвердить свои знания.

Экзамен проверяет компетенции в шести областях: базовые облачные технологии, хранение и обработка данных, DevOps и автоматизация, бессерверные вычисления, информационная безопасность и биллинг.

Чтобы получить сертификат, нужно набрать минимум 35 баллов из 50. Если вышло меньше — через месяц можно будет попробовать снова.

Тестирование проходит с прокторингом на базе ИИ, который отслеживает попытки списать.

Первый тест состоится 11 апреля. Если хотите принять участие, можете подготовиться с помощью курса «Инженер облачных сервисов».
👍115🥰1🤣1
⚡️ Млн+ часов YouTube для обучения GPT-4

OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4, воспользовавшись лазейкой в законе об авторском праве. Компания использовала свою модель транскрипции аудио Whisper. Президент OpenAI Грег Брокман лично участвовал в сборе видео.

Представитель OpenAI Линдси Хелд сообщила, что компания использует «многочисленные источники, включая общедоступные данные и партнёрские отношения», а также изучает возможность создания собственных синтетических данных.

Представитель Google Мэтт Брайант отметил, что «как файлы robots.txt, так и Условия обслуживания запрещают несанкционированное сканирование или загрузку контента YouTube». По его словам, Google принимает «технические и юридические меры» для предотвращения такого использования. При этом сама компания обучала свои модели «на некотором контенте YouTube в соответствии с соглашениями с авторами».

В статье The New York Times говорится, что OpenAI исчерпала запасы полезных данных в 2021 году. К тому времени она обучила модели на данных, которые включали компьютерный код из Github, базы данных шахматных ходов и материалы школьных заданий из Quizlet. Эксперты считают, что запас доступного для обучения контента иссякнет к 2028 году. После этого оно будет производиться на синтетических данных, созданных другим ИИ. Эксперты допускают, что некоторые компании также могут преднамеренно пойти на нарушение авторских прав.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥4😁3🥰2👍1
LitGPT: Pretrain, finetune, deploy 20+ LLMs on your own data

Более 20+ SOTA моделей, которые вы можете использовать на собственных датасетах.

fp4/8/16/32
LoRA, QLoRA, Adapter (v1, v2)
flash attention
FSDP
1-1000+ GPUs/TPUs

Github

@data_analysis_ml
👍92🥰1
Gemma от DeepMind теперь умеет генерировал качественный код! 🤯 🔔

Code Gemm - набор моделей с открытым кодом. Code Gemma доступен в двух разных размерах 2B и 7B.

🧮 2B и 7B с контекстом 8192 тыс.
🛫 инициализирован из базы Gemma
🔠 Обучен на 500 тыс. токенах (веб, код и математика)
🛠 Отлаженный инструктаж с помощью SFT и RLHF
2B достигает 27% при оценке пользователем, а 7B - 52%%
Разрешено коммерческое использование
Оптимизировано для генерации кода на любомустройстве
Доступно на huggingface

Blog: https://hf.co/blog/codegemma
Models: https://huggingface.co/models?library=transformers&sort=trending&search=google%2Fcodegemma
Report: https://goo.gle/codegemma
Google Blog: https://developers.googleblog.com/2024/04/gemma-family-expands.html

@machinelearning_ru
👍13❤‍🔥4🥰1
📌Модель машинного обучения Ferret-UI от Apple

Apple представила модель машинного обучения Ferret-UI для распознавания элементов пользовательского интерфейса. В исследовании компания отметила, что практически все доступные мультимодальные языковые модели плохо работают с интерфейсами. Нейросети не отличают кнопки от полей ввода и других элементов.

Компания собрала большой датасет для обучения Ferret-UI, что значительно улучшило распознавание. Отмечается, что нейросеть превосходит не только открытые MLLM, но и GPT-4. Модель можно использовать для реализации новых функций доступности. К примеру, нейросеть сможет управлять мобильным устройством, опираясь на запросы пользователя.

📎Инженеры компании опубликовали исследование на портале Arxiv.

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
96👍4🥰3❤‍🔥1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
🔜 Парадоксы в данных, и почему визуализация бывает необходима

В этой статье несколько «парадоксов» в данных, о которых полезно знать как начинающему аналитику данных, так и любому человеку, кто не хочет быть введенным в заблуждение некорректными статистическими выводами.

За рассматриваемыми примерами не кроется сложной математики помимо базовых свойств выборки (таких, как среднее арифметическое и дисперсия), зато такие кейсы могут встретиться и на собеседовании в сфере Data Science, и в жизни.

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍7🔥4
⚡️ LLMWare — open-souce проект для разработки LLM-инструментов корпоративного уровня

Для чего LLMWare?
Позволяет создавать llmware slims — это небольшие специализированные модели, которые оптимизированы для использования с процессорами и позволяют автоматизировать задачи без дорогостоящего оборудования.

llmware slims могут выполнять различные задачи, такие как обобщение текста, извлечение тегов, определение тем, анализ намерений, классификация контента и распознавание именованных объектов.

Эти llmware slims легко настраиваются с помощью языка Python и веб-фреймворка Streamlit для создания удобного интерфейса

Вообще, вариантов использования масса, с чем можно ознакомиться в GitHub

🖥 GitHub
📎 Обзор

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
8❤‍🔥2👍2🔥2
🦾 Обучите и запустите GPT-2

Андрей Карпатый выпустил llm.c для CUDA.

Все это в одном файле llm.с и по-прежнему всего ~ 1000 строк кода чистого C.

Текущее время выполнения каждой итерации в е <3 A 100 40GB PCIe, B=4, T=1024:
- llm.c: 111 мс
- PyTorch: 180 мс
- +torch.compile: 86 мс
- +тензорные ядра fp32: 26 мс

Github

@data_analysis_ml
👍15🥰5🎉3
Нейросеть для генерации изображений YandexART стала доступна для тестирования внешним компаниям!

В режиме закрытого превью нейросеть уже попробовали несколько внешних компаний. Например, крупная e-com сеть тестирует YandexART для создания уникального дизайна подарочных карт. Клиенты сети смогут ввести текстовый запрос и самостоятельно выбрать собственное оформление для карты.

Теперь на облачной платформе Yandex Cloud с помощью YandexART компании смогут создавать визуалы для рекламы и социальных сетей, дизайн-макеты, иллюстрации для диджитала и книг. Нейросеть можно встроить через API в различные сервисы и веб-приложения
👍7🥰1🎉1
⭐️ Autolabel

Если вам уже наскучили задачи NLP, такие как:

- кластеризация документов (Classification);
- распознавание именованных сущностей (Named Entity Recognition);
- связывание именованных сущностей (Entity Matching);
- оценка эмоциональной окраски (Sentiment Analysis);
- поиск ответа в тексте и многое другое.

То вам помогут LLM. Библиотека Autolabel быстро и бесплатно решает эти задачи, причем выбор модели остается за вами.

pip install refuel-autolabel

Github

@data_analysis_ml
👍192🥰2