Анализ данных (Data analysis)
46.3K subscribers
2.34K photos
277 videos
1 file
2.07K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
📌Подборка полезных материалов по Data Science

Держите, здесь ссылки на шпаргалки, полезные статьи, курсы на Stepik и ещё много всего
Enjoy)

📎 Ссылка

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍4🥰1
💲 Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей (LLM).

С помощью этой библиотеки вы можете генерировать реалистичные наборы финансовых данных за 5 строк кода, на основе отчетов SEC, таких как 10-Ks, 10-Qs и других финансовых отчетов.

Такие датасеты полезны для:
• оценки LLM
• точной настройки LLM
• тестирования финансовых инструментов
• и многого другого

Проект полностью открытым исходным кодом.

pip financial-datasets.

GitHub: https://github.com/virattt/financial-datasets

Пример с кодом: https://colab.research.google.com/gist/virattt/f9b5a0ae82cc0caab57df5dedc2927c9/intro-financial-datasets.ipynb#scrollTo=K-b_1BPtJsS1

@data_analysis_ml
👍7🥰7❤‍🔥43🔥2
🔥 Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению.

Подборка вопросов для собеседования поможет вам на собеседовании в области науки о данных, искусственного интеллекта, машинного обучения, глубинного обучения, обработки естественного языка, компьютерного зрения.

100 вопросов для собеседования по машинному обучению в 2024 году

50 вопросов для собеседования по компьютерному зрению в 2024 году

50 вопросов для интервью по глубинному обучению в 2024 году

50 вопросов для интервью по НЛП (обработке естественного языка) в 2024 году

100 вопросов с собеседований Data Science 

@machinelearning_interview
👍8❤‍🔥5🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
📌Основные типы распределений вероятностей в примерах

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения.

В данной статье автор делает упор не на функции и формулы, которые обычно сопутствуют распределениям (функции вероятности, распределения, PMF, PDF, CDF). Скорее он пытается показать, как генерируются те или иные распределения на конкретных примерах.

Отличная статья для понимания сути этих распределений и того, как они в итоге применяются на практике для решения конкретных задач анализа.
Enjoy)

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥5👍4❤‍🔥1
🔥 Компания Anthropic только что выпустила метод джейлбрейка, позволяющий обойти все меры безопасности LLMs.

"manyshot jailbreaking" использует преимущества больших контекстных окон, добавляя в промпты сотни вредоносных диалогов между человеком и искусственным интеллектом.

Простого включения очень большого количества фальшивых диалогов, предшествующих последнему вопросу, было достаточно, чтобы обойти меры безопасности.

🔥 Подробнее

@data_analysis_ml
🔥11👍6🤔42
👨‍🎓 AIDE стала первым агентом искусственного интеллекта человеческого уровня для работы с данными!

AIDE превосходит половину специалистов по обработке данных в широком спектре конкурсов Kaggle, превосходя обычных агентов AutoML, LangChain и ChatGPT 🏆

Статья
Github

@data_analysis_ml
😐34🔥113👍3😁2🐳1
📌Machine learning pipeline — основы. Cookiecutter и Hydra

Простые проекты по Data Science делаются в Jupyter Notebooks и это нормально.
Но с увеличением сложности начинаются проблемы; например, вы строите несколько типов моделей с несколькими вариантами заполнения пропусков (среднее, медиана), генерируете набор feature engineering и применяете разные варианты разбиения выборки.
Можно разместить весь этот код в один Jupyter Notebooks и логгировать метрики и конфиги. Код получится громоздкий и не поворотливый. Для запуска экспериментов надо будет или перескакивать или комментировать ячейки, которые не нужно запускать.

Для решения этих проблем рекомендую использовать pipeline для автоматизации рабочих процессов машинного обучения. Основная цель создания пайплайна — это контроль. Хорошо организованный пайплайн делает реализацию более гибкой.
Об этом и идёт речь в статье, а также о Cookiecutter и Hydra, которые помогают строить пайплайны.

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106❤‍🔥1🔥1
📌Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров

Это совершенно гениальная идея сделать модели на основе трансформеров более эффективными.

Немного деталей:
Mixture-of-Depths уменьшает объем внимания, доступного каждому уровню, и заставляет нейронную сеть обращать внимание на важную информацию.

Использование Mixture-of-Depths минимизирует потери вычислений и обеспечивает динамическое распределение вычислений на основе входной последовательности.

Mixture-of-Depths ограничивает количество токенов, которые могут участвовать в вычислениях self-attention и MLP на данном уровне.

Токены, подлежащие обработке, определяются сетью с использованием механизма маршрутизации top-k.

Метод Mixture-of-Depths использует статический граф вычислений с известными размерами тензора.

Вычислительные затраты в целом предсказуемы, но динамичны и зависят от контекста на уровне токенов.

📎 Исследование, посвящённое Mixture-of-Depths

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🥰2
🖥 Задачи ML на Swift без Python, нейронных сетей и библиотек

Для решения задач ML большинство разработчиков предпочитают интегрировать библиотеки Python в свой язык/среду, вместо рассмотрения альтернативных решений (а они есть).

В статье предлагается решить классическую задачу ML, используя язык Swift без использования библиотек.

Статья не является руководством по написанию на Swift, а показывает, что ML задачи можно решать не только с помощью Python, и в этом даже есть плюсы

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🥰43🥴2❤‍🔥1🤣1
🔥 Дайджест полезных материалов из мира Data Science за неделю

Инструменты
Command R+ - Новая модель с открытым исходным кодом показывает крутые результаты на уровне с GPT-4 и Claude 3. 104 миллиарда параметров, 128к контекста
LLocalSearch - полностью локально работающая система метапоиска, использующая LLM-агентов.
DINO-Tracker: Новая SOTA для отслеживания объектов.
Stable Audio 2.0 Stability AI представили нейросеть Stable Audio 2.0 для генерации треков с вокалом.
MagicLens: новое семейство моделей для поиска изображений от Google.
SV3D - еще один проект от Stability AI- новая модель для реконструкции изображения в 3D в хорошем качетсве.
Gaussian Head Avatar - качественная генерация ваш 3D-аватаров сразу с нескольких ракурсов.
Financial Datasets - это библиотека Python с открытым исходным кодом, которая позволяет разработчикам создавать синтетические наборы финансовых данных с использованием больших языковых моделей

Почитать:
Как OpenAI создавали бота, который победил проигроков в Dota 2
Огромный список лучших бесплатных курсов Data Science.
Аппаратные требования больших языковых моделей ИИ сокращаются вдвое каждые восемь месяцев
Fashion is ML profession! Материалы митапа
Как обнаружить галлюцинации в LLM?
Браузерная интерактивная игра от tensorflow, которая позволяет настраивать и обучать нейросеть
Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров
Как мы реализовали текстовый поиск за 48 часов
Большая подборка вопросов для собеседования по DS, AI, ML, DL, NLP, компьютерному зрению
Open Source в российском ИИ: исследование ландшафта
Размышления о высококачественных данных, собранных людьми
Идеи улучшения точности, удобства и скорости языковых моделей
Введение в нейросети: что, зачем и как?
Как я стал специалистом по машинному обучению. Open AI и Dota 2
Introduction to LLM Ops: Reliable and Scalable LLM Integration
JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset
Machine Learning in Application Development
Let's detect flowers! (with SageMaker and DeepLens)
FiftyOne Computer Vision Tips and Tricks - April 5, 2024
Trustworthy AI: Navigating the Ethical Challenges of AI Deployment and Decision-Making
SVM and Kernels: The Math that Makes Classification Magic
Get Hired Faster: How to use Lyzr-Automata to draft personalised cold emails
AI: The new Frontier Of War
Auto-Merging: RAG Retrieval Technique
Sentence Window Retrieval: Optimizing LLM Performance

Посмотреть:
🌐 Введение в Трансформеры от
3Blue1Brown. Неповторимый стиль автора, красивая анимация и подробное разъяснение сложных тем простыми словами
( 27:13)
🌐 Эндрю Ын рассказывает о том, как будут развиваться ИИ-агенты ( 13:39)
🌐 100 вопросов с собеседований Data Science ( 36:48)
🌐 Continual Learning of Natural Language Processing Tasks with Bing Liu, PhD ( 46:38)
🌐 Navigating the GENAI Frontier: Empowering Data Scientists as Ethical Innovators with Alison Cossette ( 35:19)
🌐 Vision To Make 1% Top Data Data Scientist ( 09:08)
🌐 ИИ против ИИ в Street Fighter III ( 09:01)

Хорошего дня!

@data_analysis_ml
👍195🥰1
💛 Visualizing Attention, a Transformer's Heart

Внимание - ключевой механизм в трансформерах и LLM. В этом видео представлен подробнейший разбор механизма внимания с красивой анимацией.

Новый крутой ролик от 3Blue1Brown.

Видео

@data_analysis_ml
❤‍🔥17👍73🥰2
А/Б тестирование на маленьких выборках. Построение собственного критерия

Держите полезный контент)
В этой статье мы:
рассмотрим кейс, в котором классические статистические критерии не работают
разберёмся, почему так происходит
научимся строить свои собственные критерии по историческим данным
обсудим плюсы и минусы такого подхода.

📎 Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍156🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ BertViz - это интерактивный инструмент для визуализации работы механизма внимания в моделях основаных на Трансформерах, таких как #BERT, GPT2 и T5.

Инструмент дает представление о процессе принятия решений в модели и о том, как она распределяется внимание между различными частями входных данных.

Github

@data_analysis_ml
👍21🔥52❤‍🔥1
Yandex Cloud опубликовала программу сертификации по облачным технологиям.

Онлайн-тестирование пригодится инженерам, разработчикам, аналитикам, администраторам, архитекторам, DevOps и другим специалистам, которые хотят официально подтвердить свои знания.

Экзамен проверяет компетенции в шести областях: базовые облачные технологии, хранение и обработка данных, DevOps и автоматизация, бессерверные вычисления, информационная безопасность и биллинг.

Чтобы получить сертификат, нужно набрать минимум 35 баллов из 50. Если вышло меньше — через месяц можно будет попробовать снова.

Тестирование проходит с прокторингом на базе ИИ, который отслеживает попытки списать.

Первый тест состоится 11 апреля. Если хотите принять участие, можете подготовиться с помощью курса «Инженер облачных сервисов».
👍115🥰1🤣1