Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.24K photos
111 videos
64 files
4.65K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🎯 Понимание T-теста

T-тест — это статистический метод для проверки гипотез, анализа значимости признаков и сравнения моделей машинного обучения.

Типы T-тестов
1️⃣ Одновыборочный:
Сравнивает среднее значение одного набора данных с известным средним значением в популяции.
Пример использования: Проверка, отличается ли средняя метрика производительности модели от заданного базового значения (baseline).

2️⃣ Независимый (двухвыборочный):
Сравнивает средние значения двух независимых групп, чтобы определить, есть ли статистически значимые различия.
Пример использования: Сравнение результатов двух разных моделей или методов предобработки данных.

3️⃣ Парный:
Сравнивает средние значения двух зависимых групп.
Пример использования: Оценка влияния изменений в модели, например, после настройки гиперпараметров или добавления новых признаков.

Ограничения
⚠️ Чувствителен к выбросам, которые могут исказить результаты.
⚠️ Требует предположения о нормальности распределения данных (если выборки малы).
👍51🔥1🌚1
💡 Как получить от нейросети код, работающий в 100 раз быстрее

Интересный эксперимент провели с Claude 3.5 Sonnet: попытались улучшить простой алгоритм на Python, раз за разом прося ИИ «написать код лучше». Задача была несложная — найти разницу между максимальным и минимальным числами в массиве, сумма цифр которых равна 30.

Казалось бы, что тут можно улучшать?
👉 Подробнее в нашей статье

#CodeOptimization
3
Самые обсуждаемые работы в мире ИИ

🗞️ «Eliza: A Web3 friendly AI Agent Operating System»
Eliza — это операционная система агентов ИИ для Web3.

🗞️ «Enhancing Retrieval-Augmented Generation: A Study of Best Practices»
Изучение влияния различных компонентов RAG на качество ответов LLM.

🗞️ «LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs»
LlamaV-o1 представляет комплексную структуру для visual reasoning в LLM.

🗞️ «MangaNinja: Line Art Colorization with Precise Reference Following»
Модель, которая раскрашивает штриховые рисунки.

🗞️ «Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains»
Новый подход к finetuning мультиагентных программ, улучшающий LLM.

🗞️ «OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking»
OmniThink — фреймворк, разработанный для повышения качества статей, создаваемых LLM.

🗞️ «VideoRAG: Retrieval-Augmented Generation over Video Corpus»
VideoRAG использует видео, чтобы сделать ответы ИИ более точными.
👍21
🧹 Очистка данных

Очистка данных — это один из самых трудоемких этапов любого аналитического проекта. Работа с пропущенными значениями, дубликатами и несоответствиями типов вручную может быть утомительной и повторяющейся.

Мы делимся ключевыми техниками Python, которые помогут автоматизировать задачи по очистке данных.

Оригинал статьи
8👍2🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
💻 Git-квест: Прими вызов

10 испытаний — от простого push до загадочного cherry-pick. Сможете пройти их все и доказать, что достойны звания мастера репозиториев? 🏆

📍Квест
1
💻 Что больше всего отнимает время у специалистов по данным

На Reddit обсуждают, какие задачи или процессы становятся главными «поглотителями» времени для дата-сайентистов.

Ожидаемо, на вершине списка — бесконечные встречи и созвоны. А что ещё? Ответы можно найти в обсуждении: https://clc.to/-KkraQ

Это отличный способ и посмеяться, и понять, что вы не одиноки.

😀 А что занимает больше всего времени у вас?
😁6💯1