Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Понимание T-теста

T-тест — это статистический метод для проверки гипотез, анализа значимости признаков и сравнения моделей машинного обучения.

Типы T-тестов
1️⃣ Одновыборочный:
Сравнивает среднее значение одного набора данных с известным средним значением в популяции.
Пример использования: Проверка, отличается ли средняя метрика производительности модели от заданного базового значения (baseline).

2️⃣ Независимый (двухвыборочный):
Сравнивает средние значения двух независимых групп, чтобы определить, есть ли статистически значимые различия.
Пример использования: Сравнение результатов двух разных моделей или методов предобработки данных.

3️⃣ Парный:
Сравнивает средние значения двух зависимых групп.
Пример использования: Оценка влияния изменений в модели, например, после настройки гиперпараметров или добавления новых признаков.

Ограничения
⚠️ Чувствителен к выбросам, которые могут исказить результаты.
⚠️ Требует предположения о нормальности распределения данных (если выборки малы).

👍5❤1🔥1🌚1

2.17K views11:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

👍2

1.86K views18:46

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

😁3

535 voters1.9K views18:46

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💡 Как получить от нейросети код, работающий в 100 раз быстрее

Интересный эксперимент провели с Claude 3.5 Sonnet: попытались улучшить простой алгоритм на Python, раз за разом прося ИИ «написать код лучше». Задача была несложная — найти разницу между максимальным и минимальным числами в массиве, сумма цифр которых равна 30.

Казалось бы, что тут можно улучшать?
👉 Подробнее в нашей статье

#CodeOptimization

❤3

14.4K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые обсуждаемые работы в мире ИИ

🗞️ «Eliza: A Web3 friendly AI Agent Operating System»
Eliza — это операционная система агентов ИИ для Web3.

🗞️ «Enhancing Retrieval-Augmented Generation: A Study of Best Practices»
Изучение влияния различных компонентов RAG на качество ответов LLM.

🗞️ «LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs»
LlamaV-o1 представляет комплексную структуру для visual reasoning в LLM.

🗞️ «MangaNinja: Line Art Colorization with Precise Reference Following»
Модель, которая раскрашивает штриховые рисунки.

🗞️ «Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains»
Новый подход к finetuning мультиагентных программ, улучшающий LLM.

🗞️ «OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking»
OmniThink — фреймворк, разработанный для повышения качества статей, создаваемых LLM.

🗞️ «VideoRAG: Retrieval-Augmented Generation over Video Corpus»
VideoRAG использует видео, чтобы сделать ответы ИИ более точными.

👍2❤1

2.13K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧹 Очистка данных

Очистка данных — это один из самых трудоемких этапов любого аналитического проекта. Работа с пропущенными значениями, дубликатами и несоответствиями типов вручную может быть утомительной и повторяющейся.

✨ Мы делимся ключевыми техниками Python, которые помогут автоматизировать задачи по очистке данных.

Оригинал статьи

❤8👍2🥱1

2.34K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

💻 Git-квест: Прими вызов

10 испытаний — от простого push до загадочного cherry-pick. Сможете пройти их все и доказать, что достойны звания мастера репозиториев? 🏆

📍Квест

❤1

1.91K viewsedited 18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻 Что больше всего отнимает время у специалистов по данным

На Reddit обсуждают, какие задачи или процессы становятся главными «поглотителями» времени для дата-сайентистов.

Ожидаемо, на вершине списка — бесконечные встречи и созвоны. А что ещё? Ответы можно найти в обсуждении: https://clc.to/-KkraQ

Это отличный способ и посмеяться, и понять, что вы не одиноки.

😀 А что занимает больше всего времени у вас?

😁6💯1

2K views07:05

About

Blog

Apps

Platform