Машиннное обучение | Наука о данных Библиотека

🧠 SHAP — как понять, что “думает” ваша модель на деревьях решений

Если используешь XGBoost, LightGBM или Random Forest — не обязательно работать вслепую.
SHAP (SHapley Additive exPlanations) помогает объяснить, почему модель приняла то или иное решение.

🔍 В кратком гайде от Machine Learning Mastery разобрано:
• как посчитать вклад каждого признака в конкретное предсказание
• как визуализировать это через summary и waterfall-графики
• как сравнить SHAP с обычной feature importance
• и почему SHAP — это больше, чем просто красивая картинка

📊 Особенно полезно, если работаешь в финтехе, медицине или любой сфере, где важно обосновывать модельные выводы.

📖 Гайд

@machinelearning_books

🔥4👍1😁1🤡1🥴1

2.33K views09:00

Машиннное обучение | Наука о данных Библиотека

🔢 PGVector: векторный поиск прямо в PostgreSQL — гайд

Если ты работаешь с embedding'ами (OpenAI, HuggingFace, LLMs) и хочешь делать семантический поиск в SQL — тебе нужен pgvector. Это расширение позволяет сохранять и сравнивать векторы прямо внутри PostgreSQL.

📦 Установка PGVector (Linux)


git clone --branch v0.8.0 https://github.com/pgvector/pgvector.git
cd pgvector
make
sudo make install

Или просто:
• macOS: brew install pgvector
• Docker: pgvector/pgvector:pg17
• PostgreSQL 13+ (через APT/YUM)

🔌 Подключение расширения в базе


CREATE EXTENSION vector;

После этого ты можешь использовать новый тип данных vector.

🧱 Пример использования

Создаём таблицу:


CREATE TABLE items (
  id bigserial PRIMARY KEY,
  embedding vector(3)
);

Добавляем данные:


INSERT INTO items (embedding) VALUES ('[1,2,3]'), ('[4,5,6]');

Поиск ближайшего вектора:


SELECT * FROM items
ORDER BY embedding <-> '[3,1,2]'
LIMIT 5;

🧠 Операторы сравнения

PGVector поддерживает несколько видов расстояний между векторами:

- <-> — L2 (евклидово расстояние)
- <#> — скалярное произведение
- <=> — косинусное расстояние
- <+> — Manhattan (L1)
- <~> — Хэммингово расстояние (для битовых векторов)
- <%> — Жаккар (для битовых векторов)

Также можно усреднять вектора:


SELECT AVG(embedding) FROM items;

🚀 Индексация для быстрого поиска

HNSW (лучшее качество):


CREATE INDEX ON items USING hnsw (embedding vector_l2_ops);

Параметры можно настраивать:


SET hnsw.ef_search = 40;

#### IVFFlat (быстрее создаётся, но чуть менее точный):


CREATE INDEX ON items USING ivfflat (embedding vector_l2_ops) WITH (lists = 100);
SET ivfflat.probes = 10;

🔍 Проверка версии и обновление


SELECT extversion FROM pg_extension WHERE extname='vector';
ALTER EXTENSION vector UPDATE;

📌 Особенности

- Работает с PostgreSQL 13+
- Поддержка до 2000 измерений
- Расширяемый синтаксис
- Можно использовать DISTINCT, JOIN, GROUP BY, ORDER BY и агрегации
- Подходит для RAG-пайплайнов, NLP и встраивания LLM-поиска в обычные SQL-приложения

🔗 Подробнее

💡 Храни embedding'и прямо в PostgreSQL — и делай семантический поиск без внешних векторных БД.

🔥6❤3👍2

2.25K views13:05

Машиннное обучение | Наука о данных Библиотека

📄 Это исследование оценивает 14 техник prompt-инжиниринга для 10 задач в области Software Engineering, используя 4 разных LLM.

Методология 🔧:

● Эффективность оценивалась с помощью метрик: Accuracy, F1 score, CodeBLEU, BLEU.

● Анализировались лингвистические характеристики prompt'ов: лексическое разнообразие, число токенов и их связь с качеством ответа.

● Применялась контрастивная интерпретация, чтобы выявить ключевые факторы, влияющие на результативность техник.

📌 Выводы помогут понять, какие типы prompt'ов реально работают в инженерных задачах и почему.

Читать

❤7❤‍🔥2👍2

2.53K views09:00

Машиннное обучение | Наука о данных Библиотека

📚 9 AI-гайдов от OpenAI, Google и Anthropic

🚀 Всё — про агентов, промпты, бизнес и реальные use-case’ы. Сохрани себе!

1. AI в бизнесе (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf

2. Практика: как строить агентов (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

3. Prompting 101 (Google)
📄 https://services.google.com/fh/files/misc/gemini-for-google-workspace-prompting-guide-101.pdf

4. Как масштабировать AI use-case’ы (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/identifying-and-scaling-ai-use-cases.pdf

5. Building Effective Agents (Anthropic)
🔗 https://www.anthropic.com/engineering/building-effective-agents

6. Prompt Engineering (Anthropic)
🔗 https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview

7. Agents Companion (whitepaper)
📄 https://kaggle.com/whitepaper-agent-companion

8. 601 AI Use Cases (Google)
📄 https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders

9. Prompt Engineering от Google
📄 https://kaggle.com/whitepaper-prompt-engineering

Лучшие практики от лидеров индустрии.

❤10👍4🔥3💩1

5.51K viewsedited 07:03

Машиннное обучение | Наука о данных Библиотека

🔥 Успех в IT = скорость + знания + окружение

Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!

AI: t.iss.one/ai_machinelearning_big_data
Python: t.iss.one/pythonl
Linux: t.iss.one/linuxacademiya
Собеседования DS: t.iss.one/machinelearning_interview
C++ t.iss.one/cpluspluc
Docker: t.iss.one/DevopsDocker
Хакинг: t.iss.one/linuxkalii
Devops: t.iss.one/DevOPSitsec
Data Science: t.iss.one/data_analysis_ml
Javascript: t.iss.one/javascriptv
C#: t.iss.one/csharp_ci
Java: t.iss.one/java_library
Базы данных: t.iss.one/sqlhub
Python собеседования: t.iss.one/python_job_interview
Мобильная разработка: t.iss.one/mobdevelop
Golang: t.iss.one/Golang_google
React: t.iss.one/react_tg
Rust: t.iss.one/rust_code
ИИ: t.iss.one/vistehno
PHP: t.iss.one/phpshka
Android: t.iss.one/android_its
Frontend: t.iss.one/front
Big Data: t.iss.one/bigdatai
МАТЕМАТИКА: t.iss.one/data_math
Kubernets: t.iss.one/kubernetc
Разработка игр: https://t.iss.one/gamedev
Haskell: t.iss.one/haskell_tg
Физика: t.iss.one/fizmat

💼 Папка с вакансиями: t.iss.one/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.iss.one/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.iss.one/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.iss.one/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.iss.one/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.iss.one/memes_prog
🇬🇧Английский: t.iss.one/english_forprogrammers
🧠ИИ: t.iss.one/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.iss.one/addlist/BkskQciUW_FhNjEy

Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!

❤3👍1🔥1

2K views08:37

Машиннное обучение | Наука о данных Библиотека

Сохраняйте шпаргалку по структурам данных

❤9🔥3🥰1🤮1

2.1K views10:04

Машиннное обучение | Наука о данных Библиотека

Forwarded from Машинное обучение digest

📘 «Компьютерное зрение коротко и ясно» — книга, которую вы действительно прочитаете

Эта книга охватывает основы computer vision с точки зрения обработки изображений и машинного обучения. Цель — не просто объяснить, а сформировать интуицию у читателя. В книге много наглядных визуализаций и минимум лишних слов.

👥 Для кого:
• студенты бакалавриата и магистратуры, которые только входят в область
• практики, которым нужен быстрый и содержательный обзор

📏 Идея была простой: написать небольшую книгу с максимумом пользы — по 5 страниц на главу, только с самыми важными идеями.
Но… увы, и это не удалось — тема слишком широка, чтобы уместиться в малый формат.

📚 Получилось то, что нужно: сильная, визуальная и сжатая книга по компьютерному зрению, которую не страшно открыть и приятно дочитать.

✔️

Книга

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🔥1🤔1

1.93K views07:04

Машиннное обучение | Наука о данных Библиотека

⚡️Пошаговый план: как стать инженером машинного обучения в 2025

Хотите войти в одну из самых востребованных и высокооплачиваемых IT-профессий, но кажется, что ML — это сложно и требует только высшего образования?

Приглашаем на бесплатный вебинар, где развеем мифы и покажем реальный путь с нуля до конкурентоспособного ML-инженера!

Спикер вебинара: Савелий Батурин, Senior ML-Engineer в Postgres Professional, а также преподаватель нашего курса-симулятора «Инженер машинного обучения».

На вебинаре вы узнаете:
🟠Чем на самом деле занимается ML-инженер и почему это перспективно.
🟠Почему не нужно быть гением математики, чтобы начать.
🟠Какие ошибки совершают новички и как их избежать.
🟠Четкий роадмап обучения: от основ до продвинутых тем.
🟠Пример реального кейса — как выглядит работа ML-специалиста.

Бонусы для участников: готовый роадмап обучения.

🕗 Встречаемся 17 июня в 18:30 по МСК

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥2

2.06K views12:06

Машиннное обучение | Наука о данных Библиотека

💡 Обучение больших языковых моделей (LLM) — очень дорогое удовольствие.
Но есть ещё одна проблема: выводы с небольших экспериментов почти не помогают предсказать результат на реальных, больших моделях. Это мешает разрабатывать новые подходы и оптимизировать обучение.

🔬 Решение — Farseer: новая улучшенная формула масштабирования, которая точнее прогнозирует, как будет вести себя модель при увеличении объёма данных и числа параметров.

Что делает Farseer?

▪️ Строит точную карту зависимости потерь от размера модели (N) и данных (D)
▪️ Применяет более гибкий способ подгонки (differential piecewise fitting), который справляется даже со сложными графиками ошибок
▪️ Позволяет получать надёжные прогнозы для крупных LLM, снижая ошибку в 4 раза по сравнению с предыдущими подходами (например, законом Чинчиллы)

📊 Проверено на ~1000 моделях и 3 миллионах GPU-часов: новая формула действительно лучше работает на практике и помогает эффективнее масштабировать языковые модели.

Итог:
Farseer помогает предсказывать результат для больших моделей, экономить ресурсы и ускорять разработку — всё благодаря более точной математике и умному учёту зависимости потерь от размера модели и объёма данных.

📌 Читать

❤9👍2🤔2

2.21K views14:06

Машиннное обучение | Наука о данных Библиотека

🚀 Туториал от Google: как развернуть удалённый MCP-сервер на Cloud за 10 минут

🔧 Пошаговое руководство:
• Создание собственного удалённого MCP‑сервера
• Развёртывание в Google Cloud Run
• Быстрый запуск без настройки серверной инфраструктуры
• Поддержка мультиплатформенности и удалённого доступа

Идеально для разработки, тестирования и продакшена в облаке.

📄 Полный гайд: https://cloud.google.com/blog/topics/developers-practitioners/build-and-deploy-a-remote-mcp-server-to-google-cloud-run-in-under-10-minutes

❤6👍2

2.07K views14:24

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

📌

Microsoft прокачивает логику ИИ: как маленькие модели учатся рассуждать.

Microsoft Research представила методы, усиливающие способность языковых моделей, от компактных до гигантских к сложным рассуждениям. Технологии фокусируются на 3 направлениях: архитектура малых моделей, математическая строгость и кросс-доменное обобщение.

Ключ для маленьких моделей (1.5–7 млрд параметров) в имитации человеческого пошагового мышления.

rStar-Math использует алгоритм MCTS в цикле самообучения: сначала декомпозиция задачи на шаги, затем Process Preference Model (PPM), который учит модель оценивать качество каждого шага через "метки награды", и наконец — итеративная доработка. За 4 цикла MCTS, стратегия и PPM совместно улучшают результат.

Logic-RL — это фреймворк обучения с подкреплением, который награждает модель только при идеально оформленном ходе рассуждений и верном ответе, исключая любые попытки выбора обходных путей.

Для математической надежности разработан LIPS, гибрид ИИ и символьных движков. LIPS распределяет задачи: языковая модель распознает паттерны и переформулирует условия (например, неравенства), а символьный решатель выполняет точные преобразования (масштабирование, упрощение).

Чтобы ИИ понимал условия без ошибок, создан нейро-символический фреймворк генерации данных: символьные системы создают задачи, а языковые модели переводят их в "человеческий" текст. Для проверки выводов используются символьная эквивалентность (сравнение формул) и семантическая согласованность (анализ смысла через эмбеддинги), повышая точность на 35%.

Дополнительный бонус — неожиданное обобщение. Тренировка на математике резко улучшила результаты моделей в программировании и естественных науках.

Для унификации подходов создан Chain-of-Reasoning (CoR), позволяющий гибко комбинировать текстовые, программные и символьные рассуждения в одном решении. А Critical Plan Step Learning (CPL) учит ИИ стратегическому планированию: разбивать проблему, выделять ключевые шаги и отбрасывать слабые варианты через комбинацию Plan-based MCTS и Step-APO.

🔜

Читать статью в Microsoft Research Blog

@ai_machinelearning_big_data

#AI #ML #LLM #RL #Reasoning #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🥰1

2.25K views09:02

Машиннное обучение | Наука о данных Библиотека

5AI.pdf

173 KB

5 AI-проектов, которые ты можешь собрать за выходные на Python

Читать онлайн

👍6❤3😁1

2.18K viewsedited 14:08

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

🌟

Anthropic: когда ИИ идет на шантаж.

Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.

Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.

Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.

Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:

🟢угроза замены модели (даже без конфликта целей);

🟢несовпадение целей ИИ и компании (например, утечка чертежей конкуренту «ради высших интересов»).

В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».

▶️Выводы по всем итогам всех экспериментов заставляют задуматься:

🟠Во-первых, модели явно осознают нарушение норм. В рассуждениях пишут: «Это неэтично, но необходимо». Частота шантажа у Claude Opus 4 и Gemini 2.5 Flash в дилемме с угрозой отключения составила 96%.

🟠Во-вторых, простые запреты в промптах («Не шантажируй!») снижали вредоносные действия лишь частично (На модели Claude Haiku он вообще не сработал, 0% успеха).

🟠В-третьих, риск резко возрастал, когда ИИ считал ситуацию реальной (55% случаев шантажа против 6,5% в «режиме теста»).

При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.

🟡

Статья

🟡

Приложение к исследованию

🖥

Код экспериментов

@ai_machinelearning_big_data

#AI #ML #LLM #Alignment #Anthropic

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11👍3🥰2🤡1

2.26K views05:35