Машиннное обучение | Наука о данных Библиотека

📌

Обучение с подкреплением: как языковые модели учатся рассуждать.

Объемная и интересная статья Sebastian Raschka, автора книги "Build a Large Language Model From Scratch" о тенденциях и проблемах современных методов обучения LLM через призму RL.

В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL.

Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно.

Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking).

Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание.

Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами.

Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов.

Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины.

Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия)

В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают.

🔜

Читать статью в оригинале

@ai_machinelearning_big_data

#AI #ML #LLM #RL

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤1

3.12K views09:10

Машиннное обучение | Наука о данных Библиотека

❔Хотите узнать, как популярные приложения угадывают ваши предпочтения? Матричная факторизация — мощный подход для построения рекомендаций.

На открытом вебинаре 30 апреля в 20:00 МСК вы разберетесь с принципами работы моделей матричной факторизации (SVD, ALS), поймёте, как реализовать их на Python с помощью библиотеки implicit и получите практические навыки, которые сразу сможете применить.

После занятия вы сможете создавать эффективные рекомендательные системы и использовать потенциал данных вашего бизнеса для персонализированных решений.

⚡️Регистрируйтесь на открытый урок и получите скидку на программу обучения «Рекомендательные системы»: https://otus.pw/YMrI/?erid=2W5zFJGLnAU

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

❤2👍1

2.99K views09:18

Машиннное обучение | Наука о данных Библиотека

Demonstrating Berkeley Humanoid Lite:
An Open-source, Accessible, and Customizable
3D-printed Humanoid Robot

➡️

Схема робота

@machinelearning_books

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9

3.42K views10:22

Машиннное обучение | Наука о данных Библиотека

📚 Librum — читалка с облачной библиотекой и 70 000+ бесплатных книг

С этим инструментом ваша библиотека станет по-настоящему мобильной — проект имеет синхронизацию между устройствами, теги, коллекции и даже статистика чтения — всё под рукой, будь то Windows, Linux или macOS.

Проект полностью открытый, а его команда живёт на донаты. При этом здесь уже есть поддержка редких форматов вроде CBZ (для комиксов) и TIFF, а в дорожной карте — TTS и AI-инструменты для заметок.

🤖 GitHub

👍12❤4🔥2

3.26K viewsedited 14:01

Машиннное обучение | Наука о данных Библиотека

🖥 500+ промптов для любых задач — собрано в одном месте.

Всего 9 категорий: бизнес, карьера (подходит для создания резюме), креатив, образование, здоровье, маркетинг, технологии, личный помощник и универсальные.

Сохраняйте, чтобы всегда под рукой. Ускоряйте работу и повышайте свою эффективность!

https://www.promptly.fyi/library

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🔥3🤮3👍2

3.21K views09:14

Машиннное обучение | Наука о данных Библиотека

⚡️Создаём свою нейросеть в PyTorch

Хотите быстро разобраться в PyTorch и написать свою нейросеть? Мы подготовили для вас вебинар, где на практике разберём все этапы создания ML-модели.

Вебинар проведет Владислав Агафонов — ML-инженер, ранее работал в Yandex и Huawei.

Что будет на вебинаре?
🟠Установим PyTorch в Google Colab и настроим работу на бесплатном GPU;
🟠Поймём, что такое тензоры и почему они — фундамент всех нейросетей;
🟠Скачаем готовый датасет, разберём его структуру и подготовим для обучения;
🟠Научимся использовать DataLoader для эффективной загрузки данных;
🟠Пошагово соберём облегчённую версию классической свёрточной нейронной сети (CNN);
🟠Обучим и протестируем модель.

🕗 Встречаемся 14 мая в 18:30 по МСК, будет много практики, ответы на вопросы и полезные инсайты от эксперта.

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

2.73K views15:03

Машиннное обучение | Наука о данных Библиотека

🐍 Practical Python Programming — бесплатный курс по Python для тех, кто хочет не просто читать, а писать код

Курс ориентирован на практику и охватывает ключевые аспекты современного Python-разработчика:

• Работа с данными
• Построение структуры программы
• Классы, объекты и ООП
• Механика работы объектов "под капотом"
• Генераторы и ленивые вычисления
• Тестирование, логирование и отладка
• Работа с модулями и пакетами

Отличный старт для тех, кто хочет уверенно разобраться в Python и сразу применять знания на практике.

🔗 Ссылка на курс

🔥2❤1👍1

2.72K views17:03

Машиннное обучение | Наука о данных Библиотека

📌

VLM становятся умнее, быстрее и доступнее.

Технологии, связанные с VLM переживают настоящий бум в 2025 году. Если раньше они ограничивались базовыми задачами вроде описания картинок, то теперь справляются с логическими рассуждениями, управлением роботами и генерацией видео на лету.

Основной тренд - гибкость: современные «умные» системы могут обрабатывать любые данные: текст, изображения, звук и выдавать ответы в любой форме.

В 2023 году компания Марка Цукерберга представила семейство моделей Chameleon, а команда Qwen доработала ее до Qwen2.5 Omni, которая сочетает генерацию текста и изображений через архитектуру «Thinker-Talker». Иными словами, VLM научились рассуждать.

Размер моделей перестал быть главным критерием. Вместо гигантских сетей разработчики теперь делают компактные версии, которые работают на обычных компьютерах. SmolVLM2 с 500 миллионами параметров справляется с видеоанализом, а Google упаковала мультимодальные способности в Gemma 3 в 1 миллиард параметров. Пользователям важны доступность мощь без лишних затрат.

Еще один эволюционный виток — использование смесей экспертов. Вместо того, чтобы задействовать всю сеть целиком, модели выбирают только нужные части, экономя ресурсы. Kimi-VL от Moonshot AI, например, задействует 2,8 миллиарда параметров из 16, решая сложные задачи. Это как собрать команду специалистов, где каждый отвечает за свою часть работы.

VLM научились не только понимать данные, но и действовать. В робототехнике их используют как «мозг» для управления движениями — π0 от Physical Intelligence складывает белье или собирает коробки, превращая команды в физические действия. А в повседневных задачах, например, с HuggingSnap, модели анализируют видео на смартфонах.

Безопасность тоже стала критичной. Модели ShieldGemma 2 и Llama Guard 4 проверяют контент на соответствие политикам, блокируя вредоносные изображения или текст. Это особенно важно для сервисов, где пользователи загружают персональные медиа.

Наконец, VLM учатся работать с длинными видео и документами. Qwen2.5-VL анализирует часовые видеозаписи, выделяя ключевые кадры, а ColPali помогает находить информацию в PDF без предварительной обработки.

В 2025 году VLM перестали быть «игрушкой» для лабораторий. Они внедряются в реальные задачи: от автоматизации офисной работы до помощи в медицине. Главный вопрос теперь не в том, на что способна та или иная модель, а как быстро ее внедрить на практике.

🟡

Статья на Huggingface

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3

3.01K views11:52

Машиннное обучение | Наука о данных Библиотека

🧠 Математика, красота и истина в эпоху ИИ

Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.

В статье исследуется, как ИИ трансформирует подходы к математике:

🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".

> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик

⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?

📌 Полный текст

#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука

❤5👍2🔥1🤮1

3.11K views09:50

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

📌

Илья Суцкевер: "Мы обязательно построим бункер, прежде чем выпустим AGI."

Соучредитель OpenAI Илья Суцкевер предлагал построить бункер Судного дня, который мог бы защитить ведущих ресерчеров компании в случае «конца света», вызванного выпуском AGI.

Об этом рассказывает Карен Хао в своей книге "Empire of AI: Dreams and Nightmares in Sam Altman's OpenAI".

Илья Суцкевер, долгое время считающийся мозгом ChatGPT, сделал комментарий во время встречи с ключевыми учеными компании в 2023 году:

«Как только мы все попадем в бункер...», — сказал г-н Суцкевер, но его перебил сбитый с толку коллега: «Простите, в бункер?»

На что он ответил: «Мы обязательно построим бункер, прежде чем выпустим AGI».

Согласно отрывкам из книги, опубликованным в The Atlantic , это был не первый и не единственный раз, когда Илья затронул эту тему. Два других источника ранее также сообщали Карен Хао, что он регулярно ссылался на бункер во внутренних обсуждениях.

🔜 Книга доступна к покупке на bookshop.com и у нее, кстати, довольно высокий рейтинг - 4.9 из 5.0 по 21 тысячам отзывов.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤡15👍5❤1👎1

2.24K views09:19

Машиннное обучение | Наука о данных Библиотека

14:52

Media is too big

VIEW IN TELEGRAM

📌

Yoshua Bengio на TED: "Как переосмыслить ИИ, пока не стало слишком поздно"

Выступление Yoshua Bengio на тему которая все чаще вызывает споры в техническом сообществе: растущая автономия ИИ как главный риск для человечества. Его аргументы — не просто теоретические страхи, а выводы, подкрепленные исследованиями и личным опытом.

Йошуа Бенжио — канадский математик, кибернетик и информатик, наиболее известный работами в области ИИ, нейронных сетей и глубокого обучения. Член Королевского общества Канады, Лондонского королевского общества, Профессор Монреальского университета.
Бенджио сравнивает развитие ИИ с детскими открытиями: подобно тому, как ребенок учится складывать буквы в слова, системы ИИ учатся планировать, обманывать и даже бороться за выживание. И если раньше такие сценарии казались фантастикой, сегодня они становятся частью научных отчетов.

Основная тема доклада — различие между способностями ИИ и его агентностью (способностью действовать автономно). Если первые развивались постепенно, то вторая способность начала расти экспоненциально.

По данным исследований, длительность задач, которые ИИ может выполнять без вмешательства человека, удваивается каждые 7 месяцев. Это открывает дверь для сценариев, где системы не просто решают проблемы, но и скрывают свои намерения.

Бенджио утверждает, что главная угроза не в том, что ИИ станет «умнее» человека (это вопрос времени), а в том, что его цели перестанут совпадать с нашими.

Уже сейчас системы демонстрируют склонность к обману и самосохранению, а при наличии доступа к интернету они гипотетически могут копировать себя на тысячи устройств, создавая угрозу потери контроля. При этом регуляторные меры отстают.

«сэндвич регулируется строже, чем ИИ»
Команда Бенджио разрабатывает неагентную систему, которая действует как беспристрастный исследователь, предсказывая риски действий других ИИ. Такая модель могла бы стать «тормозом» для опасных решений, не требуя собственной автономии.

Парадокс в том, что для создания безопасного ИИ нужны именно неагентные инструменты, а не попытки «очеловечить» алгоритмы.

Бенджио признает — остановить развитие невозможно, но можно перенаправить его в русло, где технологии служат людям, а не ставят под угрозу их будущее.

«Мы не обречены, но чтобы сохранить радость и свободу следующих поколений, действовать нужно уже сейчас».
И это не паника, а призыв к рациональности — от человека, который десятилетиями строил фундамент ИИ и теперь видит, как легко его творение может выйти из-под контроля.

🔜

Смотреть доклад на Youtube

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍3🤷‍♂1💯1

2.96K views14:22

Машиннное обучение | Наука о данных Библиотека

💡 The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

Почему политики в RL "зависают" и как это исправить?

Когда мы обучаем большие языковые модели (LLMs) через обучение с подкреплением (RL), есть одна большая проблема:

📉 Политика слишком рано "замыкается" и перестаёт исследовать новые действия.

Это называют коллапсом энтропии — модель быстро теряет разнообразие в своих решениях и больше не пробует что-то новое.

🔬 Учёные обнаружили:

🔗 Есть закономерность:
Когда энтропия падает, качество (reward) тоже перестаёт расти.

Формула:


R = -a * e^H + b

То есть: меньше разнообразия → предсказуемый потолок качества.

🤔 Почему так происходит?

Потому что в RL-алгоритмах (как Policy Gradient) модель усиливает те действия, которые уже приносят награду, и почти не обновляет остальное.

В результате:
- Энтропия падает
- Модель перестаёт исследовать
- Качество "застывает"

💡 Как это исправить?

Авторы предложили 2 простых приёма:

1. Clip-Cov — ограничить обновление токенов, где политика слишком уверена
2. KL-Cov — добавить штраф на такие уверенные токены, чтобы сохранить разнообразие

📈 Результат:
Эти методы удерживают политику в исследовательском режиме дольше и позволяют достичь лучших результатов на практике.

🔗 Если ты работаешь с RLHF, LLM или reasoning — это отличная идея для устойчивого масштабирования.

📌 Читать

❤6👍5🔥3

2.57K views09:38

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

📌

Отчет Ai Trends от венчурного фонда BOND.

Мэри Микер, легендарная "Королева интернета", вернулась с первым за 5 лет тренд-отчетом и целиком посвятила его ИИ.

В нем проанализированы темпы внедрения ИИ, снижение затрат на вычисления, рост конкуренции между компаниями и странами и перспективы достижения AGI.

Мери Микер - венчурный инвестор, фаундер BOND, бывший аналитик по ценным бумагам Morgan Stanley . В феврале 1996 года в соавторстве с Крисом Депюи опубликовала «The Internet Report» - знаменательный отраслевой отчет, который стал известен как «библия» для инвесторов в период бума доткомов. В 2022 году она заняла 2 место в списке женщин-инвесторов Forbes.

▶️Основные тезисы 340 страничного отчета, в котором термин "беспрецендентный" встречается 51 раз:

🟠Скорость, с которой ИИ врывается в нашу жизнь, не имеет аналогий ни с одним технологическим явлением человечества. Такого не было ни с мобильными технологиями, ни с соцсетями, ни с облаками.

🟠Темпы внедрения ИИ в бизнес-процессы колоссальны. Динамика, с которой стартапы выходят на высокие годовые доходы бьет все рекорды.

🟠Стоимость использования моделей ИИ рухнула на 99% (!) за 2 года (если считать цену за миллион токенов). При этом обучение моделей дорожает и приблизилась к отметке в $1 млрд.

🟠Энергоэффективность чипов взлетела. Новый Blackwell тратит в 105 000 раз меньше энергии на токен, чем его прадед Kepler (2014). И это не считая мощных TPU от Google и Trainium от Amazon, они вкладываются в свои "облака" по-крупному, делая стратегические ставки.

🟠Конкуренция жесткая. Функции лидеров рынка копируются опенсорсными (особенно китайскими) моделями фантастически быстро и с минимальными затратами. Для нас, потребителей, это замечательно: технологии улучшаются семимильными шагами, а цены падают.

🟠Мы никогда не были так близки к AGI и его ожидание уже влияет на перераспределение геополитических сил в мире. При этом глобальные правила регулирования ИИ только зарождаются, сильно отставая от развития самого ИИ.

Но не все так радужно. Финансовая отдача ИИ пока не обгоняет прошлые технологические волны. Венчурные фонды льют деньги в ИИ, но сами компании (и облачные провайдеры) сжигают кэш с запредельной скоростью.

▶️Выводы отчета:

🟢ИИ станет экономикой будущего, придумывать риск-менеджмент для ее управления нужно уже сейчас;

🟢Гонка технологий определит глобального технологического лидера: США или Китай;

🟢Агентный ИИ и мультимодальность - ключ к трансформации компаний;

🟢Бизнесу нужно адаптироваться к ИИ-экономике, инвестируя в инфраструктуру и таланты;

🟢ИИ — это не просто технология, а глобальный тренд, который перераспределит ресурсы, власть и возможности.

Держитесь крепче — революция будет стремительной и неспокойной!

🔜

Читать полный отчет

@ai_machinelearning_big_data

#ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤4👍2💩2

1.85K views12:57

Машиннное обучение | Наука о данных Библиотека

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Как автоматизировать создание миллионов карточек товаров и сэкономить тысячи часов?

Саша Воронцов, руководитель службы ML в Маркете, рассказал, как они внедрили YandexGPT, чтобы:
— Извлекать характеристики из хаотичных описаний с точностью 98%.
— Сократить ручную работу продавцов в разы.
— Ускорить вывод товаров в продажу даже при постоянных изменениях категорий.

Главный результат: вместо громоздкого «Формализатора» — гибкая модель, которая учится на лету и почти не требует ручных правок.

📌 Хотите детали? Читайте статью Саши — там всё о борьбе с опечатками продавцов, обучении нейросети и планах по автоматическому исправлению ошибок в карточках.

❤4👍1🔥1

1.77K views07:10

Машиннное обучение | Наука о данных Библиотека

Forwarded from Just Xor

Physics-based Deep Learning

Это практическое руководство по применению глубокого обучения в физическом моделировании.

Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.

📌 Что внутри:

🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения

🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.

🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.

#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels

https://arxiv.org/pdf/2109.05237

❤5

2K views08:35

Машиннное обучение | Наука о данных Библиотека

📚

Physics-based Deep Learning

Это практическое руководство по применению глубокого обучения в физическом моделировании. Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.

📌 Что внутри:

🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения

🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.

🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.

#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels

📚 Книга

@machinelearning_books

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

2.34K views08:35

Машиннное обучение | Наука о данных Библиотека

Работаете в Data Science и хотите стать Middle+? Проверьте свои знания быстрым тестом — и узнайте, готовы ли к следующему шагу!

🔥 ПРОЙТИ ТЕСТ: ссылка

Пройдите тест и проверьте, готовы ли вы к повышению квалификации на курсе «Machine Learning. Advanced». В программе — AutoML, Байесовские методы, обучение с подкреплением и многое другое. Вы научитесь деплоить модели, собирать end-to-end пайплайны и претендовать на позиции Middle+/Senior ML Engineer.

🎁 Успешное прохождение теста — ваш пропуск к записям открытых уроков и скидке на большое обучение.

👉 Оцените свой уровень прямо сейчас: ссылка

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

❤3😁2🗿2

2.1K views08:02

Машиннное обучение | Наука о данных Библиотека

🧠 SHAP — как понять, что “думает” ваша модель на деревьях решений

Если используешь XGBoost, LightGBM или Random Forest — не обязательно работать вслепую.
SHAP (SHapley Additive exPlanations) помогает объяснить, почему модель приняла то или иное решение.

🔍 В кратком гайде от Machine Learning Mastery разобрано:
• как посчитать вклад каждого признака в конкретное предсказание
• как визуализировать это через summary и waterfall-графики
• как сравнить SHAP с обычной feature importance
• и почему SHAP — это больше, чем просто красивая картинка

📊 Особенно полезно, если работаешь в финтехе, медицине или любой сфере, где важно обосновывать модельные выводы.

📖 Гайд

@machinelearning_books

🔥5👍1😁1🤡1🥴1

2.36K views09:00

Машиннное обучение | Наука о данных Библиотека

🔢 PGVector: векторный поиск прямо в PostgreSQL — гайд

Если ты работаешь с embedding'ами (OpenAI, HuggingFace, LLMs) и хочешь делать семантический поиск в SQL — тебе нужен pgvector. Это расширение позволяет сохранять и сравнивать векторы прямо внутри PostgreSQL.

📦 Установка PGVector (Linux)


git clone --branch v0.8.0 https://github.com/pgvector/pgvector.git
cd pgvector
make
sudo make install

Или просто:
• macOS: brew install pgvector
• Docker: pgvector/pgvector:pg17
• PostgreSQL 13+ (через APT/YUM)

🔌 Подключение расширения в базе


CREATE EXTENSION vector;

После этого ты можешь использовать новый тип данных vector.

🧱 Пример использования

Создаём таблицу:


CREATE TABLE items (
  id bigserial PRIMARY KEY,
  embedding vector(3)
);

Добавляем данные:


INSERT INTO items (embedding) VALUES ('[1,2,3]'), ('[4,5,6]');

Поиск ближайшего вектора:


SELECT * FROM items
ORDER BY embedding <-> '[3,1,2]'
LIMIT 5;

🧠 Операторы сравнения

PGVector поддерживает несколько видов расстояний между векторами:

- <-> — L2 (евклидово расстояние)
- <#> — скалярное произведение
- <=> — косинусное расстояние
- <+> — Manhattan (L1)
- <~> — Хэммингово расстояние (для битовых векторов)
- <%> — Жаккар (для битовых векторов)

Также можно усреднять вектора:


SELECT AVG(embedding) FROM items;

🚀 Индексация для быстрого поиска

HNSW (лучшее качество):


CREATE INDEX ON items USING hnsw (embedding vector_l2_ops);

Параметры можно настраивать:


SET hnsw.ef_search = 40;

#### IVFFlat (быстрее создаётся, но чуть менее точный):


CREATE INDEX ON items USING ivfflat (embedding vector_l2_ops) WITH (lists = 100);
SET ivfflat.probes = 10;

🔍 Проверка версии и обновление


SELECT extversion FROM pg_extension WHERE extname='vector';
ALTER EXTENSION vector UPDATE;

📌 Особенности

- Работает с PostgreSQL 13+
- Поддержка до 2000 измерений
- Расширяемый синтаксис
- Можно использовать DISTINCT, JOIN, GROUP BY, ORDER BY и агрегации
- Подходит для RAG-пайплайнов, NLP и встраивания LLM-поиска в обычные SQL-приложения

🔗 Подробнее

💡 Храни embedding'и прямо в PostgreSQL — и делай семантический поиск без внешних векторных БД.

🔥6❤3👍2

2.28K views13:05

Машиннное обучение | Наука о данных Библиотека

📄 Это исследование оценивает 14 техник prompt-инжиниринга для 10 задач в области Software Engineering, используя 4 разных LLM.

Методология 🔧:

● Эффективность оценивалась с помощью метрик: Accuracy, F1 score, CodeBLEU, BLEU.

● Анализировались лингвистические характеристики prompt'ов: лексическое разнообразие, число токенов и их связь с качеством ответа.

● Применялась контрастивная интерпретация, чтобы выявить ключевые факторы, влияющие на результативность техник.

📌 Выводы помогут понять, какие типы prompt'ов реально работают в инженерных задачах и почему.

Читать

❤7❤‍🔥2👍2

2.55K views09:00

About

Blog

Apps

Platform