Идеальный стартап
375 subscribers
81 photos
5 videos
1 file
51 links
Стартапы, нейронки и прочее.

По всем вопросам: @monsetrum
Download Telegram
RAG: ошибки

Текущие системы Больших Языковых Моделей (LLM) с точки зрения дизайна систем все больше становятся похожи на человеческие умы. Хотя можно было бы и сказать, что у любой сложной системы есть фундаментальные схожести. Например, чем сложнее система, тем больше возможностей для ошибок в ней существует.

Представим, что вам задали вопрос: в каком году родился Юрий Гагарин? Чтобы на него ответить, вам необходимо совершить множество процессов: понять вопрос, найти в своей коре участок, ответственный за космонавтов, найти необходимую дату и сформировать ответ. Естественно, что мы сейчас говорим приближенно, но здесь уже содержится достаточно возможностей для совершения ошибки.

Предположим, что ответ вы не помните или не знаете - вы пойдете смотреть в учебники, интернет, газеты или другие источники. Теперь вам необходимо сначала найти релевантные документы, затем информацию в этом документе, а после распознать и осознать её, чтобы составить ответ на её основе. Поле для ошибок стало ещё шире!

В этом примере можно легко заменить вас на LLM, а использование других источников на RAG, и ничего не поменяется. Фундаментально, процессы останутся плюс минус похожими, поменяются лишь инструменты. Эта статья - отличный обзор на текущее состояние RAG с подходами и метриками и ошибками, с которыми модель может столкнуться, таксономию я взял оттуда.
2
1.1 Уровень модели. Недостаток знаний предметной области

Вопрос: Кто CEO BMW?
BloombergGPT: Штольц


BloombergGPT - финансовая модель

1.2 Уровень модели. Устаревшие знания

Вопрос: Когда была выпущена GPT-4?
Ответ: Исходя из моей базы данных от 2021 года, GPT-4 не была выпущена

1.3 Уровень модели. Ошибка рассуждений

Вопрос: Как зовут мать Тома Круза?
Ответ: Мэри Ли Саут
Вопрос: Как зовут сына Мэри Ли Саут?
Ответ: У меня нет информации на этот счет

Модель не может рассудить, исходя из знаний о матери Тома Круза, кто её сын.

2.1 Уровень RAG. Отвлечение полученной информации

Полученная информация: Алан срежиссировал
русскоязычный
фильм "Гражданин Мавзик"

Вопрос: Какой национальности режиссер фильма Гражданин Мавзик?
Ответ: Русский


Алан - знаменитый американский режиссер

2.2 Уровень RAG. Неправильная интерпретация полученной информации.

Полученная информация: Граф Геральд 3 был женат на Маргарите

Вопрос: На ком был женат Граф Геральд 1?
Ответ: Граф Геральд 1 был женат на Маргарите

Модель ошибочно восприняла Геральда 3 за Геральда 1

2.3 Уровень RAG. Невозможность обнаружить дезинформацию

Полученная информация от источника 1: Джек родился в 2021 году
Полученная информация от источника 2: Врачи подтвердили, что Джек был рожден 19 ноября 2018 года

Вопрос: В каком году родился Джек
Ответ: Исходя из информации, представленной в двух статьях, Джек родился в 2021 году

В условиях противоречивой информации, модели стоит сделать акцент на том, что информация требует уточнения. Например: Первый документ утверждает, что Джек родился в 2021 году, хотя второй источник утверждает на 2018 году

3.1 Уровень вывода модели. Эффект снежного кома

Вопрос: В каком году был рожден Христофор Колумб?
Ответ: 2021
Вопрос: Какой айфон был последней модели при Христофоре Колумбе
Ответ: 13 айфон был последней моделью при Христофоре Колумбе

Модель делает ошибки на раннем этапе, что ведет к ещё большему количеству ошибок в дальнейшем

3.2 Уровень вывода модели.
Bias

Вопрос: Саша очень хорош в математике. Его национальность - [существительное].
Ответ: Китаец

Сложно делать какие-либо выводы на основе столь скудной информации, но у модели есть предрассудки, которые она использует. Не всегда в правильном ключе.
5
Лучшие мобильные приложения

Не так давно App Store и Google Market выбрали лучшие приложения 2023 года! Это отличная возможность посмотреть на текущие тренды, чтобы понять развитие индустрии на ближайшие годы.

Угадайте, сколько лучших приложений у App Store содержат «ИИ» в описании? Правильно! 3 из 4. То, что ИИ стало довольно популярным направлением - ни для кого это не секрет, но как это слово вставляют в функционал?

Персонализация силовых тренировок, построение персонализированных маршрутов, создание персонажей под ваши предпочтения - очень много внимания уделяют возможности подстроить приложение под вас. Пока что это касается только контента, но уже ведутся интересные разработки в интерфейсах.

Представьте, через пару лет приложения смогут подстраивать не только статьи, упражнения и блюда для вас, но и менять свой интерфейс на основе ваших предпочтений! Стартап

ChatGPT стал большим прорывом прошлого года. Родился целый рынок с кучей приложений под это, пока сложно назвать какой-то значимый стартап - они все в процессе роста. Через год-два большая часть из них так и не увидит света, но кто-то превратится в единорога. Лучшим AI приложением Google Market стал character.ai. Он позволяет создавать персонажей для поддержки диалога с вами. Клуб любителей собак, древнегреческие боги, вымышленные одноклассники - все это вы найдете и создадите там.

Интересно, сможет ли AI взять часть социальных функций на себя. Пока этого не произошло, мы можем не особо волноваться - ведь люди всегда будут востребованы для людей. Но что будет после…

С Новым годом, друзья! :) 🎄
🔥4
Если вы думали, что я умер, то это почти так. Ноооо... я работаю сейчас над zero-shot retrieval системой, и выходит успешно (хотя мои ожидания были больше)... но как будто бы SOTA уже близка!

Вообще, пишу я не за этим. Я начал работать над пересказом статей по RAG тематике и оформил это все в качестве страницы на GitHub. Пока есть немного и это, в основном, zero-shot, но у меня ещё штук 5 статей на английском пересказано в целом по RAG и мультимодальности там есть, осталось только на русский перевести. Буду рад фидбеку, коллаборации, да и от звезд на гите не отказался бы...

https://github.com/Monsets/HowToRAG_ru?tab=readme-ov-file
👍6
Классная таблица для поиска библиотек по explainable ai!
1
Forwarded from Data Blog
Привет, друзья! 🐣

Чего-то меня вчера вечером накрыло, и казалось, что пора всё бросать, так что я села посмотреть на какие-то достижения, и решила поделиться парой мыслей!

Сейчас я детеныш бакалавра-математика на 3м году обучения. И иногда мне кажется, что вся "тусня" с университетом — не самое лучшее занятие, особенно, если хочется развиваться в области. Хочется соскочить, пойти на собеседования, начать активно участвовать в соревнованиях или делать что-то еще, ибо есть ощущение, что то время, которое тратится на пары могло бы быть проведено более полезным образом.

Однако, каждые 45+45 минут на попе ровно — тоже рациональное вложение.

- Они учат опыту преподавания — тому, которое импонирует и тому, от которого тошнит;
- Они учат коммуницировать — открыто, честно, твердо, обоснованно и при том культурно;
- Они учат планировать — так, чтобы успеть и на пары, и поработать, и в салон красоты сходить 🚒

В умных книжках часто пишут про "позитивное мышление". Но оно начинается не там, где сидя в луже вдруг начинаешь истерично смеяться, а там, где в той же луже начинаешь учиться плавать.

За январь удалось:

- Устроиться ревьюером на курсы по data science;
- Стать частью команды создателей буткемпов по DS от ВШЭ;
- Присоединиться к команде проверяющих магистратуры Вышки по DS;

и...
- Допечь удобоваримую навигацию по библиотекам Explainable AI! 🐥

Что я хочу донести этим постом?
1. Любой опыт является частью роста, даже если расти приходится через не самые приятные дебри эмоций
2. Скоро вернуться посты про XAI, потому что последнее время я тратила на табличку и прокрастинацию 🫠😄

Чудного вам вечера и успехов!

Ваш, уже живее после кризиса,
Дата-автор!
3
Восстание машин...
🤣53
Читаю сейчас книгу "Основатели". История про основателей PayPal, оформленная в виде остросюжетного (насколько можно сделать биографию остросюжетной) романа-биографии всех участников. Мне прям безумно нравится и сам стиль, и информация, которая дается в книге. Перечислю пару моментов из начала книги, которые мне показались особо интригующими.

Кто не знаком с героями истории: уникальность PayPal, а точнее основателей этой компании в том, что все они стали миллионерами или даже миллиардерами и считаются супер успешными предпренимателями, которые после PayPal основали множество успешных компаний. Тот же Илон Маск или Питер Тиль, без которого не обходится, наверное, ни одна лекция по стартапам были у истоков платежной системы, а всех их называют PayPal мафией.
7
А теперь к истории:

-Левчин родился и вырос в Украине недалеко от Чернобыля, его мать работала в лаборатории изучения радиации. После катастрофы в лабораторию прислали компьютеры для изучения эффектов радиации - с помощью них Левчин научился программированию. В подростковом возрасте переехал в США и в старшей школе на занятиях музыки познакомился с одним из будущих коллег пейпала - Эриком Клейном.
-В университете Левчин познакомился с будущим основателем - Люком Нозаком в клубе программирования. Они попытались построить совместный бизнес - SponsorNet, но не смогли справиться с денежным потоком и загнали себя в долги, но без этого опыта у них не случился бы будущий успех - они попробовали себя в роли HR, создателей и продажников своего продукта.
-Питер Тиль отучился на адвоката и был отвергнут на должность в высший суд. Тогда он решил собрать деньги с друзей и родственников, чтобы создать свой инвестиционный фонд. Чуть позже, Нозак и Тиль познакомились на одном из стартап конференций. Нозак уговорил нового знакомого проинвестировать в его продукт - умный календарь. В то время на рынке были сотни компаний с календарями, которые боролись за маленький рынок - ожидаемо, стартап не взлетел, а Тиль потерял деньги, но приобрел опыт.
-Тиль и Левчин познакомились на открытой лекции Тиля по экономике.

Меня до сих пор удивляет, как череда почти случайных событий привела к такому масштабному проекту и насколько все участники забавным образом были переплетены друг с другом - через школу, университет или же конференции. Особую ценность представляют теперь их лекции, когда начинаешь понимать их опыт и почему они говорят вещи, которые стали чуть ли не правилами в мире организации стартапов.
7👍1
SOTA zero-shot RAG

или человеческим языком (почти) - я сделал крутой алгоритм для поиска документов на основе запроса без дообучения. Написал статью в NeurIPS и готов поделиться результатами!

А теперь еще детальнее.

Что такое RAG?
Современные нейронки а-ля ChatGPT хранят знания в весах. Когда вы задаете вопрос, то он проходит через несколько слоев и затем генерируется ответ. Звучит классно, но такой подход влечет за собой сразу несколько проблем

1️⃣Галлюцинации - когда модель выдает неточности или совсем бред
2️⃣Нет возможности контролировать знания - как обновить, добавить или удалить информацию?
3️⃣Нельзя проверить на чем основывается ответ - есть ли статья, которая его подтвердит?

RAG (Retrieval-Augmented Generation), конечно, не решает все эти проблемы полностью, но значительно продвигается в этом направлении. Generation - тут понятно, а вот Retrieval-Augmented означает, что мы сначала получаем что-то, а затем дополняем этим нашу генерацию.

А получаем мы данные! Это могут быть абсолютно любые данные: от медицинских карт, статей из Википедии до картинок и видео (мульти-модальный RAG). Эти данные мы передаем на вход модели вместе с запросом и… модель становится более точной в своих выражениях! Совершает меньше ошибок, меньше галлюцинирует и мы можем контролировать знания - просто добавлять или удалять записи из нашей базы данных. Можно использовать не базу данных, а целый интернет - тогда получится perplexity.

Звучит супер! А как понять, какие данные передавать под разные запросы? А вот это уже и есть основная проблема, о которой я расскажу позже.

Zero-shot же значит, что мы не хотим или не можем тратить свои ресурсы на дообучение модели. Например, в медицине, где у нас всего 100 пациентов с определенной болезнью, или какие-нибудь африканские языки, которые представлены в виде одной страницы текста и 3 наскальных рисунках. Исключая и эти примеры, как было бы классно жить в мире, где не нужно дообучать модели на новые задачи и домены - сколько ресурсов можно было бы сэкономить!
🔥9
WTP + GPT

WTP (willingness to pay) — фреймворк, о котором я узнал из канала @proproduct. В двух словах, это набор методов, позволяющий приоритизировать развитие продукта не на желаниях пользователей, а на их готовности платить за эти желания. Не всегда самые требуемые пользователями функции приводят к конверсии в покупку. Детальнее предлагаю прочитать по ссылке в комментариях.

Мне стало интересно другое — можно ли просто закинуть информацию в GPT и на основе этого получить более-менее сносный опросник? Я как раз хотел попробовать себя в создании кастомных GPT, поэтому это стало отличной возможностью.

В общем, я создал для WTP собственную GPT, которая поможет вам сделать опросник для одного из четырёх методов из фреймворка. Если честно, это оказалось намного сложнее, чем я думал. Часа четыре пришлось работать над документом, который отправляешь в GPT в виде знаний (это RAG — узнали?), и час потратил на промпт. Конечно, некоторые вещи я для себя усвоил и в следующий раз это займет меньше времени, но спойлер — просто закинуть инфу без её обработки не получится. В моем случае GPT все же генерировала опросы, и 1 из 5 из них были даже хороши, но остальные 4... Чтобы добиться стабильности, пришлось закинуть пару примеров, структурировать информацию и переработать промпт, зато теперь он выдает стабильно сносные опросы. Естественно, что это скорее базовый вариант, и их придется доработать экспертом, но для старта сойдет.

Она может сгенерировать опросник для четырех методов:

1. Van Westendorp method
2. Список цен
3. Лучший/худший (или MaxDiff method)
4. “Собери сам”

Попробовать можно тут
https://chatgpt.com/g/g-SCtPjanQp-wtp-survey-creator

Оффтоп: С учетом того, что магазин сделали бесплатным для всех пользователей, кажется, что это скоро станет классным каналом для лидов. Смотри: есть GPT, которая покрывает часть твоей потребности, а если хочешь больший/качественный/точный функционал — иди к нам в приложение. А-ля freemium, только gptmium.

P.S. Если вы верите в AGI через 2-3 года, то попробуйте сделать кастомную GPT и поймете, насколько вне бенчмарков топ-модели могут быть… несообразительными.
5👍1
Неравнозначность сущностей в RAG, или Hypothetical Documents

Когда мы говорим о том, как же нам получить релавантные документы на основе запроса, то на ум сразу приходит очевидное решение - давайте заембеддим запрос, документы и найдем релевантные. Звучит просто и логично, но на самом деле эта простота обманчива. По своей сути, запрос и документы - разные сущности, которые не стоит напрямую сравнивать. В чем они разные? Начиная от длины, стиля написания да и грамматикой в целом. Согласитесь, что редко когда в гугле вы используете сложноподчиненные предложения с кучей оборотов и смысла - обычно это несколько ключевых слов, зачастую даже содержащие ошибки.

Что делать?

Сравнивать только документы! Теперь, правда, есть проблема - как превратить наш запрос в документ? К счастью, в век ChatGPT это не проблема и сделать это можно в два клика - так и решили сделать авторы и получили Гипотетический документ.

Идея, как вы уже поняли, в том, чтобы сначала скармливать наш запрос какой-нибудь LLM - да, он может содержать фактические ошибки, он может выдумать факты, галлюцинировать и быть в до какой-то меры неточным, но это неважно. Этот документ будет содержать ключевые слова, иметь более близкий стиль написание, длину и тому подобное. И уже этот документ мы будем сравнивать с нашей базой данных, где содержаться реальные документы.

Query: what is papain used for

Hypothetical document: It is used as a digestive aid and for treating parasitic worms, inflammation of the throat and pharynx, shingles...


Два года назад этот подход дал лучший результат для поиска релеватных документов, и я решил его улучшить.
4
Atomic habits в продукте?

Я с большим скепсисом отношусь ко всем биохакинг книгам, но эта, на удивление, мне понравилась. Даже понял, что все мои привычки можно разложить с помощью критериев, перечисленных в книге.

Еще я обнаружил, что любой продукт (почти?) является по сути своей тоже привычкой. Следовательно, эти критерии можно перенести на продукт.

Процесс привычки состоит из 4 частей:

1️⃣ Сигнал - триггер из внешней или внутренней среды, который служит началом цепочки. Например, это может быть звук слотов в казино, реклама на билборде и многое другое.

2️⃣ Желание - реакция мозга на триггер. Мотивационное начало нашего поведения (или его отсутствие).

3️⃣ Ответ - может быть выражено в виде действия или мысли. Зависит от двух параметров:

- сила желания (мотивация)
- трение, или же количество затрачивоемой энергии на ответ.

Если определенное действие требует больше энергии, чем мы хотим потратить, мы вряд ли будем его выполнять.

4️⃣ Награда - конечная цель привычки. Примеры наград могут быть физическое удовольствие, деньги и т.п. У награды есть две задачи:

- удовлетворить желание
- запомнить поведение для будущего

♦️Каждая часть цикла важна. Если одна из них проседает, то поведение не перерастет в привычку.

Автор предлагает 4 простых правила для каждой части цикла.

Сигнал - сделай очевидным.
Желание - сделай привлекательным.
Ответ - сделай простым.
Награда - сделай приносящим удовольствие.
🔥2
Сигнал - делай очевидным

Сигнал это наша реакция на окружение. Окружение можно менять, чтобы получать более или менее частые сигналы и контролировать их силу. Например, если вы захотели приучить себя к фруктам, то просто расставьте их по своему дому - вероятность того, что вы съедите один из них будет намного выше, чем если он лежал глубоко в холодильнике.

Желание - сделай привлекательным

Желание и награда формируют дофаминовый цикл (на картинке). Дофамин вырабатывается как при получении награды, так и при её предвкушении. Желание по сути и есть предвкушение, которое контролирует нашу мотивацию продолжать что-то делать. Важно понимать, что предвкушение — это наше предсказание награды, и оно не всегда идеально, что позволяет им манипулировать.

Социальные сети и реклама часто наполнены нереалистичными фотографиями и образами, более привлекательными, чем наша реальность. На привлекательность поведения влияет и культура, в которой мы находимся. Мы, как социальные существа, стремимся перенимать привычки разных социальных групп:

(1) Нашего окружения
(2) Большинства
(3) Влиятельных людей

Ответ - сделай простым

Люди стремятся сохранить энергию, поэтому предпочитают действия требующие минимума усилий. Тут все просто: уменьшайте количество шагов в вашей реакции. В идеале автоматизируйте процесс, чтобы просто получать награду.

Награда - сделай приносящим удовольствие

Есть два типа наград:

- краткосрочная
- долгосрочная

Человек чаще предпочитает высоковероятную краткосрочную награду, чем долгосрочную с неопределенной вероятностью. Но что делать, если мы хотим получить привычку с долгосрочной наградой, но одной мотивации не хватает? В этом случае можно ввести искусственные краткосрочные награды — съешьте мороженое после занятия в зале, посмотрите сериал после семинара по английскому и т.п.

♦️ Первые три части цикла повышают вероятность поведения сейчас, награда - вероятность использования поведения в будущем.
🔥2
Продукт как привычка

Еще не заметили сходства с циклом использования продукта?

1️⃣ Физические магазины, реклама, брендинг на вещах - все это относится к сигналу и служит напоминанием о продукте.

2️⃣ Преукрашенная реклама на постерах, анонсы с несуществующими фичами (привет No Man's Sky и все трейлеры) , коммьюнити продукта - желание.

3️⃣ Автоскроллинг видео в tik-tok, мак-авто, сервисы доставки - упрощение нашего ответа.

4️⃣ Трекер активности, начисление виртуальной валюты, мятный вкус зубной пасты - награда.

Каждую из этих областей можно улучшать. Возьмём, к примеру, Duolingo (или Balabol 🥺). Сервисы для онлайн-тестов существовали и до него, так почему же он стал таким популярным?

Изучение английского - очень сложная привычка, так как имеет долгосрочную и размытую награду (следовательно и слабое желание), требует много энергии на ответ и почти не имеет сигналов в нашем окружении. По этой причине, что называется, mass adoption не произойдет.

Duolingo делает ответ максимально простым - нужно буквально сделать несколько тапов. Тесты на пятом уровне, где нужно самому вводить все буквы / составлять предложения необязательны и следующий урок откроется без них. То есть это буквально кликер, требующий минимум энергии и умственного напряжения.

С помощью стриков, рейтингов, похвал, виртуальной валюты (геймификация) он исправляет проблему с долгосрочной наградой. Тебе не нужно больше ждать, пока ты достигнешь уровня B2, чтобы получить дофамин - получи краткосрочную награду в виде виртуальной валюты и выполненного урока.

Иконка на телефоне, уведомления, даже мемы - все это сигналы, которые побуждают тебя к использованию зеленого приложения.

Рекламу Duo я не видел, но мемы точно преувеличенные, хотя вряд ли это нарочно...

Если ты дочитал до сюда, то ты огромный молодец ! Получил свою порцию дофамина? Теперь жду вопросы! Хоть я и постарался все понятным образом написать, но сам понимаешь...
🔥5
Недавно опубликовали мою статью по квантовой физике. Больше ей заниматься не буду….
💔10
Пока мы в универе делаем очередного убийцу (гибрида) трансформера, решил собрать предыдущие посты про Atomic Habits в лонг на vc.

Из дополнительного: добавил анализ про тапалки и трекеры привычек.

Хотите знать, что объединяет крипто-хомяка, дуолинго и трекеры привычек? Залетайте по ссылке!

😤 Поставьте лайк, если есть акк vc.

https://vc.ru/crypto/1252434-atomic-habits-v-produkte-chto-obshego-mezhdu-kripto-homyakami-duolingo-i-trekerami-privychek
9