Forwarded from Denis Sexy IT 🤖
Еще интересное исследование по LLM-подвезли:
В этот раз ученые решили проверить, что значит в понимании АИ "реальность" и каким языком они ее воспринимают – если коротко, похоже реальность они понимают намного лучше, чем мы ожидали:
Традиционно считалось, что LLM просто предсказывают следующее слово на основе статистических закономерностей в обучающих данных
Это же исследование показывает, что модель не просто предсказывает слова, а формирует внутреннее представление о том, как эти инструкции влияют на состояние виртуального мира
Чуть подробнее:
1. Ученые натренировали небольшую LLM используя простые лабиринтные головоломки для виртуального робота – это позволило им изучить "мышление" LLM в контролируемой среде
2. LLM самостоятельно создала внутреннее представление о симуляции, несмотря на то, что никогда не видела её напрямую (!), то есть модель развила способность интерпретировать инструкции и понимать их значение в контексте задачи. Это противоречит предыдущим представлениям о том, что LLM просто имитируют текст из обучающих данных (Илья, пососи):
– "Создание внутреннего представления о симуляции" означает, что модель сформировала некое абстрактное понимание правил и законов виртуального мира, в котором действует робот.
– "Развитие способности интерпретировать инструкции" - это следствие прошлого пункта. Модель не просто повторяет инструкции, а "понимает", как они изменяют состояние виртуального мира.
3. Чтобы проверить эту идею, модель поместили в "зазеркалье"с другими правилами симуляции мира и модель не смогла адаптироваться – что подтвердило, что модель "знает" как исполнять инструкции, а не просто их повторяет
4. Модель смогла начать "предсказывать" будущие состояния, что указывает на более глубокое понимание задач
5. В очередной раз ученые подчеркивают сходства между процессом обучения LLM и освоением языка детьми – сначала "лепет", затем освоение синтаксиса, и наконец, понимание смысла. Я иногда общаюсь с ML-инженерами родителями – многие часто про это говорят
6. Исследование ставит под сомнение наши представления о том, какая информация необходима для изучения лингвистического значения, что может привести к созданию более эффективных методов обучения ИИ
То есть если раньше считалось, что эти модели просто «умные попугаи» которые повторяют то, на чем обучены, то теперь есть доказательства того, что они могут формировать более глубокое понимание задач и концепций
Хотя результаты многообещающие, исследователи признают ограничения своего эксперимента и необходимость дальнейших исследований в более сложных условиях, с более большими моделями и тп.
Если кто-то хочет повторить эксперимент, вот код.
В этот раз ученые решили проверить, что значит в понимании АИ "реальность" и каким языком они ее воспринимают – если коротко, похоже реальность они понимают намного лучше, чем мы ожидали:
Традиционно считалось, что LLM просто предсказывают следующее слово на основе статистических закономерностей в обучающих данных
Это же исследование показывает, что модель не просто предсказывает слова, а формирует внутреннее представление о том, как эти инструкции влияют на состояние виртуального мира
Чуть подробнее:
1. Ученые натренировали небольшую LLM используя простые лабиринтные головоломки для виртуального робота – это позволило им изучить "мышление" LLM в контролируемой среде
2. LLM самостоятельно создала внутреннее представление о симуляции, несмотря на то, что никогда не видела её напрямую (!), то есть модель развила способность интерпретировать инструкции и понимать их значение в контексте задачи. Это противоречит предыдущим представлениям о том, что LLM просто имитируют текст из обучающих данных (Илья, пососи):
– "Создание внутреннего представления о симуляции" означает, что модель сформировала некое абстрактное понимание правил и законов виртуального мира, в котором действует робот.
– "Развитие способности интерпретировать инструкции" - это следствие прошлого пункта. Модель не просто повторяет инструкции, а "понимает", как они изменяют состояние виртуального мира.
3. Чтобы проверить эту идею, модель поместили в "зазеркалье"с другими правилами симуляции мира и модель не смогла адаптироваться – что подтвердило, что модель "знает" как исполнять инструкции, а не просто их повторяет
4. Модель смогла начать "предсказывать" будущие состояния, что указывает на более глубокое понимание задач
5. В очередной раз ученые подчеркивают сходства между процессом обучения LLM и освоением языка детьми – сначала "лепет", затем освоение синтаксиса, и наконец, понимание смысла. Я иногда общаюсь с ML-инженерами родителями – многие часто про это говорят
6. Исследование ставит под сомнение наши представления о том, какая информация необходима для изучения лингвистического значения, что может привести к созданию более эффективных методов обучения ИИ
То есть если раньше считалось, что эти модели просто «умные попугаи» которые повторяют то, на чем обучены, то теперь есть доказательства того, что они могут формировать более глубокое понимание задач и концепций
Хотя результаты многообещающие, исследователи признают ограничения своего эксперимента и необходимость дальнейших исследований в более сложных условиях, с более большими моделями и тп.
Если кто-то хочет повторить эксперимент, вот код.
arXiv.org
Emergent Representations of Program Semantics in Language Models...
We present evidence that language models (LMs) of code can learn to represent the formal semantics of programs, despite being trained only to perform next-token prediction. Specifically, we train...
This media is not supported in your browser
VIEW IN TELEGRAM
Мне интересны температурные режимы, до какого это греется?
Realme создали самую быструю зарядку в мире.
Смартфон с батареей ёмкостью 4420 мАч зарядился до 26% всего за одну минуту (!), а до 100% — за четыре с половиной минуты.
Секрет такого результата — их новый блок SuperSonic мощностью 320 Вт.
Realme создали самую быструю зарядку в мире.
Смартфон с батареей ёмкостью 4420 мАч зарядился до 26% всего за одну минуту (!), а до 100% — за четыре с половиной минуты.
Секрет такого результата — их новый блок SuperSonic мощностью 320 Вт.
🔥8 7
Как создать свою умную базу знаний с помощью RAG и LLM (уровень сложности 1)
В последнее время термин RAG (Retrieval-Augmented Generation) стал часто встречаться в обсуждениях технологий искусственного интеллекта. Это слово мелькает повсюду: "RAG это", "RAG умер", "RAG не нужен". Но что же это такое? Зачем он нужен? Как его сделать нормальным? Как добиться высокой точности? Что такое точность для систем, основанных на RAG + LLM? И какой велью для бизнеса или простых людей?
Разберем понятия RAG
R - Retrieval (Извлечение)
Извлечение — это процесс поиска и извлечения релевантной информации из большого набора данных (чаще всего участвуют векторные БД).
A - Augmented (Дополненный)
Дополнение — это процесс улучшения или обогащения информации. Здесь мы подсовываем найденные данные из БД в LLM.
G - Generation (Генерация)
Генерация — это процесс создания нового текста или ответа на основе имеющейся информации с помощью frozen LLM.
Я придумал интенсив курс или открытый вебинар как хотите называйте, который я заложил на 5-8 постов. Дальше ищите по тегу #intensive. Мы рассмотрим, как построить RAG для себя, друзей или для бизнеса. Если вы не умеете и не хотите обучать LLM, но хотите, чтобы LLM знала ваши данные и не была тупым скриптом, тогда вам к нам, к RAG энтузиастам!
Начнем с основ
Мы разберем простой кейс создания своей умной базы знаний. Если вы взяли документ и положили его в векторную БД (например, в OpenAI есть функция retrieval и ассистент), или скачали код с LangChain, то вы получите точность ответов на свои вопросы около 40-50%, максимум 70% если у вас очень простой набор данных.
Но как сделать лучше? Как разметить данные? Как их подготовить? Как исключить галлюцинации? Что такое RAG Guardrails? Что такое автотесты RAGAS? Как сделать свою умную LLM за дешево и с минимальным кодингом? Как показать клиенту высокую точность и продать продукт или сервис?
Решения для разных уровней подготовки
Сразу скажу, будет два типа решения:
1. Для тех, кто умеет программировать: Возьмем API и немного Python (или другой язык программирования). Тут будем кодить минут 20-30.
2. Для тех, кто не умеет кодить: Выдам наш веб-интерфейс, который позволяет создать домен знаний за 3 минуты.
Почему это может быть интересно?
- Это бесплатно
- Можно попробовать что-то новое или разобраться в том что сейчас работает плохо
- Что бы участвовать достаточно быть подписанным на этот канал и просто читать
- Покупать токены или аккаунт не придется — я выдам вам свое прокси и API ключи.
- Векторную модель я выдам также свою, есть API и Swagger.
- API для создания домена знаний мы возьмем из моих наработок.
Заявки кидать либо в комментарии, либо мне в личку @Vakovalskii
Для тех, кто не умеет кодить, у нас в NDT есть веб-интерфейс. По нему я буду консультировать отдельно. Также смогу выдать аккаунт, и вы сможете загрузить свой документ, запромтировать LLM (будет 3 на выбор) и начать наполнять свой домен знаний.
Запущу я интенсив или нет, зависит от количества заявок мне интересно будет его проводить если будет больше 20-30 заявок.
Если вам интересно, как сделать свою умную LLM за дешево и с минимальным кодингом или без, я вам покажу и расскажу.
Запуск намечу на начало сентября!
Даже думаю продлить потом серию до создания Telegram-бота, в которого можно будет загрузить свою курсовую и пообщаться с ней!
#selfrag #LLM #RAG #noneedcoding #intensive #SmartBase
Оставайтесь на связи и следите за обновлениями!
Ваш @neuraldeep
В последнее время термин RAG (Retrieval-Augmented Generation) стал часто встречаться в обсуждениях технологий искусственного интеллекта. Это слово мелькает повсюду: "RAG это", "RAG умер", "RAG не нужен". Но что же это такое? Зачем он нужен? Как его сделать нормальным? Как добиться высокой точности? Что такое точность для систем, основанных на RAG + LLM? И какой велью для бизнеса или простых людей?
Разберем понятия RAG
R - Retrieval (Извлечение)
Извлечение — это процесс поиска и извлечения релевантной информации из большого набора данных (чаще всего участвуют векторные БД).
A - Augmented (Дополненный)
Дополнение — это процесс улучшения или обогащения информации. Здесь мы подсовываем найденные данные из БД в LLM.
G - Generation (Генерация)
Генерация — это процесс создания нового текста или ответа на основе имеющейся информации с помощью frozen LLM.
Я придумал интенсив курс или открытый вебинар как хотите называйте, который я заложил на 5-8 постов. Дальше ищите по тегу #intensive. Мы рассмотрим, как построить RAG для себя, друзей или для бизнеса. Если вы не умеете и не хотите обучать LLM, но хотите, чтобы LLM знала ваши данные и не была тупым скриптом, тогда вам к нам, к RAG энтузиастам!
Начнем с основ
Мы разберем простой кейс создания своей умной базы знаний. Если вы взяли документ и положили его в векторную БД (например, в OpenAI есть функция retrieval и ассистент), или скачали код с LangChain, то вы получите точность ответов на свои вопросы около 40-50%, максимум 70% если у вас очень простой набор данных.
Но как сделать лучше? Как разметить данные? Как их подготовить? Как исключить галлюцинации? Что такое RAG Guardrails? Что такое автотесты RAGAS? Как сделать свою умную LLM за дешево и с минимальным кодингом? Как показать клиенту высокую точность и продать продукт или сервис?
Решения для разных уровней подготовки
Сразу скажу, будет два типа решения:
1. Для тех, кто умеет программировать: Возьмем API и немного Python (или другой язык программирования). Тут будем кодить минут 20-30.
2. Для тех, кто не умеет кодить: Выдам наш веб-интерфейс, который позволяет создать домен знаний за 3 минуты.
Почему это может быть интересно?
- Это бесплатно
- Можно попробовать что-то новое или разобраться в том что сейчас работает плохо
- Что бы участвовать достаточно быть подписанным на этот канал и просто читать
- Покупать токены или аккаунт не придется — я выдам вам свое прокси и API ключи.
- Векторную модель я выдам также свою, есть API и Swagger.
- API для создания домена знаний мы возьмем из моих наработок.
Заявки кидать либо в комментарии, либо мне в личку @Vakovalskii
Для тех, кто не умеет кодить, у нас в NDT есть веб-интерфейс. По нему я буду консультировать отдельно. Также смогу выдать аккаунт, и вы сможете загрузить свой документ, запромтировать LLM (будет 3 на выбор) и начать наполнять свой домен знаний.
Запущу я интенсив или нет, зависит от количества заявок мне интересно будет его проводить если будет больше 20-30 заявок.
Если вам интересно, как сделать свою умную LLM за дешево и с минимальным кодингом или без, я вам покажу и расскажу.
Запуск намечу на начало сентября!
Даже думаю продлить потом серию до создания Telegram-бота, в которого можно будет загрузить свою курсовую и пообщаться с ней!
#selfrag #LLM #RAG #noneedcoding #intensive #SmartBase
Оставайтесь на связи и следите за обновлениями!
Ваш @neuraldeep
54🔥18 10 4
Сделал небольшие улучшения бота рассказывал про него тут
Основан он на FLUX бэк ComfyUI + LLama-3.1. Он демонстрирует возможности re-promting на уровне Midjourney и запущен на потребительской видеокарте 3090
Появились ссылочки на оригинал
Можно сгенерить картинку с рандомным промптом
Разрешение теперь у ориги 1024х1024
@DaisyImagebot
Cкоро завезу будет присылать улучшенный промпт что бы проверить его в других нейронках!
Основан он на FLUX бэк ComfyUI + LLama-3.1. Он демонстрирует возможности re-promting на уровне Midjourney и запущен на потребительской видеокарте 3090
Появились ссылочки на оригинал
Можно сгенерить картинку с рандомным промптом
Разрешение теперь у ориги 1024х1024
@DaisyImagebot
Cкоро завезу будет присылать улучшенный промпт что бы проверить его в других нейронках!
52🔥15
Уже 100 человек сгенерировали тут(@DaisyImagebot) себе картинки
Сделал лимит в 100 запросов для пользователя, в будущем сделаю лимиты в день что бы все смогли воспользоваться
Улучшил рандомайзер теперь он делает это через LLama 3.1 на моем кластере
Попробуйте команду /random_promt
@DaisyImagebot (еще кто сгенерирует лучшую аватарку для бота поставлю её на бота и укажу автора)
Кстати если написать промпт на русском но добавить (надпись: Hello) то вас очень хорошо поймут и надпись будет там где вы укажите
Теперь почти для каждого поста я генерирую изображения только в своем боте какие применения вы нашли моему боту?
Сделал лимит в 100 запросов для пользователя, в будущем сделаю лимиты в день что бы все смогли воспользоваться
Улучшил рандомайзер теперь он делает это через LLama 3.1 на моем кластере
Попробуйте команду /random_promt
@DaisyImagebot (еще кто сгенерирует лучшую аватарку для бота поставлю её на бота и укажу автора)
Кстати если написать промпт на русском но добавить (надпись: Hello) то вас очень хорошо поймут и надпись будет там где вы укажите
Теперь почти для каждого поста я генерирую изображения только в своем боте какие применения вы нашли моему боту?
Neural Deep
Уже 100 человек сгенерировали тут(@DaisyImagebot) себе картинки Сделал лимит в 100 запросов для пользователя, в будущем сделаю лимиты в день что бы все смогли воспользоваться Улучшил рандомайзер теперь он делает это через LLama 3.1 на моем кластере Попробуйте…
Еще чуть чуть улучшений, навалил моношерийного шрифта на все промпты, скоро добавлю возвращение улучшенного промпта бот то всетаки про re-promting а не про генерацию =)
Всем привет! Увидел я в одном из профильных чатов запрос что делать с таблицами в RAG
И решил собрать базовые рекомендации которым я следую при построение RAG в котором есть таблицы как тип исходных данных
Хочу поделиться мыслями о том, как готовить данные для RAG, если в документах есть смесь текста и таблиц.
Первое это может быть непростой задачей, особенно когда таблицы содержат разноформатные данные, которые сложно привести к единому виду. Вот что я бы предложил:
Вы должны четко понимать когда галлюцинации это фича или баг
Так же вы должны четко описать какую задачу вы хотите решить когда кладете таблицы в RAG
Ответили на эти вопросы тогда к делу
1) Добавляем контекст к таблицам
Чтобы модель лучше понимала данные, важно усилить значения для каждой ячейки.
Например, если у вас есть таблица с популяционным распределением зеленых скрепышей, добавьте к каждой строке соответствующую категорию и подкатегорию.
Это поможет RAG лучше ориентироваться в данных на основе усилиения семантики.
Пример:
Было
Стало
2) Очистка данных и проверка чанков
Перед тем как разбивать данные на чанки, убедитесь, что при перегонке таблиц в плоский формат (например, CSV) не возникло пустых значений или чанков. Это важно, чтобы в векторном пространстве не было мусора и вы не получили эффект "разрежения кластеров"
3) Разделение таблиц на логические части
Если у вас есть таблица с 1000 строк, разбейте её на более мелкие логические части, скажем, по 100 строк. На это можно написать агента который сделает это за вас. На старте это облегчит обработку и повысит точность поиска ну и соответсвенно скорость.
4) Неявные запросы
Чтобы избежать большого кол-ва ошибок, используйте query expansion или агента, который будет преобразовывать неявные запросы в более точные. Например, вместо запроса "Сколько зеленых скрепышей?" лучше использовать "Сколько зеленых скрепышей в категории 'Зеленые скрепыши'?".
5) Анализ кросс-табов
Если вам нужно анализировать данные из нескольких таблиц одновременно, убедитесь, что модель может корректно обрабатывать такие запросы. Для этого можно использовать дополнительные фильтры или агенты, которые будут объединять данные из разных таблиц т.е ходить по разным индексам.
6) Создание QA датасета для проверки качеств
На старте будет много ошибок, это нормально. Чтобы улучшать качество модели и не прыгать то улучшим данные то улучшим промпт то покрутим темературу, создайте QA датасет, где будут вопросы и правильные ответы. Это позволит вам итерационно улучшать модель и оценивать её результаты.
пример такого QA датасета:
Все это носит рекомендательный характер и требует проверки на практике с вашими данными, но вдруг кому-то это может помочь найти нужный путь. Если есть вопросы или предложения, пишите!
И решил собрать базовые рекомендации которым я следую при построение RAG в котором есть таблицы как тип исходных данных
Хочу поделиться мыслями о том, как готовить данные для RAG, если в документах есть смесь текста и таблиц.
Первое это может быть непростой задачей, особенно когда таблицы содержат разноформатные данные, которые сложно привести к единому виду. Вот что я бы предложил:
Вы должны четко понимать когда галлюцинации это фича или баг
Так же вы должны четко описать какую задачу вы хотите решить когда кладете таблицы в RAG
Ответили на эти вопросы тогда к делу
1) Добавляем контекст к таблицам
Чтобы модель лучше понимала данные, важно усилить значения для каждой ячейки.
Например, если у вас есть таблица с популяционным распределением зеленых скрепышей, добавьте к каждой строке соответствующую категорию и подкатегорию.
Это поможет RAG лучше ориентироваться в данных на основе усилиения семантики.
Пример:
Было
Категория,Значение
Зеленые скрепыши,100
В том числе,50
Стало
Категория,Значение
Зеленые скрепыши,100
Зеленые скрепыши (в том числе),50
2) Очистка данных и проверка чанков
Перед тем как разбивать данные на чанки, убедитесь, что при перегонке таблиц в плоский формат (например, CSV) не возникло пустых значений или чанков. Это важно, чтобы в векторном пространстве не было мусора и вы не получили эффект "разрежения кластеров"
3) Разделение таблиц на логические части
Если у вас есть таблица с 1000 строк, разбейте её на более мелкие логические части, скажем, по 100 строк. На это можно написать агента который сделает это за вас. На старте это облегчит обработку и повысит точность поиска ну и соответсвенно скорость.
4) Неявные запросы
Чтобы избежать большого кол-ва ошибок, используйте query expansion или агента, который будет преобразовывать неявные запросы в более точные. Например, вместо запроса "Сколько зеленых скрепышей?" лучше использовать "Сколько зеленых скрепышей в категории 'Зеленые скрепыши'?".
5) Анализ кросс-табов
Если вам нужно анализировать данные из нескольких таблиц одновременно, убедитесь, что модель может корректно обрабатывать такие запросы. Для этого можно использовать дополнительные фильтры или агенты, которые будут объединять данные из разных таблиц т.е ходить по разным индексам.
6) Создание QA датасета для проверки качеств
На старте будет много ошибок, это нормально. Чтобы улучшать качество модели и не прыгать то улучшим данные то улучшим промпт то покрутим темературу, создайте QA датасет, где будут вопросы и правильные ответы. Это позволит вам итерационно улучшать модель и оценивать её результаты.
пример такого QA датасета:
[
{
"question": "Сколько зеленых скрепышей?",
"ground_truth": "100"
},
{
"question": "Сколько зеленых скрепышей (в том числе)?",
"ground_truth": "50"
}
]
Все это носит рекомендательный характер и требует проверки на практике с вашими данными, но вдруг кому-то это может помочь найти нужный путь. Если есть вопросы или предложения, пишите!
50🔥5 5
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Забрал из коментов ибо прекрасно.
Звёздные войны в стиле пластилиновой вороны.
Это просто Лора для Flux.
Звёздные войны в стиле пластилиновой вороны.
Это просто Лора для Flux.
51🔥10😁1 1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
Машина времени на стероидах ИИ.
Помните Микрософтик предложил записывать все, что происходит у вас на компе, чтобы потом иметь "машину времени"?
Их, правда сравняли с грунтом поборники приватности.
Помните эту брошку, которая типа записывает звук того, что происходит вокруг вас, а потом использует этопротив для вас - расшифровка вашего дня (не взлетит).
В топку.
Вот держите нормальный концепт.
(он уже был озвучен в раннем чорном зеркале - помните контактные линзы, которые записывают всё?).
Только теперь тут еще есть ИИ, который анализирует и расшифровывает происходящее в кадре, сохраняя не только записи, но и "понимание" того, что происходило. Круто для разбора конфликтов, переговоров или семейной терапии.
Ну и самое главное. Это ВООБЩЕ не кажется мне вымыслом, сценарием сериала или концептом.
У Метачки есть очки для этого.
Полно LLM для расшифровки видео и картинок.
Бери и делай.
Снапчат, поднимай веки, твоя тема.
Помните Микрософтик предложил записывать все, что происходит у вас на компе, чтобы потом иметь "машину времени"?
Их, правда сравняли с грунтом поборники приватности.
Помните эту брошку, которая типа записывает звук того, что происходит вокруг вас, а потом использует это
В топку.
Вот держите нормальный концепт.
(он уже был озвучен в раннем чорном зеркале - помните контактные линзы, которые записывают всё?).
Только теперь тут еще есть ИИ, который анализирует и расшифровывает происходящее в кадре, сохраняя не только записи, но и "понимание" того, что происходило. Круто для разбора конфликтов, переговоров или семейной терапии.
Ну и самое главное. Это ВООБЩЕ не кажется мне вымыслом, сценарием сериала или концептом.
У Метачки есть очки для этого.
Полно LLM для расшифровки видео и картинок.
Бери и делай.
Снапчат, поднимай веки, твоя тема.
52🔥5 2
Как же мне нравится что делает этот бот =) FLUX + re-prompting теперь я не думаю даже где буду генерить картинку для курса, канала, или поста
Проект будет развиваться как бесплатный
@DaisyImagebot
Блин делитесь в коментах что нагенерили)) Мне же интересно!
Проект будет развиваться как бесплатный
@DaisyImagebot
Блин делитесь в коментах что нагенерили)) Мне же интересно!
200 6🔥5
Forwarded from Valerii Kovalskii
Media is too big
VIEW IN TELEGRAM
Мне тут в голову пришла странная мысль после постов о том как один парень запустил на 2 Mac Pro 405b int4 локально
Думаю а чем я хуже завтра перелет хочу потыкать LLM на ноуте
Но у меня ноут на M1 16GB
В общем cпека получились такая
1) ollama качем и ставим
Далее
2)
В любом терминале
Потом если у вас запущен сервер Ollama то можно запустить интерфейс с RAG там под капотом Chroma с простым чанкингом с перекрытием можно вектора через llama получить
Интерфейс у нас будет openweb я к нему привык
Значит можно запустить его через докер что бы не парится с зависимостями
Дальше проходим регистрацию и получаем локальную LLM для полетов или мест где нету интернета)))
Скорость работы на видосе
ollama user llama.cpp
Старые бенчи вот тут
https://github.com/ggerganov/llama.cpp/discussions/4167
Если у вас по больше памяти то дотступны модели для скачивания
8b
latest
4.7GB
70b
40GB
405b
229GB
8b-instruct-fp16
16GB
8b-instruct-q2_K
3.2GB
8b-instruct-q3_K_S
(список огромный)
Думаю а чем я хуже завтра перелет хочу потыкать LLM на ноуте
Но у меня ноут на M1 16GB
В общем cпека получились такая
1) ollama качем и ставим
Далее
2)
ollama run llama3.1
В любом терминале
Потом если у вас запущен сервер Ollama то можно запустить интерфейс с RAG там под капотом Chroma с простым чанкингом с перекрытием можно вектора через llama получить
Интерфейс у нас будет openweb я к нему привык
Значит можно запустить его через докер что бы не парится с зависимостями
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
Дальше проходим регистрацию и получаем локальную LLM для полетов или мест где нету интернета)))
Скорость работы на видосе
ollama user llama.cpp
Старые бенчи вот тут
https://github.com/ggerganov/llama.cpp/discussions/4167
Если у вас по больше памяти то дотступны модели для скачивания
8b
latest
4.7GB
70b
40GB
405b
229GB
8b-instruct-fp16
16GB
8b-instruct-q2_K
3.2GB
8b-instruct-q3_K_S
(список огромный)