Кстати, хороший комментарий оставили в нашем чате @prompt_chat :
Давно, хотел написать о том, как LLM считают и почему часто ошибаются в простой арифметике:
Ограничения вычислений
Важно понимать, что модель имеет ограниченное количество вычислений на каждый токен. Поэтому сложные вычисления нужно разбивать на простые шаги. Когда мы просим модель "решить в уме" сложную задачу одним токеном, это может привести к ошибкам.
Использование инструментов
Для надежного решения задач модели часто используют внешние инструменты. Например, вместо "мысленных" вычислений модель может написать и выполнить код:
Это гораздо надежнее, чем пытаться выполнить вычисления "в уме".
Проблемы с простыми задачами
Интересный парадокс: модели могут решать сложные математические задачи олимпиадного уровня, но иногда ошибаются в простейших вещах. Например, некоторые модели могут неправильно определить, что больше: 9.11 или 9.9.
При исследовании этого феномена обнаружилось, что определенные нейроны в сети активируются как при работе с библейскими стихами (где 9:11 идет после 9:9), создавая когнитивный конфликт в модели.
Проблемы с подсчетом
Модели часто испытывают трудности с задачами подсчета. Например, просьба посчитать количество точек в тексте может вызвать затруднения, потому что модель видит не отдельные символы, а токены.
Решение: использовать инструменты. Вместо прямого подсчета лучше попросить модель написать код:
Очень плохо нейронки решают школьные задания. А если, там мало мальски логику нужно включить, то ваще капец, такой херни напишут.
Знаю по опыту-дочь в 5 классе, готова всю свою домашку скормить аи😁
Давно, хотел написать о том, как LLM считают и почему часто ошибаются в простой арифметике:
Ограничения вычислений
Важно понимать, что модель имеет ограниченное количество вычислений на каждый токен. Поэтому сложные вычисления нужно разбивать на простые шаги. Когда мы просим модель "решить в уме" сложную задачу одним токеном, это может привести к ошибкам.
Использование инструментов
Для надежного решения задач модели часто используют внешние инструменты. Например, вместо "мысленных" вычислений модель может написать и выполнить код:
apples = 3
oranges = 2
orange_price = 2
total = 13
apple_price = (total - oranges * orange_price) / apples
print(f"Каждое яблоко стоит ${apple_price}")
Это гораздо надежнее, чем пытаться выполнить вычисления "в уме".
Проблемы с простыми задачами
Интересный парадокс: модели могут решать сложные математические задачи олимпиадного уровня, но иногда ошибаются в простейших вещах. Например, некоторые модели могут неправильно определить, что больше: 9.11 или 9.9.
При исследовании этого феномена обнаружилось, что определенные нейроны в сети активируются как при работе с библейскими стихами (где 9:11 идет после 9:9), создавая когнитивный конфликт в модели.
Проблемы с подсчетом
Модели часто испытывают трудности с задачами подсчета. Например, просьба посчитать количество точек в тексте может вызвать затруднения, потому что модель видит не отдельные символы, а токены.
Решение: использовать инструменты. Вместо прямого подсчета лучше попросить модель написать код:
text = "....."
print(len(text))
🔥12❤7👍5👏1🙏1 1
Хаггингфейс опубликовал первую часть своего курса по созданию ИИ-Агентов. Я решил пройти его и вам советую. А чтобы вам было проще и интереснее, буду переводить их для вас. Первая часть уже готова - https://teletype.in/@prompt_design/agents-course
30🔥71❤9🙏6👍5✍1⚡1👏1🤗1😘1 1
Forwarded from e/acc
Для тех, кто еще не видел, интересный график количества вакансий в ИТ / разработке. Первый провал на графике — ковид. Второй — ИИ. Пока что отменяют манкикодеров, но экспертиза в цене. Сегодня любой нубас с GPT может заделиверить MVP. Завтра все это будет работать и без нубаса. Послезавтра — аналогичный тренд ждёт все остальные офисные профессии. Для один повод поужасаться, для других — уникальная возможность, когда меняется структура рынка.
🔥10🤯10👍6❤3💯2
e/acc
Для тех, кто еще не видел, интересный график количества вакансий в ИТ / разработке. Первый провал на графике — ковид. Второй — ИИ. Пока что отменяют манкикодеров, но экспертиза в цене. Сегодня любой нубас с GPT может заделиверить MVP. Завтра все это будет…
К вопросу «незаменимости» программистов. Есть такой бенчмарк CodeForces для измерения крутости разрабов, вот рейтинг.
Ну и буквально единицы (ладно, десятки) людей приближаются по этому бенчмарку к модели o3 от OpenAI, вот посмотрите.
Думаю, что в ближайшем будущем (в течении этого года), ИИ обгонит человека, как сделал это в шахматах.
А уже постановка задач, верстка и сборка всего проекта «под ключ» подтянется со временем. И ничего страшного не случится.
Ну и буквально единицы (ладно, десятки) людей приближаются по этому бенчмарку к модели o3 от OpenAI, вот посмотрите.
Думаю, что в ближайшем будущем (в течении этого года), ИИ обгонит человека, как сделал это в шахматах.
А уже постановка задач, верстка и сборка всего проекта «под ключ» подтянется со временем. И ничего страшного не случится.
🔥15🤯4🤣3❤1👍1💯1🤗1
Силиконовый Мешок
Хаггингфейс опубликовал первую часть своего курса по созданию ИИ-Агентов. Я решил пройти его и вам советую. А чтобы вам было проще и интереснее, буду переводить их для вас. Первая часть уже готова - https://teletype.in/@prompt_design/agents-course
Уже получили свой первый сертификат?
8👏29🔥6 3👍2❤1🤗1
OpenAI обновили ChatGPT 4o, теперь она может писать стихи, даже, в стили Хармса:
Машина
В углу сидела Машина,
Гудела, моргала, сверкала.
Спросил я: «Ты знаешь Пушкина?»
Она отвечать не стала.
Я ей сказал: «Ты ж умная!»
Она мне: «Факт подтверждён».
Я ей: «А знаешь грустное?»
Она зажужжала в тон.
«Любишь ли ты чаёк, Машина?»
— «Люблю. Но не пью. Не могу».
Я ей: «А если влить бензина?»
— «Я вас за такое сожгу».
Тут я замолчал мгновенно,
Вдруг стул подо мной запищал!
Оказалось, он тоже умный...
Я в ужасе убежал.
Машина
В углу сидела Машина,
Гудела, моргала, сверкала.
Спросил я: «Ты знаешь Пушкина?»
Она отвечать не стала.
Я ей сказал: «Ты ж умная!»
Она мне: «Факт подтверждён».
Я ей: «А знаешь грустное?»
Она зажужжала в тон.
«Любишь ли ты чаёк, Машина?»
— «Люблю. Но не пью. Не могу».
Я ей: «А если влить бензина?»
— «Я вас за такое сожгу».
Тут я замолчал мгновенно,
Вдруг стул подо мной запищал!
Оказалось, он тоже умный...
Я в ужасе убежал.
25👍30😁16🔥4❤🔥2❤1👏1🤯1🤩1💯1🦄1
OpenAI выложили у себя классный гайд, как составлять промпты для своих моделей и чем они отличаются. Сделал для вас перевод 👇
https://teletype.in/@prompt_design/reasoning-best-practices
https://teletype.in/@prompt_design/reasoning-best-practices
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥24👍6❤3❤🔥1🙏1😘1
«Шоколад» к успеху шел пришел!
Поставил будильник на 7 утра, чтобы посмотреть, как Илон Маск расскажет про Grok 3.
Если кратко, то:
— Ранняя версия Grok-3 (кодовое название "шоколад") уже стала лидером в рейтинге Arena.
— Это первая модель, преодолевшая порог в 1400 баллов (почти 1500)
— Лидер во всех категориях: математика, креативные тексты, длинные запросы.
— В категории Программирование Grok-3 обошёл ведущие модели, такие как o1 и Gemini-thinking.
— А ну и всё это делала «не размышляющая» модель…
Поставил будильник на 7 утра, чтобы посмотреть, как Илон Маск расскажет про Grok 3.
Если кратко, то:
— Ранняя версия Grok-3 (кодовое название "шоколад") уже стала лидером в рейтинге Arena.
— Это первая модель, преодолевшая порог в 1400 баллов (почти 1500)
— Лидер во всех категориях: математика, креативные тексты, длинные запросы.
— В категории Программирование Grok-3 обошёл ведущие модели, такие как o1 и Gemini-thinking.
— А ну и всё это делала «не размышляющая» модель…
🔥16👍4❤3🤯1
Силиконовый Мешок
«Шоколад» к успеху шел пришел! Поставил будильник на 7 утра, чтобы посмотреть, как Илон Маск расскажет про Grok 3. Если кратко, то: — Ранняя версия Grok-3 (кодовое название "шоколад") уже стала лидером в рейтинге Arena. — Это первая модель, преодолевшая…
Если хотите пообщаться с новой моделью бесплатно, то идите на https://lmarena.ai/ и выбирайте сверху Direct chat -> Grok 3.
🔥12👍3❤2
Силиконовый Мешок
«Шоколад» к успеху шел пришел! Поставил будильник на 7 утра, чтобы посмотреть, как Илон Маск расскажет про Grok 3. Если кратко, то: — Ранняя версия Grok-3 (кодовое название "шоколад") уже стала лидером в рейтинге Arena. — Это первая модель, преодолевшая…
Еще Маск сказал, что для следующей модели планируется расширение в 5 раз (до 1M GPU, датацентр будет потреблять 1.21 GW энергии)
🔥17👍3🤣3
Скоро во всех вакансиях: ИИ-Агент ищет двух кожаных: аутиста и СДВГшника, для ресерча и составления промптов.
Идеальная команда основателей — это когда один основатель аутист, а другой с СДВГ. Идеальный основатель-одиночка обладает и тем, и другим.
Для дальнейшего обоснования, хотя и упрощённого:
Аутист совершенствует, уточняет и поддерживает фокус.
СДВГ исследует, адаптируется и поддерживает высокую скорость движения.
Они дополняют друг друга.
🤣29🔥9💊4💯3❤1👍1🤝1🤪1🦄1 1
Силиконовый Мешок
«Шоколад» к успеху шел пришел! Поставил будильник на 7 утра, чтобы посмотреть, как Илон Маск расскажет про Grok 3. Если кратко, то: — Ранняя версия Grok-3 (кодовое название "шоколад") уже стала лидером в рейтинге Arena. — Это первая модель, преодолевшая…
В Твиттере (X) начались первые холливары на тему новой модели Grok 3, о том что она пока не так хороша, как заявлял Маск.
—
Ну и мы подождем…
@bindureddy:
Grok-3 пока не готов, как рассуждающая модель.
Та версия, которая уже вышла, не очень хорошо показала себя на трех собственных тестах, о которых они сами сообщили.
Технически сейчас нечего оценивать и тестировать!
Так что остается только ждать 🤷♀️
—
@ImJayBallentine:
Я пользуюсь Grok и поражен количеством «галлюцинаций», в основном связанных с данными из X (аккаунты). Время от времени он выдает случайные фразы на китайском — это тоже любопытно.
Ну и мы подождем…
🔥6❤2💯2
Силиконовый Мешок
Андрей Карпаты выпустил феноменальное видео "Deep Dive into LLMs like ChatGPT", которое я рекомендую всем, кто интересуется ИИ. Кроме того, на arXiv.org без особой огласки вышло множество новых исследований — от обилия информации голова идет кругом.
Не устаю повторять, посмотрите видео Андрея Карпаты, это лучшая база для изучения LLM на данный момент! Но по старой традиции, выкладываю свой краткий транскрипт по первой части. Если интересно, а это я вижу только по вашим 🔥 — продолжу делиться. https://teletype.in/@prompt_design/Deep-Dive-into-LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Teletype
Транскрипт первой части лекции "Deep Dive into LLMs like ChatGPT"
Сама лекция тут, ниже будет транскрипт важных для меня мыслей из первой части, о том как работает LLM
25🔥53👍6🙏4🤗4❤3 2
Pika только что зарелизили Pikaswaps — позволяющий заменять объекты прямо в видео. Мы с детьми уже развлекаемся .
206❤🔥10🤯5👍4🤣2🔥1
Добавил еще два материала в лонгриды:
1) Что такое LLM модели
2) Что такое ИИ-Агенты
Это базовая информация, более подробно можно почитать тут (агенты) и тут (LLM). Если интересно, а это мы проверяем 🔥 — могу собрать из постов информацию по промптингу и сделать лонгрид. Хороших выходных!
1) Что такое LLM модели
2) Что такое ИИ-Агенты
Это базовая информация, более подробно можно почитать тут (агенты) и тут (LLM). Если интересно, а это мы проверяем 🔥 — могу собрать из постов информацию по промптингу и сделать лонгрид. Хороших выходных!
Teletype
Как работает LLM?
Большая языковая модель (LLM) — это сложная система, которая учится понимать и создавать текст, анализируя огромные объемы данных, такие...
11🔥70❤7✍3👍2