Придумал новый промптинг подход для o1, o1 Pro, r1 серий моделей, который в последнее время все чаще использую — с Sonnet 3.5/GPT 4o такой подход особых результатов не давал, так как они просто оценки выдумывают не рассуждая внутри
Само-скоринг через разные сообщения:
1. Получите первую версию ответа от LLM
2. Напишите ей в стиле «Оцени качество своего ответа от 1 до 100, где 100 максимальное качество»
3. После ее оценки, она обычно ставит себе 60-70 очков, оправьте ей «Перепиши изначальное решение задачи так, чтобы оно отражало 99-100 очков качества»
4. Поздравляю, вы хакер слов
Само-скоринг в виде одного сообщения:
Или, можно в виде одного сообщения, для чего-то короткого — вот пример для шутки (хотя все LLM сейчас слабы в юморе):
1. Напиши шутку
2. Оцени написанное от 1 до 100, где 100 — самая смешная шутка
3. Перепиши если полученное в пункте «1» не равно 99 или 100
4. Повторяй, пока не дойдешь до 99 или 100
Попробуйте, клево работает – модель как минимум в два раза дольше думает, что дает буст качеству
P.S. Шутка (или как это еще назвать) от r1:
Почему философ-экзистенциалист провалил экзамен по теории струн?
Потому что на вопрос «В чём смысл?» он ответил: «В чём не смысл?», а затем попытался доказать, что само понятие «струны» — это социальный конструкт, не учитывающий 11-мерную тоску бытия.
И шутка(?) от o1 Pro:
Архимед однажды сказал Оккаму: «Если бы я знал твой принцип раньше, я бы не кричал «Эврика!» дважды — обошёлся бы одним «Ура!»
🤡
_______
Источник | #denissexy
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Само-скоринг через разные сообщения:
1. Получите первую версию ответа от LLM
2. Напишите ей в стиле «Оцени качество своего ответа от 1 до 100, где 100 максимальное качество»
3. После ее оценки, она обычно ставит себе 60-70 очков, оправьте ей «Перепиши изначальное решение задачи так, чтобы оно отражало 99-100 очков качества»
4. Поздравляю, вы хакер слов
Само-скоринг в виде одного сообщения:
Или, можно в виде одного сообщения, для чего-то короткого — вот пример для шутки (хотя все LLM сейчас слабы в юморе):
1. Напиши шутку
2. Оцени написанное от 1 до 100, где 100 — самая смешная шутка
3. Перепиши если полученное в пункте «1» не равно 99 или 100
4. Повторяй, пока не дойдешь до 99 или 100
Попробуйте, клево работает – модель как минимум в два раза дольше думает, что дает буст качеству
P.S. Шутка (или как это еще назвать) от r1:
Почему философ-экзистенциалист провалил экзамен по теории струн?
Потому что на вопрос «В чём смысл?» он ответил: «В чём не смысл?», а затем попытался доказать, что само понятие «струны» — это социальный конструкт, не учитывающий 11-мерную тоску бытия.
И шутка(?) от o1 Pro:
Архимед однажды сказал Оккаму: «Если бы я знал твой принцип раньше, я бы не кричал «Эврика!» дважды — обошёлся бы одним «Ура!»
🤡
_______
Источник | #denissexy
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Telegram
Denis Sexy IT 🤖
Придумал новый промптинг подход для o1, o1 Pro, r1 серий моделей, который в последнее время все чаще использую — с Sonnet 3.5/GPT 4o такой подход особых результатов не давал, так как они просто оценки выдумывают не рассуждая внутри
Само-скоринг через разные…
Само-скоринг через разные…
И я напомню, r1, o1 и все думающие модели, нужно промптить иначе:
www.latent.space
Потому что это больше генератор отчета, чем чат-сообщения
Ну, для максимально эффективного использования
_______
Источник | #denissexy
@F_S_C_P
Стань спонсором!
www.latent.space
Потому что это больше генератор отчета, чем чат-сообщения
Ну, для максимально эффективного использования
_______
Источник | #denissexy
@F_S_C_P
Стань спонсором!
+---------------------+
| ~ ~ Paper-Fi ~ ~ |
+---------------------+
Обновил свой старый эксперимент где совмещал научные пейперы и художественную литературу – в этот раз с Deep Research и o3:
Погружаемся к ядру Юпитера, потому что он страшный как 👁👁👁👁👁
Ссылка
_______
Источник | #denissexy
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
ChatGPT Deep research после дня тестов:
— Отчеты действительно качественные и 100 запросов для Pro в месяц могут даже закончится — я уже потратил 15
— Deep research сам понимает когда ссылка имеет мало ценности и может ее не включить в отчет, даже если нашел
— Мгновенная ценность для бизнеса: за 10 минут получил полный отчет конкурентов, сильной и слабой стороны neural.love, рекомендации как поступить — и он правда угадал почти по всем пунктам, процитировав те направления развития которые мы и так уже развиваем; я теперь туда буду носить все что требует проработки на уровне бизнеса
— Статьи правда большие: ради интереса заказал на английском про общество и рабочие места после AGI — вышло примерно 30 минут если перегнать в аудио
— По наполнению сгенерированная статья полностью покрывает заданную тему: перед началом подготовки отчета, Deep research уточнит детали которые считает нужными – при этом вы можете давать сложные инструкции, оно будет следовать
— Это все еще нейронка и она может ошибиться, поэтому сложные темы за ней нужно проверять; я пока не встречал такую ошибку в сферах в которых разбираюсь, но мне кажется важно про это упомянуть
— Уверен, люди будут очень много использовать Deep research в медицинских целях — будут искать решения на основе доказательной медицины конкретно под себя и историю болезни
В общем, скоро это добавят в Plus план где будет 10 запросов в месяц — мой совет не тратить их сразу на глупости, а подумать, есть ли в жизни что-то важное настолько, что хотелось бы качественно решить — Deep research правда ценный продукт, и может помочь и вам, и близким
P.S. Я пользовался всеми возможными популярными и отрытыми агентскими системами которые были до Deep research для поиска данных в интернете, какие-то делал сам ради экспериментов – у OpenAI получился очень качественный инструмент уровень которого я пока не встречал
_______
Источник | #denissexy
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
— Отчеты действительно качественные и 100 запросов для Pro в месяц могут даже закончится — я уже потратил 15
— Deep research сам понимает когда ссылка имеет мало ценности и может ее не включить в отчет, даже если нашел
— Мгновенная ценность для бизнеса: за 10 минут получил полный отчет конкурентов, сильной и слабой стороны neural.love, рекомендации как поступить — и он правда угадал почти по всем пунктам, процитировав те направления развития которые мы и так уже развиваем; я теперь туда буду носить все что требует проработки на уровне бизнеса
— Статьи правда большие: ради интереса заказал на английском про общество и рабочие места после AGI — вышло примерно 30 минут если перегнать в аудио
— По наполнению сгенерированная статья полностью покрывает заданную тему: перед началом подготовки отчета, Deep research уточнит детали которые считает нужными – при этом вы можете давать сложные инструкции, оно будет следовать
— Это все еще нейронка и она может ошибиться, поэтому сложные темы за ней нужно проверять; я пока не встречал такую ошибку в сферах в которых разбираюсь, но мне кажется важно про это упомянуть
— Уверен, люди будут очень много использовать Deep research в медицинских целях — будут искать решения на основе доказательной медицины конкретно под себя и историю болезни
В общем, скоро это добавят в Plus план где будет 10 запросов в месяц — мой совет не тратить их сразу на глупости, а подумать, есть ли в жизни что-то важное настолько, что хотелось бы качественно решить — Deep research правда ценный продукт, и может помочь и вам, и близким
P.S. Я пользовался всеми возможными популярными и отрытыми агентскими системами которые были до Deep research для поиска данных в интернете, какие-то делал сам ради экспериментов – у OpenAI получился очень качественный инструмент уровень которого я пока не встречал
_______
Источник | #denissexy
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
ChatGPT
ChatGPT - Post-AGI Workforce Impact
Shared via ChatGPT
Media is too big
VIEW IN TELEGRAM
Наткнулся на классное видео того года – болезнь Паркинсона до применения препарата Produodopa и после
Очень нравится текущее время еще тем, что на глазах исчезают и будут исчезать страшные болезни, так им 😐
_______
Источник | #denissexy
@F_S_C_P
Стань спонсором!
Очень нравится текущее время еще тем, что на глазах исчезают и будут исчезать страшные болезни, так им 😐
_______
Источник | #denissexy
@F_S_C_P
Стань спонсором!
Наткнулся на классный подреддит – писатели выкладывают свои девайсы на которых пишут книги
Как правило в них нет интернета, пушей и тп, все для погружения в творчество – интересный вид устройств
r/writerDeck
_______
Источник | #denissexy
@F_S_C_P
Стань спонсором!
Как правило в них нет интернета, пушей и тп, все для погружения в творчество – интересный вид устройств
r/writerDeck
_______
Источник | #denissexy
@F_S_C_P
Стань спонсором!
Классный пост – 3D реконструкция бывшей столицы Ацтеков, города Теночтитлан его образца 1518-года. Мы знаем его как Мехико Сити, в нем жило 200 000 человек, на тот момент это один из крупнейших городов мира:
https://tenochtitlan.thomaskole.nl/
Через год с даты реконстркции, на побережье нынешней Мексики высадились испанцы. В 1521 году – 1000 испанцев и ~15 000 индейцев, врагов империи Ацтеков, осадили Теночтитлан на 80 дней, город был разрушен – ацтеки страдали от голода и эпидемии оспы, завезённой испанцами
13 августа 1521 года последний ацтекский правитель был схвачен и Теночтитлан пал 😢
_______
Источник | #denissexy
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
https://tenochtitlan.thomaskole.nl/
Через год с даты реконстркции, на побережье нынешней Мексики высадились испанцы. В 1521 году – 1000 испанцев и ~15 000 индейцев, врагов империи Ацтеков, осадили Теночтитлан на 80 дней, город был разрушен – ацтеки страдали от голода и эпидемии оспы, завезённой испанцами
13 августа 1521 года последний ацтекский правитель был схвачен и Теночтитлан пал 😢
_______
Источник | #denissexy
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Media is too big
VIEW IN TELEGRAM
Люблю такое – атлас важных технологий с 1500 года
По категориям, с картинками, можно залипнуть:
https://calculatingempires.net/
_______
Источник | #denissexy
@F_S_C_P
Стань спонсором!
По категориям, с картинками, можно залипнуть:
https://calculatingempires.net/
_______
Источник | #denissexy
@F_S_C_P
Стань спонсором!
Сделал простой гайд какие модели когда использовать в ChatGPT:
GPT-4o mini – лучше не использовать, самая слабая и придумывает ответы; не способна следовать сложным инструкциям
GPT-4o – быстрая модель, для быстрых ответов не требующих проверки фактов, может их придумывать; перевожу ей картинки в текст если нужно быстро. Ее ответы нужно всегда факт-чекать. Зато эта модель имеет доступ к памяти (где все про вас), с ней можно общаться голосом, через нее можно вызывать генерацию картинок Dalle. Не рекомендую обрабатывать большие файлы с ней
GPT-4o with scheduled tasks (beta) – использую только для To Do: модель пишет мне каждое утро и спрашивает приоритеты, показывает текущий список задач и тп
o3-mini – хорошая модель для кодинга и жизни, хорошо ищет в интернете, неплохо следуют инструкциям и при этом очень быстрая; если вам некогда и нужен быстрый ответ, то берите ее. Для анализа картинок и файлов «быстро» хороший кандидат. Не имеет доступа к памяти. Реже ошибается в фактах, но ошибается. В Plus тире – 150 сообщений в день.
✨o3-mini-high – это просто версия o3-mini, которую просят думать подольше перед тем как дать ответ – работает она медленнее, но еще реже ошибается, и еще качественнее решает задачи. Великолепно следует инструкциям. Хорошо работает с файлами. Я бы советовал сначала тратить 50 запросов этой модели, и дальше переходить к o3-mini или o1.
o1 – модель генератор отчетов, эссе и рефератов. Медленная модель. Хорошо следует инструкциям, может ошибиться в фактах. Не может искать в интернете. Хорошо видит картинки и читает файлы, не теряя деталей. У вас всего 50 запросов в неделю. Требует промптинга с описанием отчета которого вы хотите получить.
o1 pro mode – лучшая модель на рынке: почти никогда не ошибается в фактах, решает самые сложные задачи кодинга, дольше всех думает, лучше всех понимает изображения, но не умеет искать в интернете и не умеет работать с файлами напрямую. С точки зрения фактов – модель всегда сама себя перепроверяет, за ~3 месяца использования я только один раз поймал ее на неточности. Требует детального промптинга с описанием отчета который вы хотите. Доступна только в Pro тире, лимитов нет.
Deep research – несмотря на то, что модель выведена в отдельную кнопку, это версия новой o3 для поиска в интернете, как ей лучше пользоваться я напишу отдельно когда дадут доступ всем. Модель ищет в интернете и сама пишет код (который вам не покажет) для анализа найденных данных, чтобы, например включить в отчет графики. Лучшее, что есть на рынке для поиска данных в интернете. Пока доступна только в Pro. Если активируете эту кнопку - выбор модели в выпадашке – игнорируется, UX который мы заслужили
Tldr:
Для повседневных задач ваш лучший выбор – o3-mini-high, потом o3-mini, когда у первой кончились лимиты
_______
Источник | #denissexy
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
GPT-4o mini – лучше не использовать, самая слабая и придумывает ответы; не способна следовать сложным инструкциям
GPT-4o – быстрая модель, для быстрых ответов не требующих проверки фактов, может их придумывать; перевожу ей картинки в текст если нужно быстро. Ее ответы нужно всегда факт-чекать. Зато эта модель имеет доступ к памяти (где все про вас), с ней можно общаться голосом, через нее можно вызывать генерацию картинок Dalle. Не рекомендую обрабатывать большие файлы с ней
GPT-4o with scheduled tasks (beta) – использую только для To Do: модель пишет мне каждое утро и спрашивает приоритеты, показывает текущий список задач и тп
o3-mini – хорошая модель для кодинга и жизни, хорошо ищет в интернете, неплохо следуют инструкциям и при этом очень быстрая; если вам некогда и нужен быстрый ответ, то берите ее. Для анализа картинок и файлов «быстро» хороший кандидат. Не имеет доступа к памяти. Реже ошибается в фактах, но ошибается. В Plus тире – 150 сообщений в день.
✨o3-mini-high – это просто версия o3-mini, которую просят думать подольше перед тем как дать ответ – работает она медленнее, но еще реже ошибается, и еще качественнее решает задачи. Великолепно следует инструкциям. Хорошо работает с файлами. Я бы советовал сначала тратить 50 запросов этой модели, и дальше переходить к o3-mini или o1.
o1 – модель генератор отчетов, эссе и рефератов. Медленная модель. Хорошо следует инструкциям, может ошибиться в фактах. Не может искать в интернете. Хорошо видит картинки и читает файлы, не теряя деталей. У вас всего 50 запросов в неделю. Требует промптинга с описанием отчета которого вы хотите получить.
o1 pro mode – лучшая модель на рынке: почти никогда не ошибается в фактах, решает самые сложные задачи кодинга, дольше всех думает, лучше всех понимает изображения, но не умеет искать в интернете и не умеет работать с файлами напрямую. С точки зрения фактов – модель всегда сама себя перепроверяет, за ~3 месяца использования я только один раз поймал ее на неточности. Требует детального промптинга с описанием отчета который вы хотите. Доступна только в Pro тире, лимитов нет.
Deep research – несмотря на то, что модель выведена в отдельную кнопку, это версия новой o3 для поиска в интернете, как ей лучше пользоваться я напишу отдельно когда дадут доступ всем. Модель ищет в интернете и сама пишет код (который вам не покажет) для анализа найденных данных, чтобы, например включить в отчет графики. Лучшее, что есть на рынке для поиска данных в интернете. Пока доступна только в Pro. Если активируете эту кнопку - выбор модели в выпадашке – игнорируется, UX который мы заслужили
Tldr:
Для повседневных задач ваш лучший выбор – o3-mini-high, потом o3-mini, когда у первой кончились лимиты
_______
Источник | #denissexy
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
Telegram
Denis Sexy IT 🤖
Сделал простой гайд какие модели когда использовать в ChatGPT:
GPT-4o mini – лучше не использовать, самая слабая и придумывает ответы; не способна следовать сложным инструкциям
GPT-4o – быстрая модель, для быстрых ответов не требующих проверки фактов, может…
GPT-4o mini – лучше не использовать, самая слабая и придумывает ответы; не способна следовать сложным инструкциям
GPT-4o – быстрая модель, для быстрых ответов не требующих проверки фактов, может…
Интересный вид атаки протестировали через опенсорс LLM-модели:
1. Берем любую опенсорс модель
2. Учим ее добавлять незаметно какие-то вещи в код (например, ссылки на вредоносные скрипты)
3. Загружаем обратно куда-то сохраняя имя оригинальной модели или просто делаем вид что это новая версия
4. Все, зараженную модель невозможно обнаружить, защиты тоже нету
Поэтому, всегда проверяйте кто поставщик модели и куда она загружена – у известных лаб как правило много прошлых публикаций моделей, рейтинги и тп
Tldr: всякие
На скриншоте пример взаимодействия с такой моделью и подключение вредоносного скрипта:
_______
Источник | #denissexy
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
1. Берем любую опенсорс модель
2. Учим ее добавлять незаметно какие-то вещи в код (например, ссылки на вредоносные скрипты)
3. Загружаем обратно куда-то сохраняя имя оригинальной модели или просто делаем вид что это новая версия
4. Все, зараженную модель невозможно обнаружить, защиты тоже нету
Поэтому, всегда проверяйте кто поставщик модели и куда она загружена – у известных лаб как правило много прошлых публикаций моделей, рейтинги и тп
Tldr: всякие
Deep.Seek.r1.2025.671b.BluRay.x264.AAC.gguf
не качаемНа скриншоте пример взаимодействия с такой моделью и подключение вредоносного скрипта:
_______
Источник | #denissexy
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot