Посмотрели, хитрые (и не очень) задачки из Linguistic Benchmark Questions вроде той что на картинке или про братьев и сестер новая OpenAI o1-preview решает - надо пробовать с программированием!
Подоспели первые комментарии от https://t.iss.one/sergiobulaev Сергея:
Сегодня она довольно часто думала больше минуты. А представьте, что будет, если она будет думать часами? Это ведь уже вполне реально представить.
Вот примеры промптов от OpenAI:
[CODE]
или
или
Кстати, через Open Router o1 доступна всем (прямо всем), если что.
Сергей Булаев AI 🤖 - об AI и не только
1. Не думайте о ней как об обычной чат-модели. Это полноценный агент, работающий самостоятельно. Используйте её как умного друга, которому вы отправляете сообщение с просьбой разобраться в вопросе. Она ответит продуманными разъяснениями, разложенными по шагам. (И да, не нужно просить её думать по шагам — она и так так делает.)
2. Запишите и спроектируйте свой промпт заранее, в заметках или с помощью другой модели. Сделайте его подробным, распишите шаги и процессы, дайте как можно больше полезной информации.
3. Используйте o1-mini для задач, не требующих обширных знаний, но требующих пошагового размышления.
4. o1 обычно выдаёт сначала части решения, а потом и полное решение. o1-mini — шаги решения.
5. Как бы смешно это ни казалось, когда просите что-то изменить или дополнить, потратьте время на чёткое объяснение. Модели будет проще рассуждать, опираясь на ваши пояснения.
Сегодня она довольно часто думала больше минуты. А представьте, что будет, если она будет думать часами? Это ведь уже вполне реально представить.
Вот примеры промптов от OpenAI:
Instructions:
- Given the React component below, change it so that nonfiction books have red
text.
- Return only the code in your reply
- Do not include any additional formatting, such as markdown code blocks
- For formatting, use four space tabs, and do not allow any lines of code to
exceed 80 columns
[CODE]
или
I want to build a Python app that takes user questions and looks them up in a
database where they are mapped to answers. If there ia close match, it retrieves
the matched answer. If there isn't, it asks the user to provide an answer and
stores the question/answer pair in the database. Make a plan for the directory
structure you'll need, then return each file in full. Only supply your reasoning
at the beginning and end, not throughout the code.
или
What are three compounds we should consider investigating to advance research
into new antibiotics? Why should we consider them?
Кстати, через Open Router o1 доступна всем (прямо всем), если что.
Сергей Булаев AI 🤖 - об AI и не только
👍3
Microsoft встроили в Visual Studio искусственный интеллект в механизм создания брейкпоинтов с условиями. IDE на прокачку, как в старом шоу на MTV: «Чтобы ты мог использовать LLM, когда дебажишь свой код написанный LLM, для проекта, использующего LLM».
Речь идет о брейкпоинтах со сложными условиями, в духе пропустить 5000 циклов for и отловить вызов функции с определёнными значениями параметров. Вот тут AI сам предложит вам эти самые значения (предположу, что ориентируясь на граничные значения допустимых диапазонов). Не уверен, что это очень полезная функция, но если рассматривать ее как часть процесса, в котором роботы сами пишут код и сами же исправляют ошибки, то начинает просматриваться ценность.
Речь идет о брейкпоинтах со сложными условиями, в духе пропустить 5000 циклов for и отловить вызов функции с определёнными значениями параметров. Вот тут AI сам предложит вам эти самые значения (предположу, что ориентируясь на граничные значения допустимых диапазонов). Не уверен, что это очень полезная функция, но если рассматривать ее как часть процесса, в котором роботы сами пишут код и сами же исправляют ошибки, то начинает просматриваться ценность.
Microsoft News
Supercharge C++ Debugging with AI-Generated breakpoint expressions
Learn how to use AI-generated expressions for conditional breakpoints and tracepoints in Visual Studio 2022 to debug your C++ code faster and easier than ever before.
🔥5
Если кто не знает, есть такое направление в разработке ПО называется Automated Program Repair (APR). Качество инструментов для фикса багов измеряется на бенчмарке QiixBugs. Исследователи попробовали пофиксить с помощью новых моделей OpenAI o1-preview и o1-mini. Получились такие результаты : в тестах последних итераций QiixBugs модель успешно исправила все 40 ошибок, превзойдя производительность предыдущих версий по различным показателям, таким как уровень успешного фикса и эффективность реагирования. Может теперь останутся только фичи, а багов не будет совсем? https://theministryofai.org/from-bugs-to-breakthroughs-how-gpt-01-is-revolutionizing-the-world-of-automated-code-repair/
Ministry Of AI - The Authoritative Place for AI Learning and Education
From Bugs to Breakthroughs: How GPT-01 is Revolutionizing the World of Automated Code Repair - Ministry Of AI
From Bugs to Breakthroughs: How GPT-01 is Revolutionizing the World of Automated Code Repair Hello, fellow developers and AI enthusiasts! Today, we're diving headfirst into the world of coding and bug-fixing through the lens of cutting-edge AI technology.…
👍9
Уже завтра, 3 октября, в 12:00 доктор технических наук Владимир Крылов расскажет о бенчмарках для LLM в своей новой лекции. Рассмотрим современные методы оценивания способностей больших языковых моделей решать различные задачи.
Вы узнаете:
🔸 какие бенчмарки для определения лучших моделей сейчас наиболее типичны;
🔸 как применяется шахматный рейтинг ELO для бенчмаркинга;
🔸 что такое Leaderboard Arena;
🔸 какие частные, но важные бенчмарки применяются для проблемно ориентированных моделей и мультимодальных LLM.
Подключайтесь! В этот раз будем транслировать не только на наш YouTubе, но и прямо здесь — в этот телеграм-канал. Выбирайте, где вам удобнее☺️
Вы узнаете:
Подключайтесь! В этот раз будем транслировать не только на наш YouTubе, но и прямо здесь — в этот телеграм-канал. Выбирайте, где вам удобнее
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17👏1
Многие приложения , работающие с локальными данными и использующие LLM, как правило содержат решения, основанные на RAG. Разработчиков может оказаться интересным ознакомиться с итогами недавно завершившегося РАГатона в https://github.com/trustbit/RAGathon . Есть все исходники победителей. Нет только самих данных. Но они доступны в Сети.
GitHub
GitHub - trustbit/RAGathon
Contribute to trustbit/RAGathon development by creating an account on GitHub.
❤4
https://github.com/Doriandarko/o1-engineer
Инструмент командной строки, разработанный для помощи разработчикам в эффективном управлении и взаимодействии с их проектами. Используя мощь API OpenAI, o1-engineer предоставляет такие функции, как генерация кода, редактирование файлов, планирование проекта и обзор кода, чтобы оптимизировать ваш рабочий процесс разработки. Не хотите попробовать o1 в разработке кода?
Инструмент командной строки, разработанный для помощи разработчикам в эффективном управлении и взаимодействии с их проектами. Используя мощь API OpenAI, o1-engineer предоставляет такие функции, как генерация кода, редактирование файлов, планирование проекта и обзор кода, чтобы оптимизировать ваш рабочий процесс разработки. Не хотите попробовать o1 в разработке кода?
GitHub
GitHub - Doriandarko/o1-engineer: o1-engineer is a command-line tool designed to assist developers in managing and interacting…
o1-engineer is a command-line tool designed to assist developers in managing and interacting with their projects efficiently. Leveraging the power of OpenAI's API, this tool provides functi...
👍1
В продолжение:
Для этого проект использует две модели o1-mini (можно изменить в настройках), одна говорит что добавлять и менять, а вторая - исполняет. Как пишет автор, первым делом он подключил своего агента к работе над собственным же кодом.
Для этого проект использует две модели o1-mini (можно изменить в настройках), одна говорит что добавлять и менять, а вторая - исполняет. Как пишет автор, первым делом он подключил своего агента к работе над собственным же кодом.
"Как сравнивают LLM: бенчмарки" — новая лекция доктора технических наук Владимира Крылова на нашем YouTube-канале. Есть и в виде подкаста.
Из лекции вы узнаете:
🔸 какие бенчмарки для определения лучших моделей сейчас наиболее типичны;
🔸 как применяется шахматный рейтинг ELO для бенчмаркинга;
🔸 что такое Leaderboard Arena;
🔸 какие частные, но важные бенчмарки применяются для проблемно ориентированных моделей и мультимодальных LLM.
Появились вопросы — задавайте в комментариях!
Из лекции вы узнаете:
Появились вопросы — задавайте в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Взяли интервью у Дмитрия Рожкова, автора канала Senior Software Vlogger, чтобы обсудить результаты его тестирования шести AI-программистов. Дмитрий рассказал, способны ли современные ИИ-агенты справиться с реальными задачами и как эти кремниевые разработчики повлияют на ИТ-индустрию.
Смотрите интервью на нашем YouTube-канале или слушайте подкаст!
Смотрите интервью на нашем YouTube-канале или слушайте подкаст!
👍9🔥4
Во вторник, 15 октября, в 12:00 Анна Авдюшина расскажет об архитектуре и проектировании ML-систем на нашем YouTube-канале.
Анна преподаёт на факультете «Программная инженерия и компьютерная техника» и является инженером центра «Сильный искусственный интеллект в промышленности» университета ИТМО.
На лекции рассмотрим ключевые аспекты разработки и развертывания систем на основе машинного обучения: выбор компонентов и их интеграции, управление данными, оркестрацию важных этапов жизненного цикла ML-проектов, от исследования данных и разработки модели до её масштабирования и поддержки на этапе эксплуатации.
Подключайтесь! Будем транслировать не только на наш YouTubе, но и прямо здесь — в этот телеграм-канал.
Анна преподаёт на факультете «Программная инженерия и компьютерная техника» и является инженером центра «Сильный искусственный интеллект в промышленности» университета ИТМО.
На лекции рассмотрим ключевые аспекты разработки и развертывания систем на основе машинного обучения: выбор компонентов и их интеграции, управление данными, оркестрацию важных этапов жизненного цикла ML-проектов, от исследования данных и разработки модели до её масштабирования и поддержки на этапе эксплуатации.
Подключайтесь! Будем транслировать не только на наш YouTubе, но и прямо здесь — в этот телеграм-канал.
👍7👏1
"Мощь ИИ в вашем ПК: генеративные модели на потребительском оборудовании" — лекция, с которой выступит СТО компании Raft Александр Константинов 16 октября в 12:00.
Вы узнаете, как разворачивать и использовать модели Llama 3.1 на видеокартах вроде RTX 4090 и получить преимущества ИИ прямо у себя дома или в офисе.
Подключайтесь и задавайте вопросы!
Вы узнаете, как разворачивать и использовать модели Llama 3.1 на видеокартах вроде RTX 4090 и получить преимущества ИИ прямо у себя дома или в офисе.
Подключайтесь и задавайте вопросы!
👍11
Perplexity представили внутренний поиск по знаниям для бизнес клиентов. Теперь пользователи смогут одновременно искать информацию как в файлах своей организации, так и в интернете.
Кроме того, компания запускает Spaces (не только для бизнеса) - ИИ хабы для совместной работы, которые можно настроить под конкретные нужды команды, будь то исследовательский проект, подготовка коммерческих предложений или создание учебных материалов.
Новые возможности:
Для корпоративных клиентов Perplexity обещает высокий уровень безопасности и конфиденциальности данных. В ближайшем будущем планируется добавить интеграцию с Crunchbase и FactSet.
Кроме того, компания запускает Spaces (не только для бизнеса) - ИИ хабы для совместной работы, которые можно настроить под конкретные нужды команды, будь то исследовательский проект, подготовка коммерческих предложений или создание учебных материалов.
Новые возможности:
- Загружать и хранить файлы (поддерживаются форматы pdf, txt, csv, xlsx, pptx, docx)
- Искать информацию в файлах и в интернете
- Выбирать предпочтительную модель ИИ
- Задавать собственные инструкции для получения нужных ответов
- Приглашать других пользователей для совместной работы
Для корпоративных клиентов Perplexity обещает высокий уровень безопасности и конфиденциальности данных. В ближайшем будущем планируется добавить интеграцию с Crunchbase и FactSet.
Perplexity AI
Perplexity is a free AI-powered answer engine that provides accurate, trusted, and real-time answers to any question.
👍7