Вышла новая модель от Anthropiс Claude 3.5 Sonnet, которая судя по представленным тестам превосходит GPT4o по многим параметрам. Нас впечатлили в первую очередь очень высокие (92%) результаты на бенчмарке по написанию кода HumanEval (это 169 задач на программирование с юнит тестами, модель пишет код, если юнит тест проходит, задание зачитывается как решенное).
Захотелось проверить. Скормил Claude 3.5 cвою задачу написать код, который засовывает JSONы в Google таблицу и сортирует. Писали о ней тут , а в этой статье приводил сам промпт. И… ничего фантастического не получилось. Код не запустился, модель накосячила с авторизацией для API и забыла импортировать библиотеку os, которой пользовалась. Попросил использовать другой метод авторизации – исправилась, приложение запустилось. Данные в таблицу записались, но сортировка работает не совсем корректно. За несколько запросов исправить Claude 3.5 это не смог. Т.е. в целом результат, конечно, очень достойный, но кажется у меня уже был результат лучше, Im-also-a-good-gpt2-chatbot написал на 99% работающий код.
Захотелось проверить. Скормил Claude 3.5 cвою задачу написать код, который засовывает JSONы в Google таблицу и сортирует. Писали о ней тут , а в этой статье приводил сам промпт. И… ничего фантастического не получилось. Код не запустился, модель накосячила с авторизацией для API и забыла импортировать библиотеку os, которой пользовалась. Попросил использовать другой метод авторизации – исправилась, приложение запустилось. Данные в таблицу записались, но сортировка работает не совсем корректно. За несколько запросов исправить Claude 3.5 это не смог. Т.е. в целом результат, конечно, очень достойный, но кажется у меня уже был результат лучше, Im-also-a-good-gpt2-chatbot написал на 99% работающий код.
👍9
Claude 3.5 принес интересную функцию Artifacts . Думаю, наших читателей заинтересует публикация Игоря Котенкова о его опыте генерации и встроенной проверки кода с svg картинками.
Forwarded from Сиолошная
This media is not supported in your browser
VIEW IN TELEGRAM
В продолжение темы Claude 3.5, вместе с появлением новой модели обновили и сайт, добавив экспериментальную функцию Artifacts (включается справа сверху в Feature Preview). Это позволяет модели запускать код и показывать SVG-картинки.
Вот тут Sholto Douglas попросил модель накидать прототип игры Runescape (3D MMORPG), и за пару итераций и уточнений получилось то, что вы можете видеть на видео. Клёво, что потестировать получается прямо в браузере, без необходимости сохранять файлы и потом открывать их отдельно руками.
Субъективно, на генерацию мини-игр работает лучше GPT-4/GPT-4-Turbo (с GPT-4o не наигрался, чтобы делать выводы). Мне наконец-то создало прототип настольной карточной игры, где нужно разыгрывать существ, выбирать, кто атакует (MTG-like, только без способностей на картах) — GPT-4o не могла нормально нарисовать поле битвы :(
Ещё пара демо:
— создание презентации с переключением слайдов
— создание интерактивной визуализации в стиле 3b1b
— создание игры для объяснения концепта opportunity cost
Модель можно опробовать бесплатно на claude.ai
Вот тут Sholto Douglas попросил модель накидать прототип игры Runescape (3D MMORPG), и за пару итераций и уточнений получилось то, что вы можете видеть на видео. Клёво, что потестировать получается прямо в браузере, без необходимости сохранять файлы и потом открывать их отдельно руками.
Субъективно, на генерацию мини-игр работает лучше GPT-4/GPT-4-Turbo (с GPT-4o не наигрался, чтобы делать выводы). Мне наконец-то создало прототип настольной карточной игры, где нужно разыгрывать существ, выбирать, кто атакует (MTG-like, только без способностей на картах) — GPT-4o не могла нормально нарисовать поле битвы :(
Ещё пара демо:
— создание презентации с переключением слайдов
— создание интерактивной визуализации в стиле 3b1b
— создание игры для объяснения концепта opportunity cost
Модель можно опробовать бесплатно на claude.ai
👍2
Обратите внимание, при работе с Claude , что если ваш промпт будет противоречить системному промпту Anthropic , то результат не будет достигнут. А системный промпт, запрещает многие типичные формулировки "ты эксперт в области..." . Приведу текущий системный промпт Claude:
https://pastebin.com/raw/Cc3a5c0c
https://pastebin.com/raw/Cc3a5c0c
Многих из читателей нашего канала интересуют русскоязычные LLM. Обращаю внимание на сообщество энтузиастов, где вы нередко сможете найти, что нужно:
мы команда энтузиастов, занимающихся созданием и развитием русифицированных моделей искусственного интеллекта. 💨 Наша цель - сделать последние достижения в области машинного обучения доступными и понятными для русскоязычного сообщества
мы команда энтузиастов, занимающихся созданием и развитием русифицированных моделей искусственного интеллекта. 💨 Наша цель - сделать последние достижения в области машинного обучения доступными и понятными для русскоязычного сообщества
"LLM не виноват, что у тебя много легаси", — считает Ахмад Боков, основатель BotCreators и наш подписчик. Ахмад прочитал лекцию на YouTube-канале AI4Dev и показал примеры проектов, реализованных через подход AI DEV. Обсудили, на каких проектах применим такой подход, а на каких пока лучше не тратить на него время.
Оставляем ссылку на наш подкаст для тех, кому удобнее слушать лекции, а не смотреть.
Оставляем ссылку на наш подкаст для тех, кому удобнее слушать лекции, а не смотреть.
👍6🔥1
Code Droid предназначен для выполнения задач по кодированию на основе инструкций на естественном языке. Для наших клиентов его основная функция — автоматизировать рутинные, утомительные задачи программирования. Общие LLMслучаи использования включают модернизацию кодовой базы, разработку функций, создание экспериментальной концепции и интеграцию зданий. Здесь мы описываем некоторые основные функции, которые мы разработали, чтобы обеспечить надежную работу в производственных средах.
https://www.factory.ai/news/code-droid-technical-report?utm_source=newsletter.theresanaiforthat.com&utm_medium=newsletter&utm_campaign=rewrite-anything-in-seconds
https://www.factory.ai/news/code-droid-technical-report?utm_source=newsletter.theresanaiforthat.com&utm_medium=newsletter&utm_campaign=rewrite-anything-in-seconds
www.factory.ai
Code Droid Technical Report
This technical report will give you a high-level overview of the Code Droid. We provide an analysis of it’s state-of-the-art performance on SWE-bench, where we achieve 19.27% on SWE-bench Full and 31.67% on SWE-bench Lite.
🔥3
Интересно прочитать комментарии от web-разработчиков, которые реально попробуют этот системный промпт для Sonnet 3.5
👍1
Директор центра разработки Artezio Виталий Зотов рассказал о том, как применять RAG.
В лекции:
🔵 обсуждаем принцип работы и применение RAG в приложениях;
🟠 смотрим на проблемы и ограничения, связанные с LLM и RAG;
🔵 изучаем варианты решения этих проблем, включая методы очистки и предобработки данных, их хранение и поиск;
🟠 разбираемся с популярными индексами векторных баз данных;
🔵 говорим о возможности улучшения качества поиска и ответов с помощью гибридного поиска, reranking и применения Cross-encoder моделей;
🟠 обсуждаем способы преобразования запросов для улучшения качества RAG.
💬 Если при просмотре лекции у вас возникнут вопросы, пишите их в комментариях к этому посту, чтобы Виталий ответил на них.
P.S. Благодарим всех, кто ставит лайки на YouTube-канале и подписан на наш подкаст. Это действительно помогает развивать AI4Dev!
В лекции:
💬 Если при просмотре лекции у вас возникнут вопросы, пишите их в комментариях к этому посту, чтобы Виталий ответил на них.
P.S. Благодарим всех, кто ставит лайки на YouTube-канале и подписан на наш подкаст. Это действительно помогает развивать AI4Dev!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤🔥1
Опробовали новый формат трансляции на YouTube-канале AI4Dev. Профессор Крылов и технический директор Notamedia Павел Кравчук дебатировали о том, когда стоит применять ИИ в разработке ПО. Обсудили, является использование ИИ в разработке временным трендом или новой ступенью эволюции ИТ-индустрии.
Оставляем ссылку на подкаст AI4Dev для тех, кому удобнее слушать наши трансляции. Если они вам нравятся, ставьте лайк — это помогает развивать AI4Dev!
Оставляем ссылку на подкаст AI4Dev для тех, кому удобнее слушать наши трансляции. Если они вам нравятся, ставьте лайк — это помогает развивать AI4Dev!
👍7
Многим разработчикам кода понравился Claude Engineer — это усовершенствованный интерактивный интерфейс командной строки (CLI), который использует возможности моделей Anthropic Claude 3 и Claude 3.5 для решения широкого спектра задач разработки программного обеспечения. Этот инструмент органично сочетает в себе возможности современных больших языковых моделей с практическими операциями с файловой системой, функциями веб-поиска, интеллектуальным анализом кода и возможностями выполнения.
https://github.com/Doriandarko/claude-engineer
https://github.com/Doriandarko/claude-engineer
GitHub
GitHub - Doriandarko/claude-engineer: Claude Engineer is an interactive command-line interface (CLI) that leverages the power of…
Claude Engineer is an interactive command-line interface (CLI) that leverages the power of Anthropic's Claude-3.5-Sonnet model to assist with software development tasks.This framework enabl...
И вот только что опубликовано как заменить довольно дорогую LLM Claude на новую сильно подешевевшую GPT 4o
mini.
mini.
Forwarded from Сергей Булаев AI 🤖
Media is too big
VIEW IN TELEGRAM
Как модифицировать Claude Engineer для переключения его на новую модель OpenAI gpt-4o-mini с помощью Claude Engineer.
Сергей Булаев AI 🤖 - об AI и не только
Сергей Булаев AI 🤖 - об AI и не только
Инструкция по тонкой настройке LLM с нуля
Если вы ищете ресурс для понимания процесса тонкой настройки инструкций в LLM, я хочу сообщить, что Глава 7 о тонкой настройке инструкций в LLM наконец-то появилась на веб-сайте Manning .
Это самая длинная глава в книге, в которой используется подход с нуля для реализации конвейера тонкой настройки инструкций. Сюда входит все: от форматирования входных данных до пакетирования с пользовательской функцией сортировки, маскирования токенов заполнения, самого цикла обучения и оценки качества ответа тонко настроенного LLM на пользовательском тестовом наборе.
(Упражнения включают изменение стилей подсказок, маскировку инструкций и добавление LoRA.) https://github.com/rasbt/LLMs-from-scratch
Если вы ищете ресурс для понимания процесса тонкой настройки инструкций в LLM, я хочу сообщить, что Глава 7 о тонкой настройке инструкций в LLM наконец-то появилась на веб-сайте Manning .
Это самая длинная глава в книге, в которой используется подход с нуля для реализации конвейера тонкой настройки инструкций. Сюда входит все: от форматирования входных данных до пакетирования с пользовательской функцией сортировки, маскирования токенов заполнения, самого цикла обучения и оценки качества ответа тонко настроенного LLM на пользовательском тестовом наборе.
(Упражнения включают изменение стилей подсказок, маскировку инструкций и добавление LoRA.) https://github.com/rasbt/LLMs-from-scratch
GitHub
GitHub - rasbt/LLMs-from-scratch: Implement a ChatGPT-like LLM in PyTorch from scratch, step by step
Implement a ChatGPT-like LLM in PyTorch from scratch, step by step - rasbt/LLMs-from-scratch
👍5
YouTube
Использование ИИ в разработке ПО: возможности и ограничения
24 июля в 12:00 по МСК Анна Авдюшина, преподаватель факультета «Программная инженерия и компьютерная техника» и инженер центра «Сильный искусственный интеллект в промышленности» университета ИТМО, рассказала о возможностях и ограничениях, которые привносит…
Сейчас на YouTube-канале AI4Dev инженер центра «Сильный ИИ в промышленности» университета ИТМО Анна Авдюшина рассказывает о возможностях и ограничениях, которые привносит использование ИИ в разработку ПО.
В лекции обсудим:
🔸 как автоматизировать сбор и анализ данных с помощью ИИ и лучше понять потребности пользователей;
▪️ как ИИ автоматизирует классификацию документации и оптимизацию распределения ресурсов;
🔸 как ИИ способствует автоматизации тестирования, сокращает время разработки и уменьшает количество ошибок;
▪️ может ли ИИ анализировать исторические данные для автоматизации процессов, уменьшая человеческое участие и количество ошибок;
🔸 плюсы и минусы интеграции ИИ в жизненный цикл разработки.
Присоединяйтесь к нам и задавайте вопросы в чате — ответим сразу после лекции в прямом эфире!
В лекции обсудим:
Присоединяйтесь к нам и задавайте вопросы в чате — ответим сразу после лекции в прямом эфире!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
А вы не хотите запустить полномасштабную LLM 408 B коэффициентов на сетке домашних компьютеров?
😁1