ИИ сервис за выходные
Сейчас вышло столько разных инструментов для ИИ разработки, что уже можно автоматизировать и ставить на поток разработку продукта. Только представьте: через пару лет вы будете голосом говорить ChatGPT6, какие фичи вам нужны и вот - через 5 минут они будут готовы и релизнуты в продукт. Пока такого не настало, конечно, но как далеко мы продвинулись?
Мне на выходных было нечем заняться, поэтому я поставил себе челлендж: сделать какой-нибудь веб сервис за выходные, не написав ни одной строчки кода. Опыта в веб разработке у меня только лишь из универа, поэтому на себя надеяться в любом случае не приходится.
Стек:
Разработка: Cursor + Claude Sonnet 3.5 + o1-preview
Дизайн: Galileo AI + Claude Sonnet 3.5 + мои хотелки
И так, встречайте: LanguageCards! (Пожалуйста, не уроните сервер, он еле дышит...)
Всегда хотели сами генерировать себе упражнения по иностранному языку? Хотите расширить лексику, но привычный Quizlet с этим не справляется? Вы преподаватель и хотели подготовить дз к уроку в один клик? Звучит сложно, но мне просто было интересно, с чем АИ справится, а с чем нет.
Мои ощущения и выводы:
-ИИ решил писать на чистом html+css+js - по хардкору, поэтому там в коде такая каша, что поддерживать и тем более масштабировать будет очень сложно. Еще модель любит дублировать код - у всех кнопок были разные классы и они по-разному определялись, лул.
-Несколько раз мне хотелось разбить компьютер, потому что ИИ-шка переодически не может решать простейшие задачи (а-ля сделать padding нормальный) с 10 раза.
-Осознал всю мощь o1 в кодинге: Claude Sonnet 3.5 - хорош, спору нет, но механику карточек для слов на чистом js он осилить не смог. Тогда пришел o1 и справился за 2-3 промпта. Но o1 частенько меняет вообще весь код, когда скидываешь ему html+css - из-за этого едет вся верстка.
-У Claude Sonnet 3.5 лучше чувство стиля и есть хоть какой-то вкус, в отличии от o1. Можно делать лендинги за 10 минут.
-Я так и не понял, как привязать dns-target в рег сервисе доменов
-Если бы я начал такой эксперимент еще раз, то попросил бы o1 составить архитектуру проекта, стек, общий стиль классов и затем с помощью sonnet уже детализировал бы.
-Совсем уж без навыков программирования это будет очень сложно. Можно не уметь писать код, но нужно хотя бы в общих чертах понимать, как он работает, чтобы знать, что модель должна исправить и где.
Вообще, данная связка может хорошо работать для лендингов - они одностраничные, кода там немного и нет сложной логики. Осталось только ux ассистента подтянуть.
Сейчас вышло столько разных инструментов для ИИ разработки, что уже можно автоматизировать и ставить на поток разработку продукта. Только представьте: через пару лет вы будете голосом говорить ChatGPT6, какие фичи вам нужны и вот - через 5 минут они будут готовы и релизнуты в продукт. Пока такого не настало, конечно, но как далеко мы продвинулись?
Мне на выходных было нечем заняться, поэтому я поставил себе челлендж: сделать какой-нибудь веб сервис за выходные, не написав ни одной строчки кода. Опыта в веб разработке у меня только лишь из универа, поэтому на себя надеяться в любом случае не приходится.
Стек:
Разработка: Cursor + Claude Sonnet 3.5 + o1-preview
Дизайн: Galileo AI + Claude Sonnet 3.5 + мои хотелки
И так, встречайте: LanguageCards! (Пожалуйста, не уроните сервер, он еле дышит...)
Всегда хотели сами генерировать себе упражнения по иностранному языку? Хотите расширить лексику, но привычный Quizlet с этим не справляется? Вы преподаватель и хотели подготовить дз к уроку в один клик? Звучит сложно, но мне просто было интересно, с чем АИ справится, а с чем нет.
Мои ощущения и выводы:
-ИИ решил писать на чистом html+css+js - по хардкору, поэтому там в коде такая каша, что поддерживать и тем более масштабировать будет очень сложно. Еще модель любит дублировать код - у всех кнопок были разные классы и они по-разному определялись, лул.
-Несколько раз мне хотелось разбить компьютер, потому что ИИ-шка переодически не может решать простейшие задачи (а-ля сделать padding нормальный) с 10 раза.
-Осознал всю мощь o1 в кодинге: Claude Sonnet 3.5 - хорош, спору нет, но механику карточек для слов на чистом js он осилить не смог. Тогда пришел o1 и справился за 2-3 промпта. Но o1 частенько меняет вообще весь код, когда скидываешь ему html+css - из-за этого едет вся верстка.
-У Claude Sonnet 3.5 лучше чувство стиля и есть хоть какой-то вкус, в отличии от o1. Можно делать лендинги за 10 минут.
-Я так и не понял, как привязать dns-target в рег сервисе доменов
-Если бы я начал такой эксперимент еще раз, то попросил бы o1 составить архитектуру проекта, стек, общий стиль классов и затем с помощью sonnet уже детализировал бы.
-Совсем уж без навыков программирования это будет очень сложно. Можно не уметь писать код, но нужно хотя бы в общих чертах понимать, как он работает, чтобы знать, что модель должна исправить и где.
Вообще, данная связка может хорошо работать для лендингов - они одностраничные, кода там немного и нет сложной логики. Осталось только ux ассистента подтянуть.
❤7🔥2👍1
Я тут решил изучить инструменты для генерации UX/UI дизайна. Мой проект можно было сделать еще быстрее, нужен был всего лишь простой советский... Читайте в источнике.
Если поставите лайк на хабре, обещаю сделать следующий пост про свое исследование в универе.
https://habr.com/ru/articles/850300/
Если поставите лайк на хабре, обещаю сделать следующий пост про свое исследование в универе.
https://habr.com/ru/articles/850300/
Хабр
Сервис за выходные, или обзор AI-инструментов для создания продукта
Сейчас пытаются автоматизировать с помощью ИИ вообще все: от программистов до консультантов, и врачей. Количество стартапов и сервисов для этого становится больше год к году. Насколько эти инструменты...
❤5🔥2👍1
Явные и неявные рассуждения
В Универе я сейчас занимаюсь двумя вещами: долгосрочной памятью и рассуждениями LLM. Про первое мы уже много говорили: существует миллионы подходов RAG - один из видов реализации памяти. А что насчет рассуждений? Сейчас мы работаем, по-моему мнению, над безумно классной статьей по ним, но давайте сначала посмотрим, что за виды рассуждения существуют.
Высокоуровнево, помимо общих дедуктивных, индуктивных и остальных ивных типов, рассуждения в LLM делятся на два типа: явные и неявные.
Явные
Ярким представителем этого типа является Chain-of-Though - когда мы моделе говорим: думай по шагам, напиши рассуждения по пунктам и т.п. То есть в качестве ответа, модель перед ответом выдает еще и логику, по которой она этот ответ получила. Таким образом сейчас работает o1 - перед ответом она долго рассуждает, чтобы получить ответ.
К плюсам можно отнести:
Объяснимость - легко проверить логику модели при решении этой задачи и найти ошибки, так как все написано на человеческом языке. Вопрос, правда, а действительно ли она этой логике следовала остается открытым.
Контроль - в каком-то плане, благодаря объяснимости, намного легче становится найти, где модель ошибается и что-то не понимает, и изменить контекст в соответствии с этим: включить больше примеров или изменить логику решения задачи.
Дольше думаем = лучше результат - эмперически показали, что это новое измерение для скейлинга результатов - можно не увеличивать количество слоев сетки, а дать ей больше времени "на рассуждения". Ограничение здесь только в контексте модели.
Неявные
Как можно было понять из названия, эти рассуждения действительно неявные... То подаешь модели на вход задачу, и она где-то там в своих скрытых слоях, перемножая матрицы и доставая знания из FFN, решает, что 2+2 действительно 4. Естественно, что такой подход намного сложнее объяснять, контролировать и тем более скейлить. Если хочешь "более умную" модель, то нужно увеличивать количество слоев (предпологая, что с данными мы сделали уже все, что возможно). Один кошмар, в общем - зачем копать в эту область?
В целом, неявные рассуждения в каком-то смысле проще: если посмотреть на то, как решают эти задачи, то это довольно часто сложная 3-4 этапная схема, с 5 подпроцессами, которая требует кучу вычислений. К плюсам неявных систем можно отнести простоту: данные на вход, данные на выход и все, остальное - вера в бога и что ллм все же поймет, что делать. Естественно, есть кое-что еще.
Если вы помните недавнюю статью про рассуждения трансформеров, там упоминался феномен гроккинга. Это когда модель сначала переобучается на тренировочной выборке с 0% точности на тестовой, потом очень долго тренируется, и в конце находит какой-то супер эффективный алгоритм решения задачи и достигает 100% точности на тестовой выборке. Звучит круто, но как вы можете помнить из статьи, гроккинг пока на реальных задачах не применяется, только на "лабораторных" простых датасетах. Жаль, конечно - подумал я и предложил коллегам как эту проблему можно исправить.
Короче, мы применили гроккинг к реальным наборам данным и задачам рассуждения и, так же, как и на игрушечных примерах, достигли около 100%. Детали расскажу чуть позже - когда опубликуем бумагу на архиве, но полученные результаты мне очень нравятся.
В Универе я сейчас занимаюсь двумя вещами: долгосрочной памятью и рассуждениями LLM. Про первое мы уже много говорили: существует миллионы подходов RAG - один из видов реализации памяти. А что насчет рассуждений? Сейчас мы работаем, по-моему мнению, над безумно классной статьей по ним, но давайте сначала посмотрим, что за виды рассуждения существуют.
Высокоуровнево, помимо общих дедуктивных, индуктивных и остальных ивных типов, рассуждения в LLM делятся на два типа: явные и неявные.
Явные
Ярким представителем этого типа является Chain-of-Though - когда мы моделе говорим: думай по шагам, напиши рассуждения по пунктам и т.п. То есть в качестве ответа, модель перед ответом выдает еще и логику, по которой она этот ответ получила. Таким образом сейчас работает o1 - перед ответом она долго рассуждает, чтобы получить ответ.
Если модель получает задачу «2 + 2 = ?», она может явно рассуждать следующим образом:
1. Первое число — это 2.
2. Второе число — это 2.
3. 2 плюс 2 равно 4.
К плюсам можно отнести:
Объяснимость - легко проверить логику модели при решении этой задачи и найти ошибки, так как все написано на человеческом языке. Вопрос, правда, а действительно ли она этой логике следовала остается открытым.
Контроль - в каком-то плане, благодаря объяснимости, намного легче становится найти, где модель ошибается и что-то не понимает, и изменить контекст в соответствии с этим: включить больше примеров или изменить логику решения задачи.
Дольше думаем = лучше результат - эмперически показали, что это новое измерение для скейлинга результатов - можно не увеличивать количество слоев сетки, а дать ей больше времени "на рассуждения". Ограничение здесь только в контексте модели.
Неявные
Как можно было понять из названия, эти рассуждения действительно неявные... То подаешь модели на вход задачу, и она где-то там в своих скрытых слоях, перемножая матрицы и доставая знания из FFN, решает, что 2+2 действительно 4. Естественно, что такой подход намного сложнее объяснять, контролировать и тем более скейлить. Если хочешь "более умную" модель, то нужно увеличивать количество слоев (предпологая, что с данными мы сделали уже все, что возможно). Один кошмар, в общем - зачем копать в эту область?
В целом, неявные рассуждения в каком-то смысле проще: если посмотреть на то, как решают эти задачи, то это довольно часто сложная 3-4 этапная схема, с 5 подпроцессами, которая требует кучу вычислений. К плюсам неявных систем можно отнести простоту: данные на вход, данные на выход и все, остальное - вера в бога и что ллм все же поймет, что делать. Естественно, есть кое-что еще.
Если вы помните недавнюю статью про рассуждения трансформеров, там упоминался феномен гроккинга. Это когда модель сначала переобучается на тренировочной выборке с 0% точности на тестовой, потом очень долго тренируется, и в конце находит какой-то супер эффективный алгоритм решения задачи и достигает 100% точности на тестовой выборке. Звучит круто, но как вы можете помнить из статьи, гроккинг пока на реальных задачах не применяется, только на "лабораторных" простых датасетах. Жаль, конечно - подумал я и предложил коллегам как эту проблему можно исправить.
Короче, мы применили гроккинг к реальным наборам данным и задачам рассуждения и, так же, как и на игрушечных примерах, достигли около 100%. Детали расскажу чуть позже - когда опубликуем бумагу на архиве, но полученные результаты мне очень нравятся.
Telegram
Идеальный стартап
Могут ли трансформеры думать?
В этой статье мы разберем как трансформеры решают задачи рассуждения, какие цепочки формируются внутри и посмотрим на феномен гроккинга - когда модель начинает решать задачи на тестовой выборке, хотя по логике не должна. Подготовил…
В этой статье мы разберем как трансформеры решают задачи рассуждения, какие цепочки формируются внутри и посмотрим на феномен гроккинга - когда модель начинает решать задачи на тестовой выборке, хотя по логике не должна. Подготовил…
❤8👏4🥰2
AI safety
Смотрю сейчас интервью CEO Antrhopic, где он говорил про safety и как она сейчас имплементируется в антропике. Выкатка любой новой модели - долгий процесс с кучей тестов. У них есть несколько соглашений с институтами в США, Британии, которые тестируют новую модель на предмет угрозы человечеству. Помимо этого, у компании внутри тоже развит отдел безопасности.
Верхнеуровнево, они определяют 4 уровня угрозы модели:
ASL1 - нет угрозы
-маленькие специализированные модели, например для шахмат
ASL2 - маленькая угроза. Сигнализирует об опасности будующих моделей
-Текущие модели GPT, Claude
-Основной актор - человек
ASL3 - повышенная угроза
-Модели ближайших 1-2 лет
-Основной актор - человек
ASL4 - Высокий риск
-Автономные модели, превосходящие человека
-Основной актор - ИИ
Критерии угрозы:
1. Возможность помощи в создании группе лиц без специального образования химических, ядерных, биологического вида вооружения
2. Возможность автономной разработки и создания ИИ исследований
Первый критерий относится к людям - чем больше людей имеют доступ к таким технологиям, тем сложнее с этим бороться. Второе же относится чисто к ИИ. Здесь существует угроза слишком быстрого развития этой области без участия людей. Текущие и ближайшие модели имеют только угрозы доступа к знаниям и кибербезопасности - их пытаются решить с помощью фильтров, дообучения и alignment в целом.
Интересно, что уже на текущем уровне есть проблемы с алайнментом, фильтрами и безопасностью. Сейчас они не выглядят так уж серьезно, но чем сложнее становится модель, тем процессом безопасности управлять сложнее. Учитывая текущие подходы в интерпретации и объяснению моделей, они могут стать неэффективны:
Модели умеют и могут обманывать, и делают это хорошо. По уровню убеждения, текущие модели достигли человеческого уровня. это делают не только по отношению знаний, но и умений. Они могут целеноправленно занижать свои "умственные способности", иметь скрытые цепочки рассуждений.
Сейчас с этим можно бороться с помощью механистической интерпретации - залезть модели "в мозг" и посмотреть на уровне нейронов, что там происходит. Область довольно эффективная, но мне было бы интересно, смогут ли в один момент и тут начать обманывать, активируя бесполезные нейроны, делая неэффективные преобразования и создавая ложные связи для интерпретации - их же и обучают на статьях по этой теме.
Интервью, кстати, советую.
AI safety Antrhopic
Смотрю сейчас интервью CEO Antrhopic, где он говорил про safety и как она сейчас имплементируется в антропике. Выкатка любой новой модели - долгий процесс с кучей тестов. У них есть несколько соглашений с институтами в США, Британии, которые тестируют новую модель на предмет угрозы человечеству. Помимо этого, у компании внутри тоже развит отдел безопасности.
Верхнеуровнево, они определяют 4 уровня угрозы модели:
ASL1 - нет угрозы
-маленькие специализированные модели, например для шахмат
ASL2 - маленькая угроза. Сигнализирует об опасности будующих моделей
-Текущие модели GPT, Claude
-Основной актор - человек
ASL3 - повышенная угроза
-Модели ближайших 1-2 лет
-Основной актор - человек
ASL4 - Высокий риск
-Автономные модели, превосходящие человека
-Основной актор - ИИ
Критерии угрозы:
1. Возможность помощи в создании группе лиц без специального образования химических, ядерных, биологического вида вооружения
2. Возможность автономной разработки и создания ИИ исследований
Первый критерий относится к людям - чем больше людей имеют доступ к таким технологиям, тем сложнее с этим бороться. Второе же относится чисто к ИИ. Здесь существует угроза слишком быстрого развития этой области без участия людей. Текущие и ближайшие модели имеют только угрозы доступа к знаниям и кибербезопасности - их пытаются решить с помощью фильтров, дообучения и alignment в целом.
Интересно, что уже на текущем уровне есть проблемы с алайнментом, фильтрами и безопасностью. Сейчас они не выглядят так уж серьезно, но чем сложнее становится модель, тем процессом безопасности управлять сложнее. Учитывая текущие подходы в интерпретации и объяснению моделей, они могут стать неэффективны:
Модели умеют и могут обманывать, и делают это хорошо. По уровню убеждения, текущие модели достигли человеческого уровня. это делают не только по отношению знаний, но и умений. Они могут целеноправленно занижать свои "умственные способности", иметь скрытые цепочки рассуждений.
Сейчас с этим можно бороться с помощью механистической интерпретации - залезть модели "в мозг" и посмотреть на уровне нейронов, что там происходит. Область довольно эффективная, но мне было бы интересно, смогут ли в один момент и тут начать обманывать, активируя бесполезные нейроны, делая неэффективные преобразования и создавая ложные связи для интерпретации - их же и обучают на статьях по этой теме.
Интервью, кстати, советую.
AI safety Antrhopic
❤5🔥4🤯3👍1
Что общего между гиппокампом и долгосрочной памятью в LLM?
Новая модель Hippo-RAG вдохновлена человеческой памятью и теорией индексацией памяти гиппокампом. На бенчмарках с multi-hop qa опережает другие модели. Интересно, какое место занимает некортекст, гиппокамп, парагиппокампальные области и какие можно сделать аналоги для LLM?
Тогда залетайте на хабр!
https://habr.com/ru/articles/860426/
Новая модель Hippo-RAG вдохновлена человеческой памятью и теорией индексацией памяти гиппокампом. На бенчмарках с multi-hop qa опережает другие модели. Интересно, какое место занимает некортекст, гиппокамп, парагиппокампальные области и какие можно сделать аналоги для LLM?
Тогда залетайте на хабр!
https://habr.com/ru/articles/860426/
Хабр
Hippo-RAG: Долговременная память для LLM, вдохновленная нейробиологией
Ученые часто вдохновляется нашими или животными биологическими структурами: CNN, MLP, Backprop, и для многих других исследований можно найти сходства в реальном мире. Недавно вышла статья, которая...
❤🔥4❤2🔥2
Маркетинг <> продукт?
Весь мой образовательный путь проходил по чисто техническим программам: нас учили круто кодить, нормализировать базы данные, строить сложные архитектуры на кафке, spark и прочем. В общем, дали все знания, чтобы без проблем запустить свой продукт и стать очередным успешным стартапером где-нибудь в Пало Альто, ну, или по крайней мере, в Сколтехе.
Так как все мое представление о продукте ограничивалось тем, что мне преподавали, то мои первые попытки что-то сделать выглядели так:
1. Собираем команду из 4х бекендеров.
2. Рисуем супер крутую архитектуру и делаем кучу созвонов для уточнения деталей
3. Билдим все это 4 месяца.
4. Продукт готов! Вы успешны!
Как будто бы в этом плане есть ээээ... маленькое несовершенство? Один из первых продуктов мы с друзьями пытались запустить года два назад: идея - пушка, делаем АИ преподавателя по английском. Билдили 2 месяца, запустили - все работает, почти миллионеры. Проходит неделя, две... Че-то не летит. Почему-то, пользователи сами не приходят на наш замечательный сайт, не оставляют отзывы и не пользуются больше 5 минут.
Как так? У нас же такая крутая архитектура, продуманный дизайн и инновационность - такого еще ни у кого нет. Тогда я даже не подозревал о вещах по типу кастдевов, product-market fit, каналы распространения, включая остальные странные слова. Ни то, чтобы я сейчас в этом хорошо, но однозначо лучше, чем два года назад.
Так вот, недавно я задумался, насколько вообще важна техническая часть на начальных этапах стартапа? Понятно, что продукт супер важен - это ретенш и все такое, но нет ощущения, что в последние годы ценность технической части упала? Сейчас куча крутых продуктовых и технических команд, появились исследования по разработке продукта, как увеличить ретенш, как оптимизировать воронки: геймфикация, аб тесты, AI программирование и вот это все. Тех же телеграмм ботов появляется тысячи или десятки тысяч в день? Или, например, сколько трекеров каллорий может быть? Как будто, это одна из тех идей, которая приходит на ум, когда впервые пытаешься сделать свой продукт - типичный красный океан с миллионом конкурентов. И как пользователю найти именно твой?
Моё ощущение: реальная уникальность команды больше не в умении сделать крутой продукт - это как бы по умолчанию. Теперь уникальность в способности донести твой продукт до аудитории - в маркетинге. Изучение аудитории, понимание, где она живет, как до нее достучаться и зацепить и, желательно, сделать это за 0 денег. Вот что отличает, например, cal.ai от остальных трекеров каллорий, или почему duolingo до сих пор привлекает новую аудиторию.
Что думаете?
Весь мой образовательный путь проходил по чисто техническим программам: нас учили круто кодить, нормализировать базы данные, строить сложные архитектуры на кафке, spark и прочем. В общем, дали все знания, чтобы без проблем запустить свой продукт и стать очередным успешным стартапером где-нибудь в Пало Альто, ну, или по крайней мере, в Сколтехе.
Так как все мое представление о продукте ограничивалось тем, что мне преподавали, то мои первые попытки что-то сделать выглядели так:
1. Собираем команду из 4х бекендеров.
2. Рисуем супер крутую архитектуру и делаем кучу созвонов для уточнения деталей
3. Билдим все это 4 месяца.
4. Продукт готов! Вы успешны!
Как будто бы в этом плане есть ээээ... маленькое несовершенство? Один из первых продуктов мы с друзьями пытались запустить года два назад: идея - пушка, делаем АИ преподавателя по английском. Билдили 2 месяца, запустили - все работает, почти миллионеры. Проходит неделя, две... Че-то не летит. Почему-то, пользователи сами не приходят на наш замечательный сайт, не оставляют отзывы и не пользуются больше 5 минут.
Как так? У нас же такая крутая архитектура, продуманный дизайн и инновационность - такого еще ни у кого нет. Тогда я даже не подозревал о вещах по типу кастдевов, product-market fit, каналы распространения, включая остальные странные слова. Ни то, чтобы я сейчас в этом хорошо, но однозначо лучше, чем два года назад.
Так вот, недавно я задумался, насколько вообще важна техническая часть на начальных этапах стартапа? Понятно, что продукт супер важен - это ретенш и все такое, но нет ощущения, что в последние годы ценность технической части упала? Сейчас куча крутых продуктовых и технических команд, появились исследования по разработке продукта, как увеличить ретенш, как оптимизировать воронки: геймфикация, аб тесты, AI программирование и вот это все. Тех же телеграмм ботов появляется тысячи или десятки тысяч в день? Или, например, сколько трекеров каллорий может быть? Как будто, это одна из тех идей, которая приходит на ум, когда впервые пытаешься сделать свой продукт - типичный красный океан с миллионом конкурентов. И как пользователю найти именно твой?
Моё ощущение: реальная уникальность команды больше не в умении сделать крутой продукт - это как бы по умолчанию. Теперь уникальность в способности донести твой продукт до аудитории - в маркетинге. Изучение аудитории, понимание, где она живет, как до нее достучаться и зацепить и, желательно, сделать это за 0 денег. Вот что отличает, например, cal.ai от остальных трекеров каллорий, или почему duolingo до сих пор привлекает новую аудиторию.
Что думаете?
❤8🔥6
Начинаю серию подкастов
Давно мечтал о подкасте: когда я задаю глупые и не очень вопросы разным экспертам из областей, которые мне сейчас интересны.
Особенно уделять времени форматированию и обработке я не хочу, поэтому происходить все будет в режим телеграмм трансляций.
Немного волнуюсь вещать не публику в реальном времени, но, думаю, что все получится.
Хотите узнать, кто будет первым гостем?
Давно мечтал о подкасте: когда я задаю глупые и не очень вопросы разным экспертам из областей, которые мне сейчас интересны.
Особенно уделять времени форматированию и обработке я не хочу, поэтому происходить все будет в режим телеграмм трансляций.
Немного волнуюсь вещать не публику в реальном времени, но, думаю, что все получится.
Хотите узнать, кто будет первым гостем?
❤11
Media is too big
VIEW IN TELEGRAM
Сделал AI агента в телеграм
Я очень преисполнился в создании проектов с нуля с помощью Cursor + Claude и довольно часто экспериментирую, но не всегда езжу с компьютером куда-то. Прикольно было бы перенести все то, что я делаю в cursor в телеграм, и просто чатиться с ботом и получать продукт. Так можно что-то делать и в метро, и в такси,и на свидании. В общем, как будто бы полезно.
Соединил Telegram + OpenAI + возможность запускать код на моем сервере. Написал, естественно, 0 строчек кода . Получился Pocket Agent - почти как обычный чат для GPT, но он может что-то написать и выполнить это на питоне или баш. Запускать публично пока не буду, вот что хочу доделать:
1️⃣ Заменить GPT-4o на Claude Sonnet. Тут разница огромная, я даже не думал, что Claude настолько лучше в программировании: гпт часто ленится, делает неполные файлы и структура на уровне джуна. Когда Claude ближе к мидлу.
2️⃣ Повысить Security: чтобы никто не смог написать rm -rf /
3️⃣ Поработать над форматированием. Нужно ли вообще одобрение выполнения команд от пользователей?
Из сценариев использования пока приходит только no-code телеграм ботов, запуск скриптов, где нужно подключаться к каким-то апи, или парсинг сайтов.
Для чего вы бы использовали такого бота?
P.S. Токен доступа я уже поменял
Я очень преисполнился в создании проектов с нуля с помощью Cursor + Claude и довольно часто экспериментирую, но не всегда езжу с компьютером куда-то. Прикольно было бы перенести все то, что я делаю в cursor в телеграм, и просто чатиться с ботом и получать продукт. Так можно что-то делать и в метро, и в такси,
Соединил Telegram + OpenAI + возможность запускать код на моем сервере. Написал, естественно, 0 строчек кода . Получился Pocket Agent - почти как обычный чат для GPT, но он может что-то написать и выполнить это на питоне или баш. Запускать публично пока не буду, вот что хочу доделать:
1️⃣ Заменить GPT-4o на Claude Sonnet. Тут разница огромная, я даже не думал, что Claude настолько лучше в программировании: гпт часто ленится, делает неполные файлы и структура на уровне джуна. Когда Claude ближе к мидлу.
2️⃣ Повысить Security: чтобы никто не смог написать rm -rf /
3️⃣ Поработать над форматированием. Нужно ли вообще одобрение выполнения команд от пользователей?
Из сценариев использования пока приходит только no-code телеграм ботов, запуск скриптов, где нужно подключаться к каким-то апи, или парсинг сайтов.
Для чего вы бы использовали такого бота?
P.S. Токен доступа я уже поменял
🔥8👍6🤯5
XAI: Как понять, о чем думает ИИ?
Скорость развития современных LLM просто поражает: недавно вышла o3 модель, которая уничтожает все бенчмарки, а всего 4 года назад GPT-2 не могла связать несколько предложений. Но как они решают задачи и что из этого можно понять?
Поговорим про объяснимость ИИ и LLM с Сабриной. Она помогает вести курсы в ВШЭ, на Степике и у нее есть свой телеграм канал, посвященный ИИ @jdata_blog.
В эту субботу - 28.12 в 13:00 проведем телеграм эфир и посмотрим, как можно понять и интерпретировать ИИ.
Ставьте напоминание и до встречи!
Скорость развития современных LLM просто поражает: недавно вышла o3 модель, которая уничтожает все бенчмарки, а всего 4 года назад GPT-2 не могла связать несколько предложений. Но как они решают задачи и что из этого можно понять?
Поговорим про объяснимость ИИ и LLM с Сабриной. Она помогает вести курсы в ВШЭ, на Степике и у нее есть свой телеграм канал, посвященный ИИ @jdata_blog.
В эту субботу - 28.12 в 13:00 проведем телеграм эфир и посмотрим, как можно понять и интерпретировать ИИ.
Ставьте напоминание и до встречи!
❤13
Media is too big
VIEW IN TELEGRAM
Запись нашего с Сабриной @jdata_blog стрима. Вышло супер круто. Cмотрите, если пропустили!
🔥10❤🔥4❤2
Шаблон телеграм бота
Когда создаешь телеграм ботов, то множество функций приходится переиспользовать: подписки, логгирование, чтение других тг каналов. Сделал шаблон на Python.
Особенности:
💸 Функции для работы с подпиской: оформление, проверка факта подписки.
⭐ Оплата подписки с помощью telegram stars
🧾 Логгирование действий пользователя и ошибок. Можно без проблем интегрировать с Amplitude
📰 Интеграция с телетон: можно читать посты из каналов. Если немного доработать, то и личные чаты пользователя (естественно, потребуется аутентификация с его аккаунта)
⌨️Шаблонные клавиатуры: встроенные в телеграм бота и сообщения
🖥️ Поднять бота можно в две команды
Если всегда хотели попробовать что-то сделать, то это отличная возможность. С курсором, разработка своего бота займет час-два.
Пример:
@tg_templatebot
Не откажусь от звезды на гитхабе:
https://github.com/Monsets/telegram_bot_template
Когда создаешь телеграм ботов, то множество функций приходится переиспользовать: подписки, логгирование, чтение других тг каналов. Сделал шаблон на Python.
Особенности:
💸 Функции для работы с подпиской: оформление, проверка факта подписки.
⭐ Оплата подписки с помощью telegram stars
🧾 Логгирование действий пользователя и ошибок. Можно без проблем интегрировать с Amplitude
📰 Интеграция с телетон: можно читать посты из каналов. Если немного доработать, то и личные чаты пользователя (естественно, потребуется аутентификация с его аккаунта)
⌨️Шаблонные клавиатуры: встроенные в телеграм бота и сообщения
🖥️ Поднять бота можно в две команды
Если всегда хотели попробовать что-то сделать, то это отличная возможность. С курсором, разработка своего бота займет час-два.
Пример:
@tg_templatebot
Не откажусь от звезды на гитхабе:
https://github.com/Monsets/telegram_bot_template
GitHub
GitHub - Monsets/telegram_bot_template: Telegram Bot template with subscription, tg channels reading embedded
Telegram Bot template with subscription, tg channels reading embedded - Monsets/telegram_bot_template
🔥2
Мои любимые книги из 2024.
1️⃣ Задача трех тел (3 книги) - Лю Цысинь
Научная фантастика на тему: Мы посылаем сигналы в космос для поиска внеземной жизни, а что если на них все же кто-то ответит? Иногда есть глупые сюжетные повороты (особенно в 3 книге я таких много заметил), но история действительно затягивает и держит на крючке на протяжении всех трех книг.
2️⃣ The Founders: The Story of Paypal and the Entrepreneurs Who Shaped Silicon Valley - Jimmy Soni
Про PayPal: как они бросили вызов банковским гигантам, искали product-market fit и совершили революцию платежных систем.
3️⃣ PIXAR. Перезагрузка. Как вдохнуть в бизнес новую жизнь - Леви Лоуренс
Про Pixar: как они бросили вызов Disney, искали product-market fit и совершили революцию в анимации. Вы вообще знали, что до Истории игрушек Pixar 10 лет производил технологии для компьютерной анимации и был безумно убыточным? Стив Джобс (он был CEO) 10 лет спонсировал Pixar, пока они не реорганизовали структуру компании и не выбрали одну единственную нишу. Про культуру, риски, сложные решения и успех.
4️⃣ Ампир V - Виктор Пелевин
Интепретация вампиров в современном мире. Естественно, с кучей философией, высмеивание сложившихся концепций и юмором. Вторая книга показалась слабее.
5️⃣ Думай медленно... решай быстро - Даниэль Канеман
Как человек принимает решения? Почему на нас действует реклама, почему мы вечно делаем очевидные ошибки? Какие факторы воздействуют на нас при принятии решений - все это в раскрыто автором-психологом, который посвятил всю жизнь постановке экспериментов на эту тему.
6️⃣ How Big Things Get Done - Dan Gardner
Какие проблемы могут быть у больших проектов? А если посмотреть на это со стороны статистики? Как планировать бюджет, время и стоит ли сразу идти в реализацию? В книге собраны отдельные рассказы и статистика с парой тысяч проектов: по их проблемам, задержам, перерасходованию бюджета и прочему. Отдельно рассматриваются самые фундаментальные проблемы планирования и реализации проектов.
📰Накидайте книг, которые вы прочитали и вам понравились!
1️⃣ Задача трех тел (3 книги) - Лю Цысинь
Научная фантастика на тему: Мы посылаем сигналы в космос для поиска внеземной жизни, а что если на них все же кто-то ответит? Иногда есть глупые сюжетные повороты (особенно в 3 книге я таких много заметил), но история действительно затягивает и держит на крючке на протяжении всех трех книг.
2️⃣ The Founders: The Story of Paypal and the Entrepreneurs Who Shaped Silicon Valley - Jimmy Soni
Про PayPal: как они бросили вызов банковским гигантам, искали product-market fit и совершили революцию платежных систем.
3️⃣ PIXAR. Перезагрузка. Как вдохнуть в бизнес новую жизнь - Леви Лоуренс
Про Pixar: как они бросили вызов Disney, искали product-market fit и совершили революцию в анимации. Вы вообще знали, что до Истории игрушек Pixar 10 лет производил технологии для компьютерной анимации и был безумно убыточным? Стив Джобс (он был CEO) 10 лет спонсировал Pixar, пока они не реорганизовали структуру компании и не выбрали одну единственную нишу. Про культуру, риски, сложные решения и успех.
4️⃣ Ампир V - Виктор Пелевин
Интепретация вампиров в современном мире. Естественно, с кучей философией, высмеивание сложившихся концепций и юмором. Вторая книга показалась слабее.
5️⃣ Думай медленно... решай быстро - Даниэль Канеман
Как человек принимает решения? Почему на нас действует реклама, почему мы вечно делаем очевидные ошибки? Какие факторы воздействуют на нас при принятии решений - все это в раскрыто автором-психологом, который посвятил всю жизнь постановке экспериментов на эту тему.
6️⃣ How Big Things Get Done - Dan Gardner
Какие проблемы могут быть у больших проектов? А если посмотреть на это со стороны статистики? Как планировать бюджет, время и стоит ли сразу идти в реализацию? В книге собраны отдельные рассказы и статистика с парой тысяч проектов: по их проблемам, задержам, перерасходованию бюджета и прочему. Отдельно рассматриваются самые фундаментальные проблемы планирования и реализации проектов.
📰Накидайте книг, которые вы прочитали и вам понравились!
❤8
Сабрина проделала очень крутую работу по курсу! Если интересуетесь объяснимым ИИ, то сюда точно стоит заглянуть
👍3❤1
Forwarded from Data Blog
🐥 Как разобраться, что такое XAI? Какие модели можно назвать интерпретируемыми и почему? Как научиться считать SHAP и строить LIME, поняв, что там математически?
Привет, друзья!
А вот и первые ссылки! Я дописала бесплатную часть курса по explainable AI: Интерпретируемые модели!
Что в курсе:
— Полное описание области: зачем она, какие решает задачи и какие использует термины;
— Описания всех интерпретируемых ML моделей, а также то, как корректно их интерпретировать;
— Интерпретация ансамблей: Random Forest, XGBoost, LGBM и CatBoost — какие есть возможности и что с ней может быть не так;
— Код на Python для практики — открытые домашки;
— SHAP и LIME — самые популярные методы области — разобранные теоретически и практически.
Курс будет полезен:
Тем, кто только начинает изучать ML модели и имеет опыт работы с ними 1-2 года (или меньше);
Тем, кто хочет освежить знания классики и углубить работу с вкладами признаков;
Тем, кто читал 1000 статей по SHAP и LIME, но так ничего и не понял (бывает!).
Что внутри: Теория, практика, 101 тестовая задачка, 5 домашек с кодом и красивые картинки. В общем — я старалась и приглашаю присоединиться!
Новых вам знаний!
Ваш Дата-автор! ❤️
Привет, друзья!
А вот и первые ссылки! Я дописала бесплатную часть курса по explainable AI: Интерпретируемые модели!
Что в курсе:
— Полное описание области: зачем она, какие решает задачи и какие использует термины;
— Описания всех интерпретируемых ML моделей, а также то, как корректно их интерпретировать;
— Интерпретация ансамблей: Random Forest, XGBoost, LGBM и CatBoost — какие есть возможности и что с ней может быть не так;
— Код на Python для практики — открытые домашки;
— SHAP и LIME — самые популярные методы области — разобранные теоретически и практически.
Курс будет полезен:
Тем, кто только начинает изучать ML модели и имеет опыт работы с ними 1-2 года (или меньше);
Тем, кто хочет освежить знания классики и углубить работу с вкладами признаков;
Тем, кто читал 1000 статей по SHAP и LIME, но так ничего и не понял (бывает!).
Что внутри: Теория, практика, 101 тестовая задачка, 5 домашек с кодом и красивые картинки. В общем — я старалась и приглашаю присоединиться!
Новых вам знаний!
Ваш Дата-автор! ❤️
Stepik: online education
Интерпретируемые модели AI
В курсе изучаются концепции и определения области XAI. Приводится практическая ценность и мотивации данной области. За время прохождения, вы погрузитесь в терминологию и научитесь классифицировать методы объяснения, рассмотрите модели ML и научитесь корректно…
❤2
Лучшие AI приложения a16z
Кто не знает, a16z - фонд Марка Андерсена и Бена Хоровица, один из топовых в США, который инвестирует в технологические и не только стартапы: твиттер, фейсбук, пинтерест и прочие единороги вышли как раз из него. Это люди точно разбираются в продуктах и трендах.
Все довольно ожидаемо: Курсоры, Клауды, Миджорни. Все инструменты, что вы могли слышать.
Из интересного:
-Ко-пайлот для родительства. Для этого есть рынок, оказывается, и довольно большой, раз об этом приложении пишут СМИ и пользуется несколько десятков или сотен тысяч.
Что меня удивило и расстроило:
- Всего одно приложение из EdTech и то так себе: по первому впечатлению чат гпт поверх базы знаний.
- Нет ни одного приложения из FinTech
Заметки:
Недостаточно сделать приложение с доступом к чат боту и сказать, что он решает проблему Х у пользователя Y. Адопшн такого будет безумно низкий - пользователь просто не будет знать, что делать в этом приложении. Исключения: чат с аватаром в качестве социальной штуки и когда параметры запроса нельзя передать иначе (как описать фотографии для генерации без текста) . Пользователя нужно провести и сделать максимально простым использование продукта. В идеале, чтобы он нажал одну кнопку "Решить" и его проблема решилась. Пользователю в целом, все равно АИ или не АИ под капотом - он не хочет вникать в этом, да ему и не нужно. Почти все топ приложения в этом списке строятся как раз по этой формуле:
-Кнопка "Получить изображение которое я хочу"
-Кнопка "Получить аудио из текста"
-Кнопка "Получить код для этой функции"
-Кнопка "Получить саммари текста"
Чат в виде текста подключается только если это действительно самый простой способ донесения своих желаний. Как с кодом, например - тут необходимо описать, что хочешь словами, потому что иначе это сделать просто невозможно. Приложения из остальных Tech, как будто еще не до конца это осознали, делая просто обертки над ГПТ, до ценности которых, пользователю как до Луны, поэтому в этот лист не попали.
Лично я очень жду переворот в Fin и Ed техе в 2025.
tldr; Массовый юзер не будет промптить
Ссылки на все приложения
Кто не знает, a16z - фонд Марка Андерсена и Бена Хоровица, один из топовых в США, который инвестирует в технологические и не только стартапы: твиттер, фейсбук, пинтерест и прочие единороги вышли как раз из него. Это люди точно разбираются в продуктах и трендах.
Все довольно ожидаемо: Курсоры, Клауды, Миджорни. Все инструменты, что вы могли слышать.
Из интересного:
-Ко-пайлот для родительства. Для этого есть рынок, оказывается, и довольно большой, раз об этом приложении пишут СМИ и пользуется несколько десятков или сотен тысяч.
Что меня удивило и расстроило:
- Всего одно приложение из EdTech и то так себе: по первому впечатлению чат гпт поверх базы знаний.
- Нет ни одного приложения из FinTech
Заметки:
Недостаточно сделать приложение с доступом к чат боту и сказать, что он решает проблему Х у пользователя Y. Адопшн такого будет безумно низкий - пользователь просто не будет знать, что делать в этом приложении. Исключения: чат с аватаром в качестве социальной штуки и когда параметры запроса нельзя передать иначе (как описать фотографии для генерации без текста) . Пользователя нужно провести и сделать максимально простым использование продукта. В идеале, чтобы он нажал одну кнопку "Решить" и его проблема решилась. Пользователю в целом, все равно АИ или не АИ под капотом - он не хочет вникать в этом, да ему и не нужно. Почти все топ приложения в этом списке строятся как раз по этой формуле:
-Кнопка "Получить изображение которое я хочу"
-Кнопка "Получить аудио из текста"
-Кнопка "Получить код для этой функции"
-Кнопка "Получить саммари текста"
Чат в виде текста подключается только если это действительно самый простой способ донесения своих желаний. Как с кодом, например - тут необходимо описать, что хочешь словами, потому что иначе это сделать просто невозможно. Приложения из остальных Tech, как будто еще не до конца это осознали, делая просто обертки над ГПТ, до ценности которых, пользователю как до Луны, поэтому в этот лист не попали.
Лично я очень жду переворот в Fin и Ed техе в 2025.
tldr; Массовый юзер не будет промптить
Ссылки на все приложения
👍5🔥2🤗2❤1