В продолжение про NAO и другие инструменты вайб кодинга такие как Cursor, Copilot и тд. Их становится всё больше, хайпа вокруг них тоже немало. Что с этим делать и как к этому относиться?
1. AI инструменты для программистов явление обоюдоострое, чрезвычайно полезная там где они оттестированы и вредны там где нет. Из личного опыта, Copilot прекрасно обогащает CSV файлы по промпту. Например, грузишь CSV файл с перечнем названий стран на итальянском и просишь создать и заполнить колонку с их кодом из справочника ISO3166-1. А вот, например, запрос к Claude 3.5 (не самая мощная модель, да) на то чтобы получить рекомендации по оптимизации кода, в 2-х из 5-ти рекомендаций он выдал лютые глюки с несуществующими функциями.
2. Тем не менее в руках senior и middle разработчиков это сильное подспорье, способное значительно облегчить работу в очень многих задачах. Причём чем опытнее разработчик тем эффективнее будет инструмент. Правда не все разработчики старой школы готовы ИИ агентами пользоваться.
3. И наоборот, я бы поостерёгся брать на работу джуниоров-вайбкодеров потому что "важное не ударить, а знать где ударить". Последствия могут быть плохопредсказуемыми и лично я придерживаюсь мнения что не набив шишек на реальной работе вайбкодить нельзя категорически.
4. При этом применение LLM для работы с данными значительно сложнее. Почему? Потому что открытого кода и кусочков кода в сети безграничное количество, многие не будут опасаться отправлять свой код в облачные LLM, если только это не код каких-то уникальных алгоритмов, а это уже редкость. А вот данные могут содержать персональные данные, коммерческую тайну и ещё много чего. Использовать для анализа корп данных облачные LLM будет плохой практикой.
5. AI инструменты для разработчиков пытаются сделать повседневными. Что это значит? Максимальное упрощение пользовательского пути до ИИ агента. Примеры Cursor, NAO и ряда других AI IDE это про это. Такие инструменты создают ситуацию когда ты можешь отправить свой код или данные в любой момент в LLM, как говорится, одно неосторожное движение и... Для создателей инструментов это то о чём многие мечтали, наконец-то можно делать IDE зависящее от облачных сервисов и разработчики будут соглашаться авторизовываться и работать в облаке. IDE по подписке в общем. Для разработчиков будет развилка, открытые бесплатные IDE вроде VSCodium или продвинутые зависящие от облачных ИИ агентов.
#thoughts #ai
1. AI инструменты для программистов явление обоюдоострое, чрезвычайно полезная там где они оттестированы и вредны там где нет. Из личного опыта, Copilot прекрасно обогащает CSV файлы по промпту. Например, грузишь CSV файл с перечнем названий стран на итальянском и просишь создать и заполнить колонку с их кодом из справочника ISO3166-1. А вот, например, запрос к Claude 3.5 (не самая мощная модель, да) на то чтобы получить рекомендации по оптимизации кода, в 2-х из 5-ти рекомендаций он выдал лютые глюки с несуществующими функциями.
2. Тем не менее в руках senior и middle разработчиков это сильное подспорье, способное значительно облегчить работу в очень многих задачах. Причём чем опытнее разработчик тем эффективнее будет инструмент. Правда не все разработчики старой школы готовы ИИ агентами пользоваться.
3. И наоборот, я бы поостерёгся брать на работу джуниоров-вайбкодеров потому что "важное не ударить, а знать где ударить". Последствия могут быть плохопредсказуемыми и лично я придерживаюсь мнения что не набив шишек на реальной работе вайбкодить нельзя категорически.
4. При этом применение LLM для работы с данными значительно сложнее. Почему? Потому что открытого кода и кусочков кода в сети безграничное количество, многие не будут опасаться отправлять свой код в облачные LLM, если только это не код каких-то уникальных алгоритмов, а это уже редкость. А вот данные могут содержать персональные данные, коммерческую тайну и ещё много чего. Использовать для анализа корп данных облачные LLM будет плохой практикой.
5. AI инструменты для разработчиков пытаются сделать повседневными. Что это значит? Максимальное упрощение пользовательского пути до ИИ агента. Примеры Cursor, NAO и ряда других AI IDE это про это. Такие инструменты создают ситуацию когда ты можешь отправить свой код или данные в любой момент в LLM, как говорится, одно неосторожное движение и... Для создателей инструментов это то о чём многие мечтали, наконец-то можно делать IDE зависящее от облачных сервисов и разработчики будут соглашаться авторизовываться и работать в облаке. IDE по подписке в общем. Для разработчиков будет развилка, открытые бесплатные IDE вроде VSCodium или продвинутые зависящие от облачных ИИ агентов.
#thoughts #ai
✍5⚡1❤1👍1💯1
Небольшой, но интересный набор данных о 500 суперкомпьютерах для ИИ [1] в виде Excel файла и набора интерактивных визуализацией, а также статьи Trends in AI Supercomputers [2] от апреля 2025 года.
Ключевые инсайты из этих материалов:
1. Счётная (компьютерная) производительность суперкомпьютеров для ИИ удваивается каждые 9 месяцев
2. ИИ суперкомпьютеры чрезвычайно дороги. Стоимость приобретения ведущих суперкомпьютеров удваивается каждые 13 месяцев
3. Аналогично требования к электроэнергии. Каждый 13 месяцев запрос на энергию удваивается
4. Безусловно доминирование частного сектора в суперкомпьютерах. От 40% в 2019 году до 80% в 2025. Это одно из фундаментальных изменений.
5. 75% всех мощностей в США и 15% в Китае. Все остальные в оставшихся 10%.
Ссылки:
[1] https://epoch.ai/data/ai-supercomputers
[2] https://arxiv.org/abs/2504.16026
#ai #datacenters #readings #insights
Ключевые инсайты из этих материалов:
1. Счётная (компьютерная) производительность суперкомпьютеров для ИИ удваивается каждые 9 месяцев
2. ИИ суперкомпьютеры чрезвычайно дороги. Стоимость приобретения ведущих суперкомпьютеров удваивается каждые 13 месяцев
3. Аналогично требования к электроэнергии. Каждый 13 месяцев запрос на энергию удваивается
4. Безусловно доминирование частного сектора в суперкомпьютерах. От 40% в 2019 году до 80% в 2025. Это одно из фундаментальных изменений.
5. 75% всех мощностей в США и 15% в Китае. Все остальные в оставшихся 10%.
Ссылки:
[1] https://epoch.ai/data/ai-supercomputers
[2] https://arxiv.org/abs/2504.16026
#ai #datacenters #readings #insights
👍8❤4
Cloudflare теперь по умолчанию блокируют все AI боты о чем и пишут в официальном пресс-релизе [1], а в мае они предлагали механизм для аутентификации ИИ ботов [2] и, похоже, будут активно его продвигать как стандарт.
Шаг, в каком-то смысле ожидаемый, хочется надеяться что их теперь не купит какая-нибудь-крупная-AI-компания потому что выступая в роли CDN Cloudflare естественным образом, хотя бы и временно, но пропускает через свою инфраструктуру огромные объёмы контента. Рано или поздно это поймут те кому этот контент так нужен.
Но это если и произойдёт, то не сегодня, а пока Cloudflare явно играют на стороне своих клиентов, владельцев и создателей контента.
Ссылки:
[1] https://www.cloudflare.com/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
[2] https://blog.cloudflare.com/web-bot-auth/
#ai #aibots
Шаг, в каком-то смысле ожидаемый, хочется надеяться что их теперь не купит какая-нибудь-крупная-AI-компания потому что выступая в роли CDN Cloudflare естественным образом, хотя бы и временно, но пропускает через свою инфраструктуру огромные объёмы контента. Рано или поздно это поймут те кому этот контент так нужен.
Но это если и произойдёт, то не сегодня, а пока Cloudflare явно играют на стороне своих клиентов, владельцев и создателей контента.
Ссылки:
[1] https://www.cloudflare.com/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
[2] https://blog.cloudflare.com/web-bot-auth/
#ai #aibots
Cloudflare
Cloudflare Just Changed How AI Crawlers Scrape the Internet-at-Large; Permission-Based Approach Makes Way for A New Business Model…
Empowers leading publishers and AI companies to stop the scraping and use of original content without permission
❤17🔥12👍7🤔2😢1
Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
✍5❤1👍1
К вопросу о полноте/неполноте ответов ИИ помощников да и поисковых систем сложно не вспомнить про "серый веб".
Можно вспомнить "белый веб" - это материалы доступные для индексации онлайн и "тёмный веб" (dark web) - это то целенаправленно сокрытые материалы и данные, доступные только через Tor или иные пиринговые сети.
В свою очередь "серый веб" - это то что находится в сети, но по множеству, в основном технических причин, недоступно для индексации. Тут и пэйволы, и контент доступный только через POST запросы и/или Ajax, и сайты блокирующие все боты капчей и геоблокировками, и то что публикуется в неиндексируемых форматах.
Это тот случай когда обычно немашиночитаемые PDF файлы, вполне себе превращаются поисковиками и ИИ краулерами в пригодные для обработки документы, а вот если эти PDF файлы положить внутрь ZIP архивов они сразу же выпадают из поискового индекса. А уж если положить их во что-то ещё менее популярное, в 7z, RAR или что-то ещё более экзотическое, то контент автоматически не попадает в поисковый индекс.
В копилку вредных советов, для тех кто не хочет помогать ИИ помощникам можно добавить следующий
Публикуй заархивированные документы.🤷♀️
Это гораздо более действенно чем публиковать сканы документов, как это делают в некоторых государственных ресурсах в некоторых развивающихся (и не очень то развивающихся) странах.
Я вижу это особенно наглядно когда задаю облачным LLM вопросы о бюджетах некоторых стран, регионов и городов. Видно как они собирают инфу на основе публикаций в СМИ или на страницах сайтов госорганов хотя эти же данные, гораздо более верные и полные лежат в определённых разделах, определённых сайтов, но в виде ZIP архивов с файлами Excel, PDF или HTML. Или же когда данные доступны в виде интерактивных навигаторов скачать из которых можно только вручную, экспортом и через POST запросы которые обычные и AI краулеры не сделают или сделают только в режиме сфокусированного сбора.
То есть если кто-то соберет данные краулером целенаправленно, сделает их удобными для обработки и положит куда-то откуда их потом в ИИ импортируют, то данные для ИИ агента будут доступны. Но это будет неоперативно и требует сфокусированных целенаправленных усилий.
Явление пока что не массовое, но как один из способов борьбы с ИИ краулерами весьма вероятный.
P.S. Делюсь вредным советом потому что он сложнее в реализации чем просто блокировать всё и вся.
#thoughts #ai
Можно вспомнить "белый веб" - это материалы доступные для индексации онлайн и "тёмный веб" (dark web) - это то целенаправленно сокрытые материалы и данные, доступные только через Tor или иные пиринговые сети.
В свою очередь "серый веб" - это то что находится в сети, но по множеству, в основном технических причин, недоступно для индексации. Тут и пэйволы, и контент доступный только через POST запросы и/или Ajax, и сайты блокирующие все боты капчей и геоблокировками, и то что публикуется в неиндексируемых форматах.
Это тот случай когда обычно немашиночитаемые PDF файлы, вполне себе превращаются поисковиками и ИИ краулерами в пригодные для обработки документы, а вот если эти PDF файлы положить внутрь ZIP архивов они сразу же выпадают из поискового индекса. А уж если положить их во что-то ещё менее популярное, в 7z, RAR или что-то ещё более экзотическое, то контент автоматически не попадает в поисковый индекс.
В копилку вредных советов, для тех кто не хочет помогать ИИ помощникам можно добавить следующий
Публикуй заархивированные документы.
Это гораздо более действенно чем публиковать сканы документов, как это делают в некоторых государственных ресурсах в некоторых развивающихся (и не очень то развивающихся) странах.
Я вижу это особенно наглядно когда задаю облачным LLM вопросы о бюджетах некоторых стран, регионов и городов. Видно как они собирают инфу на основе публикаций в СМИ или на страницах сайтов госорганов хотя эти же данные, гораздо более верные и полные лежат в определённых разделах, определённых сайтов, но в виде ZIP архивов с файлами Excel, PDF или HTML. Или же когда данные доступны в виде интерактивных навигаторов скачать из которых можно только вручную, экспортом и через POST запросы которые обычные и AI краулеры не сделают или сделают только в режиме сфокусированного сбора.
То есть если кто-то соберет данные краулером целенаправленно, сделает их удобными для обработки и положит куда-то откуда их потом в ИИ импортируют, то данные для ИИ агента будут доступны. Но это будет неоперативно и требует сфокусированных целенаправленных усилий.
Явление пока что не массовое, но как один из способов борьбы с ИИ краулерами весьма вероятный.
P.S. Делюсь вредным советом потому что он сложнее в реализации чем просто блокировать всё и вся.
#thoughts #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍6✍4
The real winners of the AI Race полезное чтение о реальных бенефициарах почти всех стартапов в области генеративного ИИ таких как OpenAI, Anthropic, Mistral и других. Авторы провели анализ 12 таких стартапов и совершенно неожиданно весьма ожидаемо обнаружили что главные бенефициары - это Big Tech.
- 11 из 12 стартапов зависят от чипов NVIDIA
- 10 из 12 стартапов основаны на инфраструктуре Amazon, Microsoft или Google
- 9 из 12 стартапов продают доступ к своим моделям через платформы Amazon, Microsoft или Google
Для тех кто знает как эта индустрия устроена ничего нового в этом нет, разве что чуть более систематизировано изложено.
Контекст же в том что национальные правительства и ЕС пытаются создавать национальных чемпионов в области AI чтобы снизить зависимость от международных игроков и, даже, говорят о цифровом суверенитете, а по факту почти все проинвестированные в ЕС стартапы в этой области находятся в зависимости от Big Tech из США и звучат призывы к анализу всей цепочки ценности при инвестициях и выдаче грантов таким стартапам.
#ai #investments #tech #genai
- 11 из 12 стартапов зависят от чипов NVIDIA
- 10 из 12 стартапов основаны на инфраструктуре Amazon, Microsoft или Google
- 9 из 12 стартапов продают доступ к своим моделям через платформы Amazon, Microsoft или Google
Для тех кто знает как эта индустрия устроена ничего нового в этом нет, разве что чуть более систематизировано изложено.
Контекст же в том что национальные правительства и ЕС пытаются создавать национальных чемпионов в области AI чтобы снизить зависимость от международных игроков и, даже, говорят о цифровом суверенитете, а по факту почти все проинвестированные в ЕС стартапы в этой области находятся в зависимости от Big Tech из США и звучат призывы к анализу всей цепочки ценности при инвестициях и выдаче грантов таким стартапам.
#ai #investments #tech #genai
SOMO
The real winners of the AI Race - SOMO
Microsoft, Amazon, Google and Nvidia The so-called “AI Race” is dominating business and policy discussions on technology. With companies and states competing to conquer the developing genAI market, start-ups like OpenAI(opens in new window) , Anthropic,…
✍5👍3🤣2
Полезные ссылки про данные, технологии и не только:
Открытый код
- The Data Engineering Handbook большая подборка ресурсов для дата инженеров: блоги, подкасты, книги, компании, ключевые продукты и тд. Полезно будет, в первую очередь, начинающим дата инженерам для быстрого погружения в профессию
- RustFS высокопроизводительная альтернатива Minio, для создания облачных хранилищ файлов доступом по S3 протоколу. Написан на языке Rust, лицензия Apache 2.0, декларируют производительность вдвое выше чем у Minio.
- STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking - исследовательский проект (оттого и такое длинное странное название) по генерации статей в стиле Википедии на заданную тему. Можно попробовать его на практике на storm.genie.stanford.edu.
- Harper бесплатный и открытый продукт для проверки грамматической проверки для английского языка. Ключевое - это то что не требует подключения к внешнему сервису, можно развернуть свой language server и проверки делать оффлайн. Полезно для всех кто озабочен приватностью или просто не хочет платить за сервисы вроде Grammarly.
- Easytier открытый код и сервис для быстрого развертывания децентрализованных сетей VPN. Прямой конкурент и альтернатива Tailscale. Сделан в Китае, распространяется под лицензией LGPL. Главное не путать с теми VPN что используются для обхода цензуры, этот сделан именно в классическом понимании VPN - для организации частной защищённой сети со своими устройствами.
- Bitchat новая децентрализованная альтернатива облачным мессенжерам. Была представлена Джеком Дорси, основателем Twitter'а, работает через Bluetooth и напоминает похожие проекты вроде Firechat (не знаю жив ли он ещё).
ИИ
- Half of Managers Use AI To Determine Who Gets Promoted and Fired опрос от сервиса Resume Builder об использовании ИИ менеджерами для оценки сотрудников и других задач. Если кратко, то используют большинство, многие уже всегда работают с ИИ, вплоть до принятия решений о повышении или увольнении сотрудника на основе оценки ИИ помощника
- RAPIDS Adds GPU Polars Streaming, a Unified GNN API, and Zero-Code ML Speedups NVIDIA продолжают развивать Polars и другие инструменты с открытым кодом для выполнения задач по обработке данных в GPU. Это и про открытый код и про применение Polars вместо Pandas для большей части научных тетрадок
Разное
- Apyhub очередной сервис каталогизации API, честно говоря непонятно зачем нужный. В этом рынке я знаю всего два продукта обретшие успех. Это OpenRouter для ИИ и RapidAPI как маркетплейс для API. Рынок устроен так что посредники ценны только если они приносят много реальных пользователей. К примеру, если Яндекс делает API маркетплейс - это сработает, а в остальных случаях почти наверняка нет.
- The One Trillion Row challenge with Apache Impala тест Apache Impala, базы с открытым кодом, на 1 триллионе строк. Я, честно говоря, был уверен что Apache Impala уже мертвый продукт, а там ещё какая-то жизнь происходит.
- Yet another ZIP trick автор покопался в спецификации ZIP файлов и поманипулировал метаданными внутри так что некоторые парсеры ZIP файлов видят одно содержимое, а другие другое. Ждем волны вирусов прячущихся внутри ZIP'ов (шутка).
#opensource #ai #api #rdbms
Открытый код
- The Data Engineering Handbook большая подборка ресурсов для дата инженеров: блоги, подкасты, книги, компании, ключевые продукты и тд. Полезно будет, в первую очередь, начинающим дата инженерам для быстрого погружения в профессию
- RustFS высокопроизводительная альтернатива Minio, для создания облачных хранилищ файлов доступом по S3 протоколу. Написан на языке Rust, лицензия Apache 2.0, декларируют производительность вдвое выше чем у Minio.
- STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking - исследовательский проект (оттого и такое длинное странное название) по генерации статей в стиле Википедии на заданную тему. Можно попробовать его на практике на storm.genie.stanford.edu.
- Harper бесплатный и открытый продукт для проверки грамматической проверки для английского языка. Ключевое - это то что не требует подключения к внешнему сервису, можно развернуть свой language server и проверки делать оффлайн. Полезно для всех кто озабочен приватностью или просто не хочет платить за сервисы вроде Grammarly.
- Easytier открытый код и сервис для быстрого развертывания децентрализованных сетей VPN. Прямой конкурент и альтернатива Tailscale. Сделан в Китае, распространяется под лицензией LGPL. Главное не путать с теми VPN что используются для обхода цензуры, этот сделан именно в классическом понимании VPN - для организации частной защищённой сети со своими устройствами.
- Bitchat новая децентрализованная альтернатива облачным мессенжерам. Была представлена Джеком Дорси, основателем Twitter'а, работает через Bluetooth и напоминает похожие проекты вроде Firechat (не знаю жив ли он ещё).
ИИ
- Half of Managers Use AI To Determine Who Gets Promoted and Fired опрос от сервиса Resume Builder об использовании ИИ менеджерами для оценки сотрудников и других задач. Если кратко, то используют большинство, многие уже всегда работают с ИИ, вплоть до принятия решений о повышении или увольнении сотрудника на основе оценки ИИ помощника
- RAPIDS Adds GPU Polars Streaming, a Unified GNN API, and Zero-Code ML Speedups NVIDIA продолжают развивать Polars и другие инструменты с открытым кодом для выполнения задач по обработке данных в GPU. Это и про открытый код и про применение Polars вместо Pandas для большей части научных тетрадок
Разное
- Apyhub очередной сервис каталогизации API, честно говоря непонятно зачем нужный. В этом рынке я знаю всего два продукта обретшие успех. Это OpenRouter для ИИ и RapidAPI как маркетплейс для API. Рынок устроен так что посредники ценны только если они приносят много реальных пользователей. К примеру, если Яндекс делает API маркетплейс - это сработает, а в остальных случаях почти наверняка нет.
- The One Trillion Row challenge with Apache Impala тест Apache Impala, базы с открытым кодом, на 1 триллионе строк. Я, честно говоря, был уверен что Apache Impala уже мертвый продукт, а там ещё какая-то жизнь происходит.
- Yet another ZIP trick автор покопался в спецификации ZIP файлов и поманипулировал метаданными внутри так что некоторые парсеры ZIP файлов видят одно содержимое, а другие другое. Ждем волны вирусов прячущихся внутри ZIP'ов (шутка).
#opensource #ai #api #rdbms
👍6✍3❤3😱1
Читаю хвалебные отзывы о Perplexity Comet, новом браузере со встроенным ИИ и о грядущем браузере от OpenAI и, честно говоря, это хорошая новость с тем что в рынке поиска и браузеров, наконец-то, появилась конкуренция. Что ещё важнее и интереснее в том почему выбирают нео-поисковики на базе ИИ и браузеры альтернативные Google Chrome - это отсутствие рекламы.
Фактически облачные ИИ агенты вне рынка AdTech, при поиске через OpenAI или Perplexity ты платишь за этот поиск явно (деньгами), а не неявно (рекламой).
Учитывая то как медленно но верно деградировал классический поиск, от минимальной рекламы, до выдачи отравленной SEO до невозможности, то мне нравится этот новый мир, даже при всех недостатках, глюках и искажениях ИИ агентов.
Не то чтобы он будет светлее, но хотя бы в нём будет больше выбора.
#thoughts #ai #search
Фактически облачные ИИ агенты вне рынка AdTech, при поиске через OpenAI или Perplexity ты платишь за этот поиск явно (деньгами), а не неявно (рекламой).
Учитывая то как медленно но верно деградировал классический поиск, от минимальной рекламы, до выдачи отравленной SEO до невозможности, то мне нравится этот новый мир, даже при всех недостатках, глюках и искажениях ИИ агентов.
Не то чтобы он будет светлее, но хотя бы в нём будет больше выбора.
#thoughts #ai #search
👍30🔥3
Для некоторых задач уникальный по функциональности инструмент manus.im китайский облачный ИИ агент помогающий в практических исследовательских задачах, создаёт код и структурированное описание по запросу. Он оказался очень хорош в задачах которые у меня возникают время от времени - поиску недокументированного API. Этот тип задач я регулярно задаю разным ИИ агентам и Manus справляется пока что лучше всех. Неидеально, но очень неплохо, с меньшим числом глюков из-за проверки собранных результатов.
На скриншоте пример задачи с поиском недокументированного API на Arab Development Portal (www.arabdevelopmentportal.com), сайте агрегаторе официальной статистики арабских стран.
#opendata #ai #llm
На скриншоте пример задачи с поиском недокументированного API на Arab Development Portal (www.arabdevelopmentportal.com), сайте агрегаторе официальной статистики арабских стран.
#opendata #ai #llm
👍8🔥7🙏1
Новый инструмент Vanna для Text-to-SQL операций. Под MIT лицензией, обучается на данных, а потом позволяет делать SQL запросы текстовым промптом. Поддерживает множество облачных и локальных векторных хранилищ, больших языковых моделей и баз данных.
Выглядит интересным со всех сторон: лицензия, возможности и тд.
До идеала нехватает ещё поддержки синтаксиса NoSQL (Elasticserch, MongoDB и др.)
Надо пробовать на практике.
#opensource #ai #dataengineering #datatools #dataanalytics
Выглядит интересным со всех сторон: лицензия, возможности и тд.
До идеала нехватает ещё поддержки синтаксиса NoSQL (Elasticserch, MongoDB и др.)
Надо пробовать на практике.
#opensource #ai #dataengineering #datatools #dataanalytics
👍4❤1
По опыту использования множества LLM'ок для работы с данными могу сказать что есть важный компонент работы который сейчас в них отсутствует - это использование прокси/VPN для доступа к некоторым ресурсам. По умолчанию LLM в режиме поиска обращаются к ресурсам с адресов относящихся к крупным облачным провайдерам вроде AWS/Azure/GCP. В результате при попытке анализировать материалы которые имеют региональную блокировку они не срабатывают. Я это наблюдаю на многих ресурсах относящихся к России, Китаю, Вьетнаму и ряду других стран. Попытки анализировать веб-сайты, например, анализа ПО на которых они созданы или поиска недокументированных API, срабатывают не всегда.
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
Это вполне реальное ограничение которое сейчас обходится указанием ИИ агенту использовать прокси для обхода и некоторые агенты умеют найти нужное бесплатное прокси или надо создать/приобрести прокси сервер для обхода ограничений.
Геоблокировки - это серьёзный вызов для подобной аналитической работы с помощью ИИ агентов, нужны решения которые помогали бы их обойти.
#thoughts #dateno #ai
💯11⚡1👍1
Ivan Begtin
pinned a photo
База официальных коннекторов для Claude доступна от Anthropic [1]. Интересно, в какой момент владельцы больших облачных языковых моделей начнут взимать плату за подключением к ним сервисов? Или их бизнес модель будет исключительно через взимание платы за запросы к LLM ?
Ссылки:
[1] https://www.anthropic.com/news/connectors-directory
#ai #claude
Ссылки:
[1] https://www.anthropic.com/news/connectors-directory
#ai #claude
✍2
Знаете ли Вы что... существует спецификация /llms.txt в виде сайта [1] с документацией. Спецификация - это что-то вроде карты сайта (sitemap) совмещенного с подробной документацией, но отформатированное в Markdown и приспособленное для упрощённого поглощения с помощью LLM.
Мне казалось что очень хотеть чтобы LLM съел твой контент - это странное желание, но для кого-то, видимо важное, и десятки сайтов спецификацию поддерживают [2], например, такой файл доступен у Sourcegraph [3] и у Bitcoin.com [4] и у LMStudio [5]
В большинстве случаев это документация к продуктам, иногда весьма и весьма детальная.
В отличие от MCP вокруг это спецификации хайп не наблюдается, но знать о ней стоит всем кто документацию к своим продуктам создаёт.
Ссылки:
[1] https://llmstxt.org/
[2] https://llmstxt.site/
[3] https://sourcegraph.com/docs/llms.txt
[4] https://www.bitcoin.com/llms.txt
[5] https://lmstudio.ai/llms.txt
#opensource #standards #ai
Мне казалось что очень хотеть чтобы LLM съел твой контент - это странное желание, но для кого-то, видимо важное, и десятки сайтов спецификацию поддерживают [2], например, такой файл доступен у Sourcegraph [3] и у Bitcoin.com [4] и у LMStudio [5]
В большинстве случаев это документация к продуктам, иногда весьма и весьма детальная.
В отличие от MCP вокруг это спецификации хайп не наблюдается, но знать о ней стоит всем кто документацию к своим продуктам создаёт.
Ссылки:
[1] https://llmstxt.org/
[2] https://llmstxt.site/
[3] https://sourcegraph.com/docs/llms.txt
[4] https://www.bitcoin.com/llms.txt
[5] https://lmstudio.ai/llms.txt
#opensource #standards #ai
👍7
На фоне очередных и ожидаемых ограничений в РФ на работу WhatsApp, внедрения Нацмессенжера, штрафов за VPN и постоянно обсуждаемых каких-то новых реестров мне много что есть сказать. Много-много есть что сказать, но но я поберегу слова для художественных текстов, а не публицистики. Да и из событийного, не устаю повторять, что про данные мне куда интереснее, чем про всё остальное. За исключением тем для будущих антиутопических фантастических рассказа
Поэтому в качестве оффтопа и в качестве ментального упражнения, давайте представим будущее Россия 2050. Достаточно близкое чтобы многие дожили, недостаточно близкое чтобы говорить со 100% уверенностью
Чтобы можно предсказать в виде государственных информационных систем, новых реестров, новых запретов и ограничений?
Мои предсказания:
- реестр недружественных культурных образов (всяческие там герои Марвел, Гарри Поттера и др. ). Автоматическое цензурирование и недопуск книг к публикации, фильмов к прокату и тд. Развитие рынка автоадаптации произведений под локальный рынок РФ.
- тотальное регулирование ИИ. Требования к локализации, требования к полной прослеживаемости обучения языковых моделей, обязательная аккредитация и тд.
- госцентрализация ИИ. Централизованные ИИ помощники для школьников, студентов, госслужащих через Госуслуги
- запуски программ "госсводничества" включая реестры женщин желающих детей, на фоне серьёзного демографического кризиса
Но я всё время сбиваюсь на то что могу представить и то что может быть и не через 25 лет, а через 1-2 года.
А что, всё таки, можно предсказать к 2050 году ? Интерес не праздный, ищу опору для творческого вдохновения очередного рассказа😉
#offtopic #ai #thoughts
Поэтому в качестве оффтопа и в качестве ментального упражнения, давайте представим будущее Россия 2050. Достаточно близкое чтобы многие дожили, недостаточно близкое чтобы говорить со 100% уверенностью
Чтобы можно предсказать в виде государственных информационных систем, новых реестров, новых запретов и ограничений?
Мои предсказания:
- реестр недружественных культурных образов (всяческие там герои Марвел, Гарри Поттера и др. ). Автоматическое цензурирование и недопуск книг к публикации, фильмов к прокату и тд. Развитие рынка автоадаптации произведений под локальный рынок РФ.
- тотальное регулирование ИИ. Требования к локализации, требования к полной прослеживаемости обучения языковых моделей, обязательная аккредитация и тд.
- госцентрализация ИИ. Централизованные ИИ помощники для школьников, студентов, госслужащих через Госуслуги
- запуски программ "госсводничества" включая реестры женщин желающих детей, на фоне серьёзного демографического кризиса
Но я всё время сбиваюсь на то что могу представить и то что может быть и не через 25 лет, а через 1-2 года.
А что, всё таки, можно предсказать к 2050 году ? Интерес не праздный, ищу опору для творческого вдохновения очередного рассказа😉
#offtopic #ai #thoughts
😁11✍10😢5⚡2❤1
Полезные ссылки про данные, технологии и не только:
- DuckDB XML Extension - расширение для DuckDB для парсинга XML/HTML, пока не пробовал и интересно как он сможет съесть XML в пару пару десятков гигабайт, но выглядит полезно
- remote-jobs - репозиторий с огромным числом IT компаний имеющих вакансии для дистанционной работы. Некоторые компании remote-only, без офисов, в некоторых гибридный подход, в любом случае список полезный для тех кто ищет работу дистанционно
- Embedding User-Defined Indexes in Apache Parquet Files - для тех кто хочет поглубже разобраться с тем что такое Parquet, разбор реализации специализированного индекса внутри Parquet файлов.
- Rethinking CLI interfaces for AI у автора рефлексия о переосмыслении подхода к созданию и развитию утилит командной строки в контексте MCP и LLM. Текст довольно короткий, но здравый
- Edit перевыпуск древнего редактора Edit для MS-DOS переписанного на Rust под множество платформ. Для тех кого пробивает на ностальгию, но у меня лично по Edit'у никакой ностальгии не осталось, он мне не нравился ещё тогда;)
#opensource #ai #datatools
- DuckDB XML Extension - расширение для DuckDB для парсинга XML/HTML, пока не пробовал и интересно как он сможет съесть XML в пару пару десятков гигабайт, но выглядит полезно
- remote-jobs - репозиторий с огромным числом IT компаний имеющих вакансии для дистанционной работы. Некоторые компании remote-only, без офисов, в некоторых гибридный подход, в любом случае список полезный для тех кто ищет работу дистанционно
- Embedding User-Defined Indexes in Apache Parquet Files - для тех кто хочет поглубже разобраться с тем что такое Parquet, разбор реализации специализированного индекса внутри Parquet файлов.
- Rethinking CLI interfaces for AI у автора рефлексия о переосмыслении подхода к созданию и развитию утилит командной строки в контексте MCP и LLM. Текст довольно короткий, но здравый
- Edit перевыпуск древнего редактора Edit для MS-DOS переписанного на Rust под множество платформ. Для тех кого пробивает на ностальгию, но у меня лично по Edit'у никакой ностальгии не осталось, он мне не нравился ещё тогда;)
#opensource #ai #datatools
👍7❤3✍2🔥1
Universal Tool Calling Protocol (UTCP) спецификация и SDK для тех кто думает об альтернативах MCP. Вместо специальной доработки инструментов они описываются в специальном файле utcp.json и вся взаимодействие с инструментом осуществляется через HTTP/gRPC/cli, с акцентом на то что нет накладных расходов на обращение к инструментам/сервисам.
Подробная документация на сайте utcp.io, но пока нет ни одного LLM провайдера который бы эту спецификацию поддерживал. Вот если будет хотя бы 1-2 то сможет (потенциально) потеснить MCP.
#ai #mcp #utcp #specifications
Подробная документация на сайте utcp.io, но пока нет ни одного LLM провайдера который бы эту спецификацию поддерживал. Вот если будет хотя бы 1-2 то сможет (потенциально) потеснить MCP.
#ai #mcp #utcp #specifications
👍7✍3🙏2
Devising a Strategic Approach to Artificial Intelligence : A Handbook for Policy Makers [1] свежий документ от Всемирного банка в виде руководства для нормотворцев и чиновников по регулированию ИИ.
Почти все примеры там из развивающихся стран и чуть-чуть из развитых, ни одна из стран постсоветского пространства не упоминается.
Выглядит как документ по которому в дальнейшем тот же Всемирный банк или какая-то из поддерживаемых им структур будет создавать AI Government maturity index или что-то вроде этого.
С одной стороны небесполезно, а с другой я столько уже видел похожих документов по другим тематикам.
Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/099060525125542871
#ai #regulation #readings
Почти все примеры там из развивающихся стран и чуть-чуть из развитых, ни одна из стран постсоветского пространства не упоминается.
Выглядит как документ по которому в дальнейшем тот же Всемирный банк или какая-то из поддерживаемых им структур будет создавать AI Government maturity index или что-то вроде этого.
С одной стороны небесполезно, а с другой я столько уже видел похожих документов по другим тематикам.
Ссылки:
[1] https://documents.worldbank.org/en/publication/documents-reports/documentdetail/099060525125542871
#ai #regulation #readings
👍5❤1
Оказывается Яндекс сертифицировался по ISO/IEC 42001:2023 до этого это сделали не так уж много компаний. Amazon AWS в декабре 2024, Microsoft несколько дней назад, Thompson Reuters в марте 2025, Anthropic в январе 2025. В любом случае их немного.
Что важно, нельзя получить сертификат используя чужую облачную LLM, это сертификат на управление ИИ, рисками и тд.
Сертификация по этому стандарту, в любом случае, никого не спасёт от регулирования, но некую планку этической разработки ИИ задаёт.
#ai
Что важно, нельзя получить сертификат используя чужую облачную LLM, это сертификат на управление ИИ, рисками и тд.
Сертификация по этому стандарту, в любом случае, никого не спасёт от регулирования, но некую планку этической разработки ИИ задаёт.
#ai
ISO
ISO/IEC 42001:2023
Information technology — Artificial intelligence — Management system
👍9🤔2🤣1
Свежее исследование из Microsoft Research о том какие профессии более и какие менее подвержены замене на ИИ Working with AI: Measuring the Occupational Implications of Generative AI. Полезно чтобы задуматься о своей нынешней и будущей профессии.
К примеру, флеботомистам ничего не грозит (это такие мед специалисты которые берут венозную кровь из вены), ничего не грозит рабочим убирающим токсичные отходы, автослесарям тоже и тем кто чинит медицинское оборудование.
А вот переводчикам, историкам, писателям, редакторам, политологам и много кому ещё надо готовится к сокращению рынка труда.
#ai #work
К примеру, флеботомистам ничего не грозит (это такие мед специалисты которые берут венозную кровь из вены), ничего не грозит рабочим убирающим токсичные отходы, автослесарям тоже и тем кто чинит медицинское оборудование.
А вот переводчикам, историкам, писателям, редакторам, политологам и много кому ещё надо готовится к сокращению рынка труда.
#ai #work
🤣8💅3😢2🥰1
В США опубликовали AI Action plan документ стратегии ИИ который выглядит на удивление разумным и продуманным.
Какие то меры не применимы за пределами США, это целый столп III Lead in International AI Diplomacy and
Security, его трудно воспроизвести кому-то кроме Китая или ЕС, но многое другое может интересовать разных регуляторов.
Из интересного там это Build World-Class Scientific Datasets. Такое редко встретишь напрямую с госрегулировании, а ведь это создание научных наборов данных мирового класса.
#data #ai #regulation
Какие то меры не применимы за пределами США, это целый столп III Lead in International AI Diplomacy and
Security, его трудно воспроизвести кому-то кроме Китая или ЕС, но многое другое может интересовать разных регуляторов.
Из интересного там это Build World-Class Scientific Datasets. Такое редко встретишь напрямую с госрегулировании, а ведь это создание научных наборов данных мирового класса.
#data #ai #regulation
🔥10❤1👍1