Ivan Begtin
9.33K subscribers
2.32K photos
4 videos
109 files
5.01K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Галлюцинации у LLM - это, всё таки, повсеместная проблема и ИИ сервисы глобальных игроков получше с этим справляются чем российские, даже в вопросах на которых российские LLM должны быть значительно эффективнее.

Вот пример, запроса Собери информацию по всем ФОИВам в России. Верни результат в виде CSV файла с колонками "id", "name", "website", "description" к Гигачату от Сбербанка в режиме "Провести исследование".

Откровенных ошибок в названиях и в ссылках на сайты очень много. Настолько что можно вручную собирать и это будет точнее.

Для сравнения, не буду называть конкретные китайские, европейские и американские LLM, выдают очень точный результат.

Запрос этот из реальной жизни, на него регулярно важно знать ответ при архивации официальных сайтов.

#ai
106
В продолжение про NAO и другие инструменты вайб кодинга такие как Cursor, Copilot и тд. Их становится всё больше, хайпа вокруг них тоже немало. Что с этим делать и как к этому относиться?

1. AI инструменты для программистов явление обоюдоострое, чрезвычайно полезная там где они оттестированы и вредны там где нет. Из личного опыта, Copilot прекрасно обогащает CSV файлы по промпту. Например, грузишь CSV файл с перечнем названий стран на итальянском и просишь создать и заполнить колонку с их кодом из справочника ISO3166-1. А вот, например, запрос к Claude 3.5 (не самая мощная модель, да) на то чтобы получить рекомендации по оптимизации кода, в 2-х из 5-ти рекомендаций он выдал лютые глюки с несуществующими функциями.
2. Тем не менее в руках senior и middle разработчиков это сильное подспорье, способное значительно облегчить работу в очень многих задачах. Причём чем опытнее разработчик тем эффективнее будет инструмент. Правда не все разработчики старой школы готовы ИИ агентами пользоваться.
3. И наоборот, я бы поостерёгся брать на работу джуниоров-вайбкодеров потому что "важное не ударить, а знать где ударить". Последствия могут быть плохопредсказуемыми и лично я придерживаюсь мнения что не набив шишек на реальной работе вайбкодить нельзя категорически.
4. При этом применение LLM для работы с данными значительно сложнее. Почему? Потому что открытого кода и кусочков кода в сети безграничное количество, многие не будут опасаться отправлять свой код в облачные LLM, если только это не код каких-то уникальных алгоритмов, а это уже редкость. А вот данные могут содержать персональные данные, коммерческую тайну и ещё много чего. Использовать для анализа корп данных облачные LLM будет плохой практикой.
5. AI инструменты для разработчиков пытаются сделать повседневными. Что это значит? Максимальное упрощение пользовательского пути до ИИ агента. Примеры Cursor, NAO и ряда других AI IDE это про это. Такие инструменты создают ситуацию когда ты можешь отправить свой код или данные в любой момент в LLM, как говорится, одно неосторожное движение и... Для создателей инструментов это то о чём многие мечтали, наконец-то можно делать IDE зависящее от облачных сервисов и разработчики будут соглашаться авторизовываться и работать в облаке. IDE по подписке в общем. Для разработчиков будет развилка, открытые бесплатные IDE вроде VSCodium или продвинутые зависящие от облачных ИИ агентов.

#thoughts #ai
511👍1💯1
Небольшой, но интересный набор данных о 500 суперкомпьютерах для ИИ [1] в виде Excel файла и набора интерактивных визуализацией, а также статьи Trends in AI Supercomputers [2] от апреля 2025 года.

Ключевые инсайты из этих материалов:
1. Счётная (компьютерная) производительность суперкомпьютеров для ИИ удваивается каждые 9 месяцев
2. ИИ суперкомпьютеры чрезвычайно дороги. Стоимость приобретения ведущих суперкомпьютеров удваивается каждые 13 месяцев
3. Аналогично требования к электроэнергии. Каждый 13 месяцев запрос на энергию удваивается
4. Безусловно доминирование частного сектора в суперкомпьютерах. От 40% в 2019 году до 80% в 2025. Это одно из фундаментальных изменений.
5. 75% всех мощностей в США и 15% в Китае. Все остальные в оставшихся 10%.

Ссылки:
[1] https://epoch.ai/data/ai-supercomputers
[2] https://arxiv.org/abs/2504.16026

#ai #datacenters #readings #insights
👍84
Cloudflare теперь по умолчанию блокируют все AI боты о чем и пишут в официальном пресс-релизе [1], а в мае они предлагали механизм для аутентификации ИИ ботов [2] и, похоже, будут активно его продвигать как стандарт.

Шаг, в каком-то смысле ожидаемый, хочется надеяться что их теперь не купит какая-нибудь-крупная-AI-компания потому что выступая в роли CDN Cloudflare естественным образом, хотя бы и временно, но пропускает через свою инфраструктуру огромные объёмы контента. Рано или поздно это поймут те кому этот контент так нужен.

Но это если и произойдёт, то не сегодня, а пока Cloudflare явно играют на стороне своих клиентов, владельцев и создателей контента.

Ссылки:
[1] https://www.cloudflare.com/press-releases/2025/cloudflare-just-changed-how-ai-crawlers-scrape-the-internet-at-large/
[2] https://blog.cloudflare.com/web-bot-auth/

#ai #aibots
17🔥12👍7🤔2😢1
Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.

#dataengineering #dataanalytics #ai #duckdb
51👍1
К вопросу о полноте/неполноте ответов ИИ помощников да и поисковых систем сложно не вспомнить про "серый веб".

Можно вспомнить "белый веб" - это материалы доступные для индексации онлайн и "тёмный веб" (dark web) - это то целенаправленно сокрытые материалы и данные, доступные только через Tor или иные пиринговые сети.

В свою очередь "серый веб" - это то что находится в сети, но по множеству, в основном технических причин, недоступно для индексации. Тут и пэйволы, и контент доступный только через POST запросы и/или Ajax, и сайты блокирующие все боты капчей и геоблокировками, и то что публикуется в неиндексируемых форматах.

Это тот случай когда обычно немашиночитаемые PDF файлы, вполне себе превращаются поисковиками и ИИ краулерами в пригодные для обработки документы, а вот если эти PDF файлы положить внутрь ZIP архивов они сразу же выпадают из поискового индекса. А уж если положить их во что-то ещё менее популярное, в 7z, RAR или что-то ещё более экзотическое, то контент автоматически не попадает в поисковый индекс.

В копилку вредных советов, для тех кто не хочет помогать ИИ помощникам можно добавить следующий

Публикуй заархивированные
документы. 🤷‍♀️

Это гораздо более действенно чем публиковать сканы документов, как это делают в некоторых государственных ресурсах в некоторых развивающихся (и не очень то развивающихся) странах.

Я вижу это особенно наглядно когда задаю облачным LLM вопросы о бюджетах некоторых стран, регионов и городов. Видно как они собирают инфу на основе публикаций в СМИ или на страницах сайтов госорганов хотя эти же данные, гораздо более верные и полные лежат в определённых разделах, определённых сайтов, но в виде ZIP архивов с файлами Excel, PDF или HTML. Или же когда данные доступны в виде интерактивных навигаторов скачать из которых можно только вручную, экспортом и через POST запросы которые обычные и AI краулеры не сделают или сделают только в режиме сфокусированного сбора.

То есть если кто-то соберет данные краулером целенаправленно, сделает их удобными для обработки и положит куда-то откуда их потом в ИИ импортируют, то данные для ИИ агента будут доступны. Но это будет неоперативно и требует сфокусированных целенаправленных усилий.

Явление пока что не массовое, но как один из способов борьбы с ИИ краулерами весьма вероятный.

P.S. Делюсь вредным советом потому что он сложнее в реализации чем просто блокировать всё и вся.

#thoughts #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍64
The real winners of the AI Race полезное чтение о реальных бенефициарах почти всех стартапов в области генеративного ИИ таких как OpenAI, Anthropic, Mistral и других. Авторы провели анализ 12 таких стартапов и совершенно неожиданно весьма ожидаемо обнаружили что главные бенефициары - это Big Tech.
- 11 из 12 стартапов зависят от чипов NVIDIA
- 10 из 12 стартапов основаны на инфраструктуре Amazon, Microsoft или Google
- 9 из 12 стартапов продают доступ к своим моделям через платформы Amazon, Microsoft или Google

Для тех кто знает как эта индустрия устроена ничего нового в этом нет, разве что чуть более систематизировано изложено.

Контекст же в том что национальные правительства и ЕС пытаются создавать национальных чемпионов в области AI чтобы снизить зависимость от международных игроков и, даже, говорят о цифровом суверенитете, а по факту почти все проинвестированные в ЕС стартапы в этой области находятся в зависимости от Big Tech из США и звучат призывы к анализу всей цепочки ценности при инвестициях и выдаче грантов таким стартапам.

#ai #investments #tech #genai
5👍3🤣2
Полезные ссылки про данные, технологии и не только:

Открытый код

- The Data Engineering Handbook большая подборка ресурсов для дата инженеров: блоги, подкасты, книги, компании, ключевые продукты и тд. Полезно будет, в первую очередь, начинающим дата инженерам для быстрого погружения в профессию
- RustFS высокопроизводительная альтернатива Minio, для создания облачных хранилищ файлов доступом по S3 протоколу. Написан на языке Rust, лицензия Apache 2.0, декларируют производительность вдвое выше чем у Minio.
- STORM: Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking - исследовательский проект (оттого и такое длинное странное название) по генерации статей в стиле Википедии на заданную тему. Можно попробовать его на практике на storm.genie.stanford.edu.
- Harper бесплатный и открытый продукт для проверки грамматической проверки для английского языка. Ключевое - это то что не требует подключения к внешнему сервису, можно развернуть свой language server и проверки делать оффлайн. Полезно для всех кто озабочен приватностью или просто не хочет платить за сервисы вроде Grammarly.
- Easytier открытый код и сервис для быстрого развертывания децентрализованных сетей VPN. Прямой конкурент и альтернатива Tailscale. Сделан в Китае, распространяется под лицензией LGPL. Главное не путать с теми VPN что используются для обхода цензуры, этот сделан именно в классическом понимании VPN - для организации частной защищённой сети со своими устройствами.
- Bitchat новая децентрализованная альтернатива облачным мессенжерам. Была представлена Джеком Дорси, основателем Twitter'а, работает через Bluetooth и напоминает похожие проекты вроде Firechat (не знаю жив ли он ещё).

ИИ
- Half of Managers Use AI To Determine Who Gets Promoted and Fired опрос от сервиса Resume Builder об использовании ИИ менеджерами для оценки сотрудников и других задач. Если кратко, то используют большинство, многие уже всегда работают с ИИ, вплоть до принятия решений о повышении или увольнении сотрудника на основе оценки ИИ помощника
- RAPIDS Adds GPU Polars Streaming, a Unified GNN API, and Zero-Code ML Speedups NVIDIA продолжают развивать Polars и другие инструменты с открытым кодом для выполнения задач по обработке данных в GPU. Это и про открытый код и про применение Polars вместо Pandas для большей части научных тетрадок

Разное
- Apyhub очередной сервис каталогизации API, честно говоря непонятно зачем нужный. В этом рынке я знаю всего два продукта обретшие успех. Это OpenRouter для ИИ и RapidAPI как маркетплейс для API. Рынок устроен так что посредники ценны только если они приносят много реальных пользователей. К примеру, если Яндекс делает API маркетплейс - это сработает, а в остальных случаях почти наверняка нет.
- The One Trillion Row challenge with Apache Impala тест Apache Impala, базы с открытым кодом, на 1 триллионе строк. Я, честно говоря, был уверен что Apache Impala уже мертвый продукт, а там ещё какая-то жизнь происходит.
- Yet another ZIP trick автор покопался в спецификации ZIP файлов и поманипулировал метаданными внутри так что некоторые парсеры ZIP файлов видят одно содержимое, а другие другое. Ждем волны вирусов прячущихся внутри ZIP'ов (шутка).

#opensource #ai #api #rdbms
👍633😱1
Читаю хвалебные отзывы о Perplexity Comet, новом браузере со встроенным ИИ и о грядущем браузере от OpenAI и, честно говоря, это хорошая новость с тем что в рынке поиска и браузеров, наконец-то, появилась конкуренция. Что ещё важнее и интереснее в том почему выбирают нео-поисковики на базе ИИ и браузеры альтернативные Google Chrome - это отсутствие рекламы.

Фактически облачные ИИ агенты вне рынка AdTech, при поиске через OpenAI или Perplexity ты платишь за этот поиск явно (деньгами), а не неявно (рекламой).

Учитывая то как медленно но верно деградировал классический поиск, от минимальной рекламы, до выдачи отравленной SEO до невозможности, то мне нравится этот новый мир, даже при всех недостатках, глюках и искажениях ИИ агентов.

Не то чтобы он будет светлее, но хотя бы в нём будет больше выбора.

#thoughts #ai #search
👍30🔥3
Для некоторых задач уникальный по функциональности инструмент manus.im китайский облачный ИИ агент помогающий в практических исследовательских задачах, создаёт код и структурированное описание по запросу. Он оказался очень хорош в задачах которые у меня возникают время от времени - поиску недокументированного API. Этот тип задач я регулярно задаю разным ИИ агентам и Manus справляется пока что лучше всех. Неидеально, но очень неплохо, с меньшим числом глюков из-за проверки собранных результатов.

На скриншоте пример задачи с поиском недокументированного API на Arab Development Portal (www.arabdevelopmentportal.com), сайте агрегаторе официальной статистики арабских стран.

#opendata #ai #llm
👍8🔥7🙏1