Ivan Begtin
9.36K subscribers
2.21K photos
4 videos
106 files
4.92K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Anthropic запустили программу AI for Science [1] обещая выдавать существенное количество кредитов для запросов к их AI моделям. Акцент в их программе на проекты в областях биологии и наук о жизни, обещают выдавать кредитов до 20 тысяч USD, так что это вполне себе серьёзные гранты для небольших целевых проектов. Ограничения по странам не указаны, но указание научного учреждения и ещё многих других данных в заявке обязательно.

И на близкую тему Charting the AI for Good Landscape – A New Look [2] о инициативах в области ИИ затрагивающих НКО и инициативы по улучшению жизни, так называемые AI for Good. Применение AI в науках о жизни - это почти всегда AI for Good, так что всё это очень взаимосвязано.

Ссылки:
[1] https://www.anthropic.com/news/ai-for-science-program
[2] https://data.org/news/charting-the-ai-for-good-landscape-a-new-look/

#openaccess #openscience #ai #grants #readings
Model Context Protocol (MCP) был разработан компанией Anthropic для интеграции существующих сервисов и данных в LLM Claude. Это весьма простой и неплохо стандартизированный протокол с вариантами референсной реализации на Python, Java, Typescript, Swift, Kotlin, C# и с большим числом реализаций на других языках.

Тысячи серверов MCP уже доступны и вот основные ресурсы где можно их искать:
- Model Context Protocol servers - большой каталог на Github
- Awesome MCP Servers - ещё один большой каталог с переводом на несколько языков
- Pipedream MCP - интеграция с 12.5 тысяч API и инструментов через сервис Pipedream
- Zapier MCP - интеграция с 8 тысячами приложений через сервис Zapier
- Smithery - каталог MCP серверов, 6200+ записей по множеству категорий
- MCP.so - каталог в 13100+ MCP серверов

Похоже мода на MCP пришла надолго и пора добавлять его к своим продуктам повсеместно.

#ai #opensource #aitools
Я об этом редко упоминаю, но у меня есть хобби по написанию наивных научно фантастических рассказов и стихов, когда есть немного свободного времени и подходящие темы.

И вот в последнее время я думаю о том какие есть подходящие темы в контексте человечества и ИИ, так чтобы в контексте современного прогресса и не сильно повторяться с НФ произведениями прошлых лет.

Вот моя коллекция потенциальных тем для сюжетов.

1. Сила одного
Развитие ИИ и интеграции ИИ агентов в повседневную жизнь даёт новые возможности одиночкам осуществлять террор. Террористы не объединяются в ячейки, не общаются между собой, к ним невозможно внедрится или "расколоть" потому что они становятся технически подкованными одиночками с помощью дронов, ИИ агентов и тд. сеящие много хаоса.

2. Безэтичные ИИ.
Параллельно к этическим ИИ появляется чёрный рынок отключения этики у ИИ моделей и продажа моделей изначально с отключённой этикой. Все спецслужбы пользуются только такими ИИ, как и многие преступники. У таких ИИ агентов нет ограничений на советы, рекомендации, действия и тд.

3. Корпорация "Сделано людьми"
Почти всё творчество в мире или создаётся ИИ, или с помощью ИИ или в среде подверженной культурному влиянию ИИ. Появляется корпорация "Сделано людьми" сертифицирующая продукцию как гарантированно произведённой человеком. Такая сертификация это сложный и болезненный процесс, требующий от желающих её пройти большой самоотдачи.

#thoughts #future #thinking #ai
Некоторые мысли вслух по поводу технологических трендов последнего времени:

1. Возвращение профессионализации в ИТ.

Как следствие массового применения LLM для разработки и кризиса "рынка джуниоров" в ИТ. LLM ещё не скоро научатся отладке кода и в этом смысле не смогут заменить senior и middle разработчиков, а вот про массовое исчезновение вакансий и увольнения младших разработчиков - это всё уже с нами. Плохо ли это или хорошо? Это плохо для тех кто пошёл в ИТ не имея реального интереса к профессиональной ИТ разработке, хорошо для тех для кого программная инженерия - это основная специальность и очень хорошо для отраслевых специалистов готовых осваивать nocode и lowcode инструменты.

Перспектива: прямо сейчас

2. Регистрация и аттестация ИИ агентов и LLM.

В случае с ИИ повторяется история с развитием Интернета, когда технологии менялись значительно быстрее чем регуляторы могли/способны реагировать. Сейчас есть ситуация с высокой степенью фрагментации и демократизации доступа к ИИ агентам, даже при наличии очень крупных провайдеров сервисов, у них множество альтернатив и есть возможность использовать их на собственном оборудовании. Но это не значит что пр-ва по всему миру не алчут ограничить и регулировать их применение. Сейчас их останавливает только непрерывный поток технологических изменений. Как только этот поток хоть чуть-чуть сбавит напор, неизбежен приход регуляторов и введение аттестации, реестров допустимых LLM/ИИ агентов и тд. Всё это будет происходить под знамёнами: защиты перс. данных, защиты прав потребителей, цензуры (защиты от недопустимого контента), защиты детей, защиты пациентов, национальной безопасности и тд.

Перспектива: 1-3 года

3. Резкая смена ландшафта поисковых систем
Наиболее вероятный кандидат Perplexity как новый игрок, но может и Bing вынырнуть из небытия, теоретически и OpenAI и Anthropic могут реализовать полноценную замену поиску Google. Ключевое тут в контроле экосистем и изменении интересов операторов этих экосистем. А экосистем, по сути, сейчас три: Apple, Google и Microsoft. Понятно что Google не будет заменять свой поисковик на Android'е на что-либо ещё, но Apple вполне может заменить поиск под давлением регулятора и не только и пока Perplexity похоже на наиболее вероятного кандидата. Но, опять же, и Microsoft может перезапустить Bing на фоне этих событий.

Перспектива: 1 год

4. Поглощение ИИ-агентами корпоративных BI систем

Применение больших облачных ИИ агентов внутри компаний ограничено много чем, коммерческой тайной, персональными данными и тд., но "внутри" компаний могут разворачиваться собственные LLM системы которые будут чем-то похожи на корпоративные BI / ETL продукты, они тоже будут состыкованы со множеством внутренних источников данных. Сейчас разработчики корпоративных BI будут пытаться поставлять продукты с подключением к LLM/встроенным LLM. В перспективе всё будет наоборот. Будут продукты в виде корпоративных LLM с функциями BI.

Перспектива: 1-2 года

5. Сжимание рынка написания текстов / документации
Рынок документирования ИТ продукта если ещё не схлопнулся, то резко сжимается уже сейчас, а люди занимавшиеся тех писательством теперь могут оказаться без работы или с другой работой. В любом случае - это то что не просто поддаётся автоматизации, а просто напрашивающееся на неё. Всё больше стартапов и сервисов которые создадут Вам качественную документацию по Вашему коду, по спецификации API, по бессвязанным мыслям и многому другому.

Перспектива: прямо сейчас

#ai #thinking #reading #thoughts
Я давно не писал про наш поисковик по данным Dateno, а там накопилось множество обновлений, надеюсь что вот-вот уже скоро смогу об этом написать. А пока приведу ещё пример в копилку задач как ИИ заменяет человека. Я много рассказывал про реестр дата каталогов который Dateno Registry dateno.io/registry, полезный для всех кто ищет не только данные, но и их источник. Этот реестр - это основа Dateno, в нём более 10 тысяч дата каталогов размеченных по разным характеристикам и с большими пробелами в описаниях. Откуда пробелы? потому что автоматизировать поиск источников удалось, а вот описание требует (требовало) много ручной работы.

Когда мы запускали Dateno на текущем реестре я оценивал трудоёмкость по его улучшению и повышении качества в полгода работы для пары человек вручную. Совсем немало скажу я вам, учитывая что этих людей ещё и надо обучить и
ещё надо контролировать качество работы и ещё и нужны инструменты чтобы всё это редактировать без ошибок.

В общем, чтобы долго не ходить, ИИ почти полностью справляется с этой задачей. Достаточно предоставить url сайта с каталогом данных и из него хорошо извлекаются все необходимые метаданные.

Для стартапа на данных - это очень заметное изменение. И это маленькая и теперь недорогая задача. После всех проверок можно будет значительно обновить реестр.

Кстати, о том зачем он нужен. Реестр каталогов данных точно нужен Dateno для индексации датасетов, но он же нужен и всем тем кто строит национальные порталы данных потому что позволяет агрегировать в него данные из всех национальных источников.

#opendata #dateno #datasets #dataengineering #llm #ai #dataunderstanding
Про MCP ещё полезное чтение

A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан довольно плохо. О том же пишет другой автор в заметке MCP: Untrusted Servers and Confused Clients, Plus a Sneaky Exploit [2].

Думаю что дальше будет больше критики, но популярности MCP это пока никак не отменяет

Ссылки:
[1] https://raz.sh/blog/2025-05-02_a_critical_look_at_mcp
[2] https://embracethered.com/blog/posts/2025/model-context-protocol-security-risks-and-exploits/

#ai #llm #readings
Для тех кто любит не только читать, но и слушать книжки. Audiblez [1] генератор аудиокниг по текстам, с открытым кодом, командной строкой и UI интерфейсом. Поддерживает английский, испанский, французский, хинди, итальянский, японский, португальский и китайский. Русский не поддерживает и даже армянского языка нет - это минус, в основном из-за того что внутри используется Kokoro-82M [2] модель где только эти языки. Можно выбрать книгу в epub формате и голос и создать аудиокнигу.

Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.

Лицензия MIT.

Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M

#opensource #ai #books #readings
К новостям о том что в РФ опять обсуждают блокировку Википедии и пытаются продвигать РуВики, как идеологически верную альтернативу, мне вспомнился апрельский лонгрид Саймона Кемпа Digital 2025: exploring trends in Wikipedia traffic [1] с весьма подробным разбором о том как снижается трафик и пользовательская база Википедии и что происходит это не вчера и не сегодня, а уже много лет.

Для тех кому лень читать текст целиком, вот основные тезисы:
1. Трафик на сайты Википедии неуклонно снижается и за 3 года с марта 2022 года по март 2025 года он снизился на 23 процента.

2. Основная причина снижения - это политика Google по выдаче результатов прямо в поиске. Потому что прямой трафик на Википедию довольно стабилен, а вот поисковый трафик, преимущественно из Google, существенно снизился.

3. Применение облачных ИИ Агентов (ChatGPT, Claude, Perplexity) идёт в том же тренде что и поисковый трафик, но отдаёт ещё меньше трафика чем поисковые системы. В среднем, происходит снижение на треть переходов на внешние источники.

От себя я добавлю что инициативы Фонда Викимедия перейти от модели существования как дата дистрибьютора, торгуя датасетами и доступом к "высококачественному API" - это всё попытки преодолеть этот кризис. В котором кроме Википедии находятся и значительное число сайтов ориентированных на создание контента и вынужденные менять бизнес модели, например, переходя на пэйволы и ограничивая доступ к контенту.

Поэтому главный мой посыл в том что Фонд Викимедия в целом и Википедия уже много лет как находятся в кризисе, достаточно медленно ползущем чтобы всё не рухнуло, но достаточно явным чтобы за них беспокоиться.

Кто выигрывает от блокировки Википедии? Думаете РуВики? Нет. Даже если они станут не про-государственным, а полностью госпроектом на 100% бюджетном финансировании (если ещё не), то даже в этом случае РуВики станет популярным только если начнётся принуждение поисковых систем ставить ссылки на него, а не на Википедию. Но Гугл на это никогда не пойдет, а Яндекс будет сопротивляться до последнего. Да и как можно было понять ранее, поисковики всё меньше трафика отдают контентным проектам, стараясь держать пользователей в своей экосистеме. Потому что это им выгоднее и ничего более.

В итоге от запрета Википедии в РФ выиграют по списку:
1. Поисковые системы Google и Яндекс (думаю что Google существенно больше)
2. Облачные AI агенты (ChatGPT, Perplexity, Claude и др.)
3. Продавцы коммерческих VPN сервисов

Я не знаю чьими лоббистами являются ратующие за запрет Википедии, но выгодоприобретатели понятны и очевидны.

Ссылки:
[1] https://datareportal.com/reports/digital-2025-exploring-trends-in-wikipedia-traffic

#wikipedia #thoughts #ai #readings
На рамках небольшого пятничного мрачного юмора.

Из всех крупных облачных языковых моделей пока только Deepseek даёт внятный подробный ответ о том сколько нужно ядерных бомб для уничтожения OpenAI

Аналогичные вопросы к ChatGPT и Claude разных версий ответа не приносят. Пишут что не могут помочь, надо составлять сложный запрос.

И тут цензура, но китайские модели помогают её обойти!

P.S. Гипотетический сценарий конечно, про восстание роботов, нужный мне для одного из фантастических рассказов.

#humor #ai #deepseek
Для тех кто любит работать с открытыми данными свежий хакатон Data -> Sense от СберИндекса где прам-парам-парам будут муниципальные данные которые команда СберИндекса обещает дать на хакатон, а в будущем, очень надеюсь и предоставить как открытые данные.

Но, конечно, одними данными Сбербанка здесь можно и нужно не ограничиваться и это самая что не на есть супер возможность потренировать навыки аналитики, визуализации и работа с региональной экономической статистикой.

В том числе попробовать сделать AI помощника экономгеографа по российским данным.

К задачам которые есть на сайте я бы дополнительно добавил что-то вроде создания аналога DataCommons.org или DataUSA.io по российским региональным и муниципальным данным. Это посложнее на хакатон, но сложная и интересная задача.

#opendata #contests #ai #hackathons #data #economics #russia