Ivan Begtin
9.33K subscribers
2.32K photos
4 videos
109 files
5.02K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
Что я понял про дата инженерию за N лет работы с данными:
1
. Из всех ресурсов всегда более всего, почти всегда, нехватает места для хранения и каналов для передачи данных. А когда начинает хватать, то потребности вырастают
2 Держи данные сжатыми, желательно всегда, но выбирая между способами сжатия выбирай те что позволяют использовать данные при потоковом разжимании данных.
3. Всегда имей архивную копию данных которые когда либо использовались. Если только нет юридических ограничений и ограничения в хранилищах не припёрли жёстко к стенке.
4. Не документировать данные тяжкий грех. Большинство патологические тяжкие грешники.
5. Если ты не платишь за данные поставщику они могут исчезнуть из доступа в любой момент. Если платишь то тоже, но реже и можно быстрее отреагировать.
6. Инструментарий очень быстро меняется, зацикливаться на инструментах 10-15 летней давности опасно для потери квалификации.
7. Все ненавидят облака, но жрут этот кактус. Иногда надо заставлять других этот кактус есть . Пользователей жалко, но всё идет туда.
8. Владей хотя бы одним ETL/ELT инструментом хорошо и ещё 2-3 хотя бы базово.
9. Данные всегда грязные. С небольшими табличками аналитики могут справиться сами, а большие требуют навыков дата инженеров.
10. Командная строка имеет значение (с). Многое работает значительно быстрее и эффективнее с командной строки.

Добавляйте ваши пункты😜

#dataengineering #thoughts
1👍18
К вопросу о достоверности данных и поисковиках на базе ИИ, типа ChatGPT, Perplexity и всех остальных есть один важный момент который часто упускается. Классические поисковики много ресурсов вложили и вкладывают чтобы чистить всяческий SEO мусор. Когда какие-нибудь не самые думающие люди вместо сервисов для людей делают сайты для поисковиков и превращают какие-нибудь данные в бесконечное число страниц. С целью размещения на них рекламы, конечно, а не услуг для пользователей.

Крупные поисковики их чистят, или сильно пессимизируют в выдаче. А вот всякие AI краулеры этого не знают и не понимают и сжирают публикуемое там и делают на основе этого выводы. А у этого может быть то крайне неприятное последствия в том что можно подсовывать AI поисковикам очень фэйковые данные, тем самым "отравляя результаты" ответов ИИ поисковика.

Я это наблюдал на Perplexity который делал аналитические выводы не по первоисточникам, а по таким мусорным SEO'шным сайтам. В то же время Google и Yandex выдавали по тем же запросам ссылки на первоисточники.

#ai #thoughts
🔥16👍12💯32🤝2🤔1
Новые тарифы введённые Трампом в США сейчас наделали много шума. У США большой торговый дефицит, особенно с ЕС и Китаем, но... есть нюанс. Этот дефицит почти весь в физических товарах, а в цифровых продуктах и сервисах у США невероятный профицит. Для тех кто не читал ещё, статья в Nature от июня 2024 года Estimating digital product trade through corporate revenue data [1] где авторы декомпозировали импорт/экспорт стран на основе отчётов цифрового крупняка. Там есть что почитать. А один из авторов той работы, Цезарь Идальго, опубликовал вот такие картинки по структуре импорта и экспорта цифровых продуктов [2].

Почему это важно? Потому что один из вероятных сценариев ответа на тарифы Трампа может быть "тарифный удар" по цифровым продуктам и сервисам из США, тоже для соблюдения паритета торгового баланса.

А это затронет практически весь ИТ сектор по всему миру.

P.S. На эту же тему сегодня выступал Макрон о том что при оценке торгового баланса США не учитывали торговлю цифровыми товарами. Так что все понимают на какую область придётся ответ ЕС и других стран.

Ссылки:
[1] https://www.nature.com/articles/s41467-024-49141-z
[2] https://x.com/cesifoti/status/1907529502340624711

#thoughts #tariffs #it #usa #trump
11🤔18👍54😱4
Что я понял за 15 лет работы с открытыми данными
[продолжаю рассуждать на разные темы пунктами, тем у меня ещё много;)]

1. Открытых данных очень много в целом, но мало когда исследуешь конкретную тему.
2. Если есть общая установка сверху то чиновники вполне адекватны в готовности публиковать данные. Если установки сверху нет, то только если это соответствует какой-то другой их повестке.
3. Да, открытые данные публикуются даже авторитарными режимами и диктатурами. Их доступность определяется не только политической повесткой, но и технологической зрелостью. Особенно много данных в странах где есть политическая повестка открытости + культура открытости + технологическая зрелость.
4. Для бизнеса открытые данные - это не более чем снижение до около нуля стоимости покупки данных. Но не ноль потому что стоимость владения и работы с данными складывается из расходов на их выгрузку, хранение, и работу дата программистов по их обработке.
5. За редким исключением дата корпорации, чем крупнее, тем сильнее, избегают публикации данных. Для них любые датасеты - это ценный материальный актив. Исключения есть в только там где они находят значимую выгоду от открытости - тренировка алгоритмов для ИИ, хакатоны, поддержание публичного реноме и тд. Но это всё всегда проходит через линзы оценки стоимости.
6. Движение открытости данных собиралось из 3-х потоков: научного (открытый доступ), политического (право на доступ к информации), технологического (интеграция информационных систем, особенно гос). Иногда они пересекаются, иногда нет. Научное наиболее устойчивое, но часто замкнутое в отдельных областях. Политическое нестабильное от грантополучения и повестки. Технологическое часто суженное до очень узких задач и часто отодвигающееся от открытости в сторону работы с условно любыми данными, не открытыми.
7. Порталы открытых данных сильно отстают от современной дата инженерии, но почти все современные дата продукт используют большие открытые датасеты в качестве примеров того что можно сделать на их основе
8. На открытых данных нет хороших бизнес моделей. Вернее нет хороших бизнес моделей _только_ на открытых данных. Хорошие дата продукты, как правило, интегрируют много разных дата источников.
9. Самые крупные доступные датасеты в мире - это физика частиц и расшифрованные геномы, все связаны с научными дисциплинами. Одни из самых востребованных - базовые слои геоданных.


#opendata #thoughts
👍21❤‍🔥11🔥1
Интересная свежая статья в Journal of Democracy под названием Delivering Democracy. Why Results matter? [1], на русском языке она прозвучала была с двояким смыслом "Доставляя демократию. Почему результаты имеют значение?". Доставляя как: гуманитарными или военными самолётами? Но здесь речь о классическом понимании provide (предоставлять). Среди авторов статьи Френсис Фукуяма что ещё одна причина её почитать.

Если коротко, то основная идея в том что Демократия не может быть основана только на идеалах. Граждане хотят результатов: работы, безопасности, услуг. Мысль не то чтобы новая, но предельно коротко и точно изложенная именно в этой статье и то что ситуации когда в демократических странах идут долгие экономические кризисы то возникают и кризисы восприятия демократии и наоборот и есть бесспорные экономические успехи в авторитарных странах.

Я, также, ранее не встречал термина performance legitimacy, он есть в предыдущей статье Бена Кросса, Performance Legitimacy for Realists [2] одного из соавторов. Это термин применяемый к восточно-азиатским странам и его можно описать так

Легитимность на основе эффективности (или performance legitimacy) — это концепция, согласно которой власть обосновывает своё право на управление через успешное выполнение задач, направленных на улучшение жизни граждан, а не через традиционные или демократические источники легитимности. Этот подход основывается на достижении положительных материальных результатов, таких как экономический рост, снижение уровня бедности и повышение качества жизни населения.

И, кстати, он применим не только к восточно-азиатским странам, многие авторитарные страны в мире идут тем же путём. И это не худшая форма авторитаризма, конечно,.

Ключевое в статье - это акцент на том как перезапустить демократии чтобы они тоже могли доставлять не хуже авторитарных режимов и, честно говоря, ответов там мало. Я увидел один базовый тезис - лучше управляйте экономикой и его расширение эффективнее развивайте инфраструктуру.

Всё это, конечно, к технологической инфраструктуре и цифровым сервисам имеет прямое отношение. У демократических государств гораздо больше барьеров в их реализации. Авторитаризм имеющие большие экономические ресурсы может быть весьма эффективен. Как демократиям научиться доставлять в этой области - вот в чём вопрос.

Ссылки:
[1] https://muse.jhu.edu/pub/1/article/954557
[2] https://muse.jhu.edu/pub/5/article/918473

#opengov #data tech #thoughts #democracy #digitalservices
👍76🔥4😁1
Я об этом редко упоминаю, но у меня есть хобби по написанию наивных научно фантастических рассказов и стихов, когда есть немного свободного времени и подходящие темы.

И вот в последнее время я думаю о том какие есть подходящие темы в контексте человечества и ИИ, так чтобы в контексте современного прогресса и не сильно повторяться с НФ произведениями прошлых лет.

Вот моя коллекция потенциальных тем для сюжетов.

1. Сила одного
Развитие ИИ и интеграции ИИ агентов в повседневную жизнь даёт новые возможности одиночкам осуществлять террор. Террористы не объединяются в ячейки, не общаются между собой, к ним невозможно внедрится или "расколоть" потому что они становятся технически подкованными одиночками с помощью дронов, ИИ агентов и тд. сеящие много хаоса.

2. Безэтичные ИИ.
Параллельно к этическим ИИ появляется чёрный рынок отключения этики у ИИ моделей и продажа моделей изначально с отключённой этикой. Все спецслужбы пользуются только такими ИИ, как и многие преступники. У таких ИИ агентов нет ограничений на советы, рекомендации, действия и тд.

3. Корпорация "Сделано людьми"
Почти всё творчество в мире или создаётся ИИ, или с помощью ИИ или в среде подверженной культурному влиянию ИИ. Появляется корпорация "Сделано людьми" сертифицирующая продукцию как гарантированно произведённой человеком. Такая сертификация это сложный и болезненный процесс, требующий от желающих её пройти большой самоотдачи.

#thoughts #future #thinking #ai
👍2075
Некоторые мысли вслух по поводу технологических трендов последнего времени:

1. Возвращение профессионализации в ИТ.

Как следствие массового применения LLM для разработки и кризиса "рынка джуниоров" в ИТ. LLM ещё не скоро научатся отладке кода и в этом смысле не смогут заменить senior и middle разработчиков, а вот про массовое исчезновение вакансий и увольнения младших разработчиков - это всё уже с нами. Плохо ли это или хорошо? Это плохо для тех кто пошёл в ИТ не имея реального интереса к профессиональной ИТ разработке, хорошо для тех для кого программная инженерия - это основная специальность и очень хорошо для отраслевых специалистов готовых осваивать nocode и lowcode инструменты.

Перспектива: прямо сейчас

2. Регистрация и аттестация ИИ агентов и LLM.

В случае с ИИ повторяется история с развитием Интернета, когда технологии менялись значительно быстрее чем регуляторы могли/способны реагировать. Сейчас есть ситуация с высокой степенью фрагментации и демократизации доступа к ИИ агентам, даже при наличии очень крупных провайдеров сервисов, у них множество альтернатив и есть возможность использовать их на собственном оборудовании. Но это не значит что пр-ва по всему миру не алчут ограничить и регулировать их применение. Сейчас их останавливает только непрерывный поток технологических изменений. Как только этот поток хоть чуть-чуть сбавит напор, неизбежен приход регуляторов и введение аттестации, реестров допустимых LLM/ИИ агентов и тд. Всё это будет происходить под знамёнами: защиты перс. данных, защиты прав потребителей, цензуры (защиты от недопустимого контента), защиты детей, защиты пациентов, национальной безопасности и тд.

Перспектива: 1-3 года

3. Резкая смена ландшафта поисковых систем
Наиболее вероятный кандидат Perplexity как новый игрок, но может и Bing вынырнуть из небытия, теоретически и OpenAI и Anthropic могут реализовать полноценную замену поиску Google. Ключевое тут в контроле экосистем и изменении интересов операторов этих экосистем. А экосистем, по сути, сейчас три: Apple, Google и Microsoft. Понятно что Google не будет заменять свой поисковик на Android'е на что-либо ещё, но Apple вполне может заменить поиск под давлением регулятора и не только и пока Perplexity похоже на наиболее вероятного кандидата. Но, опять же, и Microsoft может перезапустить Bing на фоне этих событий.

Перспектива: 1 год

4. Поглощение ИИ-агентами корпоративных BI систем

Применение больших облачных ИИ агентов внутри компаний ограничено много чем, коммерческой тайной, персональными данными и тд., но "внутри" компаний могут разворачиваться собственные LLM системы которые будут чем-то похожи на корпоративные BI / ETL продукты, они тоже будут состыкованы со множеством внутренних источников данных. Сейчас разработчики корпоративных BI будут пытаться поставлять продукты с подключением к LLM/встроенным LLM. В перспективе всё будет наоборот. Будут продукты в виде корпоративных LLM с функциями BI.

Перспектива: 1-2 года

5. Сжимание рынка написания текстов / документации
Рынок документирования ИТ продукта если ещё не схлопнулся, то резко сжимается уже сейчас, а люди занимавшиеся тех писательством теперь могут оказаться без работы или с другой работой. В любом случае - это то что не просто поддаётся автоматизации, а просто напрашивающееся на неё. Всё больше стартапов и сервисов которые создадут Вам качественную документацию по Вашему коду, по спецификации API, по бессвязанным мыслям и многому другому.

Перспектива: прямо сейчас

#ai #thinking #reading #thoughts
👍24
К новостям о том что в РФ опять обсуждают блокировку Википедии и пытаются продвигать РуВики, как идеологически верную альтернативу, мне вспомнился апрельский лонгрид Саймона Кемпа Digital 2025: exploring trends in Wikipedia traffic [1] с весьма подробным разбором о том как снижается трафик и пользовательская база Википедии и что происходит это не вчера и не сегодня, а уже много лет.

Для тех кому лень читать текст целиком, вот основные тезисы:
1. Трафик на сайты Википедии неуклонно снижается и за 3 года с марта 2022 года по март 2025 года он снизился на 23 процента.

2. Основная причина снижения - это политика Google по выдаче результатов прямо в поиске. Потому что прямой трафик на Википедию довольно стабилен, а вот поисковый трафик, преимущественно из Google, существенно снизился.

3. Применение облачных ИИ Агентов (ChatGPT, Claude, Perplexity) идёт в том же тренде что и поисковый трафик, но отдаёт ещё меньше трафика чем поисковые системы. В среднем, происходит снижение на треть переходов на внешние источники.

От себя я добавлю что инициативы Фонда Викимедия перейти от модели существования как дата дистрибьютора, торгуя датасетами и доступом к "высококачественному API" - это всё попытки преодолеть этот кризис. В котором кроме Википедии находятся и значительное число сайтов ориентированных на создание контента и вынужденные менять бизнес модели, например, переходя на пэйволы и ограничивая доступ к контенту.

Поэтому главный мой посыл в том что Фонд Викимедия в целом и Википедия уже много лет как находятся в кризисе, достаточно медленно ползущем чтобы всё не рухнуло, но достаточно явным чтобы за них беспокоиться.

Кто выигрывает от блокировки Википедии? Думаете РуВики? Нет. Даже если они станут не про-государственным, а полностью госпроектом на 100% бюджетном финансировании (если ещё не), то даже в этом случае РуВики станет популярным только если начнётся принуждение поисковых систем ставить ссылки на него, а не на Википедию. Но Гугл на это никогда не пойдет, а Яндекс будет сопротивляться до последнего. Да и как можно было понять ранее, поисковики всё меньше трафика отдают контентным проектам, стараясь держать пользователей в своей экосистеме. Потому что это им выгоднее и ничего более.

В итоге от запрета Википедии в РФ выиграют по списку:
1. Поисковые системы Google и Яндекс (думаю что Google существенно больше)
2. Облачные AI агенты (ChatGPT, Perplexity, Claude и др.)
3. Продавцы коммерческих VPN сервисов

Я не знаю чьими лоббистами являются ратующие за запрет Википедии, но выгодоприобретатели понятны и очевидны.

Ссылки:
[1] https://datareportal.com/reports/digital-2025-exploring-trends-in-wikipedia-traffic

#wikipedia #thoughts #ai #readings
👍9😱4😢21
Я недавно рассказывал что в качестве хобби занимаюсь написанием коротких наивных фантастических рассказов в стиле утопий и антиутопий. Причём поскольку прозаический опыт у меня ограниченный, я пытаюсь писать их по науке: видение -> синопсис - > пара тестовых глав -> основной текст. Это хорошая разминка для ума для которой я постоянно собираю контекст и наша антиутопическая реальность, конечно, даёт много идей.

Важная часть таких рассказов - это контекст, не фабула произведения, а среда в которой всё происходит. А поскольку сейчас одна из самых остросоциальных тем - это ИИ, то без ИИ тут не обойтись.

У меня есть какое-то число мыслей про такой контекст, а если Вы готовы поделитесь Вашими мыслями, милости прошу в комментарии:
1. Видеть невидимое. С помощью ИИинструменты наблюдения резко усиливаются. Работает сбор данных в недоступных человеку спектрах, радиодиапазонах и границ слышимости.
2. Большие прогностические модели. Непрерывно работающие прогностические модели и ИИ манипулирующий рынками. Длительный кризис фондовых рынков.
3.AI-Free зоны. В которых отключен интернет и любая связь. Там сдают экзамены и ходят на свидания ( чтобы тому кто на него идет ИИ нп подсказывал как себя вести).

Все это именно контекст, фабула по более классическим сценариям про кровь, любовь и риторику.

А какие варианты будущего как контекста видите вы?

#thoughts #writings
6👍32🔥1
Я тут было задумал написать лонгрид про стандарт SDMX по распространению статистических баз данных, о том чем он хорош и чем он плох и почему им нельзя пользоваться для публикации данных для бизнеса и необходимо использовать для взаимодействия с международными структурами. Но довольно быстро понял что сбиваюсь про состояние работы со статистическими данными в целом и о глобальном кризисе статистических служб.

А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов

Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.

Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.

#opendata #statistics #thoughts
🔥54👍1