Максим Смирнов очень кратко и точно [1] про правильное определение digital disruption. Это вынужденная ситуация зависимости как альтернативы потери эффективности. Наиболее эффективные стартапы автоматизируют очень узкую функцию, но очень эффективно. И в определённый момент ты оказываешься в ситуации когда, либо ты от этого сервиса отказываешься и занимаешься, прости Господи за неприличное слово, импортозамещением, или используешь с кучей рисков: санкций, банкротства сервис провайдера, смены его бизнес модели, безальтернативного повышения цены и так далее. Самый очевидный и наглядный пример сейчас - это Zoom. Нишевый сервис который создавался совсем не для того для чего сейчас используется, как следствие, при всём богатстве выбора альтернативы не радуют.
В итоге технологические решения оказываются, часто, сложнослепленным набором разных узкозаточенных профессиональных решений и современное искусство что программирования, что проектирования - это уметь собирать такие конструкторы. Крупнейшие ИТ экосистемы, такие как AWS, Azure, Google Cloud и др. имеют ценность именно в том что они предоставляют возможность получить "сразу всё из коробки" и, в то же время, поднастроить под себя то что хочется получить в иной форме.
В России в госсекторе собирать такие сложные конструкции всегда было большой проблемой и остаётся, кстати, тоже. Создатели гособлаков или ГосТеха не понимают что такое создание конкурентной среды и экосистемы для G2G сервисов. Отсюда и возникают ровно противоположные по устремлениям и одинаково вредные активности по "централизации ИТ" и "децентрализации ИТ", вместо среды где каждому есть место, а главное что любой создаваемый продукт/сервис можно было бы делать не с нуля.
В России из коммерческих сервисов только Яндекс.Облако немного приближается к созданию экосистемы, но других конкурентных преимуществ кроме отечественности у него, увы, нет.
Ссылки:
[1] https://t.iss.one/it_arch/801
#govtech #technology #startups
В итоге технологические решения оказываются, часто, сложнослепленным набором разных узкозаточенных профессиональных решений и современное искусство что программирования, что проектирования - это уметь собирать такие конструкторы. Крупнейшие ИТ экосистемы, такие как AWS, Azure, Google Cloud и др. имеют ценность именно в том что они предоставляют возможность получить "сразу всё из коробки" и, в то же время, поднастроить под себя то что хочется получить в иной форме.
В России в госсекторе собирать такие сложные конструкции всегда было большой проблемой и остаётся, кстати, тоже. Создатели гособлаков или ГосТеха не понимают что такое создание конкурентной среды и экосистемы для G2G сервисов. Отсюда и возникают ровно противоположные по устремлениям и одинаково вредные активности по "централизации ИТ" и "децентрализации ИТ", вместо среды где каждому есть место, а главное что любой создаваемый продукт/сервис можно было бы делать не с нуля.
В России из коммерческих сервисов только Яндекс.Облако немного приближается к созданию экосистемы, но других конкурентных преимуществ кроме отечественности у него, увы, нет.
Ссылки:
[1] https://t.iss.one/it_arch/801
#govtech #technology #startups
Telegram
Архитектура ИС
Мне довольно утомительно повторять идею, которую мне внушили еще лет десять назад: digital disruption – это не о том, что надо всю деятельности перевести в цифру, а скорее о том, что завтра придет какая-то неизвестная ранее компания и начнет делать некоторую…
Написал в сегодняшнюю рассылку [1] про платформу Гостех, где постарался изложить свою позицию насколько можно подробно.
А тут напишу что мой прогноз в том что платформа Гостех имеет следующие сценарии развития:
- Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ Гостех станут естественной монополией в этой области.
- Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядом ФГИС под прямым контролем Минцифры и нескольких ФОИВов и иных госструктур.
- Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Гостеху, скорее всего в отраслевом разрезе. Например, единая облачная платформа ВПК или единая облачная платформа транспортной отрасли и так далее, с выстраиванием отраслевой специфики.
Всё это сценарии развития Гостеха с точки зрения его создателей, каковы сценарии его развития для пользователей и разработчиков которые будут с ним работать - я предлагаю подумать всем вместе.
Ссылки:
[1] https://begtin.substack.com/p/17-
#government #tech #technology #clouds
А тут напишу что мой прогноз в том что платформа Гостех имеет следующие сценарии развития:
- Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ Гостех станут естественной монополией в этой области.
- Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядом ФГИС под прямым контролем Минцифры и нескольких ФОИВов и иных госструктур.
- Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Гостеху, скорее всего в отраслевом разрезе. Например, единая облачная платформа ВПК или единая облачная платформа транспортной отрасли и так далее, с выстраиванием отраслевой специфики.
Всё это сценарии развития Гостеха с точки зрения его создателей, каковы сценарии его развития для пользователей и разработчиков которые будут с ним работать - я предлагаю подумать всем вместе.
Ссылки:
[1] https://begtin.substack.com/p/17-
#government #tech #technology #clouds
Substack
#17. Гостех: оптимистичный, реалистичный и пессимистичный сценарии
План, что и говорить, был превосходный: простой и ясный, лучше не придумать. Недостаток у него был только один: было совершенно неизвестно, как привести его в исполнение (c) Льюис Кэролл
- Единый дизайн-гайд. Тема как-то помершая в России, хотя и были попытки. Во многих странах госсайты сделаны "безобразно и единообразно" по одному дизайн гайду. Хорошо документированному, открытому, сопровождаемому, удобному и тд. Это полезный инструмент, будучи хорошо сделанным он будет применяться без принуждения.
- Единый портал. Довольно давняя тема внедряемая во многих странах. Логика такая - правительство вцелом, отдельные органы власти тратят слишком много ресурсов на многочисленные веб-сайты. Нет никакого обоснования тому что их сотни и тысячи. В мире есть большие инициативы вроде gov.uk или usa.gov или gov.pl и ещё десятков других когда сервисы и сайты органов власти сконцентрированы на одном корневом ресурсе. В России эту функцию частично решает портал госуслуг, но только частично. А вот портал gov.ru выглядит просто таки архаично.
Это не полный перечень, сюда можно добавить ещё довольно многое, я могу расписать несколько десятков показательных и полезных сервисов только навскидку, а если покопаться в записях то сотни. Если хотя бы часть из перечисленного будет появляться и появляться в хорошом виде на платформе Гостех, значит от этой платформы будет ощутимая польза. Если нет, ну что ж, подождём следующей плаформы:)
#govtech #government #technology #data #datamangement #api
- Единый портал. Довольно давняя тема внедряемая во многих странах. Логика такая - правительство вцелом, отдельные органы власти тратят слишком много ресурсов на многочисленные веб-сайты. Нет никакого обоснования тому что их сотни и тысячи. В мире есть большие инициативы вроде gov.uk или usa.gov или gov.pl и ещё десятков других когда сервисы и сайты органов власти сконцентрированы на одном корневом ресурсе. В России эту функцию частично решает портал госуслуг, но только частично. А вот портал gov.ru выглядит просто таки архаично.
Это не полный перечень, сюда можно добавить ещё довольно многое, я могу расписать несколько десятков показательных и полезных сервисов только навскидку, а если покопаться в записях то сотни. Если хотя бы часть из перечисленного будет появляться и появляться в хорошом виде на платформе Гостех, значит от этой платформы будет ощутимая польза. Если нет, ну что ж, подождём следующей плаформы:)
#govtech #government #technology #data #datamangement #api
www.gov.uk
Welcome to GOV.UK
GOV.UK - The best place to find government services and information.
По итогам просмотра многих тех материалов ГосТех'а что были в открытом доступе я, пожалуй, могу сформулировать ряд конкретных проблем связанных не только с ним самим, но скорее с тем кто ставит/должен ставить задачи той команде которая им занимается:
- отсутствие стратегии. Это первая и фундаментальная проблема, заключается она в том что по многим государственным информационным системам гораздо меньшего масштаба есть как минимум концепции и стратегии, а в данном случае нет ни одного фундаментального документа к которым можно отнести стратегию, концепцию, глобальную архитектуру и так далее.
- непонимание разницы между корпорацией и государством. Ключевое отличие между корпорацией и государством в том что у государства и органов власти в частности нет клиентов, только пользователи, партнеры и стейкхолдеры. Государственные услуги - это не, то за что "клиент платит", а то что является государственной функцией и, соответственно, обязательством и невыполнение обязательств приводит к юридическим, а в демократических странах, и политическим последствиям.
- "непонимание" принципов разделения власти. Если вчитаться в Конституцию РФ то там четко расписано разделение полномочий между федеральными, региональными и муниципальными властями. При этом в России последние лет 15 как минимум, а может и дольше уже идёт ползучая технологическая унитаризация, когда федеральные власти создают информационные системы с которыми обязаны работать региональные и муниципальные власти. Всё что сейчас рассказывается в Гостех и сама идея Гостеха активно продолжается в этом направлении.
- усиление цифрового патернализма. Это вопрос уже не глупости или незнания, это вопрос идеологии. Гостех продолжается в форме услуг для граждан где в восприятии его авторов граждане - это такие ранимые субъекты государственной опеки о которых надо заботиться, холить и лелеять, по крайней мере в публичной риторике. В этом смысле Гостех мало отличается от Госуслуг, основная идея выморачивании услуг гражданам только к услугам по жизненным ситуациям, а каналы обратной связи только к жалобам. Эта модель не предполагает существования активных граждан или НКО или, даже, бизнеса взаимодействующего с органами власти в части их работы. Граждане только получают то что лица принимающие решения считают для них важным.
- отказ от усиления граждан. Вот это такой важный, а кто-то скажет что политический момент, идущий в сочетании с усилением цифрового патернализма. Усиление гражданина - это снижение информационного неравенства между ним и более сильным контрагентом. Например, для усиления гражданина как потребителя ЦБ РФ требует от банков и других финансовых организаций раскрывать довольно много информации о себе. Помогает это в финансовой грамотности? Да, помогает. А вот при госинформатизации нет требований к органам власти раскрывать сведения о том как информационные системы работают, какие данные там содержатся и многое другое. Гостех в этом смысле ничем не отличается. Несмотря на декларируемое развитие "цифрового правительства", из международного термина взяты лишь госуслуги, а большая прозрачность, открытые данные, открытые данные по умолчанию и т.д. просто игнорируются.
- отсутствие актикуляции бизнесу. Это продолжение отсутствие стратегии внедрения Гостеха. Вместо четко сформулированных тезисов о роли Гостеха в государственном ИТ, есть какие-то довольно маловнятные утверждения и выступления о его важности и ни одного четкого плана его внедрения. Я напомню что большая часть государственных информационных систем делается примерно 20-30 крупнейшими системными интеграторами и они все очень разные. Их перевод на другую платформу - это долго, дорого, сложно и малореалистично. А самое главное - даже не декларируется.
В качестве резюме, я ещё раз подчеркну что хвалить ГосТех в его текущей форме очень сложно. Можно игнорировать, можно критиковать, вопрос лишь в том кого ругать. Авторов этой затеи или тех кто должен был бы выступать их заказчиками?
#government #govtech #technology #data #transparency
- отсутствие стратегии. Это первая и фундаментальная проблема, заключается она в том что по многим государственным информационным системам гораздо меньшего масштаба есть как минимум концепции и стратегии, а в данном случае нет ни одного фундаментального документа к которым можно отнести стратегию, концепцию, глобальную архитектуру и так далее.
- непонимание разницы между корпорацией и государством. Ключевое отличие между корпорацией и государством в том что у государства и органов власти в частности нет клиентов, только пользователи, партнеры и стейкхолдеры. Государственные услуги - это не, то за что "клиент платит", а то что является государственной функцией и, соответственно, обязательством и невыполнение обязательств приводит к юридическим, а в демократических странах, и политическим последствиям.
- "непонимание" принципов разделения власти. Если вчитаться в Конституцию РФ то там четко расписано разделение полномочий между федеральными, региональными и муниципальными властями. При этом в России последние лет 15 как минимум, а может и дольше уже идёт ползучая технологическая унитаризация, когда федеральные власти создают информационные системы с которыми обязаны работать региональные и муниципальные власти. Всё что сейчас рассказывается в Гостех и сама идея Гостеха активно продолжается в этом направлении.
- усиление цифрового патернализма. Это вопрос уже не глупости или незнания, это вопрос идеологии. Гостех продолжается в форме услуг для граждан где в восприятии его авторов граждане - это такие ранимые субъекты государственной опеки о которых надо заботиться, холить и лелеять, по крайней мере в публичной риторике. В этом смысле Гостех мало отличается от Госуслуг, основная идея выморачивании услуг гражданам только к услугам по жизненным ситуациям, а каналы обратной связи только к жалобам. Эта модель не предполагает существования активных граждан или НКО или, даже, бизнеса взаимодействующего с органами власти в части их работы. Граждане только получают то что лица принимающие решения считают для них важным.
- отказ от усиления граждан. Вот это такой важный, а кто-то скажет что политический момент, идущий в сочетании с усилением цифрового патернализма. Усиление гражданина - это снижение информационного неравенства между ним и более сильным контрагентом. Например, для усиления гражданина как потребителя ЦБ РФ требует от банков и других финансовых организаций раскрывать довольно много информации о себе. Помогает это в финансовой грамотности? Да, помогает. А вот при госинформатизации нет требований к органам власти раскрывать сведения о том как информационные системы работают, какие данные там содержатся и многое другое. Гостех в этом смысле ничем не отличается. Несмотря на декларируемое развитие "цифрового правительства", из международного термина взяты лишь госуслуги, а большая прозрачность, открытые данные, открытые данные по умолчанию и т.д. просто игнорируются.
- отсутствие актикуляции бизнесу. Это продолжение отсутствие стратегии внедрения Гостеха. Вместо четко сформулированных тезисов о роли Гостеха в государственном ИТ, есть какие-то довольно маловнятные утверждения и выступления о его важности и ни одного четкого плана его внедрения. Я напомню что большая часть государственных информационных систем делается примерно 20-30 крупнейшими системными интеграторами и они все очень разные. Их перевод на другую платформу - это долго, дорого, сложно и малореалистично. А самое главное - даже не декларируется.
В качестве резюме, я ещё раз подчеркну что хвалить ГосТех в его текущей форме очень сложно. Можно игнорировать, можно критиковать, вопрос лишь в том кого ругать. Авторов этой затеи или тех кто должен был бы выступать их заказчиками?
#government #govtech #technology #data #transparency
Интересное и познавательное чтение про то как Amazon изучал рынок блокчейна в 2016 году, но компания не стала в него вкладываться [1]. Автор, Тим Брэй, бывший вице президент Amazon тогда изучал блокчейн-стартапы, встречался с финансовыми компаниями/банками/представителями бирж и по сути изучал рынок и спрос. Изучение показало что:
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.
Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.
А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]
Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3
#technology #blockchain
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.
Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.
А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]
Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3
#technology #blockchain
Forbes
ASX Chairman Apologizes After Writing Off $165 Million Blockchain Project
Distributed ledger effort pulled after six years of development; reviews find it still doesn’t meet standards.
Интересное чтение про данные, технологии и не только։
- A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing [1] в OpenAI сделали бота который умеет "крафтить" инструменты в Minecraft и играть значительно лучше людей. Но фишка не в Minecraft'е, а в том что бот обучался на 70 тысячах часах видео и далее воспроизводил сложные действия людей. Иначе говоря, если иметь значительное время записи действий человека, то с помощью ИИ можно гораздо быстрее обучать машины делать какие-либо ручные монотонные действия.
- Trino at Apple [2] о том как работает движок для распределённых запросов Trino внутри Apple. Интерактивность выступления оставляет желать лучшего, а содержание интересно, поскольку инфраструктура у Apple велика и задачи непростые.
- Snack Stack: If Programming Languages Were Desserts … [3] если бы языки программирования были бы десертами. Лично я никогда бы не проассоциировал Perl с молекулярной кухней, но фантазии у автора весьма яркие, читать смешно.
- Modern Data Modeling: Start with the End? [4] современное моделирование данных с акцентом на dbt. Скорее техническое чем глубоко концептуальное, но небесполезное.
- Data Gaps Initiative [5] инициатива министров финансов G20 после финансового кризиса в 2009 году по систематизации сбора данных которые помогли бы предотвратить следующий подобный кризис. Во время встречи лидеров G20 на Бали инициативу расширили [6] на такие темы как։ изменение климата, распределение доходов и богатства, финтех и фининклюзивность и доступ к частным источникам данных и повышении качества, точности и оперативности официальной статистики.
- We could run out of data to train AI language programs [7] о том что гонка за увеличением объёмов данных для обучения больших языковых моделей уже не работает и что важнее повышать качество данных и работать над связностью используемых тренировочных данных. Проблема, кстати, актуальная в особенности для малых языков для которых мало текстов для обучения.
Ссылки։
[1] https://www.technologyreview.com/2022/11/25/1063707/ai-minecraft-video-unlock-next-big-thing-openai-imitation-learning/
[2] https://trino.io/blog/2022/11/28/trino-summit-2022-apple-recap.html
[3] https://thenewstack.io/snack-stack-if-programming-languages-were-desserts/
[4] https://www.adventofdata.com/modern-data-modeling-start-with-the-end/
[5] https://www.imf.org/en/News/Seminars/Conferences/g20-data-gaps-initiative
[6] https://www.imf.org/en/News/Articles/2022/11/28/pr22410-g20-leaders-welcome-ndgi-to-address-climate-change-inclusion-financial-innovation
[7] https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/
#ai #technology #data #regulation #readings
- A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing [1] в OpenAI сделали бота который умеет "крафтить" инструменты в Minecraft и играть значительно лучше людей. Но фишка не в Minecraft'е, а в том что бот обучался на 70 тысячах часах видео и далее воспроизводил сложные действия людей. Иначе говоря, если иметь значительное время записи действий человека, то с помощью ИИ можно гораздо быстрее обучать машины делать какие-либо ручные монотонные действия.
- Trino at Apple [2] о том как работает движок для распределённых запросов Trino внутри Apple. Интерактивность выступления оставляет желать лучшего, а содержание интересно, поскольку инфраструктура у Apple велика и задачи непростые.
- Snack Stack: If Programming Languages Were Desserts … [3] если бы языки программирования были бы десертами. Лично я никогда бы не проассоциировал Perl с молекулярной кухней, но фантазии у автора весьма яркие, читать смешно.
- Modern Data Modeling: Start with the End? [4] современное моделирование данных с акцентом на dbt. Скорее техническое чем глубоко концептуальное, но небесполезное.
- Data Gaps Initiative [5] инициатива министров финансов G20 после финансового кризиса в 2009 году по систематизации сбора данных которые помогли бы предотвратить следующий подобный кризис. Во время встречи лидеров G20 на Бали инициативу расширили [6] на такие темы как։ изменение климата, распределение доходов и богатства, финтех и фининклюзивность и доступ к частным источникам данных и повышении качества, точности и оперативности официальной статистики.
- We could run out of data to train AI language programs [7] о том что гонка за увеличением объёмов данных для обучения больших языковых моделей уже не работает и что важнее повышать качество данных и работать над связностью используемых тренировочных данных. Проблема, кстати, актуальная в особенности для малых языков для которых мало текстов для обучения.
Ссылки։
[1] https://www.technologyreview.com/2022/11/25/1063707/ai-minecraft-video-unlock-next-big-thing-openai-imitation-learning/
[2] https://trino.io/blog/2022/11/28/trino-summit-2022-apple-recap.html
[3] https://thenewstack.io/snack-stack-if-programming-languages-were-desserts/
[4] https://www.adventofdata.com/modern-data-modeling-start-with-the-end/
[5] https://www.imf.org/en/News/Seminars/Conferences/g20-data-gaps-initiative
[6] https://www.imf.org/en/News/Articles/2022/11/28/pr22410-g20-leaders-welcome-ndgi-to-address-climate-change-inclusion-financial-innovation
[7] https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/
#ai #technology #data #regulation #readings
MIT Technology Review
A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing
Online videos are a vast and untapped source of training data—and OpenAI says it has a new way to use it.
Полезное чтение про данные, технологии и не только։
- Working with large CSV files in Python from Scratch [1] о том как работать с большими CSV файлами и используя Python. Я иного сталкивался и сталкиваюсь с большими CSV файлами, но в этой заметке были и новые техники. Стоит почитать тем кто с работает с CSV файлами регулярно
- Tips For Hiring Junior Data Engineers [2] советы нанимающим дата инженеров начального уровня. Советы все по делу, но, конечно надо учитывать и рыночную специфику тоже.
- Google BigQuery Data Lineage [3] гугл добавляют в BigQuery вкладу про прослеживаемости данных. Большое дело, облегчит жизнь многим и многие коммерческие инструменты обесценит.
- Functional Data Engineering - A Blueprint [4] полезный архитектурный текст от автора Data Engineering Weekly. Хорошая цитата оттуда Data engineering has missed the boat on the “devops movement” and rarely benefits from the sanity and peace of mind it provides to modern engineers. They didn’t miss the boat because they didn’t show up; they missed the boat because the ticket was too expensive for their cargo. Которая. в свою очередь, из The Downfall of the Data Engineer [5]
- Stack Overflow 2022 devlopers survey [6] результаты опроса 70 тысяч разработчиков от Stack Overflow. Интересного много, всё просто даже не перечислишь. Выделил я бы малое число разработчиков использующих Clickhouse и стабильно высокое использование MongoDB. И это если только говорить про СУБД, а там ещё много чего. Но платят более всего тем кто владеет DynamoDB, языком программирования Clojure и веб фреймворком Phoenix
Ссылки։
[1] https://coraspe-ramses.medium.com/working-with-large-csv-files-in-python-from-scratch-134587aed5f7
[2] https://seattledataguy.substack.com/p/tips-for-hiring-junior-data-engineers
[3] https://cloud.google.com/bigquery/docs/data-catalog#data_lineage
[4] https://www.dataengineeringweekly.com/p/functional-data-engineering-a-blueprint
[5] https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
[6] https://survey.stackoverflow.co/2022/
#data #readings #technology
- Working with large CSV files in Python from Scratch [1] о том как работать с большими CSV файлами и используя Python. Я иного сталкивался и сталкиваюсь с большими CSV файлами, но в этой заметке были и новые техники. Стоит почитать тем кто с работает с CSV файлами регулярно
- Tips For Hiring Junior Data Engineers [2] советы нанимающим дата инженеров начального уровня. Советы все по делу, но, конечно надо учитывать и рыночную специфику тоже.
- Google BigQuery Data Lineage [3] гугл добавляют в BigQuery вкладу про прослеживаемости данных. Большое дело, облегчит жизнь многим и многие коммерческие инструменты обесценит.
- Functional Data Engineering - A Blueprint [4] полезный архитектурный текст от автора Data Engineering Weekly. Хорошая цитата оттуда Data engineering has missed the boat on the “devops movement” and rarely benefits from the sanity and peace of mind it provides to modern engineers. They didn’t miss the boat because they didn’t show up; they missed the boat because the ticket was too expensive for their cargo. Которая. в свою очередь, из The Downfall of the Data Engineer [5]
- Stack Overflow 2022 devlopers survey [6] результаты опроса 70 тысяч разработчиков от Stack Overflow. Интересного много, всё просто даже не перечислишь. Выделил я бы малое число разработчиков использующих Clickhouse и стабильно высокое использование MongoDB. И это если только говорить про СУБД, а там ещё много чего. Но платят более всего тем кто владеет DynamoDB, языком программирования Clojure и веб фреймворком Phoenix
Ссылки։
[1] https://coraspe-ramses.medium.com/working-with-large-csv-files-in-python-from-scratch-134587aed5f7
[2] https://seattledataguy.substack.com/p/tips-for-hiring-junior-data-engineers
[3] https://cloud.google.com/bigquery/docs/data-catalog#data_lineage
[4] https://www.dataengineeringweekly.com/p/functional-data-engineering-a-blueprint
[5] https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6b
[6] https://survey.stackoverflow.co/2022/
#data #readings #technology
Medium
Working with large CSV files in Python from Scratch
5 Techniques
Полезное чтение про данные, технологи и не только. Сегодня выпуск посвящённый ИИ։
- PubMedGPT 2.7B [1] языковая модель для задач работы с текстами в области биомедицины. Пока есть гипотезы что языковые модели и продукты на их основе могут подорвать бизнес Google, тем временем можно точно предсказать что у учёных скоро будут инструменты-помощники в исследованиях. В биоинформатике и медицине точно.
- Petals [2] инструмент с открытым кодом для запуска до 100+ языковых моделей без дорогостоящего железа. Вполне возможно может упростить и удешевить работу с такими моделями.
- New software based on Artificial Intelligence helps to interpret complex data [3] ПО для интерпретации сложных данных. Основано на само-обучающихся нейросетях. Описание звучит интересно. Область применения в фотонной диагностике на электронных лазерах.
- 2022: A Year Full of Amazing AI papers- A Review [4] много ссылок на интересные статьи про ИИ за 2022 год. Всегда можно найти что-то что раньше пропустил
- 2 coders made a teleprompter AI that suggests smart things to say during your work meetings [5] два разработчика сделали бота подсказчика для совещаний. На базе GPT-3 и слушающий что Вы говорите и подсказывающий что говорить дальше
- Natural Language Processing Market Size to Reach USD 98.05 Billion in 2030 | Emergen Research [6] а это пожалуй одна из важнейших новостей, оценка рынка естественной обработки языка в 98 миллиардов долларов США к 2030 году. Это очень и очень скоро.
- Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works [7] реальная история о том как на женщину не пропустили на мероприятие от MSG Entertainment поскольку она была среди юристов которые в другом городе вели производство по одному из дел против компании. Всех юристов ведущих дела против компании добавили в систему распознавания лиц и её идентифицировали автоматически и уведомили охрану.
Ссылки։
[1] https://crfm.stanford.edu/2022/12/15/pubmedgpt.html
[2] https://github.com/bigscience-workshop/petals
[3] https://www.sciencedaily.com/releases/2022/12/221220112957.htm
[4] https://github.com/louisfb01/best_AI_papers_2022
[5] https://www.businessinsider.com/tele-prompt-ai-gpt-3-bot-what-to-say-meetings-2022-12
[6] https://finance.yahoo.com/news/natural-language-processing-market-size-193000299.html
[7] https://www.nbcnewyork.com/investigations/face-recognition-tech-gets-girl-scout-mom-booted-from-rockettes-show-due-to-her-employer/4004677/
#data #ai #technology #readings
- PubMedGPT 2.7B [1] языковая модель для задач работы с текстами в области биомедицины. Пока есть гипотезы что языковые модели и продукты на их основе могут подорвать бизнес Google, тем временем можно точно предсказать что у учёных скоро будут инструменты-помощники в исследованиях. В биоинформатике и медицине точно.
- Petals [2] инструмент с открытым кодом для запуска до 100+ языковых моделей без дорогостоящего железа. Вполне возможно может упростить и удешевить работу с такими моделями.
- New software based on Artificial Intelligence helps to interpret complex data [3] ПО для интерпретации сложных данных. Основано на само-обучающихся нейросетях. Описание звучит интересно. Область применения в фотонной диагностике на электронных лазерах.
- 2022: A Year Full of Amazing AI papers- A Review [4] много ссылок на интересные статьи про ИИ за 2022 год. Всегда можно найти что-то что раньше пропустил
- 2 coders made a teleprompter AI that suggests smart things to say during your work meetings [5] два разработчика сделали бота подсказчика для совещаний. На базе GPT-3 и слушающий что Вы говорите и подсказывающий что говорить дальше
- Natural Language Processing Market Size to Reach USD 98.05 Billion in 2030 | Emergen Research [6] а это пожалуй одна из важнейших новостей, оценка рынка естественной обработки языка в 98 миллиардов долларов США к 2030 году. Это очень и очень скоро.
- Face Recognition Tech Gets Girl Scout Mom Booted From Rockettes Show — Due to Where She Works [7] реальная история о том как на женщину не пропустили на мероприятие от MSG Entertainment поскольку она была среди юристов которые в другом городе вели производство по одному из дел против компании. Всех юристов ведущих дела против компании добавили в систему распознавания лиц и её идентифицировали автоматически и уведомили охрану.
Ссылки։
[1] https://crfm.stanford.edu/2022/12/15/pubmedgpt.html
[2] https://github.com/bigscience-workshop/petals
[3] https://www.sciencedaily.com/releases/2022/12/221220112957.htm
[4] https://github.com/louisfb01/best_AI_papers_2022
[5] https://www.businessinsider.com/tele-prompt-ai-gpt-3-bot-what-to-say-meetings-2022-12
[6] https://finance.yahoo.com/news/natural-language-processing-market-size-193000299.html
[7] https://www.nbcnewyork.com/investigations/face-recognition-tech-gets-girl-scout-mom-booted-from-rockettes-show-due-to-her-employer/4004677/
#data #ai #technology #readings
GitHub
GitHub - bigscience-workshop/petals: 🌸 Run LLMs at home, BitTorrent-style. Fine-tuning and inference up to 10x faster than offloading
🌸 Run LLMs at home, BitTorrent-style. Fine-tuning and inference up to 10x faster than offloading - bigscience-workshop/petals
Полезное чтение про данные, технологии и не только։
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.
- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.
- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.
- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.
- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.
- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.
Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] https://t.iss.one/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/
#data #datatools #readings #technology
- Data science has a tool obsession [1] о том что в data science все слишком много обсуждают инструменты и что не всё сводится к инструментам.
- What if we rewrite everything ? [2] рассуждения о техническом долге и мыслях многих разработчиков о том что "всё надо переписать!". Кстати о техническом долге, главное отличие миддлов от сеньёров в осознании что не всегда и не всё можно и нужно переписывать, а вот документировать надо всегда.
- HTTPIE AI [3] изначально httpie была очень удобной, я бы даже сказал элегантной утилитой командной строки чтобы делать запросы к API, а теперь анонсируют AI Assistant превращающий человеческий текст в запросы. В прошлом году они подняли $6.5M инвестиций [4] и активно делают облачный сервис. Я ещё удивлялся в чём их бизнес модель, а они нацеливаются на вот такие фишки. ИМХО, в таком виде бизнес преимуществ немного.
- Recap: A Data Catalog for People Who Hate Data Catalogs [5] автор сделал то о чём я лично давно думал, каталог данных не для людей, а я для машин. Вернее, сделал некий хороший прототип с поддержкой кучи СУБД, но без документации и тд. Посмотрю как будет развиваться.
- Introducing ADBC: Database Access for Apache Arrow [6] проект по универсализации доступа к СУБД без привязки к вендорам, альтернатива JDBC и ODBC и с поддержкой стандарта/формата Arrow по умолчанию. Выглядит логично и полезно․ Расшифровывается как Arrow Database Connectivity.
- Salesforce Guts Tableau After Spending $15.7 Billion in 2019 Deal [7] в Salesforce увольняют 10% сотрудников, включая тех кто работает в приобретённым ими ранее Tableau. Интересно как это отразится на продукте в итоге.
Ссылки։
[1] https://counting.substack.com/p/data-science-has-a-tool-obsession
[2] https://blog.malt.engineering/what-if-we-rewrite-everything-e1662e86da41
[3] https://httpie.io/blog/ai
[4] https://t.iss.one/begtin/3871
[5] https://cnr.sh/essays/recap-for-people-who-hate-data-catalogs
[6] https://arrow.apache.org/blog/2023/01/05/introducing-arrow-adbc/
#data #datatools #readings #technology
Counting Stuff
Data science has a tool obsession
That we need to balance out
Чуть подробнее про Critical Technology Tracker [1] проект австралийского мозгового центра ASPI по отслеживанию ведущих научных центров и исследователей по наиболее значимым (критичным) технологиям.
Сделано в виде красивой интерактивной визуализации, весьма наглядно и можно увидеть рейтинги отдельных исследовательских центров и то как перетекают студенты вузов между странами и далее, кто из них остаётся получать научные степени и работать в индустрии.
На картинках примеры визуализации по России и в области анализа данных, но, сразу скажу, рейтинги России тут невысоки. В большинстве направлений лидируют Китай и США с большим отрывом и ещё где-то присутствуют Индия, страны ЕС, Великобритания и Южная Корея. А по умным материалам ещё и Иран(!) [2]
Методология этого проекта в анализе публикаций исследователей и их цитирования. Кто-то может измерять вклад стран по числу патентов, но важнее понимать что почти все такие сравнения стран показывают лидерство Китая.
Ссылки:
[1] https://techtracker.aspi.org.au/
[2] https://techtracker.aspi.org.au/tech/smart-materials/?c1=ir
#china #technology #australia #data #ratings
Сделано в виде красивой интерактивной визуализации, весьма наглядно и можно увидеть рейтинги отдельных исследовательских центров и то как перетекают студенты вузов между странами и далее, кто из них остаётся получать научные степени и работать в индустрии.
На картинках примеры визуализации по России и в области анализа данных, но, сразу скажу, рейтинги России тут невысоки. В большинстве направлений лидируют Китай и США с большим отрывом и ещё где-то присутствуют Индия, страны ЕС, Великобритания и Южная Корея. А по умным материалам ещё и Иран(!) [2]
Методология этого проекта в анализе публикаций исследователей и их цитирования. Кто-то может измерять вклад стран по числу патентов, но важнее понимать что почти все такие сравнения стран показывают лидерство Китая.
Ссылки:
[1] https://techtracker.aspi.org.au/
[2] https://techtracker.aspi.org.au/tech/smart-materials/?c1=ir
#china #technology #australia #data #ratings
Интересное чтение про данные, технологии и не только:
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?
- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.
- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.
- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.
- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.
Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/
#opendata #technology #readings #data #games #open
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?
- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.
- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.
- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.
- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.
Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/
#opendata #technology #readings #data #games #open
The Driven
World’s largest battery maker announces major breakthrough in energy density
"A new era of universal electrification of sea, land and air transportation." CATL announces new battery that doubles energy intensity.