Коммерсант пишет про то что Реестр российских IT-компаний ждет еще одна чистка, там и мои комментарии есть.
Лично мне довольно безразлично что критиковать, Минцифры или создаваемый совет. Важно не путать глав ассоциаций и экспертов - глава ассоциации, это, как правило менеджер, лоббист и говорящая голова, а эксперт это человек погруженный в проблемную область. Совмещение, обычно, приводит к душевным травмам, посмотрите на меня, я живой пример;) и радости и результата не приносит.
А вот благодарность мне Максут Шадаев за помощь в чистке реестра так и не выдал. Наверное бумага в министерстве закончилась;)
Ну а если серьёзно, я повторю ещё раз всё ту же ключевую идею. Не надо "танцевать вокруг реестра", есть решение проще. Реестр аккредитованных = реестру ИТ льготников. Нет подтверждения ФНС - нет аккредитации. Все остальные модели сложнее объяснить, сложнее реализовать и так далее.
#government #digital #itmarket
Лично мне довольно безразлично что критиковать, Минцифры или создаваемый совет. Важно не путать глав ассоциаций и экспертов - глава ассоциации, это, как правило менеджер, лоббист и говорящая голова, а эксперт это человек погруженный в проблемную область. Совмещение, обычно, приводит к душевным травмам, посмотрите на меня, я живой пример;) и радости и результата не приносит.
А вот благодарность мне Максут Шадаев за помощь в чистке реестра так и не выдал. Наверное бумага в министерстве закончилась;)
Ну а если серьёзно, я повторю ещё раз всё ту же ключевую идею. Не надо "танцевать вокруг реестра", есть решение проще. Реестр аккредитованных = реестру ИТ льготников. Нет подтверждения ФНС - нет аккредитации. Все остальные модели сложнее объяснить, сложнее реализовать и так далее.
#government #digital #itmarket
Все ещё не наигрались с искусственными изображениями создаваемыми ИИ MidJourney, а уже появился движок Stable Diffusion от стартапа Stability AI умеющие генерировать изображения людей, например, знаменитостей. В TechCrunch большая статья про потенциальные последствия и возможности этой системы [1].
Опуская технические подробности её реализации, как вы думаете какие последствия для человечества может принести развитие этой технологии?
Ссылки:
[1] https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/
#ai #ethics
Опуская технические подробности её реализации, как вы думаете какие последствия для человечества может принести развитие этой технологии?
Ссылки:
[1] https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/
#ai #ethics
Языковые модели могут учить себя программировать лучше
"Пугающее" название научной статьи по весьма актуальной теме Language Models Can Teach Themselves to Program Better [1] о том что языковые модели, в данном случае модель Codex, умеют не только решать программные задачи, но и улучшать код этих решений.
Тема интересная и я считаю что её категорически нельзя недооценивать. Программная инженерия всё более стремится к автоматизации. Как это поменяет рынок труда сейчас говорить рано, но определённо поменяет.
Ссылки:
[1] https://arxiv.org/abs/2207.14502
#ai #languagemodels #programming
"Пугающее" название научной статьи по весьма актуальной теме Language Models Can Teach Themselves to Program Better [1] о том что языковые модели, в данном случае модель Codex, умеют не только решать программные задачи, но и улучшать код этих решений.
Тема интересная и я считаю что её категорически нельзя недооценивать. Программная инженерия всё более стремится к автоматизации. Как это поменяет рынок труда сейчас говорить рано, но определённо поменяет.
Ссылки:
[1] https://arxiv.org/abs/2207.14502
#ai #languagemodels #programming
Для тех кто пользуется MongoDB и постоянно ищет альтернативы, OxideDB [1] эмуляция MongoDB поверх PostgreSQL. Внутри движок которые запихивает объёкты документов в тип JSON для PostgreSQL и умеет конвертировать запросы MongօDB (язык MQL) в сложные SELECT.
Это не первая попытка проделать такое, эмулировать интерфейсы MongoDB в других СУБД и определенно эта попытка внимания заслуживает.
Зачем это нужно?
Две важнейшие причины:
1. Недооткрытый код MongoDB под SSPL лицензией. Для открытых сообществ - это как красная тряпка, для инфраструктурного бизнеса это ограничитель к облачному применению.
2. MongoDB далеко не оптимально по производительности, а тут возможность использовать наработки других СУБД.
3. Многим хочется иметь SQL и NoSQL сразу из коробки и давать удобные инструменты для каждой команды.
Ссылки:
[1] https://github.com/fcoury/oxide
#opensource #dbms #datatools #nosql #mongodb
Это не первая попытка проделать такое, эмулировать интерфейсы MongoDB в других СУБД и определенно эта попытка внимания заслуживает.
Зачем это нужно?
Две важнейшие причины:
1. Недооткрытый код MongoDB под SSPL лицензией. Для открытых сообществ - это как красная тряпка, для инфраструктурного бизнеса это ограничитель к облачному применению.
2. MongoDB далеко не оптимально по производительности, а тут возможность использовать наработки других СУБД.
3. Многим хочется иметь SQL и NoSQL сразу из коробки и давать удобные инструменты для каждой команды.
Ссылки:
[1] https://github.com/fcoury/oxide
#opensource #dbms #datatools #nosql #mongodb
Я недавно критиковал ГосТех [1] за плохое описание международного опыта, но реальная критика будет в том что про международный опыт они вообще никак и ни в какой форме не должны были и не должны писать. Они могут и, я считаю, что должны писать про российский опыт. Про то почему технологии выбираются, применяются, используются и почему вообще всё это нужно. Потому что, в отличие от текстов про других, тексты про себя не проСММить.
У меня есть заготовка для большого лонгрида почему в России всё катастрофически плохо с публичным технологическим евангелизмом для госпроектов, но, пока, покидаю Вам ссылок на то как рассказывают о технологиях в гос-ве в других странах и органах власти.
В Великобритании существует большой портал blog.gov.uk в котором очень много технологических блогов и тем из которых я бы выделил Inside GOV.UK [2] где, например, рассказывают как отказались от JQuery для портала gov.uk, как проектировали его веб-интерфейсы, как портал улучшается. Казалось бы ничего сложного, но это сделано системно и публикации там регулярные.
Другой их блог Data in Government [3] про то как работают с данными аналитики и разработчики. Там много всего интересного, мне было любопытно читать их тексты про Reproducible Analytical Pipelines (RAP) [4] о системном подходе к госаналитике данных. Кроме этих блогов есть ещё многие другие, про цифру, про технологии, про данные.
В США про госИТ пишет лучше всего команда 18F [5] про переделку госпорталов на новых технологиях и многое другое. Про данные там меньше, про документирование, фронтэнд, архитектуру и пользователей немало. В США куда хуже с централизованным блоггингом, блоги рассеяны по сайтам ведомств, но их много, просто очень много.
Сингапурский Гостех ведёт около десятка публичных блогов, например, вот такой основной Government Digital Services, Singapore [6], а вот ещё Open Government Products [7].
Новая Зеландия относительно небольшая страна, но там тоже есть блог у местного цифрового ведомства с кучей технических подробностей [8]․
В России культура государственных блогов, в том числе технологических, пропала где-то 5 лет назад. Она выродилась в ограниченное число блогов в твиттере и инстаграм политических персон, значительно меньшее число телеграм каналов некоторых госинициатив и почти тотальный запрет на публичные блоги госслужащих/чиновников.
Ну а блоги многих госинициатив как и их сайты слишком часто превращаются в бесконечный непрофильный СММ, пресс релизы, "новости отрасли" и прочий шлак.
Даже не знаю что рекомендовать читать на русском языке.
Ссылки:
[1] https://t.iss.one/begtin/4152
[2] https://insidegovuk.blog.gov.uk/
[3] https://dataingovernment.blog.gov.uk/
[4] https://analysisfunction.civilservice.gov.uk/policy-store/reproducible-analytical-pipelines-strategy/
[5] https://18f.gsa.gov/blog/
[6] https://medium.com/singapore-gds
[7] https://opengovsg.medium.com/
[8] https://www.digital.govt.nz/blog/
#government #digital #blogging
У меня есть заготовка для большого лонгрида почему в России всё катастрофически плохо с публичным технологическим евангелизмом для госпроектов, но, пока, покидаю Вам ссылок на то как рассказывают о технологиях в гос-ве в других странах и органах власти.
В Великобритании существует большой портал blog.gov.uk в котором очень много технологических блогов и тем из которых я бы выделил Inside GOV.UK [2] где, например, рассказывают как отказались от JQuery для портала gov.uk, как проектировали его веб-интерфейсы, как портал улучшается. Казалось бы ничего сложного, но это сделано системно и публикации там регулярные.
Другой их блог Data in Government [3] про то как работают с данными аналитики и разработчики. Там много всего интересного, мне было любопытно читать их тексты про Reproducible Analytical Pipelines (RAP) [4] о системном подходе к госаналитике данных. Кроме этих блогов есть ещё многие другие, про цифру, про технологии, про данные.
В США про госИТ пишет лучше всего команда 18F [5] про переделку госпорталов на новых технологиях и многое другое. Про данные там меньше, про документирование, фронтэнд, архитектуру и пользователей немало. В США куда хуже с централизованным блоггингом, блоги рассеяны по сайтам ведомств, но их много, просто очень много.
Сингапурский Гостех ведёт около десятка публичных блогов, например, вот такой основной Government Digital Services, Singapore [6], а вот ещё Open Government Products [7].
Новая Зеландия относительно небольшая страна, но там тоже есть блог у местного цифрового ведомства с кучей технических подробностей [8]․
В России культура государственных блогов, в том числе технологических, пропала где-то 5 лет назад. Она выродилась в ограниченное число блогов в твиттере и инстаграм политических персон, значительно меньшее число телеграм каналов некоторых госинициатив и почти тотальный запрет на публичные блоги госслужащих/чиновников.
Ну а блоги многих госинициатив как и их сайты слишком часто превращаются в бесконечный непрофильный СММ, пресс релизы, "новости отрасли" и прочий шлак.
Даже не знаю что рекомендовать читать на русском языке.
Ссылки:
[1] https://t.iss.one/begtin/4152
[2] https://insidegovuk.blog.gov.uk/
[3] https://dataingovernment.blog.gov.uk/
[4] https://analysisfunction.civilservice.gov.uk/policy-store/reproducible-analytical-pipelines-strategy/
[5] https://18f.gsa.gov/blog/
[6] https://medium.com/singapore-gds
[7] https://opengovsg.medium.com/
[8] https://www.digital.govt.nz/blog/
#government #digital #blogging
Telegram
Ivan Begtin
Как и многие имевшие отношение к госИТ я читаю телеграм канал ГосТех'а и их последние тексты про мировой опыт ИТ в государстве.
Как бы при этом сказать, уровень этих текстов удручающий, ещё лет 7-8 назад я видел куда более детальный анализ того что делается…
Как бы при этом сказать, уровень этих текстов удручающий, ещё лет 7-8 назад я видел куда более детальный анализ того что делается…
В рубрике как это работает у них, порталы открытых данных латиноамериканских стран.
Портал открытых данных Перу [1] создан на базе движка CKAN в 2020 году согласно декрету цифровой трансформации страны. Содержит 7363 набора данных включая 56 наборов данных про COVID-19
Портал открытых данных Мексики [3] включает 9.8 тысяч наборов данных (40.7 тысяч файлов) от 280 органов власти. Также создан на базе движка CKAN. Большая часть данных опубликованы по темам качества жизни, инфраструктуры и образования.
Портал открытых данных Парагвая [4]. Данных пока немного, всего 251 набор данных. Также на базе CKAN.
Аналогично порталы открытых данных есть у всех стран Латинской Америки. Как правило на базе открытого кода, обновляющиеся, чаще всего с данными в форматах CSV.
В испаноязычном мире открытые данные (datos abiertos) - это одна из актуальных тем и таких порталов появляется всё больше.
Ссылки:
[1] https://www.datosabiertos.gob.pe/
[2] https://www.gob.pe/institucion/pcm/normas-legales/395320-006-2020
[3] https://datos.gob.mx/
[4] https://www.datos.gov.py
#opendata #spanish #government #opengov
Портал открытых данных Перу [1] создан на базе движка CKAN в 2020 году согласно декрету цифровой трансформации страны. Содержит 7363 набора данных включая 56 наборов данных про COVID-19
Портал открытых данных Мексики [3] включает 9.8 тысяч наборов данных (40.7 тысяч файлов) от 280 органов власти. Также создан на базе движка CKAN. Большая часть данных опубликованы по темам качества жизни, инфраструктуры и образования.
Портал открытых данных Парагвая [4]. Данных пока немного, всего 251 набор данных. Также на базе CKAN.
Аналогично порталы открытых данных есть у всех стран Латинской Америки. Как правило на базе открытого кода, обновляющиеся, чаще всего с данными в форматах CSV.
В испаноязычном мире открытые данные (datos abiertos) - это одна из актуальных тем и таких порталов появляется всё больше.
Ссылки:
[1] https://www.datosabiertos.gob.pe/
[2] https://www.gob.pe/institucion/pcm/normas-legales/395320-006-2020
[3] https://datos.gob.mx/
[4] https://www.datos.gov.py
#opendata #spanish #government #opengov
Свежая и полезная книжка Fundamentals of Data Observability от Andy Petrella из стартапа Kensu в виде первых двух глав. Можно скачать через форму на сайте Kensu, а можно и сразу по этой прямой ссылке. По прямой ссылке не надо оставлять свои контакты;)
Книга полезная тем что хотя и автор из стартапа профильного в теме наблюдаемости данных (data observability) в книге не самореклама, а реальное объяснение компонентной структуры и концепций наблюдения за данными и процессами.
#data #books #review
Книга полезная тем что хотя и автор из стартапа профильного в теме наблюдаемости данных (data observability) в книге не самореклама, а реальное объяснение компонентной структуры и концепций наблюдения за данными и процессами.
#data #books #review
Вы беременны и используете приложение для отслеживания своего здоровья? Почти 100% за Вами следят
Если бы я писал статью в популярный журнал, я бы начал именно с такого заголовка
У фонда Mozilla интересный проект Privacy not included по анализу приватности в мобильных приложениях. Я писал о нём коротко в мае 2022 г. [1], но тема шире и интереснее.
Исследователи в Mozilla проверяют приложения на предмет того:
- как компания использует данные
- можете ли Вы управлять Вашими данными
- какова история компании в использовании данных
- дружелюбность информации о приватности
- можно ли продукт использовать оффлайн
А также минимальные проверки безопасности:
- используется ли шифрование
- позволяют ли они использовать слабые пароли
А также несколько критериев применения ИИ:
- используется ли ИИ?
- доверенный ли ИИ?
- прозрачны ли решения компании по использованию ИИ?
и ещё много чего другого, почитайте методологию [2]
А теперь пример, в Mozilla проверили 20 наиболее популярных приложений для отслеживания здоровья в период беременности и признали 18 из 20 как не обеспечивающие приватность. [3]
При этом они не анализировали наличие кода передачи данным третьим сторонам (трекерам). Например, приложение Period Tracker [4] помечено как не обеспечивающее приватность, а если ещё и посмотреть на отчет в Exodus Privacy [5] то можно найти внешние 8 трекеров в этом приложении.
Почему Mozilla эту информацию не учитывают не знаю, по своему важны оценки, и их ручной проверки, и автоматической от Exodus Privacy.
А теперь, внимание вопрос, неужели кто-то полагает что аналогичные приложения в России или в других не-англоязычных странах существуют иначе?
Год назад примерно мы публиковали доклад от приватности мобильных приложений публикуемых госорганами [6]․ Всего 44 приложения тогда было и, как Вы догадываетесь, их приватность была далека от совершенства.
В качестве преданонса, и я об этом уже писал, в этом году мы скоро опубликуем исследование на ту же тему.
Оно обязательно выйдет в Телеграм канале Информационная культура, подписывайтесь и не переключайте каналы!
Ссылки:
[1] https://t.iss.one/begtin/3826
[2] https://foundation.mozilla.org/en/privacynotincluded/about/methodology/
[3] https://foundation.mozilla.org/en/privacynotincluded/categories/reproductive-health/
[4] https://foundation.mozilla.org/en/privacynotincluded/period-tracker/
[5] https://reports.exodus-privacy.eu.org/en/reports/com.period.tracker.lite/latest/
[6] https://privacygosmobapps.infoculture.ru/
#privacy #android #mobile #surveillance
Если бы я писал статью в популярный журнал, я бы начал именно с такого заголовка
У фонда Mozilla интересный проект Privacy not included по анализу приватности в мобильных приложениях. Я писал о нём коротко в мае 2022 г. [1], но тема шире и интереснее.
Исследователи в Mozilla проверяют приложения на предмет того:
- как компания использует данные
- можете ли Вы управлять Вашими данными
- какова история компании в использовании данных
- дружелюбность информации о приватности
- можно ли продукт использовать оффлайн
А также минимальные проверки безопасности:
- используется ли шифрование
- позволяют ли они использовать слабые пароли
А также несколько критериев применения ИИ:
- используется ли ИИ?
- доверенный ли ИИ?
- прозрачны ли решения компании по использованию ИИ?
и ещё много чего другого, почитайте методологию [2]
А теперь пример, в Mozilla проверили 20 наиболее популярных приложений для отслеживания здоровья в период беременности и признали 18 из 20 как не обеспечивающие приватность. [3]
При этом они не анализировали наличие кода передачи данным третьим сторонам (трекерам). Например, приложение Period Tracker [4] помечено как не обеспечивающее приватность, а если ещё и посмотреть на отчет в Exodus Privacy [5] то можно найти внешние 8 трекеров в этом приложении.
Почему Mozilla эту информацию не учитывают не знаю, по своему важны оценки, и их ручной проверки, и автоматической от Exodus Privacy.
А теперь, внимание вопрос, неужели кто-то полагает что аналогичные приложения в России или в других не-англоязычных странах существуют иначе?
Год назад примерно мы публиковали доклад от приватности мобильных приложений публикуемых госорганами [6]․ Всего 44 приложения тогда было и, как Вы догадываетесь, их приватность была далека от совершенства.
В качестве преданонса, и я об этом уже писал, в этом году мы скоро опубликуем исследование на ту же тему.
Оно обязательно выйдет в Телеграм канале Информационная культура, подписывайтесь и не переключайте каналы!
Ссылки:
[1] https://t.iss.one/begtin/3826
[2] https://foundation.mozilla.org/en/privacynotincluded/about/methodology/
[3] https://foundation.mozilla.org/en/privacynotincluded/categories/reproductive-health/
[4] https://foundation.mozilla.org/en/privacynotincluded/period-tracker/
[5] https://reports.exodus-privacy.eu.org/en/reports/com.period.tracker.lite/latest/
[6] https://privacygosmobapps.infoculture.ru/
#privacy #android #mobile #surveillance
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
Полезное чтение про данные и не только:
- The Data Business Partnership [1] про партнерство дата-команд с бизнес подразделениями в компаниях. Актуально для больших и средних компаниях как голос за разделение ответственности и заинтересованность в результате любого дата-проекта
- Lessons I Learned From Building Self-Service Data Platform [2] автор рассуждает о пользе перехода на платформу управления данными в режиме самообслуживания.
- стартап Explo поднял $12M инвестиций на Series A [3], Explo - это система удобных дашбордов и, по сути, упрощение работы с аналитикой. Всего у них около 40+ платящих клиентов
- десять принципов доставки дата-проектов [4] по моему я о них не писал, принципы простые и полезные.
- запущен Dagster Cloud [5] для тех кто не помнит, Dagster - это такой open-source движок для работы с трубами данных и управлением данными. Ожидаемая бизнес модель open source + cloud.
Ссылки:
[1] https://locallyoptimistic.com/post/the-data-business-partnership/
[2] https://betterprogramming.pub/lessons-i-learned-from-building-self-service-data-platform-8dc1fa1fdee9
[3] https://www.explo.co/blog/explo-raises-12m-series-a-for-customer-facing-analytics
[4] https://towardsdatascience.com/top-10-most-powerful-lessons-i-learned-by-delivering-data-projects-4dcb647f5219
[5] https://dagster.io/blog/dagster-cloud-ga-launch
#startups #data #readings
- The Data Business Partnership [1] про партнерство дата-команд с бизнес подразделениями в компаниях. Актуально для больших и средних компаниях как голос за разделение ответственности и заинтересованность в результате любого дата-проекта
- Lessons I Learned From Building Self-Service Data Platform [2] автор рассуждает о пользе перехода на платформу управления данными в режиме самообслуживания.
- стартап Explo поднял $12M инвестиций на Series A [3], Explo - это система удобных дашбордов и, по сути, упрощение работы с аналитикой. Всего у них около 40+ платящих клиентов
- десять принципов доставки дата-проектов [4] по моему я о них не писал, принципы простые и полезные.
- запущен Dagster Cloud [5] для тех кто не помнит, Dagster - это такой open-source движок для работы с трубами данных и управлением данными. Ожидаемая бизнес модель open source + cloud.
Ссылки:
[1] https://locallyoptimistic.com/post/the-data-business-partnership/
[2] https://betterprogramming.pub/lessons-i-learned-from-building-self-service-data-platform-8dc1fa1fdee9
[3] https://www.explo.co/blog/explo-raises-12m-series-a-for-customer-facing-analytics
[4] https://towardsdatascience.com/top-10-most-powerful-lessons-i-learned-by-delivering-data-projects-4dcb647f5219
[5] https://dagster.io/blog/dagster-cloud-ga-launch
#startups #data #readings
Locally Optimistic
The Data Business Partnership - Locally Optimistic
Data business partners (DBPs) leverage their extensive analytics, business intelligence, and data curation experiences in order to design and implement effective data strategies and projects within the team, all in collaboration with other team leaders.
Очень интересное исследование международного рынка специалистов по анализу данных (data analytics) [1] с карьерного саммита дата аналитиков.
По востребованности навыков (требований) в вакансиях:
- SQL значительно набирает популярность, +27% с 2020 года с 32% до 59%
- PowerBI, Tableau, Excel - растут в популярности, на 16%, 23% и 14% соответственно
- у Python +9% популярности, до 25%
- у R +7% популярности до 19%
Я подозреваю что резкий рост популярности SQL не обошёлся без развития modern data stack и конкретно развития dbt.
И, что особенно интересно, всё более исчезает требование по наличию отраслевого опыта, изменения с 35% до 16%.
Там ещё много всяких цифр и графиков, для тех кто рассматривает себя в мировом рынке дата-аналитики будет полезно.
И, дополнением, аналитика по ролям в вакансиях в сообществе dbt [2] на основе анализа около 3 тысяч вакансий. Виден рост роли "analytical engineer" собственно в dbt придуманный и продвигаемый.
Ссылки:
[1] https://www.youtube.com/watch?v=HrSDlSGEtW0&t=8679s
[2] https://www.reddit.com/r/dataengineering/comments/wq0n3n/we_looked_into_how_data_job_postings_in_the_dbt/
#data #analytics #careers
По востребованности навыков (требований) в вакансиях:
- SQL значительно набирает популярность, +27% с 2020 года с 32% до 59%
- PowerBI, Tableau, Excel - растут в популярности, на 16%, 23% и 14% соответственно
- у Python +9% популярности, до 25%
- у R +7% популярности до 19%
Я подозреваю что резкий рост популярности SQL не обошёлся без развития modern data stack и конкретно развития dbt.
И, что особенно интересно, всё более исчезает требование по наличию отраслевого опыта, изменения с 35% до 16%.
Там ещё много всяких цифр и графиков, для тех кто рассматривает себя в мировом рынке дата-аналитики будет полезно.
И, дополнением, аналитика по ролям в вакансиях в сообществе dbt [2] на основе анализа около 3 тысяч вакансий. Виден рост роли "analytical engineer" собственно в dbt придуманный и продвигаемый.
Ссылки:
[1] https://www.youtube.com/watch?v=HrSDlSGEtW0&t=8679s
[2] https://www.reddit.com/r/dataengineering/comments/wq0n3n/we_looked_into_how_data_job_postings_in_the_dbt/
#data #analytics #careers
В рубрике интересных наборов данных ДетКорпус [1] аннотированный корпус русской детской литературы, который отражает литературный процесс XX—XXI в. Включает включает более 2273 прозаических произведений, написанных на русском языке в период с 1900-х по 2010-е годы и адресованных детям и подросткам.
Опубликован в виде интерфейса для поиска и в виде набора данных, общим объёмом около 1 ГБ в архиве [2] и под лицензией Creative Commons Zero.
Полезный набор данных для многих задач связанных с анализом текстов для детей и изучением русского языка в принципе.
Ссылки:
[1] https://detcorpus.ru/
[2] https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2021.4-C001
#opendata #datasets #russian #languages
Опубликован в виде интерфейса для поиска и в виде набора данных, общим объёмом около 1 ГБ в архиве [2] и под лицензией Creative Commons Zero.
Полезный набор данных для многих задач связанных с анализом текстов для детей и изучением русского языка в принципе.
Ссылки:
[1] https://detcorpus.ru/
[2] https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2021.4-C001
#opendata #datasets #russian #languages
Многие кто пишет сейчас про ИТ, про данные, про разработку ПО пишут про карьерные треки для разработчиков, дата инженеров и дата сайентистов.
Я думал было тоже написать о том что лучше изучать, порекомендовать тем кто думает о карьере о том с чего начать, но вместо этого я очень коротко расскажу на своём примере о решениях в карьере которые могут многое изменить.
Мне сейчас 42 при том что программирую я с 6 лет (на минимальном уровне) и с 15 лет осмысленно, начиная с программ на ассемблере на бумаге в тетрадке и далее где-то стандартный, где-то не всегда стандартный набор инструментов и языков программирования моего поколения (Pascal, C/C++, Tcl/Tk, C#, Java, Shell и тому подобное).
Так вот в жизни я дважды приходил к состоянию когда я приходил к тому что возникает развилка в виде отказа от технических навыков или их восстановление.
Первый раз - это было в 27 лет, когда я за 8 лет успел поработать на сисадмином спутниковых сетей, автоматизатором тестирования, программистом, системным архитектором и руководителем проектов и далее мой выбор был между тем чтобы полностью в управление проектами или восстанавливать технические навыки. Вместо продолжения корпоративной карьеры я выбрал создание своего стартапа, тогда он не взлетел, и полное восстановление технических навыков. Я, фактически, почти с нуля восстановил знания Python на котором я последний раз программировал в 22 года.
Второй раз - это было относительно недавно, когда за всё время развития цифровых технологий, открытости и тд. моя деятельность сильно сместилась в евангелизм открытости, открытые данные и в управление НКО и бизнесом одновременно. Совмещать написание текстов, управление и сохранение технических навыков очень сложно. Совмещать с общественной деятельностью просиживания штанов в общественных советах ещё сложнее. В какой-то момент я для себя решил что из всей этой общественной движухи оставить только самое важное и восстановить свои технические навыки, в первую очередь в инженерии данных. Поэтому регулярно я не только что-то постоянно учу, но и поддерживаю свои навыки как senior python engineer. Что кажется странным окружающим знающим меня по совершенно другой деятельности;)
Хотя карьерные треки в ИТ делятся на инженерные и управленческие, но ими не ограничиваются. Важны не только заработок, но и число степеней свободы, возможность самореализации и, самое главное удовольствие, от того что ты делаешь.
И вот эти два решения я считаю в моей карьере самыми главными.
В качестве резюме, несколько тезисов которые я могу извлечь из своего опыта:
1. Карьерные треки можно менять, они не так линейны как их описывают, и они показывают твою эволюцию внутри большой/средней компании, а мир гораздо шире чем только такие специализированные пути.
2. Надо понимать что почти всегда переход к управлению или к коммуникациям (технический PR, евангелизм технологий) сопровождается потерей знаний. В какой-то момент возникает выбор о том поддерживать ли их, лично я делал выбор в пользу их восстановления, многие делают его в пользу большей медийности, ухода в полностью управленческое звено и тд.
3. При работе в ИТ необходимо тратить хотя бы 3-4 часа в неделю на изучение чего-то нового и примерно столько же на повторение/проверку/закрепление уже известного.
4. Работа с данными не отличается от всех остальных программных инженерий ничем кроме значительного рыночного спроса и необходимости знания не только общепрограммных языков, но и языков для работы с данными (SQL, GraphQL и тд.)
5. Лучшее портфолио - открытый код, хорошо документированный, решающий четкую задачу, в виде репозитория сделанного по рекомендациям и отражающий что разработчик/инженер умеет программировать, документировать, четко артикулировать задачу и демонстрировать результат. Это всё про профессиональные навыки самоорганизации промышленной разработки.
#careers #thoughts
Я думал было тоже написать о том что лучше изучать, порекомендовать тем кто думает о карьере о том с чего начать, но вместо этого я очень коротко расскажу на своём примере о решениях в карьере которые могут многое изменить.
Мне сейчас 42 при том что программирую я с 6 лет (на минимальном уровне) и с 15 лет осмысленно, начиная с программ на ассемблере на бумаге в тетрадке и далее где-то стандартный, где-то не всегда стандартный набор инструментов и языков программирования моего поколения (Pascal, C/C++, Tcl/Tk, C#, Java, Shell и тому подобное).
Так вот в жизни я дважды приходил к состоянию когда я приходил к тому что возникает развилка в виде отказа от технических навыков или их восстановление.
Первый раз - это было в 27 лет, когда я за 8 лет успел поработать на сисадмином спутниковых сетей, автоматизатором тестирования, программистом, системным архитектором и руководителем проектов и далее мой выбор был между тем чтобы полностью в управление проектами или восстанавливать технические навыки. Вместо продолжения корпоративной карьеры я выбрал создание своего стартапа, тогда он не взлетел, и полное восстановление технических навыков. Я, фактически, почти с нуля восстановил знания Python на котором я последний раз программировал в 22 года.
Второй раз - это было относительно недавно, когда за всё время развития цифровых технологий, открытости и тд. моя деятельность сильно сместилась в евангелизм открытости, открытые данные и в управление НКО и бизнесом одновременно. Совмещать написание текстов, управление и сохранение технических навыков очень сложно. Совмещать с общественной деятельностью просиживания штанов в общественных советах ещё сложнее. В какой-то момент я для себя решил что из всей этой общественной движухи оставить только самое важное и восстановить свои технические навыки, в первую очередь в инженерии данных. Поэтому регулярно я не только что-то постоянно учу, но и поддерживаю свои навыки как senior python engineer. Что кажется странным окружающим знающим меня по совершенно другой деятельности;)
Хотя карьерные треки в ИТ делятся на инженерные и управленческие, но ими не ограничиваются. Важны не только заработок, но и число степеней свободы, возможность самореализации и, самое главное удовольствие, от того что ты делаешь.
И вот эти два решения я считаю в моей карьере самыми главными.
В качестве резюме, несколько тезисов которые я могу извлечь из своего опыта:
1. Карьерные треки можно менять, они не так линейны как их описывают, и они показывают твою эволюцию внутри большой/средней компании, а мир гораздо шире чем только такие специализированные пути.
2. Надо понимать что почти всегда переход к управлению или к коммуникациям (технический PR, евангелизм технологий) сопровождается потерей знаний. В какой-то момент возникает выбор о том поддерживать ли их, лично я делал выбор в пользу их восстановления, многие делают его в пользу большей медийности, ухода в полностью управленческое звено и тд.
3. При работе в ИТ необходимо тратить хотя бы 3-4 часа в неделю на изучение чего-то нового и примерно столько же на повторение/проверку/закрепление уже известного.
4. Работа с данными не отличается от всех остальных программных инженерий ничем кроме значительного рыночного спроса и необходимости знания не только общепрограммных языков, но и языков для работы с данными (SQL, GraphQL и тд.)
5. Лучшее портфолио - открытый код, хорошо документированный, решающий четкую задачу, в виде репозитория сделанного по рекомендациям и отражающий что разработчик/инженер умеет программировать, документировать, четко артикулировать задачу и демонстрировать результат. Это всё про профессиональные навыки самоорганизации промышленной разработки.
#careers #thoughts
Полезный документ Structured and interoperable beneficial ownership data [1] в виде инструкций, методик и рекомендаций как властям стран раскрывать данные о конечных бенефициарах юридических лиц. Документ от команды Open Ownership которые не только публикуют на своём сайте наборы данных конечных бенефициаров, но и продвигают практики раскрытия данных по всему миру.
Тут важна не только сама тема в которой успехи хотя и есть, но сдвигается всё медленно, слишком большое политическое сопротивление в мире, но вот с качеством проработки документов, инструкций и донесения результатов у этой команды весьма хорошо всё организовано.
Не думаю что в России применение этого стандарта возможно в ближайшие годы (десятилетия), но во многих постсоветских странах его уже применяют.
Ссылки:
[1] https://www.openownership.org/en/publications/structured-and-interoperable-beneficial-ownership-data/
#opendata #readings
Тут важна не только сама тема в которой успехи хотя и есть, но сдвигается всё медленно, слишком большое политическое сопротивление в мире, но вот с качеством проработки документов, инструкций и донесения результатов у этой команды весьма хорошо всё организовано.
Не думаю что в России применение этого стандарта возможно в ближайшие годы (десятилетия), но во многих постсоветских странах его уже применяют.
Ссылки:
[1] https://www.openownership.org/en/publications/structured-and-interoperable-beneficial-ownership-data/
#opendata #readings
В рубрике как это работает у них - коммунистический Вьетнам.
В 2020 году во Вьетнаме создали государственный портал открытых данных data.gov.vn [1] который является местом для публикации данных и агрегатором данных из других репозиториев и порталов, таких как портал открытых данных города Хошимин [2] и многих других.
Портал создан на основе проекта портала данных Национального бюро информационных наук и технологий [3] который, в первую очередь агрегировал данные университетов и исследовательских центров.
Важно отметить что хотя на портале декларируется более 10 616 наборов данных, по факту, из них 10 045 - это наборы данных из научного репозитория Ханойского национального университета [4] где 99% материалов - это книги и публикации. То есть в реальности на портале менее 600 наборов данных, но даже если так важен сам факт его наличия в коммунистической азиатской стране где цифровой трансформацией занимается государственный военный холдинг [5].
Кроме того на национальный портал ещё и многие данные просто не попадают, например, с портала данных города Дананг [6], а то есть у портала даже как агрегатора есть куда развиваться.
Все порталы во Вьетнаме делают на базе движка с открытым кодом CKAN, работа порталах построена скорее по модели open by default и качество публикуемых данных пока невелико с одной стороны, с другой стороны видно что сама тема для страны актуальна и национальный и остальные порталы открытых данных развиваются.
Ссылки:
[1] https://data.gov.vn
[2] https://opendata.hochiminhcity.gov.vn
[3] https://dulieu.itrithuc.vn
[4] https://repository.vnu.edu.vn
[5] https://english.mic.gov.vn/Pages/TinTuc/154612/PM-asks-Viettel-group-to-take-lead-in-digital-transformation.html
[6] https://opendata.danang.gov.vn/
#opendata #opengov #vietnam #casestudies
В 2020 году во Вьетнаме создали государственный портал открытых данных data.gov.vn [1] который является местом для публикации данных и агрегатором данных из других репозиториев и порталов, таких как портал открытых данных города Хошимин [2] и многих других.
Портал создан на основе проекта портала данных Национального бюро информационных наук и технологий [3] который, в первую очередь агрегировал данные университетов и исследовательских центров.
Важно отметить что хотя на портале декларируется более 10 616 наборов данных, по факту, из них 10 045 - это наборы данных из научного репозитория Ханойского национального университета [4] где 99% материалов - это книги и публикации. То есть в реальности на портале менее 600 наборов данных, но даже если так важен сам факт его наличия в коммунистической азиатской стране где цифровой трансформацией занимается государственный военный холдинг [5].
Кроме того на национальный портал ещё и многие данные просто не попадают, например, с портала данных города Дананг [6], а то есть у портала даже как агрегатора есть куда развиваться.
Все порталы во Вьетнаме делают на базе движка с открытым кодом CKAN, работа порталах построена скорее по модели open by default и качество публикуемых данных пока невелико с одной стороны, с другой стороны видно что сама тема для страны актуальна и национальный и остальные порталы открытых данных развиваются.
Ссылки:
[1] https://data.gov.vn
[2] https://opendata.hochiminhcity.gov.vn
[3] https://dulieu.itrithuc.vn
[4] https://repository.vnu.edu.vn
[5] https://english.mic.gov.vn/Pages/TinTuc/154612/PM-asks-Viettel-group-to-take-lead-in-digital-transformation.html
[6] https://opendata.danang.gov.vn/
#opendata #opengov #vietnam #casestudies