Ivan Begtin
7.99K subscribers
1.86K photos
3 videos
101 files
4.57K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Вышло исследование Artificial Intelligence Policy and Funding in Canada [1] за авторством Ana Brandusescu [2] о том как в Канаде сформировалась экосистема компаний и их поддержки в области искусственного интеллекта. К исследованию прилагается набор данных в Excel [3] и в других форматах со списком компаний.

У исследования весьма простая и внятная методология основанная на анализе реестров юр. лиц, контрактов, грантов Правительства Канады и других открытых источников. При желании его не сложно повторить в России и масштабы, скорее всего, будут похожи.

Кстати ситуация в Канаде похожа на российскую:
- государство, в основном, инвестирует в технологии ИИ которые помогают частному сектору
- у Канады есть госполитика в области ИИ, но нет национальной стратегии
- компании пойманные правозащитниками на эксплуатации прав человека тем не менее являются предквалифицированными поставщиками для государства
- страх и опасения цифрового колониализма присутствует и там тоже

Хорошее исследование, вполне воспроизводимое в наших реалиях.

Ссылки:
[1] https://www.mcgill.ca/centre-montreal/files/centre-montreal/aipolicyandfunding_report_v8_withinfographic21955.pdf
[2] https://www.mcgill.ca/centre-montreal/people-0/professors-practice/ana-brandusescu
[3] https://www.mcgill.ca/centre-montreal/file/91477

#ai #research #studies
Под вечер пятницы разбавлю регулярные новости рассуждениями.

Я тут было думал поругаться в адрес разного рода докладов и исследований, но понял что на каждый ругаться невозможно, времени не напасёшься на содержательные отзывы. Поэтому я поделюсь личной болью которую я ощущаю когда читаю некоторые (частые) документы отраслевого анализа.

И начну с нескольких тезисов:
1. Есть условные 3 подхода к анализу какой-то отрасли/проблемы/новой технологии.
1.1. Первый - академический, с попыткой соблюдения научной достоверности, ссылками и так далее. Обычно его придерживаются полноценные исследовательские центры .
1.2. Второй - консультативный. Многочисленные консультанты пишут тексты где достаточно смысла чтобы их читали и хотели подробностей, но недостаточно чтобы сделать выводы. Цель - продажа услуг, вполне понятная.
1.3. Экспертно/коммерческий - когда есть компании в отрасли и от них напрямую, их групп или ассоциаций готовится аналитика. Опять же модель понятная - повлиять на регуляторов и продвинуть свои продукты/компетенции
2. Конечно, реальность чуть сложнее, но основные направления эти три.
3. "Нюансы" возникают при смешении жанров. Если доклад пишут консультанты, исследователи и представители бизнеса вместе, то это не добавляет ему репутации/веса, а скорее лишает. Такие исследования оказываются несбалансированными, с очень разным качеством разных частей. Потому что интересы разных авторов разные.
4. Более глубокая проблема в конфликтах интересов. При смешении авторского состава лоббисты перемешиваются с исследователями и часто указываются не от их бизнес интересов. В таких исследованиях деклараций конфликтов интересов нет и они легко вводят в заблуждение читателя, предполагающего по знакомым авторам-исследователям что это исследовательский продукт.
5. Но это не так, смешение профессиональных авторов и "молодых исследователей" или лоббистов или статусных авторов или иных не имеющих к данной теме лиц - это инструмент легализации "экспертов". Создание экспертной видимости для людей не имеющих реального опыта, знаний и компетенций.
6. Таких докладов немало, не один, не два, это довольно популярный жанр в России, хорошо воспринимаемый некоторыми "высокими начальниками"
7. При этом нет ничего урного в исследованиях от коммерческих компаний. Более того они часто бывают хорошо подготовлены, а их эксперты обладают реальным опытом. Но для читающих их лиц принимающих решения в голове всегда есть пометка о коммерческой стороне лоббируемых интересов.
8. Смешение научного, коммерческого (да и консультативного) - это такой способ легализации знания с изначально заложенными конфликтами интересов.

Лично я считаю что незадекларированные конфликты интересов в исследованиях, публикация их от организаций "пустышек" или с непрозрачным финансированием - это, конечно, противоречит этике любой профессиональной экспертной работы.

Как-нибудь я постараюсь изложить всё это более подробно, а пока вот в такой краткой форме.

#studies #thoughts
Для всех кто учится работать с данными и работать с SQL я рекомендую сразу начинать изучать dbt, например, по ссылкам из awesome-dbt [1] и начиная с бесплатного официального курса [2]. Пройдёт год-два максимум и dbt в России начнут повсеместно использовать, а для работы инженера-аналитика (analytics engineer) дистанционно на проект/компанию в любой стране - это будет одна из наиболее востребованных технологий.

Почему dbt? Потому что пока это наиболее развитый инструмент преобразования данных. Если в областях ETL/ELT, data orchestration, data visualization, BI и других есть масштабная конкуренция и авторы и создатели проектов регулярно пишут о том как заменить одно на другое или как отказаться от чего-либо, например, как отказаться от Airflow [3], то про dbt все пишут только о том как они заменили свои механизмы трансформации данных на dbt.

Продукт получился просто таки попаданием в яблочко, в России он мало применяется только по причине малой применимости тут других зарубежных облачных продуктов. Но важная особенность dbt что он, и облачный, и как изначальный open source продукт.

Ссылки:
[1] https://github.com/Hiflylabs/awesome-dbt
[2] https://courses.getdbt.com/collections
[3] https://blog.fal.ai/the-unbundling-of-airflow-2/

#datatools #studies #learning #sql #dbt
У Postman вышел их ежегодный обзор 2022 State of the API Report [1] составленный через опрос разработчиков пользующихся их платформой и схожий с исследованиями JetBrains.

Исследование полезное, много графиков, большая выборка, много чего любопытного. Конечно, с оговоркой что они делают акценты там где их собственный продукт посильнее, а некоторые темы вроде предпочтений по корпоративной интеграции или языки разработки охватывают мало или недостаточно.

Полезно будет, в первую очередь, тем кто выбирает приоритеты в изучении новых технологий.

Ссылки:
[1] https://www.postman.com/state-of-api/how-to-share-the-report/

#api #studies #research #postman
Самое поразительное на рынке труда для меня лично то что многие соискатели работы джуниоры приходят с совсем пустыми резюме. Понятно что составление резюме для многих - это стресс и относят его к soft skills, а не к реальным навыкам. Но, как бы, нет ничего сложного чтобы хотя бы пройти самостоятельно несколько курсов или записаться на один из имеющихся.

Аналогично со специалистами которые меняют специализацию. Сложно интервьюировать людей претендующих на позиции не совпадающие с их предыдущим опытом. Недостаточно просто перечислить 5-10-20 языков программирования, фреймворков и баз данных чтобы показать свои знания.

Поэтому учиться, учиться и ещё раз учиться необходимо непрерывно. Это можно делать для резюме, а можно для себя, потому что профессия обязывает.

Я собрал курсы и программы не на русском языке которые могу порекомендовать, которые прохожу сам и на которые обращаю внимание в резюме которые читаю․ Всё это с акцентом на данные и инженерию данных:
- DataCamp - интерактивная образовательная платформа с акцентом на data science, data engineering, data analytics и языки Python, R и Julia. Организовано очень грамотно, с постепенным повышением сложности и так что не пройти курсы просто невозможно. Стоит максимум $180 за годовую подписку, много бесплатных курсов.
- dbt courses - курсы по инструменту dbt по инженерии данных, бесплатные, дают погружение в то что такое ELT, Modern Data Stack, обработку данных и тд. Требуют базовых знаний программной инженерии, SQL и хотя бы одной SQL СУБД.
- Scylla University - бесплатные курсы по NoSQL СУБД Scylla. Для понимания что такое NoSQL, как устроена Scylla (аналог Apache Cassandra) и многие другие NoSQL связанные темы. Курсов много, все бесплатные.
- Pluralsight - большая платная платформа курсов, я рекомендуют там Core Python, но кому-то может быть интересно что-то другое. Платформа стоит небольших денег, $160 в год, многое бесплатно. Например, тестирование знания. Я раз в полгода тестирую там своё знание Python.
- Redis University - подборка бесплатных курсов от компании Redis по продуктам их Redis Stack включая NoSQL базу данных и другие продукты. Redis - это большая NoSQL экосистема, курсы там весьма полезны для тех кто хочет погружаться в эту тему. Но требует, базовых навыков программирования

Для более глубокого погружения в технологии есть много значительно более серьёзных курсов, сертификаций и тд., но это уже другой уровень специализации и понимания собственного карьерного пути.

#data #education #studies
Отличный открытый курс по анализу данных от Яндекса и Европейского университета в СПб Прикладной анализ данных в социальных науках на русском языке.
Для тех кто только начинает работать с данными или переключается в эту область из другой профессии, рекомендую. Особенно это полезно для тех кто работает с данными в академической среде.

У Яндекса, в принципе, хороший набор русскоязычных хэндбуков. Лично мне не хватает хэндбуков про данные, например, про data discovery. С другой стороны я подозреваю если подходить к делу серьёзно, то мне же самому такой хэндбук надо делать.

#education #studies #learning #dataanalysis #data