Ivan Begtin
8K subscribers
1.9K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Роман Иванов (Кукуц) вместе с группой товарищей на днях открыл поиск по всему архиву ЖЖ с 2000 года по 2015 год [1]. При том что это хороший проект, полезный, но всегда возникает вопрос в том когда многие создающие некоммерческие проекты не вкладывают сил в создание экосистемы. Когда я вижу все подобные проекты, то первый вопрос - отчего не выложить весь архив онлайн? Второй немаловажный вопрос в том что Роман Иванов в общем-то в Яндексе, а ресурсы для сервиса предоставляет Servers.ru [2].

Если причиной этого оказывается что в том что проект некоммерческий, то можно однозначно предположить лишь что Яндекс занимается теперь только коммерческими проектами. То можно было бы назвать социальной ответственностью, работой с сообществом, всё это как-то не очень, прямо скажем. Управление рисками сильно и сильно на первом месте.

А вот свежеанонсированный Clickhouse [3], как инструмент для аналитической обработки данных, очень интересен. Особенно поддержкой SQL чтобы бывает особенно удобно в некоторых случаях.


Ссылки:
[1] https://ljsear.ch/
[2] https://roem.ru/14-06-2016/226387/not-yandex-lj-search/
[3] https://clickhouse.yandex/

#yandex #tech
Почему я с каждым годом все критичнее отношусь к публичным предложениям Яндекса могу проиллюстрировать на последней их инициативе для ЦИКа - https://roem.ru/20-03-2017/245408/new-service-for-voters/

Яндекс _не предлает_ ЦИКу публиковать открытые данные избирательных участков и их регулярно обновлять.
Яндекс _предлагает_ ЦИКу загружать данные по избирательным участкам в их проприетарный Яндекс.Справочник откуда потом никто их как открытые данные не получит.

Яндекс не помогает общей экосистеме, Яндекс использует GR ресурс для замыкания инфраструктуры данных на себя.
Пока это еще какое-то время будет прокатывать,
но рано или поздно это придет к антимонопольному регулированию в Интернете и прямым жалобам конкурентов в ФАС и не только.

Подобное отношение - это лишнее подтверждение того что профессиональные продукты и этика не обязательно идут рядом.

Если делать регулярный рейтинг врагов открытых данных, то туда войдут не только некоторые Министерства, но и некоторые компании.

#opendata #yandex
Яндекс сегодня анонсировал Яндекс.Облако [1], очень интересный сервис с не менее интересными, невысокими тарифами. Подробнее о нем, например, на Roem.ru [2].

Мне, кстати, сервис по структуре, по тарифам, по модели работы очень нравится, но. Не Яндекс же я тут рекламирую, а обращаю внимание на "нюансы".

А нюансы тут таковы:
1. Галочка соглашения с политикой конфиденциальности и условиями использования совмещена с согласием на получение маркетинговых и рекламных материалов по телефону и по электронной почты. А это, скажу вежливо, для компании уровня Яндекса опустить себя до уровня очень низкой социальной ответственности. Я, конечно, всё понимаю, но всё таки. Да, юр лицо отдельное, но это не повод вести себя так.
2. В соглашении об условиях использования [3] Яндекс.Облако не берёт на себя вообще никакой ответственности. Более того в любой момент и в одностороннем порядке может заблокировать доступ, без уведомления, без объяснения причин и в любой момент может внести любые ограничения.
3. Отдельного соглашения о конфиденциальности у Яндекс.Облака нет. Ссылка идёт на соглашение конфиденциальности Яндекса [4] в котором нет учёта специфики, в первую очередь то что на хостинге могут размещаться данные 3-х лиц.
4. Важный аспект всех облачных сервисов и хостинг сейчас - это юрисдикция. Выбирая сервер в Amazon'е (к примеру) и в других крупных облачных сервисах явно указывается то в какой юрисдикции (стране) они находятся и есть выбор.
5. Пункт 3-й вместе с учётом того что юрисдикция российская это дополнительный риск для любого проекта который может внезапно забанить Роскомнадзор. Да, бывают случаи важности блокировок, да есть контент который нельзя распространять, но то как делает это Роскомнадзор позорит Россию больше и разрушает цифровую экосистему больше чем все риски наличия такого контента.

В очередной раз мне очень жаль что в России нет общественной организации защищающей права потребителей в Интернете и с цифровыми сервисами. Кстати тема защиты прав потребителей даже не прозвучала в программе Цифровая экономика. Даже не спрашивайте меня почему;)

Ну а я лично подожду пока хотя бы часть из озвученного выше не прояснится.

Ссылки:
[1] https://cloud.yandex.ru
[2] https://roem.ru/05-09-2018/273262/chetvertiy-milliard/
[3] https://yandex.ru/legal/cloud_termsofuse/
[4] https://yandex.ru/legal/confidential/

#yandex #hosting
Только ленивый уже не написал про падение акций Яндекса после даже только намёка на то что Сбербанк готов купить 30% пакет его акций. Я затрудняюсь сказать хорошо ли будет с этого Яндексу или плохо глобально. Внутри страны точно лучше и проще, будет точка опоры для конкуренции. А вот снаружи врядли станет лучше хоть в какой-то форме.

Главные вопросы тут:
1. Станет ли Яндекс уже точно однострановой компанией, а то есть не имеющей существенных доходов за пределами России?
2. Подпадёт ли когда-либо Сбербанк под санкции и Яндекс соответственно?
3. Сбербанк активно сейчас работает с госсектором, войдет ли Яндекс на этот рынок хоть с одним продуктом ?

#yandex #sberbank
Яндекс запустил сервис Яндекс.Патенты [1] где каждый может теперь поискать информацию о патентах которые когда-либо были зарегистрированы с 1924 года. Об этом пишет vc.ru [2]. Поиск по патентам - это полезный и хороший сервис и хочется искренне порадоваться за Яндекс, но, всегда есть свои но.

Среди множества сервисов поиска которые Яндекс делает очень мало тех которые основаны на данных государства. Может быть даже и нет ни одного основанного именно на данных из госреестров.

Какой ключевой и важнейший вопрос который следует задать самим же себе - как Яндекс получает эти данные? Использует ли компания открытые данные или же получает их эксклюзивным образом.

Я напомню что когда Открытое правительство существовало в России, одним из переломных моментов в восприятии его сообществом было проведение мероприятия в Яндексе где сотрудники Яндекса хвастались и подписывали соглашение с Дептрансом Москвы. Не открытых данных, а по закрытому непубличному соглашению с непрозрачными условиями доступа.

Слишком много подозрений в отношении Яндекса в том что компания стремится быть data монополией и ничего не вкладывает ни в открытость данных ни в экосистему вокруг неё.

Ссылки:
[1] https://yandex.ru/patents
[2] https://vc.ru/services/60286-yandeks-zapustil-poisk-po-patentam

#opendata #yandex #patents
Сделаю редкое отступление от жанра новостей и комментариев к ним и напишу краткий очень субъективный текст.

Все написали про покупку Яндекса Тиньковым Тинькова Яндексом и сейчас активно пишут про презентацию нового бренда СберБанка который, по сути, выстраивают вертикальный монобренд и с тем же Яндексом ещё более активно конкурирует после развода.

С одной стороны мне хочется искренне порадоваться что за Яндекс, что за Тинькова что за Сбер, что несмотря на происходящее в стране есть крупные цифровые холдинги. А с другой, конечно, очень важно чтобы цифровая среда в России не превратилась бы в "выжженую моно/олигопольную поляну" где ты либо принадлежишь к одному из дзайбацу / кейрецу / мега-холдингу, либо оказываешься в ситуации крайне неравного противостояния поскольку чем больше корпорация тем больше у неё ресурсов если не купить твой продукт, то сделать его клон.

Одна из проблем современных цифровых корпораций в том что давний лозунг Google - Don't be evil, ныне не работает. Одних лишь качественных продуктов, хорошей технической поддержки и даже хорошо профинансированного пиара теперь недостаточно для поддержания и сохранения репутации.

И от себя добавлю что если бы была новость о том что Яндекс купил Почту России, а Сбербанк купил Аэрофлот - то многие обрадовались бы куда больше. У Почты России появился бы шанс на трансформацию, а у Аэрофлота появилась бы хоть и "зелёная", но клиентская служба, взамен полного её отсутствия сейчас.

#sber #yandex #tinkoff #thoughts
Вопрос к знатокам, а Яндекс точно российская компания, а не швейцарская? В форме заявлений о нарушении авторских прав в Яндекс Дзен вот такая вот замечательная пометка про
«Яндекс Сервисиз АГ» Верфтештрассе 4, CH 6005 Люцерн, Швейцария (Werftestrasse 4, CH 6005 Lucerne, Switzerland)

https://yandex.ru/support/abuse/troubleshooting/zen/personal.html

#yandex #notrussiancompany
Яндекс закрыл социальную сеть Яндекс.Район, об этом можно прочитать в официальном анонсе [1] и в заметке на Roem [2]. Можно было предположить что закрытие, во многом, связано с ужесточением регулирования медиа, контента, а может быть, действительно, то что касается краудсорсинга контента и социальных сетей а даётся Яндексу с трудом. Та же соцсеть Аура также не взлетела и была закрыта, как и многие другие проекты Яндекса в этой области.

При этом, безусловно, жаль закрытия. Яндекс.Район - это один из немногих гиперлокальных проектов в России действующих на уровне конкретного района, города, поселения. И он, конечно, был бы куда полезнее, простите, довольно бессмысленного Яндекс.Кью и, несомненно прибыльного, но весьма неприятного Дзен.

Успешных гиперлокальных проектов в мире немного, из наиболее известных можно вспомнить Patch [3] в США, купленный AOL в 2009 году за неназванную сумму, но к концу 2018-2019 года он оценивался как [4] вполне прибыльный и приносящий до $20 дохода, в его сеть входило 1200 локальных сайтов, 150 сотрудников и 110 журналистов, включая журналистов национальных медиа.

Можно ли создать гиперлокальный проект не создавая полноценное медиа? Я не очень в это верю, а в России - это превращается из коммерческого проекта в проект управления рисками. Но что можно было бы сказать это то что Яндекс.Район мог бы быть совсем другим если бы не был соцсетью. У Яндекса много сервисов локального уровня, собрать их вместе на гиперлокальном уровне, партнёрство с муниципальными органами, интеграция открытых данных могли бы сделать проект/продукт куда более востребованным.

Ссылки:
[1] https://local.yandex.ru/moscow/top?event_id=4422133
[2] https://roem.ru/30-12-2020/284517/yandex-local-closed/
[3] https://patch.com
[4] https://en.wikipedia.org/wiki/Patch_(website)

#opendata #yandex #projects #hyperlocal
Как и ожидалось регулирование предустановки отечественного ПО расширяется и теперь ещё и Минцифры хочет обязать использование отечественного поиска по умолчанию в мобильных устройствах, о чём пишет "Ъ" [1], конечно, этой поисковой системой будет Яндекс, но скорее всего будет выбор.

Мне к этому много что есть сказать, но, честно говоря, я подорзреваю что и у Гуглу и Apple будет чем ассиметрично ответить Яндексу. При том что поиск у Яндекса может быть хороший, но не всем пользователям нравится безальтернативность поиска по умолчанию. А вот выбор - это хорошо, надеюсь в итоге пользователю будут предлагать поиск по умолчанию и он будет выбирать сам.

Ссылки:
[1] https://www.kommersant.ru/doc/4729428

#regulation #it #search #google #yandex
Честно говоря меня поражает как в 2021 году компании которые вроде бы умеют в открытый код, всё ещё не умеют/не понимают открытые данные. Хорошая новость в том что в исследовании "Как называется это место?
Населённые пункты на карте России" [1] в коей то веки команда исследователей Яндекса опубликовали данные [2]. Для некоммерческого использования, конечно, но и понятно. Но совершенно удивительно что в Яндексе нет людей знающих что такое свободные лицензии, Creative Commons или ODBl. Такое ощущение что данные публиковались специально именно таким образом чтобы их нельзя было легально загрузить в Википедию или OpenStreetMap.

Впрочем Яндекс это лишь один из примеров дата-корпораций живущих по модели data-in, no data-out (DINDO). Подобных DINDO корпораций довольно много, тот же Facebook до того как запустили инициативу Data for Good вполне были DINDO, в общем много таких. Что, впрочем, не оправдывает нынешних строителей суверенных экосистем во всепоглощающем пожирании данных и почти полном отсутствии политики их раскрытия для общественного блага.

Ссылки:
[1] https://yandex.ru/company/researches/2021/oikonyms
[2] https://yastatic.net/s3/milab/2021/toponyms/data/RussianOikonymsDataset.zip

#opendata #yandex #datasets
Яндекс выложили в открытый доступ систему управления базами данных YDB [1] с полным исходным кодом [2]. Эта распределенная SQL база данных, с собственным расширением языка SQL - YQL [3] и, в целом, выглядит любопытно.

Что стоит внимания:
- работа в кластере как часть системы
- обещанная простая масштабируемость

Что удивительно:
- база написана полностью на C++, хотя сейчас более популярно когда базы данных создаются на более высокоуровневых языках, в том числе и для того чтобы привлечь разработчиков которые хотят их изучать
- поддержка JSON и иерархических данных весьма скромная, по крайней мере документации об этом мало, хотя и упоминается
- вместо придумывания своего языка запросов расширяют SQL, что может быть и не плохо, просто +1 SQL диалект
- нет PostgreSQL или MySQL "совместимости из коробки", а это полезная фича которую декларируют многие новые СУБД и сервисы.

В целом база явно написана под высокие нагрузки, стоит пристального внимания и тестирования.

Ссылки:
[1] https://ydb.tech/
[2] https://github.com/ydb-platform/ydb
[3] https://ydb.tech/ru/docs/yql/reference/

#data #opensource #yandex #tools
Сразу две интересных новости про данные от Яндекса.

Первое - это открытие кода Datalens [1] и это вот просто таки прекрасно, очень-очень интересно попробовать уже в open source исполнении и хочется чтобы такой проект активно развивался. Больше BI инструментов хороших и разных. Инфа и документация продукта на отдельном сайте [2]

Вторая новость в публикации Geo Reviews Dataset 2023 [3] где собраны 500 000 уникальных отзывов на организации по России с января по июль 2023 года. Очень интересно и под MIT лицензией. Для исследовательских целей подходит очень хорошо.

Ссылки:
[1] https://github.com/datalens-tech/datalens
[2] https://datalens.tech
[3] https://github.com/yandex/geo-reviews-dataset-2023

#opendata #opensource #yandex
Симпатичная инициатива от Яндекса с программой грантов на открытый код и открытые данные [1]. Обещают распределить гранты Яндекс.Облака до 600 тысяч рублей на 15 проектов (итого 9 миллионов рублей) на проекты с открытым кодом по трекам:
- Обработка и хранение данных
- Разработка
- Машинное обучение

Правда призы даются не деньгами, а ресурсами Яндекс.Облака, но для состоявшихся проектов и это полезный ресурс. Особенно я бы обратил внимание на создание наборов данных. Потому что если получать приз на другие проекты, то эти 600 тысяч довольно быстро закончатся если использовать облако просто как хостинг. А если использовать для создания/оценки качества наборов данных то это более похоже на проектное использование. Например податься на эту грантовую программу Яндекса с небольшим датасетом, выиграть грант и податься на грантовую программу Фонда содействия инноваций (Фонд Бортника) также с датасетом, но расширенный и обогащённый через использование ресурсов Яндекс.Облака в рамках гранта Яндекса.

P.S. Не реклама, и жаль, конечно, что инициатива маленькая и явно спрятанная внутри маркетингового бюджета Яндекс.Облака, но сама идея правильная когда грантовые программы развивают и поощряют открытый код и открытые данные.

Ссылки:
[1] https://opensource.yandex/grants/

#opensource #opendata #yandex
Яндекс выпустил сервис геоаналитики [1] что очень любопытно в части изучения потребностей аудитории Яндекса, но, конечно, очень ограничено в части доступности данных.

Всё таки модель существования Яндекса - это довольно жёсткое правило что "данные входят, данные не выходят" или по английски Data in, no data out. Я называю это правило DINDO, которое часто встречается именно у дата-корпораций. Входят данные, а выходят дата продукты на их основе, но не сами данные, кроме очень редких исключений.

С точки зрения бизнеса это логично, с точки зрения открытости, хотелось бы чтобы было иначе, но мир несовершенен. Геоаналитические продукты в РФ есть также у Т-Банка, у сотовых операторов, Сбера и многих других.

Конкуренция - это хорошо, конкуренции нужно больше и охват других стран, а не только РФ.

Ссылки:
[1] https://yandex.ru/geoanalytics/platform

#yandex #dataproducts #data