Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более глубокой истории. Закат ABBYY — это фиксация проигрыша последней битвы лингвистов за автоматическую обработку языка. Мир Data Science победил. Главный редактор «Системного Блока» Даниил Скоринкин, работавший ABBYY в 2013–2017, подводит итоги и пытается сформулировать уроки из этой истории.
Что за ABBYY и при чем тут лингвисты и NLP?
История ABBYY началась в 1989 году, когда студент МФТИ Давид Ян решил сделать электронный словарь для подготовки к экзамену. Так появились Lingvo, а затем — система распознавания символов FineReader. Продукты ABBYY развивались, и компания стала глобальным лидером оптического распознавания в 1990-е и 2000-е. Затем ABBYY двинулась покорять машинный перевод.
На вооружение они взяли идеи известных лингвистов — в первую очередь Модели «Смысл ⇔ Текст» (прочитать о ней можно в нашем интервью с И. А. Мельчуком). Амбиция была в том, чтобы разобрать человеческие языки как формальные структуры на базе семантической иерархии. Но естественный язык устроен противоречиво и постоянно изменяется, подход оказался негибким и немасштабируемым
Что пошло не так?
В 2006-м появилась первая версия Google Translate. Она была несовершенной, но главное, что в ней был другой — статистический — подход. И масштабируемость. Для её улучшения не нужны были сотни лингвистов, только еще больше примеров перевода. В 2010-х стало ясно, что никаких шансов тягаться с Google Translate у ABBYY не было. С перевода ABBYY переключилась на задачи информационного поиска и извлечения информации из текста, но и там столкнулась с теми же проблемами: описания языка на базе лингвистической теории оказались немасштабируемыми, а решения уступали подходам на основе чистого машинного обучения.
C новой проблемой компания столкнулась весной 2022 – им пришлось выехать из России, чтобы сохранить зарубежных клиентов. Следующим ударом стали большие языковые модели, который научились выполнять те же задачи, что и классические системы распознавания от ABBYY. Сейчас от компании осталась только вывеска, действующие продукты и небольшое количество менеджеров и специалистов по продажам.
Какие уроки мы извлекаем?
За 70 лет исследований ИИ стало ясно, что самые общие методы, опирающиеся на масштабирование вычислений, намного эффективнее всех остальных. А желание ABBYY сделать универсальную NLP-систему с опорой на лингвистическую теорию оказалось утопией.
И всё-таки ABBYY успела сделать много важного: открывала кафедры на Физтехе и в РГГУ, оцифровывала наследия Льва Толстого и архива Большого театра. А еще благодаря ей появился «Системный Блокъ», ведь сооснователи издания познакомились именно там. И именно там вы сможете прочитать полную версию поста с мемами, фотографиями и более детальным описанием цифровой «Вавилонской башни», которую пыталась строить ABBYY.
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более глубокой истории. Закат ABBYY — это фиксация проигрыша последней битвы лингвистов за автоматическую обработку языка. Мир Data Science победил. Главный редактор «Системного Блока» Даниил Скоринкин, работавший ABBYY в 2013–2017, подводит итоги и пытается сформулировать уроки из этой истории.
Что за ABBYY и при чем тут лингвисты и NLP?
История ABBYY началась в 1989 году, когда студент МФТИ Давид Ян решил сделать электронный словарь для подготовки к экзамену. Так появились Lingvo, а затем — система распознавания символов FineReader. Продукты ABBYY развивались, и компания стала глобальным лидером оптического распознавания в 1990-е и 2000-е. Затем ABBYY двинулась покорять машинный перевод.
На вооружение они взяли идеи известных лингвистов — в первую очередь Модели «Смысл ⇔ Текст» (прочитать о ней можно в нашем интервью с И. А. Мельчуком). Амбиция была в том, чтобы разобрать человеческие языки как формальные структуры на базе семантической иерархии. Но естественный язык устроен противоречиво и постоянно изменяется, подход оказался негибким и немасштабируемым
Что пошло не так?
В 2006-м появилась первая версия Google Translate. Она была несовершенной, но главное, что в ней был другой — статистический — подход. И масштабируемость. Для её улучшения не нужны были сотни лингвистов, только еще больше примеров перевода. В 2010-х стало ясно, что никаких шансов тягаться с Google Translate у ABBYY не было. С перевода ABBYY переключилась на задачи информационного поиска и извлечения информации из текста, но и там столкнулась с теми же проблемами: описания языка на базе лингвистической теории оказались немасштабируемыми, а решения уступали подходам на основе чистого машинного обучения.
C новой проблемой компания столкнулась весной 2022 – им пришлось выехать из России, чтобы сохранить зарубежных клиентов. Следующим ударом стали большие языковые модели, который научились выполнять те же задачи, что и классические системы распознавания от ABBYY. Сейчас от компании осталась только вывеска, действующие продукты и небольшое количество менеджеров и специалистов по продажам.
Какие уроки мы извлекаем?
За 70 лет исследований ИИ стало ясно, что самые общие методы, опирающиеся на масштабирование вычислений, намного эффективнее всех остальных. А желание ABBYY сделать универсальную NLP-систему с опорой на лингвистическую теорию оказалось утопией.
И всё-таки ABBYY успела сделать много важного: открывала кафедры на Физтехе и в РГГУ, оцифровывала наследия Льва Толстого и архива Большого театра. А еще благодаря ей появился «Системный Блокъ», ведь сооснователи издания познакомились именно там. И именно там вы сможете прочитать полную версию поста с мемами, фотографиями и более детальным описанием цифровой «Вавилонской башни», которую пыталась строить ABBYY.
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
Узнай судьбу картами Таро:
✨Anna Taro bot
Системный Блокъ
Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP - Системный Блокъ
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более…
Машинное обучение и японская уличная мода: как возникают и распространяются стили
Как женский костюм отражает экономическое состояние страны? Можно ли изучить моду отдельной улицы? И как в этом помогает кластеризация? На примере японского цифрового архива моды CAT STREET рассказываем об исследованиях на стыке антропологии и машинного обучения.
👒 Зачем ученым мода?
Модные тренды интересуют не только стилистов. Собирая базы данных, ученые разрабатывают алгоритмы, которые могли бы предсказывать будущие тенденции, и изучают моду как социальное явление. При этом можно изучать не только отдельные эпохи, но и отдельные… территории. Ведь иногда в разных кварталах города группируются сообщества, которые имеют свои характерные стили.
👗 Что такое CAT STREET?
База CAT STREET (в открытом доступе её, увы, нет) работает именно с этим феноменом, концентрируясь на моде торговых улиц Токио. Сегодня в ней собрано 14 688 изображений, отражающих повседневную моду женщин с 1970 и 2017 год. Чтобы изучить её эффективнее, ученые применили модель кластеризации, которую уже проверяли на другой базе – FashionStyle14. Это помогло создать список наиболее характерных стилей.
👜 Что мы узнали благодаря базе?
Теперь CAT STREET стал удобным инструментом для изучения моды. Например, благодаря нему ученые выявили, что женщины чаще выбирают стиль консервативный стиль в одежде, когда экономика растет. А еще – что стили на знаковых торговых улицах Харадзюку и Сибуя заметно отличаются, хоть улицы и находятся поблизости. Более того, на одной из них стиль мог появиться и вскоре исчезнуть, а на другой – сохраниться.
Узнать подробнее об этих и других исследованиях моды с применением цифровых технологий, а также о стилях Gal, Fairy и Kawaii-kei можно из полной версии статьи.
Время чтения: 18 минут.
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Как женский костюм отражает экономическое состояние страны? Можно ли изучить моду отдельной улицы? И как в этом помогает кластеризация? На примере японского цифрового архива моды CAT STREET рассказываем об исследованиях на стыке антропологии и машинного обучения.
👒 Зачем ученым мода?
Модные тренды интересуют не только стилистов. Собирая базы данных, ученые разрабатывают алгоритмы, которые могли бы предсказывать будущие тенденции, и изучают моду как социальное явление. При этом можно изучать не только отдельные эпохи, но и отдельные… территории. Ведь иногда в разных кварталах города группируются сообщества, которые имеют свои характерные стили.
👗 Что такое CAT STREET?
База CAT STREET (в открытом доступе её, увы, нет) работает именно с этим феноменом, концентрируясь на моде торговых улиц Токио. Сегодня в ней собрано 14 688 изображений, отражающих повседневную моду женщин с 1970 и 2017 год. Чтобы изучить её эффективнее, ученые применили модель кластеризации, которую уже проверяли на другой базе – FashionStyle14. Это помогло создать список наиболее характерных стилей.
👜 Что мы узнали благодаря базе?
Теперь CAT STREET стал удобным инструментом для изучения моды. Например, благодаря нему ученые выявили, что женщины чаще выбирают стиль консервативный стиль в одежде, когда экономика растет. А еще – что стили на знаковых торговых улицах Харадзюку и Сибуя заметно отличаются, хоть улицы и находятся поблизости. Более того, на одной из них стиль мог появиться и вскоре исчезнуть, а на другой – сохраниться.
Узнать подробнее об этих и других исследованиях моды с применением цифровых технологий, а также о стилях Gal, Fairy и Kawaii-kei можно из полной версии статьи.
Время чтения: 18 минут.
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Системный Блокъ
Японская уличная мода: что расскажет CAT STREET о стилях и трендах?
«Системный Блокъ» рассказывает о цифровом архиве японской уличной моды и об исследованиях на его основе.
Перспективы искусственного интеллекта: прогнозы ученых
Как будет развиваться ИИ в ближайшем будущем? Перспективно ли пытаться научить компьютер думать, как человек? Может ли не хватить данных для обучения искусственного интеллекта? Попробуем ответить на эти вопросы.
Невыученный урок
Недавно мы рассказывали о том, что для создания качественного машинного перевода и языковых моделей, нужен совсем не тот же подход, который лингвисты применяют к естественному языку. А как обстоят дела с мышлением? Нужно ли моделировать в компьютере человеческие представления о мире, чтобы усовершенствовать ИИ?
Короткий ответ: тоже нет
Ричард Саттон, признанный ученый в области искусственного интеллекта, ещё в 2019 году пришел к выводу, что долгосрочный прогресс в ИИ был возможен благодаря методам, которые опирались на рост вычислительных мощностей и увеличение доступных вычислительных ресурсов, не пытаясь воссоздать процесс человеческого мышления.
Примеры из прошлого
В 1997 году компьютер Deep Blue победил в шахматах чемпиона мира. Deep Blue играл с помощью brute force поиска — поиска оптимального шага путём перебора большого количества вариантов. Никакого человеческого понимания игры.
Подобная история повторилась в 2016 году с го — игрой, более сложной с точки зрения количества комбинаций. В области компьютерного зрения человеческие знания тоже проиграли статистическому подходу.
Вычисления и данные
Для повышения качества моделей важны не только вычисления, но и данные, на которых обучают модель, причем прежде всего – высокого качества. В случае языковых моделей, например, научные публикации и новости важнее форумов и блогов. Ежегодно количество данных высокого качества растет на 4–5%, а низкого – на 6–17.5%.
Что нас ждет
В случае текстовых данных высокого качества исследователи прогнозируют, что при сохранении текущих трендов их общий запас исчерпается до 2027 года. К счастью, динамика может измениться, да и появление принципиально нового источника данных, например, VR и AR устройств, не стоит исключать.
_______
Источник | #sysblok
@F_S_C_P
-------
Секретики!
-------
Как будет развиваться ИИ в ближайшем будущем? Перспективно ли пытаться научить компьютер думать, как человек? Может ли не хватить данных для обучения искусственного интеллекта? Попробуем ответить на эти вопросы.
Невыученный урок
Недавно мы рассказывали о том, что для создания качественного машинного перевода и языковых моделей, нужен совсем не тот же подход, который лингвисты применяют к естественному языку. А как обстоят дела с мышлением? Нужно ли моделировать в компьютере человеческие представления о мире, чтобы усовершенствовать ИИ?
Короткий ответ: тоже нет
Ричард Саттон, признанный ученый в области искусственного интеллекта, ещё в 2019 году пришел к выводу, что долгосрочный прогресс в ИИ был возможен благодаря методам, которые опирались на рост вычислительных мощностей и увеличение доступных вычислительных ресурсов, не пытаясь воссоздать процесс человеческого мышления.
Примеры из прошлого
В 1997 году компьютер Deep Blue победил в шахматах чемпиона мира. Deep Blue играл с помощью brute force поиска — поиска оптимального шага путём перебора большого количества вариантов. Никакого человеческого понимания игры.
Подобная история повторилась в 2016 году с го — игрой, более сложной с точки зрения количества комбинаций. В области компьютерного зрения человеческие знания тоже проиграли статистическому подходу.
Вычисления и данные
Для повышения качества моделей важны не только вычисления, но и данные, на которых обучают модель, причем прежде всего – высокого качества. В случае языковых моделей, например, научные публикации и новости важнее форумов и блогов. Ежегодно количество данных высокого качества растет на 4–5%, а низкого – на 6–17.5%.
Что нас ждет
В случае текстовых данных высокого качества исследователи прогнозируют, что при сохранении текущих трендов их общий запас исчерпается до 2027 года. К счастью, динамика может измениться, да и появление принципиально нового источника данных, например, VR и AR устройств, не стоит исключать.
_______
Источник | #sysblok
@F_S_C_P
-------
Секретики!
-------
Telegram
Системный Блокъ
Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации…
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации…
Как найти в геноме проблему? Базы данных и секвенирование здоровых людей
Секвенирование генома — это способ «прочитать» ДНК человека, который преобразил генетику и уже стал частью рутинных исследований. Но зачем читать геномы здоровых людей? Почему важно, чтобы в базах данных были представлены разные популяции? Как вопросы секвенирования решают в России? Рассказывает Нина Андреева, медицинский биоинформатик, исследовательница Лаборатории мультиомики Центра живых систем МФТИ.
Кратко: о чем статья?
Секвенирование — это метод, который используется для исследования ДНК и РНК и входящих в них белков. Первый геном человека был секвенирован в 2001 году. На это ушло более 10 лет исследований и около 3 млрд долларов. А сегодня секвенирование генома — достаточно рядовой анализ, хотя и не самый дешёвый: его стоимость составляет около 1000 долларов. Миллионы образцов человеческих геномов уже отсеквенированы.
Одна из важнейших целей секвенирования — уточнить диагноз у людей, которые страдают от генетических заболеваний, но сбор данных о геномах условно здоровых людей не менее важен – он помогает различать опасные и безопасные варианты.
Если вариант ДНК встречается в базах данных с геномами здоровых людей часто, то он, скорее всего, безопасен. Для проверки редких патогенных вариантов (тех, что могут вызвать болезни), используются международные базы данных. Например, GnomAD — самая крупная бесплатная база, содержащая сведения о геномах разных популяций.
В базе GnomAD отдельно вынесены популяции финнов, амишей и евреев Ашкенази, но этого явно недостаточно, и огромное количество популяций в мире все еще остается непредставленными. Эта проблема актуальна и для России.
В октябре 2024 года появилась «База данных популяционных частот генетических вариантов населения Российской Федерации», которая помогает отсекать распространенные в российской популяции варианты и более точно находить причину заболеваний. Правда, в ней нет деления на более мелкие популяции, которые стоило бы исследовать отдельно, ведь геном жителя Кавказа будет отличаться от генома жителя Якутии.
Узнать подробнее о том, как базы данных помогают выявлять причины моногенных и полигенных заболеваний, а также о процессе изучения генетических заболеваний, можно из полной версии статьи.
Время чтения: 8 минут.
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
-------
Секретики!
-------
Секвенирование генома — это способ «прочитать» ДНК человека, который преобразил генетику и уже стал частью рутинных исследований. Но зачем читать геномы здоровых людей? Почему важно, чтобы в базах данных были представлены разные популяции? Как вопросы секвенирования решают в России? Рассказывает Нина Андреева, медицинский биоинформатик, исследовательница Лаборатории мультиомики Центра живых систем МФТИ.
Кратко: о чем статья?
Секвенирование — это метод, который используется для исследования ДНК и РНК и входящих в них белков. Первый геном человека был секвенирован в 2001 году. На это ушло более 10 лет исследований и около 3 млрд долларов. А сегодня секвенирование генома — достаточно рядовой анализ, хотя и не самый дешёвый: его стоимость составляет около 1000 долларов. Миллионы образцов человеческих геномов уже отсеквенированы.
Одна из важнейших целей секвенирования — уточнить диагноз у людей, которые страдают от генетических заболеваний, но сбор данных о геномах условно здоровых людей не менее важен – он помогает различать опасные и безопасные варианты.
Если вариант ДНК встречается в базах данных с геномами здоровых людей часто, то он, скорее всего, безопасен. Для проверки редких патогенных вариантов (тех, что могут вызвать болезни), используются международные базы данных. Например, GnomAD — самая крупная бесплатная база, содержащая сведения о геномах разных популяций.
В базе GnomAD отдельно вынесены популяции финнов, амишей и евреев Ашкенази, но этого явно недостаточно, и огромное количество популяций в мире все еще остается непредставленными. Эта проблема актуальна и для России.
В октябре 2024 года появилась «База данных популяционных частот генетических вариантов населения Российской Федерации», которая помогает отсекать распространенные в российской популяции варианты и более точно находить причину заболеваний. Правда, в ней нет деления на более мелкие популяции, которые стоило бы исследовать отдельно, ведь геном жителя Кавказа будет отличаться от генома жителя Якутии.
Узнать подробнее о том, как базы данных помогают выявлять причины моногенных и полигенных заболеваний, а также о процессе изучения генетических заболеваний, можно из полной версии статьи.
Время чтения: 8 минут.
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
-------
Секретики!
-------
Системный Блокъ
Зачем секвенировать здоровых людей?
Геном человека расшифровали несколько десятков лет назад. При этом базы данных генома постоянно пополняются. Рассказываем, зачем в них нужны геномы здоровых людей.
Как анализ данных предсказывает успех художника?
Портрет «Мужчина в золотом шлеме», который считался считался жемчужиной Берлинской картинной галереи, долгое время приписывали Рембрандту. Когда выяснилось, что он написан кем-то другим, стоимость картины снизилась в разы — как и поток туристов, желающих на нее посмотреть.
Это показательная история о том, что на ценность картины влияют факторы, не связанные с ее художественными достоинствами напрямую. Например, имя автора. Или престиж художественного направления, в котором этот автор работал. Или даже просто попадание в престижный музей.
На основе данных о 767 473 выставках и 127 208 аукционах исследователи построили сеть из 16002 галерей и 7568 музеев и выявили большое и плотно связанное сообщество музеев, которые имеют доступ к богатейшим коллекциями и активно обмениваются ими друг с другом. Изучив данные из 143 стран за 36 лет, ученые выдвинули гипотезу о том, что предопределяет успех художника.
Анализ данных показал, например, что попадание в престижный музей на раннем этапе карьеры с большой вероятностью определит дальнейшую карьеру творца. Работы тех авторов, которые с самого начала выставлялись в престижных местах, продаются в среднем в 4.7 раз чаще и стоят в 5.2 раз дороже, чем у тех, кто изначально оказался в непрестижных музеях и галереях. Более того, из тех художников, кто начинал выставляться в малопрестижных местах, лишь чуть больше 10% пробились в престижные музеи к концу жизни.
Подробнее об исследовании можете прочитать в нашей статье, а в комментариях предлагаем вам поделиться мнениями о том, где здесь причина, а где – следствие. Это престижные музеи хорошо умеют отбирать талантливых художников? Или талантливыми признаются те художники, которые были отобраны престижными музеями?
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
Стань спонсором!
Портрет «Мужчина в золотом шлеме», который считался считался жемчужиной Берлинской картинной галереи, долгое время приписывали Рембрандту. Когда выяснилось, что он написан кем-то другим, стоимость картины снизилась в разы — как и поток туристов, желающих на нее посмотреть.
Это показательная история о том, что на ценность картины влияют факторы, не связанные с ее художественными достоинствами напрямую. Например, имя автора. Или престиж художественного направления, в котором этот автор работал. Или даже просто попадание в престижный музей.
На основе данных о 767 473 выставках и 127 208 аукционах исследователи построили сеть из 16002 галерей и 7568 музеев и выявили большое и плотно связанное сообщество музеев, которые имеют доступ к богатейшим коллекциями и активно обмениваются ими друг с другом. Изучив данные из 143 стран за 36 лет, ученые выдвинули гипотезу о том, что предопределяет успех художника.
Анализ данных показал, например, что попадание в престижный музей на раннем этапе карьеры с большой вероятностью определит дальнейшую карьеру творца. Работы тех авторов, которые с самого начала выставлялись в престижных местах, продаются в среднем в 4.7 раз чаще и стоят в 5.2 раз дороже, чем у тех, кто изначально оказался в непрестижных музеях и галереях. Более того, из тех художников, кто начинал выставляться в малопрестижных местах, лишь чуть больше 10% пробились в престижные музеи к концу жизни.
Подробнее об исследовании можете прочитать в нашей статье, а в комментариях предлагаем вам поделиться мнениями о том, где здесь причина, а где – следствие. Это престижные музеи хорошо умеют отбирать талантливых художников? Или талантливыми признаются те художники, которые были отобраны престижными музеями?
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
Стань спонсором!
Системный Блокъ
Рембрандт к успеху шел — не фартануло - Системный Блокъ
Как анализ данных предсказывает успех художника
Антипапа, телеграф и RAR-архив: долгая жизнь кодовых книг
Как связан «Великий шифр» 17 века и формат архивирования RAR? Кодовые книги — инструмент преобразования информации, который появился еще в Средневековье для шифрования, достиг расцвета в эпоху телеграфа, обретя новую функцию — сжатия информации. Разбираемся с алгоритмами и кодовыми книгами вместе с Музеем криптографии.
📕 Как устроена кодовая книга?
Кодовая книга — своеобразный словарь, в котором собраны часто встречающиеся или тематически важные слова и выражения, а также отдельные буквы, цифры и символы. При шифровании все или часть слов сообщения заменяются на соответствующие им в книге кодовые слова или группы. Вместо книг могли использоваться кодовые таблицы — меньшие по объему и содержащие обозначения ключевых имен собственных (политических фигур, городов и т.п.).
📗 Какие кодовые книги были в средневековье?
Самый ранний известный пример — система, разработанная Габриэлем де Лавинде для Антипапы Клемента VII в 1379 году, а самый известный – «Великий шифр» Антуана Россиньоля. В нём было порядка шестисот кодовых групп для обозначения отдельных букв и слогов, а также слов и имен собственных. Он использовался вплоть до начала XIX века и считался невзламываемым до 1893 года.
📘 Что изменил телеграф?
С появлением телеграфа криптография перестала служить только целям секретности — чтобы хранить государственные, военные и коммерческие тайны. Теперь она понадобилась простым гражданам — для приватности. Правда, телеграфные кодовые книги обычно печатались большими тиражами и были доступны в широкой продаже и иногда использование шифрования жестко контролировалось государством. Но у этого шифра была и другая функция — сжатие объёма сообщений. Позже правила использования кодовых книг и тарификации закодированных и зашифрованных сообщений обсуждались и принимались на отдельных Телеграфных конференциях.
📙 Что стало с кодовыми книгами?
С развитием систем телекоммуникации телеграфная связь подешевела, и кодовые книги потеряли свою актуальность. А для защиты приватности появились более надежные механические и электромеханические шифраторы. Однако у кодовых книг осталось огромное наследие. Например, метод сжатия RAR. Данные разбиваются на небольшие блоки — «слова», и для наиболее частотных «слов» назначаются более короткие кодовые обозначения.
Узнать о связи «Великого шифра» с «Человеком в железной маске», взломе телеграммы, повлиявшем на ход мировой истории, и послании про семьдесят обезьян можно из полной версии текста.
_______
Источник | #sysblok
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Как связан «Великий шифр» 17 века и формат архивирования RAR? Кодовые книги — инструмент преобразования информации, который появился еще в Средневековье для шифрования, достиг расцвета в эпоху телеграфа, обретя новую функцию — сжатия информации. Разбираемся с алгоритмами и кодовыми книгами вместе с Музеем криптографии.
📕 Как устроена кодовая книга?
Кодовая книга — своеобразный словарь, в котором собраны часто встречающиеся или тематически важные слова и выражения, а также отдельные буквы, цифры и символы. При шифровании все или часть слов сообщения заменяются на соответствующие им в книге кодовые слова или группы. Вместо книг могли использоваться кодовые таблицы — меньшие по объему и содержащие обозначения ключевых имен собственных (политических фигур, городов и т.п.).
📗 Какие кодовые книги были в средневековье?
Самый ранний известный пример — система, разработанная Габриэлем де Лавинде для Антипапы Клемента VII в 1379 году, а самый известный – «Великий шифр» Антуана Россиньоля. В нём было порядка шестисот кодовых групп для обозначения отдельных букв и слогов, а также слов и имен собственных. Он использовался вплоть до начала XIX века и считался невзламываемым до 1893 года.
📘 Что изменил телеграф?
С появлением телеграфа криптография перестала служить только целям секретности — чтобы хранить государственные, военные и коммерческие тайны. Теперь она понадобилась простым гражданам — для приватности. Правда, телеграфные кодовые книги обычно печатались большими тиражами и были доступны в широкой продаже и иногда использование шифрования жестко контролировалось государством. Но у этого шифра была и другая функция — сжатие объёма сообщений. Позже правила использования кодовых книг и тарификации закодированных и зашифрованных сообщений обсуждались и принимались на отдельных Телеграфных конференциях.
📙 Что стало с кодовыми книгами?
С развитием систем телекоммуникации телеграфная связь подешевела, и кодовые книги потеряли свою актуальность. А для защиты приватности появились более надежные механические и электромеханические шифраторы. Однако у кодовых книг осталось огромное наследие. Например, метод сжатия RAR. Данные разбиваются на небольшие блоки — «слова», и для наиболее частотных «слов» назначаются более короткие кодовые обозначения.
Узнать о связи «Великого шифра» с «Человеком в железной маске», взломе телеграммы, повлиявшем на ход мировой истории, и послании про семьдесят обезьян можно из полной версии текста.
_______
Источник | #sysblok
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Системный Блокъ
Антипапа, телеграф и RAR-архив: долгая жизнь кодовых книг - Системный Блокъ
Кодовые книги — инструмент преобразования информации, который появился в Средневековье для шифрования, достиг расцвета в эпоху телеграфа, обретя новую функцию — сжатия информации, причем корни некоторых современных алгоритмов сжатия напрямую восходят к кодовым…
Позвони мне, позвони: как мобильные данные помогают изучать неравенство
У социального неравенства в разных странах есть множество причин и особенностей. Как есть и множество инструментов — в том числе цифровых — для изучения этой проблемы. Ученые из Сингапура, например, измерили городскую сегрегацию с помощью мобильных данных. Рассказываем о том, как социально-экономические группы оказались разделены не только в физическом, но и виртуальном пространстве города.
Кратко: о чём статья?
Обычно сегрегацию измеряют по месту жительства (residential segregation), высчитывая различные индексы сегрегации: самые популярные это индекс непохожести (index of dissimilarity), индекс энтропии (Theil’s entropy index) и индекс изоляции (isolation index). Для этого используют перепись населения и социально-экономические показатели, такие как уровень дохода.
Однако исследователи из MIT решили учесть не только место жительства, но и те места, которые люди посещают ежедневно, обратившись к мобильным данным. Они разделили город на более и менее дорогие ареалы вокруг каждого пользователя мобильной связи и распределили людей по категориям в зависимости от их места жительства: сделали шкалу из статусных кластеров. После этого ученые подсчитали индекс коммуникационной сегрегации для каждого пользователя сотовой сети.
Это позволило убедиться, что люди с самым лучшим социально-экономическим положением являются самой сегрегированной частью населения и общаются в основном с себе подобными.
Помимо этого ученые измерили индекс физической сегрегации, который в зависимости от времени суток показывает, насколько активно человек взаимодействует с людьми из других статусных кластеров (спойлер: центр города становится более интегрированным во время обеда).
Узнать больше о городской сегрегаци, результатах исследования и посмотреть на (очень эффектную) карту коммуникаций Сингапура можно в статье на сайте.
Время чтения: 6,5 минут.
_______
Источник | #sysblok
@F_S_C_P
Стань спонсором!
У социального неравенства в разных странах есть множество причин и особенностей. Как есть и множество инструментов — в том числе цифровых — для изучения этой проблемы. Ученые из Сингапура, например, измерили городскую сегрегацию с помощью мобильных данных. Рассказываем о том, как социально-экономические группы оказались разделены не только в физическом, но и виртуальном пространстве города.
Кратко: о чём статья?
Обычно сегрегацию измеряют по месту жительства (residential segregation), высчитывая различные индексы сегрегации: самые популярные это индекс непохожести (index of dissimilarity), индекс энтропии (Theil’s entropy index) и индекс изоляции (isolation index). Для этого используют перепись населения и социально-экономические показатели, такие как уровень дохода.
Однако исследователи из MIT решили учесть не только место жительства, но и те места, которые люди посещают ежедневно, обратившись к мобильным данным. Они разделили город на более и менее дорогие ареалы вокруг каждого пользователя мобильной связи и распределили людей по категориям в зависимости от их места жительства: сделали шкалу из статусных кластеров. После этого ученые подсчитали индекс коммуникационной сегрегации для каждого пользователя сотовой сети.
Это позволило убедиться, что люди с самым лучшим социально-экономическим положением являются самой сегрегированной частью населения и общаются в основном с себе подобными.
Помимо этого ученые измерили индекс физической сегрегации, который в зависимости от времени суток показывает, насколько активно человек взаимодействует с людьми из других статусных кластеров (спойлер: центр города становится более интегрированным во время обеда).
Узнать больше о городской сегрегаци, результатах исследования и посмотреть на (очень эффектную) карту коммуникаций Сингапура можно в статье на сайте.
Время чтения: 6,5 минут.
_______
Источник | #sysblok
@F_S_C_P
Стань спонсором!
Системный Блокъ
Позвони мне, позвони: как мобильные данные помогают изучать неравенство - Системный Блокъ
С помощью мобильных данных ученые из MIT Senseable City Lab измерили городскую сегрегацию в Сингапуре. Они проверили, насколько сильно разные социально-экономические группы разделены в физическом и виртуальном пространстве города
Возраст несчастья: когда он наступает?
В новом материале «Системный Блокъ» рассказывает о состоянии несчастья с опорой на исследование Unhappiness and age. Изучаем компоненты неблагополучия, исследуем график невзгод и, конечно, показываем статистику, которая поможет разобраться в особенностях этого состояния.
Кратко: о чем статья?
Несчастье — это особое состояние человека, которое противопоставляется состоянию счастья и считается в первую очередь проблемой, связанной с ментальным здоровьем. Исследователь по фамилии Бланчфлауэр вывел переменные несчастья, которые можно разделить на четыре группы: связанные с психическим здоровьем, социальным взаимодействием, физическим самочувствием и национальным благополучием.
Изучение этих факторов показало, что кривая неблагополучия всегда представляет собой холм с пиком в возрасте 45–54 лет в среднем. По всему миру люди 45–54 лет чаще других испытывают тревогу и проблемы со сном, начинают жаловаться на хронические боли. Во многих странах на этот же возраст приходится максимальное количество самоубийств и смертей от передозировки наркотическими веществами или злоупотребления алкоголем.
Исследование Unhappiness and age дополняет другую работу, Is happiness U-shaped everywhere?, про уровень счастья и его график. Оказалось, что кривые счастья и несчастья зеркально отражают друг друга. Их минимум и максимум приходятся на промежуток 45–50 лет соответственно.
Посмотреть на визуализацию статистики и увидеть, на какой возраст приходится пик счастья и в какой момент графики сходятся в одной точке, можно благодаря полной версии статьи.
Время чтения: 6,5 минут
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
Стань спонсором!
В новом материале «Системный Блокъ» рассказывает о состоянии несчастья с опорой на исследование Unhappiness and age. Изучаем компоненты неблагополучия, исследуем график невзгод и, конечно, показываем статистику, которая поможет разобраться в особенностях этого состояния.
Кратко: о чем статья?
Несчастье — это особое состояние человека, которое противопоставляется состоянию счастья и считается в первую очередь проблемой, связанной с ментальным здоровьем. Исследователь по фамилии Бланчфлауэр вывел переменные несчастья, которые можно разделить на четыре группы: связанные с психическим здоровьем, социальным взаимодействием, физическим самочувствием и национальным благополучием.
Изучение этих факторов показало, что кривая неблагополучия всегда представляет собой холм с пиком в возрасте 45–54 лет в среднем. По всему миру люди 45–54 лет чаще других испытывают тревогу и проблемы со сном, начинают жаловаться на хронические боли. Во многих странах на этот же возраст приходится максимальное количество самоубийств и смертей от передозировки наркотическими веществами или злоупотребления алкоголем.
Исследование Unhappiness and age дополняет другую работу, Is happiness U-shaped everywhere?, про уровень счастья и его график. Оказалось, что кривые счастья и несчастья зеркально отражают друг друга. Их минимум и максимум приходятся на промежуток 45–50 лет соответственно.
Посмотреть на визуализацию статистики и увидеть, на какой возраст приходится пик счастья и в какой момент графики сходятся в одной точке, можно благодаря полной версии статьи.
Время чтения: 6,5 минут
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
Стань спонсором!
Системный Блокъ
Связь несчастья с возрастом на основе 8 датасетов
Как связаны возраст и несчастье и почему кривая несчастья похожа на холм. Обзор исследования Unhappiness and age.
Больше, чем энциклопедия: Википедии 24 года!
Почему Википедия — сообщество с иерархией? У кого она стала ассоциироваться с либеральными идеями? И в каких отношениях «свободная энциклопедия» находится с большими корпорациями? Вспоминаем материал «Системного Блока» к Дню рождения Википедии.
🖥️ Утопия и реальность
В 2001 году Википедию создавали как утопический проект, который бросал вызов самой каноничной на тот момент энциклопедии — «Британнике». Постепенно проект обзавелся редакторами и нашел партнеров среди университетов, музеев и библиотек. Так начал утверждаться авторитет Википедии, которая к началу 2010-х приобрела статус фактической энциклопедии интернета, войдя в топ-15 популярнейших веб-сайтов.
⌨️ Три уровня свободы
Хотя изначально писать и редактировать статьи мог любой желающий, руководство Википедии скоро устало от «троллей» и «вандалов», портящих статьи с анонимизированных IP-адресов Tor. Это привело к большой дискуссии о критериях «запретов» и «блокировок». В итоге википедисты разделили сообщество на три класса. Первый, имевший меньше всего привилегий, — те, кто назывался по своему IP-адресу. Второй — участники, имевшие свои личные аккаунты и известные под своими именами. Они могли добавлять и редактировать страницы с незначительными ограничениями. Третий — администраторы.
👨🏻💻 Ресурс для больших корпораций
Хотя природа Википедии — некоммерческая, такие корпорации, как Amazon, Apple и Google используют данные проекта для повышения ценности собственных продуктов. Даже модель GPT-3 частично обучалась на массиве данных Википедии. Поэтому сайт можно рассматривать как ресурс, который добывается и используется в качестве корпоративного товара.
О том, как это влияет на саму Википедию, а также об аналогах энциклопедии и предпосылках к их появлению, узнаете из полной версии статьи.
Время чтения: 15 минут.
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Почему Википедия — сообщество с иерархией? У кого она стала ассоциироваться с либеральными идеями? И в каких отношениях «свободная энциклопедия» находится с большими корпорациями? Вспоминаем материал «Системного Блока» к Дню рождения Википедии.
🖥️ Утопия и реальность
В 2001 году Википедию создавали как утопический проект, который бросал вызов самой каноничной на тот момент энциклопедии — «Британнике». Постепенно проект обзавелся редакторами и нашел партнеров среди университетов, музеев и библиотек. Так начал утверждаться авторитет Википедии, которая к началу 2010-х приобрела статус фактической энциклопедии интернета, войдя в топ-15 популярнейших веб-сайтов.
⌨️ Три уровня свободы
Хотя изначально писать и редактировать статьи мог любой желающий, руководство Википедии скоро устало от «троллей» и «вандалов», портящих статьи с анонимизированных IP-адресов Tor. Это привело к большой дискуссии о критериях «запретов» и «блокировок». В итоге википедисты разделили сообщество на три класса. Первый, имевший меньше всего привилегий, — те, кто назывался по своему IP-адресу. Второй — участники, имевшие свои личные аккаунты и известные под своими именами. Они могли добавлять и редактировать страницы с незначительными ограничениями. Третий — администраторы.
👨🏻💻 Ресурс для больших корпораций
Хотя природа Википедии — некоммерческая, такие корпорации, как Amazon, Apple и Google используют данные проекта для повышения ценности собственных продуктов. Даже модель GPT-3 частично обучалась на массиве данных Википедии. Поэтому сайт можно рассматривать как ресурс, который добывается и используется в качестве корпоративного товара.
О том, как это влияет на саму Википедию, а также об аналогах энциклопедии и предпосылках к их появлению, узнаете из полной версии статьи.
Время чтения: 15 минут.
🤖 «Системный Блокъ» @sysblok
_______
Источник | #sysblok
@F_S_C_P
▪️Генерируй картинки в боте:
Flux + MidJourney
Системный Блокъ
Больше, чем энциклопедия: история создания и развития Википедии
Рассказываем четыре эпизода из истории Википедии: от создания проекта до сотрудничества с крупными корпорациями.