lost in (tech)writing
257 subscribers
51 photos
3 videos
19 links
Короткие и не очень заметки о техписательстве, переводе и всём, что касается языков и текстов
Download Telegram
Рубрика #анонсы: 15 июня Smartcat проводит онлайн-конференцию LocTalk. В этом году она посвящена отношениям локализации и инструментов ИИ.

Что из докладов мне показалось интересным:

⁃ The AI Gold Rush in Localization, Stefan Huyghe
⁃ Trends in Post-Editing and LQA with the rise of Gen AI, Zachary Haitkin
⁃ Localization in Enterprises: Expanding the Sphere of Influence, Wada'a Fahel
⁃ Thinking Human: The Universal Language of Brand Building, Doug Zarkin

У меня нет каких-то особых ожиданий — кажется, что всё это может быть попыткой присоединиться к волне AI-хайпа. Даже в название первого доклада эта самая «золотая лихорадка» просочилась. Но я буду весьма рада, если после конфы у меня получится поменять своё мнение)

Регистрация бесплатная. Конференция проходит на английском, время выступлений указано по Тихоокеанскому летнему времени (UTC-7).
🔥4
lost in (tech)writing pinned «Привет всем! Канал у меня совсем свеженький, поэтому начать будет логично с чего-то вроде знакомства) Меня зовут Мария, и скорее всего (по состоянию на 6 июня 2023) вы читаете это после того, как посмотрели трансляцию/запись Techdoc Meetup #1. Я работаю…»
Почему мне нравится DeepL: часть 1

В приветственном посте я уже писала, что с большой долей вероятности вы читаете меня после митапа Techdoc Meetup #1. Но даже если и нет — это уже не так важно, я просто использую его упоминание как подводку к сегодняшнему тексту))

На митапе мне задали вопрос про то, какой движок машинного перевода кажется мне наиболее классным — и я ответила, что это DeepL. Сегодня хочу рассказать в двух словах, почему это так. И подвесить небольшую интригу — насчёт того, почему на самом деле я вас немного обманула. Но про это уже в следующей части: как это со мной бывает, я хотела написать пару слов и в итоге получила простынь, которую распилю на несколько постов.

Итак. Если ваша профессиональная деятельность не связана с переводом, велик шанс, что вы не слышали про DeepL и при словах «машинный перевод» скорее вспомните Google Translate. Или странные кринжовые переводы названий товаров с AliExpress — «телефон псу под хвост два ядра», «брильянты пять за доллар гордость предков», «костяшки чехол без коробку» и вот это вот всё.

DeepL же — инструмент, который справляется с задачами перевода гораздо лучше. Его главные достоинства:

⁃ Даёт редактировать перевод. Можно нажать на любое слово в готовом переводе — и выбрать альтернативный вариант.
⁃ Показывает что-то вроде словарной статьи для каждого слова перевода. Очень полезно, если нужно уточнить нюансы употребления.
⁃ Чаще выбирает варианты, близкие к речи носителей языка.

Всё это входит в бесплатную версию. В платной есть ещё некоторые фишечки — DeepL Pro умеет переводить целые файлы и хранить ваш личный глоссарий. Но Pro я не пользовалась, поэтому все дифирамбы пою в основном бесплатной версии.

Последний пункт моего списка, про близкие к естественной речи варианты, на мой взгляд — самое главное. DeepL очень хорошо подбирает формулировки: даже если в тексте есть неточности, в целом он как правило звучит более human-like.

А вот о том, почему он так хорошо с этим справляется — уже в следующей серии. Stay tuned!
9
Несу вам пятничные #lostinмемы — короткий выпуск)
Хороших выходных 💙
7🔥1
Почему мне нравится DeepL: часть 2

В прошлый раз я писала про то, что главное достоинство DeepL — его формулировки, близкие к натуральной речи.

Покажу на примере: возьмём знаменитую фразу «съешь ещё этих мягких французских булок, да выпей чаю» и прогоним её через DeepL и Google Translate (дальше для краткости я буду фамильярно называть его GT).

Версия DeepL: «Eat some more of those soft French rolls and have some tea»
Версия GT: «Eat even these soft French buns, and drink tea»

И тот, и другой в принципе выдают более-менее понятный и приличный текст. Но вот только DeepL вызывает лёгкое ощущение зловещей долины:

⁃ Откуда эта шайтан-машина знает, что «французские булки» в английском — это именно French rolls, хотя просто «булка» — именно bun, как ничтоже сумняшеся предлагает GT?
⁃ Как она понимает, что «ещё» — это some more, а не even, ведь речь про булки, а even приобретает значение «ещё» только перед прилагательными и наречиями в сравнительной форме, никак не перед существительными?
⁃ Почему она переводит «выпей чаю» не прямолинейным drink tea, а пугающе человечно звучащим have some tea?

Это точно движок машинного перевода, а не три переводчика в плаще, которых заставляют переводить на скорость?

И да, и нет. Секрет тут в том, что GT создавался как SMT (statistical machine translation)-движок. То есть, первоначально он работал по статистическому методу, и только 5 лет назад переехал на нейронку. А DeepL с самого начала создавался как нейросеть.

В следующей серии обязательно расскажу, почему эти два инструмента выдают такое разное качество, если по факту сейчас оба используют нейросети. Спойлер: дело во многом в материале и методах обучения.
👍11
This media is not supported in your browser
VIEW IN TELEGRAM
6
Круглая циферь на канале! Спасибо вам, коты 🖤
Шлю вам открыточку от mushroomova и светлый (не очень) лик автора.

Надеюсь, получится сегодня отметить последним постом про DeepL и лингвомемами, но это не точно, потому что на дворе пятница и вечером автора ждёт электричка в лес.
11
внеочередные #lostinмемы
прекрасное из юиксового
😁2
Forwarded from Адовый UX
Кажется, это целый жанр
😁7🤣2🔥1
Финалочка про DeepL снова немного откладывается, потому что на этой неделе админ в командировке
29 и 30 июня иду на Saint TeamLead Conf в Питере преисполняться и набираться премудростей.
На всякий случай не буду ничего обещать, чтобы снова обещание не нарушить — но возможно тут появятся репортажные кружочки.

Из любопытного: на конфе будет доклад, близкий к теме техписательства. Называется “Люди текста” в IТ-команде: бриллианты в короне или заноза в заднице?. К названию у меня есть вопросы, но похоже на старый-добрый кликбейт — заинтересовать названием же получилось. По описанию мне кажется, что это будет рассказ о техписах на аудиторию разработчиков, и мне очень интересно послушать. Интересно же посмотреть на привычное другими глазами и узнать, что о нас думают уважаемые коллеги из смежных отраслей.
🔥4❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
В рубрике #lostinмемы сегодня не совсем лингвомем, зато актуалочка.

«Техпис и правки», короткая трагедия в одном акте без антракта. Смотрите со звуком, но звук nsfw.
😁9🤣2
Почему мне нравится DeepL: часть 3

В предыдущих сериях я говорила про достоинства DeepL как движка машинного перевода и про то, что ему особенно хорошо удаются формулировки, близкие к естественной речи носителей. Сегодня финализируем этот совсем немного затянувшийся разговор и говорим о том, что, собственно, позволяет DeepL так хорошо справляться с имитацией речи кожаных мешков.

Для этого продолжим сравнивать этот движок с его гораздо более известным собратом — Google Translator, далее GT.

Итак, GT запустился в апреле 2006 и в следующем году уже будет праздновать своё совершеннолетие. DeepL гораздо моложе, ему только-только исполнилось 6 лет. Но, как и в мире человечьем, в мире машинок старше — не значит мудрее (вспомните хотя бы PROMT, вот уж кто точно может побороться за звание старожила — а о «качестве» его перевода до сих пор ходят легенды).

Принципиально тут то, что DeepL сразу запускался как движок нейронного машинного перевода. GT же создавался и до 2016 года был движком исключительно статистическим.

Как работает статистическая модель (SMT)? Вы скармливаете ей корпус текстов на двух языках — исходном и языке перевода. Она их пережёвывает, разделяет на отдельные слова и фразы и составляет:

1. Таблицу переводов — словарь, где каждому слову на исходном языке соответствует какое-то количество возможных переводов на целевом, плюс прописана вероятность для каждого из вариантов перевода.

2. Вероятностную модель языка — инструмент, который позволяет ей определять, какой вариант перевода наиболее похож на естественную речь.

Эрго — при работе над переводом SMT перебирает все варианты перевода для каждого фрагмента и взвешивает вероятность каждого из них. Обучался этим премудростям GT, обрабатывая документы и стенограммы заседаний ООН и Европарламента.

В 90-е этот метод был прорывным. Но воды с тех пор утекло много, и он уже успел порядком устареть, поэтому с какого-то момента к статистическим движкам начали прикручивать нейросетки. К GT её прикрутили через 10 лет после запуска, в 2016.

DeepL же, как я уже упоминала — нейросеть born and raised. Тут я, пожалуй, эксперта по сеткам изображать не буду — но суть в том, что вместо довольно механического подхода, который лежит в основе статистического метода, нейросети-переводчики используют более гибкие механики.

Про них расскажу сегодня же — но чуть попозже, чтобы не распугать вас длиннопостом после долгого перерыва 😅
🔥7🙏1
Итак, что я имею в виду, когда выше говорю про более гибкие механики: нейросетки точно так же, как и SMT, учатся, сравнивая параллельные корпуса на двух языках. Но оперируют при переводе они уже не отдельными фразами, а целыми предложениями. Это позволяет им учитывать контекст и не терять по дороге неочевидные смысловые связи. А способность учитывать контекст — это то качество, которое и в переводчиках-людях не всегда встречается. Кроме того, нейросетки умеют в более сложные вероятностные модели — а значит, лучше «понимают» принципы построения естественной речи, и шансов сделать грамматическую ошибку у них гораздо меньше.

Ещё один козырь в рукаве DeepL — то, что он обучался не на сыром параллельном корпусе текстов as is, а на базе Linguee, системы контекстуального поиска переводов. Чтобы кратко объяснить, что это такое, воспользуюсь буквами, любезно предоставленными Википедией:

Linguee использует имеющиеся в интернете уже переведенные тексты в качестве основы для поиска переводов запросов пользователей: вначале поисковый краулер прочесывает интернет на наличие сайтов, содержащих билингвальные тексты. Эти данные сохраняются. Затем самообучающийся алгоритм при поддержке лингвистов компании оценивает качество полученных текстов. Только 1% всех текстов проходят проверку и затем предоставляются пользователям. Таким образом, по запросу пользователь получает список соответствующих друг другу законченных предложений на двух языках, которые содержат искомое слово или выражение.

То есть, DeepL учился на уже отобранных статистикой и человеками текстах. Более того, материал для его обучения уже учитывал контекст. Кажется, что именно это позволяет ему так хорошо имитировать естественную речь — он гораздо лучше с ней знаком.

Я более чем уверена, что прямо сейчас где-то кипит работа над ещё более умной системой перевода, и следующие поколения переводчиков будут смотреть на DeepL как мы сейчас на PROMT. Однако прямо сейчас это один из лучших инструментов, которые вы можете использовать, чтобы ускорить и облегчить свою переводческую рутину.
🔥3
На этом серьёзная часть про DeepL как будто всё! Если хотите пообсуждать машинный перевод — херцлих вилькоммен в комментарии)
А напоследок вот вам #lostinмемы по мотивам — и хороших выходных!
😁5🤓1