lost in (tech)writing

Почему мне нравится DeepL: часть 3

В предыдущих сериях я говорила про достоинства DeepL как движка машинного перевода и про то, что ему особенно хорошо удаются формулировки, близкие к естественной речи носителей. Сегодня финализируем этот ~~совсем немного~~ затянувшийся разговор и говорим о том, что, собственно, позволяет DeepL так хорошо справляться с имитацией речи кожаных мешков.

Для этого продолжим сравнивать этот движок с его гораздо более известным собратом — Google Translator, далее GT.

Итак, GT запустился в апреле 2006 и в следующем году уже будет праздновать своё совершеннолетие. DeepL гораздо моложе, ему только-только исполнилось 6 лет. Но, как и в мире человечьем, в мире машинок старше — не значит мудрее (вспомните хотя бы PROMT, вот уж кто точно может побороться за звание старожила — а о «качестве» его перевода до сих пор ходят легенды).

Принципиально тут то, что DeepL сразу запускался как движок нейронного машинного перевода. GT же создавался и до 2016 года был движком исключительно статистическим.

Как работает статистическая модель (SMT)? Вы скармливаете ей корпус текстов на двух языках — исходном и языке перевода. Она их пережёвывает, разделяет на отдельные слова и фразы и составляет:

1. Таблицу переводов — словарь, где каждому слову на исходном языке соответствует какое-то количество возможных переводов на целевом, плюс прописана вероятность для каждого из вариантов перевода.

2. Вероятностную модель языка — инструмент, который позволяет ей определять, какой вариант перевода наиболее похож на естественную речь.

Эрго — при работе над переводом SMT перебирает все варианты перевода для каждого фрагмента и взвешивает вероятность каждого из них. Обучался этим премудростям GT, обрабатывая документы и стенограммы заседаний ООН и Европарламента.

В 90-е этот метод был прорывным. Но воды с тех пор утекло много, и он уже успел порядком устареть, поэтому с какого-то момента к статистическим движкам начали прикручивать нейросетки. К GT её прикрутили через 10 лет после запуска, в 2016.

DeepL же, как я уже упоминала — нейросеть born and raised. Тут я, пожалуй, эксперта по сеткам изображать не буду — но суть в том, что вместо довольно механического подхода, который лежит в основе статистического метода, нейросети-переводчики используют более гибкие механики.

Про них расскажу сегодня же — но чуть попозже, чтобы не распугать вас длиннопостом после долгого перерыва 😅

🔥7🙏1

158 viewsMaria, 13:37

lost in (tech)writing

Итак, что я имею в виду, когда выше говорю про более гибкие механики: нейросетки точно так же, как и SMT, учатся, сравнивая параллельные корпуса на двух языках. Но оперируют при переводе они уже не отдельными фразами, а целыми предложениями. Это позволяет им учитывать контекст и не терять по дороге неочевидные смысловые связи. А способность учитывать контекст — это то качество, которое и в переводчиках-людях не всегда встречается. Кроме того, нейросетки умеют в более сложные вероятностные модели — а значит, лучше «понимают» принципы построения естественной речи, и шансов сделать грамматическую ошибку у них гораздо меньше.

Ещё один козырь в рукаве DeepL — то, что он обучался не на сыром параллельном корпусе текстов as is, а на базе Linguee, системы контекстуального поиска переводов. Чтобы кратко объяснить, что это такое, воспользуюсь буквами, любезно предоставленными Википедией:

Linguee использует имеющиеся в интернете уже переведенные тексты в качестве основы для поиска переводов запросов пользователей: вначале поисковый краулер прочесывает интернет на наличие сайтов, содержащих билингвальные тексты. Эти данные сохраняются. Затем самообучающийся алгоритм при поддержке лингвистов компании оценивает качество полученных текстов. Только 1% всех текстов проходят проверку и затем предоставляются пользователям. Таким образом, по запросу пользователь получает список соответствующих друг другу законченных предложений на двух языках, которые содержат искомое слово или выражение.

То есть, DeepL учился на уже отобранных статистикой и человеками текстах. Более того, материал для его обучения уже учитывал контекст. Кажется, что именно это позволяет ему так хорошо имитировать естественную речь — он гораздо лучше с ней знаком.

Я более чем уверена, что прямо сейчас где-то кипит работа над ещё более умной системой перевода, и следующие поколения переводчиков будут смотреть на DeepL как мы сейчас на PROMT. Однако прямо сейчас это один из лучших инструментов, которые вы можете использовать, чтобы ускорить и облегчить свою переводческую рутину.

🔥3

167 viewsMaria, 16:45

lost in (tech)writing

На этом серьёзная часть про DeepL как будто всё! Если хотите пообсуждать машинный перевод — херцлих вилькоммен в комментарии)
А напоследок вот вам #lostinмемы по мотивам — и хороших выходных!

😁5🤓1

163 viewsMaria, 16:52

lost in (tech)writing

📚Книжная рекомендация на каналии: несу вам короткое саммари по книжке Думай о смысле. Будни переводчика IT-текстов.

В ней переводчик Иван Чаплыгин пишет про моё любимое — что такое хороший перевод и как добиться высокого качества, если вы переводите айтишные тексты. И параллельно рассуждает о более тонких материях, как то: на какой язык из пары легче переводить, нужен ли IT-переводчику технический бэкграунд и как уследить за контекстом.

✅ Что мне понравилось:

- Основная мысль — что переводчик должен думать в первую очередь о сохранении смысла исходного текста. И что иногда для этого требуется нарушить его форму.
- Пойнт о том, что прежде чем приниматься за перевод, мы иногда должны перевести текст и «с русского на русский», чтобы докопаться до сути.
- Призыв выкидавать из перевода всё лишнее — повторы, канцелярит, отглагольные существительные, пассивные конструкции и тому подобное.
- Много примеров из практики для иллюстрации теоретических выкладок.
- Современность примеров и то, что они объединены общей тематикой — айтишный переводчик вынесет из книги много действительно актуальных штук. Приятное разнообразие после Норы Галь, как по мне.

❌ Что не понравилось:

- Полное отсутствие структуры. Если вначале автор ещё пытается двигаться от общего к частному, то во второй половине книга просто превращается в сборник неструктурированных пёстрых заметок.
- Из-за формата мелких глав мысль автора немного скачет, и переводчику-новичку может быть сложновато вынести из книги максимум пользы.
- Первые два пункта влекут за собой некоторую склонность к самоповторам — слишком уж широко раскиданы по книге схожие по смыслу главы.
- Спорные моменты по переводу. Не со всеми примерами я согласна, но тут признаю, что каждый переводчик имеет право на своё мнение.
- Цена почти в 1,5к за бумажную версию 🥴

Думаю, что сделай автор из 50(!) мелких глав 20–25, объединённые по главной мысли, основную мысль получилось бы донести более изящно и компактно (хотя в книге и так 125 страниц). И не пришлось бы делать небольшой глубокомысленный вывод в конце каждой главы — хватило бы финального вывода для группы примеров, объединённых общей проблемой.

Итог: 3,5/5, скорее советую. И не только переводчикам, но и всем, кто работает со словами — потому что я свято верю, что думать о сохранении смысла полезно нам всем как людям ~~Писания~~ текста.

Если читали книжку и хотите про неё подискутировать — велком в комментарии, как и всегда)
#lostinкнижки

Издательство МИФ

Думай о смысле (Иван Чаплыгин) — купить в МИФе

Переводческие наблюдения в IT-сфере. Бумажная, электронная книга (epub, mobi, pdf, fb2). Читать отзывы и скачать главу.

❤3👌1

185 viewsMaria, 15:08

lost in (tech)writing

Вдгонку к вчерашней рекомендации — золотой фонд цитат из книги:

«Иногда нужно придумать и написать совершенно не то, что дано в исходном тексте, или, как говорят переводчики, нужно "отдалиться, чтобы приблизиться"»

«…каким бы плохим ни казался вам оригинал, это не повод выдавать откровенно халтурный перевод, ибо сие есть грех, за который с вас на Страшном суде спросят Нора Галь и Корней Чуковский»

«Переводчики обычно говорят, мол, мы сначала переводим с русского на русский, имеется в виду с языка инженеров, маркетологов, юристов и прочих специалистов на общечеловеческий, а потом уже на английский. Такие трансформации редко кто замечает, и, может быть, оно и к лучшему»

Не встречала переводчиков, которые бы говорили про «отдалиться, чтобы приблизиться» — но мне нравится здесь посыл. Как бы вы ни работали с текстами, отсекать лишнее и переводить с русского на русский (например, с языка ТЗ на человеческий) вам придётся. И стремиться сохранить при этом не букву, но дух — если заказчик, конечно, не требует обратного. Но это уже совсем другая история.

И последняя цитата, чтобы чуть разрядить обстановку:

«Мастерство письменного переводчика (в отличие от синхронистов и устных последовательных переводчиков) заключается не в том, чтобы мгновенно извлечь из памяти перевод конкретного слова или выражения, а в том, чтобы из двух десятков предлагаемых словарем вариантов выбрать самый правильный и точный или, наоборот, понять, что ни один не подходит и надо придумывать что-то совершенно новое. Поэтому, если речь не об устном сопровождении на переговорах топ-менеджмента, я спокойно говорю коллегам «я не знаю» и лезу в словарь или на просторы интернета в поисках подходящего варианта»

Или, как я говорю (по крайней мере про себя) в случаях, когда меня просят перевести что-то с лёту, «я переводчик, а не словарь» ✨

❤5

217 viewsMaria, 09:50

lost in (tech)writing

Пятничные шутейки к завершению рабочего дня — теперь и в виде репоста ✨
Для наведения красоты в тегах думаю заменить #лингвомемы на #lostinмемы. Такой маленький канал, а уже ребрендится, посмотрите-ка на него)

❤4👾2🔥1

235 viewsMaria, 15:11

lost in (tech)writing

Forwarded from ⚡ Супер быстрая покупка битка ⚡ (Helen)

В Glovo завезли машинный перевод, выбирайте гендер на сегодня:

⚡6

279 viewsMaria, 15:12

lost in (tech)writing

Начну послеотпускное возвращение на канал с дружественного репоста)

Знакомьтесь, это Катя, и Катя — мой лид ✨
И мы ищем нового воина клавиатуры в нашу команду!
Так что если вдруг это то, чего вы ждали — пишите Кате (и мне тоже можно)

❤5

205 viewsMaria, 17:22

lost in (tech)writing

Forwarded from Ушакова — директор буковок

Сегодня я к вам с анонсом

✨ У нас открывается вакансия✨

В отдел технических писателей Ozon Tech ищем специалиста со знанием английского языка 🐈

Человек нужен на задачи по документациям для зарубежных пользователей. Но у нас есть и API, и внутренности разработки Ozon — можно переключаться и изучать что-то новое 🐣

Гарантируем docs-as-code, вычитки и отсутствие ГОСТов 🐱

Резюме можно слать мне в личку — @ushkatia

💌

Please open Telegram to view this post

VIEW IN TELEGRAM

217 viewsMaria, 17:22

lost in (tech)writing

Пока канал на небольшом хиатусе, несу вам ещё один дружественный репост! На этот раз — не про поиск специалиста в команду, а прямо изнутри моей команды 😊

Если вас раз за разом спрашивают, кто такие технические писатели и что они делают — теперь вы можете отправить им статью от Марины)
Лайк, шер, репост и слова восхищения в канале автора статьи весьма приветствуются 😍

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰3

172 viewsMaria Kern, edited 11:32

lost in (tech)writing

Forwarded from Записки зануды

https://academy.yandex.ru/journal/technicheskii-pisatel

Дописала😌

education.yandex.ru

О чём пишет технический писатель?

Рассказываем о профессии технического писателя: обязанности, задачи, навыки, которые пригодятся для работы

🔥3

193 viewsMaria Kern, 11:32