Как настраивать файлы популярных форматов при загрузке

Smartcat предлагает разные варианты для обработки файлов в зависимости от исходного формата. В этой статье мы объясним, как настраивать файлы разных форматов.

Excel

Как правило, раньше при обработке электронных таблиц с помощью других CAT-инструментов пользователям приходилось переносить нужный контент в отдельный файл, если требовалась обработка только некоторых строк или столбцов. Smartcat значительно упрощает этот процесс. Теперь нет необходимости заранее подготавливать файл к переводу Если вы нажмёте на файл Excel, добавленный на первом этапе при создании проекта, справа появятся параметры его обработки:

Excel.png

(1) Настройка этого параметра определяет, как разделять исходный текст на сегменты: по предложениям или ячейкам.

Допустим, в одной ячейке содержится следующий текст: «Lorem ipsum. Dolor sit amet». Если вы выберете вариант «По ячейкам», система создаст сегмент со следующим текстом:

Lorem ipsum. Dolor sit amet.

Если же вы выберете вариант «По предложениям», система разделит ячейку на два сегмента:

  1. Lorem ipsum.
  2. Dolor sit amet.

Как правило, исходный текст лучше разделять на сегменты именно по предложениям, так как для памяти переводов предпочтительно использовать сегменты меньшего размера, чтобы вы могли эффективнее работать с возможными совпадениями.

(2) Настройка этого параметра определяет, в какой последовательности извлекать текст из электронной таблицы: горизонтально (по строкам) или вертикально (по столбцам)

(3) Настройка этого параметра определяет, извлекать ли названия листов на перевод.

(4) Настройка этого параметра определяет, извлекать ли скрытые ячейки и листы на перевод.

(5) Настройка этого параметра определяет, извлекать ли верхний и нижний колонтитулы на перевод.

(6) Настройка этого параметра определяет, извлекать ли комментарии на перевод.

(7) Настройка этого параметра определяет, извлекать ли графические элементы на перевод.

(8) Настройка этого параметра определяет, извлекать ли текст фигур на перевод.

(9) Настройка этого параметра определяет, извлекать ли текст из вложенных презентаций на перевод.

(10) Если вы выберете пункты «Загрузить выбранные диапазоны» или «Не загружать выбранные диапазоны», появятся дополнительные параметры:

settings.png

Здесь можно решить, какие именно данные из файла Excel вы хотите загрузить в проект или проигнорировать. При выборе столбцом или строк указывайте соответствующий диапазон (например, A:H для столбцов и 1:50 для строк). Столбцы и строки также можно указывать вместе. Например, если вы хотите перевести документ, в котором есть столбцы от A до Z и строки от 1 до 100, но при этом нужно пропустить столбец B, выберите следующие настройки:

range.png

Если вы выбрали вариант «Не загружать выбранные диапазоны», в диапазоне просто укажите столбец B. Кроме того, для каждого листа в файле Excel можно создавать собственные правила:

List.png

По каждому листу отдельные правила можно применить следующим образом:

List_range.png

В нашем примере на первом листе будет обрабатываться столбец A, а на втором — столбец B. Smartcat предлагает гибкое разнообразие возможностей для работы с файлами Excel. Теперь вам не придётся скрывать столбцы или вставлять текст на перевод в новый файл.

XLIFF

XLIFF — это стандартный формат, который используется для обмена данными перевода между разными инструментами. Файлы такого формата можно создавать в некоторых системах управления контентом (CMS) или других CAT-инструментах. Работать с ним очень удобно, ведь в нём содержится как текст оригинала, так и текст перевода, уже разделённые на отдельные сегменты, а также информация о статусе таких сегментов. Когда вы импортируете файлы XLIFF, Smartcat позволяет вам настроить их под себя. Для настройки доступны следующие параметры:

XLIFF.png

(1) Настройка этого параметра позволяет выбрать способ сегментации. Вы можете сохранить исходную сегментацию (для этого выберите вариант «Как у исходного файла») или дополнительно разбить непереведённые сегменты на предложения (для этого выберите вариант «Дополнительно сегментировать единицы без перевода»). Второй вариант будет удобен, если оригинальный документ делится на абзацы, а не предложения — так вы сможете с большей эффективностью использовать совпадения из памяти переводов. Сам процесс сегментирования будет запущен во время обработки файла.

(2) Настройка этого параметра сходна с первым. Если для первого параметра вы выбрали вариант «Дополнительно сегментировать единицы без перевода» и разбили исходные сегменты на отдельные предложения, в этом параметре выберите вариант «Да», чтобы вернуть первоначальную сегментацию при экспорте файла. Если же вы выберете «Нет, использовать сегментацию Smartcat», сегментация экспортируемого файла будет такой же, как и при работе в интерфейсе Редактора. Обычно мы советуем сохранять исходную сегментацию файла при экспорте. В противном случае, когда вы отправите готовый файл клиенту, ваш клиент не сможет импортировать этот файл в свою систему.

(3) Когда вы импортируете файл XLIFF, некоторые сегменты в нём уже могут быть переведены. Выберите вариант «Да», если хотите подставить этот перевод. Сделать это можно, например, в том случае, если вы перевели файл в другом CAT-инструменте, а отредактировать его хотите в Smartcat. Если же вы выберете вариант «Нет», имеющийся в файле перевод будет проигнорирован и вам придётся переводить все сегменты с нуля.

(4) Если в файле есть предварительно переведённые сегменты, настройка этого параметра определяет, следует ли их подтверждать. Например, если этапы вашего проекта включают перевод, редактуру и корректуру, а вы выбрали вариант «Да, на последнем этапе», сегменты будут отмечены как прошедшие корректуру и будут заблокированы для вашей команды лингвистов. Если вы выберете вариант «Да, на первом этапе», сегменты будут отмечены как переведённые и ваша команда лингвистов сможет продолжить работу над ними (на этапах «Редактура» и «Корректура»).

Если вы выберете вариант «Да, для сегментов со статусом:», откроется следующее окно:

confirm_setting.png

Здесь можно выполнить более точную настройку того, как статус в файле XLIFF будет соотноситься с этапом рабочего процесса в Smartcat. Например, на скриншоте выше система пометит сегменты со статусом «final» в файле XLIFF как прошедшие корректуру. Сегменты со статусом «translated» будут переведены, но при этом будут доступны для следующих этапов работы.

(5) Настройка этого параметра определяет, следует ли блокировать сегменты для последующих действий. Если вы выберете вариант «Да, со статусами:», откроется такое же окно, которое показано на предыдущем скриншоте. Вы сможете выбрать, сегменты с какими статусами будут блокироваться системой.

Если же вы выберете вариант «Да, с подставленным из файла и подтверждённым переводом», сегменты, подтверждённые согласно параметру 4, также будут заблокированы.

(6) Хотя этим параметром пользуются редко, вы можете отметить его галочкой, если хотите разрешить перекрещивающиеся теги (см. сноску):

tags.png

(7) Плейсхолдеры используются для защиты текста, который не нужно переводить, от изменения. С дополнительной информацией можно ознакомиться в нашей статье о плейсхолдерах.

XML

Smartcat может обрабатывать файлы XML нескольких стандартов без дополнительной настройки:

XML.png

Структура таких файлов варьируется в зависимости от тегов, которые вы ожидаете в них увидеть. Формат XML позволяет создавать любые теги. В связи с этим при извлечении данных из файла могут возникнуть некоторые ошибки. Поэтому то, как теги будут определяться, во многом зависит от способа разбора, который вы выберете, и самого файла XML.

Например, в стандартном документе HTML вы ожидаете встретить теги <p> (абзац). Но в файле DITA XML вы ожидаете встретить предопределённые теги стандарта DITA, такие как <xref>:

Если вы правильно укажете стандарт, данные будут правильно извлечены из файла. Например, на приведённом выше скриншоте сегменты разделились бы неправильно в том месте, где встречается тег <xref>, если бы не был указан стандарт DITA, в котором этот тег распознаётся. 

 

Сейчас в Smartcat невозможно создавать пользовательские фильтры для файлов XML. При обработке файлов XML с пользовательскими тегами результаты извлечения данных могут оказаться непредсказуемыми.
Если вы выберете способ разбора XML или DITA, появятся следующие параметры:

DITA.png

Настройка этого параметра определяет, как разбивать сегменты: по предложениям или по тегам и атрибутам. Например, в одном теге может содержаться несколько предложений:

<p> Lorem ipsum. Dolor sit amet. </p>

Если вы выберите вариант «По тегам и атрибутам», сегмент будет содержать следующий текст:

Lorem ipsum. Dolor sit amet.

Если же вы выберете вариант «По предложениям», система разделит текст на два сегмента:

  1. Lorem ipsum.
  2. Dolor sit amet.

Как и для других форматов, сегменты в файлах XML лучше разделять по предложениям, так как в этом случае вы сможете эффективнее использовать свою память переводов. В противном же случае система будет находить меньше совпадений, так как на один сегмент будет приходиться целый абзац текста.

placeholders.png

(1) Некоторые системы управления контентом (CMS) используют разделы CDATA, в которых хранятся строки HTML-кода. Если вы поставите здесь галочку, сначала Smartcat разберёт весь документ, а затем проанализирует блоки CDATA в поисках HTML-тегов, которые нужно защитить.

(2) Если вы поставите здесь галочку, то сможете импортировать и защищать переменные, которые содержатся в файлах XML (см. нашу статью о плейсхолдерах).

PDF

Обычно, когда вы добавляете файлы PDF (или другие графические файлы) в проект, их сначала обрабатывает технология оптического распознавания символов (OCR), чтобы извлечь текст на перевод, а также по возможности сохранить исходное форматирование. Для файла PDF можно настроить отключение OCR обработки (1) или же использование распознавания текста (2).

PDF.png

PowerPoint

Для файла PowerPoint можно настроить следующие параметры:

PPTX.png

Их назначение понятно из описания:

(1) Настройка этого параметра определяет, загружать ли скрытые слайды.

(2) Настройка этого параметра определяет, загружать ли разделы с заметками из каждого слайда.

(3) Настройка этого параметра определяет, загружать ли электронные таблицы, вложенные в презентацию PowerPoint.

Word (DOCX)

Для файла Word можно настроить всего два параметра:

DOCX.png

(1) Настройка этого параметра определяет, загружать ли скрытый текст из файла Word.

(2) Настройка этого параметра определяет, загружать ли комментарии из файла Word.

Понравилось?

4

Похожие статьи:

    Нет похожих статей