Skip to main content

Txt-to-tmx file converter.

Project description

Пакет с несколькими скриптами для конвертации txt-файлов в tmx-файлы

Эти скрипты позволяют токенизировать текстовые файлы на предложения, а затем конвертировать получившиеся файлы в формат tmx (translation memory exchange, по сути -- xml-файлы), в том числе в формат, понимаемый программой SDL Trados Studio 2017.

Установка в Windows в терминале Anaconda Prompt

$ python -m venv .venv
$ .venv\Scripts\activate.bat  # в терминале Git Bash: source .venv/Scripts/activate
$ python -m pip install --upgrade pip
$ pip install to-tmx
$ python -m nltk.downloader punkt  # для токенизации на русском языке

Внешние зависимости

Пакет устанавливает NLTK. Кроме того, последняя строчка в разделе про установку скачивает модели для токенизации на предложения из NLTK Corpora. Эта команда может выдывать предупреждение при исполнении, но все равно работает.

Использование

Примеры исходных, промежуточных и финальных файлов лежат в репозитории проекта на Гитхабе в папке data/.

Токенизация файлов на предложения

$ sent-tok "path\file name.txt" language  # английский по умолчанию

Например:

$ sent-tok "data\Madrid System_eng.txt" english
$ sent-tok "data\Madrid System_rus.txt" russian

На выходе получаем два токенизированных на предложения файла, Madrid System_eng.txt_sent_tok и Madrid System_rus.txt_sent_tok.

Их следует открыть в текстовом редакторе (Notepad++) и проверить, что все токенизировалось правильно. Обычно ошибок хватает. Нужно, чтобы количество строк в обоих файлов стало одинаковым.

Конвертация в tmx

$ to-tmx "path\file name_eng.txt_sent_tok" "path\file name_rus.txt_sent_tok"

Например:

$ to-tmx "data\Madrid System_eng.txt_sent_tok" "data\Madrid System_rus.txt_sent_tok"

Скрипт создаст файл "data\Madrid System_eng-Madrid System_rus.tmx".

Конвертация в tmx, понимаемый программой SDL Trados Studio 2017

$ tmx-tradosize "path\file name_eng-file name_rus.tmx "path\file_name_trados_style.tmx"

Первый аргумент -- исходный tmx-файл (полученный на предыдущем этапе), второй аргумент -- путь и желаемое название выходящего файла. Например:

$ tmx-tradosize "data\Madrid System_eng-Madrid System_rus.tmx" "data\madrid_system_trados_style.tmx"

Конвертация многих файлов в tmx-файлы, понимаемые программой SDL Trados Studio 2017

Команда tmx-batch-tradosize попросит выбрать папку с несколькими tmx-файлами, а результат сохранит в папку tmx-trados-style\

Project details


Download files

Download the file for your platform. If you're not sure which to choose, learn more about installing packages.

Source Distribution

to_tmx-1.0.1.tar.gz (7.3 kB view hashes)

Uploaded Source

Built Distribution

to_tmx-1.0.1-py3-none-any.whl (8.8 kB view hashes)

Uploaded Python 3

Supported by

AWS AWS Cloud computing and Security Sponsor Datadog Datadog Monitoring Fastly Fastly CDN Google Google Download Analytics Microsoft Microsoft PSF Sponsor Pingdom Pingdom Monitoring Sentry Sentry Error logging StatusPage StatusPage Status page