冲锋车之怒火街头高清:Workbench 简介

来源:百度文库 编辑:中财网 时间:2024/04/27 15:18:00

[Workbench 简介]

20 世纪 40 年代末期,英国工程师 A.D.Booth 和美国工程师 W.Weaver 提出了计算机代替人工翻译的可能性,它不禁使人畅想,未来的时代可能是一个全能的机器翻译时代,那时,人工翻译将仅限于文学领域。

时至今日,机器翻译领域仍无长足进展,无论是人工智能模式还是统计模式,都未能获得令人满意的翻译效果。而在这一过程中,一种退而求其次,依靠人工参与的计算机辅助翻译系统 (Computer Aided Translation, CAT) 开始大行其道,成功得以应用,并在今日的本地化领域及其他翻译领域成为主流的翻译工具。CAT 的基本概念就是“翻译记忆”(Translation Memory,TM),它和其他许多人类的发明一样,是人们避免重复劳动的“偷懒创造”。

TM 的原理很简单,就是将已翻译过的内容以“成对”原文和译文的方式存储在特定数据库中,当进行新的翻译工作时,使用要翻译的内容在数据库中检索相匹配的原文,如果找到完全匹配的原文,则可以直接使用其译文,如果找到的是达到一定匹配率但不是完全匹配的原文,则可以将其译文作为参考,经过适当的修改后使用。通过这个过程几乎可以完全避免翻译的重复工作,充分利用原有的翻译内容,达到降低翻译成本、提高翻译效率的目的。同时,TM 还为译文和术语的一致性提供了有力的保障,也为用户之间交换翻译库带来了便利。

一般所用的 CAT 软件就是所谓的 TM 数据库系统,它可以创建、管理、维护 TM 数据库,是翻译人员与 TM 数据库之间的中介桥梁,有些 CAT 软件还融入了本地化翻译项目管理的概念,提供了项目字数分析、预翻译处理等功能,Workbench 就是这样一款产品。

它主要包括四大功能模块:

TM 的创建和维护 TM 创建(File -> New...)、导入(File -> Import...)、导出(File -> Export...)、TM 数据库整理(File -> Reorganise...)、TM 数据库维护(File -> Maintenance...)

TM 的设置 - TM 的常规信息、TU 信息字段、字体、Non-translatable 设置、分隔规则、TM 访问权限(File -> Setup...)

Workbench 设置 - 基本设置(Settings 菜单)、窗口显示设置(View 菜单)、翻译设置(Options 菜单)

Workbench 工具 - 3 大批处理工具(Tools 菜单下的 Analyse、Translate 和 Cleanup 实用工具)、索引词查询工具(Tools 菜单下的 Concordance 实用工具)

基于这些功能,Workbench 在三个层次上实现了对重用翻译内容的支持:

1Segment 支持
在翻译过程中,可以利用 Workbench 的主窗口,获得整句原文的搜索匹配结果

2Subsegment 支持
可以利用 Workbench 的 Concordance 工具,以整句中的部分内容作为关键词进行搜索

3Terminology 支持
可以借助  Trados 的组件工具 Multiterm 实现词汇(术语)的检索重用

【本贴术语约定】

下面是一些后续文档中要使用的术语,为了统一起见,特此列出。术语列表可能会随文档内容的更新而不断增补。

TM - 翻译记忆数据库系统(Translation Memory )

TU - 翻译单元(Translation Unit),TM 的存储单位,

每个 TU 由原文部分(Source Segment)、译文部分(Target Segment)、系统信息字段(System Field)和自定义信息字段(Attribute Field 及 Text Field)四部分组成

Source Segment - TU 中的原文部分

Target Segment - TU 中的译文部分

System Field - TU 中的系统信息字段,包括:Created on、Created by、Changed on、Changed by、last Used、usage

Attritute Field - 用户自定义的 TU 信息字段,每个属性信息字段需要定义字段名和相应的字段值,设置时在 Project Settings(Settings -> Project and Filter Settings)中进行选择

Text Field - 用户自定义的 TU 信息字段,每个文本信息字段只需定义字段名称,字段值在 Project Settings 中以文本形式输入

No Match - TM 中 TU 的匹配情况。表示 TM 中当前不存在匹配率大于等于 Minimum match value % 值(Options -> Translation Memory Options -> General 选项卡)的 TU

Fuzzy Match - TM 中 TU 的匹配情况。表示 TM 中当前存在匹配率大于等于 Minimum match value % 值但小于 100% 的 TU

Full Match - (100% match)TM 中 TU 的匹配情况。表示 TM 中存在匹配率等于 100% 的 TU

Placeable - 在 TU 的 Target 中需要保留原文而不翻译的 Source 部分的内容,主要是 Tag。由于可以对其进行移动,因此得名 Placeable

Penalty - 匹配率扣减。翻译文档过程中,在对 TM 中的 TU 进行匹配时,首先是将文档中要翻译的内容与 TM 中 TU 的 Source 部分进行“文本”上的匹配,之后,会考虑其他一些在要翻译的内容与 TM 中 TU 的 Source 部分之间存在的差异和相关因素来调整(扣减)文本匹配率,其中包括:文本格式(字体、字号、其他特殊效果)的差异、属性信息字段及文本信息字段的差异、所包含的 Tag 的差异,是否存在 Multiple Translation 等等。从“文本”匹配率中扣减掉适用的 Penalty 值后,得出的才是最终的匹配率

Multiple Translation - 指 TM 中对于某个特定的 Source(原文)内容存在有多个 Target(译文)内容的现象,即 TM 有多个其 Source 部分相同但 Target 部分不同的 TU

Batch Tool - 指 Workbench 的三个批量处理工具:Analyse(字数分析工具)、Translate(预翻译工具)、Cleanup(清除原文工具)

TU 结构示意图】

红色:Source Segment(原文部分)

黄色:Target Segment(译文部分)

蓝色:System Field(系统字段),分别为,创建时间、创建者、修改时间、修改者、最后修改时间、使用次数

绿色:自定义信息字段

Attribute Field 和 Text Field 是用于标识翻译单元(TU)的自定义信息字段
其中的 Client: HP 和 Projcet ID: 001 就是笔者定义的 Attribute Field 和 Text Field。这些字段是项目的信息标识,如果在 Settings -> Project and Filter Settings -> Project Settings 选项卡中设置了 Text/Attribute 字段,在将 TU 提交到 TM 数据库时就会附带上这些字段信息(如上图所示)。

Attribute Field 和 Text Field 的基本区别是,Attribute Field 设定的是可以预见其可能值的信息字段,比如客户名称、产品名称、组件名称、版本号等,使用时在 Project Settings 中选择设置好的字段值;Text Field 定义的是无法预先设定其可能值的标记文本,比如文档的编号,使用时在 Project Settings 中手动输入字段值。

Workbench 默认提供了一个 Attribute Field(名称为 Status,包含 new、approved 和 readonly 三个值)和一个 Text Field(名称为 Text Field)。如果要自定义信息字段,需要以独占方式(exclusive)打开 TM,然后在 Workbench 的 File -> Setup... -> Fields 选项卡中进行定义。定义后,需要在 Project Settings 选项卡中选择 Attribute Field 和/或 Text Field 并指定或输入相应的值。这样,在翻译时,提交到 TM 中的翻译单元就会附加上所选择的信息字段值。

【专题知识】关于 Project Settings Filter Settings

Projcet Settings 用于设置附加到 TU 的信息字段,而 Filter Settings 是利用信息字段从 TM 中筛选翻译单元的一种机制,二者在 Workbench 的 Settings -> Projcet and Filter Settings 对话框中设置。

如果将 TM 看作一个数据库的话,我们对 TM 执行的所有操作都可分为两类:

TM 中读取数据 ——

· 打开翻译单元的过程 寻找匹配的 TU 以及将 TM 中匹配的 TU 复制到翻译文档

· Analyse 对文档进行分析

· translate 对文档进行预翻译

TM 中写入数据 ——

· 使用 set 操作,将文档中的翻译单元提交到 TM

· Translate Cleanup 中的 update TM 操作

Project Settings 是针对写入操作的,即每个写入到 TM 的翻译单元(不论是提交翻译单元时写入,还是在 Translate 或 Cleaup 时写入)都会附加 Project Settings 选项卡中设置的字段值;

Filter Settings 是针对读取操作的,即在对 TM 中的翻译单元进行匹配时,如果发现 TM 中的翻译单元的自定义信息字段值(Text Field 和 Attribute Field 值)与 Filter Settings 选项卡中的设置不符(或者不包含选项卡中的设置值),则会按照 Options -> Translation Memory Options -> Penalties 选项卡中 Attribute and Text field differences penalty(默认为 2)所设置的数值对该翻译单元的匹配率进行扣减。

具体来说,如果 TM 中有两个翻译单元 a 和 b,其 TU 的 Source 部分(原文部分)相同,但由于针对的是不同的产品,因此 Target 部分(译文部分)不同,而且附带的字段信息也不同(假设都包含一个 Client 字段,但字段值分别为 IBM 和 HP),如果 Filter Settings 中将 Client 设置为 IBM,当在翻译时遇到这个句子时,a 的匹配率为 100%,而 b 的匹配率则为(100-2)%,因此,Workbench 窗口中会优先显示 a,从而达到了筛选的目的。

相关示例,请参见以下帖子中 12 楼的说明:Attribute Field Text Field 的应用


Workbench Options > Translation Memory Options > General 选项卡


Minimum match value %

【解释说明】
指定 fuzzy match 的阈值。Workbench 将 TM 中翻译单元的匹配情况分为三种:full match(或 100% match)、fuzzy match、no match。而 Minimum match value % 就是 fuzzy match 和 no match 的分水岭,即匹配率小于此值的为 no match,大于等于此值但不完全匹配的为 fuzzy match。在翻译过程中,Workbench 窗口会显示 full match 和 fuzzy match 的翻译单元,但如果是 no match,则不显示任何翻译单元。

【使用提示】
该设置的系统默认值为 70%,如果希望匹配到更多的 TU,可以降低设置。但一般来说,较低的设置并不能保证提供具有重用价值的翻译单元。
另外,该阈值还会影响到字数分析 (Analyse)。具体来说,Workbench 的 Tools -> Analyse 面板下部会列有以下统计项:95~99、85~94、75~84、50~74、No match,如果某个句子在 TM 中的实际匹配率为 60%,当 Minimum Match Value 值低于 60 % 时,会将这个句子统计到 50~74 这一项中;当 Minimum Match Value 值高于 60% 时,会将这个句子统计到 No match 一项。因此,Minimum Match Value 值不同,某些情况下统计结果会有很大的差别。需要提请注意的是,Minimum Match Value 的值是保存在本机的 Workbench 中的(而不是保存在 TM 数据库中),也就是使用本机的 Workbench 打开任何一个 TM,Minimum Match Value 值都不变。因此,对于经常使用 Wrokbench 做字数分析的 PM 人员,如客户没有特殊的要求,建议使用默认的 Minimum Match Value 值,以免造成分析结果不一致的情况。


Maximum number of hits

【解释说明】
指定在 Workbench 窗口中可显示的 full match 或 fuzzy match 的翻译单元的数量。比如对于文档中的某句话,TM 中有 10 个翻译单元的匹配率大于 Minimum match value % 值但都不是完全匹配,如果 Maximum number of hits 值设置为 5,则在 Workbench 窗口中只可能显示前 5 个翻译单元。具体显示时,会在窗口中显示匹配率最高的那个翻译单元,此时,窗口左下角的翻译单元切换按钮会处于可用状态,可以使用这些按钮访问其他 4 个匹配率相对最高的 fuzzy match 翻译单元。如果 TM 中有且只有一个 full match 的翻译单元,则会只显示该翻译单元,切换按钮处于不可用状态。但如果有多个 full match,则会按 fuzzy match 的显示规则进行显示。

【使用提示】
建议使用系统的默认值 5


Switches】(开关设置)


Display time

【解释说明】
在 Workbench 窗口左侧的 Created on 和 Changed on 位置显示当前窗口中显示的翻译单元的时间信息。如果不选中此复选框,则只显示日期信息。

【使用提示】
翻译人员在选择使用 TU 时,如果日期无法作为判断条件,可以参考时间信息。在多人共享同一 TM 时,也可根据时间信息判断是否选用已被修改的 TU 译文部分。另外,可以根据时间信息判断当前 TU 是集中 Cleanup 到 TM 中的 TU,还是翻译过程中提交到 TM 中的 TU,如果有多个 TU 的日期时间完全一样(精确到分钟),则可以大致判断这些 TU 是通过 Cleanup 操作进入翻译单元的。


Show project settings

【解释说明】
打开 TM 时显示 Project and Filter Settings 对话框,以便用户在开始工作之前设置自定义信息字段。

【使用提示】
如果项目中使用的 TM 包含自定义信息字段,并且在翻译过程中需要将这些信息字段附件到 TU 来提交到 TM 数据库,则适宜选中此复选框,这样可以在开始工作前设置或确保设置相应的自定义信息。如果项目无此要求,则建议清除此复选框,这样在打开 TM 时就不会显示 Projcet and Filter Settings 对话框。


Copy source on no match

【解释说明】
在翻译过程中,如果 TM 中没有任何翻译单元的匹配率大于等于 Minimum match value % 值,即出现了 no match 的情况,则选中该复选框的情况下,会将 Source 部分复制到译文位置。

【使用提示】
建议选中此复选框。如果要翻译的句子中的某些词需要保留为英文(而且有时这类内容需要保留原有格式),则在 no match 的情况下,会自动将 Source 部分复制过来,翻译完后删除不需要的英文即可,这样可免去输入那些保留为英文的部分。


Insert blank after tag

【解释说明】
当使用 Tageditor 组件工具栏的 Placeable 插入按钮(包括 Get previous placeable、Get current placeable、Get next placeable),或者在 Word 中使用 Trados 工具栏中的 Placeable 插入按钮(取上一非译元素、取当前非译元素、取下一非译元素),在翻译文档的 Target 部分插入 Placeable 内容(即通常所谓的 tag 标记)时,会自动在 tag 后面添加一个空格。

【使用提示】
具体的测试中发现,在 Tageditor 中操作时,无论是否选中该选项,均无任何效果;而在 Word 中操作时,无论是否选中该选项,如果在英文前插入 tag,都会自动添加一个空格,如果在中文前插入 tag,也没有任何效果。


Strip tags from fuzzy matches...

【解释说明】
如果翻译过程中,文档中当前要翻译的句子不带有 tag,但 TM 中与之具有最高匹配率的翻译单元却带有 tag,则选中该选项后,使用相应命令来复制 TM 中该翻译单元的译文时,会自动去掉 tag。

【使用提示】
该选项在 Word 和 Tageditor 中均有效。建议选中该选项。

【专题知识】关于 Multiple Translation

所谓 Multiple Translation,是指 TM 中同一个 Source Segment(翻译单元 TU 中的原文部分)对应有多个不同的 Target Segment(翻译单元 TU 中的译文部分),即同一 Source Segment 对应有多个 TU。

一般来说,如果出现了 Multiple Translation,在原则上即违反了一致性(Consistency),但有的时候某一句原文确实可能有多个翻译,比如 password 一词,在 Windows 系统和 Unix 系统就有不同的说法,分别为“密码”和“口令”,如果 TM 中有必要包括这两种翻译,则存在 Multiple Translation 就有其合理性。另一方面,存在 Multiple Translation 会降低 TU 的匹配率(会按 Options -> Translation Memory Options -> Penalties 选项卡中 Attribute and Text field differences penalty 所设置的数值对存在 Multiple Translation 的翻译单元的匹配率进行扣减),会给客户造成一定的成本损失,同时也会给后续的翻译工作带来麻烦,因此,大多数情况下,我们需要避免不必要的 Multiple Translation。

TM 中出现 Multiple Translation 主要有三种可能途径:

a、创建 TM 数据库时选中了 Allow multiple translation for identical source segments(注1选项,翻译文档时,如果某句原文在 TM 中存在完全匹配的 TU,但你在文档中对其译文部分进行了修改,并且使用 Workbench 菜单中的 Add as new translation 菜单项提交(如果是在 Tageditor 中),或者使用 Trados 菜单中的“添加新译文”菜单项提交(如果是在 Word 中),则这种情况下会添加一个新的翻译单元。如果以正常方式提交,则会覆盖原来的翻译单元。

b、创建 TM 数据库时选中了 Allow multiple translation for identical source segments 选项,这种情况下,Options -> Tranlsation Memory Options -> Tools 选项卡下的 Always add new translation unit when target segments differ 选项将处于可选用状态。如果选中了这个选项(注意:Tools 选项卡中的设置都是用于批处理 Analyse、Translate 和 Cleanup 的),在 Translate 和 Cleanup 等批处理过程中更新 TM 时,对于同一原英文,只要译文不同,就会添加一个新的翻译单元,而不是覆盖原有的内容,这样,如果文档中存在 Multiple Translation 的情况,都会体现在 TM 中。很多客户使用这个选项来检查所提交的文档中是否存在 Multiple Translation。

c、在创建 TM 数据库时无论是否选中了 Allow multiple translation for identical source segments 选项,对于某个已在 TM 中存在的翻译单元,如果在翻译文档时修改了该翻译单元的翻译内容,并且当前 Project Settings 中设置的信息字段值与 TM 中该翻译单元的信息字段值不同且前者不是后者的一个子集(注2(比如 TM 中该翻译单元的标记为 client=IBM,而当前的 Project Settings 中的设置为 client=HP),则提交后会生成一个新的翻译单元,并附带 Project Settings 中设置的信息字段值。


1如果在创建 TM 数据库时选中了 Allow multiple translation for identical source segments 选项,则会产生 3 个变化:

① 如果文档中的某句原文在 TM 中有完全匹配的 TU,则在文档中打开该翻译单元时,Workbench 菜单中的 Add as new translation 菜单项将处于可用状态(如果使用的是 Tageditor,但 Word 的 Trados 菜单中的“添加新译文”菜单项始终会处于可用状态);

② Workbench 的 Options -> Translation Memory Options -> Penalties 选项卡中的 Attribute and Text field differences penalty 选项处于可选用状态;

③ Workbench 的 Options -> Tranlsation Memory Options -> Tools 选项卡下的 Always add new translation unit when target segments differ 选项将处于可选用状态

否则,如果在创建 TM 数据库时没有选中 Allow multiple translation for identical source segments 选项,上述三个选项都将处于不可用的灰显状态。

2:这里子集的意思是,从数学集合的角度来看,TM 中该 TU 的信息字段的内容包含 Project Settings 中的信息字段设置。比如,在 Project Settings 中设置了一个 Client 字段,并指定 HP 作为其字段值,则 Project Settings 的设置结果是“Client = HP”,如果当前 TU 的信息字段值为“Client = HP,IBM”,则后者包括前者,前者即为后者的一个子集。

Workbench Options > Translation Memory Options > General 选项卡(续)


阅读本文档之前,如有必要,请参阅以下内容:

· 关于 Attribute Field 和 Text Field

· 关于 Multiple TranslationProject Settings 导致 Multipel Translation 的说明)

· 关于 Project Settings 和 Filter Settings

Updating attribute and text fields

【解释说明】

在翻译文档时,如果文档中当前正在翻译的原文在 TM 中对应有完全匹配的 TU(翻译单元),但该 TU 的自定义信息字段值与当前 Project Settings 中设置的不一样,这种情况下,您可能会完全重用匹配的译文,也可能会对译文进行修改,问题在于,在提交该翻译单元时,如果对译文进行了修改,那么提交后是覆盖原来那个匹配的 TU 还是创建一个新的 TU;在重用原来的译文以及修改原来的译文这两种情况下,提交时如果不创建新的翻译单元,如何处理 TM 中该翻译单元原有的自定义信息字段值与 Project Settings 中的设置不同这一矛盾?是保留原来的信息字段值,还是替换为 Project Settings 中的设置,或者是将这两者合并?以下对这些问题进行简要的分析说明。

当遇到 100% 匹配的 TU 时,通常会出现三种处理情况:

① 使用了匹配的 TU 的译文部分而没有进行修改,提交后保留 TM 中那个匹配的 TU,出现这种情况要满足以下条件:

· 遇到 100% 匹配的 TU

· 使用了该 TU 的译文部分而没有进行修改

② 修改了匹配的 TU 的译文部分,提交后保留 TM 中那个匹配的 TU 但替换其译文部分,出现这种情况要满足以下条件:

· 遇到 100% 匹配的 TU

· 修改了译文部分

· 当前 Project Setings 中设置的 Attirubte 和 Text 字段值与当前匹配的 TU 附带的字段值一致或为后者的一个子集(或者说后者包含前者)。1

· 使用通常的 Trados 提交按钮 或命令来提交翻译单元,而不是使用 Workbench 菜单中的 Add as new translation 菜单项(在 Tageditor 中)或者使用 Trados 菜单中的“添加新译文”菜单项(在 Word 中)提交翻译单元。2

③ 修改了匹配的 TU 的译文部分,提交后在 TM 中生成新的 TU,出现这种情况要满足以下条件:

· 遇到 100% 匹配的 TU

· 修改了译文部分

· 当前 Project Setings 中设置的 Attirubte 和 Text 字段信息值与当前匹配的 TU 附带的字段信息值不一致且前者不是后者的一个子集。

在提交翻译单元时,Trados 会按以上条件判断是保留 TM 中匹配的 TU、覆盖匹配的 TU、还是保留匹配的 TU 但新增一个 TU。

如果匹配的 TU 的自定义信息字段值与当前 Project Settings 中的设置不一致,在以上所述的前两种情况下(即不增加新的 TU 的情况下),会按本选项卡 Updating attribute and text fields 区域的设置进行处理。

该区域有两组设置: Used translation units 和 Changed translation units,分别确定上述的第 1、2 种情况下如何处理 Project Settings 中的设置与匹配的 TU 的字段值不一致的情况。如果 Project Settings 中未设置任何内容,则不适用这些选项。

可选择的处理方式如下:

· Leave unchanged —— 保留原有的自定义信息字段值

· Merge —— 将原有的自定义信息字段值与 Project Settings 中的设置合并

· Overwrite —— 使用 Project Settings 中的设置替换原有的字段信息值

举例来说,比如 TM 中当前匹配的 TU 的自定义信息字段值为 Client:HP,而 Projcet Settings 中的设置为 Client:IBM,则上述三个选项设置对应的结果如下:Client:HP(保留)、Client:HP,IBM(合并)、Client:IBM(替换)。

需要说明的是,对于上述的 TU 100% 匹配的第二种情况,在 Changed translation units 部分选择 Leave unchanged 和 Merge 的实际效果是一样的,拿注释1 中的例子来讲,提交后的标记都是 client = IBM, HP。

【使用提示】一般选择将这两种情况均设置为 merge,这样既不会破坏已有的自定义信息字段值,也可将 Project Settings 中的设置包含进去。当然,如果 Project Settings 中未设置任何内容,则不适用这些选项。


Do not create new translation units if only text fields differ

【解释说明】
选中该选项后,如果在 Project Settings 中设置了 text 字段,且 Project Settings 中的设置与 TM 中原有翻译单元的自定义信息字段值相比较,只有 text 字段不同,则“提交时修改了 TM 中原有的 TU 的译文部分”的情况下,不会添加新的翻译单元,而是覆盖原有的翻译单元。

【使用提示】
可以利用这个设置满足一些特殊的需要,将在以后的帖子中进行介绍。

注释1举例来说,如果 Project Settings 中设置了一个 client 字段,并且为其选择的值为 HP,则提交翻译单元时,应附带 client = HP 这个信息字段值,但如果 TM 中完全匹配的 TU 所附带的信息字段值为 client = IBM, HP,则前者就为后者的一个子集,即后者包括前者。

注释2如果使用后两种提交方式,则会添加一个新的翻译单元,详情请参见本贴“关于 Multiple Translation”中有关“TM 中出现 Multiple Translation 的三种可能途径”的途径 a 部分的说明。

Workbench Options > Translation Memory Options > Penalties 选项卡

Workbench 的机制之一就是将已翻译过的内容以翻译单元(TU)的形式存储在后台数据库(TM)中,以便在翻译新的文档时重用这些翻译内容。在实现这一机制时需要将当前的翻译内容与 TM 中已有的 TU 进行比较,获得匹配率以供用户来选择处理。翻译单元的匹配首先是文本上的匹配,除此之外,Workbench 还会考虑 TU 的 Source 部分的格式差异、是否包含要保留为英文的 Placeable 内容、该 TU 是否由 WinAlign 生成、TU 的自定义信息字段是否与 Filter Settings 的设置匹配、是否存在 Multiple Translation 等因素。因此,在对文本进行匹配的基础上,会根据是否出现这些情况,进行相应的匹配率扣减,以便提醒用户注意这些因素。而 Peanlties 选项卡就是用来设置在获得 TU 匹配率时需要考虑哪些因素以及相应地要扣减多少匹配率分值。以下逐一介绍这些 Penalty 设置项。


Formatting differences penalty %
【解释说明】
如果当前在文档中处理的翻译单元与相应的 TM 中匹配的 TU 在格式上(字体、字号、颜色等样式)存在差异,则会应用此扣减项。(注1
【默认设置】
1%(可设置范围:0~20%)
【窗口提示】

【使用提示】
如果当前翻译的文档无需考虑任何格式,可以将其改为 0。如果文档中的文本存在特殊的格式设置,且翻译后要求保留原来的格式(多见于 doc 文档),最好为此扣减项指定大于 0 的值。


Attribute and text field differences penalty %
【解释说明】
如果当前在 Filter Settings 中进行了设置,且所设置的内容与在 TM 中匹配的 TU 的自定义信息字段值不同(并且后者也不包括前者),则会应用此扣减项。
【默认设置】
2%(可设置范围:0~20%)
【窗口提示】

【使用提示】
实际上,Filter Settings 的筛选机制就是按照这个值来扣减那些与 Filter Settings 设置不符的 TU 的匹配率,相对提高那些符合 Filter Settings 设置的 TU 的匹配率,从而将这些 TU 筛选出来。因此,要使筛选机制有效,Filter Settins 和此扣减项二者缺一不可。如果将其清为 0,则 Filter Settings 即使设置了也无效;但反过来说,没有设置 Filter Settings,此扣减项也形同虚设。


Placeable differences penalty %
【解释说明】
假设文档中当前翻译的原文包含 Placeable(或 Tag),如果 TM 中有一个 TU 的文本内容与其完全匹配,但 Tag 部分的内容不同,则会应用此扣减项。但如果它们的 Tag 在数量上存在差异,则不适用此扣减项。
【默认设置】
2%(可设置范围:0~20%)
【窗口提示】

【使用提示】
实际上,只有在选中 Apply placeable penalty also when source tags differ 复选框后,才会应用此扣减项。


Allignment penalty %
【解释说明】
如果 TM 中匹配的 TU 是由 WinAlign 工具生成的(注2,则会应用此扣减项。
【默认设置】
3%(可设置范围:0~20%)
【窗口提示】

【使用提示】
Align 过程并不能保证所生成的 TU 完全正确,因此可以设置此 Penalty 值来提醒译员注意并确认匹配的翻译单元。一旦通过提交翻译单元对 Align 后的 TU 进行了确认,该 TU 的 Changed by 字段就会附加上当前译员的“用户 ID”,下次遇到该 TU 时此 Penalty 选项将不再适用。


Machine translation penalty %
【解释说明】
此选项尚不了解其含义,估计和欧洲语言的机器翻译有关,可能对亚洲语言不适用,恳请高手给出解释。
【默认设置】
15%(可设置范围:0~20%)


Multiple translations penalty %
【解释说明】
如果当前文档中的某句原文在 TM 中有多个完全匹配的 TU,则会应用此扣减项。
【默认设置】
1%(可设置范围:0~20%)
【窗口提示】

【使用提示】
建议使用此选项,以便在遇到此种情况时,能够提醒译员来选择合适的 TU。


Apply placeable penalty also when source tags differ
【解释说明】
该复选框与 Placeable differences penalty % 结合使用,缺少任何一个,都不会应用 Placeable 匹配率扣减。
【使用提示】
如果所翻译的文档中某句原文在 TM 中对应有文本内容完全匹配但 Placeable(Tag)不同的 TU,则在从这个匹配的 TU 复制其译文到文档中时,会自动将 Tag 部分替换为文档中原文所使用的 Tag。如果设置了 Placeable differences penalty % 且选中了该复选框,则仍会应用这一自动替换处理,但在 Workbench 窗口底部会显示扣减后的匹配率。


需要提请注意的是,设置这些匹配率扣减项的目的之一就是提醒译员在翻译时注意相关的问题。因此,如果觉得没有必要,可以将相应的设置清为 0,这样可以使翻译过程更加流畅。而对于需要使用 Workbench 进行字数分析的 PM 来讲,最好使用默认设置。理由是,这些设置会影响 TU 的匹配率,这种影响会最终体现在字数统计结果中。在保存字数分析结果的 log 文件中,95% 99% 统计项内有很多统计的都是这类文本完全匹配但被 Penalty TU,因此,为了保证统计结果的一致性,建议 PM 最好使用默认的设置或与客户的设置一致。另外,这些设置是保存在本地的 Trados 安装文件夹下的,使用同一台计算机打开任何一个 TM,该设置都不会改变,这点需要注意。如果是使用别人的计算机进行分析,请不要忘记先确认 Penalty 设置。


1:这里需要说明,提交到 TM 中的 TU 在某些情况其 Source 部分中会加入文字格式标记。具体来说,如果提交的 Source 部分使用统一的格式,不论具体格式包含哪些特殊的格式设置(字体、字号、颜色、特效),只要是统一,提交到 TM 中时就不会添加任何格式标记;但如果同一原文 Source 内部存在多种格式(比如一句原文中存在两种字体),则提交到 TM 中时就会添加格式信息,以区分同一句原文中不同部分所使用的不同格式。请看以下示例:

We must do best we can to provide the product of high quality in short time.

这句原文开始的部分使用了加粗的效果,结尾部分使用了红色字体。将这句原文翻译后提交到翻译单元,然后通过 Tools 菜单下的 Concordance 实用工具或 File -> Maintenance... 选项卡显示该翻译单元,右键单击 TU 左侧的国旗图标,在显示的快捷菜单中选择显示 Advanced Edit... 对话框,这时会看到,对话框中上面的那个文本框所显示的 Source 部分,除了文本之外,还包括一些格式标记,如下所示:

而如果将这句原文的格式调整为统一(红色并粗体):We must do best we can to provide the product of high quality in short time.,虽然仍带有格式,但提交后,打开它的 Advanced Edit...选项卡,会发现 Source 部分不会带有任何格式标记。实际上,对于上面那个内部格式不统一的原文,它在 TU 中 Source 部分的实际存储形式就是“{\b We must do best we can} to provide the product of high quality{\cf6  in short time}.”,比较其匹配率时,也是按照这个带有标记的 Source 来比较的。因此,从这个意义上,它与那个格式统一的 Source 尽管文本上完全匹配,但它们属于不同的 Source,会作为不同的 TU 来保存。

因此,任何文本内容相同的原文,即使它们相互将的格式存在差异,但只要格式对于它们各自来讲是内部统一的,那么提交到 TM 后就不会带有格式标记。因此以下不同格式的 Source 是完全匹配的,因为它们实际的 Source 内容就是“We must do best we can to provide the product of high quality in short time.”,它们之间不会涉及到由于格式而导致的匹配率扣减问题:

We must do best we can to provide the product of high quality in short time.

We must do best we can to provide the product of high quality in short time.

We must do best we can to provide the product of high quality in short time.

We must do best we can to provide the product of high quality in short time.

......

......

......

We must do best we can to provide the product of high quality in short time. 与它们是不同的 Source,因为它的 Source 内容实际为:“{\b We must do best we can} to provide the product of high quality{\cf6  in short time}.”。

2:WinAlign 工具简单来说就是按照一定规则从两个不同语言的文档生成 TU 的工具。具体来说,假设某两个文档分别包含“This is a book.”、“这是一本书。”这两句话,则可以使用 WinAlgn 工具将其合成为一个翻译单元。通过这种方式合成的 TU,其“Created by”字段值为“ALIGN!”,以此来标明该 TU 是由 WinAlign 工具生成的。Workbench 也是根据这个字段来判断是否应用 Allignment penalty % 扣减项。

Workbench Options > Translation Memory Options > Substitution Localisation 选项卡

软件本地化的一个重要方面就是使本地化后的软件符合用户所在区域的文化和使用习惯,这需要对与区域相关的日期、时间、数字、度量衡等的形式或格式进行调整,以适合本地用户来使用。Workbench 在这方面进行了一些尝试,本节要介绍的 Substitution Localisation 选项卡就是用于处理这类问题的。该选项卡与 File -> Setup...-> Substitutions 选项卡结合使用,后者用于设定在翻译文档时,哪些内容是无需翻译而自动在译文中进行替换的,这类内容(比如日期)可看作为特殊的 Placeable;而 Substitution Localisation 则更进一步,可以指定在对此类内容进行自动替换时,将其替换为哪种本地用户格式。举例来说,如果在 File -> Setup...-> Substitutions 选项卡的 Automatic substitutions 部分选中了 Dates,则可以在Substitution Localisation 选项卡中设置 Dates 的本地化格式,若是在 Long date 中选中“yyyy‘年‘M‘月‘d‘日‘”这个选项,在翻译时会自动将原文中的“长日期”替换为所选中的形式。

这里先简单介绍一下 File -> Setup...-> Substitutions 选项卡的作用。所谓的自动替换听起来十分诱人,但它并不是凭空来完成替换,需要有一些条件。举例来说,所谓的自动替换是指,如果 TM 中存在一个 TU,它与当前要翻译的某句原文除了其中包含的数字之外,其他内容完全一样,则在 Substitutions 选项卡中选中 Numbers 选项的情况下,由于数字无需翻译,会认为此 TU 与当前原文完全匹配,使用快捷键或按钮从匹配的 TU 中将其译文复制到原文的译文部分时,会自动使用原文中的数字替换译文中的数字,从而可加快翻译速度。以下是一个包含所有类型的替换内容的典型示例:

假设1、在 Substitutions 选项卡的 Automatic substitutions 部分选中了所有选项,分别为 Numbers(数字)、Acronyms(首字母缩写词)、Dates(日期)、Times(时间)、Measurements(度量衡)、Variables(变量),并且单击右侧的 Edit 按钮,在显示的记事本文档中输入两个变量值:Presario、ThinkPad,然后保存。

假设2、将 Substitution Localisation 选项卡中的选项全部禁用

假设3、TM 中存在一个翻译单元,如下所示:

假设4、当前文档中存在一句原文:

According to the annual report annouced by IBM at 16:24:45 on December 26, 2006, its 15 inch screen notebook, ThinkPad, has been produced more than 6,500,000.

可以看出该句子与上图所示的 TU 存在六点差异,现分别用红色标出。在 Word 中对该句子使用 Trados 工具条中的“打开/获取”命令,Workbench 窗口的显示内容以及文档中形成的翻译单元如下所示:

可以看到,Workbench 窗口上部的原文部分有六项内容的下面标注了蓝色下划线,表示属于 Placeable 内容,无需翻译且自动替换,它们分别对应 Substitutions 选项卡中的 Acronyms(首字母缩写词)、Times(时间)、Dates(日期)、Measurements(度量衡)、Variables(变量)和 Numbers(数字)。由于已在 Substitutions 选项卡中选中了所有选项,所以这些内容都会自动替换。请注意,在上图所示的翻译单元中,相应部分已使用了当前翻译的原文内容进行了替换。

现在我们启用 Substitution Localisation 选项卡中的全部选项,并进行如下设置:

然后在文档中重新打开这个翻译单元,可以看到译文部分发生了一些变化,其中的日期时间格式不但进行了自动替换,而且采用了在 Substitution Localisation 选项卡中设置的本地化格式,同时单位 inch 也转换为 cm,而且具体数值也进行了换算:

需要说明的是,要想实现这种自动替换,除了在 Workbench 中进行相应的设置之外,对于 TM 中匹配的 TU 的译文部分也是有一定要求的。可以将替换过程分为三步:

① 确认文档中的原文和匹配的 TU 中,对应有哪些可自动替换的内容;

② 对于每一个可自动替换的内容,在 TU 的译文中寻找对应的替换位置;

③ 根据两个选项卡中的设置进行替换。

步骤 2 非常关键,只有在 TU 的译文中找到对应的替换位置,才能实现替换。那么,如何找到替换位置呢?以下进行具体说明:

数字 - 在 TU 的译文中,找到 TU 的原文中的数字所出现的位置,该数字在 TU 的原文和译文中必须相同,但不必与要翻译的原文中的数字一致。否则,无法替换;

首字母缩写词 - 在 TU 的译文中,找到出现首字母缩写词的位置,该缩写词在 TU 的原文和译文中必须相同,但不必与要翻译的原文中的缩写词一致。否则,无法替换;

日期 - 在 TU 的译文中,找到 TU 的原文中的日期出现的位置,该日期在 TU 的原文和译文中必须是同一日期,但可以为不同的表示形式(必须能够为 Trados 所识别),且不必与要翻译的原文中的日期一致。否则,无法替换;

时间 - 在 TU 的译文中,找到 TU 的原文中的时间出现的位置,该时间在 TU 的原文和译文中必须是同一时间,但可以为不同的表示形式(必须能够为 Trados 所识别),且不必与要翻译的原文中的时间一致。否则,无法替换;

度量衡 - 在 TU 的译文中,找到 TU 的原文中的度量衡出现的位置,该度量衡在 TU 的原文和译文中必须是同一类型的度量衡,如果使用不同的度量衡,换算后的数值必须相等,但要翻译的原文中的度量衡可以为其他类型。否则,无法替换;

变量 - 在 TU 的译文中,找到出现变量的位置,该变量必须为 Substitutions 对话框的 Variable list 中列出的变量,需要在 TU 的原文和译文之间保持一致,但无需与要翻译的原文中的变量一致。否则,无法替换;

Substitution Localisation 选项卡中的设置大同小异,现简要地予以说明:
【解释说明】

① Dates 和 Times 部分中的各个下拉列表的可选内容,来自于当前 TM 的目标语言在操作系统中的相关区域设置。对于 Windows 系统,可通过“控制面板”中的“日期、时间、语言和区域设置”对话框来查看和修改这些内容。所谓的 Long date,对于英文来讲,是指类似于 December 26, 2006 这种英文日期表示形式。

② Digit grouping symbol 只有两个选项,“逗号”和“句号”,如果将该选项设置为“逗号”,则对于使用“句号”作为数字分隔符的情况,替换时会将“句号”替换为“逗号”,反之亦然。

③对于 measurement system,如果 TM 选择的源语言和目标语言分别为“英语(美国)”和“简体中文”,则该列表框将包含两个选项:metric、U.S.。设置为 metric,则对于出现英制(U.S.)度量衡的情况,替换时会将英制单位替换为对应的公制单位,并且按照国际公制-英制转换公式,转换相应的数值,反之亦然。


【使用提示】

该选项卡需要与 Substitutions 选项卡结合使用,只有在 Substitutions 选项卡选中了特定的选项后,才能在该选项卡进行相应的设置。该选项卡中的这些选项使用的前提是,TM 中必须存在包含 Placeable 的 TU,且符合上述要求。在具体的应用中,除了数字之外,其他的日期、时间、度量衡的本地化形式的替换很少使用。这可能是因为,实现对 Placeable 的本地化替换需要满足诸多条件;同时也可能是对于此设置了解不足所造成的。当然,Workbench 所提供的解决方案并不是一劳永逸,自动替换后,可能会出现格式上的问题,需要进行手工处理。

另外,Substitutions 选项卡和 Substitution Localisation 选项卡中的自动替换规则也适用于 fuzzy match 的情况。

Workbench Options > Translation Memory Options > Concordance 选项卡

Concordance 选项卡用于设置与 Concordance 对话框(Tools -> Concordance...)有关的行为,该选项卡也可通过 Concordance 对话框中的“Options...”按钮来访问。Concordance(索引词查询)是 Workbench 重用 TM 数据库的三大机制之一,可以使用文档中某句原文的一部分内容作为索引词来搜索 TM 数据库。


Minimum match value %

【解释说明】
设置搜索的最低匹配率。

【使用提示】
Trados 推荐的最佳匹配率范围为 65% - 75%,默认值为 70%。建议使用默认设置,在实际搜索过程中,可以通过控制搜索词的长度来调整搜索效果。


Maximum number of hits (1-99)

【解释说明】
在 Concordance 对话框窗口中显示的搜索结果数。

【使用提示】
可设定范围为 0 - 99,默认为 30。设置的数值越大,搜索所花费的时间越长。


Reference (read-only) translation memory:

【解释说明】
在执行 Concordance 搜索时,使用第二个 TM 作为(只读)搜索对象,即对两个 TM 都进行搜索。

【使用提示】
这个设置在有一个以上的 TM 可供使用时,非常有用;有时需要使用两个 TM 进行工作,可衡量其各自的重要程度,使用相对较重要的 TM 来作为主 TM,而在此对话框中将另一个 TM 设置为(只读)参考 TM。另外,这个设置会保存在本机的 Trados 安装目录下,因此,在下一次使用新的 TM 进行工作时,如果不需要这个参考 TM,可将本文本框清除,以免误用其中的术语,对翻译造成误导。


Switches 区域


Start concordance search if no segment match is found

【解释说明】
选中此选项后,在打开文档中的某句原文时,如果 Workbench 窗口显示 no match,则会自动打开 Concordance 对话框,并以整句原文作为索引词来进行 Concordance 搜索。

【使用提示】
从理论上来讲,如果将 General 选项卡中的 Minimum match value % 与 Concordance 选项卡中的 Minimum match value % 设置为相同的值,由于选中此选项后引发的 Concordance 搜索是使用整句作为索引词进行搜索,因此,若是 Workbench 窗口中显示为 no match,则 Concordance 的搜索结果也应是 no match。但实际的操作表明,这两种搜索方式似乎采用了不同的搜索方法。即使将 Minimum match value % 设置为相同的值,当 Workbench 窗口出现 no match 时,Concordance 也可能会返回搜索结果。是否选中此选项取决于具体使用的TM 和个人的操作习惯。


Move cursor into Concordance dialog box after search

【解释说明】
Workbench 自动打开或使用命令打开 Concordance 对话框时,将焦点移到该对话框。

【使用提示】
建议选中此复选框。这样便于操作,在查看 Concordance 对话框中显示的搜索结果之后,可以按 Esc 键直接关闭该对话框并将焦点切换回当前工作的文档。


Search first in reference translation memory

【解释说明】
指定是否首先在(只读)参考 TM 中进行搜索。

【使用提示】
可根据两个 TM 的不同重要性和参考价值来确定是否选中此选项。


Apply current filter settings

【解释说明】
指定在搜索时是否应用 Filter Settings 中设置的筛选条件。

【使用提示】
可将其作为一种确定术语使用优先级的方式来使用。这样在搜索时,同等文本匹配率的情况下,会先显示符合 Filter Settings 设置的 TU。


Display translation unit information

【解释说明】
指定 Concordance 窗口显示搜索结果时,是否显示 TU 的信息字段(Created on、Created by、Changed on、Changed by、last Used、usage 以及自定义信息字段)。

【使用提示】
建议选中此选项。可以使用这些信息字段来判断是否使用相关的搜索结果。


Show most recent translation units first

【解释说明】
该选项确定在搜索到多个结果的情况下,是否将 TU 的 Changed on(修改时间)和 Created on(创建时间)作为排序条件之一来显示这些结果。

【使用提示】
如果不选中此选项,则只会按搜索的匹配率对 TU 进行排序;如果选中此复选框,则会首先按匹配率进行排序,然后使用 Changed on(修改时间)和 Created on(创建时间)作为第 2、第 3 排序关键字。


以下两点需要说明:

① 有时,我们会对 Concordance 的搜索结果表示怀疑,比如,我们要搜索“Add New Item”这个 UI 词汇的翻译,假设 TM 中即存在原文部分只有“Add New Item”这三个词的 TU,也存在大量的包含“Add New Item”这三个词的整句的 TU。我们希望搜索结果中会首先显示只包含“Add New Item”这三个词的 TU,但结果常常不尽人意。实际上,我们只是在搜索“Add New Item”这三个词,而“Add New Item”和“Please click Add New Item to add new entry.”在搜索意义上来讲都是 100% 匹配的,因此,并不能保证只包含“Add New tem”的 TU 会在搜索结果中最先显示。

② Workbench 窗口中使用的搜索方法可能与 Concordance 的有所区别,因此在 Workbench 窗口中无法搜索到的句子,在 Concordance 对话框中常常会得到结果。

Workbench Options > Translation Memory Options > Tools 选项卡

Tools 选项卡用于设置批量处理工具 Analyse、Translate 和 Cleanup 的行为,具体如下:

General options 区域


Strip unused fonts

【解释说明】
“对于使用 Word 创建的 RTF 文件,文件的 RTF 头包含许多文件中不使用的字体信息。这类信息可能会在 Word 或 Workbench 中引发‘Out of memory(内存不足)’或‘Not enough system resource to display the requested font(资源不足,无法显示所要求的字体)’。”这是 Trados 帮助中的解释。选中此选项后,可通过对原 RTF 文件执行 Cleanup 来清除这些不使用的字体信息。

【使用提示】
移除这些信息可以提高 RTF 文件的处理速度。


Strip unused styles

【解释说明】
“如果 Word 文档包含大量的段落和字符样式,则会降低 Workbench 和 Word 之间的交互处理速度,即使其中的某些样式在文档中并不使用,也会对交互处理性能造成影响。在对文档中的注脚部分进行分析和转换时尤为如此。”这是 Trados 帮助中的解释。选中此选项后,可通过对原 RTF 文件执行 Cleanup 来清除这些不使用的样式。

【使用提示】
对此没有实际的处理经验,将在以后补充相关内容,也请了解这一设置的网友就此问题发表高见。


Strip TW4Win Styles

【解释说明】
选中此选项,在 Workbench 中对文件执行 Cleanup 时,会清除所有 TW4Win 样式(如 tw4winExternal、tw4winInternal 和 tw4winTerm)。

【使用提示】
对此没有实际的处理经验,将在以后补充相关内容,也请了解这一设置的网友就此问题发表高见。


Use same log file for all TMs

【解释说明】
选中此选项后,将对所有 TM 使用同一 log 文件来记录批量处理结果。如果清除此选项,则会对每个 TM 单独使用一个 log 文件,该文件的路径和名称为:“<当前 TM 所在的路径>\<当前 TM 的名称>.log”。在清除此选项的情况下,也可以临时在批量处理工具的对话框中指定其他 log 文件,但下次打开批量处理工具的对话框时,会恢复使用以上指定的默认 log。

【使用提示】
建议选中此复选框,这样便于区分和管理不同 TM 生成的 log 报告。也可以清除此复选框,建立一个单独的文件夹来保存所有的 log 文件,不过,这样在每次更换 TM 进行批量处理时,就需要选择相应的 log 文件。


Save Workbench RTF as TRADOS tag

【解释说明】
在对 RTF 文件执行 Translate 时,生成可在 Tageditor 中处理的 TTX 文件(Trados Tag XML 文件)。

【使用提示】
建议选中此复选框。一般来说,Tageditor 在处理包含 Tag 的文档时具有明显的优势,它不但可以防止对 Tag 进行修改,而且还有相应的保护和检查措施,可避免出现丢失 Tag 的情况以及出现其他 Tag 问题。RTF 文档也同样可以用 Tageditor 来处理。


CSV log file cell separator:

【解释说明】
选择随 log 生成的 CSV 文件中使用的分隔符。

【使用提示】
使用默认值即可。


Backup 区域


Keep backup

【解释说明】
选中此复选框表示在对文档执行 Translate(预翻译)和 Cleanup(清除原文)操作前,对文档进行备份。默认情况下,备份文件使用与原文件相同的名称,但以 .BAK 作为扩展名。直接将 .BAK 改为原来文件的扩展名即可恢复文件。而且,备份文件默认保存在与原文件相同的目录下。但可以选中下面的“Move backup files”复选框,然后在右侧的文本框中指定其他路径。

【使用提示】
建议选中此复选框。对于 TTX 文档,清除原文后,原来的 TTX 文档还会存在;但对于 RTF 文档,则是直接在原文件中进行清除操作,而且一旦清除,就很难通过清除后的文件来恢复原来的双语文件,因此建议进行备份。


Move backup files

【解释说明】
在选中上面的“Keep backup”后,此复选框才可用。使用此复选框可以指定其他路径来保存备份文件。


DTD settings files 区域

【解释说明】
在对 XML、HTML 和 SGML 等标记语言文件进行“字数分析”(Analyse)和“预翻译”(Translate)时,需要使用相应的 DTD settings 文件(注1。单击右侧的 DTD Settings.. 按钮将打开 DTD Settings Manager,该对话框用于管理和指定 Workbench 和 Tageditor 所使用的 DTD settings 文件(即 ini 文件)。

【使用提示】
有关 DTD settings 文件及使用方面的详细内容,将在后续内容中专门予以介绍。此处仅对与标记文件的批量处理操作有关的方面进行说明。在对标记语言文件进行批量处理时,需要使用合适的 ini 文件(DTD settings 文件),Trados 提供了三个简单的 ini 文件:HTML4.ini、XSL.ini 和 RESX.ini 文件(所在目录:C:\Program files\TRADOS\<所安装的 Trados 版本>\TT),分别用于处理 HTML 文件、XML 文件和 .NET RESX 文件。在具体的项目中,客户也可能会提供自己的 ini 文件。在对标记语言文件进行批量处理时,Workbench 会检查 DTD Settings Manager 中列出的 ini 文件,从中选择合适的 ini 文件(注2。列表中可能会包含多种类型的 ini 文件,也可能包含多个同一类型的 ini 文件,具体的选择规则如下:

①从 DTD Settings Manager 列表中选择适用的 ini 文件,如果同时有多个 ini 文件适用,则使用第一个 ini 文件;

②如果没有适用的 ini 文件,则使用已设置的默认 ini 文件;

③如果即没有适用的 ini 文件,也没有默认的 ini 文件,或者列表中没有任何 ini 文件,则跳过处理文件,同时在 Log 中写入错误消息。
因此,在对标记语言文件进行批量处理时,应检查 Workbench 中的 DTD Settings Manager 列表,确保存在要使用的 ini 文件,如果有多个适用的 ini 文件,应确保要使用的 ini 文件在列表中位于其他适用的 ini 文件之前。对话框中没有提供调整 ini 文件顺序的按钮,如需要,可通过 Add 和 Remove 按钮间接调整或将不需要的其他 ini 暂时移除(不会将实际的 ini 文件删除)。
需要强调的是,同一类型的 ini 文件可能会有多个,而每个 ini 文件对于该类型的标记语言文件的处理方式可能会有所差异,比如某些内容在一个 ini 文件中处理为 Tag,在另一个 ini 文件中可能会处理为可翻译的内容,因此来说,ini 文件的正确与否会影响到字数分析的结果。在具体的项目中应确保使用客户指定的 ini 文件,如果没有指定,应使用 Trados 默认提供的 ini 文件。有关字数分析的影响因素,将专门予以介绍。


Multiple translations 区域


Always add new translation unit when target segments differ

【解释说明】
选中该复选框的情况下,如果在执行“预翻译”以及“清除原文”时选中了“Update TM”选项,则在使用文档中的翻译内容更新 TM 时,若是 TM 中已经存在某个 TU,但文档中的译文与该 TU 的译文(target 部分)不同,则会添加一个新的 TU。清除此复选框的情况下,则会覆盖已存在的 TU。

【使用提示】
该复选框需要在创建 TM 时选中 Allow multiple translation for identical source segments 选项后才能使用。如果创建 TM 时未选中“允许 multiple translation”,则该复选框将不可用(呈灰显)。选中该复选框后,在进行批量处理时,如果所处理的文档存在 Multiple Translation 的情况,则会导致 TM 中也出现 Multiple Translation。有些客户使用此选项来检查所翻译的文档中是否存在 Multiple Translation。有关 Multiple Translation,请参见本贴第 39 楼的相关内容。


1:众所周知,标记语言文件主要由所谓的 Tag 元素和要显示的内容组成,Tag 元素用于指定要显示的内容的显示方式。在对标记语言文件进行“字数分析”和“预翻译”时,需要将 tag 与要翻译的实际显示文本相区分,DTD settings 文件的作用就在于此。每种类型的标记语言文件(比如 HTML 文件、XML 文件)都对应有各自的 DTD settings 文件,DTD settings 文件中包含特定类型标记语言文件所使用的元素(tag)和实体(特殊字符)及此类文件的处理方式等信息。具体来说,在对标记语言文件进行字数分析或在预翻译过程中将其转换为 TTX 文件时,使用 DTD settings 文件来确定将哪些内容处理为外部 Tag、哪些处理为内部 Tag,哪些处理为可翻译内容。

2:Workbench 使用所谓的“根元素”(root element)来确定适用于特定标记语言文件的 ini 文件。使用文本编辑器打开标记语言文件,可以看到位于文档顶部的“根元素”(比如 XML 文件中的 xml),有时也会在 DOCTYPE 中声明根元素(比如 HTML 文件中的“”(比如 DOCTYPE=HTML),来表明该 ini 文件的适用类型。Workbench 就是根据根元素来确定适用于特定标记语言文件的 ini 文件的。

【新手入门 1

记得刚工作时,我所在的办公室里有位彪形大汉,体壮,多毛,电脑前一坐,真是熊姿勃勃,但他也未能免俗,得一雅号“彪哥”。彪哥虽貌似膘悍,熊壮有佳,但动作扭捏,寡言细语,这不禁令我慨叹,真是造化弄人。坐在他对面,每每传来击键的噼啪声,我不免遐想,对面俨然是一位雅致的女子,纤纤玉手,轻抚键盘,真是曼妙绝伦。神思畅游间,不觉挑目窥视,然理想照进现实,常常令我错愕,套用那句顺口溜,就是:To be a man,or not to be a man。不过,彪哥给我印象最深的不是他伟岸身姿中透出的巾帼风范,而是他的键盘功夫。工作时,他手抚键盘,极少使用鼠标,只见一双毛手在键盘上乱敲,好似万马奔腾,在我为键盘生不逢时惨遭蹂躏而唏嘘不已时,屏幕上则是狼烟四起,窗口、界面四处翻飞,顷刻间,灰飞烟灭,活就干完了。我曾向彪哥请教个中三昧,彪哥欠了欠熊腰,轻抬毛手,以拇指、食指捏住杯柄而其他三指叉开,做莲花手状擎起茶杯,微启朱唇抿了一口,幽幽地说:“无他,唯快捷键尔”。

我想起这个事是因为,多年不见,彪哥的形象已渐趋模糊,但快捷键已潜移默化地融入了我的工作中。还记得作为本地化新人,第一次使用快捷键打开翻译单元时的心情,兴奋、欣喜,就像打开了一个神秘的殿堂。

书归正传,作为使用 Trados 从事本地化翻译的新手,必学的一项技艺就是使用 Workbench 的翻译单元快捷键,这也是新手和老手的重要区别。有关 Workbench 工具栏中各个按钮的快捷键,可通过 Word 中的 Trados 菜单或 Tageditor 中的 Workbench 菜单查看,或者查阅帮助来了解。

遗憾的是,对于上图所标注的这个 Get Translation(获取译文)按钮,Trados 没有提供快捷键,使用时每每要放开键盘点击鼠标来操作,不但影响了翻译工作的流畅性,而且也有损诸位本地化精英的光辉形象。

这里介绍一个补救方案,效果尚还可以。方案的思路就是,在 Windows 中启动键盘模拟鼠标的功能,此时,数字小键盘中的 5 就代表鼠标单击操作,你可能猜到下面我要说什么了吧,那就是在翻译文档时将鼠标指针放到 Workbench 工具栏中该按钮的上方,然后开始使用键盘进行操作,如果需要 Get Translation,按一下数字键盘中的 5 就可以了。

不过需要注意的是,在启用键盘模拟鼠标(可使用 AltShiftNumLock 开启或关闭)后,小键盘中的号键将模拟双击操作,小键盘上的“/”“*”分别用于将鼠标切换为左键双键右键模式(比如处于左键模式时,按 5 表示单击左键,处于右键模式时,按 5 表示单击右键),因此,在开启模拟功能后,Workbench 的快捷键 Set/Close Next Open/Get Alt+加号)和 Translate to FuzzyAlt*)将时效,因此,建议按以下方式执行操作:

· 翻译前确保已启用了模拟功能,启用模拟功能后,托盘中会显示鼠标图标;

· Numlock 暂时禁用模拟功能,禁用后,鼠标图标会显示为禁用状态;

· 进行正常的翻译操作,如果要使用 5 来执行 Get Translation 操作,可再次按 Numlock 启用模拟功能,执行 Get Tranlsation 命令后将其禁用;

有关如何设置键盘模拟鼠标以及具体如何进行操作,请参阅以下链接内容:巧用键盘模拟鼠标

有关 Windows 快捷键的使用,请参见随风转贴的以下文档:Windows 操作系统快捷键大全!

另外,在编辑文档时,以下几个快捷键也很常用:

使用 Shift 键选定文本:
按住 Shift 键,然后按方向键可从当前光标位置开始沿方向键所指的方向选择文本,按住 Shiift 键时按 Home 或 End 键可从当前光标处直接选定到句首或句尾。这在复制和删除文本时十分有用。

撤销(Undo)和重做(Redo):
      Ctrl+Z 用于撤销所做的更改、Ctrl+Y 表示恢复撤销的更改,可连续进行操作。如果不慎删除了不应删除的内容,可以使用这类快捷键来恢复。不过在 Word 中打开翻译单元的情况下,如果使用了“复制原文”或“获取译文”按钮,则不能再恢复到之前的文本内容。

小技巧:

如何在较长的翻译文档中快速定位到当前打开的翻译单元位置?
在 Word 中翻译页数较多的文档时,如果你打开了某个翻译单元,但又由于要执行其他操作而移到了文档的其他位置,这种情况下,有一个小技巧可以快速回到当前翻译单元的位置,就是在 Word 的 Workbench 工具栏中单击“打开”或“打开/获取”按钮,随着一声警告音,就会回到当前打开的翻译单元位置。在 Tageditor 中打开翻译单元时,这两个按钮处于禁用状态,不过你可以代而使用 Copy Source 按钮,回到翻译单元位置后,再按一下 Ctrl+Z 恢复原来的内容即可。

如何使用拖放操作打开文件或加载文件?
经常使用音频视频播放器的朋友都知道,这些播放器一般都支持所谓的“拖放即播放”功能,即只要把音频或视频文件拖到播放器上方然后释放鼠标,即会开始播放这些内容。同样,像 Word 和 Tageditor 这类编辑器也支持此操作。不过有时,被拖放的文件所在的文件夹窗口可能与编辑器重叠在一起(比如窗口最大化的情况),无法进行拖放操作,这种情况下可以采取两种方法 (前提是已打开编辑器窗口):
①、按住鼠标拖住要打开或加载的文件,同时按 Alt+Tab 键切换到编辑器,然后释放鼠标;
②、按住鼠标将文件拖到窗口下方任务栏中编辑器图标的上方,这时不要马上释放鼠标,稍等片刻即会在屏幕上显示该编辑器窗口,按住鼠标移到该窗口,然后释放鼠标。
在进行 Trados 的批量处理操作(“分析字数”、“预翻译”以及“清除原文”)时,如果要对多个文件进行操作,可以选中多个文件,使用上述方法一次性将文件直接拖入批量处理对话框的文件列表中,如果文件分布在不同的文件夹,可以在上一级目录搜索相应文件,然后将搜索结果拖入即可。

【新手入门 2

1、使用 Workbench 进行翻译时,充分利用 Workbench 窗口中的各种信息对翻译十分有帮助,下图对打开翻译单元时 Workbench 窗口中显示的各种信息进行了说明:

UI 信息字段:一般包括系统字段(Created on、Created by、Changed on、Changed by、Last used、Usage),如果该 UI 有自定义的信息字段,也会显示(如图中的 Client: HP、Project ID: 001)

UI 的原文和译文:单击左侧的国旗图标可以选择对当前显示的 UI 执行“编辑”和“删除”操作

UI 选择按钮:有两种情况,UI 选择按钮(<>)会处于可用状态: ①、当前 TM 中有多个 100% 匹配的 UI;②、当前没有 100% 匹配的 UI 但存在多个属于 fuzzy match 的 UI。

匹配率扣减信息:只有在 Options -> Translation Memory Options...-> Penalties 选项卡中进行了设置且当前 UI 符合 Penalty 条件时才会扣减匹配率并显示该信息。

Filter 设置信息:只有在当前的 Settings -> Project and Filter Settings -> Filter Settings 选项卡中进行了设置后才显示该信息。

Project 设置信息:只有在当前的 Settings -> Project and Filter Settings -> Project Settings 选项卡中进行了设置后才显示该信息。

2、充分利用窗口 UI 中的颜色标记来加快翻译速度

Workbench 在比较文档中的原文(以下称为 Source 1)和 TM 中 UI 的原文部分(以下称为 Source 2)后,会在窗口中进行一些颜色标记,来指示二者之间的差异,其差异主要有以下三种情况:

①、Source 1 中的某个(些)词在 Source 2 中替换为其他词,用黄色分别在 Source 1 和 Source 2 中标注

②、Source 1 中的某个(些)词在 Source 2 中改变了位置,用蓝色分别在 Source 1 和 Source 2 中标注

③、Source 1 与 Source 2 比较,多了某个(些)词或少了某个(些)词,会使用灰色在 Source 1 或 Source 2 中标注多出来的部分

了解了这些差异后就可以有的放矢,充分利用原有的翻译内容,修改必要的部分,加快翻译速度。

【新手入门 3

在使用 Workbench 时,应明确我们有三个可以重用原有翻译内容的途径:

①、利用 Workbench 的主窗口,获得整句原文的搜索匹配结果

②、利用 Workbench 的 Concordance 工具,以整句中的部分内容作为关键词进行搜索

③、利用  Trados 的组件工具 Multiterm 实现词汇(术语)的检索重用

第一个途径主要查找整句内容;第二个途径可用于查找术语、某些词汇的翻译以及某些句式的翻译模式等;第三个途径主要用于查找特定术语的翻译。

有两点需要说明:

①、在翻译文档时,Workbench 使用所谓的“UI 划分规则”(Segmentation Rule,在 File -> Setup... -> Segmentation Rule 中设置)来确定翻译单元的结束位置,以此来划分翻译单元,该规则的设置保存在 TM 数据库中。比如,默认的 Segmentation Rule 将“句号”、“冒号”、“问号”、“叹号”、“Tab 符号”以及“段落结束”均视为翻译单元的结束标记。但有时候会出现这种情况:你的 TM 库设置的是默认的 Segmentation Rule,但导入了或者 Cleanup 了只使用“段落结束”作为规则的翻译单元,这时候,本来完全匹配的内容就会显示为 no match,如以下示例

我们在文档中要翻译这两句话:

The company is a multi-language vendor offering services in Simplified Chinese, Traditional Chinese, Korean, and Japanese languages. And it‘s list of big clients includes HP, IBM, MICROSOFT, SONY etc.

当前 TM 的 Segmentation Rule 为默认设置,但 TM 有一个 UI 是按“段落结束”规则形成的翻译单元,且与上文完全匹配,如下图:

(XSRM 3-1)

在文档中就这段话打开翻译单元时,Workbench 窗口如下所示:

(XSRM 3-2)

这是因为,当前 TM 使用了默认的  Segmentation Rule,因此认为第一个句号为翻译单元的结束位置。

这时,我们使用 Workbench 菜单中的“扩展句段”命令(在 Tageditor 中为 Expand Segment,快捷键为 Ctrl+Alt+Page Down),扩展翻译单元的内容,将下面那句话包含在当前的翻译单元中,则 Workbench 窗口显示为:

XSRM 3-3

因此,在 no match 的情况下使用 Expand Segment 命令有时会有意外的惊喜,该命令的反向操作是 Shrink Segment(快捷键为 Ctrl+Alt+Page Up)。使用 Expand Segment 命令的前提是,当前翻译单元后面要合并的内容没有形成翻译单元,且合并操作可持续进行至遇到第一个外部 Tag(在 RTF 中为灰色文本)为止。一般在翻译软件的内容时可能会使用“段落结束”规则。建议翻译中慎用此命令,以免造成实际的 Segmentation Rule 与 TM 中的设置不符,影响字数分析时的匹配率,给客户带来额外成本。

②、客户在对要翻译的内容进行文档预处理时,对于同一产品但不同版本的文档,可能会采取不同的处理方式,因此,文档处理后的文本结构,特别是对于不翻译内容的处理会有所差异,由此也带来了一些问题,比如下例

If the value of the code property is "Camera.muted" , the user has refused to allow the SWF file access to the user‘s camera.

老版本对于句中斜体部分 code 和 "Camera.muted" 处理方式为将其处理为红色的内部 tag,这可以从 TM 中存储的 TU 窥之一二:

(XSRM 3-4)

对于这句话,新版本的文档中处理为以下结果:

(XSRM 3-5)

可以看到,除了将斜体部分 code 和 "Camera.muted" 处理为红色的内部 tag 之外,其前面还添加了显示为灰色的 ID 信息,无疑,在打开翻译单元时,会将灰色部分视为翻译单元结束标记,因此,打开的第一个翻译单元为“If the value of the ”,匹配结果将为 no match。

由此可知,由于文档不同版本的处理方式的差异,原本没有任何更新而完全匹配的内容在此变成了 no match。对于翻译人员,这种情况下就可以使用 Workbench 的 Concordance 工具来找到原来完全匹配的翻译内容,而对于客户,这种处理方式会造成一定的成本损失

【新手入门 4

本节结合 Workbench 的 View 菜单,介绍使用 Workbench 工作时的一些界面显示设置和布局。

1、首先介绍 Workbench View 菜单,该菜单比较简单,因此提供以下附图进行简要的说明。

标准的 Workbench 窗口

Show Translation
选中此菜单项后,在 Workbench 窗口的 TU 窗格中不显示 TU 的译文部分

Big Windows
选中此菜单项后,将不显示 TU 的字段信息和 TU 选择按钮

Toggle Menu on/off
打开(F10)或关闭(Alt+F10)菜单,下图是设置 Big Windows 和关闭菜单后的 Workbench 窗口

Zoom
设置右侧的“文档原文”窗格和 TU 窗格中文本的显示大小。

Tag Text
设定右侧窗格中 Tag 的显示形式。共有三种设置:

①、None(只显示一个竖条标记来表示当前位置为 Tag)

②、Partial(显示一个小长方框,中间标有文字 TAG)

③、Full(显示一个小长方框,中间显示完整的 Tag 内容)

User Interface Language...
设置 Workbench 界面 UI 的显示语言,该语言选项中包括 Chinese,但在笔者所使用的 Trados 6.5 中,没有任何效果。

Pin on Top
选中此菜单项后,当在窗口间切换焦点时,Workbench 始终显示在最前方。

2、工作窗口布局:

在使用 Workbench 进行翻译时,需要能够同时显示 Workbench 窗口和文档编辑器(一般为 Word 或 Tageditor)。在具体使用中,通常会将 Workbench 放在上面,然后调整编辑器窗口的大小,将其放在下面,如下所示:

当然,根据个人习惯,也可以将编辑器放在上面,而将 Workbench 放在下面。

对于繁体中文以及其他需要竖排的语言,还可以按以下方式进行布局(具体设置方式,请参见1):

在使用 Word 作为编辑器时,由于 Word 被调整为屏幕的约 2/3 大小,因此实际编辑空间就显得狭小。可以通过以下方式增加编辑空间:

①、通过“视图 - > 标尺”菜单项隐藏标尺;

②、取消选中“工具 -> 选项 -> 视图”选项卡中“显示”区域的“状态栏”复选框,隐藏状态栏;根据个人喜好,可通过“工具 -> 选项 -> 视图”选项卡中“格式标记”区域的“隐藏文字”显示或隐藏“原文”和“Worlbench 标记”。

③、右键单击工具条,设定只显示所需的工具条,以减少占用的空间。对于一般的文档,只保留“常规”和“格式”工具条即可。对于具体的工具条,可通过以下方式删除不使用的命令按钮:选择“工具 -> 自定义...”菜单项,将显示“自定义”对话框,在相应的工具条中右键单击要删除的命令按钮,选择删除即可(只有打开“自定义”对话框,才能删除工具条中的命令按钮)。如要添加命令按钮,切换到“自定义”对话框的“命令”选项卡,在左侧的“类别”列表中选择选项,右侧的“命令”列表中会显示相应的命令,然后可以从“命令”列表中将所需的命令拖放到某个工具条。

“常规”工具条中的“格式刷”和“显示/隐藏编辑标记”按钮一般应予以保留,如下图所示:

“格式刷”的作用是可以将文档中某些文本的格式应用到其他文本。一般来说,进行翻译时,Word 文档中的内容主要分三部分:原文、Workbench 标记、译文,前两者均为带下划线的隐藏文字。如果不慎破坏了它们的格式,可以使用格式刷进行恢复。使用“格式刷”时,首先选中要应用其格式的文本,然后点击“格式刷”,鼠标指针将带有一个小刷子标记,这时即可选择相应文本,应用格式。如果双击“格式刷”,可以多次应用格式,如果单击“格式刷”,则只能应用一次格式。

使用“显示/隐藏编辑标记”按钮可以控制是否显示编辑标记,包括空格标记。本地化的翻译工作对于文本的格式有严格的要求,某些类型的翻译特别要求在中文与英文之间应保留空格,因此使用“显示/隐藏编辑标记”显示空格标记后,可以更好的保证格式准确无误。其在 Tageditor 中有一个对应的工具栏按钮,如下所示:


注 1:当然,你也猜到了,这个布局结构是编造出来的。做这个图的目的是想说明:a、对于某些较成熟的软件,如 Word,你能想到的需求,它基本都可以满足,所要做的就是大胆的设想和尝试;b、对于 Trados 这样的专业性软件,有时需要结合其他软件和技术来实现解决方案,有些思路和想法是可以实现的,而有些还在企盼中。

Options > Translated Text Colours 对话框

为了能够帮助区分文档中翻译单元 (TU) 的原文和译文部分,可以指定 Workbench 使用不同的颜色对文档中 TU 的原文和译文部分进行标记,Translated Text Colours 对话框就是用于指定这类颜色设置的。下文分为三部分:

①TU 原文和译文部分的颜色设置

②使用颜色设置的一些负面问题

③有关翻译单元颜色设置的建议

一、TU 原文和译文部分的颜色设置

1、为何要对翻译单元的原文和译文部分设置颜色

为翻译单元的原文和译牟糠稚柚貌煌难丈渲饕康木褪窃谖牡抵心芄欢哉饬秸呒右郧帧A砦谏柚靡胛牟糠质保啥?full match 和 fuzzy match 的情况分别指定不同的颜色,这样也有利于区分这两种情况。在具体的翻译工作中可以通过这种方式来加快翻译速度,如果客户要求只处理非 full match 的情况,则可以根据颜色来进行区分。不过,这种颜色设置也会带来一些问题。实际上,可以使用 Tageditor 中的 Set Close Next no 100% Open Get 命令或 Word 的 Workbench 菜单的“保存/关闭并打开获取下一非完全匹配句段”来快速定位到 no match 的部分。

2Translated Text Colours 对话框设置

TTC-1

该选项卡简单明了,现说明如下:

Source colour
设置翻译单元原文部分的颜色

Target (100% match)
设置 100% 匹配的翻译单元译文部分的颜色

Target (fuzzy match)
设置 fuzzy match 情况下的翻译单元译文部分的颜色

Suggest 按钮
将以上三项颜色设置为 Workbench 的推荐颜色,分别为 Blue(“蓝色”)、Dark Green(暗绿)、Dark Yellow(暗黄)。

Reset 按钮
将以上三项颜色设置为 Unchanged,即不使用任何颜色标记原文和译文,而保留文档原有的颜色设置。

设置完成后,下面的列表框中会显示颜色设置示例。

3、适用情况

该颜色设置适用于在文档中打开翻译单元的操作以及 Workbench 的“预翻译”(Tools —> Translate)批处理操作。另外,这个颜色设置主要是针对 Word 的。而对于 Tageditor,“预翻译”过程可能会有效,但对于打开翻译单元的操作则没有效果。

4、颜色设置对于 Cleanup 后的文档的影响

一般来说,如果文档的原文部分原来就带有颜色,在对原文和译文部分应用颜色标记的情况下, Cleanup 后会恢复原有的颜色设置,但在某些情况下也会出现问题(将在第二部分讨论)。

二、使用颜色设置的一些负面问题

1、不宜在 Translated Text Colours 对话框中设置原文档中出现的文本颜色,否则可能会造成问题:例如,以下是文档中的原文,分别对一个词和整句使用了蓝色、红色和暗黄色:

TTC-2

如果在 Translated Text Colours 对话框使用 Suggest 按钮设置了颜色,则 Source Colour 和 Target Colour (fuzzy match) 会分别设置为“蓝色”和“暗黄色”,与文档中的颜色重复。进行“预翻译”后的结果如下所示(假设这两个句子在 TM 均为 full match):

TTC-3

可以看到,上图中的原文中红色保留了下来,第二句原文部分整个变成了蓝色。

Cleanup 后的结果如下所示:

TTC-4

可以看到,Cleanup 后,第二句话原有的暗黄色变成了黑色。造成这种情况的原因是,如果在 Translated Text Colours 对话框设置中指定了颜色,在形成翻译单元时,Workbench 会将文档中与所设置的三种颜色相同的任何文本的相应颜色部分作为黑色来处理,即将这部分设置为 Translated Text Colours 对话框中指定的颜色;而在 Cleanup 时,Workbench 会将所有这三种颜色的文本修改为黑色,因此在 Cleaup 后就可能出现丢失原有颜色的情况。如果在 Translated Text Colours 对话框中将颜色设置为 Unchanged,则会保留原文档的颜色而不做修改。

2、如果使用颜色标注了文档中的翻译单元,则在对译文部分进行修改时,可能会造成同一译文句子中颜色不一致的情况,这也可能会导致出现 Multiple Translation。在 Tageditor 中进行此类修改时就会出现这种情况。
在 Tageditor 中对如下图所示的翻译单元进行修改:

TTC-5

假设开始觉得句首的“在从”两字不妥而将其删除,而后又恢复原来的翻译,手动输入“在从”两个字,由于 Tageditor 会默认将光标前面的颜色格式应用到当前光标位置输入的内容,因此所输入的“在从”两个字使用它前面原文部分的颜色 — 蓝色,从而造成了一句译文中存在多种颜色,如下图所示:

TTC-6

将这个翻译单元提交到 TM,其译文部分存储的实际内容是:

TTC-7

可以看到,其中的译文部分加入了文本颜色标记 cf2(蓝色)和 cf11(绿色),与下图所示的情况比较,其文本部分完全相同,但由于前者加入了颜色标记,因此它们属于不同的译文。

TTC-8

当然,你可以想方设法使整句格式一致。实际上,如果句子的内部格式不一致(不只限于颜色),提交到 TM 中时就会加入格式标记。详情请参见本贴“Penalties 选项卡”内容部分的注释 1。

3、Translated Text Colours 对话框中的设置是保存在本地的,也就是,在你的机器上使用 Workbench 打开任何 TM 时,这个设置都不变(除非你进行修改)。因此,如果是向客户提交文件,或者和其他人合作完成项目,当你的 Translated Text Colours 对话框设置与客户或其他人的不一样时,就会出现问题。比如,某个文档中的文本完全为黑色,但在你的 Translated Text Colours 对话框中采用了推荐的设置方式,但你的客户则设置为 unchanged,这种情况下,如果你只提交双语文件而由客户自己来 Cleanup,就会出现问题。在你提交的文档中,full match 部分和 fuzzy match 部分分别使用了“暗绿色”和“暗黄色”;客户在 Cleanup 你的文档时,由于他的 Translated Text Colours 对话框设置为 Unchaged,会将“暗绿色”和“暗黄色”译文部分视为原文原有的颜色,因此会保留这些颜色。这样,原本没有颜色的原文变成了有颜色的译文,如果对文档的颜色有严格的要求,就会造成问题。

三、有关翻译单元颜色设置的建议

1、鉴于以上可能存在的问题,如没有特殊考虑,建议尽可能使用 Unchanged 设置

2、在与客户交接项目时,建议确认 Translated Text Colours 对话框的设置。

3、如果必须设置颜色,应避免设置文档中出现的颜色。

4、对于最终要生成纯文本的文档,设置颜色虽然对于文档的使用没有任何影响,但在具体处理时应避免出现上文提到的句子内部出现多种格式的情况。

Settings > Project and Filter Settings 对话框

Project and Filter Settings 对话框用于设置 Text/Attribute 字段值以及指定翻译单元的筛选条件。系统默认提供了一个 Text 字段“Text Field”和一个 Attribute 字段,后者包含三个字段值:New、Approved、Read Only。可以通过 File -> Setup -> Fields 选项卡来自定义 Text/Attribute 字段和字段值1

有关 Text/Attribute 字段的说明,请参阅以下内容:

· 关于 Attribute Field Text Field

· 关于 Multiple Translation(Project Settings 导致 Multipel Translation 的说明)

· General 选项卡(续)(有关 Textv/Attribute 的说明)

· Penalties 选项卡(有关 Attribute and text field differences penalty % 的说明)

下文仅讨论具体的设置操作,由于两个选项卡的界面几乎完全一致,因此仅以 Project Settings 选项卡为例来说明。

Projcet Settings 选项卡的设置

Text 字段与 Attribute 字段的一个区别是,在 File -> Setup -> Fields 选项卡中,对于 Text 字段,只能定义 Text 字段名,具体的字段值要在 Project and filter settings 中来填写;而对于 Attribute 时,既要定义字段名本身,也要指定相应的字段值,设置时在 Project and Filter Settings 对话框中来选择所定义的字段值,这从 Projcet Settings 选项卡的界面控件就可以体现出来,具体如下:

、设置 Text 字段值

首先在 Text fields 列表中点选要设置的 Text 字段(当前选中的字段会以蓝色背景显示),然后在右侧的 Text field content 文本框中输入相应的 Text 字段值。输入以后,可以看到,选项卡下部的 Current settings 列表中就会显示所设置的完整字段值,其结构是:: <字段值>。可以设置多个字段名和字段值。

若要删除所设置的字段值,首先在 Text fields 列表中点选要删除的字段,然后清除右侧的 Text field content 文本框中的字段值文本即可。

、设置 Attribute 字段值

首先在 Attribute fields 列表中点选要设置的 Attirbute 字段(当前选中的字段会以蓝色背景显示),随后,右侧的 Attribute picklist 列表就会显示选中的字段所对应的可选字段值,在该列表中点选所要设置的字段值,选项卡下部的 Current settings 列表中就会显示所设置的完整字段值,其结构是:: <字段值>。可以设置多个 Attriubte 字段,每个 Attribute 字段也可以设置多个字段值。

若要删除所设置的字段值,首先在 Attribute fields 列表中点选要删除的字段值所属的字段,可以看到当前已设置的该 Attribute 的字段值会以蓝色背景显示,点选要清除的字段值即可将其从设置中删除。

Current settings 列表中会显示当前设置的字段值。

、其他的按钮操作

· Reset 按钮 - 清除当前设置的所有字段值;

· Load. 按钮 - 加载通过点击下面的 Save 按钮保存的字段值设置2

· Save. 按钮 - 将当前选项卡中设置的字段值保存为 .wps 文件;

· Apply Current Filter Settings - 使 Project Settings 选项卡中的设置与当前 Filter Settings 中的设置一致。


1在此简要说明如何定义 Text/Attribute 字段。打开 File -> Setup -> Fields 选项卡:

、定义 Text 字段

在 Text fields 列表中点选已存在的 Text 字段,使该列表框获得焦点,然后单击 Add 按钮,在按钮右侧的 Field 中输入要定义的 Text 字段名称。关闭选项卡时,单击 OK 按钮。

若要删除所定义的字段,请在 Text fields 列表中点选该字段,然后单击 Delete。

、定义 Attribute 字段

在 Attribute fields 列表中点选已存在的 Attribute 字段,使该列表框获得焦点,然后单击 Add 按钮,在按钮右侧的 Field 中输入要定义的 Attribute 字段名称。然后点选 Attribute values 列表中的默认值“A value”,在 Field 文本框中将其修改为所需的值,单击 Add 按钮,可以为该字段添加更多的字段值。关闭选项卡保セ?OK 按钮。

若要删除所定义的字段值,请在 Attribute values 列表中点选相应的值,然后单击 Delete,若要删除所定义的 Attribute 字段,请在 Attribute fields 列表中点选相应的字段,然后单击 Delete。

切记,一旦 TM 中已存在翻译单元,就不能删除所设置的字段和字段值。

2要成功加载在 .wps 文件中保存的字段值设置,必须保证 .wps 文件中保存的字段值在当前的 TM 中有定义。否则将显示以下错误信息:

Settings > Select Target Language 对话框

STL-1

如果在 File -> Setup... -> General 选项卡的 Target Languages 列表中选择了多个目标语言,则可以使用  Settings -> Select Target Language 菜单项打开 Select Target Language 对话框;否则,该菜单项处于禁用状态。

如上所述,如果对当前的 TM 设置了多个目标语言,可以使用 Settings -> Select Target Language 对话框来选择当前要使用的目标语言。


Settings > TM Servers 对话框

(TSD-1)

该对话框是关于 TM Server 的。笔者没有相关的使用经验,望了解的网友能发贴予以说明。


Settings > User ID 对话框

(UI-1)

该对话框用于设置“用户 ID”。在向 TM 提交翻译单元或修改其中的翻译单元时,会在翻译单元的 Created by 和 Changed by 信息字段中标记所设置的“用户 ID”。

在显示该对话框时,如果当前打开了某个 TM,则对话框中的 Enter your user ID 文本框处于灰显状态,无法输入或修改 ID。必须通过 File -> Close 将 TM 关闭才能修改 ID。

Settings > Non-translatable Paragraphs 对话框

NTP-1

该对话框用于指定,在翻译 Word 文档时,哪些样式的段落应该跳过而不翻译。在翻译文档过程中,当遇到具有该对话框所指定的样式的文本时,将无法打开翻译单元,从而起到了保护这些内容的作用。

在 Word 中,样式(Style)可看作格式(字体、字号、颜色、粗体、斜体,等等)的集合,常见的样式包括“正文”(Normal)、“标题1”(Heading1)、“标题2”(Heading2)、“标题3”(Heading3),当然,还可以自定义样式。

有两种指定 Non-translatable Paragraphs 样式的方式

①、在 Add 按钮左侧的文本框中输入样式的名称,然后单击 Add 按钮。

②、单击 Open Document... 按钮,选择要翻译的 rtf 文档,然后 Workbench 会检测文档中使用的段落样式,并将检测到的样式的名称添加到该按钮上面的列表中,可以从列表中选中样式名称,使用左侧的 <左侧的列表中默认包含 Workbench 的特有样式 DO NOT TRANSLATE。

其他按钮:

· Load... 按钮 - 用于加载使用下面的 Save 按钮保存的 Workbench style list 文件(.wsl)

· Save... 按钮 - 将当前的 Non-translatable 样式设置保存为 .wsl 文件。

· Delete  按钮 - 删除左侧列表或右侧列表中的列表项。

现通过以下文档示例进行说明:

NTP-2

上面的文档包含了四种样式:

· Normal 样式 —— 一般的正文样式,这是 Word 的默认样式;

· Heading3 样式 —— Word 的一种标题样式;

· DO NOT TRANSLATE 样式 —— Workbench 特有的样式,在 Word 中启动 Trados.dot 模板后,Word 的样式列表中就会包含该样式;

· Custom1 样式 —— 笔者自定义的样式。

在 Non-translatable Paragraphs 对话框中使用 Open Document... 按钮检测该文档的样式,结果如下:

NTP-3

可以使用 <一般来说,如果要翻译的文档中存在程序代码,且没有处理为灰色的外部 Tag 格式,如果这些程序代码有特殊的样式设置的话,则可以使用该选项卡来提取并设定相应的样式,指定不翻译这些内容。

Tools > Analyse 对话框

此对话框用于运行 Workbench 的文件字数分析工具 Analyse。整个对话框的内容和操作可以分为三个部分:

· 分析前的设置和操作

· 运行 Analyse

· 处理分析结果

一、分析前的设置和操作

主要包括三个步骤:

· 加载文件

· TM 设置

· 指定 Log 文件。

1、加载文件

Workbench 可以支持处理多种文档,单击 Add... 按钮打开“Files to Analyse”文件选择对话框,可通过下部的“文件类型”列表来查看可处理的文档类型。

有两种加载文档的方式:
a、单击 Add... 按钮选择文件来加载,可一次性选择多个文件;
b、通过鼠标拖放操作将要分析的文件拖入 Files to analyse 列表。可以一次性拖入多个文件;如果文件位于不同目录,可以运行 Windows 的文件查找,然后将查找结果拖入列表。

此部分的按钮操作:
Add... 按钮 —— 加载要分析的文件;
Remove 按钮 —— 从 Files to analyse 列表移除选中的文件;
Clear 按钮 —— 清空 Files to analyse 列表;

2TM 设置

由于 Workbench 和 TM 的许多设置会影响 Analyse 的结果,因此在执行分析前需要确认或调整这些设置,这也是对话框中包含 Options 按钮的用意所在。有关字数分析的影响因素,将在下文以专题形式介绍。

单击 Options 会显示一个包含两个选项的菜单:

Translation Memory Options... —— 选择该选项将打开 Workbench 的 Translation Memory Options 对话框并显示 Tools 选项卡,前文介绍过,该选项卡用于设置 Workbench 的批处理操作(Analyse、Translate 和 Cleanup)的某些行为。当然还需要确认其他选项卡中的设置;

Project and Filter Settins...     —— 选择该选项将打开 Project and Filter Settins 对话框,其中的 Filter Settings 会影响分析结果,因此如果设置了 Filter Settins,需要在执行 Analyse 前确认这些设置。

3、指定 Log 文件

单击列表右侧的 Log file 按钮将显示一个包含三个选项的菜单:

Browse... 选项 —— 选择保存 Analyse 结果的 Log 文件。Translation Memory Options 对话框的 Tools 选项卡中的 Use same log  file for all TMs 会影响 Log 文件的选用

View... 选项 —— 显示当前指定的 log 文件;

Delete 选项 —— 删除当前指定的 log 文件;

二、运行 Analyse

运行 Analyse 时,Workbench 会按照 File -> Setup -> Segmentation Rule 选项卡中设置的 TU 划分规则,在文档中确定各个翻译单元的起始和结束位置,然后将划分好的 TU 逐个拿到 TM 中去匹配,最后统计匹配结果。

Analyse-1

上图是 Analyse 对话框中显示的简要汇总统计结果(Log 文件会包括各个文件的统计结果以及统计汇总结果,与对话框中的汇总结果相比,它还多出了两个统计项:Placeables 和 Chars/Word),现结合该图示对 Analyse 的过程进行说明。

Analyse 的统计结果分为 5 种情况:

Xtranslated   —— 在对经 XTranslated 处理后的文档进行分析时,统计经 XTranslated 处理的翻译单元。使用 Tageditor 打开经 XTranslated 处理后的文档时,可以看到这类文档默认以灰色显示,并且其翻译单元的标记不是 而是 ,Workbench 会将带有这类标记的翻译单元统计到 Xtranslated 这一项;

Repetitions   —— 在分析文档时,当再次遇到已匹配为 Fuzzy match 和 No match 的翻译单元时,会将其记为 Repetition;

100% match —— 文档中与 TM 完全匹配的翻译单元;

fuzzy match  —— 文档中匹配率小于 100% 但大于等于 Minimum match value %(在 Options -> Translation Memory Options -> General 选项卡设置 - <General 选项卡>)的翻译单元在第一次匹配时,将记为 Fuzzy match,而后再出现则记为 Repetition;

No match      —— 文档中匹配率小于 Minimum match value %(在 Options -> Translation Memory Options -> General 选项卡设置)的翻译单元在第一次匹配时,将记为 No match,而后再出现则记为 Repetition;

在分析文件时,Workbench 会将分析过的翻译单元存储在一个临时 TM 中,分析时的逻辑过程大致如下(以下只是逻辑过程,并不保证与实际过程一致,以下叙述中,正式 TM 是指当前使用的实际的 TM,以便与临时 TM 相区别):

1、如果某个翻译单元在正式 TM 中的匹配结果为 100% match,则将该翻译单元记分 100% match,并将其存储在临时 TM 中,然后处理文档中下一个翻译单元;否则

2、如果该翻译单元在正式 TM 中的匹配结果为 Fuzzy match 或 No match,Workbench 会搜索临时 TM,若是其中存储有完全匹配的翻译单元(说明已经在前面分析过了同样的翻译单元),则会将该翻译单元记为 Repetition;否则将该翻译单元记为 Fuzzy match 或 No match,并将其存储在临时 TM 中,然后处理文档中下一个翻译单元。

以上流程的图示如下:

Analyse-2

分析结束后会在对话框中显示统计摘要,并将统计结果保存在指定的 Log.txt 文件和一个位于同一目录且同名的 .csv 文件中,后者可以直接导入 Excel 表,进行工作量统计和工作分配。

三、处理分析结果

在执行分析前,可以看到对话框上部的 Use TM from previous analysis 选项以及下部 Analyse Results 区域的选项和按钮均处于禁用状态。执行分析后,这些选项和按钮都会处于可用状态。使用这些选项和按钮可以对分析后的结果进行相应的处理,现介绍如下:

Use TM from previous analysis 选项

上文提到,Workbench 在分析过程中会将文档中的翻译单元保存在一个临时 TM 库。执行分析后,如果选中了此选项,则在不关闭该对话框的情况下继续执行分析时,就会使用这个临时的 TM 库而不是当前的正式 TM 库。如果使用正式 TM 库进行分析后,选中该选项对分析过的文件再分析一遍,可以看到分析结果完全是 100% match,原因就是临时 TM 库中包含了打开 Analyse 对话框后所分析过的所有翻译单元。如果关闭了该对话框,当前的临时 TM 库将不再有效,下次打开 Analyse 对话框进行分析时,会生成新的临时 TM 库。

有关该选项的一些具体应用,将以专题形式进行讨论。

Analyse Results 区域

View Log File...
—— 查看 Log 报告。

Creat Project TM...
—— 将此次分析中 TM 库的有效 TU(是指 TM 库中对于所分析的文档,匹配结果为 100% 和 Fuzzy match 的 TU)保存为一个新的 TM,这个 TM 中将只包含与所分析的文档相关的 TU。在给兼职翻译发送 TM 时,如果出于保密或文件大小的考虑,可以使用这个按钮生成一个与项目有关的 TM 库,将其发送给翻译人员,但这样翻译人员就无法参考没有匹配上但与项目相关的翻译单元内容。

Export Frequent Segments...
—— 在该按钮后面的文本框中指定一个数字后,单击该按钮可以将文档中重复次数大于等于指定数字的翻译单元提取出来,保存在一个单独的文件中。
如果文件中重复的内容较多,可以将重复的部分抽出单独进行翻译,以减少工作量。在翻译这部分抽取的重复内容时,常常没有上下文环境,因此翻译时最好能够提供原文以便进行参考;如果抽取的某些内容只包含句子的一部分而缺少其他部分,而翻译为中文时又需要调整语序,则应记录这些内容,以便在后续翻译时根据具体的语言环境进行调整。在执行此操作时,应考虑内容重复率、重复量、翻译重复内容的工作量以及后期处理所带来的额外工作,权衡利弊来确定是否有必要如此操作。

Export Unknown Segments...
—— 在该按钮后面的文本框中指定一个数字后,单击该按钮可以将文档中匹配率小于等于指定数字的翻译单元提取出来,保存在一个单独的文件中。

单击 Export Frequent Segments...  和 Export Unknown Segments... 这两个按钮后,可以通过显示的 Create Export File 对话框的“保存类型”下拉列表查看可保存的文件类型,其中的 Systran (*.rtf) 和 Logos (*.sgm) 是适用于“机器翻译工具”(MT)LOGOS™ 和 Systran® 的文档类型。

Workbench 的设计思路是,对于这些重复的或不匹配的翻译内容,可以使用机器翻译和人工两种方式进行处理:

如果使用以上提到的“机器翻译”工具进行处理,则需要保存为相应的文件格式。“机器翻译”工具只能对这些内容进行粗略的翻译,在将“机器翻译”的结果导回到 TM 时,这些导回的 TU 的 Created by 字段会标记为机器翻译,之后,在正式的文档翻译中,如果遇到这类翻译内容,Workbench 会在原有的翻译单元匹配率的基础上按照 Machine translation penalty %(在 Workbench 的 Options -> Translation Memory Options -> Penalties 选项卡设置)扣减匹配率并显示相应的提示信息,以提醒用户这个匹配的 TU 是由机器翻译的,需要进行确认(机器翻译对于中文不适用)。
如果人工来翻译这些抽取出的内容,最好将其保存为 Word (*.rtf) 格式。翻译完成后,将这些内容 Cleanup 到 TM 中。

【专题讨论】字数分析(Analyse)的影响因素

Analyse 的作用就是确认文档中可翻译的内容,然后以翻译单元(TU)的形式在 TM 中进行匹配,最后统计匹配结果。实际上,前面这句话就已经概括了 Analyse 的四个过程:

一、确定可翻译的内容

二、对可翻译内容划分翻译单元(TU

三、与 TM 中的 TU 进行匹配

四、统计匹配结果

下面具体分析有哪些因素会影响上述过程并最终影响字数分析结果。

一、确定可翻译的内容

1、标记语言文件

HTML 或 XML 这类标记语言文件主要包括两部分内容:“用于设置文本显示格式或处理方式的标记符号”、“实际显示的文本内容”,前者我们称其为 Tag。在对这类文档进行分析时,需要使用到 DTD Setting 文件(ini 文件)。每种标记语言文档都有对应的 DTD Setting 文件,该文件记录了特定类型标记语言文件的文件结构、所包含的元素以及一些文档约定。

Workbench 在进行 Analyse 时需要使用对应的 DTD Setting 文件来区分文档中的 Tag 和可翻译的内容;在将 HTML 或 XML 文件转换为 Tageditor 可处理的 TTX 文件中,也需要使用 DTD Setting 文件来区分 Tag 和可翻译内容。Tag 可分为内部 Tag 和外部 Tag,使用 Tageditor 打开 HTML 文件后,可以看到使用 DTD Setting 文件处理后的结果,其中灰色的 Tag 为外部 Tag,不进入翻译单元,红色的 Tag 为内部 Tage,可以进入翻译单元,而其他的可翻译内容则是构成翻译单元的主体。

由于同一种类型的标记语言文件会对应有多个适用的 DTD Setting 文件,而这些 DTD Setting 文件在处理具体的 Tag 时会有所差别,比如对于某个 Tag,不同的 DTD Setting 文件可能会将其处理为内部 Tag、外部 Tag,甚至可能处理为可翻译内容。

因此来说,DTD Setting 文件至少会在两个方面影响分析结果:

a、对于特定 Tag,将其仍处理为 Tag 还是处理为可翻译的内容会影响到可翻译内容的字数统计。在具体统计翻译内容时,外部 Tag 不进入统计,内部 Tag 会统计为 Placeable 而非字数。由于文档中 Tag 内容数量有限,处理为 Tag 还是可翻译内容对于整个统计字数影响不大,但总会有一些影响;

b、对于特定 Tag,处理为内部 Tag 还是外部 Tag 会影响到翻译单元的划分。我们知道,外部 Tag 是不进入翻译单元的,也就是说,不论 Segmentation rule 如何设置,遇到外部 Tag,翻译单元都会结束,相反,内部 Tag 是可以进入翻译单元的,因此来说,处理为内部 Tag 还是外部 Tag 会影响翻译单元的划分,而同一文档按不同的方式划分翻译单元,匹配结果肯定会有差别。在这一方面,DTD Setting 文件的选用对于字数分析可能会有很大的影响。

有关 DTD Setting 文件的注意事项,请参阅本贴“Tools 选项卡”说明。

2RTF 文件

一般来说,本地化过程要翻译的 rtf 文档都是处理过的,某些文档会处理为三个部分:灰色部分、黑色部分和红色部分,其中灰色部分可看作外部 Tag,不进入翻译单元,红色的部分可看作内部 Tag,可进入翻译单元,黑色部分是要翻译的内容,进入翻译单元。还有一些文档不包含这些灰色和红色内容。

但不管怎样,在 Workbench 中,还有一类设置会影响到实际可翻译的内容,那就是 Non-translatable 设置。这里所谓的 Non-translatable 是针对使用 Word 编辑的文档而言的,具体来说,Non-translatable 设置用来确定哪些样式的文本内容无需翻译。在 Workbench 中有两处设置 Non-translatable 的位置:

a、File -> Setup... -> Non-translatable Text 选项卡
该选项卡用于指定将哪些样式的文本字符作为无需翻译的内容来对待。在具体指定时可以选择将特定样式的文本字符处理为内部 Tag 或外部 Tag。其对于字数分析的影响和 DTD Setting 文件的情况类似。

b、Settings -> Non-translatable Paragraphs 对话框
该对话框与 Non-translatable Text 选项卡的区别是,前者处理的是段落或句子样式,而后者处理的是字符(这里是词的意思,即英文的 word)样式。如果指定某种样式为 Non-translatable Paragraph 内容,则使用该样式的文本不记入可翻译字数,也不记入 Placeable。有关该对话框的设置,请参阅本贴“Non-translatable Paragraphs 对话框”的说明。

二、对可翻译内容划分翻译单元(TU

在分析文档时,Workbench 使用所谓的“UI 划分规则”(Segmentation Rule,在 File -> Setup... -> Segmentation Rule 选项卡中设置)来确定翻译单元的结束位置,以此来划分翻译单元,该规则的设置保存在 TM 数据库中。比如,默认的 Segmentation Rule 将“句号”、“冒号”、“问号”、“叹号”、“Tab 符号”以及“段落结束”均视为翻译单元的结束标记。

如果 TM 库中保存的翻译单元的划分规则与当前在上述 Segmentation Rule 选项卡中设置的划分规则不一致,则会影响到分析结果。这里做一个极端的测试。首先在 Segmentation Rule 选项卡中将“划分规则”指定为默认规则,然后翻译某个文档,翻译完成后,修改 Segmentation Rule 选项卡中的设置,只保留 End of Paragraph 规则而将其他规则删除,然后使用 TM 分析已翻译过的原文档,你可能已经猜到了结果。统计结果表明,本来应该完全匹配的文档由于修改了 Segmentation Rule 而几乎完全变成了 No match 的情况(有关示例,请参见本贴“新手入门 3”部分的相关说明)。

因此,不同的 Segmentation Rule 对于分析结果可能会产生重大的影响。

Segmentation Rule 设置保存在 TM 库中,所以,只要没有用错 TM,就不会出现这种情况,但也不能掉以轻心。比如某些文档过于久远而忽略了当初使用的 Segmentation Rule,当 Cleaup 到新的使用不同 Segmentation Rule 的 TM 时,在进行翻译和字数分析时就会出现这类问题。当然翻译人员可以使用 Expand Segment 和 Shrink Segment 来扩展或缩小文档中的翻译单元,使之在形式上与 TM 中翻译单元的 Segmentation Rule 一致,但对于字数分析的影响却不易觉察到,这可能会造成很大的成本损失。

三、与 TM 中的 TU 进行匹配

这里需要指明一点,在获得 TU 的匹配率时,除了计算文本匹配率,Workbench 还会考虑 TU 的 Source 部分的格式差异、是否包含要保留为英文的 Placeable 内容、该 TU 是否由 WinAlign 生成、TU 的自定义信息字段是否与 Filter Settings 的设置匹配、是否存在 Multiple Translation 等因素,Worbkbench 会根据上述情况在翻译单元文本匹配率的基础上扣减匹配值来获得最终的匹配结果,这就是所谓的 Penalty 设置,有关该设置的具体说明,请参阅本贴的“Penalties 选项卡”说明。另外需要指明,Filter Settings 选项卡中的设置与 Penalties 选项卡中的 Attribute and text field differences penalty % 设置密切相关,二者共同影响匹配结果,具体情况,也请参阅本贴的“Penalties 选项卡”有关 Attribute and text field differences penalty % 部分的说明。

实际上,在统计结果的 95%-99% 统计项中,很多统计的都是属于文本完全匹配但应用了 Penalties 设置的文本内容,特别是匹配率为 98% 和 99% 的翻译单元。

四、统计匹配结果

Analyse 的最后一步是将匹配结果进行分类统计。上文提到,Analyse 会将统计的文本内容分为 Xtranslated、Repetitions、100% match、Fuzzy match 和 No match 五类。而 Fuzzy match 部分又细分为 95%-99%、85%-94%、75%-84%、50%-74% 四类。我们知道,在 Workbench 中使用 Minimum match value %(在 Options -> Translation Memory Options -> General 选项卡设置)值来区分 No match 与 Fuzzy match,因此,该值的设置会影响到翻译单元的统计归属。

举个例子,某个翻译单元的匹配率为 80%,如果将 Minimum match value % 设置为小于或等于 80%,则该翻译单元会统计到 75%-84% 这一列;但如果将 Minimum match value % 设置为超过 80%,则该翻译单元就会统计为 No match。
因此,不同的 Minimum match value % 设置会影响非 100% 匹配的翻译单元的统计归属,进而会影响到最终的统计结果。

下面对以上内容做一个小节:

一、确定可翻译的内容
a、DTD Setting 文件。该设置保存在装有 Workbench 的本地机器中。
b、Non-translatable 设置。该设置保存在 TM 中。

二、对可翻译内容划分翻译单元(TU)
Segmentation rule 选项卡设置。该设置保存在 TM 中。

三、与 TM 中的 TU 进行匹配
Penalties 选项卡与 Filter Settings 选项卡设置。前者保存在装有 Workbench 的本地机器中,后者与 TM 有关。

四、统计匹配结果
Minimum match value % 设置。该设置保存在装有 Workbench 的本地机器中。

最后需要说明:

a、这里之所以强调设置是保存在 TM 中还是保存在装有 Workbench 的本地机器中,其目的在于说明,如果设置保存在 TM 中,则使用任何计算机上的 Workbench 打开 TM,这个设置都不变;而如果是保存在装有 Workbench 的本地机器中,则使用某个计算机上安装的 Workbench 打开任何 TM 时该设置都不变。明确了这一点,在进行 Analyse 时就可以有针对性地检查和调整相应设置。

b、字数分析结果关乎成本收益,在确认这些设置时,首先应与客户的设置保持一致,如果客户未指定设置,则最好使用默认的设置,并同客户确认,以免造成不必要的误差和成本损失。

以上内容如有错误,请网友及时帮助指出,以免以讹传讹,贻误他人。

【专题讨论】关于 Use TM from previous analysis 选项的应用

上文说道,Workbench 在执行 Analyse 时会生成一个临时的 TM 库,并在分析过程中将文档中的所有翻译单元逐个保存在这个临时 TM 中,分析结束后,在不关闭 Analyse 对话框的情况下,可以选中 Use TM from previous analysis 选项,使用这个临时 TM 来继续分析。那么使用临时 TM 库的分析过程与使用正式的 TM 库有什么区别吗?这个选项的作用何在呢?本文对此进行一些尝试性的探讨。

一、使用临时 TM 与正式 TM 在执行 Analyse 时的区别

在上文有关 Analyse 对话框的说明中,给出了使用正式 TM 库执行 Analyse 的逻辑过程和相应图示。通过测试发现,使用临时 TM 库执行 Analyse 与使用正式 TM 库有一些不同。导致这一差别的主要在因素在于,在分析过程中,正式的 TM 库是不变的,而临时的 TM 库却是在不断的加入分析过的翻译单元,而这些新加入的翻译单元又会同后续要分析的翻译单元存在 Fuzzy match 的情况。换句话说,使用临时 TM 库分析某个文档时,与我们翻译这个文档的过程是类似的。在翻译文档的过程中,我们会不断的将翻译单元提交到 TM 中,而这些提交后的翻译单元又可能与我们后续的翻译内容存在一定的匹配,使用临时 TM 库的过程也大致如此。

具体来说,无论是使用正式 TM 库还是临时 TM 库进行分析,如果文档中有两句原文完全相同,并且第一句的分析结果为 Fuzzy match 或 No match,那么分析第二句时,会将其记为 Repetition,这类情况下,两种方法的分析结果是一致的;如果文档中有两句原文类似但不完全相同,并且它们在 TM 中的匹配都为 No match,那么使用正式 TM 分析时,这两句原文会全部记为 No match,但使用临时 TM 进行分析时,第一句原文会记为 No match,但由于分析之后这句原文所对应的翻译单元就加入到临时 TM 库中,因此在分析第二句原文时,结果就可能是 Fuzzy match。

请看下面的示例:

现在要使用一个空的 TM 库对以下文档进行分析,该文档包含三句话,它们之间类似但并不完全相同:

UTF-1

首先使用空的 TM 库直接对该文档进行分析,结果如下:

UTF-2

然后将 Analyse 对话框关闭并重新打开(因为此时临时 TM 库已包含了这三个翻译单元),先分析一个不包含任何内容的空 RTF 文档,该文档与分析结果没有任何关系,但通过分析这个空文档就可以启用 Use TM from previous analysis 选项。分析完空文档之后(此时,临时 TM 中没有任何翻译单元),选中该选项,使用临时 TM 库分析以上文档,其结果如下:

UTF-3

可以看到,在第一个 log 中,三个句子全部分析为 No match,而在第二个 log 中,只有一个句子结果为 No match,其他两个句子的匹配结果是 Fuzzy match,造成这种差异的原因就是临时 TM 库在分析时会不断加入分析过的翻译单元。

二、Use TM from previous analysis 选项的应用

从上面的叙述中你可能已经意识到,这个采用临时 TM 库的方式似乎能够省钱,某种情况下,确实如此,请看以下案例:

1、某本地化部门承接了一个软件本地化项目,软件部分和联机帮助部分已经翻译完毕,马上需要翻译两个 PDF 帮助文档,暂称为“文档 1”和“文档 2”,这两个文档与前面完成的翻译内容关系不大,当两个文档之间有很多相同或类似的内容。该部门的 PM 现在需要向客户确认这两个文档的统计字数(工作量),但客户要求采用一种特殊的字数分析方案,该方案的过程是:首先打开 Analyse 对话框,使用当前已有的 TM 分析第一个文档,不关闭对话框,选中 Use TM from previous analysis 选项,然后分析第二个文档。

PM 将使用常规方式的分析结果(暂称为 log1)与采用客户方案的分析结果(暂称为 log2)进行了比较,发现 log1 和 log2 的 100% 和 Repetition 部分基本没有什么差异,但 Fuzzy match 和 No match 部分差异比较大,具体表现是,log1 的 No match 部分比 log2 多,而 Fuzzy match 部分比 log2 少,两个 log 统计下来,log2 计算出的成本要比 log1 少许多,我们从第一部分的叙述中不难判断导致这种情况的原因。

那么是否这种方案就一定优于常规方案或者说比常规方案节省成本呢?这要视具体情况而定。本文中的这个案例的前提是:文档与 TM 的关系不大,但文档内部或文档之间有很多相同或类似的内容。实际上,使用临时 TM 库的优势在于利用文档内部翻译单元的相关性来降低成本,其缺点是无法充分利用正式 TM 库的资源。因此在判断是否采用这种方案时,需要权衡这两个因素。

不过,需要说明的是,这种非常规的方式实际上很少采用,如果使用的话,应该在本地化部门、客户和兼职翻译之间确认并达成一致,否则三方的分析结果就会存在差异。另外,当处理多个文档并且分配给多个兼职人员来做时,如果这些兼职人员无法实现共享 TM 库,则兼职人员实际处理的字数可能要多于此种情况下 log 的分析结果,因为每个翻译人员都无法使用别人的翻译结果,而此种分析方式的一个暗含假定就是翻译过程中始终使用同一个 TM。1

2、Use TM from previous analysis 选项的另一个应用就是比较文件。如果希望确定两个文件或两批文件的雷同性,可以先使用 TM 分析第一个文件或第一批文件,然后选中 Use TM from previous analysis 选项使用临时 TM 库分析第二个或第二批文件,由第二次分析结果中 Fuzzy match 和 No match 的多少来确定它们的差异程度。使用这种方法可以确定不同版本的同一类文档的差异性;在考虑对文档进行 Xtranlslate 处理时,也可以通过这种方式确定文档之间的相似程度,以判断是否适合使用 Xtranslate 来处理。

1:实际上,即使使用常规方式来分析多个文件,在将这些文件分配给多个无法共享 TM 的兼职人员来做时,也会遇到类似情况。问题的焦点在于  Repetition 部分。我们知道 Repetition 部分是重复出现的匹配率为 No match 或 Fuzzy match 的翻译单元,这类翻译单元在第一次出现时记为 No match 或 Fuzzy match,后续再出现同样的内容就会处理为 Repetition。但在为多个译员分配文件时,并不能够保证第一个翻译单元与相应的 Repetition 部分分配给同一个译员。

综合看来,在使用常规方式进行分析时,与使用临时 TM 库相比较,分析出来的字数可能会比译员的实际工作量要多,但在将文件分配给多个译员时,又可能会出现以上所述的增加译员实际工作量的情况。二者似乎可以扯平。

关于 Project and Filter Settings 选项卡以及 Attribute Text 字段的应用

在阅读本贴前,如有必要,请参阅以下链接:

· 关于 Attribute Field Text Field

· 关于 Project Settings Filter Settings

· 关于 Multiple Translation(Project Settings 导致 Multipel Translation 的说明)

· Project and Filter Settings 对话框

· General 选项卡(续)(有关 Textv/Attribute 的说明)

· Penalties 选项卡(有关 Attribute and text field differences penalty % 的说明)

大体来讲,Project Settins 选项卡的作用就是为提交到 TM 中的 TU 附加信息标记(这里称为自定义字段值),Filter Settings 选项卡的作用就是通过 TM 中的 TU 所附带的这些信息标记来筛选 TU,其筛选机制就是,如果 TM 中的某个 TU 所附带的信息字段值与当前 Projcet Settings 中的设置不符,在确定该 TU 的匹配率时,就按 Attribute and Text field differences penalty 值(Options -> Translation Memory Options -> Penalties 选项卡)扣减匹配率;而对于信息字段值与 Project Settings 完全相符的 TU 则不会进行扣减,因此,在设置 Filter Settings 的情况下,如果有多个文本匹配率相同的 TU,则会对与 Filter Settings 设置不符的 TU 的匹配率进行扣减,在 Workbench 窗口优先显示与 Project Settings 设置相同的 TU,从而达到筛选的目的。(相关内容,请参阅上述文档)。

因此来说,如果希望提交到 TM 中的 TU 附带相应的信息标记以便于区分,就可以使用 Project Settings 来达到目的。比如,你要使用一个 TM 库来保存多个项目的翻译单元内容,使用同一个 TM 保存来自多个客户的项目,或者使用一个 TM 来保存来自同一项目的多个不同组件、版本、文档的翻译单元,在翻译这些内容时,就可以设置相应的 Projcet Settings,使得提交到 TM 的 TU 附带相应的标记。

为翻译单元附加信息标记的初衷就是标识或区分不同来源的翻译单元。翻译单元附加了信息标记后,会带来很多便利:

· 首先,翻译人员在重用 TM 中的 TU 时,可以根据信息标记来判断 TU 的来源(不同客户、产品、组件、版本、文档),以确定是否采用;

· 其次,可以使用 Filter Settings 在“翻译文档”、进行“预翻译”和“字数分析”时,优先使用符合筛选条件的翻译单元;

· 在使用 Export 对话框(File -> Export)从 TM 中导出翻译单元时,以及使用 Maintenance 对话框(File -> Maintenance)维护 TM 时,可以按 Attribute 和 Text 字段值设置筛选条件,只导出符合条件的 TU,或者只对符合条件的 TU 进行维护;

· ......

当然,在设置 Project Setttings 前,应该清楚它所带来的影响,如果设置了 Projcet Settings,无论你是在翻译过程中提交翻译单元,还是执行 Translate(预翻译)、Cleanup(清除原文及更新 TM),总之,只要是向 TM 中写入(或修改)TU 数据,就会在 TU 上附加 Projcet Settings 中的设置。

另一方面,对于 Filter Settings,无论你是打开翻译单元进行匹配,还是执行 Analyse(字数分析)和 Translate(预翻译),总之,只要是从 TM 中读取 TU 数据进行匹配,就会应用筛选条件。特别是,在进行“预翻译”和“字数分析”时,切记要检查并确认是否需要设置 Filter Settings,因为这个设置会影响到匹配率,将本来应该 100% 匹配但不符合筛选条件的 TU 处理为 fuzzy match,如果这不是你所期望的结果,那么就不要设置 Filter Settings。

简而言之,如果使用 Project Settings 和 Filter Settings,就要充分了解它们所带来的影响,否则,最好不要使用。

以下设计一个案例,具体说明 Projcet Settings 和 Filter Settings 的应用:

某本地化部门翻译了一批来自 IBM 的文档,完成翻译任务后,需要对这批文档进行 Cleanup,以清除文档中的原文并生成完整的 TM。为了使在 Cleanup 过程中提交到 TM 的 TU 附带上相应的项目标记,在执行 Cleanup 前,首先在 File -> Setup -> Fields  选项卡定义了一个 Attribute 字段,字段名为 Client,并为其定义了一个字段值“IBM”,然后,在 Projcet Settings 选项卡中通过选择将 Project Settings 设置为 Client=IBM,最后执行 Cleanup。在 Cleanup 过程中,提交到 TM 的翻译单元就会附带 Client=IBM 标记。

而后,该部门又承接了一个来自 HP 的项目,巧的是,这个项目中好多文档的内容与先前 IBM 的那批文档相同或类似,因此,项目经理决定在翻译过程中使用 IBM 那个项目的 TM 库。项目经理对于 TM 库的使用进行了如下设想:

· 在翻译 HP 的项目时,提交到 TM 中的 TU 需要附带 Client=HP 标记;

· 如果在翻译过程中遇到了 100% 匹配的 TU,并且该 TU 是上一个 IBM 项目的 TU, 若是重用该 TU 的翻译内容而不做修改,则提交时希望保留该 TU 原来的 Client=IBM 标记,但也要在其中加入 HP 标记;

· 如果在翻译过程中遇到了 100% 匹配的 TU,并且该 TU 是上一个 IBM 项目的 TU, 但在翻译当前文档时修改了对应的翻译部分,则希望在提交时保留原有的 TU,并增加一个新的包含修改后内容的 TU,同时在新增的 TU 中附带 Client=HP 标记;

· 上面的这个情况会导致 TM 中对于同一原文存在两个对应的 TU,因此如果在翻译中再次遇到同一翻译内容,希望在 Workbench 窗口中优先显示带有 Client=HP 标记的 TU;

· 当某个 TM 中的 TU 的文本匹配率为 100% 时,如果它没有附带 Client=HP 标记,希望扣减其匹配率以提醒翻译人员注意。

上文说道,那个 IBM 的 TM 中已定义了一个 Client 字段,并且为其定义了一个值 IBM。在实施以上设想时,项目经理在这个 TM 库中又定义了一个 Client 值“HP”,然后进行以下设置:

· 规定翻译人员在使用 TM 前在 Project Settings 选项卡中设置 Client=HP,这样翻译过程中提交到 TM 的翻译单元就会附带 Client=HP 标记。

· 通过在 General 选项卡(Options -> Tranlsation Memory Options 对话框)中的 Updating attribute and text field 区域左侧设置 merge 选项,使得那些在 IBM 和 HP 的文档里翻译完全一致的翻译单元只保留一个,并且其 field 标记合并在一起:Client= IBM, HP。(请参阅 General 选项卡(续)

· 在 Project Settings 中将 Client 设置为 HP,当在 HP 的文档中修改了 TM 中已存在的且标记为 Client=IBM 的 TU,提交后,由于译文部分不同,并且原有的 TU 标记(Client=IBM)与当前 Projcet Settings 中的设置(Client=HP)不一致,则会提交一个新的翻译单元,并附带 Client=HP 标记。(请参阅 General 选项卡(续)

· 在 Filter Settings 中选择设置 Client=HP,这样,使得在 TM 中只有带有 Client = HP 标记的翻译单元才可能具有 100% 的匹配率,而对于那些标记为 Client= IBM 的翻译单元,则会扣减其匹配率(请参阅“Penalties 选项卡”有关 Attribute and text field differences penalty % 的说明)。因此,对于文本 100% 匹配的翻译单元,如果其标记为“Client =HP”或“Client=IBM, HP”,则不会扣减其匹配率,但如果其标记为 Client=IBM,则会进行扣减,从而起到在 Workbench 窗口优先显示带有 Client=HP 标记的 TU 的目的。

翻译过程中使用 TM 库的一个方案设想 ——

有关 Do not create new translation units if only text fields differ 的一个应用

在阅读本贴前,如有必要,请参阅以下链接:

· 关于 Attribute Field Text Field

· 关于 Project Settings Filter Settings

· 关于 Multiple Translation(Project Settings 导致 Multipel Translation 的说明)

· Project and Filter Settings 对话框

· General 选项卡(续)(有关 Textv/Attribute 的说明)

· Penalties 选项卡(有关 Attribute and text field differences penalty % 的说明)

对于最简单的翻译流程,只涉及到翻译和校对两类人员,在实际操作中,他(她)们都要使用 TM 来工作。对于完全由内部人员完成的翻译项目,不同的本地化公司对于 TM 的使用有不同的方案,其各有利弊:

· 有的公司规定翻译人员和校对人员使用同一个 TM,这种方案的优点是,校对人员的校对结果可以即时地为翻译人员所用,但其缺点也十分明显,由于在校对之前,所要校对的文档的翻译单元都已存在于 TM 中,因此,校对人员需要通过查看 TU 的 Changed by 信息来确定哪些是校对过的内容,而哪些是尚未校对的内容,而且无法使用Translated to fuzzy 按钮()来加快校对速度;

· 还有一些公司规定,翻译人员和校对人员使用同一 TM 的两个不同拷贝来工作,这样,校对人员在工作时,只要校对过的内容都是 100% match,因此非常容易区分哪些翻译单元已校对过,而哪些尚未校对,其缺点就是校对人员校对过的内容无法通过 TM 即时为翻译人员所用。

在此,我们探讨一个解决方案,使得校对人员即容易识别校对过的内容,又可以使校对过的内容即时为翻译人员所用。为此,我们首先明确以下内容:

1、通过 Attribute 字段和 Text 字段定义 TU 的标记信息,并在 Project Settings 中进行指定,可以在提交 TU 时把 Project Setttings 中指定的 Attribute 和 Text 字段信息附加到 TU(请参阅“Project and Filter Settings 对话框”)

2、通过在 Filter Settings 中指定 Attribute 和 Text 字段信息,可以将其作为筛选条件,从 TM 中筛选带有该字段信息的 TU。筛选的实质过程是,通过设置 Penalties 选项卡(Options ->  Translation Memory Optons...)中的 Attribute and text fields difference penalty 选项,对 TM 中不符合 Filter Settings 设置的 TU 的匹配率扣减 penalty 选项指定的分值,相对提高符合 Filter Settings 设置的 TU 的匹配率,从而可以在 Workbench 窗口优先显示后者。(请参阅“Project and Filter Settings 对话框”)

3、在翻译过程中,对于某句原文,如果 TM 存在完全匹配的 TU,并且当前 Project Settings 中的设置与该 TU 的标记信息不同(且不属于其子集),您没有使用匹配的 TU 所包含的译文而是对其进行了修改然后提交,这种情况下就会将其添加为一个新的 TU,并按 Project Settings 中的设置附加标记信息。这时 TM 中存在两个 Source Segment(原英文)相同但 Target Segment(译文)不同且标记信息也不相同的翻译单元,这种现象称为 Multiple Translation。(请参阅“General 选项卡(续)”)

4、General 选项卡(Options ->  Translation Memory Optons...)中有一个 Do not create new translation units if only text fields differ 选项,选中该选项后,对于 3 中所述的情况,如果只是 Text 字段不同,则不创建新的翻译单元。而是使用修改后的译文覆盖 TM 中原翻译单元的译文部分(Target Segment)。

首先我们解决第一个问题:如何使校对人员容易区分校对过的内容:

要使校对结果即时为翻译所用,最直接的办法就是使用同一个 TM,但由文章开头的分析可知,这种方案的弊端就是校对人员不好区分校对过的内容。但以上的说明 2 给我们以启示,那就是虽然翻译人员和校对人员共享同一个 TM 库,但可以让他们设置不同的 Project Settings(或者只有校对人员设置 Projcet Settings),这样,由校对人员提交的 TU 就可以附加上与翻译人员不同的 Project Settings,同时,让校对人员在其 Filter Settings 中指定与其 Projcet Settings 一样的设置,这样,凡是由校对人员校对过的 TU,当在文档中再次出现时,由于其 TU 所附带的标记与校对人员的 Filter Settings 一致,因此结果为 100% 匹配而不会扣减匹配率,而凡是由翻译人员提交但没有校对过的 TU,其标记与校对人员的 Filter Settings 不一致,因此会扣减匹配率,使最终的匹配率低于 100%,这样校对人员就可以判断,凡是 100% match 的内容,都是校对过的内容,否则,就是需要校对的内容。

接着,我们解决第二个问题:如何使校对内容即时为翻译人员所用:

看到此处,你也许会感到不解,这个问题不是通过共享 TM 就可以解决吗?确实可以解决,但在具体操作中存在一个不大不小的技术问题。我们先分析一下校对人员如何是如何校对的。在校对翻译内容时,会产生两种校对结果:“认可翻译人员的翻译结果”、“修改了翻译人员的翻译结果”。如果校对人员设置了与翻译人员不同的 Project Settings,对于第一种校对结果,提交后,不产生新的翻译单元;对于第二种校对结果,提交后会将修改后的内容保存为新的翻译单元(如以上说明 3 所述),即出现了所谓的 Multiple Translation。对于第二种结果,翻译人员将会面临困境,因为他(她)需要从中区分哪个是校对过的,然后再使用校对后的翻译内容,而这会在一定程度上影响翻译人员的效率。也许你会想到让翻译人员也设置与校对人员相同的 Filter Settings,但这样做的结果是,对于他自己提交到 TM 中但尚未校对的内容,匹配率会由于扣减而低于 100%,而我们希望这种情况他能够顺利地重用自己提交的翻译单元,因此这个方法不太可取。

实际上,校对人员在修改翻译人员的翻译内容而后提交时,如果能够覆盖原有的内容,而不是生成新的 TU 从而导致 Multiple Transltion,则问题迎刃而解。巧合的是,这就是 Do not create new translation units if only text fields differ 选项的用武之地。使用该选项,如果匹配的 TU 的标记信息与当前 Project Settings 设置只是在 Text 字段上存在差异,修改翻译内容并提交,则不会添加新的 TU 而是覆盖原有的 TU,因此我们规定校对人员设置 Text 字段而非 Attribute 字段即可解决问题。

具体的方案如下:

首先,项目经理使用独占方式打开共享的 TM 库,在 File -> Setup -> Fields 选项卡中定义一个 Text 字段“Status”,然后规定相关人员进行如下设置

校对人员的设置 ——
1、在 Project Settings 和 Filter Settings 中设置 Status 字段,在 Text field content 中输入 approved。
2、确保 Penalties 选项卡(Options ->  Translation Memory Optons...)的 Attribute and text fields difference penalty 选项的值大于零(默认值为 2)。
3、在 General 选项卡(Options ->  Translation Memory Optons...)中选中 Do not create new translation units if only text fields differ。

翻译人员的设置 ——
翻译人员不要设置任何 Filter settings,最好也不要设置 Project Settings,如果设置 Project Settings,也不要像校对人员一样设置 Status: Approved。目的是只有校对人员提交的翻译单元才会标记 Status:Approved。

进行这样的设置以后,如果校对人员和翻译人员对于同伴足够信任,可以使用 Translate to fuzzy 键来加快工作速度,对于翻译人员而言,即可以快速重用自己或其他翻译人员翻译提交的但没有校对的 TU,也可以重用校对过的 TU;对于校对人员,当遇到未校对过的翻译内容或者与校对人员已提交的结果不符的翻译内容时,会停止处理,等待校对进行修改。

该方案的适用前提:

1、翻译人员和校对人员的工作需要同步进行或者存在交叉

2、项目开始时使用全新(空)的 TM 库

3、翻译人员(可以多人)和校对人员(可以多人)共用一个 TM

该方案的不足之处:

1、这种方法有一个弊端。如果校对人员修改了某个句子(Sentence A)的句式并提交,但下文中出现了类似的句子(Sentence B),且 Sentence B 相对 Sentence A 的文本匹配率为 85%。假设当前 Attribute and text fields difference penalty 设置为 2,此时我们计算 Sentence B 在 TM 中的匹配率。Sentence B 在 TM 中有两个与其最相关的翻译单元:由校对修改并标注了 Status: Approved 的 Sentence A 对应的翻译单元(Unit A)、由翻译人员提交的 Sentence B 所对应的翻译单元(Unit B),按照 Attribute and text fields difference penalty 设置和上文 85% 的假设,Unit A 的匹配率为 85%,而 Unit B 的匹配率为 98%(100% - 2%),因此在 Workbench 中会优先显示 Unit B。这样校对需要手动选择来参考 Unit A 的翻译,如果 Sentence A 和 Sentence B 校对的间隔时间较长,或由不同的校对人员来校对,则无法保证句式的统一。一个勉强的补救措施是,将 Attribute and text fields difference penalty 设置的足够大,但最多也只能设置到 20%。

2、与一般的翻译、校对方案一样,此方案的存在的问题是,使用 键保证了翻译和校对人员工作的流畅性,但是,其前提是,翻译人员高度信任校对人员,校对人员之间也互相信任,也就是说使用 键,翻译人员不易发现校对人员的错误,而校对人员之间也不易相互发现所存在的错误。

3、任何方案的不足都可由人来弥补,人的主动性也会提高执行效率。比如校对过程中可以将某些修改过的术语记录下来,及时发送给翻译人员进行修改,并在校对结束前进行统改。翻译人员如果发现校对人员的错误,或者校对人员之间发现了对方的错误,可以通过某种方式互相告知,并进行修正,这些都可以通过填表等交互方式来实现。但是,这类工作都是不可量化的东西,无法具体要求,也无法具体衡量其中的工作量,因此,需要靠激励机制来提高人的主动性,而人的主动性又源自哪里呢?这值得管理人员思考。

有关 DTD Setting (ini) 文件使用方面的一些问题

1、什么是 DTD Setting 文件?

2、在将某个文档显示为 TTX 文件时 Tageditor 如何确定使用哪个 ini 文件?

3、使用 Tageditor 打开 ttx 文件时是如何选择 ini 文件的?

4、在打开 TTX 文件时,如果所使用的 ini 文件与生成该 TTX 文件时使用的 ini 文件不同,是否会影响现有 TTX 文件的格式?

5、为什么每次在 Tageditor 中打开 HTML 文件,总要显示对话框,提示选择 ini

6、我已经将某个 ini 文件从 Manager 中移除,为什么打开某个 TTX 文件后,发现该 ini 文件又被加载到 Manager 中?

7、在进行 Analyse(字数分析)、Translate(预翻译)和 Cleanup(清除原文)时需要 ini 文件吗?

8、在 Workbench 打开的 Manager 与在 Tageditor 中打开的 Manager 是同一个 Manager 吗?

9、在进行Analyse(字数分析)和 Translate(预翻译)处理时,Workbench 如何选择 ini 文件?

10、校对人员在打开 TTX 文件时,总是会弹出要求指定 ini 文件的对话框,怎样解决?

11、在项目中如何正确地使用 ini 文件?

-、什么是 DTD Setting 文件?

首先说一下什么是 DTD。DTD 文件,即“文档类型定义”(Document Type Definition) 文件,用于定义 HTML、XML 等标记语言文件应该遵循的结构、使用的元素以及语法规范。在使用文本编辑器打开 HTML 文件时,所看到的那些在浏览器中不显示的内容就是所谓的文档元素,这些元素用于定义文档的结构以及文本或其他对象在浏览器中的显示样式,它们需要遵循相应的语法规范,DTD 文件就是定义这些内容的文件。不同类型的标记语言文件的结构和所包含的元素存在差异,也就会对应有不同的 DTD 文件。

在翻译标记语言文件时,这些用于定义文件结构和显示样式的元素一般来说是无需翻译的,因此在翻译这类文件时,首先就需要将无需翻译的内容与可翻译的内容区别开来,Tageditor 编辑器一个主要的作用就在于此。它使用所谓的 DTD Setting 文件(即 ini 文件)来区分标记语言文件中可翻译内容和不可翻译内容,在 Tageditor 中打开 HTML 文件时,可以看到文件中的内容被处理为三种形式,即灰色的外部 tag、红色的内部 tag,以及可翻译的文本内容,这个就是使用 ini 文件的处理结果,而这些变成 tag 的内容,就是标记语言的元素,如下所示:

(INI_1)

也就是说,ini 文件区分标记语言文件中的元素和文本内容,并进一步区分要处理为外部 tag 的元素和要处理为内部 tag 的元素,前者一般定义文档结构(比如段落标记);后者一般定义显示样式(比如字体)。另外,ini 文件还确定对于一些非 ASCII 字符的处理方式,这些字符称为“实体”(entity),比如对于商标符号,是处理为红色的 tag 占位符,还是将其转换为实际的字符。总之,ini 文件就是用于将标记语言文件转换为 Tageditor 可编辑的包含外部和内部 tag 以及文本内容的 ttx 文件。

不同类型的标记语言文件对应不同的 ini 文件,比如对于 HTML 文件和 XML 文件会使用不同的 ini 文件。Trados 6.5 自带了几个 ini 文件,比如用于处理 HTML 文件的 HTML4.ini 以及用于处理 XML 文件的 XSL.ini。可以修改这些 ini 文件来定义自己的 ini 文件,因此来说,同一类型的标记语言文件可以使用不同的 ini 文件来处理,当然,不同的 ini 文件对于元素的处理可能会存在差异,对于某一个元素,可能会将其处理为内部 tag,也可能会处理为外部 tag,具体取决于所使用的 ini 文件中的设定;再比如上面提到的商标符号实体的处理,在有的 Tageditor 版本中,无法正确显示实际的商标符号,而是显示为一个问号(?),通过修改 ini 文件,可以让其不将商标符号转换为实际的字符,而是处理为内部 tag 占位符,这样在翻译后生成的文档中,商标符号就可以正确显示。有关 ini 文件的这些内容,将辟专文介绍,此处不再赘述。

二、在将某个文档显示为 ttx 文件时 Tageditor 如何确定使用哪个 ini 文件?

打开 Tageditor 的 DTD Setting Manager(Tools -> DTD Settings),可以看到当前可以使用的 ini 文件:

(INI_2)

其中的 Descriptive Name 是 ini 文件的描述性名称,DOCTYPE 是 ini 文件的适用类型,File Name 是 ini 文件的存放路径。“问题一”中提到,不同类型的标记语言文件(比如 HTML 和 XML)需要不同的 ini 文件来处理,DOCTYPE 就是区分所适用的文件类型的,比如 HTML4.ini 文件的 DOCTYPE 为 HTML,表示它可以处理 HTML 文档,可以说,任何 DOCTYPE 参数值为 HTML 的 ini 文件,原则上都可以处理 HTML 文件,而这些可以处理同一类型标记语言文件的 ini 之间则使用 Descriptive Name 来区分。

一般来说,在标准的 HTML 文件和 XML 文件的文档类型声明中,都会有一个所谓的 Root Element(根元素),它一般位于文档的开始部分,代表文档的类型,比如,标准的 HTML 文件的“根元素”如下所示:

XML 文件的“根元素”的示例如下所示:

(INI_4)

使用 Tageditor 打开 HTML 或 XML 等文档时,Tageditor 将被打开的文档的“根元素”与 DTD Setting Manager 中列出的各个 ini 文件的 DOCTYPE 部分比较,如果有匹配的 ini 文件,则会使用这个 ini 文件将被打开的文件显示为 TTX 文件,此时打开 Manager 会发现,当前使用的 ini 标注了红色的对勾。

如果 Manager 中有多个 ini 文件的 DOCTYPE 与该文档的“根元素”匹配,则会弹出以下对话框,提示从中选择一个 ini 文件,例如在打开 HTML 文件时可能显示以下对话框:

(INI_5)

如果没有匹配的 ini 文件,则会提示指定一个 ini 文件:

(INI_6)

当保存 TTX 文件时,会将 ini 文件的 Descriptive Name(描述名称)信息和所使用的 ini 文件的路径记录到 TTX 文件顶部的 Trados 声明信息中,其中,ini 文件路径保存在 SettingsPath 参数中,而 Descriptive Name 保存在 SettingsName 参数中,如下所示:

(INI_7)

下次打开 TTX 文件时,将使用这个信息自动寻找相应的 ini 文件。

三、使用 Tageditor 打开 TTX 文件时是如何选择 ini 文件的?

如以上问题所示,在保存 TTX 文件时会写入所使用的 ini 文件的信息。下次打开 TTX 文件时,会按以下步骤寻找 ini 文件:

1. 按照 TTX 文件中 SettingsPath 参数标注的路径确定 Manager 中是否有该 ini 文件

2. 如果有会比较 TTX 文件中的 SettingsName 参数是否与 ini 文件的 Descriptive Name 一致

3. 如果一致,则使用该 ini 文件

4. 如果 Manager 中不存在 SettingsPath 参数对应的 ini 文件,则会按路径检测该文件在系统中是否存在

5. 如果存在且其 Descriptive Name 与 SettingsName 参数一致,则将其加载在 Manager 中并使用

6. 如果该 ini 文件不存在或者存在但 Descriptive Name 与 SettingsName 参数不一致,则会查找 Manager 中是否有其他 Descriptive Name 匹配的 ini

7. 如果有则默认使用该 ini 文件,否则显示以下对话框,提示添加 ini 文件:

(INI_8)

Tageditor 选择 ini 文件时的处理流程如下,此流程是笔者的经验总结,不保证绝对准确,仅供参考:

(INI_9)

四、在打开 TTX 文件时,如果使用的 ini 文件与生成该 TTX 文件时使用的 ini 文件不同,是否会影响现有 TTX 文件的格式?

不会影响,即使使用用于 XML 的 ini 文件打开由 HTML 转成的 ttx 文件,也不会改变原有格式。我们可以用记事本打开 TTX 文件,其中的一段内容如下所示:

(INI_10)

可以看到使用 标注的部分在 Tageditor 中显示为 tag,而 中标注了 Style="external" 的会显示为外部 tag。也就是说在使用 ini 将 HTML 等文件转成 TTX 文件时,实际上就是加入这些标注,而在打开 TTX 文件,ini 文件并不起作用,Tageditor 只是按照原有的标注进行显示,而不会按照当前选择的 ini 文件形成新格式的 TTX 文件。

但是,当保存该 TTX 文件时,会将当前选择的 ini 的信息写入 TTX 文件,而这个 ini 文件并不一定与最初使用的 ini 文件一致。

五、为什么每次在 Tageditor 中打开 HTML 文件,总要显示以下对话框,提示选择 ini

(INI_11)

这是因为 Manager 中存在多个 DOCTYPE 为 HTML 的文件,根据项目需要保留其中的一个 ini,将其他移除,下次就不会询问,而直接使用保留的那个 ini 文件打开 HTML 文件。

六、我已经将某个 ini 文件从 Manager 中移除,为什么打开某个 TTX 文件后,发现该 ini 文件又被加载到 Manager 中?

对于由 HTML 或 XML 等文件转成的 TTX 文件,其中会保存所使用的 ini 文件的信息,具体来说,会在SettingsPath 参数中保存 ini 文件的路径,在 SettingName 参数中保存 ini 文件的 Descriptive Name。打开 TTX 时,会按照这些信息,查找上次使用的 ini 文件,如果找到且 SettingName 与该 ini 文件的Descriptive Name 匹配,则会使用该 ini 文件,即使它不在 Manager 中,也会将其加载进来。另请参见问题 三。

七、在进行 Analyse(字数分析)、Translate(预翻译)和 Cleanup(清除原文)时需要 ini 文件吗?

ini 文件只应用于 HTML 或 XML 等标记语言文件。在对此类文件进行 Analyse 和 Translate 时,需要使用 ini 文件,而其他格式的文件(如 RTF)则不需要。另外,实践经验表明,进行 Cleanup 时似乎不需要使用 ini 文件,还有待确认。

八、在 Workbench 打开的 Manager 与在 Tageditor 中打开的 Manager 是同一个 Manager 吗?

Trados Workbench 的 DTD 在如下位置设置:Options > Translation Memory Options > Tools。应该说,通过 Workbench 打开的 Manager(简称 Mananger1)与通过 Tageditor 打开的 Manager(简称 Manager2)即相互关联又有所区别。一般在打开 Workbench 时,其 Manager1 的设置与 Manager2 中的一致,而且如果修改了 Manager2 的设置,则下次启动 Workbench 时,Manager1 也会随之而改变。一般来说,Manager 1 用于 Analyse(字数分析)、Translate(预翻译)和 Cleanup(清除原文)等批处理操作,进行批处理前,可在上述三个对话框中选择 Option->Translation Memory Options,点击 DTD Settings 来修改 Manager1;而 Manager2 用于对在 Tageditor 中打开的标记语言文件进行格式处理,将其转成 TTX 文件。

九、在进行 Analyse(字数分析)和 Translate(预翻译)处理时,Workbench 如何选择 ini 文件?

批处理中选择 ini 的原则与在 Tageditor 中选择 ini 的原则 一致,即所选择的 ini 文件,其 DOCTYPE 应与要处理的文件的 Root Element 一致。

列表中可能会包含多种类型的 ini 文件,也可能包含多个同一类型的 ini 文件,具体的选择规则如下:

①从 DTD Settings Manager 列表中选择适用的 ini 文件,如果同时有多个 ini 文件适用,则使用第一个 ini 文件;

②如果没有适用的 ini 文件,则使用已设置的默认 ini 文件;

③如果即没有适用的 ini 文件,也没有默认的 ini 文件,或者列表中没有任何 ini 文件,则跳过处理文件,同时在 Log 中写入错误消息。

因此,在对标记语言文件进行批量处理时,应检查 Workbench 中的 DTD Settings Manager 列表,确保存在要使用的 ini 文件,如果有多个适用的 ini 文件,应确保要使用的 ini 文件在列表中位于其他适用的 ini 文件之前。对话框中没有提供调整 ini 文件顺序的按钮,如需要,可通过 Add 和 Remove 按钮间接调整或将不需要的其他 ini 暂时移除(不会将实际的 ini 文件删除)。

十、 校对人员在打开 TTX 文件时,总是会弹出要求指定 ini 文件的对话框,怎样解决?

有关打开 TTX 文件时 Tageditor 如何选择 ini 文件,请参见“问题三”的解答。

以下情况可能会导致出现此类问题:

· 翻译人员使用的 ini 文件正确,但校对的 Manager 中没有同一 ini 文件、也没有其他匹配的 ini,并且翻译人员所用的 ini 所在的路径与校对人员的不同(如果校对人员的机器上存在该 ini 文件)。请参加问题三

· 翻译人员使用了错误的 ini 文件

解决办法:

· 校对人员在 Manager 中添加要使用的 ini 文件

· 提示翻译人员使用正确的 ini 文件

(以上提到的翻译人员和校对人员仅是使用常规的翻译流程来举例说明,所述内容并不仅限于文中所列情况,比如有的客户会提供生成后的 TTX 文件,或者由 PM 生成 TTX 文件,而不是由第一手的翻译人员来生成 TTX 文件。)

十一、在项目中如何正确地使用 ini 文件?

1. 首先要根据客户需求明确所要使用的 ini 是 Trados 默认的 ini 文件,还是客户指定的 ini 文件

2. 执行 Analyse 或 Translate 时,会默认使用第一个合适的 ini 文件,因此,应确保要使用的 ini 文件在 Manager 列表中位于其他适用的 ini 之前。比如要对 HTML 文件进行分析或预翻译,如果 Manager(在 Workbench 中通过 Options > Translation Memory Options > Tools 来访问)中有多个适用于 HTML 文件的 ini 文件,请确保要使用的 ini 文件位于其他适用的 ini 文件的上方,或者将其他适用的 ini 文件暂时移除

3. 在翻译标记语言文档前最好将其他同类 ini 文件移除,只保留要使用的 ini 文件,比如翻译 HTML 文档,如果客户提供了 ini 文件,最好将此 ini 文件添加到 Manager,并将其他用于 HTML 的 ini 文件暂时移除,这样在翻译和校对时就不会弹出对话框来要求选择 ini 文件。

4. 项目结束前可对 ini 的使用情况进行检查,方法是使用 Search and Replace 都一类的工具在包含所有 TTX 文件的目录中查找字符串:SettingsName="xxxxxx",其中 xxxxxx 为要求使用的 ini 文件的 Descriptive Name(描述名称)。如果搜索到的匹配数与文件数相同,则可大致认为没有 ini 使用错误。