Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

机器翻译自动评估的相关问题 #1

Open
Yesterday17 opened this issue Jun 11, 2018 · 5 comments
Open

机器翻译自动评估的相关问题 #1

Yesterday17 opened this issue Jun 11, 2018 · 5 comments
Labels
good first issue Good for newcomers

Comments

@Yesterday17
Copy link
Contributor

如果说是Python的BLEU的话,其实已经有现有的轮子了:
https://www.cnblogs.com/by-dream/p/7679284.html

但BLEU是对机器翻译的评测,其中需要牵扯到的就是标准答案的提供。BLEU通过和标准答案进行比对,并且加以一定的优化,最后得到一个比率,但汉化资源包的仓库中很大部分是人工翻译,然后……emmm

我个人感觉对于汉化质量可以分成以下几步检测:

  1. 检查汉化文本是否和某一网站的机翻一致。
  2. 如果和机翻一致,则通过LanguageTool进行语法检查。如果语法没有问题则判分。
  3. 对于与机翻不一致的,同样进行语法检测,判定语法问题。如果检查没有通过,则给予与上者相比更低的分值。

但这样仍然无法完全评估汉化的质量,emmm,除非有一个标准答案,但这是几乎不可能的。
所以我在这里展开一个话题,希望找到一个可用的算法(逃

@TartaricAcid
Copy link
Member

我的想法是把现有翻译拆成词典,然后作为标准答案来对比之后的新翻译

@TartaricAcid TartaricAcid added the good first issue Good for newcomers label Jun 11, 2018
@TartaricAcid
Copy link
Member

其实主要目的还是两个:

  • 查出现有翻译中明显机翻的句子
  • 查出翻译中前后不一致的词语

起初想法很简单,词典库中对应翻译,如果新的翻译没有,就标记为翻译中前后不一致的词语
找一些常见机翻词语(比如 Chest 翻译为 胸部)组成机翻库,如果新的翻译中有,就标记为机翻语句
最后交由审核人员审核

@Yesterday17
Copy link
Contributor Author

或者可以反用BLEU,把机翻答案作为标准答案打分,然后分数用1减掉?(

@TartaricAcid
Copy link
Member

是个可行的办法,下次有机会试试

@GreyElaina
Copy link
Contributor

哇两个大佬的讨论

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
good first issue Good for newcomers
Projects
None yet
Development

No branches or pull requests

3 participants