かんちゃんの備忘録

プログラミングや言語処理、ゲームなど知的好奇心のための備忘録(個人の感想)です。

機械翻訳尺度METEORについて

機械翻訳の自動評価尺度にはいろいろなものがあります。
代表的なBLEUを始め、RIBESやMETEORなどがあります。
評価尺度のうちの1つであるMETEORについて文献を軽く読みました。
その内容について、簡単にまとめたものです。

An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments

文献情報

Satanjeev Banerjee, Alon Lavie, METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Proceedings of the Second
Workshop on Statistical Machine Translation, pp.228–231, 2007

概要

METEORという機械翻訳尺度の提案です。
参照訳と出力のユニグラムの合致数をもとにした評価尺度です。
ユニグラムの適合率と再現率および、どれくらい並びが参照訳と似ているかを計算します。
文単位の評価手法です。

なぜMETEORか?

人手評価から自動評価尺度BLEUへと変わったことにより、機械翻訳システムの評価が容易になりました。
しかし、1つの評価尺度だけで、機械翻訳の評価をするのは厳しいです。(それぞれの評価尺度が評価しやすい項目と苦手な項目があるためです。)
METEORは人手評価との相関が高くなるような評価手法です。
BLEUは再現率を直接考慮したものではないかわり、短い文に対してペナルティを加えています。
そこらへんを含めて、METEORは良い評価軸を求めます。

METEORとは?

BLEUの弱いところに勝つような自動評価尺度を目指します。
参照訳が複数ある場合は一番スコアの高い物を出力します。
ワードネットの同義語を使ったり、ステミングをしたもの(語形変化)を候補とすることもできます。
F値(適合率と再現率の調和平均)を用います。
単語単位で適合率および再現率を計算します。
なお、文献中では適合率1:再現率9となっています。

ペナルティを計算します。
正解の単語列が続かない場合にペナルティが大きくなります。

最終的なMETEORスコアはF値とペナルティを用いて、下記のように表されます。

評価

アラビア語-英語翻訳と中国語-英語翻訳で評価します。
人の評価との相関を確認します。
(精度や再現率はMETEORの一部です。)
評価尺度 相関
BLEU 0.817
NIST 0.892
適合率 0.752
再現率 0.941
F1 0.948
Fmean 0.952
METEOR 0.964
他の評価尺度よりいいですね。

今後

ペナルティをデータから決める必要があります。
現時点では、人手で良い感じのものを決め打ちです。
同義語以外の意味的な関連性を評価に落とし込みます。
いろいろな参照訳をうまく使う方法も考えないといけないです。

おわりに

METEORの日本語用類語辞書が無さそうなので、複数表現を考慮した日本語の評価は難しそうです。
日英翻訳では、システム評価に利用出来そうです。