機械翻訳尺度METEORについて
機械翻訳の自動評価尺度にはいろいろなものがあります。
代表的なBLEUを始め、RIBESやMETEORなどがあります。
評価尺度のうちの1つであるMETEORについて文献を軽く読みました。
その内容について、簡単にまとめたものです。
Workshop on Statistical Machine Translation, pp.228–231, 2007
参照訳と出力のユニグラムの合致数をもとにした評価尺度です。
ユニグラムの適合率と再現率および、どれくらい並びが参照訳と似ているかを計算します。
文単位の評価手法です。
しかし、1つの評価尺度だけで、機械翻訳の評価をするのは厳しいです。(それぞれの評価尺度が評価しやすい項目と苦手な項目があるためです。)
METEORは人手評価との相関が高くなるような評価手法です。
BLEUは再現率を直接考慮したものではないかわり、短い文に対してペナルティを加えています。
そこらへんを含めて、METEORは良い評価軸を求めます。
参照訳が複数ある場合は一番スコアの高い物を出力します。
ワードネットの同義語を使ったり、ステミングをしたもの(語形変化)を候補とすることもできます。
F値(適合率と再現率の調和平均)を用います。
単語単位で適合率および再現率を計算します。
なお、文献中では適合率1:再現率9となっています。
ペナルティを計算します。
正解の単語列が続かない場合にペナルティが大きくなります。
最終的なMETEORスコアはF値とペナルティを用いて、下記のように表されます。
人の評価との相関を確認します。
(精度や再現率はMETEORの一部です。)
他の評価尺度よりいいですね。
現時点では、人手で良い感じのものを決め打ちです。
同義語以外の意味的な関連性を評価に落とし込みます。
いろいろな参照訳をうまく使う方法も考えないといけないです。
日英翻訳では、システム評価に利用出来そうです。
代表的なBLEUを始め、RIBESやMETEORなどがあります。
評価尺度のうちの1つであるMETEORについて文献を軽く読みました。
その内容について、簡単にまとめたものです。
An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments
文献情報
Satanjeev Banerjee, Alon Lavie, METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Proceedings of the SecondWorkshop on Statistical Machine Translation, pp.228–231, 2007
概要
METEORという機械翻訳尺度の提案です。参照訳と出力のユニグラムの合致数をもとにした評価尺度です。
ユニグラムの適合率と再現率および、どれくらい並びが参照訳と似ているかを計算します。
文単位の評価手法です。
なぜMETEORか?
人手評価から自動評価尺度BLEUへと変わったことにより、機械翻訳システムの評価が容易になりました。しかし、1つの評価尺度だけで、機械翻訳の評価をするのは厳しいです。(それぞれの評価尺度が評価しやすい項目と苦手な項目があるためです。)
METEORは人手評価との相関が高くなるような評価手法です。
BLEUは再現率を直接考慮したものではないかわり、短い文に対してペナルティを加えています。
そこらへんを含めて、METEORは良い評価軸を求めます。
METEORとは?
BLEUの弱いところに勝つような自動評価尺度を目指します。参照訳が複数ある場合は一番スコアの高い物を出力します。
ワードネットの同義語を使ったり、ステミングをしたもの(語形変化)を候補とすることもできます。
F値(適合率と再現率の調和平均)を用います。
単語単位で適合率および再現率を計算します。
なお、文献中では適合率1:再現率9となっています。
ペナルティを計算します。
正解の単語列が続かない場合にペナルティが大きくなります。
最終的なMETEORスコアはF値とペナルティを用いて、下記のように表されます。
評価
アラビア語-英語翻訳と中国語-英語翻訳で評価します。人の評価との相関を確認します。
(精度や再現率はMETEORの一部です。)
評価尺度 | 相関 |
---|---|
BLEU | 0.817 |
NIST | 0.892 |
適合率 | 0.752 |
再現率 | 0.941 |
F1 | 0.948 |
Fmean | 0.952 |
METEOR | 0.964 |
今後
ペナルティをデータから決める必要があります。現時点では、人手で良い感じのものを決め打ちです。
同義語以外の意味的な関連性を評価に落とし込みます。
いろいろな参照訳をうまく使う方法も考えないといけないです。
おわりに
METEORの日本語用類語辞書が無さそうなので、複数表現を考慮した日本語の評価は難しそうです。日英翻訳では、システム評価に利用出来そうです。