ICDAR2017に参加した - かんちゃんの備忘録

f:id:kanjirz50:20171119214450j:plain

最近 ~~会社の技術ブログにうつつを抜かし~~ 、個人ブログに投稿できていなかったので、久しぶりの投稿となります。（個人ブログ、少しはがんばろう）

会社スポンサーブース対応および聴講を目的に、京都で開催されたICDAR2017に参加しました。

これまで言語処理系の学会にばかり参加しており、画像系は初めてだったためとても新鮮でした。参加した所感を書き残しておきます。

ICDARとは？

International Conference on Document Analysis and Recognitionの略で、文書の構造解析やOCR関連会議となります。

いくつかセッションをピックアップすると、以下の領域について議論が行われていました。

文字列を利用した画像認識
文字領域認識
文字認識
- 手書き文字
- 印字された文字
- 街中の看板など

特にOCR関係は、アラビア系文字を対象にした研究が多かったです。アラビア系文字は推定が難しく、文字種も多いため研究対象となっています。

研究対象として、古典文書が一つのジャンルになっているようでした。文字の欠けや、そもそもの紙の破れ、透けなど、技術的難しさが混在するようです。

全体的には言語処理と同様に、Seq2Seqで解けるタスク設計をしたり、CNNやLSTMを使って分類問題に落とし込んだりする研究が、どっと行われていました。

雰囲気が良かったことが印象に残っている

ICDAR2017に参加して一番に思い浮かぶ感想は、会場の雰囲気が良かったことです。

特に印象に残っているのが、発表者が質問を受け付ける旨を発表ごとに強調していたことです。これに反応してか、積極的な議論もよく見受けられました。

発表も全体的に、背景と問題意識がわかりやすく述べられており、私としては隣の分野でしたが、わかる部分が多かったです。ソースコードのGithubでの公開や、学会が主となり作成するデータセットなど分野全体での統一感を感じました。

また、チュートリアル講演のサーベイの充実ぶりにはびっくりしました。文書解析・文字認識界隈の流れを知ることのできる非常に良い機会となりました。

f:id:kanjirz50:20171119214512j:plain

強烈なチュートリアル

"Word Spotting - From Bag-og-Features to Deep Learning"というチュートリアルでは、単語切り出しにおいてこれまでのFeatureを作って分類するというモデルから、特にCNNをはじめとするディープラーニングに置き換わっているということを丁寧に説明されていました。それぞれの技術の説明もあり、非常に勉強になるスライドでした。 CNNは特徴抽出のフィルタのようなもので、パラメータ調整はヒューリスティックにも頼らざるを得ないなど、貴重な現場での話が頻出していました。

"GMPRDIA: Graph-based Methods in Pattern Recognition and Document Image Analysis"は、文字認識領域におけるグラフ理論についてのチュートリアルでした。そもそものグラフ理論から始まり、文字認識での応用例が紹介されていました。

ミスタードーナッツが美味しかった学会

f:id:kanjirz50:20171119214537j:plain

ブースでの英語対応に苦戦しつつ、面白い発表を聴講できたいい学会参加でした。

ちょっとつかれた脳みそに補充するティーブレイクのミスタードーナツは、格別に美味しかったです。

ICDARは隔年開催なので、次回は何か原稿を出して発表したいなと思いました。