かんちゃんの備忘録

プログラミングや言語処理、ガジェットなど個人の備忘録です。(メモ書き+α)

言語処理

MeCabの使い方の備忘録

Sansan Advent Calendar 2018 の1日目の記事です。 いつもお世話になっているMeCabについての備忘録です。 インストール、辞書、辞書整備、Pythonやシェルでの取り扱いまで、使い方をまとめます。 マニュアル読めば分かるよ!というかたは公式マニュアルが充…

会社の勉強会で話しました

7月18日に自社開催の勉強会で登壇しました。 記事を書こうと思っていたのですが、気がつくと1ヶ月ほど経っていました。。。 (すぐに書こうと思っていたはずなのに、ボーッとしていた) 勉強会で話したことや感想を書きます。 「自然言語処理(NLP)領域に関わっ…

系列ラベリングの素性抽出

系列ラベリング問題を取り扱う際の素性抽出が、いつも複雑になりがちなので、テンプレートを書いてサクッと抽出できるよう整理しました。 どんな素性を抽出したいか 固有表現抽出を例にあげます。 以下の表は、「午前8時に東京駅で集合する。」という文を形…

日本語教育学会の特別講演を聴講してきた

大学時代の恩師が講演すると聞いて、5月20日に早稲田大学で開催される日本語教育学会の特別講演に出向いた。 講演のタイトルは「日本語教育の現代的可能性を拓く:人工知能との対話」。 その感想を備忘録として書き留めておく。 なぜ日本語教育と人工知能? …

NaiveBayse、SVMによる文書分類を試す

NaiveBayesによる文書分類、SVMによる文書分類を試しました。NaiveBayse, SVMによる文書分類フィードフォワードニューラルネットワークで文書分類ソースコードNaiveBayse, SVMによる文書分類文書分類とは与えられた文書をあるカテゴリに分類することです。 …

機械翻訳尺度METEORについて

機械翻訳の自動評価尺度にはいろいろなものがあります。 代表的なBLEUを始め、RIBESやMETEORなどがあります。評価尺度のうちの1つであるMETEORについて文献を軽く読みました。 その内容について、簡単にまとめたものです。An Automatic Metric for MT Evalua…

辞書整備は大変だ

言語処理の単語解析器を支える解析用「辞書」の整備は大変です。 後輩とああだこうだと議論しています。そもそも「辞書」とは例えばどんな記述か。辞書整備の難しさ完璧な辞書はないよ想定外のことが起きまくるでは、どうしましょうそもそも「辞書」とはここ…