かんちゃんの備忘録

プログラミングや言語処理、ガジェットなど個人の備忘録です。(メモ書き+α)

サポーターズ勉強会で文書分類についてハンズオンを行いました

7月31日に「文書分類で自然言語処理に触れる」というタイトルでの講師を行いました。

このような機会をいただき、どうもありがとうございました。

本記事では、題目の理由や講演の振り返りを行います。

「文書分類で自然言語処理に触れる」というテーマになぜ決めたのか

勉強会の講師を行う上で、自分が話すことでよく伝わる題目は何だろうかと、まず考えました。専門が自然言語処理であり、実装が得意であるため、テーマはぼんやりと見え始めました。

ただ、1度の勉強会という時間的制約があります。 その中で飲み込みやすいタスクという観点で、文書分類にしました。

自然言語処理では魅力的なトピックがたくさんありますが、説明や実装が大変です。 新聞や雑誌のカテゴリ分けである文書分類が比較的わかりやすいテーマであり、短時間では最適だと考えました。

そして、講義に一捻り加えたいという思いがあり、得意な実装を反映したハンズオン形式を取り入れました。

どんなことをしゃべったのか

以下がスライド資料です。

以下はハンズオンで使用したJupyter Notebookです。

https://colab.research.google.com/drive/1IMjc-RTesapfNCEh0TPmg_ce_qAcV95b

自然言語処理の概要を紹介し、文書分類の理論の概要に触れました。

実際に紹介した理論を用いた分類器をJupyter Notebookで構築します。 ルールベースによる分類器の作成も体感できます。

発表を振り返って

勉強会の案内ページでは、「こんな方にオススメ」ということで、次の2パターンを対象としました。

今回のハンズオンは、実際に勉強している人にとっては、実装について知ることができ、満足いただけたのではないかと思います。

その反面、自然言語処理に取り組んでみたい人に対しては、説明が足りない部分が多かったのではないかと反省しています。

例えば、教師あり機械学習では学習データとテストデータを分けますが、こういった類の話はしませんでした。

とはいえ、オススメな人を絞りすぎると参加しづらくなりますし、内容を丁寧にしすぎても新しい発見は減りますし、トレードオフかなと感じました。

ご参加いただいたみなさまありがとうございました

ハンズオン形式での講義は初めてでして、つたない部分も多かったです。

今回の勉強会に興味をお持ちいただき、ご参加いただいたみなさまは、どうもありがとうございました。

また、会場の準備や勉強会登壇の機会を与えてくださいましたサポーターズCoLabさんには感謝しております。

勉強会の登壇は積極的に行っていきたいので、みなさまよろしくお願いします。