かんちゃんの備忘録

プログラミングや言語処理、ガジェットなど個人の備忘録です。(メモ書き+α)

会社の勉強会で話しました

7月18日に自社開催の勉強会で登壇しました。

記事を書こうと思っていたのですが、気がつくと1ヶ月ほど経っていました。。。 (すぐに書こうと思っていたはずなのに、ボーッとしていた)

勉強会で話したことや感想を書きます。

自然言語処理(NLP)領域に関わっていると避けては通れないあの話」

この壮大なテーマのもと、第1回目となるR&Dの外部向け勉強会を開催しました。 多大なサポートをいただいた人事部のみなさまには本当に感謝しています。

本勉強会で何を話そうか正直結構悩んでいました。 本発表自体も特別すごいアルゴリズムや高度な手法を使ったわけでは無く、割と地味なことに取り組んでいます。 しかしながら、実際にサービスと稼働していることから、実際の開発と運用における話ができると思い、このテーマに決めました。

Eightニュースフィード活性化のための自然言語処理の取り組み

第1回目の1番目に少々緊張しながら「Eightニュースフィード活性化のための自然言語処理の取り組み」について発表しました。

具体的には、ニュース文中に出現する企業のタグ付けアルゴリズムの開発と、アルゴリズムAPI化について紹介しました。

もしかすると、理論を勉強することが目的だった人は、物足りなかったかもしれません。

割と仕組みの概略はわかりやすいのですが、実際に実装すると躓く点を中心に説明しています。 例えば、Webページから本文を抽出したり、企業を特定したりすることです。

アルゴリズムを成立させるために、本文抽出アルゴリズムpython-extractcontentPython3対応させました。

企業辞書と企業特定は、母体となるアプリケーションの都合上、必要不可欠な項目です。 企業特定とは、企業名だけですと同名企業があるため、どの企業かの曖昧さを解消するというものです。

曖昧さ解消は現状困難であるため、今回は候補出しというタスクに変えました.

この曖昧さは、企業辞書がリッチだからこそ起こる問題です。 たとえば業界情報を付与すれば、業界と共起しやすい単語で企業を特定できるのではないか?などいくつかアイデアは浮かびます。 実際取り組もうと思うと、そもそものリソース構築の難しさにやられてしまいます。

そういった難しさや対処について紹介しました。

ご参加いただいたみなさま、どうもありがとうございました。