Category Archives: 研究ブログ

技術解説

研究ブログ

自然言語処理

非エンジニア向け

【自然言語処理入門】日本語ストップワードの考察【品詞別】

日本語wikipediaにおける単語の出現頻度のパレート図

ストップワードの除去は自然言語処理やテキストマイニングにおける重要な作業です．
解析の精度を上げるために不要な記号や単語を等をデータセットから除去します．
ストップワードの選定にはタスクに特化した分析が必要ですが，ある程度整理されているデータがあるととても助かります．
そこで，今回は私が自然言語処理のタスクでよく行う，日本語のストップワードについてまとめました．
また単語の分布などから，品詞ごとのストップワードに対する考察も行いました．
このことからストップワードを介して自然言語処理のあまり語らることのない知識などをご共有できればと思います．
（この記事の考察部分は主に自然言語処理の初心者を対象とした入門記事です．）

関連記事はこちら

研究ブログ

【研究】日経新聞さんの記事作成AIを6時間で作れるかチャレンジしてみた(完全自動「決算サマリー」をみて)

言語処理な皆さん、こんにちは。CROの副島です。
1月25日、日経新聞さんに掲載されていた「AIで自動的に決算から記事を作成する」というのが、自然言語処理の勉強になるということで、6時間（約半日）でどこまで行けるか、実行してみました。
また、個人的に「経営の意思決定」に必要な情報として「営業利益、経常利益、売上高の昨対実数」を収集したかったのでそれもかねて。
(more…)

関連記事はこちら

研究ブログ

【研究】連載：技術的側面からの検索エンジンの考察 ~第２回テキストマイニングの基本的手法（TF-IDF、LSI、LDA)~

第１回では、テキストマイニングの前段階となる形態素解析の仕組みから形態素解析を用いた行列化（BoW）などの基本事項について説明致しました。第２回では、行列化したテキストデータからどのように知見を取り出すかという話ができればと思います。
(more…)

関連記事はこちら

研究ブログ

【研究】技術的側面からの検索エンジンの考察 ~第1回　テキストマイニングの基本中の基本、形態素解析とBOWとは~

「検索エンジンのアルゴリズムを技術的に紐解いてみたい」というモチベーションで、当連載を始めることにしました。

とはいえ、中々これは壮大な取り組みになります。先がどうなるかわからないです。しかし、なにごともとにかく触れてみるやってみる、すなわちハンズオンが重要です。

そのため、初期の三部作だけ予告して、連載を始めてみたいと思います。
(more…)

関連記事はこちら