世の中をより効率的に。
シンプルに。
自然言語処理技術を活用した
テクノロジーで。

DATA SCIENCE & TECHNOLOGY
ARTIFICIAL INTELLIGENCE
NATURAL LANGUAGE PROCESSING

SCROLL

MIERUCA API

APPLICATION PROGRAMMING INTERFACE

自然言語処理・機械学習アルゴリズムの提供/R&D活用支援
(企業様との共同研究・R&D、貴社製品への組み込み)

CMS提供企業様や大量クライアント保有企業様向けに、ミエルカで培ってきた自然言語処理・機械学習の技術をつかった、 文章解析/生成/推薦アルゴリズムのAPI提供をしています。自然言語処理・機械学習(人工知能)の機能を自社サービスに 取り入れたい企業様に最適です。

■運用の流れ

  1. : ヒアリング及び見積
  2. : 見積、貴社向けカスタマイズ
  3. : APIご提供

Relative word picker

WEBコンテンツ拡張アルゴリズム

コンテンツと関連する重要ワードを自動で提案します.

SEE DETAILS

Needs extractor

ニーズワード抽出アルゴリズム
「ニーズミエルカ」

大量の文章からニーズを含む文章を抽出し ます.アンケート結果やWebページなどか ら,どのようなことが求められているかを 抽出できます.

SEE DETAILS

AI Article Recommend

関連ページ推薦アルゴリズム
「リンクミエルカ」

サイト回遊率を増やす手助けをします.AIが 自動で,サイト内のページから関係のあり そうで踏んでくれそうなページへのリンク を提案します.

SEE DETAILS

Copipe Checker

コピーコンテンツアルゴリズム
「コピペチェッカー」

Web上のコピーコンテンツを監視し検知し ます.自社のコンテンツが真似されていな いか,ライターがコピペで記事を作ってい ないかが判定できます.

SEE DETAILS

Keyword picker

テキスト解析モジュール
「ミエルカ重要単語抽出」

WEBページやアンケート情報から重要そう な単語を抜き出します.

SEE DETAILS

Proofread

文章校正支援ツール
「アヤマリミエルカ」

Webコンテンツなどの日本語の文章から, おかしな場所を自動で指摘します.コンテ ンツの校正やあまり使われない表現の抽出 などに使えます.

SEE DETAILS

Text summarizer

文章自動要約モジュール
「ミジカクミエルカ」

文章から重要箇所を抽出します.コンテン ツの見出し作成やテーマ決め,リンク文生 成などに使えます.

SEE DETAILS

Associate Search

関連語探索ツール
「アソシエイトサーチ」

人間的な発想で語を拡張します.テーマの 拡張や関連語の発掘,リコメンドエンジン のコアなどに使えます.

SEE DETAILS

Needs auto generation

質問文自動生成
「シツモンツクルカ」

キーワードからそれっぽい質問文を生成し ます.キーワードについて,どんな悩みが あるのかなどの分析に使えます.

SEE DETAILS

上記APIのお問い合わせはこちらから

CONTACT

MIERUCA

CONTENT MARKETING

FaberCompanyは、ミエルカで培った
自然言語処理
技術をモジュール化して、
他のソフトウェアやハードウェアへの提供をAPI形式で行っています。

SEOコンテンツマーケティングツール「ミエルカ」

人工知能(AI)の一分野である「自然言語処理」を応用し、検索ユーザーのニーズを抽出・分析、評価されやすいコンテンツづくりを的確に支援するWebマーケティングツール。クラウド上で「自社サイトの改善すべきページの抽出」「ライバルサイトとの差異の発掘」など、主にWebコンテンツ改善に活用できる機能が豊富。

SEE DETAILS

MIERUCA ミエルカ

MIERUCA HEAT MAP

ミエルカサービスでは、ミエルカヒートマップという
ユーザー行動解析ツールも併せて提供しております。

ミエルカヒートマップは、サイト流入後の来訪ユーザーの行動を可視化し、WEBサイトのボトルネックをわかりやすく色分けで判別する事が可能なサービスです。
無料からお試しすることができ、リリース依頼数千のお客様にご活用いただいております。

SEE DETAILS

ARTIFICIAL INTELLIGENCE MEDIA

ミエルカAIメディア

人工知能・機械学習・自然言語処理周辺の技術情報のメディアを運営しています。

基礎的な技術の解説から、ビジネス応用まで様々な方に向けて記事を展開しています。

SEE DETAILS

ミエルカAIメディア

【品詞別】日本語のストップワード辞書・正規表現とその考察【自然言語処理】

執筆:内野良一 自然言語処理の各タスクで前処理としてストップワードの除去があります. 解析の精度を上げるために不要な記号や単語を等をデータセットから除去します. ストップワードの選定にはタスクに特化した分析が必要ですが,ある程度整理されているデータがあるととても助かります. そこで,今回は私が自然言語処理のタスクでよく行う,日本語のストップワードについてまとめました. また単語の分布などから,品詞ごとのストップワードに対する考察も行いました. このことからストップワードを介して自然言語処理のあまり語らることのない知識などをご共有できればと思います. (この記事の考察部分は主に自然言語処理の初心者を対象としています.) 目次 自然言語処理・ストップワードとは 分析の対象 単語の分布に対する考察 品詞ごとに考察 便利な正規表現 おわりに 自然言語処理・ストップワードとは 自然言語処理 小学館の『日本国語大辞典 第二版』には見出し語として50万語ほど記載されているそうです. コンピューターで言語を処理する際には,それを符号化する必要があります. 我々が普段使用する英語や日本語などの言語は自然言語と呼ばれ,それをコンピューターで処理することを自然言語処理といいます. 単語の数値化 自然言語処理では形態素解析やn-gramという手法を用いて文章を単語もしくはある単位に分割します. その分割された単位に通し番号(インデックス)を付け単語を数値に置き換えます. そのため,単語は「単語とインデックスの関係を記述した辞書」を介して数値化されます. この数値を元に分析などの処理を行います. ニューラルネットワークに単語を入れる際には単語自体をベクトル化(エンベディング:Embedding)する必要があります. この方法にはone-hotベクトルの利用やword2vecを用いたベクトル化などがあります. one-hotベクトル もっとも単純な単語のベクトル化手法であります. まず,単語の辞書の要素数分の長さを持つ0で埋め尽くされたベクトルを用意します. 次に,エンベディングするある1単語のインデックスに相当する箇所を1に置き換えます. 以上です. 例として次のような辞書があるとしましょう. りんご -> 0 は -> 1 、 -> 2 美味しい -> 3 。 -> 4 これから「美味しい」のベクトルを得ると以下のようなベクトルが得られます. [0, 0, 0, 1, 0]… Read More »

The post 【品詞別】日本語のストップワード辞書・正規表現とその考察【自然言語処理】 appeared first on ミエルカAI は、自然言語処理技術を中心とした、RPA開発・サイト改善・流入改善レコメンドエンジンを開発.

【技術解説】統計学「頻度主義」と「ベイズ主義」の違いとは【徹底比較】

執筆:内野良一 ベイズ統計学(ベイズ主義)は一般的な統計学(頻度論的統計学,頻度主義)と何が違うのでしょうか. それぞれについての解説は多くありますが,それらの違いについて体系的にまとめた資料がほとんど見つからなかったのでまとめてみました. データサイエンティストや機械学習エンジニアと呼ばれる人でも,これらの違いを説明するとなると戸惑うこともあると思います. 今回はその基礎や歴史的経緯も含め,「違い」に焦点を当てて解説していきたいと思います. 長い記事ですので急ぐ方はページ下部の表に違いをまとめたのでそちらをご参照ください. 目次 統計学 頻度主義(頻度論)とは ベイズ主義(ベイズ統計学)とは 2つの統計学(主義)を比較 まとめ(比較表) 参考文献 統計学  太古の時代から人々は生活にかかわるあらゆる数値を調査し記述してきた.15世紀になると古来から行われてきた単なる数値の記述から発展し,そのデータの性質を要約し解釈する統計学(statistics)へと進化した.集められた大量の数値からなるデータは,平均や分散などの値(統計量)によってその性質を記述することができる.このようにデータの性質を記述していく統計を記述統計(descriptive statistics)(古代統計学)と呼ぶ.19世紀になると集めたデータによって何らかの推測を行おうという動きがみられるようになった.これを推計統計(inferential statistics)と呼ぶ. 記述統計とは  分析の対象について,集めてきたデータから平均や分散などを計算しその性質や特徴を調べようとする統計学である. 記述統計は得られたデータの要約であるため,分析や調査するためには膨大なデータを取得する必要がある. そのため,データの取得に時間的または費用的に大きなコストがかかる場合には不向きであった. 推計統計とは  1921年に遺伝学者で統計学者のロナルド・フィッシャーによって提案された分散分析によって推計統計学が始まる(始まりには諸説あり).  推計統計学では調査対象の全体(母集団)から抽出(サンプリング)してきた限られたデータ(標本,サンプル)を用いることによって母集団についての推定を行う.例えば,日本人成人男性(母集団)の平均身長(変数)を調査したい場合,その全員の身長を測るのは事実上不可能である.  そこで,ランダムに何人かを選び,測ることによってそこから平均身長を推測しようとするのが推計統計である.母集団から幾つかの要素を選んでくることをサンプリングするといい,選ばれた要素の集合を標本またはサンプルという.推計であるため誤差は生じるものの,サンプルサイズ(調査する日本人成人男性の数)を大きくしていくと誤差は少なくなっていく.  また,日本人成人男性と日本人成人女性の平均身長に差があるのかどうかなどを検証することもできる.男女別にサンプリングしてきた2つのサンプル(サンプル数=2)間に統計的な差がないと仮説(帰無仮説)を立て,それらを特徴づける平均や分散などの統計量から,仮説を棄却し差があることを示す.これを(仮説)検定という.サンプル間に有意な差がないのであればその母数についても差がないはずである.この仮説のもとで母数を推定し,それらに差がない確率を求める.この確率が一定の値以下になれば,その確率で差があるということが言える.  推計統計では得られたサンプルが母集団の一部であってもその性質を推定することができるため,現在でも医学や計算経済学などの幅広い分野で用いられている.  頻度主義もベイズ主義も推計統計へのアプローチの仕方,考え方の一つのである.それぞれの違いは確率そのものをどう捉えるかによる. 推計統計へのアプローチ手法  データサイエンスの分野で用いられる現代的な統計学は大きく分けて,頻度論的統計(頻度主義,頻度論)とベイズ統計学(ベイズ主義,ベイジアン)に分かれる. データサイエンティストと呼ばれる人たちはこの2つの分野に精通していることが好ましいが,一般的にどちらかの分野に長けていることが多い. この二つの統計学はやりたいことやそれに対するアプローチが大きく異なっており,好き嫌いが分かれているようだ.  界隈では二つの統計学の生みの親(FisherとBayes)にちなんで,頻度論者(Frequentist)をFisherian(フィッシャリアン,日本ではあまりこの呼び方はされない),ベイズ論者やその手法をBayesian(ベイジアン)と呼ぶ. 頻度主義(頻度論)とは  一般的に統計学と言われたらこれに該当すると言って差し支えないだろう.頻度主義では,観測する事象は何度も繰り返し起こり,そのなかである特定の事象が起こる相対頻度によって確率を定義する.つまり,事象は起こるか起こらないのかのみを考える.確率には事前分布のようないかなる仮説も未知の値も含まれないため客観的である.  長い目で見れば確率分布の母数に対する推定値は大数の法則により真の確率分布の母数の値に収束する.つまり,たくさん試行をするほど確率の推定値は真の確率に近づく.しかし,サンプルサイズが小さい時にはその推定精度は低く信憑性も低い.例えば,目が出る確率が同様に確からしいサイコロを3回だけ振ってたまたま3回とも6が出た場合,このサイコロを振って6が出る確率の推定値は1となり真の値である1/6とは大きくズレが生じる.この場合,サンプルサイズは3であろ,正しい推定を行うのには不十分でったと考えられる.ちなみにサンプルサイズを無限大にしたときには1/6に収束する. 頻度論的な仮説検定  頻度論的な仮説検定では,データをx,仮説をHとしたとき,以下の式を用いて検証する. $$p(x|H)$$ 仮説が正しい場合,既知の確率分布から手元のデータが得られうるのかを,頻度(確率)をもとに検証する. ベイズ主義(ベイズ統計学)とは  ベイズ主義では確率は事象の信憑性を表し,新たなデータが観測されるたびにベイズの定理に基づいて更新されていく.更新される前の確率を事前確率,された後の確率を事後確率と呼ぶ.確率値は事前分布とデータによって導かれる.観測する事象は何度も起こらず観測された限られたデータをもとに推計を行う.推計には事前分布を使用するが,正確にわからない時にはこれを仮定するため,主観的になる.これが頻度論者の批難の的となっている. ベイズ統計的な仮説検定  ベイズ統計的な仮説検定では,データをx,仮説をHとしたとき,以下の式を用いて検証する. $$p(H|x)$$  データがある分布に従っていると仮定し,あるデータが得られた時にそれを証拠として仮説(母数がある値より大きい,または小さい)が成立するかどうかを検定する. 2つの統計学(主義)を比較 推定  頻度主義では手元のデータからその真の確率分布を,母集団のパラメータ(定数)に対する推定(最尤推定)を通して求めたい.パラメータがわかると対象の事象がどのくらいの確率で起こるかが推定できる.  ベイズ主義では事前知識(事前確率)と手元のデータ(証拠)を元に,事後確率のパラメータを求めたい.つまり,手元のデータに最も合うようなパラメータを求めたい.この推定をベイズ推定と呼ぶ.パラメータの確率分布が求まると新たなデータをサンプリングできたり,対象の事象がどのくらいの確率で起こるかが推定できる. サンプルに対する考え  頻度主義において,サンプルは繰り返し得られるものとして,特定の事象の相対頻度から確率を求める.サイコロの6の目が5回続けて出た場合などサンプルサイズが小さな場合にはノイズの影響を受けやすい.そのため,サンプルサイズは大きいことが望ましい.  ベイズ主義において,サンプルは貴重な証拠であり,それを元に近似的な確率分布を求める.サンプルサイズが小さくても事前知識を事前分布として用いることができるためそれなりの推定ができる. 客観性  頻度主義では観測されたデータのみから推論を行うため客観的である.… Read More »

The post 【技術解説】統計学「頻度主義」と「ベイズ主義」の違いとは【徹底比較】 appeared first on ミエルカAI は、自然言語処理技術を中心とした、RPA開発・サイト改善・流入改善レコメンドエンジンを開発.

【技術解説】確率的潜在意味解析(PLSA)のアルゴリズムと応用

執筆:内野良一 今回は潜在意味解析(Latent Semantic Analysis: LSA)を確率的に発展させたトピックモデルの確率的潜在意味解析(PLSA)について解説します. このモデルを使うと潜在的な意味をトピックとして抽出でき,そのトピック内で単語と文書が出現する確率がわかります.主に既存のデータの分析に用いられています. 目次 確率的潜在意味解析(PLSA)とは PLSAのアルゴリズム PLSAの学習 EMアルゴリズム (E-step) EMアルゴリズム (M-step) 過学習の対策 (TEM) LSAとPLSAの比較 PLSAでの分析例 PLSAの応用 PLSAの問題点 参考文献 確率的潜在意味解析(PLSA)とは  確率的潜在意味解析(Probabilistic Latent Semantic Analysis: PLSA)とは,1999年にHofmannらが発表したトピックモデルの代表例である.トピックモデルは,文書は複数の独立した潜在的なトピックから成るものとして,その過程を確率分布を用いてあらわした確率モデルである.  例えば,「車中泊」についての文章は「自動車」や「キャンプ」などのトピックからなると考えられる.「自動車」から単語「車」,「車内」,「座席」が生成され,「キャンプ」から単語「泊まる」,「水」,「自炊」,「寝る」が生成されたとする.その場合「車中泊」についての記事の単語群(BOW)は{車, 車内, 座席, 泊まる, 水, 自炊}となる.トピックモデルでは一般的に語順は考慮されない.この場合に生成される文書の例として「車に泊まるとき,車内で自炊ができるように水を持っていくとよいでしょう.また車内で寝られるよう座席がフルフラットにできる車を選びましょう.」があげられる.実際には「動詞」や「助詞」を表すトピックもここには入っている.  トピックモデルを用いる場合,文章を生成することよりもその単語や文書がどのトピックから生成されたのかに焦点を当てることの方が多い.そのため,先ほど例に挙げた文書を解析し,トピック「自動車」や「キャンプ」などを得たり,トピック「自動車」において「車」や「座席」はどれほど影響を与えるのかなどについて分析を行う. PLSAのアルゴリズム  PLSAのアルゴリズムを解説していく. 用いる記号 単語:$W = \{w_1,w_2,…,w_M\}$ 文書:$D = \{d_1,d_2,…,d_N\}$ トピック:$Z = \{z_1,z_2,…,z_K\}$ 単語と文書の同時確率 $$ \displaystyle \begin{eqnarray} P(D, W) &=& P(D)P(W|D) \\… Read More »

The post 【技術解説】確率的潜在意味解析(PLSA)のアルゴリズムと応用 appeared first on ミエルカAI は、自然言語処理技術を中心とした、RPA開発・サイト改善・流入改善レコメンドエンジンを開発.

メンバー紹介

開発メンバー

副島 啓一

東京大学 工学部 システム創成学科(PSI)卒業。卒業後はITベンチャー畑を 歩み、株式会社SOOL元取締役CMO/SOOL パートナー(現任)。2014年エン・ジャパン社への事業売却を行い、ミエルカの開発に参画。言語解析、クローリングなどを強みとする。

小川 卓

ロンドン大学(UCL)、早稲田大学大学院(化学専攻)卒業。ウェブアナリストとしてマイクロソフト、サイバーエージェント、アマゾンジャパン等で勤務。2015年、当社社外取締役CAO就任(現任)。解析ツールの導入・運用・教育、ゴール&KPI設計、施策の実施と評価、PDCAを社内で回すための取り組みなどを担当。

共同研究者

吉田 光男

豊橋技術科学大学 情報・知能工学系 助教(現任)。2006年に有限会社てっくてっくを創業、2014年より現職。ウェブのコンテンツやユーザの行動に注目し、自然言語処理や計算社会科学に関する研究に従事。ウェブ・SNSの大規模なデータ収集や分析・機械学習を強みとし、人工知能学会・研究会優秀賞など数々の賞を受賞。

顧問・技術アドバイザー

高木 友博 教授

明治大学 理工学部 情報科学科 教授(現任) 。計算型人工知能の世界トップレベルの研究者であると同時に、マーケティングにも詳しい。近年では、言語計算、プロファイリング、ソーシャルデータ解析、推薦エンジン、データドリブンマーケティングなどの研究に従事。