人工知能・機械学習・自然言語処理周辺の技術情報

研究ブログ
2018-04-09

【研究】日経新聞さんの記事作成AIを6時間で作れるかチャレンジしてみた(完全自動「決算サマリー」をみて)

言語処理な皆さん、こんにちは。CROの副島です。
1月25日、日経新聞さんに掲載されていた「AIで自動的に決算から記事を作成する」というのが、自然言語処理の勉強になるということで、6時間(約半日)でどこまで行けるか、実行してみました。
また、個人的に「経営の意思決定」に必要な情報として「営業利益、経常利益、売上高の昨対実数」を収集したかったのでそれもかねて。

■まず、状況確認

◇日経さんの結果
http://www.nikkei.com/article/DGXLRST0477726Q7A120C1000000/

◇元ファイル(決算公告のPDF)

果たして結果は!!!?


■ざっと決算短信を何社が眺めた所、以下のようなパタンが浮かび上がった。

1:決算書は、ある程度構造化(報告内容がある程度決まっている)され、重要項目が決まっている

2:重要項目として、売上・営業利益・経常利益(及びその増減)がまず挙げられる。

3:また、2の理由を補完する「説明文章」は、経営成績箇所や冒頭に出てくることが多い。

■ニュース性記事の構造と要素を把握すると、以下が浮かび上がった。

<構造>
第1パラグラフ:リード文(現状の経営状態を、昨対・数字で表記)

第2パラグラフ:第1パラグラフの理由説明(重要な文章のEXTRACT) + 配当の説明

第3パラグラフ:方向性(今後の方針を、数字で説明)

■それを踏まえて、今回の必要要素を洗い出し

・営業利益、売上等の項目抽出が出来るか?

・リード文のテンプレート作成(これは過去の何パタンものリード文があるのだろう)

・文書を生成し、重要文抽出を実行できるか?重要性をどう判断すればよいか?の検討

・重要な文章とは?を検討
– 公式書面は、たいてい「結論」からはいるので冒頭に着目
– 「しかし、~~~」や「でしたが、~~~」等、逆説の接続しから始まる文節
– 「増収、増益、減収、減益」等、数字の状態を表す言葉
– 「大幅、達成」等の、状態の極端な変化を表す言葉

・一般的な手法のTFIDFは今回合致しないと想定

・重要ワード、文章の抜き出しは、機械学習でやるのが本ケースでは定石っぽかったが、一旦割愛

・読みやすいように、係り受け解析等で、文末の丸め込み

■ざっとここまで洗い出し、3時間で開発を実行

まずまずの結果が出ました。

▼入力(PDFファイル全体を入力)

 

▼出力

======日置電機㈱======
タイトル:日置電機㈱の売上高は16181503(昨対:5.25%減)、営業利益は1352774(34.31%減) 、経常利益は1657086(29.91%減)だった。

前期まで堅調に推移したスマートフォンに代表される電子部品・電子基板等の生産設備への投資が弱いことによる影響が大きく、売上高は前連結会計年度を下回って推移いたしました。このような経営環境の中、当連結会計年度における業績は、売上高181億31百万円(前連結会計年度比6.7%減)、営業利益16億77百万円(同42.0%減)、経常利益16億82百万円(同42.3%減)、親会社株主に帰属する当期純利益11億67百万円(同45.1%減)になりました

日置電機㈱
(自 平成27年1月1日
至 平成27年12月31日)
(自 平成28年1月1日
至 平成28年12月31日)
売上高 19,432,442 18,131,830
営業利益 2,892,374 1,677,490
経常利益 2,914,513 1,682,191
売上高 17,077,535 16,181,503
営業利益 2,059,452 1,352,774
経常利益 2,364,214 1,657,086
—————————

※脚注:
======ここまで=======

 

=====富士通ゼネラル======

タイトル:㈱富士通ゼネラルの売上高は173394(昨対:11.94%減)、営業利益は15938(4.18%減) 、経常利益は14407(12.61%減)だった。

情報通信システムの減収影響をカバーするに至らず、営業利益は159億3千8百万円(同4.2%減)、経常利益は144億7百万円(同12.6%減)となりました。親会社株主に帰属する四半期純利益は、将来発生する可能性のある損失に備え、独禁法関連引当金繰入額を特別損失として計上したことから、27億5千2百万円(同75.6%減)となりましたたが、円高に伴う海外売上高の円貨換算減により、売上は1,554億3千3百万円(同4.5%減)となりました。営業利益は、今後の事業拡大に向けた積極的な先行投資による費用が増加しましたが、販売物量拡大と素材市況の好転など全社的な原価低減効果に加え、円高による海外工場からの輸入コスト減もあり、前年同期を大幅に上回る152億6千1百万円(同67.5%増)となりました

㈱富士通ゼネラル
(自 2015年4月1日
至 2015年12月31日)
(自 2016年4月1日
至 2016年12月31日)

売上高 196,914 173,394
営業利益 16,634 15,938
経常利益 16,486 14,407

======ここまで========

、、、惜しい。

数字を寄せて、丸めればもう少し分かりやすい。

■課題と改善点

1)決算公告のPDFを、テキストに落とす点に改善余地あり
→PDFからテキストに変換することができない決算短信があった。
※画像ファイルに加工し、画像→テキスト加工したが、ドット(123,432万円の”,”)が消えたりして断念。結局、文章の中から要素を抜き出す方針に転換。

 

※追記 20170127
「EDINETのXBRLあたり使ったほうが良いよ。」というご指摘がありました。手早いですね。(人生に無駄な努力はないと信じたいものです。)
https://disclosure.edinet-fsa.go.jp/EKW0EZ0015.html

2)決算速報ニュースの、教師データに改善余地あり(重要
※重要な素性をあらわす言葉を抽出が、ヒューリスティックになってしまった。

3)表記ゆれの場合の、辞書に改善余地あり。

(※今後)係り受けの解析をつかって、その数字根拠のExtract(抽出)が出来るとさらいによい。

■本自動化の意義について

その1:何より素晴らしいのは、「人のチェック、修正」をおこなわず読める文書がリリースされていること。

※「適時開示サイトでの公表後すぐに、売上や利益などの数字とその背景などの要点をまとめて配信します。元データである企業の開示資料から文章を作成し、配信するまでは完全に自動化し、人によるチェックや修正などは一切行いません」と記載されています。

その2:編集、校閲を通しておらず、今後も決算短信の構造がかわらないなら、チューニングのみのコストで、「ほぼゼロコスト」で速報が配信されること。

その3:何より「応用」をきかせれば、例えば経営の意思決定に必要な情報を、カスタマイズして配信できること。
※例)決算短信+過去のニュースで重要な文をアグリゲーションして提供

最後に、日本経済新聞社、言語理解研究所(ILU)、東京大学松尾豊特任准教授研究室の皆さんには、本リリースに付随して、勉強させていただいたことをここに感謝いたします。素晴らしいプロダクトだと思います。

(ご報告)第10回テキストマイニング・シンポジウムに登壇します

  • 2017年 2月 9日 (木)  10:30~17:40 (10:00受付開始)
  • 2017年 2月 10日 (金)  9:00~16:00 (8:40受付開始)


テキストマイニングイベントのリンク先

(報告)
宣伝になりますが、ミエルカヒートマップ<ミニマムプラン>を試せます。ドメイン無制限で使えます。弊社ではデータを活用した、UXを調査してます。
ミエルカヒートマップはこちら

 

関連記事はこちら