1. パーソルクロステクノロジーのエンジニア派遣
  2. 【はたラボ】派遣のニュース・仕事情報
  3. IT/Web派遣コラム
  4. テキストマイニングとは?エクセルや無料ツールでのやり方

テキストマイニングとは?エクセルや無料ツールでのやり方

IT/Web派遣コラム この記事は約 11 分で読めます。

ビッグデータの活用において、重要な役割を担うのがテキストマイニングです。テキストマイニングによって、収集したさまざまな文章データから有益な情報を抽出して活用できるようになります。

多くの企業が注目し利用を進めているテキストマイニングとは何か、AIとは何が違うのか? エクセルや無料ツールを使った分析手法について解説します。

テキストマイニングとは

テキストマイニングとは、テキストデータから必要な情報を抽出することの総称です。「自然言語処理」と呼ばれる解析手法を用いて文章を単語に分割し、出現頻度や相関関係を分析して「有益な情報」と判断された文字の抽出を行います。

テキストマイニングのやり方・流れ

テキストマイニングは、一般に下記の流れで行われます。

  1. 自然言語処理で文章を単語ごとに分割
  2. 「使われている同じ言葉はどのくらいあるのか」などのルールをもとに辞書を整理
  3. 共起ネットワークなどから単語の重要度・関連度を分析
  4. 必要な情報を抽出

自然言語処理とは、日本語や英語のような言語(自然言語)を、Pythonなど実用的なテキストデータ(機械言語)にするための処理を指すものです。例えば、「今日の天気は晴れです」という文章を、「今日/の/天気/は/晴れ/です」というように、意味を持つ最小の言語単位に分割します。

自然言語はプログラミング言語とは異なり、言葉のなかに曖昧な部分が多々含まれます。ひらがな、カタカナ、漢字など複数の文字を使用していたり、同じ言葉でも違う意味を持っていたりするものが多い日本語のような言語は、英字のみを利用する英語よりもテキストマイニングが難しいとされています。

テキストマイニングの対象となるデータ

データマイニングの分析対象となるデータには2種類があり、テキストは後者の「定性データ」にあたります。

  • 数値などで表される比較的分析が容易な「構造化・定量データ」
  • 数値で表すことができない「非構造化・定性データ」

テキストマイニングの分析対象となる定性データには、主な次のものが該当します。

  • コールセンターのやり取りの記録
  • アンケート
  • Webサイトの情報
  • SNSの書き込み
  • お問い合わせ
  • 会議の議事録
  • 営業日報

これらさまざまなテキストから付加価値の高い情報を抽出できるテキストマイニングは、人間に工数や負担をかけることなく情報を分析できる手法として、ビッグデータの活用が求められる昨今において注目度が増しているのです。

テキストマイニングとAIの違い

データマイニングやテキストマイニングと混同されやすいものにAI(人工知能)があります。

AIとは「物事を学習できる」「自律的にタスクを遂行できる」など主にデータを人間と同様に処理できるシステムを指すものです。厳密な定義はありませんが、人間と同等の知能を実現させるための方法や取り組みがAIと呼ばれることが一般的です。

身近なAIとして、話しかけるとその内容を踏まえて返事をするスマートフォンやスマートスピーカーをイメージしてみましょう。これはテキストマイニングで活用されている自然言語処理を利用しています。

このように同じ技術を用いていますが、AIとテキストマイニングは異なる概念です。

テキストマイニングはいわば文章の統計のようなもので、それ自体が何かを学習したり、タスクを遂行したりすることはできません。近年ではAI技術を用いて文章をより高度に分析して景気予測などを行う技術も開発されつつありますが、同じものではないことを理解しておきましょう。

テキストマイニングの主な目的とメリット

テキストマイニングにはさまざまな手法があります。

主成分分析 テキストデータの主成分を抽出:
複数の論文から必要な情報を抜き出す、SNSに投稿された膨大なテキストコンテンツから有益な情報を取り出すなどの場面で活用される
センチメント分析 感情をパターン分類:
SNSに投稿された文章を「肯定」「中立」「否定」の3パターンに分類し、選挙予想に活用するなどの場面が想定される
対応分析 データを図解:
リサーチ結果などのクロス集計などを散布図で提示。差異点や類似点の発見に役立ち、競合他社との違いを見える化する際などに利用される
共起分析 単語同士の相関性を分析:
どの言葉が頻出し、どの言葉を一緒に使っていたのかを分析。社内アンケートや面談記録などを分析し、退職者予測や人材発掘に活かすなどの場面で活用される

こうしたメリットから、テキストマイニングはすでに多様な業種・業態にて活用されています。

  • 顧客のニーズを分析する
  • ビッグデータによる将来予測をおこなう
  • 抽出したデータを業務改善に活かす

顧客のニーズを分析する

顧客のリアルな意見が反映されている、お問い合わせ情報やアンケート。これらのテキストデータから有益な情報を抽出し、顧客ニーズを分析します。

「この季節にはこの商品のニーズが高まる」「この年齢層はこのような商品を求めている」など、バラバラに存在していたテキストデータから、要素や属性に紐付いたニーズを発掘。新たな製品・サービスの開発や品質向上、顧客満足度の向上にもつなげていきます。

ビッグデータによる将来予測をおこなう

テキストマイニングは、Twitterの投稿から市場動向の将来予測を行うことなどにも活用できます。

さまざまな属性のユーザーが活用し、日々膨大な量のテキストがアップされるTwitterから、トレンドになりそうな商品やサービスを抽出して新商品・サービスの開発に役立てる、仕入れ量をコントロールするなどのアプローチが可能です。

抽出したデータを業務改善に活かす

テキストマイニングで抽出したデータを共有して、業務改善に活用することもできます。営業日報や会議の議事録、作業報告書など、社内のテキストデータを分析し、業務における課題点を可視化していくアプローチです。

例えば、生産性の高い複数の従業員の作業日報を分析して、ノウハウをナレッジ化することなどが考えられます。属人化している業務もナレッジ化して共有することで、他の従業員も取り組めるオペレーションに変換します。

テキストマイニングの種類

テキストマイニングには、主に次の2つの種類があります。

  • 探索的データ解析:未知の情報や明確な答えのない質問への答えを探すデータマイニング。文章を単語ごとに分割して分析する
  • 文書分類:テキストデータを内容ごとに分類できるデータマイニング

多くの場合、テキストマイニングとは「探索的データ解析」を指しますが、探索的データ解析はテキストマイニングの一種であり「テキストマイニング=探索的データ解析」ではありません。

探索的データ解析

探索的データ解析では、文章を単語ごとに分割して、出現頻度や時系列変化など、さまざまなベクトルから分析を行います。分析初期にデータを理解・可視化するために必要な作業であり、データのモデリングの準備段階で利用されることが多いです。

分析プロセスの一部では、後述するようにエクセルを活用する方法もあります。

文書分類

文書分類では、文章の内容ごとに文書を分類します。このテキストマイニングには「教師あり文書分類」と「教師なし文書分類」の2種類があり、それぞれ利用方法が異なります。

● 教師あり文書分類
外部の情報を参照し、事前にテキストの振り分け先となるクラスとテキストの関係性を学習させた分類器を用いて分類する手法です。事前の学習が分類の精度に影響するため、分類前の学習深度が重要になります。

● 教師なし文書分類
外部の情報を参照せず、文書をクラスタリングによって分類します。この場合はテキストを類似する特徴ごとに分類するのみとなるため、事前学習は必要ありません。

エクセルを使ったテキストマイニング

上述の通り、探索的データ解析のプロセスの一部でエクセルを活用できます。エクセルを取り入れたテキストマイニングの手順は、主に次のような流れです。

文章を最小の言語単位に分割

まずは文章を単語ごとに分割する手順になりますが、エクセルではテキストの分割はできません。「MeCab」などオープンソースの形態素解析エンジンを用いるとよいでしょう。

関数を用いて分割された単語を整理・集計

続いて、「使われている同じ言葉はどのくらいあるのか」など分割された単語を整理します。ここはエクセルが得意とする領域です。下記のような関数を用いて、単語を分類したり、出現頻度を集計・合算したりといった分析を行います。

  • SUM関数:指定したセルの範囲内の数値を合算。特定の単語の出現個数の集計などに用います
  • INDEX関数:指定したセルの値を求める関数です。SUM関数と併用すると、指定した範囲内の合計値を算出できます
  • COUNTIF関数:条件に一致するセルの個数を集計できます。特定の単語を含むセルの個数を求めるなど、テキストマイニングでは重要な役割を担います

ワードクラウドに反映し単語の重要度や関連度を分析

整理・集計された単語の分析結果を、図表として視覚化したワードクラウドに反映し、基礎的な探索的データ解析の一連の流れが完了します。単語の重要度・関連度を分析するにあたり、ワードクラウドは欠かせないものとなりますが、このプロセスもエクセルには不向きです。

ここまでの流れを俯瞰すると、テキストマイニングにおいてエクセルが役立つ領域は、探索的データ解析の一連のプロセスにおける一部でしかありません。そもそもエクセルは文字列データの取り扱いを得意とするアプリケーションではないため、続いて紹介するようなテキストマイニングツールを活用するほうが、多くの場合では有効なやり方となるでしょう。

テキストマイニングの無料ツール3選

テキストマイニングは、エクセルよりも専用のツールを活用するほうが効率的です。無料ツールも複数リリースされているため、用途や目的から選択してください。

ツール名 特徴・できること
AIテキストマイニング Webブラウザ上で手軽に使える。基礎的な分析から図表反映まで対応
KH Coder 豊富な分析機能を有するオープンソース型の無料ツール。チュートリアルも充実
MeCab (和布蕪) 文章を最小の言語単位に分割できる、オープンソースの形態素解析エンジン

AIテキストマイニング

アクセス解析ツールやソーシャル分析ツールを開発する株式会社ユーザーローカルがリリースしている、Webブラウザ上で手軽に使えるテキストマイニング無料サービスです。10,000文字までとなりますがユーザー登録も不要で利用できます。

基礎的な分析機能から図表反映まで対応しており、テキストマイニング初心者でも使いやすいサービスです。

【特徴・できること】

  • 単語の出現頻度を分析
  • ワードクラウドの生成
  • 単語同士の関連性を表す共起ネットワークの図示 など

KH Coder

立命館大学の樋口教授が開発・提供しているテキストマイニング無料ツールです。無料ツールとは思えないほど分析機能が充実しており、抽出語のリスト化はもちろんのこと、共起ネットワーク図示、関連語検索など、豊富な用途に対応。

チュートリアル・使い方ヒントとなるPDFファイルも用意されており、オープンソース型のパッケージのためカスタマイズも可能です。

【特徴・できること】

  • 単語の出現頻度を分析
  • ワードクラウドの生成
  • 単語同士の関連性を表す共起ネットワークの図示
  • 文書を分類するクラスター分析 など
関連リンク:KH Coder

MeCab (和布蕪)

京都大学情報学研究科とNTTコミュニケーション科学基礎研究所の共同研究を通じてリリースされている、こちらもオープンソース型のテキストマイニング無料ツールです。

エクセルでのテキストマイニングのプロセスで紹介した「文章を最小の言語単位に分割」に活用できます。

【特徴・できること】

  • 文章を最小の言語単位に分割
  • 辞書データにない未知語の推定 など
関連リンク:MeCab
まとめ
  • テキストマイニングとは、テキストデータから必要な情報を抽出することの総称
  • 文章を単語に分割し、出現頻度や相関関係を分析して、有益な情報と判断された文字の抽出などを行う
  • テキストマイニングは文章の統計のようなもので、AIのように何かを学習したり、タスクを遂行したりすることはできない
  • テキストデータの主成分を抽出する「主成分分析」、感情をパターン分類する「センチメント分析」、データを図解する「対応分析」、単語同士の相関性を分析する「共起分析」など、さまざまな手法があり、顧客ニーズの分析やビッグデータによる将来予測、抽出したデータの業務改善への活用などに用いられている
  • エクセルを使っての分析も可能だが、対応する領域はテキストマイニングのプロセスのあくまでも一部に限定される
  • テキストマイニングの基礎的な機能を搭載した無料ツールも複数リリースされている

 

 

\ SNSでシェアしよう! /

【はたラボ】派遣のニュース・仕事情報・業界イロハ|派遣会社・人材派遣求人ならパーソルクロステクノロジー |IT・Web・機電の派遣求人ならパーソルクロステクノロジーのエンジニア派遣の 注目記事を受け取ろう

この記事が気に入ったら
いいね!しよう

【はたラボ】派遣のニュース・仕事情報・業界イロハ|派遣会社・人材派遣求人ならパーソルクロステクノロジー |IT・Web・機電の派遣求人ならパーソルクロステクノロジーのエンジニア派遣の人気記事をお届けします。

関連記事

  • ゲームエンジニアとは|仕事内容や必要なスキル・目指す方法4つを紹介

  • フィルターバブルの意味とは?仕組みや問題点・対策をわかりやすく解説

  • メタバースとは|注目される理由やゲーム例・代表的なプラットフォームも紹介

  • R言語とは?主な特徴5つやできること・始め方をわかりやすく解説

  • Rust言語とは?主な特徴3つやできること・始め方をわかりやすく解説

  • OKRとは|意味や目標管理方法を具体例からわかりやすく解説

PAGE TOP