Watson検索システムの作り方・応用編
~Discoveryと連携可能なKnowledge Studioとは?~

前回の記事では、Discoveryを使用して、検索システムを作成していきました。

今回は、Discoveryのみを使用して検索システムを作成する際に、課題となる点、そしてそれを解決できるKnowledge Studioというサービスの使い方の概要を書いてみました。

IBM WatsonシリーズのWatson AssistantやDiscovery以外のサービスも触ってみたいという方にもおすすめの記事かもしれません。



ぜひ、読んでみてください。

目次

検索システムを作成できるDiscoveryのおさらい

Discoveryは、大量のデータを検索して適切な意思決定を支援してくれる、クラウド型情報検索エンジンのことです。

機能としては、主な機能が①クローラー機能(データの取り込み)②フィールドの識別(文章がどのフィールドに相当するかの注釈付け)③エンリッチ機能(文章に情報を付与)④クエリ機能(実際に検索してみる)となっており、この4ステップを順番にこなしていけば検索システムが作成できます。

Discoveryについてもっと詳しく知りたい方は、こちらをご覧ください。

Discovery

Discoveryの弱点を補うKnowledge Studio

便利なDiscoveryですが、このサービス単体で検索システムを作成したときには一つ弱点があります。

それは、「業界特有の用語を扱った文章を検索システムに取り込む場合、検索精度を高めるのが難しい」ということです。

Discoveryのみでは、NLU(自然言語処理)しか搭載されておらず、業界固有の表現を読んでも、理解するのが厳しいことが多いです。

一方で、今回ご紹介するKnowledge Studioを使えば、業界固有の表現も扱うことができます。

Knowledge Studioでできること

そもそもKnowledge Studioとは、特有の表現を覚えさせることができるサービスで、Discoveryとも連携が可能です。

Knowledge Studio

Discoveryとの連携手順については、下記の「Discoveryと連携するまでの大まかな流れ」で記載しますが、基本的にKnowledge Studioで教師データを作成・学習し、Discoveryと連携させて業界固有の表現でも対応可能な検索システムが構築できるという流れです。

Discoveryと連携するまでの大まかな流れ

ここで、DiscoveryとKnowledge Studioを連携するまでの流れを紹介していきます。

タイプシステムの設計

まず、エンティティー・タイプの設計を行います。「エンティティー・タイプ」とは「個々の事物(エンティティー)を、データベース上で適切に表現が可能になるよう、抽象化・類型化したもの」を指します。

例えばMONEYというエンティティー・タイプがあった場合、その中には、money(金), award(賞金)といったエンティティーが入るような形です。

エンティティーに関しては、弊社のチャットボット「FirstContact」の記事でも紹介しておりますので、チェックしてみてください。

エンティティー・タイプの入力は、外部からデータで取り込むことも可能ですし、自分で打ち込んで作成していくことも可能です。

辞書の取り込み

ここでは、品詞を設定することができます。

例えばMONEYならNoun(名詞)を設定するといった作業です。

こちらもエンティティー・タイプの入力同様に、外部からデータを取り込むことも可能ですし、自分で打ち込んで作成していくことも可能です。

文書のアップロード

アノテーションが必要な文書をアップロードします。アノテーションとは、文章に注釈付けを行うことです。

アノテーションセットの作成

3段階でセットを作成していくことが可能です。


1段階目:Mention機能を使う

Mention機能では、文章にラインをひっぱっていく形で文章中の言葉のエンティティー・タイプを注釈付けしていくことができます。

mention

2段階目:Relation機能を使う

Relation機能では、言葉と言葉の関係性を注釈付けしていくことができます。

relation

上の画像を例にすると、「里地里山の中核をなす全国の二次林を分析した結果」という文では、「二次林」は「里地里山」の中にあるため、「二次林 is located at 里地里山」という関係になります。


3段階目:Conference機能を使う

Conference機能では、言葉と言葉が同義語であることを注釈付けしていくことができます。

conference

上の画像を例にすると、一文目「里地里山におけるふれあい活動」と「自然観察」は、「里地里山におけるふれあい活動」の中に「自然観察」が入っている、よって「里地里山におけるふれあい活動」≒「自然観察」となるので、同義語という注釈付けをしました。“#数字”で数字が同じもの同士が、同義語というタグ付けがされているものです。

モデルトレーニング

これまでアノテーションしてきたものを学習させる作業です。

希望のデータのみを選んで学習させることができます。

Discoveryと連携

Knowledge Studioから出力したトークンを、Discoveryのエンリッチ機能設定画面を開いて該当場所に貼り付けることで連携が完了します。

[PR] Discovery対応の検索サービスなら「FirstSearch」

FirstSearch

FirstSearchの特色

検索システムをWeb上で実用化するなら弊社「FirstSearch」がおすすめです。

・Discoveryの各機能に対応

・ご要望・業務内容に応じたカスタマイズに対応ができる

・姉妹製品「FirstContact」との連携可能

今なら初月の月額費が無料!

なんと初月無料で検索システムをご利用可能です! この機会にぜひお申し込みください。

FirstSearchの無料トライアルのお申し込み