他のアプローチの限界
多くのソフトウェア企業は、構造化されていない情報の管理するという課題を解決するソリューションを提供すると主張し、あるいはパーソナライズした情報サービスを提供するテクノロジーがあると主張しています。しかし、このようなシステムやアプローチの多くは、特に拡張性やコストの面で厳しい限界があるのです。以下に例を挙げます。
-
キーワード検索またはブール式によるクエリー
情報管理の最も一般的なアプローチは、従来からあるキーワード検索を用いることです。この簡単な方法の場合、ユーザがテキスト フィールドに条件をいくつか入力する必要があります。それを受け、一連のドキュメントを検索して検索条件が含まれるものを結果として返します。
-
コラボレーションフィルタリングまたはソーシャルエージェント
コラボレーション フィルタリングは、ユーザに対してほかのユーザとの類似性に基づいてパーソナライズした情報をコンピュータに推奨させる取り組みです。基本原理はとても簡単です。多数のユーザから得た嗜好情報を基に(一般的には質問リストに回答してもらう、チェックボックスを選択してもらうなどの方法で)、システムは推奨を図ります。
この基本原理を分かりやすく説明するために以下の例を挙げます。ミック、バド、ブラッドという3人のユーザがそれぞれ好きなミュージシャンを3人選ぶように求められたとします。
ミックが好きなミュージシャン
- エルヴィス
- バディ ホリー
- リトル リチャード
バドが好きなミュージシャン
- ジミ ヘンドリックス
- ジェームス ブラウン
- アリーサ フランクリン
ブラッドが好きなミュージシャン
- エルヴィス
- ジェリー リー ルイス
- リトル リチャード
コラボレーション フィルタリングを行うと、コンピュータは結果を比較してミックとブラッドが類似していることを発見し、「ミック、あなたにはジェリー リー ルイスがお勧めです」、「バド、あなたにはバディ ホリーがお勧めです」というように、2人がお互いに好きなミュージシャンの情報を交換できるようにします。
-
手作業でのタグ付け
この20年の間、構造化されていない情報に対応するために解析(またはセマンティック分析や字句解析)という明確な方法を用いて多大な努力が注がれてきました。文法の法則や用語集を適用して明確に文字情報を理解しようとしていたのです。
例を挙げます。
The cat sat patiently on the mat(猫がマットの上にじっと座っていた)=(The cat=主語)(sat=動詞)(patiently=副詞)(on=前置詞)(the mat=目的語)
-
Manual Tagging
エンタープライズ ポータルの急増により、さまざまな形式の情報(ドキュメント、構造化データ、HTML、XML、マルチデータを含む)に対応する分類法を作成することは急務です。手作業でタグ付けする仕組みは、電子文書にラベル付けをする方法として一般的な方法になってきています。しかし、情報管理の効率性を確実に高める上で大きな障害があります。それはコストです。
キーワード検索またはブール クエリー
情報管理の最も一般的なアプローチは従来からあるキーワード検索による方法です。この簡単な方法はユーザがテキスト フィールドに条件をいくつか入力する必要があります。それを受け、一連のドキュメントを検索して検索条件を含むものを返します。
限界
-
前後関係がない
構造化されていないデータを管理する上で最も一般的なのはキーワード検索を用いた方法です。この方法は多くの場合、情報過多となります。検索情報を含むドキュメントを発見しますが、ドキュメントが検索テーマにどれだけ関連性があるかは判断できません。キーワード検索はキーワードの存在だけを探すのであり、検索条件に象徴される概念がドキュメントの本旨に関連するかどうかを判読できないのです。
またキーワードを使ったアプローチは、ドキュメントの中でキーワードが多く出現するほどそのドキュメントが検索に関連する可能性が高いと誤判断される場合があります。このような場合、必ずしも関連性が高いとはいえません。次のフレーズについて考えてみます。「私は先日の夜、通りを歩いていた。それは長い通りでとても暗い通りだった。そして通りの突き当たりで強盗に襲われた。」「通り」という言葉が何度か使われているものの、これは犯罪について書かれたフレーズなのです。 -
不正確
非効率的なコンピュータの語学力、キーワード定義、タグに依存すると、不正確な結果をもたらす上に、通常は、導入と維持に高いコストがかかります。構造化されていない情報があらゆる分野の市場に提起している課題に対応するソリューションとしては拡張性に欠けており、そのようなソリューションは導入できません。
-
手作業
キーワード検索エンジンは、いくつかの単語を探す以上の複雑な作業はしません。バックエンドでは手作業が多く、キーワードの関連性や「トピック」を人が常に管理して更新する必要があるのです。
-
ユーザの関与の必要性
キーワードのメソドロジーは、エンドユーザが高度な知識を持ち、極めて複雑で具体的な言葉でクエリーを作成(ブール方式とも呼ばれる)することに大きく依存します。たとえば「CD AND (NOT (金融 OR 金銭 OR 投資*) AND 音楽)」など。
-
学習しない
キーワード検索エンジンは、使用を通して「学習」することができません。また、犬という言葉についてのクエリーがあった場合、ユーザの指定がない限り、犬という入力に対して求められている情報が四つ足のふわふわした牧羊犬を指していることを認識できないのです。
さらにキーワード検索システムにとって、例を表示されることで何かを見つけることは非常に困難です。通常「もっとこういう感じのもの…」を探す機能は、例となるドキュメントの中で最も多く使われている表現に基づいて単にクエリーのキーワード数を増やすだけです。この結果、ユーザが求めるように的を絞るのではなく、さらに多くのドキュメントを表示してしまうのです。
オートノミーのアプローチ
オートノミーの概念の照合テクノロジーは、簡単なキーワードを照合する替わりに概念を照合することでこれらの問題を回避します。もちろん、通常のブール テキスト クエリーを実行することも可能です。
オートノミーは検索条件が使われている文脈を考慮するのです。このため、多くの的外れな結果を排除し、指定した表現を含んでいなくても検索の概念を含んでいるドキュメントを拾います。
手作業でのタグ付け
エンタープライズ ポータルの急増により、さまざまな形式の情報(ドキュメント、構造化データ、HTML、XML、マルチデータを含む)に対応する分類法を作成することは急務です。手作業でタグ付けする仕組みは、電子文書にラベル付けをする方法として一般的になってきています。しかし、情報管理の効率性を確実に高める上で大きな障害があります。それはコストです。
限界
-
説明の矛盾
米国の国防総省が内部ユーザに対して、ドキュメントを作成した責任者はそのドキュメントの内容の適切な説明文を作成するようにと命じたことは、人間行動の作用と、情報について人の手で補足説明することに特有の限界(たとえそれが既存の補足説明であっても)があることについて例証しています。一見したところ、これは賢明かつ実用的な決定に見えます。しかし数ヶ月この命令どおりに運営した後、大多数のドキュメントの説明は大まかでありその内容は「一般的」であるとしてタグ付けされていることが判明しました。タグ付けの仕組み、特にXML、はこのような一般的な表現から脱却しようと取り組む一方で、自らが「矛盾している」と明示する同じ人間行動の欠点に依存しているのです。人間が情報について説明する能力は、その人個人の経験、知識、意見に依存します。このような「無形のもの」は人によってさまざまであり、状況にも依存するものであり、結果の効果を劇的に低減させるのです。
複数のテーマがかかわる場合はさらに複雑になります。「ロシアの変化する外交政策における技術開発」に関する記事は(i)ロシアの技術(ii)ロシアの外交政策(iii)ロシアの経済のうちどれに分類されるべきでしょうか。意思決定のプロセスは複雑であると同時に時間がかかるものであり、特にユーザの選択肢が非常に多い場合は、さらなる矛盾が生じる可能性があります。たとえば、新聞の一般的なテーマのタグが800以上あるとします。適度な時間内で目的の情報である可能性のある基本的なテーマの説明を選ぶ作業はさらに難しくなります。
-
アイディアを遠ざける
また、タグはテーマ間の関係を強調しません。これを「アイディアを遠ざける」といいます。「翼の設計」と「抵抗力」や、「翼」と「効果性」のように、一見別々にタグ付けされているテーマでも重要な関係性があることが多々あります。一つ目のカテゴリは空気抵抗が少ない翼の設計方法に関する情報を含む可能性があります。二つ目のカテゴリは、効果的な翼の設計方法について書かれている可能性があります。これらのカテゴリ間には重複があることが明らかであり、そのためユーザはこの両方に興味を持つ可能性があるのです。しかしカテゴリ名の意味を理解していない場合、この二つの相互関係は明白にならないのです。
-
拡張性がない
タグに基づいたドキュメントの詳細な検索と処理を行うためには非常に多くのタグが必要になります。たとえばロイターのような企業では何万ものタグが扱われています。タグ数が増えるほど作業は増え、分類を誤る可能性が高まるのです。
-
高い労働コスト
分類法の生成とタグ付けは依然として主に手作業に依存しており、司書、ユーザ、IT人員による入力が必要です。つまり情報を理解するためには多大な労働コストを要するのです。
オートノミーのアプローチ
オートノミーはタグ作成に関連する手作業の課題の多くが提示する非効率性について、コンテンツ、タグそのものの目的または関連した情報の目的あるいはその両方の目的を理解し、XMLの管理にインテリジェンス層を追加することで対応します。
















