|
|
メタデータのハンドリングオペレーション |
|
ユニークなパターン認識技術に基づいたオートノミーのコア エンジンにより、情報の類似性を照合および識別する手動または完全自動の正確な手段が提供されます。 |
完全なメタデータ処理
|
|
構造化されていない情報の問題解消の1つであるメタデータを利用したアプローチは、いかなるドキュメントや少ない数の情報で要約を作成することが可能であるという仮定を前提とていることから根本的には妥協であると言えます。オートノミーの技術は情報そのものを理解するので、コンテンツ全体から、決定を下せます。よって、不可解で費用のかかる手動プロセスを行っている間に決定されていたような単なる単語のサブセットに依存するのではありません。 |
しかしながら、レガシー技術をオートノミーへと入れ替える場合、すでに前述のプロセスに対しては多額の投資が行われているかもしれないため、既存のメタデータに含まれるビジネスの価値を捕らえることが重要となります。オートノミーの Intelligent Data Operating Layer はそのようなデータをすべて抽出できる上、レガシー オペレーションを完全にサポートし、それによって、現在利用されているメタデータに依存したアプリケーションを自動的にサポートしながら、オートノミーに移行できるようにします。
完全なメタデータ処理機能には、次のものがあります。
コネクタによるメタデータの抽出
オートノミーのすべてのコネクタは、リポジトリに含まれている全情報(データベースのレコード内に格納されているメタデータ、文書管理システム内のファイル レコード、インターネットおよびイントラネットのページ内のメタ情報など)を抽出できます。一度オートノミーの Intelligent Data Operating Layer 内に格納されたら、このレイヤ上に構築されたすべてのアプリケーションは、このメタデータとそれらに盛り込まれたビジネス ルールを利用できます。
レガシー検索のサポート
IDOL は、次のような既知のレガシー検索方法をすべてサポートしています。
- AND、OR、NOT、NEAR、DNEAR、SOUNDEX、FUZZY、RANGE などの演算子のサポートを含むキーワード検索
- 複数のメタデータ フィールドにわたってのブール式による制約
- メタデータを連続的に選択することによって検索空間の絞りこみを行うパラメトリック検索
- 関連性および/または任意のメタデータ フィールドを利用したソートのサポート
- メタデータの完全重み付け - 個々のキーワード、特別なメタデータ フィールドまたはドキュメント全体に他のものよりも大きな重みまたは小さな重みを付与
- ユーザが結果セット内の任意のドキュメントの影響度の増減を設定するためのユーザ フィードバック システムのサポート
レガシー検索の例
| 1) メタデータの範囲制限と括弧で囲んだブール式を使用したキーワード クエリー |
|
質問 「2001 年 1 月 1 日以降に出版された $10 〜 $15 のタイ料理の本を入手したいと思っています。英国で出版された同じテーマの _8 〜 _12 の本についても考慮するつもりです。その場合は、郵送料金を低く抑えるために、紙表紙本に限定したいと思います。」 |
|
データベース クエリー action=query&text=タイ料理&fieldtext=RANGE{01/01/2001,.}:*/PUBLISH_DATE+AND+(NRANGE{10,15}:本/米国/価格)+OR+(NRANGE{8,12}:本/英国/価格+AND+MATCH{ペーパーバック}:本/タイプ) |
| 2) キーワードおよびメタデータ制約の完全重み付けを使用した概念クエリー |
|
質問 「アジアの金融サービス会社についてのレポートを入手したいと思っています。外国為替を取り扱っているインドネシア発のレポートに最も興味があるので、クエリーのその部分に重みを付けたいと思います。」 |
|
データベース クエリー action=query&text=アジアの金融サービス業界と個々の金融サービス会社、特にそれらのうち中国、マレーシア、インドネシア[30]、日本および香港で外国為替[20]を扱っているもの、およびそれらが米国での最近の市場不安によってどのような影響を受けているかということ&database=Archive&fieldtext=MATCH{中国、マレーシア、インドネシア、日本、香港}:*/国+OR+MATCH{アジア}:*/メタデータ/地域 |
オートノミーのレガシー互換性モジュール(LCM: Legacy Compatibility Module)
オートノミーは、企業が既存のシステム ワークフローを維持しつつ既存のレガシー システムをIDOLに置換できるレガシー互換性を提供しています。このプロセスにより、混乱を最小限に抑えることができ、完了後にIDOL が提供する高度な機能を段階的に作動させることができます。良く制御、管理された移行技術により、、現在のアプリケーションに対するサービスを中断させることはありません。
- レガシー インポート モジュール: 一般的なレガシーインデックスに直接接続できれ、内部に含まれているすべてのデータを自動的に抽出する特殊なオートノミーのコネクタ。現在サポートされているフォーマットには、BIF インデックス、レガシー Topics インデックスおよびすべての XML ベースのインデックスなどがあります。
- クエリー変換: すべての既知のレガシー演算子はオートノミーのクエリー構造の中で表現することが可能です。このため、すべてのフロントエンド アプリケーションは、IDOL に「同じ言語で通信」し続けることができます。IDOL は、既存の要件を自動的に変換して結果に期待されたデータを返します。
- 結果のテンプレートとXMLのサポート: すべての IDOL 出力は XML として始まり、テンプレートおよびスタイルシートを使用することによって、幅広く再利用できます。このため、一度オートノミーが配備されたら、既存のアプリケーションが要求するどのようなフォーマットででもデータを配信できるようになります。
多次元メタデータ
オートノミーは内部ストレージ フォーマットとして自身も XML を採用しているため、レガシー システムでよく使用されているフラット ファイル フォーマットでは表現できない階層型メタデータをエンコードすることが可能です。たとえばリレーショナル データベースのようなレガシーシステムでは、重要なメタデータの構造は回復不能なほど失われてしまいます。
複数のタイプのメタデータのサポート
オートノミーの内部ストレージ アーキテクチャは高度な設定が可能であり、先に詳述されたプロセスを使用してメタデータが取得されると、そのメタデータを今後の処理が行いやすくなるように様々なフォーマットで格納できます。一般的に、次のような情報を取得できます。
- 任意の数値 / 固定長フィールド
- ドキュメント単位のメタデータ
- 価格、色、画像
- 要約、タイプ、セキュリティ、メタ タグ
- 文字列、数値、日付、ビット数
推論
|
|
オートノミーの推論モジュールの出現で、メタデータ、文脈の意味、およびデータ同士の関係を自動的に推論し、ビジネス決定プロセスを推進するために、ファイル フォーマットやファイル ロケーションとは関係なくあらゆる形の情報をインテリジェントに活用できるようになります。 |
推論プロセスの設定は簡単な例を利用して行えます。また、メタデータの検出はドキュメントが厳密な書式設定や表現に頼ることはありません。推論は、簡易タグ化と概念-値のタグ化という 2 種類のメタデータ抽出を実行します。
簡易タグ化
簡易タグ化とは、単語や数値などの記号をまとめて単一のアイテムにし、その後、このアイテムとタグ名を関連付けることです。同一のタグ名を持つアイテムはすべて、何らかの共通プロパティを共有します。タグ名は事前定義されるか、ユーザ定義されます。
CV 例に示されている EDUCE_PHONE、EDUCE_EMAIL、EDUCE_DATE、EDUCE_STREET、EDUCE_TIME、EDUCE_TOWN および EDUCE_POSTCODE という抽出フィールドは簡易タグ化の例です。
-
ユーザ定義タグ
ユーザ定義のフレーズ タグは容易に設定できます。必要なのは、検出するサンプル フレーズのリストと適切なタグ名だけです。
-
事前定義タグ
最も一般的に使用されるタグは、システムで事前定義されます。次の表に、簡易タグ化プロセスで使用される事前定義タグのセットを示します。
オートノミーは、事前定義された様々な既製のタグタイプの提供をしています。
概念-値ペアのタグ化
概念-値ペアのタグ化とは、概念やフレーズを検出し、これを適切な値として組み合わせることです。適切な値は、ユーザによって設定されたサンプルから推論されます。
-
例示訓練
例示訓練は、一連のフレーズをサンプルとして提供することによって簡単に設定されます。各フレーズには、タグの値をサンプルとして与えらこともできます。
この例では、利率、商品番号、発効日および金額という概念についての訓練例が示します。下記の例で利用されているものは、会計報告などで使用されているものです。
上記のサンプル ルールは推論タグを推測するのに使用されたものです。
複合概念-値のタグ化
オートノミーでは、一般的によく用いられている2つのタグ化方法(簡易タグ化と概念-値のタグ化)を組み合わせて1つにすることができます。これにより、簡易タグ化された 2 以上の要素を関連付けることができます。たとえば、名前と電子メール アドレスの関連付けなどがそれに当たります。関連情報は、「例示訓練」ステージで提供されたサンプルから取得されます。
推論機能
- 例示による簡単なタグ トレーニング
- 簡易タグ化
- 概念-値のタグ化
- ネガティブ トレーニング
- ユーザ定義可能なデフォルトのフレーズ タグ
- 大文字と小文字を区別したユーザ定義のフレーズ タグ
- 設定可能なタグ長
- 住所フォーマットを設定可能(通り名や番地、郵便番号(米国)、郵便番号(英国)、番地などの選択)
- 厳密なフォーマットの設定が必要ない高度なテキスト分析
- オートノミーの直感的なユーザ インターフェースを通した容易な設定
















