オートノミー・テクノロジー
テクニカル ベネフィット

言語に依存しないアーキテクチャ

オートノミーのコア コンセプト マッチング テクノロジは、英語または特定の言語の文法構造を深く認識しているかどうかに依存しません。単語は意味を抽象的に表す記号として処理され、厳格な文法上の定義ではなく、登場するコンテキストに従って解釈されます。俗語や言語の語形変化が使用されていても、ソフトウェアが混乱することはありません。IDOLサーバには「標準的な」英語のパターンに関する統計情報が最初から格納されていますが、エンジンには任意の言語(ドイツ語、スペイン語、ポルトガル語、アラビア語、イタリア語、フランス語、日本語、ノルウェー語など)のパターンを覚えさせることができます。

課題

世界市場に向けた自社のWebサイト公開の重要性について、企業が理解を深めるほど、英語の持つ優位性が失われていきます。企業は現地の言語で顧客にアプローチする必要性を認識しつつあるのです。また、大規模な多国籍企業では、社内の知識をあらゆる言語に翻訳して、知識の普及および拡大を図ることができます。

ポータル サイト、eコマース サービス、企業のナレッジ マネジメント システムのいずれを実装するにしても、国際化の問題に直面することになります。

このホワイト ペーパーでは、オートノミーのテクノロジが提供する、言語に依存しない機能について説明します。それらの機能によって、オートノミーは世界中のさまざまな言語を完全にサポートして、以下のメリットを提供することができます。

  • 世界規模での専門知識の交換
  • グローバルな情報資産へのアクセス
  • 新規の市場機会獲得による企業の成長

定義

はじめに

言語とは、「人間の思考や感情を表現したり相手に伝えたりするために、体系化された組み合わせやパターンの状態で、会話や文章に使用する記号」というように定義することができます。

この定義に示されているように、言語は設定されたパターンとして使用され、知識や情報の抽象概念を表します。保存されているナレッジ ベースのポテンシャルをグローバルで最大限に実現するためには、最初にそれが提示された言語に関係なく、知識自体を世界各国のユーザーで分配または共有する必要があります。

現在、ほとんどの企業では、複数の言語で表記されたコンテンツを管理する必要に迫られています。そのため、言語構造体に依存しないソリューションが最も重要(かつ価値があるもの)となるのです。企業は、新規開拓した市場の国や地域に支店を開設したために他言語化が必要になっても、その言語で新しい情報や既存の情報を活用または提供するための余分なコストを費やす余裕はありません。その点で、オートノミーのテクノロジとアーキテクチャは理想的です。完全なモジュール方式なので、現在と将来の両方におけるコンテンツ開発に向け、任意の言語ですみやかに拡張性を提供できます。

主要な要素

国際化とは、機能およびコード設計が、単一の言語特性に基づいて推測を行わないプログラムコアを開発するプロセスです。

情報依存型のソフトウェアを開発する場合、以下の点が重要な問題になります。

  • コア アルゴリズムが言語構造体や記号のデジタル表現等に関する推測を行うか。
  • コア アルゴリズムが特定言語の構造体に依存するか。つまり、新規の言語をサポートするために、主要なシステムの再設計や開発が必要になるかどうか。

言語に対するオートノミーの取り組み

Dynamic Reasoning Engine™は、高度なパターン マッチング テクノロジ(非リニア アダプティブ デジタル信号処理)に基づいています。このテクノロジは、高性能の確率モデリング技術を使用してドキュメントのデジタル要素を取り出し、テキストに意味を持たせている特性を判別するものです。このテクノロジは、確率モデリングに基づいていることから、いかなる形式の言語依存型解析または辞書も使用しません。IDOLサーバは、意味を抽象的に表す記号として単語を処理し、厳格な言語文法上の定義ではなく、それらが発生するコンテキストに従って解釈します。

IDOLサーバは、時とともに「目にした」コンテンツで発生しているパターンに関する統計的理解を深めていきます。IDOLサーバに特定のタイプの情報(例えば、法律用語、医薬開発、技術など)が蓄積されるほど、それらのトピックについての理解を深めます。新規の言語とは、IDOLサーバが理解するために十分な資料を必要とする別の「タイプ」の情報に過ぎないと考えることもできます。したがって、それぞれの言語を理解するための情報量が十分である限り、IDOLサーバで複数の言語を使用することができます。

どの言語を使用するかによってIDOLサーバが導き出す概念の精度が損なわれることはありません。基礎となるアルゴリズムは同じなので、使用言語は関係ありません。

オートノミーが使用する言語依存型機能

オートノミーのテクノロジは、完全な非言語依存型ですが、パフォーマンスを向上させるために便宜上、言語依存型の機能を使用することがあります。システムの最適化のため、オートノミーでは以下の機能を選択肢に加えています。

  • ストップ リスト:すべての言語には、特に重要な意味を持たない「空語」があります。文法上、一般的に、前置詞、接続詞、助動詞などが空語に該当します。例えば、英語の場合、「the」、「a」、「and」、「to」などがあげられます。これらの単語は、コンテンツ処理の際に無視しても構いません。
  • ステミング:ほとんどの言語の場合、単語の語幹を取得するため、その単語の特定の語形変化を排除することができます。例えば、英語の「run」という単語の場合、「runner」や「running」などは、語幹である「run」として処理できるため、単語の意味が大幅に見失われることはありません。固有の単語のリストを取得するため、テキスト処理時にステミング ルールを使用することができます。

オートノミーではストップ リストやステミング ルールを必要としません。通常は、統計分析によってそれらの単語の重要性や関係が判別されるからです。ただし、ストレージ リソースや処理時間を減らすため、ストップ リストおよびステミング ルールの初期構成を利用して、IDOLサーバが空語を無視し、単語のセットを1単語として処理することができます。

オートノミーでは、使用頻度の高い言語用にストップ リストおよびステミング アルゴリズムのセットが標準で提供されます。

  • 音訳スキーマ:音訳は、文字や単語を異なる文字体系の該当文字で表す機能です。一部の言語については、元の文字をサポートしている特別なキーボードを必要とせずにテキストを書き込めるようにするため、音訳スキーマが利用されます。オートノミーは、ギリシャ語やロシア語などの言語で使用されるほとんどの音訳スキーマをサポートしています。
  • 大文字/小文字が区別されるキャラクタ マッチング:大文字で書かれていても小文字で書かれていても、単語の意味はまったく変わりません。大文字表記は、単語を読みやすくしたり、使用される情報の種類(正式名称や段落の開始など)を強調するために使用されるに過ぎません。大文字か小文字かに関係なく単語のマッチングが行われるように、考えられるさまざまな組み合わせを考慮に入れることが重要です。このような機能をケース インセンシティビティ(大文字と小文字を区別しないこと)といいます。大文字と小文字は言語によって異なるだけでなく、大文字と小文字の区別という概念がない言語もあります。
  • 文字の正規化:言語によっては文字を表す方法が複数ある場合もあります。例えば、日本語の場合、カタカナは全角文字または半角文字で記述されます。全角か半角かに関係なく、文字自体の意味は同じです。これは、ローマ字の数字や文字についても同様です。2バイト言語の性質を考慮して、それらの文字については2バイト表記を使用することができます。オートノミーの製品を使用すると、すべての表現形式が1つの表現形式に正規化され、同じように処理されるようになります。

オートノミー テクノロジのメリット

グローバル インプリメンテーション

より多くのコンテンツが特定の言語または多数の言語で利用できるようになっており、英語以外の言語を話すユーザーの数も増えています。このような現象は、世界中でますます多くの企業が情報をオンラインで提供したり使用したりするようになり、eビジネスに乗り出すにつれて特に顕著になります。包括的な国際化戦略を成功させるため、企業は、基礎となるテクノロジに厳しい要件を課さねばならず、業界最先端の機能やパフォーマンスを必要としています。

その点、オートノミーのテクノロジとアーキテクチャは理想的な環境として位置づけられます。完全なモジュール方式なので、現在と将来の両方におけるコンテンツ開発に向け、任意の言語ですみやかに拡張性を提供します。

クロスリンガル システムへの拡張

オートノミーのコア テクノロジを使用して、クロスリンガル システムを設定することができます。その結果、例えば、英語でドキュメントを検索すると、英語とスペイン語の両方で類似する情報が候補として表示されるようにする、といったことが可能になります。

Dynamic Reasoning Engine™を使用すると、複数の言語間で相互関係を確立することができます。そのためには、対象言語で各ドキュメントが表示されているトレーニング データ セットが必要です。抽出されたデータがそのまま他の言語に変換されると理想的です。そのために電子辞書を利用することもできます。クロスリンガル コンテンツをインデクシングしてIDOLサーバのデータベースに格納し、そのデータベースによって両方の言語に関係する概念の一般的な解釈をエンジンに提供することができます。このクロスリンガル データベースが設定されると、IDOLサーバが複数の言語の用語を相互に関連付けられるようになり、その結果、複数の言語のコンテンツを同時に取り出せるようになります。

単一言語の場合

IDOL™サーバがデータを1つの言語に集約する場合、その特定の言語で表示されたコンテンツを概念的に理解します。

クエリの結果や関連ドキュメントの候補を求める場合には、クエリまたはドキュメントの概念を使用して最適な回答を求めます。したがって、同じ言語で結果が提示されます。

下図では、IDOL™サーバにN個のデータベースがあり、それらすべてに同じ言語が使用されています。

図1:単一言語システムの場合のオペレーション

英語のデータベースに対して英語でクエリを行った場合、IDOL™サーバは、クエリに関する英語の概念を使用して、英語のコンテンツで見つかった該当する概念とのマッチングを行います。したがって、英語で結果が提示されます。この場合、スペイン語でクエリを行うと、IDOL™サーバ内に格納されている用語は英語で表されているものなので、一致するスペイン語の概念はないため、何の結果も返されません。

多言語の場合

IDOL™サーバが複数の言語(英語やスペイン語など)の概念を自動的に理解できるようにするためには、両言語の一般データ(百科事典データや総合的な国際ニュースなど)を含む特別な多言語データベースにプレインデクシングします。このデータベースは、トレーニングのみを目的とするものであり、後にクエリの対象となるドキュメントを含める必要はありません。

各「トレーニング ドキュメント」には、両言語で表示されたプレーン テキストが含まれています。それぞれのプレーン テキストは、そのままお互いの言語に変換されたものです。

この多言語データベースは、両言語に関する広範囲の概念に対する一般認識をエンジンに提供します。すると、エンジンはクエリや候補を処理する場合に、この特別な多言語データベースを内部で使用します。

下図では、IDOL™サーバにN個のデータベースがあり、それぞれのデータベースでは多言語データベースに含まれているいずれかの言語が使用されています。

図2:多言語システムの場合のオペレーション

IDOL™サーバは、まず、クエリに(ほぼ)一致する概念を多言語データベースから探し出して、その概念を両方の言語でエンジンに提供します。次にそれらの概念を使用して、元々のクエリを続行します。こうして、ある言語で行われたクエリに対し、2つの言語で結果が自動的に生成されます。

例えば、英語の文を使用して、スペイン語のデータを含むデータベースに対してクエリを行ったり、その逆に、スペイン語で英語のデータベースにクエリを行ったりすることができます。

この方法ではキーワードをそのまま翻訳したものが使用されるのではなく、一般的な概念に対する変換が使用されるということに留意してください。

例えば、スペイン語のデータベースに対してクエリを行う場合には次のようになります。

図3:英語とスペイン語を使用する場合の例

IDOL™サーバは、英語のクエリを使用して、「英語-スペイン語」データベースで一致する概念を探します。IDOL™サーバは英語で概念のマッチングを行いますが、「英語-スペイン語」データベースの各ドキュメントは両方の言語で表示されているため、英語とスペイン語の両方で表された概念が取得されます。

続いて、スペイン語データベースに対してクエリを行うと、上記のようにして取得されたスペイン語の概念を使用し、スペイン語のデータベースで該当するドキュメントが検索されます。

サポート言語

1バイト言語および2バイト言語(SBDB)

一般的に、各言語で表示されるコンピュータ文字には以下のようなものがあります。

  • 1バイト文字:1バイトを使用して1つの文字を表します。
  • 2バイト文字:2バイトを使用して1つの文字を表します。
  • 多バイト文字:1バイトと2バイトの組み合わせです。
  • ユニコード文字:1文字につき2バイト以上が使用される場合(UCS2)と、UTF8などの変数などでは、1文字につき1~4バイトが使用される場合があります。

ヨーロッパ言語は1バイト言語であり、一方、一部のアジア言語では日本語シフトJIS文字セットなどのようなマルチバイト エンコーディングを使用しています。オートノミーのIDOL™サーバは、1バイト文字セットと2バイト文字セットの両方のタイプを処理することができます。

単語境界

情報は、1つの概念をまとめて表す複数の単語によって表されます。ほとんどの言語では、通常、文章内の単語はスペースで区切られているため、簡単に判別することができます。

しかし、タイ語、日本語、中国語、韓国語などのような特定の言語では、単語の区切りにスペースが使用されません。そういった言語では、1つの文は連続する文字の流れであり、読みやすくするために句読点で区切られています。また、個々の単語はコンテキストに応じて見分けることができます。このようなタイプの言語をサポートするため、オートノミーでは、有名なサードパーティのAPIを使用して文を分割しています。

オートノミーのコア テクノロジであるIDOL™サーバは、コンテンツの言語に関する推測を行わず、特定の言語を表すために使用される記号に依存しません。

アーキテクチャ

以下に示すそれぞれの調整ステップが、必要に応じてIDOL™サーバで内部実行されます。

図4:アーキテクチャ

サポートされているプラットフォーム

オートノミーは、以下のプラットフォームをサポートしています。

  • Microsoft Windows NT
  • Microsoft Windows 2000
  • SUN Solaris
  • LINUX
  • HP-UX
  • その他のPOSIX対応UNIX(必要に応じて)

導入実例

オートノミーのソフトウェアは、さまざまなビジネス上の問題を解決するため、既に広い範囲で導入されています。以下に、いくつかの例を紹介します。

お客様言語説明
BBCオンライン ニュース サイト 中国語
アラビア語
革新性、進歩性、そして先駆性を誇る英国放送協会(British Broadcasting Corporation)は、娯楽、教育、および情報番組を提供し、国内外で数百万の視聴者および聴視者を引き付けるなど、20世紀にはその勢力を誇示していました。同社は、ニュース サイトの中国語およびアラビア語部門を強化するため、オートノミーを選びました。

図5:BBCオンライン:中国語ニュース

お客様言語説明
TOM.COM 中国語 アジアの大手電気通信企業であるHutchison Whampoaは、初の中国語圏専用ポータルを開設しました。アジア太平洋全域に対する中国人の関心を表すことになるこのポータルでは、ユーザーの興味やニーズに合わせてコンテンツが自動的にパーソナライズされます。このポータルでは、オートノミーのテクノロジ インフラストラクチャを広範囲に活用して、ユーザーとWebサイトとの交信を、生産的でユーザーの興味に基づいたものにします。

図6:Tom. com:中国語のインターネット ポータル

お客様言語説明
Yatackのeコマース サイト 北欧諸語 Yatackは北欧のeコマース サイトです。オートノミーのテクノロジを使用することで、Online Clubは、最大限にパーソナライズされたオンライン ショッピング体験を提供できるようになりました。ユーザーがどのようなものに興味があるか自動的に導き出され、その認識に基づいてユーザーをガイドしながら購入プロセスが進められます。

図7:Yatack:北欧諸語のeコマース サイト

その他の例

図8:フランス語のポータル:http://www.eurosport.fr/

図9:イタリア語のショッピング サイト:http://www.kataweb.it/

図10:ドイツ語のニュース ポータル:http://www.tomorrowbusiness.de/

オートノミー
テクノロジー
製品
サービス
業種
ユーザ
パートナーとOEM
ニュース & イベント
投資家の皆様へ