Googleの言語横断検索

言語横断検索(Cross-Lingual Information Retrieval: CLIR)機能の充実について,Googleブログ記事からの引用:

世界中のウェブサイトを翻訳して日本語で検索!

例えば、[レンタサイクル ウィーン]と検索して、「翻訳して検索」を選択してください。Google は自動的に検索キーワードを英語とドイツ語に翻訳し、これらの言語のウェブページを検索。その検索結果を日本語に翻訳し直して表示します。さらに、「言語の追加」を選択することで、51言語から最大3つの言語を追加することができます。

例が[レンタサイクル ウィーン]なのはなんでだろう.
自分がCLIRが上手く行く例として引用した記事では,ドイツ語話者がサンフランシスコでベジタリアンレストランを探すというシナリオだったが,実際に自分が実際に行った検索のシナリオは,ウィーンでベジタリアンレストランを英語のクエリで探すというものだったので,「これって本当は逆だよなー」と思いながら書いていた気がする(その時に行ったレストランをもう一度探そうと思うとうんざりする).


なぜドイツ語での情報探しがCLIRの例としていいかというと,言語としての規模がかなり大きくて,その言語だけで文化や社会をある程度成立させられる,特に英語情報を出さなくても内需でやっていける,というような性質があるからだからだと思う.

フランス語やスペイン語の場合も同様のはずなのだけれど,個人的な経験では,英語で必要な情報が手に入らなくて,手動でクエリを翻訳して言語横断検索をしなければならない状況があったりしても,結局現地語でも情報がオンラインにありませんでした,という結果になることが結構ある(行き先が田舎過ぎるせいかもしれませんが).



さて,この記事中のサンプルは当然上手く行くものを選んでいるはずなので,その結果を見てみる.


レンタサイクル ウィーン の検索結果

  • 約 919,000 件中 1 - 10 件目 (1.27 秒)
  • ドイツ語 Wien Fahrradverleih 846,000 件の結果
  • 英語 Vienna Bicycle rentals 73,300 件の結果

というのが初期表示で,ドイツ語と英語が自動選択で検索対象に選ばれている模様.地名などは何語をターゲットにするかを自動判別しやすそうです.
これを見て,ドイツ語の検索結果の方が約85万件で,日本語での結果が約90万件で,減ってるじゃん,と一瞬思ってしまったが,右肩に出てきている検索結果数は,対象言語の合計数らしい.
それで検索対象言語に日本語を手動で追加してやると,

  • 日本語 レンタサイクル ウィーン  21,100 件の結果

となって,めでたく日本語では乏しい情報を,ドイツ語への翻訳によって手に入れることができました,ということになる.
日本語での検索ではダメダメだということを示すために,日本語クエリではいつも日本語だけでの結果の件数を見せるようにした方が,インパクトがあるんじゃないかな.


あとは,検索結果が元々何語だったのかの表示が地味ですね.

原文の言語: 英語
原文を表示する

などの項目があるけれど,理想を言えば検索を掛けた元の言語での結果をまずはみたいと思ってしまうので,翻訳による結果と原言語による結果をはっきり区別して見せてくれた方がいいような気がするが,内容の正確さに基づいたランキングにかなり自信があって,上位のものを見れば間違いない,という発想なのだろうか.ドイツ語英語日本語の文章がランキングの中で入り混じっているので,どのように結果を並べているのか気になるところ.単一の言語に揃えてランキング?


この機能は数日かけて徐々に展開していきます。また、翻訳精度は日々改善していきますので、ご期待ください

ということなので,面白い例が出てくることを期待してます.