技術の進化は素晴らしいものです。次のような変形された読みづらい文字もGoogleが99%認識する技術を開発したことを公表しました。
画像出典:reCAPTCHA(Wikipedia)
性能が素晴らしすぎて次の問題も起きているようですが…。
Googleは今、厄介な問題を抱えている。同社が作った画像認識アルゴリズムはStreet Viewの画像から街区番号(番地など)を相当正確に読み取るので、ユーザにとってはたいへん便利だ。しかしこのアルゴリズムは、CAPTCHAの99%を解読してしまうのだ。ご存知のように、CAPTCHAはボット対策として、コンピュータには読めず、人間にしか読めない(はずの)ところにセキュリティ対策としての意味がある。
Google MapsのStreet Viewの画像認識アルゴリズムがCAPTCHAのほとんどを解読 | TechCrunch Japan
●Googleの使命
Googleの会社概要の1行目にはこう書いてあります。
Google の使命は、世界中の情報を整理し、世界中の人々がアクセスできて使えるようにすることです。
会社情報 ? Google
こうした使命があれば、Googleは、変形された文字の認識が99%できる技術を使って、普通の画像の中にある文字は当然整理(インデキシング)するはずですよね。できないはずがありません。
Googleは既に画像の中の文字を認識してインデキシングしています。そうした事例を紹介します。
●検索結果の画面では普通に文字情報を認識しているように見える
Googleで「新潟県印刷工業組合」を検索した時の画面です。
長岡造形大学のページのようですが、[PDF]と書いてあるのでPDFファイルのようですね。表示されているファイル名もそんな感じです。
スニペットの部分には以下の様な表示がされています。文字情報が入っていますね。
... 造形大学による作品展示. )ー階みなと広場大階段にて). @「印刷の歴史」バネル展示. ) 9月2日~ー6日、メディアシップ20階にて縄). 第一印刷所 ・. 新潟県教育委員会/新潟市教育委員会贈新潟商工会議所. 新潟県中小企業団体中央会/新潟県印刷工業組合.
"新潟県印刷工業組合" filetype:pdf - Google 検索
●PDFを検証する
それではPDFファイルを開いてみましょう。至って普通のチラシのファイルのようです。
拡大してみます。これは画像になっていますね。
念のため文字情報が残っていないか調べてみます。
Adobe Readerのメニューから「ファイル」→「プロパティ」を選択します。
「文書のプロパティ」が表示されたら「フォント」のタブを選択します。
「この文書で使用しているフォント」が空欄なので文字情報はありません。文字は全て画像になっています(もしくはアウトライン化・図形化されています)
このことから先程のPDFは画像しかないのに、Googleには文字情報入りで登録されていることになります。
つまりGoogleが画像から文字を認識して文字情報を登録しているということになります。(なぜか「。」を「縄」とかご認識しているようですが)
●Googleの前では姑息なことをしてもムダ
ブログ「市況かぶ全力2階建」を見ていると、企業のヤバイ発表(不正があった・スタッフの不適切な行動があった・重大事故があった)などの発表・プレスリリースに画像を使う企業が多く見られることがわかります。
確かに画像にしてあっても、パッと見た感じ文字は人間には読めますし問題はないのですが、企業側の意図として「引用しづらくしたい」「検索エンジンに登録させたくない・検索結果に表示させたくない」というものがあるのではないでしょうか。
引用のしづらさは変わりませんが、日本で一番大きなシェアを持つ検索エンジン(Yahoo!表示分を含めて)のGoogleが画像から文字を認識し、文字情報を登録してしまうのであれば、検索結果に出てきてしまいます。
つまり画像を使って「姑息なことをしてもムダ」ということです。
企業の広報担当者は覚えておいた方が良いでしょう。
それでは、よい検索を。