Googleは画像中の文字認識をして登録する。逆SEOを狙ってヤバイプレスリリースは画像でOKという時代は終わる。

更新:2019-05-04 01:53
公開:2014-04-19 10:48
編集:jdash2000

概要 ▶ Googleは文字情報がなくても文字と思われるものを解析して文字として登録します。SEOで知られる「文字を画像にして使うと文字は登録されない」というものを逆に応用して検索エンジンへの登録から逃れようとしてもムダです。

本ページはプロモーションが含まれている場合があります

技術の進化は素晴らしいものです。次のような変形された読みづらい文字もGoogleが99%認識する技術を開発したことを公表しました。

画像出典：reCAPTCHA（Wikipedia）

性能が素晴らしすぎて次の問題も起きているようですが…。

Googleは今、厄介な問題を抱えている。同社が作った画像認識アルゴリズムはStreet Viewの画像から街区番号（番地など）を相当正確に読み取るので、ユーザにとってはたいへん便利だ。しかしこのアルゴリズムは、CAPTCHAの99%を解読してしまうのだ。ご存知のように、CAPTCHAはボット対策として、コンピュータには読めず、人間にしか読めない（はずの）ところにセキュリティ対策としての意味がある。
Google MapsのStreet Viewの画像認識アルゴリズムがCAPTCHAのほとんどを解読 | TechCrunch Japan

●Googleの使命

Googleの会社概要の１行目にはこう書いてあります。

Google の使命は、世界中の情報を整理し、世界中の人々がアクセスできて使えるようにすることです。
会社情報 ? Google

こうした使命があれば、Googleは、変形された文字の認識が99%できる技術を使って、普通の画像の中にある文字は当然整理（インデキシング）するはずですよね。できないはずがありません。

Googleは既に画像の中の文字を認識してインデキシングしています。そうした事例を紹介します。

●検索結果の画面では普通に文字情報を認識しているように見える

Googleで「新潟県印刷工業組合」を検索した時の画面です。

長岡造形大学のページのようですが、[PDF]と書いてあるのでPDFファイルのようですね。表示されているファイル名もそんな感じです。

スニペットの部分には以下の様な表示がされています。文字情報が入っていますね。

... 造形大学による作品展示. )ー階みなと広場大階段にて). @「印刷の歴史」バネル展示. ) 9月2日~ー6日、メディアシップ20階にて縄). 第一印刷所・. 新潟県教育委員会/新潟市教育委員会贈新潟商工会議所. 新潟県中小企業団体中央会/新潟県印刷工業組合.
"新潟県印刷工業組合" filetype:pdf - Google 検索