Google翻訳アプリの衝撃

※最後の写真(OCRアプリ)の説明で「翻訳結果」とありますが「OCR変換結果」の誤植でした。

先日、Google翻訳アプリのアップデートがありました。その内容にSNSでもちょっとしたお祭り状態になっていますが、皆さんはもう体験しましたか?

今回のアップデートの目玉は「リアルタイム カメラ 翻訳」でした。私もたまたまニュースサイトでその内容を知って早速試してみましたが、これが衝撃の機能でした。


アプリを立ち上げるといつものGoogle翻訳画面なのですが、カメラボタンが追加されました。これをタップするとカメラが起動します。あとは、翻訳したいものにカメラをかざすだけです。すると、こんな英文が




こんな感じに翻訳表示されます。



ほぼリアルタイムで、同時平行的に英文が日本語に翻訳され、カメラ画像の中で差し替え表示されています。

一般的に画像の中から文字認識(いわゆるOCR)させる場合、背景色とコントラストがついていないと認識しづらいとか、背景に色が付いていると認識しづらいとか、色々と制約条件があったりするのですが、このGoogle翻訳アプリの場合、こんなものも



こんな感じに翻訳されます。デザインされたロゴマークを認識するは驚きです。かつ、翻訳された日本語をロゴの中にうまく埋め込んでいます。



逆に日本語→英語も試してみると


すごいですね、見事です。フォントもそれらしくなっています。



この見事な翻訳具合、且つ、文字のフォントサイズや色まで元とのものに合わせる形で表示されるのです。又、誤訳も含めてその愉快な翻訳状態がまるで大喜利の様にSNS上に翻訳写真がアップされています。。



実は、最近、うちの会社でもスマホアプリの開発が多く、且つ、GeneXus標準機能だけではなく、様々なデバイス機能を付加する形での開発が増えてきました。その中の一つがOCR機能でした。有償無償を含め既存のOCRライブラリをGeneXusに外部オブジェクトとして追加する事で、標準にはない機能を実現しようというものです。

OCR機能に取り組んでみて感じたのが、OCR変換させる対象文字列の認識率を上げる事の大変さでした。フォント種類や文字の間隔から始まって、背景色・背景画像など文字とのコントラストの調整が非常に難しいものです。

それがGoogle翻訳アプリときたら文書のみならず、カラフルなパッケージから風景までいとも簡単に認識するではないですか。しかも、リアルタイムで・・・
これは脱帽ですね。仕事柄、様々な世にあるアプリやサービスなどを調べることがあり、その裏側がどうなっているか推測するのですが、このGoogle翻訳アプリはそれをどうやって実現しているのか、さっぱり判りませんでした。さすがGoogle、開発にかけるお金と人材はとてつもないものなんでしょうね。

とはいえ、我々も色々とニーズがあって開発を行っていますので、これにめげずにアプリを実現して世に出していきたいと思います。

研究開発中のOCRライブラリをGeneXusに組み込んだデモアプリ


ディスプレイを撮影しているので反射などで認識にはちょっと不利ですが、
こんな感じで翻訳OCR変換結果が出てきます。この画面はGeneXusで生成されたものです。


では。




コメント

このブログの人気の投稿

データプロバイダーを使いこなそう - 応用編その4 スケジューラー 補足編

HTMLヘッダーにあれこれ直接追加したいとき

GeneXusにおけるWebアプリケーションセキュリティ対策 - OWASP 2010 Top10 Security Risks in GeneXus Applications