前回のVol.2にてApple Intelligenceの画像認識分野について説明したが、その中でVisual Intelligenceについては筆者が対象機種を持っていない都合でできないとして簡易的な説明に留めていた。今回は、iPhone 16無印を弊誌管理人いちごもちよりお借りしたため、それを用いて実際に試し、使用例を紹介しつつ感想と併せて解説をしていく。
なお、基礎知識の解説とiOS 18.1の時点で利用できるようになった機能はVol.1、18.2で利用できるようになった機能のうちVisual Intelligence以外のものはVol.2で解説しているため、そちらをお読みいただきたい。


Visual Intelligenceとは
Visual Intelligenceは、iPhone 16シリーズ以降に搭載されたCamera Controlキーを長押しすることで現れる専用のアプリで、カメラが捉えるものに対して検索をすることができる。具体的には、Google画像検索・翻訳・URL読み取り・ChatGPTと対話などのメニューを使うことができる。
そして、基本はどの操作中でもVisual Intelligenceを起動できる。Camera Controlが独立キーであるという利点を活かし、長押しをすれば即座に起動でき、且つもう一度押せばシャッターを切って調べる動作に入れるというのは非常にスピーディで使いやすい。これを想定し、Camera Controlキーは他社のシャッターボタンと比べて比較的高い位置に設定されている。その位置が、片手でiPhoneを縦向きで持った時にちょうど親指が当たる位置になるという算段だ。

Google画像検索
Google画像検索は、Camera Controlを開いた際にシャッターボタンの右にある「Search」から開けるほか、シャッターを切った際も「Search」から同様に開くことができる。
上記の手順で開くと、Google画像検索した際の画面が表示され、実際に画面上でスクロールし該当する写真を探すことができる。いわゆるGoogle Lensに体験は近く、この窓から先でより多くの情報が欲しい場合は「More results from Google」をタップすることでSafariでGoogle画像検索の画面に遷移することができる。関連画像を一覧で見ることができ、その画像が含まれるサイトへ確認しにいくことができる。

翻訳
デバイスの設定言語と異なる文章が表示されていると、「Translate」というメニューが表示される。それを選択することで、画像の他言語文字をリプレースする形でデバイスの設定言語が表示されるようになる。
翻訳はAppleの翻訳アプリが行なっているものと同様のため、精度についてはそこそこといった印象だ。実用上の場面で言うと音声認識能力は低いが、文章の翻訳精度は充分と言う感想を持っている。この制度が気になる場合は、後述するChatGPTに投げる方法がいいだろう。
実際の例として、筆者が以前書いた記事を翻訳した様子が以下の通りだ。

ChatGPT
もうApple Intelligenceの文脈でもお馴染みとなってきた、チャッピーことChatGPTはこのVisual Intelligenceで真価を発揮する。このApple Intelligenceで使われているChatGPTはGPT-4oで、この「o」はオムニモーダル、つまりテキストだけでなく画像や音声など幅広いデータを入力できると言うことだ。そのため、Visual Intelligenceではシャッターを押した時にキャプチャーされているものと結びつけて質問できると言う意味になる。
映っているものが何かを訊いたり、そこから先でアイディアを求めたり、1ターンの質問に限らず複数重ねて訊いていける点はChatGPTの魅力であろう。Visual Intelligenceの画面から、シャッターボタンの右側「Search」を選択することでChatGPTとの対話モードになる。もちろん、ChatGPTの機能なので日本語で質問しても大丈夫だ。そのデータはきちんとChatGPTアカウントと連携しアプリやWeb上から確認できるようになっている。
試しにSoundcoreのガシャポンを見せて、日本語で「これは何?」と質問し、さらに重ねて、SoundcoreがAnkerのオーディオブランドであるという点も再質問により答えてくれた。

その他
画面上に写ってるものの中にURLが含まれている場合、先ほどの「Translate」の横にそのURLが表示されるようになる。そこをタップすることでSafariなどデフォルトに設定したブラウザに遷移し、そこでWebを閲覧できる。

また、画面にQRコードが含まれている場合、上部Dynamic Islandの下にメニューが表示され、シャッターボタンを押すかそのメニューをタップすることで、QRコードの内容を表示することができる。試しに筆者のXのURLのQRコードを映してみたところ、画面上部には”X”と表示され、シャッターを押すとXアプリに遷移した。そのため、コントロールセンター内のQRコードリーダーの挙動と似て、その専用アプリがインストールされている場合はそこに遷移するような仕組みになっていた。

総括
このVisual Intelligenceを総括すると、アクセス性が非常に高いGoogleレンズにChatGPTの眼が追加されたという印象だ。
既存のGoogleレンズでも、翻訳や対象物のGoogle画像検索などができたた他、カメラアプリやコントロールセンターを開く必要のあったQRコードリーダーなどの機能を内包したことにより、画像系で困ったらこのボタン、という直感性が生まれたと感じる。そこに加えてChatGPTに質問もできるため、そこに映っている情報に加えてChatGPTの持っている知識やアイディアを併せて見られるのは素晴らしいと思った。
画面上のものは?
画面上の対象物を検索する術として、Googleは近年Circle to Searchを非常に推している印象だ。それに対するApple IntelligenceはSiriがすでに一部のオンスクリーン認識に対応しており、Vol.2でも触れたようにSiriに質問するだけで良い。加えて、ホームバーのダブルタップでType to Siriも呼び出せるため、ChatGPTを含めてた用途的に使える機能が声の出せる環境・出せない環境問わず使える。
試しに、ミッキーマウスの画像を含む筆者のXポスト画面を表示した状態でSiriに声で質問したところ、ChatGPTに投げて良いかの承認を求められ、「Send」を押すことでChatGPTからの回答を得られる。

また、ホームバーをダブルタップしてType to Siriを起動すると、画面が1段階小さく表示され、先ほどの音声と同様のやり取りができる。

以上より、画面内外ともに画像ベースでさまざまな情報を自分の思うままに調べられるような機能であることがわかった。特に、ChatGPTとの連携のおかげで情報を得るだけでなくアイディア出しを共同作業でできるなど、実用性に富んだアップデートであり、且つCamera Controlキーを最大限に活かせてると感じた。まだ日本語にはフル対応をしていない点が非常に惜しいが、非常に将来性もあるため今後のアップデートに期待したい内容であった。
コメント