昨年末にOpenAIが実施した「12 Days of OpenAI」という12営業日連続の発表イベントの中で、11日目に発表されたものがmacOS版ChatGPTのMacアプリ認識である1。「Work with Apps on macOS」機能2という名称で、ChatGPTが他のアプリの内容を読み取り、利用者の作業文脈に合わせた回答や支援を行うものだ。ChatGPTは言わずと知れた超有名AIで、日本でも「チャッピー」の愛称で親しまれる。
概要
「Work with Apps on macOS」は、ChatGPTが画面上の他のアプリを認識し、それをChatGPTとの会話のコンテキストに加えられる機能だ。この機能はAppleのアクセシビリティAPIを利用して画面上の項目を読み取るため、初回利用時はシステム設定で必要な権限を与える必要がある。
ChatGPTアプリまたはOpt + SpaceでChatGPTのランチャー(コンパニオンウィンドウ)を開き、ChatGPTのチャットバーを展開する。そのチャットバーに「現在どのアプリと連携しているか」「どの内容を認識しているか」を示すバナーが表示され、それによってバナーに表示されている内容を使ってChatGPTがそのコンテキストを回答に利用しているということがわかりやすくなる。
テキストエディタ系アプリ(メモアプリやNotionなど)では、画面上で開いているノートや文書の全テキストを取得し、可能な範囲でそれをプロンプトに含める。また、テキストを選択している場合はその選択部分を重視しつつも、開いている全体をコンテキストに入れる。
コーディング系アプリ(XcodeやVisual Studio Codeなど)では、開いているファイルのコード全文を取得し、選択中の行があればそこにフォーカスして回答する仕組みだ。追加機能として、コードの直接編集が可能であり、「この部分を置き換えて」などと依頼することでその差分をChatGPTが生成して、それをユーザーが適応しやすくする。
コーディング系アプリに重点が置かれていることからも当初は開発者の隣で支援する「ペアプログラマー」を目指していたものであるが、現在ではメモやNotionといったコーディング以外の間口も広がり、一般ユーザーでもその恩恵が享受できる。
検証
ではここからは実際の動作の様子を紹介する。なお、この項はいろどり(X @irosan888 )に画像提供していただき執筆した。
まずは純正メモアプリでの様子だ。連携させているアプリの内容を読み込み理解した上で、ユーザーのリクエストに回答できている。もちろんその回答は安定のChatGPTクオリティであるため、内容を的確に読み取った上でできている。
直接アプリに対して変更を加えることはできないが、その代替案として引用をきちんと示し、それに対する回答であることを明確にした上で変更先のレコメンドができている。


次にターミナルでの動作だ。壁紙を時間に応じて自動的に変更するcronを用いた際の動作の様子だが、他のタブで開いているものを認識した上で回答としてコードを出せている。メモと同様にこちらもChatGPT自らによる変更はできないが、その手順やコピーするだけで使えるコードを提案できている。


従来ではそれぞれの内容をコピー&ペーストしたり、スクショしたものをOCRさせたりと「確認して欲しい内容を有能な秘書にメールで送り、それに回答が返ってくる」といった感覚であったのが、このWork with Apps on macOSによりOSとの密な連携ができるようになったことで「有能な秘書が常に自分の隣にいて、一緒に画面を見ながら提案をしてくれる」といった感覚へと変化した。
他のサービスとの比較
Apple Intelligence

やはりMacの機能である以上、Apple Intelligenceが真っ先に思いつく比較対象だろう。先日登場したmacOS Sequoia 15.4でChatGPTと連携したSiriの機能が利用できるようになっている。Siriに画面上のコンテンツについてと指示をすることで、そのスクリーンショットをChatGPTに送信され、その回答もSiriのポップアップ上で確認できる。
しかし、スクリーンショットをChatGPTに送信しているだけであるため、その回答は得られてもそれに対する変更はできない。来年リリースが予定されている新しいSiriで改善する可能性はあるが、現状ではChatGPTとの連携機能については文字で回答を得るところにとどまっている。
もちろん、ChatGPT以前にSiriであるため、カレンダーや連絡先などの編集はできるが、それに関するインテリジェントな回答を求める動作には向かない。
Google Gemini
GoogleのGeminiは一般にChatGPTと対をなす存在として見られ、実際筆者も2ヶ月前ではあるがその比較記事を投稿した。

しかしながら、現在MacなどPCのOS自体との連携機能は限定的である。その中では、Googleサービスとの連携を拡充している状況だ。それらはOSを問わずWeb上で完結し、Google Workspaceを中心としたページ上で動作できる。Google Documentsを開いている際にそのページに関する質問をしたり、Gmailを検索・要約したりといったようにGoogleサービス内を相互で、且つページの遷移がないように設計されている。
なお、スマートフォンではGeminiを搭載したAndroidスマートフォンに、Circle to Searchという画面上のものをなんでも指定して検索する機能が内包されている。Google画像検索や翻訳ができるのはもちろん、それについてGeminiにテキストチャットできる機能が搭載されている。この機能も画面上のもののみであるため全文認識はできないが、Googleはスマホにおいて統合しようとしている方向性であろう。
Microsoft Copilot
Microsoftは、自社のWindows 11にCopilotを統合している3。キーボードショートカット(Alt + Space)で専用ウィンドウが開くようになっており、Google Workspaceと似てOffice (Microsoft 365)の各アプリで埋め込み型のCopilotが存在する。そのため、OS単位で統合されどの画面でも利用できるようになっている上で、ある程度複雑な操作もできるようになっているのが特徴だ。
なお、今回はMac版に焦点を絞って説明しているが、Mac版Officeアプリ、またはEdgeであってもCopilotとアプリ内で連携できる機能は存在している。
このCopilotはOpenAI GPT-4をベースに開発されているが、ユーザーのデータを元にある程度のカスタマイズが加えられる。ただし、現在GPT-4はその後継となる4oと4.5が登場し、前世代のものという印象になってしまうことも否めない。
総括
前の項で説明した通り、各社がこぞってAIとサービスの連携を図っているが、その中でもまずはGPTエンジンが強力であることが強みになるだろう。GPT-4.1も発表され、より一層その進化は加速度的に進む方向性は目に見えている。そのエンジンと密な連携が取れることでより活用しやすい環境になると感じた。
また、従来コピー&ペーストをしていたり、あるいはスクリーンショットからOCRさせていたのと比べ、それに該当する作業を全てChatGPTが自力でやってくれるおかげでその点のミスもなくなり、且つ手間が減るため「フロー状態」を維持したまま作業が継続できるのは大きなメリットだろう。
将来的には、macOSエコシステム全体に広がり4、FinderやSafari、Pagesやメールといった他の純正アプリでも利用できるようになるとより活用幅が拡がるとともに、ユーザーに「困ったらチャッピー」という駆け込み寺のような存在にもなり得るだろう。
- https://www.itmedia.co.jp/news/articles/2412/20/news110.html ↩︎
- https://help.openai.com/en/articles/10119604-work-with-apps-on-macos ↩︎
- https://timesofindia.indiatimes.com/technology/laptops-pc/microsoft-starts-testing-two-copilot-features-one-of-them-can-now-see-your-entire-screen/articleshow/120133343.cms ↩︎
- https://www.maginative.com/article/openai-adds-deeper-system-integration-to-chatgpt-desktop-apps-for-mac-and-windows/ ↩︎
コメント