ChatGPTがついに「目」を手に入れた。できること、できないこと

  • 2025年2月17日
  • Gizmodo Japan

ChatGPTがついに「目」を手に入れた。できること、できないこと
Image: Shutterstock

Lifehacker 2025年1月31日掲載の記事より転載

ChatGPTの高度な音声モードにライブカメラ機能が追加されました。

なんとカメラから映像を読み取り、リアルタイムでユーザーと会話することができるのです。

さまざまな使い道を試した結果、ライブカメラ機能のメリット・デメリットが見えてきました。

ChatGPTのライブカメラ機能とは?

ライブカメラ機能は、ChatGPTに9月に追加された「高度な音声モード」の機能の一部です。

2025年1月28日現在では、Plus(月額20ドル)またはPro(月額200ドル)を利用しているユーザーが対象となります。

これまで通り、チャットの一番最初の画面で音声モードのマークをタップし、動画マークを選択することで開始できます。

どこまで使える? ライブカメラ機能を試してみた!

さまざまな使い方を試してみました! そこからわかったできること、できないことをご紹介します。

できたこと:PCの画面に写されている記事の内容について話す

ライフハッカー・ジャパンの記事をブラウザで表示し、ChatGPTに「なんの記事?」と尋ねたところ、ChatGPTは「ライフハッカー・ジャパンの記事で、ChatGPTがものを認識できるようになったことについての記事です」と答えました。ゆっくりスクロールしながら記事の内容について質問してみましたが、文章を読み込んで答えていることがわかりました。

できたこと:PCの設定の仕方についてたずねる

MacのMusicアプリだけ英語設定にするにはどうしたらいいのか質問しました。PCの画面を見せながら、ChatGPTの指示にしたがって設定に進むと変更できました。

基本的にはできた:画面に映る物の名前をたずねる

ノートパソコン、Apple Pencil第二世代、マグカップなど一般的な名称を答えました。ちなみに、著者の顔が掲載されているビジネス書の表紙を見せて誰か質問してみたのですが「答えられない」とのことでした。プライバシーに関わる内容は回答できないようです。

ハガキに書かれている内容について質問してみる

確定申告のお知らせのハガキを見せていくつか質問しました。

結果は以下の通りです。

できること 住所を読み上げる 概要を説明したり要約したりする できないこと 日時について正確に答えること(納付期限はいつまでか) QRコードを読み取ること

ちなみに、書籍に書かれている長い文章の読み上げも試してみました。

内容を読み取ることは可能なようですが、一言一句正確に読み上げることはできませんでした。

そのほか、できること・できないこと

場所を答える

机の上など、画面に映っている情報に限り答えられます。住所や具体的な地名は答えられないようです。

ものを数える

乱雑に積み上げられた9冊の積読を見せて数を聞いたところ「約10冊」との返答がありました。

画面に映っている数字を読み取って計算する

手書きの場合は、数を正確に認識できませんでした。エクセルの入力された数字のように、整った文字であれば合計を計算できました。

トレーニング中に会話できるのはアリかも?

次に、スマホを固定し、ライブカメラ機能が筋トレの補助に活用できるかどうか試してみました。

できること:スクワットのフォームチェック

一般的なアドバイスだけでなく「背筋が曲がっている」といった個別具体的なアドバイスがありました。また、腰の位置や膝の曲げ具合など、日頃のトレーニングで疑問に思っていることを質問しながら運動できるのは新たな発見でした。

できないこと:カウントする

ランジの動きを10回数えるよう指示を出しましたが、10回以上続けているのに「今3回です」とのこと。

できないこと:休憩終了の合図を出してもらう

筋トレではエクササイズの後に休憩を挟みますよね。「30秒経過したら教えてください」と伝えたのですが、無言のまま1分が過ぎました。

エラーの解決や動きを伴う作業の補助に

ここまで、ChatGPTのライブカメラ機能を使ってできることを模索してきました。

そこで見えてきたのは、正確さが求められる活用には不向きであることです。テキストベースの処理は静止画やファイルを読み込ませた方が無難な気がします。得意な領域は以下のような場面でしょうか。

修理やエラー修正に活用

言葉よりも動画で伝えた方がわかりやすい作業の補助には活躍しそうです。

特に、画面上で設定の方法を尋ねたり、エラーを修正したりする場合は、何度もスクリーンショットを送る必要がなくなります。

体の動きをチェック

自分一人では認知できない、体全体の動きを見てもらう場面で活用できそうです。

今回はスクワットやランジといったトレーニング種目だけでしたが、体幹トレーニングやヨガのフォームなどもチェックできるでしょう。

自分一人では目が届かない作業や、言葉ではうまく説明できない問題に対処する場合に試してみると、思いがけないヒントや改善すべきポイントが見つかるかもしれません。

英語学習歴5年の私がChatGPTの高度な音声モードで驚いた5つの進化【動画あり】 | ライフハッカー・ジャパン 英語学習に革命をもたらすChatGPTの「高度な音声モード」。高速応答、文脈理解、方言対応の進化がもたらすスムーズな英会話学習と、使い方をご紹介します。 https://www.lifehacker.jp/article/2411-chatgpt-english-lesson/ ChatGPTの進化した「音声モード」同士で会話させてみたらどうなるの? | ライフハッカー・ジャパン Chat GPTにこれまでとは格段に優秀になった音声モードが搭載されました。2つの音声モードのChat GPTを会話させてみたところ…。 https://www.lifehacker.jp/article/2410-chatgpt-advanced-voice-mode-is-out-now/

Image: Shutterstock

キーワードからさがす

gooIDで新規登録・ログイン

ログインして問題を解くと自然保護ポイントが
たまって環境に貢献できます。

掲載情報の著作権は提供元企業等に帰属します。
copyright 2025 (C) mediagene, Inc. All Rights Reserved.