Lifehacker 2025年4月16日掲載の記事より転載
Gemini Liveは、GoogleのGeminiアプリ内で自然な会話ができるモードですが、そのGemini Liveに今回大幅なアップグレードが行われました。
今回のアップグレードにより、スマートフォンのカメラで見ているものや画面に表示されている内容について、リアルタイムで質問に答えられるようになりました。この機能は、まずGoogle Pixel 9とSamsung Galaxy S25のスマートフォンに搭載されます。
これまでも写真やスクリーンショットをGeminiに解析させることはできましたが、今回のアップグレードで特に興味深いのはリアルタイムでの対応が可能になった点で、それはまるでGemini Liveがあなたの周囲の世界を実際に見ているかのようです。
この機能の一部は、2024年Googleが「Project Astra」という名前で披露していたのを覚えている人もいるかもしれません。
Samsungは「いつでも助けてくれる信頼できる友人のような感じ」と述べており、Googleはこの強化された機能を使って、パーソナライズされた買い物のアドバイスを受けたり、壊れたもののトラブルシューティングをしたり、散らかった空間を整理したりできると説明しています。
カメラを向けたあらゆるものについて、Gemini Liveと会話することができるのです。
この機能は現在、Pixel 9とGalaxy S25のスマートフォン向けに無料アップデートとして提供されていますが、ほかのAndroid端末にも間もなく対応予定です。
ただし、より広範な利用にはGemini Advancedのサブスクリプションが必要になります。
現時点では、どのスマートフォンがアップデートの対象になるのか明確なリストは公開されていませんが、おそらくこの機能には一定以上のローカル処理能力が必要とされると考えられます。
iPhone向けのGeminiアプリにこの機能が搭載されるかどうかについては、今のところ発表されていません。
いつものように、公式のアドバイスは「回答の正確性を確認すること」です。
つまり、新しいインターフェースを活用できるようになったからといって、Gemini AIの信頼性が以前よりも増したという訳ではないということです。
また、アプリがウェブのサポートを受けるためにはインターネット接続が必要です。
Geminiチャットの入力ボックスの右端にあるボタンをタップすることで、Gemini Liveインターフェースを起動できます(音波のような形をしています)。
そこから、画面下部に2つの新しいアイコンが表示されます。
1つはカメラにアクセスするためのアイコン、もう1つはスマートフォンの画面にアクセスするためのアイコンです。
Gemini Liveインターフェースを閉じると、会話は標準的なテキストチャットとして記録されるので、必要に応じてあとで参照できます。
新機能が手元のGoogle Pixel 9に登場したので、誤った回答、いわゆる「ハルシネーション(誤情報)」がないかを確かめるために、既に答えを知っている質問で試してみました。
まず最初に、カメラインターフェースを起動し、ノートパソコンで観ていた『セヴェランス』のシーズン1についてGemini Liveに尋ねてみました。
最初、Gemini Liveは私が観ていた番組を『YOUー君がすべてー』だと勘違いしていました。おそらくペン・バッジリーとアダム・スコットを混同したのでしょう。しかしすぐに誤りを修正し、正しい番組を特定して画面上の俳優の名前も答えてくれました。
次に、UN3481ラベルが貼られた荷物について尋ねてみました。これは「機器に組み込まれたリチウムイオン電池」(この場合はオーバーイヤー型のヘッドホン)を示すものです。
Gemini Liveはリチウムイオン電池が関係していることを正しく認識し、「取り扱いに注意が必要」と答えましたが、それ以上の情報は提供されませんでした。
さらに詳しく尋ねると、Gemini Liveは「これらの電池は機器に組み込まれておらず、別々に梱包されている」と答えましたが、これは不正解です。
Gemini Liveは、スマートフォンのカメラをFitbit Charge 6に向けると、リセット方法を教えてくれました(最初はFitbit Charge 5と認識していましたが、それは無理はない間違いといえます)。
機器のトラブルシューティングをしたいけれど、正確なメーカーや型番がわからないときには、こうした機能が役立つことは間違いありません。
Gemini Liveと画面を共有するのは、なかなか興味深い体験です。
アプリは小さなウィジェットに縮小されるので、スマートフォンを通常通りに使いながら、画面上のどんなことでも質問することができます。
Gemini Liveは、私が使用しているアプリや、アプリ内のコンテンツ(映画のポスターや音楽バンドの写真など)をうまく識別してくれました。また、外国語で書かれたソーシャルメディアの投稿も正確に翻訳してくれたのです。
最近のレスターシティ対ニューカッスルのサッカーの試合に関するウェブサイトについて、Gemini Liveは正しくスコアとゴールを決めた選手を教えてくれました。
これらはすべて画面に既に表示されていた情報です。その試合がいつだったかを尋ねたところ、Gemini Liveは混乱して、2023年5月22日に行われたと答えました。(同じチームが対戦していましたが、およそ2年前のことです)。
Gemini Liveの返答の速さ、冷静で安心感のある対応には文句のつけようがありません。しかし、結果の質に関してはまだ課題が残っています。
もちろん、カメラを向けて「これをどう直すの?」と尋ねるだけで、複雑なGoogle検索を作成する必要がないというような利便性は、たとえ誤りがあっても、多くの人々が使いたくなる理由になるでしょう。それでもやはり心配な点ではあります。
本質的には、これは強化された即時対応型のビジュアル検索といえます。以前なら、同じ質問をするのに「UN3481 ラベル」とGoogleに入力していたところでしょう。
しかし、従来の検索結果のように青文字のリンクが一覧で表示されるわけではなく、自分で情報を確認したり、その信頼性や権威性を判断したりすることができる検索とは違って、Gemini Liveはそのプロセスが見えないブラックボックスのような存在です。
そのインターフェースのおかげで、ときにはまるで魔法のように感じることもありますが、だからといって毎回内容を二重にチェックしなければならないのは、理想的とは言えません。
Screenshot: Google
著者:David Nield - Lifehacker US
翻訳:真栄田若菜/OCiETe
Source: Samsung, Google, GWP, The Guardian, ESPN