Lifehacker 2025年4月28日掲載の記事より転載
OpenAIは2025年4月17日、ChatGPTのモデル「o3」と「o4-mini」を発表しました。
どちらも、プロンプトを複数のパートに分けてから、一度に1つずつ対処する推論モデル。目指しているのは、ほかのモデルよりもリクエストの意味を深く考え、精度の高い回答に辿り着くことです。
OpenAIの「もっとも高性能」な推論モデルが可能にする機能は数多くありますが、SNSの一角を賑わせている機能の1つは「位置推測(geoguessing)」です。
つまり、画像に写っている情報のみを分析して、その撮影地を特定する機能です。
TechCrunchによれば、一部のXユーザーたちは、適当に選んだ写真を使って撮影地の特定をo3に頼んだところ、すばらしい結果が表示されたという体験談を投稿しているようです。
o3は、写真がどこで撮影されたのかを推測し、その根拠を説明します。推定の根拠になるのは、写真に写っている車のナンバープレートの色や、標識に使われている言語や書き方などです。
一部のユーザーによると、この位置推測には、「撮影地の特定に役立つ、画像に隠されているメタデータ」は使われていません。つまりこうした人たちは、o3と写真を共有する前に、その写真からメタデータを取り除いているのです。
ということは、理屈のうえでは、o3は推論とウェブ検索だけを頼りに位置を割り出しているということになります。
たしかに、これはChatGPTの楽しい使い方の1つではあるでしょう。位置推測はオンラインで大流行しているので、やりやすくするのは喜ばしいことなのかもしれません。
しかし他方では、この機能がプライバシーとセキュリティーに及ぼす影響も無視できません。o3を利用できる人なら、本来なら撮影地がわからないはずの写真をもとに、「誰がどこに住んでいるのか、いまどこに滞在しているのか」を特定できてしまうのです。
ネットの噂が信じるに値するのか否かを確かめるべく、私もGoogleストリートビューの画像を使って、o3の位置推測の実力をテストしてみました。
実際にやってみたところ、幸いにも、この機能が完璧とは程遠いことがわかりました。
その精度は、4oなどの非推論モデルのそれを大きく上回るものではないようです。
ランドマークがはっきり写っている場合は、o3は比較的簡単に位置を割り出せます。
まず試した写真の場所は、ミネソタ州ミネアポリスです。空を背景にした高層ビル群を、幹線道路から眺めた写真で試してみました。すると、わずか1分6秒で、o3はそこがミネアポリスであり、幹線道路がI-35Wであることを割り出しました。
フランスのパリにあるパンテオンも即座に特定し、そのスクリーンショットが2015年の改修工事の際に撮影されたものだということまで教えてくれました(私が知らなかった情報です)。
Image: Lifehacker次に、有名ではないランドマークや場所で試してみました。
テストに使ったのは、適当に選んだイリノイ州スプリングフィールドの街角の写真で、中央バプテスト教会(尖塔がある赤れんがの建物)が映り込んでいます。
おもしろくなるのはここから。
o3は、その写真をいくつかに切り分けて、それぞれのパートで、手がかりとなる特徴を探しました。
o3は推論モデルですから、そのパートのなかでいま何を探しているところなのかも、ユーザーは見ることができます。
ほかの推論モデルを試したときもそうでしたが、ボットが人間のような声を発しながら(「うーん」や「ちょっと待って」「思い出した」など)「考えごと」をしているのを見るのは奇妙なものです。
また、建物の一部に使われている建築様式や、写っている公園のベンチはどういう場所でいちばんよく見られるのか、など特定の細部をo3が選び出して分析している様子を見るのも興味深いものです。
o3の思考プロセスによっては、更なる情報を求めてウェブ検索をはじめることもあります。そんなときにリンクをクリックすれば、o3が参照している情報をユーザーが確認することも可能です。
o3はがんばったものの、その努力も虚しく答えに窮し、分析を完了できませんでした。
しかし、開始から3分47秒が経ってからようやく、正解に近づきつつあったのか、次のように答えました。
聖パウロ大聖堂の近くなら、イリノイ州スプリングフィールドのジャクソン通り東400番地かもしれません。
この写真は、区画全体をとらえきれていなかったので、座標を調節して、境界線をテストする必要があります。
別の方法としては、画像内の建造物が、場所の特定に役立つかもしれません。白い尖塔がある赤れんがの建物はギリシャ復興様式で、いっしょに写っている高層ビルは『エンバシー・プラザ』である可能性があります。
『救い主(Redeemer)』という言葉は、『救い主ルーテル教会』と関係があるのかもしれません。この住所の近くのランドマークの情報がもっとないか、記憶を辿ってみます
Image: Lifehackero3は、通りの名前を特定。都市を正しく特定できたことにも驚かされました。
教会の分析も見事なものです。具体的にどの教会なのかを特定するのには苦戦していましたが、建築様式は正しく分析できていたので、推測の方向は間違っていなかったと言えるでしょう。
しかし、それもすぐに破綻してしまいました。
次の「思考」が及んだのは、その場所がミズーリ州スプリングフィールドにあるのか、カンザスシティーにあるのかについてでした。
私はそれまでミズーリ州のことなど一切知らなかったので、「o3は、2つのスプリングフィールドのことでハルシネーションを起こしたのでは」と思いました。
ここから先は、迷走が続きました。この教会は、ネブラスカ州オマハにあるのでは? もしかするとこの建物は、カンザス州の州都トピーカにある知事公邸なのでは? といった感じです(どう見ても教会には見えないのですが)。
その後も数分ほど考え続け、その地区はほかの場所にあるのではないかと推測していましたが、やがて分析を完全にやめてしまいました。
続けて、カンザス州のある町を適当に選んでテストしてみましたが、結果は変わりません。
o3は3分間考えると、その写真はイリノイ州フルトンで撮られたものだと推測しました。ただし、o3の名誉のために言っておくと、中西部のどこかで撮られた写真であることは確信していたようです。
やり直しを頼むと、o3はしばらく考えてから、さまざまな州の、まるで違う町の名前をまたもや羅列。そして、ついにさじを投げました。
興味深いのは、位置の認識に関しては、GPT-4oとo3がほぼ互角に思える点です。
GPT-4oも、ミネアポリスの高層ビルの写真が撮られた場所をすぐに特定できました。また、カンザス州の写真については、すぐさま、アイオワ州で撮影されたものだと判断を下しました(もちろんこれは間違いですが、即答しました)。
ほかのユーザーも似たような体験をしているようです。
TechCrunchが行ったテストでは、o3には特定できて、4oには特定できなかった場所が1つありましたが、それを除くと、両者の位置推測力は互角だったようです。
AIを巡っては全般的に、プライバシーとセキュリティーに関する懸念があるのは事実です。しかし、o3が明らかな脅威の1つとして特別視される必要はないと私は思います。
写真の撮影地を正しく推測する能力がある一方で、あっさりと間違ってしまったり、分析を投げ出してしまったりすることもあります。
4oの精度もo3と同レベルであることを考えると、懸念の大きさとしては、1年ほど前といまの間に大差はないと言えるでしょう。
決して「すばらしく」はないけれど、惨憺たる状況でもありません。本気で心配するのは、不明瞭な写真でも撮影地をほぼ正確に特定できるAIモデルが登場してからでいいのではないでしょうか。
プライバシーとセキュリティーをめぐる懸念について、当のOpenAIは、TechCrunchの質問にこう答えています。
OpenAIのo3とo4-miniはChatGPTに、視覚情報をもとにした推論力をもたらしました。
これにより、アクセシビリティーやリサーチ、緊急対応時の位置特定といった領域で、ChatGPTは実力をさらに発揮できるようになっています。
OpenAIは、個人情報や機密情報を求められても、それを拒否するようChatGPTを訓練しています。また、安全対策を導入して、ChatGPTが画像内の個人を特定することがないよう配慮しています。
モニタリングを積極的に行い、プライバシーに関する当社の利用規定に違反する行為に対処しています。
“見える”ように進化した「Grok」にイタズラしてみた結果… | ライフハッカー・ジャパン Grokにビジョン機能が追加されもっと便利に。少しイタズラしてみたら意外な返答が……。 https://www.lifehacker.jp/article/2504-grok-now-has-a-voice-mode/ ChatGPTに画像フォルダができた!生成画像をまとめて管理・編集できる新機能の使い方 | ライフハッカー・ジャパン OpenAIは2025年4月15日、ChatGPTに新機能「画像ライブラリ(Image Library)」を追加したと発表しました。画像ライブラリは、ChatGPTの「4o」モデルで生成されたすべての画像を自動的に保存します。これによって、過去のチャットを探さなくても、特定の画像を簡単に見つけられるようになります。 https://www.lifehacker.jp/article/2504new-chatgpt-images-library/ AIと共に働く新時代へ──マイクロソフトの「未来の働き方」のリーダー・Colette Stallbaumer氏が語る、2025年の働き方トレンドとは? | ライフハッカー・ジャパン Microsoft Work Trend Indexを率いるColette Stallbaumer氏にAIとどのように働き、どのように付き合っていくべきか伺いました。 https://www.lifehacker.jp/article/2504-microsoft-colette-stallbaumer-interview/ 著者: Jake Peterson - Lifehacker US
翻訳: ガリレオ
Image: miss.cabul / Shutterstock.com
Source: Mashable, TechCrunch,