Microsoft(マイクロソフト)が開催したイベント、「Build」をオンライン視聴しました。
開発者向けの高度な話が続くなか、自分が使っている未来を想像してワクワクしたのは「マルチモーダルAI」というもの。声と映像で、ビデオ通話をしているかのように買い物の助言をしてくれるんです。
イベントで例として出されていたのは、ハイキングシューズ選び。
「登山に行くけどこの靴にするべきかな? 寒くなりそうだ」と靴を見せると「それはハイキングサンダルだね、最善ではないかも」とAIが答えます。もうこの時点で驚きですが、さらにすごいのは「最善のものを選んで1つカートに入れてくれる?」と言うとそのとおりになるのです。
Image: Microsoftしかも、指示する話し方も、AIのために話し方を無理に工夫したコマンドっぽい感じではなく、まるで友だちと話しているようなラフな感じ。しかもAIが話しているところに被せて話してもきちんと返してくれます。
文字も打ち込まなくていいし、画像も必要ない。「これどう?」とカメラに向かって話すだけで判断してくれるから、機能性を重視した買い物や急いで決断したい時にも、考える手間がなくてすごく良さそう。
Image: Microsoft言葉も視覚情報も理解して、リアルタイムに声で答えてくれるGPT-4oのマルチモーダルAI。
家を出る前に「今日、東京でこの服装だと寒い?」とか聞いて全身を写したら「それだと薄着すぎるから羽織を持っていった方がいい」とか教えてくれるのかな。
Source: Microsoft
【こちらもおすすめ】