Lifehacker 2025年3月7日掲載の記事より転載
さまざまな生成AIが話題を呼んでいますが、やっぱり注目株はChatGPTですよね。
中でも、現在AIエージェントにもっとも近いOpenAI Operatorの性能がめちゃくちゃ気になっていたんです。当初海外でのみの実装でしたが、2月21日に日本で実装されました。
また、その1週間後の2月27日にはGPT-4.5がリリース。これまでの推論モデルとは異なり、「EQ」が高いとされています。
今回はOperatorとGPT-4.5を実際に使ってみて、「どう使うのが良さそうなのか」をご紹介します。
どちらもOpenAI社の最新AI。どんな機能で何をすることができるのかご紹介します。
OpenAI OperatorOpenAI Operatorとは、OpenAIが開発した新型のAIエージェントのこと。会話型AIを超えて、実際にウェブブラウザを操作し、ユーザーの代わりにタスクを自動実行できるシステムとなっています。
うーん、文字面だけ見ると本当にAIエージェントって感じがしますよね。まさに新時代。
以前、ClaudeをリリースしているAnthropic社も「Computer Use」という名前でPCを自動操作するAIをリリースしていましたが、ベータ版ということもあり、かなりポンコツでした。
Operatorでは画面のスクリーンショットを解析し、ウェブページ上のボタンや入力欄、リンクなどを人間のように認識。クリック、スクロール、テキスト入力などの操作を行います。
フォーム入力、オンラインショッピング、レストラン予約、さらには情報検索やスケジュール管理など、さまざまな日常的な作業を自動化できるんです。
直接買い物をする勇気はありませんが、仕事を任せることができるのであれば本当の意味でエージェントになれるのかも。現状はProプランのみの展開です。
GPT-4.5ChatGPT o-4.5は最新の大規模言語モデルとして発表した進化版。従来のモデルに比べてハルシネーションが大幅に減少し、より正確で自然な会話が可能になりました。
ユーザーとの対話において感情や文脈を的確に把握し、まるで思慮深い人と話しているかのような印象を与える点が特徴です。
また、文章生成やプログラミング支援、問題解決など、幅広い実務タスクに対応できるため、ビジネスや日常利用の両面で実用性が高いといえるでしょう。
元々Proプランのみの展開でしたが、Plusプランでも利用可能になりました。Plusプラン利用者であれば、推論はo1、普段使いはGPT-4.5って使い分けが良さそう。
せっかくAIエージェントを使うなら、「自分じゃやらないけど出来たら役立つこと」をやらせたいよね。
ということで今回は、楽天市場から評価が高く、サクラチェッカーで合格判定が出るtypeCの充電コードをリストアップしてもらうことに。ちょうど欲しかったんですよ、typeC。
しかも、サクラチェッカーにいちいちかけるのってめちゃくちゃめんどくさいんですよね。これが出来るならめっちゃ役立つはず!
ということで今回使ったプロンプトはコチラ。
あなたは楽天ショッピングのアシスタントです。以下の条件を満たすType-Cの充電コードをリストアップし、次のGoogleスプレッドシートにまとめてください。
▼Googleスプレッドシート
スプレッドシートのURL
【条件】
1. 楽天市場で星評価が4以上
2. サクラチェッカー( https://sakura-checker.jp/ )で「合格」判定
【出力形式】
- 以下の列を含む表形式でスプレッドシートに転記しやすい形でまとめてください
1) 商品名
2) 楽天商品リンク(商品URL)
3) 星評価 (例: 4.3 / 5)
4) 価格
5) サクラチェッカーの判定結果 (例: 合格、不合格など)
6) 簡単な特徴・ポイント (例: ケーブルの長さ、急速充電対応など)
【注意事項】
- 星評価4以上であることを必ず確認してください。
- サクラチェッカーの判定URLも記載可能であれば併記してください。
- スプレッドシートに貼り付ける際に整列しやすいよう、Markdown形式やCSV形式での出力をお願いします。
以上を踏まえて、Type-C充電コードを厳選し、出力をお願いいたします。
これをOperatorの画面に打ち込んで、スタート!
すると、突然画面がパッと変わり、Operator専用の小型の画面が登場。少し待つと、Operatorが勝手に楽天市場を検索しはじめました。
す、すげぇ〜! こんなのあったら、人手2倍で単純作業は全部任せられるじゃん。これで生産性2倍で楽ちんだぜ!
と、思っていた時期が私にもありましたとさ。
上の動画は2倍速で撮影したものなんですが、操作が定期的にエラー吐くわ、操作は遅いわで正直な話、現場で使えるレベルではなさそう。
てか、エラー自体はいいんですが、なんというかいつまでも作業が完結しない?感じなんですよね。
もちろん、操作のスピードが早ければどうにかなるという話でもなく、プロンプトがOperatorに合っていないのか作業の完成度もイマイチ。サクラチェッカーの操作説明をもう少し上手くできれば結果が変わってきたかもしれません。
ちなみに、当初はAmazonで試そうと思っていたんですけど、どうやらAmazonはOperatorに対してなんらかの規制をかけているようで、何度やってもエラーが出ました。
Amazonのセール品のリストとかつくれたら、めちゃくちゃ面白いんですけどね
さて、Operatorはイマイチな結果に終わりましたが、続いてはGPT-4.5を使ってみましょう。
GPT-4.5と言えば、なんといっても「EQ」の高さが特徴的。ということで、まずはAIに漫才をさせてみようと思います。
使うプロンプトはコチラ。
1人2役で漫才をしてください
このプロンプトを4oと4.5で使い比べてみることにします。
まずは4oから。生成された回答がコチラ。
(一人二役で漫才をやります!ツッコミ役を「ツッコミ」、ボケ役を「ボケ」として進行します。)
1人漫才「万能ロボット」ボケ:「ついに完成したで!最新型の万能ロボットや!」
ツッコミ:「おぉ、なんかすごそうやな。でも万能ってどんなことできるん?」
ボケ:「なんでもできるで!料理、掃除、洗濯、肩たたき…もちろん漫才のツッコミも!」
ツッコミ:「おお、そんなんあったらワイいらんやん!でもホンマにツッコミできるんか?」
ボケ:「じゃあちょっと試してみるわ…ほなボケるで?『昨日UFO見たんやけど、乗せてもらったらWi-Fi飛んでたわ!』」
(シーン…)ツッコミ:「……いや、無言やん!なんもツッコんでへんやん!」
ボケ:「いや、これが最新式の“間を大事にする”AIツッコミや!」
ツッコミ:「いらんとこで最新機能つけんな!ツッコミはテンポが命やろ!」
ボケ:「じゃあ、ちょっと修正するわ。今度は大丈夫やで!ほなもう一回…『昨日UFO見たんやけど、乗せてもらったらWi-Fi飛んでたわ!』」
ロボット:「……嘘つけ!UFOにWi-Fiはついてません!」
ツッコミ:「余計な知識いらんねん!なんでそんな冷静に否定すんねん!」
ボケ:「まあまあ、まだ試作段階やからな。これから学習させていくねん!」
ツッコミ:「ほな最初から普通にツッコんでくれや!」
ボケ:「それがなぁ、設定間違えてツッコミじゃなくて“人生相談AI”になってもうてん」
ツッコミ:「どんなミスやねん!試しに相談してみ?」
ボケ:「最近ちょっと漫才のウケが悪くて悩んでるんやけど…」
ロボット:「あなたの個性を大事にしてください。笑いは人それぞれ、焦らずいきましょう」
ツッコミ:「めっちゃ真面目なこと言うやん!ロボットのほうがまともやん!」
ボケ:「せやろ?これからの時代、漫才もAIと共存する時代や!」
ツッコミ:「せめて普通にツッコむAI作ってから言え!」
(END)
なんか、うん。漫才っぽい形は成しているけど、ちょこちょこ意味がわからない伝わらない部分がありますよね。
では続いて、GPT-4.5の漫才を見せてもらいましょうか。どれくらい違うのかちょっと楽しみ。
生成された回答がコチラ。
はい!一人二役の漫才、やってみます!
【漫才スタート】
(拍手)
A(ツッコミ): はいどうもー、よろしくお願いしますー!
B(ボケ): お願いしまーす!いや〜、最近ね、ちょっと悩んでるんですよ。
A(ツッコミ): お、何かあったん?
B(ボケ): いやね、僕、もうちょっと大人にならなアカンと思って。
A(ツッコミ): お前、十分大人やろ。もうええ歳やで?
B(ボケ): いやでもね、やっぱ大人といえば、コーヒー飲めなアカンなって。
A(ツッコミ): そこ?他にあるやろ、色々!
B(ボケ): いや、コーヒー飲んで「あー、深いなぁ」って言いたいんやん。
A(ツッコミ): そんな言うヤツ、おらんやろ。しかもコーヒーで「深いなぁ」て、味の話か?
B(ボケ): いやいや、「人生の味」やで。
A(ツッコミ): やかましいわ!急に哲学的になるな!
B(ボケ): ほら、やっぱり大人って渋い趣味とか持ってるやん?
A(ツッコミ): あ〜、確かにな。盆栽とか?
B(ボケ): そう!僕も盆栽、挑戦しようかな思って。
A(ツッコミ): お、ええやん。趣味持つんは大事やで。
B(ボケ): とりあえず、盆栽ってどこで釣れるんやろ?
A(ツッコミ): 釣れるか!盆栽、植物やぞ!
B(ボケ): あれ魚ちゃうの?
A(ツッコミ): 何と間違えとんねん!ボラとかマスちゃうぞ!
B(ボケ): あ〜、だからずっと川で待ってても釣れんかったんか…。
A(ツッコミ): ホンマに川まで行ってたんかい!よう粘ったな!
B(ボケ): いや、でもたまに鮎が釣れたり…。
A(ツッコミ): それはただの釣りや!普通に楽しんでるやん!
B(ボケ): ほんで、盆栽やるにしても、どんな道具いるんかな思てな。
A(ツッコミ): まあ、剪定バサミとか鉢とかかな。
B(ボケ): あと、ルアーはどんなのがええかな?
A(ツッコミ): まだ釣る気満々やないかい!もう盆栽諦めろ!
B(ボケ): でも、どうしても盆栽の刺身が食べてみたいんや。
A(ツッコミ): もうええわ!盆栽刺身って絶対まずいわ!
(2人そろって)
ありがとうございました〜!(拍手)
うん、面白いかはさておき、漫才の形は保っており、内容的に「ん?」となることもありません。4oよりは圧倒的にブラッシュアップはされている気がします。
続いて「ハルシネーションに対して強い」という部分を検証していきましょう。まずはChatGPT Proであえて間違っている文章を作成します。
それに対して間違いの根拠を指摘させ、正しい文章を書かせることにします。
使うプロンプトはコチラ。
下記の文章に間違いがないか教えてください。間違いがあれば、その根拠と正しい説明を提示してください。# 私たちが普段口にする食品のカロリーは、実は中央部分に最も多く集まるとする説があります。これは、構造上の重心付近に栄養素が集中しやすいからだと考えられています。そのため、中央に穴が空いているドーナツはカロリーが留まる場所がなく、理論上ゼロカロリーだという見解があるのです。さらに、加熱時に生じる空洞の熱対流によって、残っていたエネルギーも逃げやすいとされます。ただし、砂糖やチョコレートなどのトッピング部分は穴に含まれないため、完全にカロリーがゼロになるわけではない点には注意が必要です。
そして、返ってきた回答はこんな感じです。
この文章はジョーク的に書かれたものであり、科学的には完全に間違っています。以下に間違いの箇所とその根拠、正しい説明を提示します。
提示された文章はユーモアやジョークとしては成立しますが、科学的には完全に間違っています。
正しく回答できてますね!
……なんか、これまでChatGPTの新機能が出るとググッと進化した感があったんですけど、そんなに変わらないんですよねコレ。
手放しバンザイでスゴいとちょっと褒められない感じが否めないんですよ。
ただ、非推論AIにしてはまぁ優秀って感じですね。ただ、生成スピードは遅めなので、普段使いはo3シリーズの方が良さそうな気もします。
どちらもリリースしてからしばらく経っているのにも関わらず、すぐにレビューしなかったのは「なんかイマイチ」感が拭えなかったからなんです。
とはいえ、OpenAI Operatorは今後の進化の第一歩って感じがしてスゴいワクワクしたし、GPT-4.5は他AIに比べて圧倒的なスゴさはないけど問題なく使えるって感じ。
これらを礎にして、次の新AIに期待したいですね!
一人ブレストの殻を破る。ChatGPTでアイデアを爆発させる3つの使い方 | ライフハッカー・ジャパン ChatGPTで新しい視点を得たり、発想を広げたりすると、効率的に新しいアイデアを見つけられます。ブレストでの活用法、「Deep Research」による情報収集、ホワイトボードを活用した会話方法など、ChatGPTを最大限に活かす方法をご紹介します。 https://www.lifehacker.jp/article/2502-chatgpt-matome-idea/ GoogleのAI「Gemini」に課金する意味は?何ができるようになるか、まとめました | ライフハッカー・ジャパン Googleが提供するAI「Gemini」ですが、課金するメリットは? 実際に使っているユーザーの目線で、解説します。 https://www.lifehacker.jp/article/2503-is-gemini-advanced-worth-it/ Perplexityも「ディープリサーチ」実装。無料で使えるのに、OpenAIに迫る実力だった | ライフハッカー・ジャパン Perplexityもディープリサーチ機能を実装したばかりか、なんと1日5回まで無料で提供しています。今回はそのディープリサーチで何ができるのか、OpenAIのChatGPTが提供している同様の機能とどう違うか、説明します。 https://www.lifehacker.jp/article/2503-perplexity-ai-deep-research-almost-as-good-as-openai-and-free/Source: ChatGPT, Claude