OpenAIが2025年4月に公開した推論特化モデル ChatGPT o3 は、従来比でさらに「長く考える」よう訓練された最上位モデルです。画像・コード・ウェブ検索など ChatGPT の全ツールを自律的に組み合わせ、複合的な課題を1分以内で解決できるのが特徴です。
今回はそんなモデルo3を使って画像が撮影された場所を特定する実験を行ってみました。
ChatGPT o3とは?
主な特徴
特徴 | 概要 |
---|---|
マルチモーダル推論 | 画像を“思考の一部”として扱い、ズーム・回転などの処理をしながら分析できる。 |
フルツールアクセス | Web検索・Python実行・ファイル解析・画像生成/編集を自在に呼び出して回答を構築。 |
SOTAの推論精度 | Codeforces や MMMU など多数ベンチマークで SOTA を達成。特に画像絡みの問題で高得点。 |
柔軟な指示追従 | 会話履歴を参照してトーンや要望を細かく反映し、誤解の少ない応答を生成。 |
o3で出来ること(例)
カテゴリ | 具体例 | 使ったツール |
---|---|---|
画像理解 | 白板の手書き数式を解析し解答を提示 | 画像 → Python |
場所特定 | 今回の作例 – 街角写真から住所を割り出す | 画像 → Web検索 |
データ分析 | CSV を読み込み可視化し、シナリオ分析を実行 | Python |
画像生成・編集 | ブログ用サムネや図解を一括生成 | image_gen |
リアルタイム調査 | 政治・スポーツ・経済など最新ニュースを要約 | web.search |
実践: 街角写真の “撮影場所” を割り出す
準備
- ChatGPT のモデルを o3 に設定。
- 写真ファイル 解析してほしい画像をアップロードして指示を出します
推論ステップ(ダイジェスト)
画像のいろいろな場所を切り取ってズームしたり勝手に解析が始まります。
画像を解析して勝手に考察を始めました。
なんとなく場所の特定ができると検索を開始
そして場所の特定が完了。撮影した場所や撮影した方角まで当てています。
推論の流れはこんな感じです↓
Step | モデルの観察ポイント | アクション |
---|---|---|
① | 看板に「GB 群馬銀行」「CAFFÈ veloće」を確認 | 画像をズーム&トリミング |
② | 街路灯プレートに「日本橋」、7‑Elevenのブロック番号「32」 | 画像を再ズーム |
③ | キーワードを組み合わせて検索 → 日本橋 群馬銀行 ベローチェ |
web.search |
④ | 検索結果から住所「中央区日本橋2‑3‑21」を取得 | リンクを開いて地図照合 |
⑤ | ストリートビューで建物外観を照合し確定 | 画像と並べて比較 |
そしてたった2分足らずで画像の解析を行い、ストリートビューで場所の確認まで行って場所の特定が完了してしまいました。地名が入った看板やチェーン店が写っている画像だと一瞬で場所が特定することができるようです。
ちゃんと場所を特定できた理由までまとめてくれます。
恐ろしいほど正確に場所が特定されました!
まとめ
ChatGPT o3 は「画像・コード・検索」を自在に組み合わせて課題を解決する次世代 AI です。今回は写真一枚から根拠付きで場所の特定を行いましたが、素晴らしい技術と感動すると同時に、使い方によってはちょっと恐怖に感じることも。AIの進歩はこれからさらに指数関数的に上がっていきます。あなたもいろいろ試してみてください!
YouTube単体企画も好評!”本能ブログチャンネル”もよろしくお願いいたします!
↓↓