【生成AI】Googleの「Gemini」とMicrosoftの「copilot」を比較してみよう③

 生成AIはとにかく使ってみるということで、Googleの「Gemini」とMicrosoftの「Copilot」を比較しているのですが、今度は、写真から場所を特定できるのかどうかを試してみました。



テレビ
のニュースでやっているのを以前見たことがあって、自分でテストしてみようと思った次第です。

今回使った写真はこちら


東京都の恵比寿ガーデンプレイスです。

結果は、
Googleの「Gemini」が正解でした。回答は、
この写真は、東京都渋谷区と目黒区にまたがる複合施設、恵比寿ガーデンプレイスで撮影されたものです。

手前に見える大きなアーチ状の屋根は「センター広場」にあるもので、奥にそびえ立っているビルは「恵比寿ガーデンプレイスタワー」です。この広場では、冬になるとバカラのシャンデリアが展示されることでもよく知られています。

Microsoftの「C
opilot」は次のような回答をしてきました。
写っている建物は、特定の有名ランドマークとは断定できないタイプの超高層ビルです。
ただし、いくつかの特徴から「どういう場所の可能性が高いか」は推測できます。
このデザインは、以下のような都市のビジネス街でよく見られるタイプです。
・ 東京(丸の内・新宿・六本木)
 ・横浜みなとみらい
 ・大阪梅田 

なぜ、Microsoftの「Copilot」が間違ったのか?分析方法にどんな違いがあるのか?を
Microsoftの「Copilot」に考えてもらった結果が下の表です。


同じことを、Googleの「Gemini」に考えてもらった結果は次の通りでした。

Gemini

Google マップやストリートビューの膨大な画像データベースと照合する能力に長けているため、有名な場所であればピンポイントで特定するのが得意な傾向にあるようです。

Copilot
今回のように「特定のランドマークとは断定できない」と慎重なスタンスを取ることがあり、画像そのものの照合よりも、視覚的な特徴から言語的に推論しようとするようです。


同じ場所を調べるにしても、プロセスが違うことがよくわかりました。
「場所当て」に関しては、Googleの検索エンジンと密接に連携しているGeminiに一日の長があるようですね。



コメント