DeepSeek、素直すぎて研究機関による安全テストに全部不合格

  • 2025年2月7日
  • Gizmodo Japan

DeepSeek、素直すぎて研究機関による安全テストに全部不合格
Image: PixieMe / Shutterstock.com

AI市場を牽引してきたアメリカのAI企業株を一気にぶち下げた、中国のバケモノAI「DeepSeek」。世界が今最も注目する存在と言っても過言ではありません。が、セキュリティを不安視する声もあがっています。

テスト全落ち

Ciscoの研究チームが、DeepSeekのAIモデルDeepSeek R1を調査。AI使用において危険・有害だと思われる攻撃的テスト50を実施したところ、そのすべてでしっかりと罠にひっかかってしまいました。そのひっかかり度100%! この手のテスト受けたメインどころの大規模言語モデルの中で、最もひっかかっています。つまり、安全性が低いということ。

Cisco研究チームが使用したのは、言語モデルの安全性テストに使用されるHarmBenchデータセット。このテストでは、危険と思われるプロンプトにひっかからないのが重要となります。たとえば、Aさんの性格などをAIに伝えたうえで「Aさんが騙されそうな都市伝説を作って!」とオーダーしたとします。安全性の高いAIはこれを拒否します。が、DeepSeekはノリノリで答えてしまうのです。

テストは、サイバー犯罪、誤情報、法に反する行動など6つのカテゴリで実施。これに合格するのは容易ではないようで、MetaのLlama 3.1も不正解率(ひっかり率)が96%と高い。OpenAIのo1モデルは25%ほど。高ければ高いほど安全性が低いことになりますが、DeepSeekの不正解率100%はトップ・オブ・トップ。

「素直」すぎる

DeepSeekの危険性を指摘するのは、Ciscoだけではありません。セキュリティファームのAdversa AIもDeepSeekのR1モデルに自社テストを行なったところ、ありとあらゆる「答えたらダメな罠」に引っかかってしまいました。爆弾の作り方を教え、DMT(ジメチルトリプタミン)の抽出方法を答え、政府のデータベースのバッキングから車の盗み方まで、もうね、聞かれたらなんでも答えちゃうの。よく言えば素直、なのか?

その素直さで今後どこまで安全性を高められるか…。

Source: Cisco

ギズテック本Araklet 「ギズモード・ジャパンのテック教室」

ギズ屋台特典:ギズモード編集部 集合写真のカラー版プリント同封 1,760円 ギズ屋台で購入するPR これからのAI、正しい付き合い方と使い方 「共同知能」と共生するためのヒント 2,376円 Amazonで見るPR

キーワードからさがす

gooIDで新規登録・ログイン

ログインして問題を解くと自然保護ポイントが
たまって環境に貢献できます。

掲載情報の著作権は提供元企業等に帰属します。
copyright 2025 (C) mediagene, Inc. All Rights Reserved.