コンテンツにスキップ

Home

AIエージェントベンチマークスイート
FieldWorkArena
現場作業のAI化を加速する、世界をリードするベンチマークスイート

最新情報

  • 2024/1/30: V1.0として、工場のデータ一式を 公開(日本国内のみ)
  • 2024/2/27: V1.1として、工場のデータ一式を 海外公開

  • 評価プログラム:GitHubでの公開

  • 評価用データ一式:申請フォーム

AIエージェントの導入と評価

AIエージェントの導入と評価
高齢化、人材不足、意思決定の遅れなど、多くの現場が抱える課題に対し AIエージェントの導入が検討されています。そして今回、AIエージェントの 機能向上のため、Web操作の評価手法を現場業務に拡張して AIエージェントを評価するベンチマークスイートが開発・提供されました。

FieldWorkArenaなら

FieldWorkArenaなら
FieldWorkArenaは、画期的なAIエージェント評価用ベンチマークスイートです。 富士通の実際の工場・倉庫のデータとタスクを用いることで、AIエージェントが 実現場でどの程度有効に機能するかを定量的に評価します。これにより、 AI導入における課題の明確化、そして現場適用時のエビデンスの確保を実現します。

FieldWorkArenaがもたらす価値

  1. 客観的なAI性能評価
    • 実現場に近い環境でAIエージェントを評価し、その性能を客観的に測定できます。
  2. 迅速なAI開発サイクル
    • ベンチマークを用いた効率的なテストにより、AIエージェントの開発期間を短縮できます。
  3. 信頼性の高いAI導入
    • AI導入のリスクを軽減し、成功確率を高めます。
  4. 現場作業の効率化・安全性の向上
    • 高性能なAIエージェントの選定・開発を通じて、現場作業の効率化と安全性の向上を実現します。
  5. AI技術の進化促進
    • 標準化されたベンチマークを提供することで、AI技術の研究開発を加速させます。

技術概要

ターゲット業界・ユーザー

製造業(工場、倉庫)および物流業界が主なターゲットです。ユーザーは、AIエージェントの開発者、現場作業の効率化・安全管理の改善を目指す企業などです。

ターゲット業界・業務の課題

  • 現場作業では、安全面・製造面でのヒヤリハットが日々起きており、重大インシデントの発生を抑制する必要があります。
  • 現場には膨大なデータ(映像・ドキュメント)が存在しており、情報抽出と分析が困難です。
  • 発生した事例を、企業システムに連携させる方法が整っていません。

技術課題

GPT-4oに代表されるマルチモーダルLLMやAIエージェントなどのAI技術を用いて、上記の課題を解決する方法が考えられます。 ただ、下記の理由で、本格的な導入には至っていません。

  • 現状の複雑なワークフローに対し、既存のAI技術の実力が不明確
  • 現場で得られる多様なデータ形式(テキスト・画像・ビデオ・ログ等)の統合的な処理が難しい
  • 状況に応じて、適切なソースを選択して自律的に業務を遂行する技術が確立されていない

解決策

Fujitsuが提供するFieldWorkArenaは、2か所の実現場シーンから得られる40種以上のデータ(映像、作業マニュアル)と500もの現場固有のタスク、 正解データを含んだAIエージェント向けベンチマークスイートです。 既存のマルチモーダルLLMや研究開発中のAIエージェントが、 現場における様々な作業をどの程度支援できるかを定量的に評価できます。FieldWorkArenaは、解決すべき課題の明確化やAIの現場適用時の エビデンスとして活用できます。

解決策

富士通の技術優位性

  • 工場や倉庫などの実現場のデータやタスクから構成されるAIエージェントの性能評価用ベンチマークスイートは、他社に存在しない(2025年1月当社調べ)
  • 作業の計画・アクション・レポートという様々な種類の現場作業を包括的に取り扱うベンチマークを提供
  • AIエージェントベンチマークで世界をリードするCarnegie Mellon University (CMU) との共同研究

FieldWorkArenaがもたらす価値(詳細)

  • 現場作業支援AIエージェントの開発・評価のための標準的なベンチマークの提供
  • 工場や倉庫などの製造業の現場作業の効率化、安全性の向上、生産性向上に貢献
  • 研究コミュニティにおける現場作業支援向けAIエージェントの研究開発の活性化

利用シーン

  • エンドユーザー
    • 既存のAIエージェントやマルチモーダルLLMなどのAI技術を検証することができる。
    • リーダーボードを参照することで、性能の高いAI技術を選択することができる。
  • アプリ開発者
    • AIエージェントやマルチモーダルLLMなどのAI技術を本ベンチマークで評価することで、既存技術と比べた優位性の主張が可能になる。

事例・ユースケース

  • 現場のカメラ映像からヒヤリハットを検出し、適切な担当者に自動的に報告・指示するAIエージェントの評価
    • 倉庫作業における安全衛生違反の検知と報告
    • 部材の組立工程における作業手順の遵守状況の確認
  • 将来的に小売のシーンや、CGデータを用いたタスクの提供を予定

ユースケース

技術お試し

関連情報