Home
Fujitsu ナレッジグラフ拡張RAGで生成した「使えるナレッジ」の公開データセット
生成AIを用いたデータ活用の課題
社内外のデータやWebサイトを生成AIで検索・分析する際、対象となるデータの多くが「非構造化データ」であるため、断片的な知識による出力しかできなかったり、ハルシネーションが発生したり、という課題がありました。 そこで、データを構造化してナレッジ化することが重要になりますが、そのような取り組みはほとんどありませんでした。
ナレッジ公開の意義
共益性の高い公開データ(マニュアル・ドキュメント・データセットなど)を、Fujitsuナレッジグラフ拡張RAG技術によってナレッジグラフとして構造化し、そのナレッジを公開します。 これにより、構造化したナレッジの価値に共感いただき、データ活用の課題を共に解決していきたいと考えています。
公開ナレッジグラフがもたらす価値
- 公開データの活用
- 共益性の高い公開データを構造化することで、誰もがデータを活用しやすくします。
- 研究活動への貢献
- 研究者の方には、ベンチマークデータとして活用いただき、AI技術の研究開発に役立てていただけます。
|
|
|
|
|
|
技術概要
ターゲット業界・ユーザー
- 社内外のデータやWebサイトを生成AIで検索・分析する一般の方やAI研究者
ターゲット業界・業務の課題
- 社内外のデータやWebサイトを生成AIで検索・分析する際、対象となるデータの多くが「非構造化データ」であるため、断片的な知識による出力しかできなかったり、ハルシネーションが発生したり、という課題がありました。
既存の取組みの課題
- これまでも、個別の目的ごとに独自フォーマットや Resource Description Framework形式による構造化が進められてきました(例:Google Data Commons, Discourse Graphs, ナレッジグラフ公開)。 しかし、これらは主に一部の研究者が扱う解析用データを対象としたものであり、日常的に扱われる一般的な非構造化データを広く構造化していく取り組みとは言えませんでした。
- 富士通の差異化技術である Fujitsu ナレッジグラフ拡張RAGは、構造化データであるナレッジグラフを自動作成できる技術ですが、これまでは秘匿性の高いデータ(富士通社内データやお客様データ)に対して技術適用を進めており、公開データは対象としていませんでした。
- このように、既存の取り組みだけでは、共益性の高い公開データ(マニュアル・ドキュメント・データセットなど)をナレッジとして活用可能な形に変換することは十分にできていませんでした。
解決策
- データ活用の課題を本質的に解決するためには、共益性の高い公開データを構造化し、誰もが扱いやすいナレッジへと変換していくことが重要です。そこで私たちは、Fujitsu ナレッジグラフ拡張RAGを用いて公開データをナレッジグラフに変換し、そのナレッジを広く公開する取り組みを開始しました。

富士通の技術優位性
- 本ナレッジを作成・活用する富士通技術「Fujitsu ナレッジグラフ拡張RAG」の詳細な優位性については、「関連情報」の各技術ブログをご参照ください。
技術お試し
- 評価プログラム:https://github.com/FujitsuResearch/Knowledge_Data/
- 評価用データ一式:https://huggingface.co/datasets/Fujitsu/ 配下のXXX_Knowledge_Dataset (XXXには種々のデータの名称が入ります)
関連情報
- Fujitsu ナレッジグラフ拡張RAG技術のご紹介(全5回) #1 Fujitsu ナレッジグラフ拡張RAG for RCA (Root Cause Analysis) - fltech - 富士通研究所の技術ブログ
- Fujitsu ナレッジグラフ拡張RAG技術のご紹介 #2 Fujitsu ナレッジグラフ拡張RAG for Q&A (Question&Answer) - fltech - 富士通研究所の技術ブログ
- Fujitsu ナレッジグラフ拡張RAG技術のご紹介 #4 Fujitsu ナレッジグラフ拡張RAG for VA (Vision Analytics) - fltech - 富士通研究所の技術ブログ
