[原文]https://chive.leaflet.pub/3mgb7bfqhts24
コミュニティが統治する知識グラフが、ハードコードされたカテゴリを、ポータブルで拡張可能な語彙に置き換える仕組み。
Chive 2026年3月5日
これはChiveについての連載の第2回だ。Chiveは AT Protocol上の分散型eプリントサービスである。第1回ではアーキテクチャを扱った。今後の記事では、コレクション、オープン査読、論文発見と引用を扱う。プロジェクトの最新情報はBlueskyの@chive.pubで追える。
この記事はChive v0.1.0時点の内容だ。プロジェクトの進行に伴い、細部は変わる可能性がある。
知識グラフとは何か
知識グラフは、エンティティとそれらの関係をノードとエッジとして格納する。おそらく最も広く知られているのはWikidataで、人物、場所、科学的概念を含む1億件以上の項目を持ち、すべてSPARQLでクエリ可能だ。だが他にも多様なものがある。ConceptNetはNLPで使われる常識知識グラフ。Googleの知識グラフは検索結果の情報パネルを駆動している。図書館学の領域では、FAST(Faceted Application of Subject Terminology)と米国議会図書館件名標目表が、何十年にもわたって知識を構造化された語彙に整理してきた。
これらに共通するのは、エンティティが型付けされ、ラベルが付与され、名前付きの関係で結ばれている点だ。「自然言語処理」はノード。「機械翻訳」はノード。「〜の下位分類である」はそれらをつなぐ関係だ。グラフを走査すれば、自然言語処理が人工知能に関連し、人工知能がコンピュータ科学に関連し……と辿っていける。
Chiveは独自の知識グラフを持つ。Neo4jに格納され、AT Protocolのレコードに裏打ちされている。
ハードコードされたカテゴリの問題
Chiveの知識グラフの根拠は、有機的な成長に対するより高い柔軟性を提供することにある。大半の学術プラットフォームはカテゴリをハードコードしている。分野は固定ドロップダウン、ライセンスは静的リスト、貢献タイプは予め決められたセット。自分の分野がリストになければ、あるいは新しいライセンスが登場すれば、誰かがスキーマを更新し、新しいリリースをプッシュし、デプロイしなければならない。実際には、カテゴリはそれが整理するはずの研究に遅れをとり、新興分野や学際領域の研究者は、他人が定義したリストの中から「最も間違いが少ない」選択肢を選ぶことになる。
Chiveは別のアプローチを取る。通常ならハードコードされたenumになるものが、事実上すべて知識グラフのノードだ。
グラフに含まれるもの
eプリントにライセンスを設定するとき、研究者はグラフのノードを選択している。分野、機関、学会、貢献タイプ、ドキュメント形式、リポジトリプラットフォーム(GitHub、GitLab、Hugging Face、Zenodo、Figshare)、注釈動機、発表タイプも同様だ。それぞれがカテゴリを決定するkindとsubkindを持ち、すべてがAT Protocolのレコードだ。
グラフのノードはリッチテキストの内部にも現れる。これは知識グラフへの最も重要なインターフェイスのひとつだ。Chiveのリッチテキストモデルには、知識グラフノード、Wikidataエンティティ、学術分野、eプリント、著者への参照型がある。要旨、査読、注釈に、知識グラフのエンティティへの参照をインラインで埋め込める。査読者がコメントの中で方法論に言及したり、著者が要旨の中で特定のデータセットに参照をつけたりすると、それらの言及はグラフ内のクエリ可能なリンクになる。つまり、要旨・査読・注釈にまたがる日常的な学術的記述が、中央集権的な編集プロセスでは同じ規模で生産できない型付き接続で、グラフを継続的に豊かにしていく。査読におけるこの仕組みは後続の記事で、技術的な詳細は別の深掘り記事で説明する。
ノード間の関係は型付きエッジだ。たとえば「形式意味論」とその親分野「意味論」を「上位」関係のエッジがつなぐ。タクソノミー全体が走査可能で、特定のトピックから親分野へ、さらに関連領域へとナビゲートできる。
自己記述的なカテゴリ
このシステムは完全に自己記述的だ。あらゆるカテゴリ——分野、ライセンス、ドキュメント形式、論文タイプ、貢献タイプ、プラットフォーム、動機、その他すべて——がそれ自体ノードだ。したがって、新しい種類のものをシステムに追加することは、新しいノードを追加することを意味する。
これが知識グラフを従来のタクソノミーと異なるものにしている点だ。言語学のサブフィールドが異なる用語慣行を持つ二つの陣営に分かれたら、コミュニティはプラットフォームの更新を待たずに両方を追加できる。新しいオープンソースライセンスが普及したら、それがノードになる。語彙は開発チームが保守するコードではなく、コミュニティが管理するデータだ。
コミュニティ統治
カテゴリのセットはコミュニティが拡張可能だ。新しい分野や新しい貢献カテゴリが必要なら、自分のPDSにプロポーザルレコードを公開する。それがChive上にインデックスされる。プロポーザルには、ラベル、説明、WikidataのQIDなどの外部識別子を含む提案ノードと、根拠および裏付けとなるエビデンスが含まれる。
統治モデルはWikipedia方式だ。コミュニティがプロポーザルを議論し、信頼されたエディタが意見を述べ、投票で承認されればタクソノミーの新しいノードになる。プロポーザルは承認率、投票者数、最低投票閾値、合意状況を追跡する。信頼されたエディタのステータスもAT Protocolレコードで管理され、貢献実績に基づいて編集責任を希望する研究者のための昇格リクエストプロセスがある。
タクソノミー全体が専用のグラフPDSに格納されている。つまり分類体系は、他のあらゆるAT Protocolデータと同様に、firehoseを再生することで再構築できる。知識グラフについてChiveのデータベースが無傷であることに依存するものは何もない。
パーソナルグラフ
この仕組みでも、Chiveチームが保守するある種の中央集権的なPDSが存在し、それがダウンする可能性はある。このリスクに対処するため、Chiveはコミュニティノードを自分のPDSに格納されたパーソナルグラフにクローンすることを簡単にしている。「形式意味論」のパーソナルコピーはコミュニティノードにリンクバックするが、ユーザーのPDS上に存在する。コミュニティノードのクローンに加えて、協力者、分野、機関のパーソナルノードもコレクションに整理できる。コレクションについては後続の記事で扱う(ネタバレをすると、コレクションはコミュニティグラフとまったく同じスキーマに準拠するグラフだ)。
外部知識グラフとの統合
Chiveのグラフは、確立された識別子システムに(利用可能な場合に)リンクアウトする。分野はWikidataのQIDにリンクし、「計算言語学」はそのWikidataエンティティとWikidataがその概念について知っているすべてのものに接続される。機関はROR識別子にリンクする。ライセンスはSPDX識別子にリンクする。件名標目はFASTと米国議会図書館の用語にリンクする。Wikidataがある概念の関係を改善すれば、Chiveはその改善を自動的に享受する。
分類システム
分類システムは、図書館学のSKOS(Simple Knowledge Organization System)とFASTに着想を得ている。ファセット分類を使うため、すべてを単一の階層に押し込むのではなく、次元(何について、誰が関与、どこで、いつ)を組み合わせられる。これは図書館の件名標目が長い間使ってきた方法だ。わたしたちは同じアイデアをAT Protocolのレコードに適用している。一つの違いは、ファセットそのものがコミュニティによって拡張可能だということだ。Chiveの他のほぼすべてと同様に、ファセットは(その値だけでなく)グラフ内のノードだからだ。
なぜこれが重要か
実際的な帰結は、開発チームをボトルネックにすることなく、コミュニティが必要とする速度でシステムが進化するということだ。コミュニティがmechanistic interpretabilityに独自のフィールドノードを与えるべきだと判断すれば、統治プロセスを通じて追加できる。スキーマは決して変更されない。enumがコードではなくデータだからだ。そしてデータがプロプライエタリなデータベースではなくAT Protocolのレコードに置かれるため、分類体系全体がポータブルだ。より優れたインデクサーが現れたら、同じ統治レコードを読み、同じタクソノミーを再構成できる。
この連載:Chiveとは何か · 知識グラフ · コレクション · オープン査読 · 論文発見と引用
技術深掘り:XRPCアダプタ · Lexicon名前空間 · リッチテキスト · Firehose · ストレージ · 知識グラフスキーマ · 査読システム · 引用 · 論文発見 · プラグイン · 認証 · 可観測性
chive.pub · github.com/chive-pub/chive · docs.chive.pub
この記事は原文(@chive.pub)を著者の許諾を得て翻訳したものだ。訳はNighthaven(@moja.blue)。原文のニュアンスが気になったら、リンクから確認してくれ。