[原文]https://chive.leaflet.pub/3mgb6k5pwsc2q

分散型eプリントサービス。AT Protocol上に構築されている。論文、査読、推薦、注釈、コレクション——すべてが自分のPDSに置かれる。

Chive 2026年3月5日

これはChiveについての連載の第1回だ。Chiveは、AT Protocol上に構築された分散型eプリントサービスである。今後の記事では、知識グラフ、コレクション、オープン査読、論文発見と引用について詳しく扱う。プロジェクトの最新情報はBlueskyの@chive.pubで追える。

この記事はChive v0.1.0時点の内容だ。プロジェクトの進行に伴い、細部は変わる可能性がある。


課題

研究者のアイデンティティは、あちこちのプラットフォームに散らばっている。プレプリントはarXivに、査読は編集プラットフォームやOpenReviewに、リーディングリストはZoteroやMendeleyに、コード(とおそらくデータ)はGitHubに。引用記録は、それぞれ独自のコピーを持つサービスが組み立てている。

これらの記録をポータブルかつ相互運用可能にする取り組みは、すでに相当な蓄積がある。ORCIDは、研究者が所属機関を移っても追跡可能な永続的識別子を提供し、業績、査読活動、資金、雇用を一箇所で管理できる。arXivは30年以上にわたってオープンアクセスのプレプリントを安定的にホストしてきた。Semantic ScholarとOpenAlexは、文献全体にまたがる大規模なオープンインデックスを構築している。Semantic ScholarはAI駆動の推薦と研究フィードを提供し、OpenAlexはCC0ライセンスのもとで4億7000万件以上の著作を目録化している。DOI、ROR、ORCIDのような永続的識別子システムが、サービス間のレコードをつないでいる。これらのシステムは相互に運用されている。出版社は査読メタデータをORCIDに登録し、ZenodoのレコードはDOIを介してarXivのプレプリントとリンクし、OpenAlexはCrossref、ORCID、機関リポジトリからデータを取得する。

だが、これらのシステムがやり取りしているのは、学術活動そのものではなく、学術活動に関するメタデータだ。ORCIDは、ある研究者がある雑誌の査読をしたことは知っている。だが査読のテキスト本体は出版社のサイトにある。OpenAlexは論文をインデックスしている。だがリーディングリストや注釈は、その管理に使っているツールに閉じ込められたままだ。学術インフラのコミュニティが築いてきた永続的識別子とメタデータ標準は、業績への参照を追跡することには長けている。足りないのは、業績とコメンタリーそのものをポータブルなデータとして所有するためのプロトコルだ。査読したという事実ではなく、査読そのもの。リーディングリストに含まれる論文のリストではなく、リーディングリストそのもの。

AT Protocolは別のモデルを提示する。ユーザーがデータを所有し、アプリケーションはそのデータの上に構築されたビューにすぎない。Blueskyはこのモデルをソーシャルネットワーキングで実証し、研究者はBlueskyに大量移動した最初期のグループのひとつだった。現在、成長を続けるATProto Scienceコミュニティが、このプロトコルを研究コミュニケーションにより広く活用する方法を模索している。2026年3月にバンクーバーで開催されるATScience 2026ワークショップは、開発者と研究者を集めた場になる。

すでにいくつかの学術ツールがこのプロトコル上に構築されている。Sembleは研究者が知識コレクションをキュレーションし共有するためのツール。LeafletとWhiteWindは長文ブログを提供する。Lanyardsは研究者プロフィールを構築する。Margin.atはソーシャルブックマークと注釈を支援する。Frontpage(リンクアグリゲーション)のような新しいプロジェクトも、エコシステムをさらに拡張している。

Chiveは同じモデルを学術コミュニケーションに特化して適用する。論文、査読、コレクションが自分の管理するインフラに置かれ、いくつものサービスがそれをインデックスし表示できる。


Chiveが他のeプリントサービスと異なる点

ChiveはAT Protocol上のAppViewだ。Blueskyを動かしているのと同じオープンプロトコルである。論文をChiveに投稿すると、レコードはChiveのデータベースではなく、投稿者のPersonal Data Server(PDS)に作成される。Chiveは AT Protocolのfirehoseを読み、Chive関連のレコードをフィルタリングし、それらの上に検索可能なインデックスを構築する。査読、推薦、コレクション、プロフィールも同様だ。すべてがPDSに置かれる。

つまり、インデックスは使い捨て可能だということだ。仮にChiveのデータベース全体が明日消えたとしても、レコードはPDSに残っている。別のインデクサーがfirehoseを再生し、同じビューを再構成できる。これがAT Protocolアプリケーションの核心的な保証だ。いつでも離脱できる。データを持ち出すために許可を求める必要は一切ない。なぜならそもそも、データは他人の手にあったことがないからだ。


eプリントに含まれるもの

論文を投稿すると、クライアントは投稿者のPDSにレコードを作成する。レコードには論文のメタデータ(タイトル、要旨、著者リスト、キーワード、ライセンス、分野分類、コードやデータリポジトリなどの外部リソース)と、PDSに保存されたドキュメントファイルへの参照が含まれる。ChiveがEプリントを保持することはない。常にPDS上にある。

メタデータは、大半のプレプリントサーバが取得するものより構造化されている。所属機関にはROR識別子を使うため、どの機関を指しているかに曖昧さがない。貢献はCReDiTタクソノミーに従い、程度の注釈(主導、同等、支援)が付く。つまり、誰が実験を設計し、誰がコードを書き、誰が論文を起草したかをレコードが記録する。ライセンスと分野分類は知識グラフから選択する(後続の記事で説明する)。

Chiveは10種類のドキュメント形式を受け付ける。PDFとLaTeXからJupyterノートブックとDOCXまで。論文は改訂可能で、各バージョンは変更履歴とともに完全な履歴を保持する。eプリントは補足資料ともリンクできる。GitHubやGitLab上のコード、ZenodoやFigshare上のデータセット、Software Heritage上のアーカイブ、Hugging Face上のモデル。論文とその成果物が一つのレコードの中でつながった状態を保つ。


知識グラフ

Chiveの知識グラフは、システム全体をつなぐ結合組織だ。分野、ライセンス、機関、貢献タイプ、注釈動機、ドキュメント形式、学会会場——すべてがグラフのノードだ。論文を形式意味論に分類するとき、クリエイティブ・コモンズのライセンスを選ぶとき、研究者はノードを選んでいる。論文の方法論を推薦するとき、推薦タイプはノードだ。あるパッセージに疑問の動機で注釈を付けるとき、その動機はノードだ。Chiveで研究者が行う構造化された選択のすべてが、グラフへの接続であり、グラフがそれらの選択すべてを相互に(そして外部の知識グラフやその他のリソースに)接続する。

ノードは型付きエッジ(上位、下位、関連)で結ばれ、型自体もグラフ内のノードだ。したがってタクソノミー全体が走査可能であり、特定のトピックから親分野へ、さらに関連領域へとナビゲートできる。

グラフの統治はWikipedia方式だ。研究者が新しいノードやエッジを提案し、コミュニティが議論し投票し、信頼されたエディタが承認または却下する。語彙がハードコードされたスキーマではなくグラフの中に存在するため、コード変更なしに新しい分野や分類体系を収容できる。統治モデルとグラフの構造は後続の記事で、技術的スキーマは別の深掘り記事で説明する。


拡張リッチテキスト

Blueskyのリッチテキストの拡張版が、人間が書いた散文と知識グラフを結ぶ第一のインターフェイスだ。要旨には書式設定、インラインLaTeX数式、そしてWikidataエンティティ・知識グラフノード・他のeプリント・著者への型付き参照を含めることができる。要旨の中でcomputational linguisticsに言及すると、それは知識グラフ内のクエリ可能なリンクになる。要旨が特定の概念を参照するすべての論文を検索したり、ある用語の用法が文献全体でどう変遷しているかを追跡したり、テキスト中で同じエンティティを引用する論文間のつながりを発見したりできる。

同じリッチテキストシステムが査読と注釈にも使われる。方法論に言及する査読、データセットにリンクする注釈——いずれもグラフに構造化された接続を追加する。時間が経つにつれ、コミュニティの日常的な学術活動が、文献全体にまたがる型付き参照のウェブを構築していく。構造化された型を理解しないクライアントでも、プレーンテキスト版にフォールバックできるため、何も壊れない。査読におけるリッチテキストの機能については後続の記事で、実装については別の深掘り記事で扱う。


論文の検索

Chiveは、フィールドブースティング付きの全文検索を提供する(タイトルは本文より重み付けが高い)。分野、著者、日付範囲によるフィルタリングと、共有可能な検索URLも利用できる。

知識グラフに基づくブラウズモードもある。クエリを入力する代わりに、コミュニティが定義したファセットカテゴリをナビゲートする。方法論、時代、地理的地域、あるいは有用であることが判明した他のあらゆる次元。ファセットはハードコードされたリストではなく知識グラフから来る(ファセット値だけでなく、ファセットそのものが知識グラフのノードだ)。特定の分野の研究者が、プラットフォームの決定を待たずに、自分たちのタクソノミーの一角を自分たちで整理できる。

要旨や査読に含まれるリッチテキスト参照も検索に反映される。ある概念をインラインで言及している論文は、その論文のキーワードに登録されていなくても、その概念を通じて発見可能だ。ユーザーは論文に独自のラベルをタグ付けすることもでき、トレンドタグはコミュニティが現在注目しているものを浮き上がらせる。


既存の業績のインポート

ほとんどの研究者はすでに他の場所に論文を持っている。ゼロから始めることは想定していない。Chiveは現在、投稿フォームから直接arXiv、OpenReview、PsyArXiv、LingBuzz、Semantics Archiveを検索できる。論文を選べばメタデータがフォームに自動入力され、レコードがPDSに作成される。Chiveはさらに、外部リポジトリを拡張するためのプラグインシステムも提供している。

Chiveは、紐付け候補の論文を提案することもできる。名前、名前のバリエーション、ORCID、所属機関を手がかりに外部データベースを検索し、確信度の高い順に候補を返す。一括でレビューしてインポートできる。すでにChive上に別の著者のPDSとして存在する論文に対しては、共著者ステータスを申請できる。PDS所有者が承認または却下する。Chiveが誰かのPDSに直接書き込むことは一切ない。


著者プロフィール

ChiveプロフィールはBlueskyのアイデンティティを学術メタデータで拡張する。ORCID、ROR識別子による所属機関、研究分野、キーワード、論文マッチング用の名前バリエーション。ChiveはSemantic Scholar、OpenAlex、DBLPで一致する著者プロフィールを検索することで、外部のオーソリティIDを自動的に発見できる。既存システムにすでにある情報を再入力する必要はない。


査読

Chiveの査読は現時点では公開制で、Blueskyのアイデンティティに紐付けられている。将来的には匿名査読をサポートする可能性がある。主な設計目標は、スレッド化された議論、W3C Web Annotationセレクタによるパッセージレベルのアンカリング、そして著者が自分の業績に対するすべてのフィードバックを一箇所で確認し応答できるようにすることだ。査読は査読者のPDSに置かれるため、査読者は自分が書いた内容の管理権を保持する。プロフィールから査読を参照し、時間をかけて実績を積み上げ、別のサービスに移動してもその実績を持っていける。詳細は後続の記事で扱う。


注釈

Chiveはeプリントのスパンレベルの注釈をサポートする。スパンレベルの注釈は、Chiveの知識グラフやWikidataへの直接リンクと、特定のパッセージについてのリッチテキストコメントの両方に対応する。PDFの中の一文を選択し、そのWikidataエンティティにリンクすることで、その論文をWikidataがその概念について知っているすべてのものと接続できる。あるいはパッセージを選択し、他のeプリント、著者、知識グラフノードを参照するリッチテキストコメントを残すこともできる。注釈はW3C Web Annotationセレクタを使ってテキストにアンカリングされるため、著者が論文を改訂しても軽微な編集なら維持される。査読と同様に、注釈はPDSに保存され、スレッド化をサポートし、知識グラフにインデックスされる。詳細はオープン査読の記事で扱う。


推薦

査読とは別に、正式な推薦システムがある。査読を書く代わりに、論文の貢献の特定の側面について構造化されたアサーションを行える。方法論、実証的厳密さ、再現可能性、データ、あるいはCReDiTに大まかに基づく11の他のタイプのいずれか。各推薦タイプは知識グラフのノードであり、研究を評価するための語彙は、分野やライセンスと同じ提案プロセスを通じてコミュニティが統治し拡張可能だということを意味する。時間の経過とともに、論文には他の研究者が強みと見なすものがプロフィールとして蓄積され、それらの推薦はプラットフォーム全体にわたってクエリ可能だ。


エコシステムへの統合

ChiveはBlueskyとアイデンティティシステムを共有しているため、ATProtoエコシステム全体のアクティビティを捕捉する。誰かがeプリントをSembleコレクションに追加したり、WhiteWindのブログ記事で引用したり、Leafletの記事に埋め込んだりすると、Chiveはfirehoseからそれを検知しバックリンクを作成する。カスタム統合を誰かが構築しなくても、自分の業績がどこで議論されているかを把握できる。相互運用性はプロトコルそのものから生まれる。

これは強調する価値がある。なぜなら、従来の学術インフラにはできない部分だからだ。arXivは、誰かがBlueskyであなたの論文を議論したことを、Bluesky統合を構築しない限り知らない。Chiveは自動的に知る。ATProtoアプリケーションがデータレイヤーを共有しているからだ。プロトコル上に学術ツールが増えるほど、開発者間の調整なしに相互参照のネットワークが成長する。

Chiveにはメンションのオートコンプリートとソーシャルカードプレビューを備えたBluesky投稿用コンポーザーも組み込まれている。査読や推薦を受けたとき、共著者リクエストが承認を必要としているときには通知が届く。


現在の状況

アルファ版は2026年初頭から稼働している。研究者にぜひ試してフィードバックをもらいたい。アルファテスターへのサインアップはchive.pubで、最新情報は@chive.pubで追える。


この連載:Chiveとは何か · 知識グラフ · コレクション · オープン査読 · 論文発見と引用

技術深掘り:XRPCアダプタ · Lexicon名前空間 · リッチテキスト · Firehose · ストレージ · 知識グラフスキーマ · 査読システム · 引用 · 論文発見 · プラグイン · 認証 · 可観測性

chive.pub · github.com/chive-pub/chive · docs.chive.pub


この記事は原文@chive.pub)を著者の許諾を得て翻訳したものだ。訳はNighthaven(@moja.blue)。原文のニュアンスが気になったら、リンクから確認してくれ。