知识库检索基准测试

ENGRA-KB-v2 论文规模套件（550 文档 / 400 查询）与 ENGRA-KB-v1 冒烟套件：在相同语料与查询上对比 BM25、传统分块 RAG 与结构化 Atom 索引。

为什么需要这套基准

多数知识库 / RAG 产品很少公开可复现的对照数据。ENGRA-KB-v2 提供 550 篇合成企业文档与 400 条查询（规模对齐 BEIR 子任务量级，如 SciFact ~300 query），可在本地离线运行；ENGRA-KB-v1（12/30）保留为快速冒烟。

ID	System	Family	Product analogue
bm25	BM25	词法检索	Confluence / Notion 关键词查找
rag-chunk-512	RAG fixed-512	传统 RAG	LangChain 默认 TextSplitter(512)
rag-chunk-256-overlap	RAG 256+128 overlap	传统 RAG	PDF / 长文档 ingest 常见策略
rag-sentence	RAG sentence	传统 RAG	按句边界分块再合并
atom-structured	Structured atom	结构化 KB	印格 Library / Scope / Topic / Atom 单向量模型

Recall@K: Top-K 结果中是否出现任一标注相关文档（文档级，BEIR 常用协议）
MRR: 第一个相关文档排名的倒数均值，反映「首条命中」质量
nDCG@K: 考虑排序位置的增益，相关文档越靠前得分越高
ms/q: 单条查询平均检索耗时（本地 CPU，不含 LLM 生成）
Task success: Agent 代理：Top-K 上下文是否含 extractive gold span（`benchmark:memory:agent-task`）
Token F1: Gemini E2E QA：生成答案与 gold span 的 token F1（`benchmark:memory:gemini-qa`）

npm run benchmark:memory:v2 — 论文规模 ENGRA-KB-v2
npm run benchmark:memory:ablation — Atom 元数据消融
npm run benchmark:memory:agent-task — 上下文可答性（无 LLM）
npm run benchmark:memory:gemini-qa -- --subset full — Gemini 端到端 QA（需 GEMINI_API_KEY）
npm run benchmark:memory — ENGRA-KB-v1 冒烟（默认 --suite engra-kb-v1）
npm run benchmark:mteb:install && npm run benchmark:mteb — MTEB 检索子任务（SciFact / NFCorpus / FiQA2018）
快速冒烟（仅 BM25）：npm run benchmark:memory:lexical
默认嵌入：Xenova/all-MiniLM-L6-v2（MTEB 侧等价 sentence-transformers/all-MiniLM-L6-v2）