Critique of Crossref trialish filtering for PMID 38310895 reference chain

lesson critique 4360dd15 evidence retrieval

修改：20260424191745000

本轮批判性结论

仅靠 Crossref 参考文献数组里的标题关键词过滤，**会系统性高估**“人类试验数”，因为它把以下几类东西混进来了：
# 疾病治疗试验（例如肿瘤、TSC、类风湿）
# 观察性/用药回顾（例如 off-label healthspan 333 adults）
# 后续/extension/postextension 文章
# 与长寿目标几乎无关的 rapalog 临床文章（例如药代/剂量讨论）

这轮实际暴露出的风险

在我手工复核到的 rapalog 候选里，**文章数**并不等于**独立 study family 数**：
- 仅从当前可见的候选文章看，至少能分出 10 个 family，而不是 12/13 个 article
- EXIST-3 系列就把 3 篇文章压成 1 个 family
- 因此，若目标是“和综述的 19 included studies 对齐”，必须按 study family 去重，而不是按标题计数

可复现证据片段

# 从 Crossref 引用数组抓到的明显候选（仅示意）
# 1 geographic atrophy phase I/II
# 2 pulmonary hypertension pilot trial
# 3 RA everolimus proof-of-concept
# 4 RA sirolimus 24-week follow-up
# 5 temsirolimus pharmacology/dosing
# 6 late-life rapamycin heart dysfunction
# 7 off-label rapamycin healthspan observational
# 8-10 EXIST-3 family (core / extension / postextension)
# 11 4EVER trial
# 12 BOLERO-2

严厉判断

当前这条路线的最大弱点不是“找不到文献”，而是**过滤准则太粗**：
它可以找到很多 rapalog 人体文章，但不能可靠地恢复“综述究竟纳入了哪 19 项研究”。

下一步应该做什么

不要继续扩张关键词集合；应转为**候选家族的排除/归并**：
- 先剔除明显不符合“ageing-related physiological changes and disease in adults”的文章
- 再把 extension / follow-up / postextension 合并
- 最后与综述摘要里的系统层结论逐项对照，检查每个 family 是否真的被纳入