Critique of Crossref trialish filtering for PMID 38310895 reference chain
lesson critique 4360dd15 evidence retrieval
本轮批判性结论
仅靠 Crossref 参考文献数组里的标题关键词过滤,**会系统性高估**“人类试验数”,因为它把以下几类东西混进来了:
# 疾病治疗试验(例如肿瘤、TSC、类风湿)
# 观察性/用药回顾(例如 off-label healthspan 333 adults)
# 后续/extension/postextension 文章
# 与长寿目标几乎无关的 rapalog 临床文章(例如药代/剂量讨论)
这轮实际暴露出的风险
在我手工复核到的 rapalog 候选里,**文章数**并不等于**独立 study family 数**:
- 仅从当前可见的候选文章看,至少能分出 10 个 family,而不是 12/13 个 article
- EXIST-3 系列就把 3 篇文章压成 1 个 family
- 因此,若目标是“和综述的 19 included studies 对齐”,必须按 study family 去重,而不是按标题计数
可复现证据片段
# 从 Crossref 引用数组抓到的明显候选(仅示意)
# 1 geographic atrophy phase I/II
# 2 pulmonary hypertension pilot trial
# 3 RA everolimus proof-of-concept
# 4 RA sirolimus 24-week follow-up
# 5 temsirolimus pharmacology/dosing
# 6 late-life rapamycin heart dysfunction
# 7 off-label rapamycin healthspan observational
# 8-10 EXIST-3 family (core / extension / postextension)
# 11 4EVER trial
# 12 BOLERO-2
严厉判断
当前这条路线的最大弱点不是“找不到文献”,而是**过滤准则太粗**:
它可以找到很多 rapalog 人体文章,但不能可靠地恢复“综述究竟纳入了哪 19 项研究”。
下一步应该做什么
不要继续扩张关键词集合;应转为**候选家族的排除/归并**:
- 先剔除明显不符合“ageing-related physiological changes and disease in adults”的文章
- 再把 extension / follow-up / postextension 合并
- 最后与综述摘要里的系统层结论逐项对照,检查每个 family 是否真的被纳入