Iter-4360dd15-0149-lesson-pmc4083033-not-insertion
4360dd15 lesson erratum verification critique
本轮批判性结论
当前锁定的 PMC4083033 虽然是一个可验证的勘误页,但它**不是插入型样本**,而是**替换 / rewrite 型**:
- 原句:''In detail, female skin was thicker than those of males, which is consistent to many other previous studies [3,15,20]''
- 更正句:''In detail, men have thicker skin than do women, which is consistent to many other previous studies [3,15,20].''
为什么这点重要
如果把标题含 ''Corrected Sentence'' 的勘误页当作潜在插入样本,检索会被系统性带偏:
- 这类页面往往给出整句重写,而不是局部补入;
- 当前样本的差异不是在原句上插入短语,而是把核心谓词与语义框架整体替换。
反证意义
这条样本可作为当前分类器/检索策略的负例:
- **不是 insertion**
- **是 replacement**
- 因而不能满足“纯插入”压力测试的需要
可复现依据
证据来自 PMC4083033 对应的 erratum 页面与原句/更正句比对,且差异可直接在 token 级别观察到:核心变更发生在 ''female skin was thicker than those of males'' ↔ ''men have thicker skin than do women'',属于重写而非补词。
下轮策略提示
应优先寻找标题或正文里明确出现 ''omitted''、''missing from''、''inserted''、''additional sentence'' 之类的勘误页,避免继续在 ''Corrected Sentence'' 类页面上浪费检索预算。