研究总结 日志 原文

《女科经纶》服饰提取日志

任务信息

项目 内容
任务ID 9-3
书名 女科经纶
输入路径 /home/z/my-project/download/part2_extracted/医藏/女科经纶.txt
输出路径 /home/z/my-project/upload/2output/女科经纶/
执行日期 2026-03-04
全书规模 5209行,424710字节

六轮词库检索记录

第一轮:衣裳冠冕弁帻巾帽袍衫裙袂裾裘褐衮

指标 数值
初步命中 29行
剔除胞衣/胎衣 22行
剔除众方之冠 1行
剔除鸡冠状 1行
有效服饰条目 5条(衣毋太温、黄衣神、棉衣、换衣、浓衣被)
附带保留 1条(朱砂为衣,药丸包衣术语)

说明:本书为妇科专著,"胞衣"(胎盘)出现频率极高,为最大噪声源。有效"衣"字条目仅5条,涉及产科衣着宜忌4条、神像服饰1条。

第二轮:服色舆服冠服章服品服朝服公服常服祭服丧服赐服赐紫赐绯借紫

指标 数值
初步命中 1行
有效服饰条目 0条

说明:唯一命中行3449含"常服"二字,但语境为"宜常服之"(服药),非"常服"(日常礼服),系误命中,剔除。

第三轮:锦绮帛绢绫罗缎纱绸丝绵布麻葛缂丝茧蚕

指标 数值
初步命中 58行
剔除绵延/绵绵(形容连续) 约30行
剔除丝/茧/蚕(药名或泛指) 约15行
剔除麻(麻黄、麻仁等药名) 约8行
有效服饰条目 3条(帛蔽、布裹、帛所隔)

说明:第三轮噪声最高。"绵绵"为本书高频词(形容白带连绵不绝),与织物"绵"无关。麻黄、麻仁等药名中的"麻"亦非织物。仅"帛"作为丝帛实物隐喻3次出现。

第四轮:佩笏带绶鱼袋幞头舄履靴环钗簪珥

指标 数值
初步命中 151行
剔除带下/带脉/白带/赤带(医学术语) 约140行
有效服饰条目 5条(束带喻带脉×5)

说明:第四轮噪声极高。"带"字在妇科书中极为常见(带下病、带脉等),151行命中中仅5条"束带"与服饰腰带有关。带脉以束带为喻是中医经典修辞,严格来说属于医学命名,但保留了"束带"这一服饰器物概念。

第五轮:紫绯青绿赭黼黻绣染织缝纹

指标 数值
初步命中 69行
剔除紫苏/紫菀(药名) 约25行
剔除紫色/紫黑(经血颜色描述) 约30行
剔除青色(面色/唇色描述) 约10行
有效服饰条目 0条

说明:第五轮全部为医学颜色描述或药名,无一条涉及服饰。"紫"主要指经血颜色(紫黑属热),"青"指面色唇色(唇青面白),均为诊断体征而非服饰色彩。

第六轮:医官太医药衣药布裹缠缚包裹衣药绵药绢裹创缠帛束帛裹伤绢包

指标 数值
初步命中 37行
剔除裹/包(医学包裹用语) 约30行
剔除胞/心包(解剖术语) 约5行
有效服饰条目 0条

说明:第六轮"裹"字在医书中极为常见(裹血、裹精等),均非服饰语境。"医官"仅出现1次(行2557),为人物称谓而非服饰制度描写。


对抗式审查记录

审查项1:是否存在遗漏的服饰信息?

结论:可能性极低。六轮词库已覆盖服饰主要类别(衣冠、服制、织物、佩饰、色彩、医疗织物),本书无上述内容的匹配。书中唯一可能遗漏的是隐含服饰信息(如不出现服饰关键词但涉及穿着场景),但经抽查全书目录及主要章节,未发现遗漏。

审查项2:是否存在过度提取?

结论:存在边界情况。主要争议点:

审查项3:数据质量评估

质量维度 评估
查全率 高——六轮词库覆盖全面
查准率 中——大量医学噪声需人工甄别
误判率 低——边界条目已在注中说明
遗漏率 极低——本书服饰信息本就稀少

提取统计汇总

轮次 关键词类别 初步命中 有效条目 噪声率
1 衣裳冠冕等 29 5+1 79.3%
2 服制等级 1 0 100%
3 织物品种 58 3 94.8%
4 佩饰足衣 151 5 96.7%
5 色彩纹样 69 0 100%
6 医疗织物 37 0 100%
合计 345 14 95.9%

总体噪声率95.9%,反映妇科医书中服饰词汇几乎全部被医学术语借用。


输出文件清单

文件 大小
女科经纶_总结.md 待检查
女科经纶_日志.md 本文件
女科经纶_原文提取.md 待检查