山堂肆考 — 服饰内容提取日志
基本信息
- 书名:山堂肆考
- 文件路径:/home/z/my-project/upload/part4_extracted/山堂肆考.txt
- 文件总行数:63,162行
- 输出目录:/home/z/my-project/upload/p4output/山堂肆考/
检索过程
10轮关键词grep统计
| 轮次 | 关键词 | 命中行数 | 说明 |
|---|---|---|---|
| 1 | 衣 | 1,394 | 含大量非服饰用法(衣锦、衣食等) |
| 2 | 裳 | 140 | 部分为"霓裳""轩裳"等文学用 |
| 3 | 冠 | 604 | 含"冠军""冠绝"等非服饰用法 |
| 4 | 冕 | 93 | 冕服、冕旒、冠冕等,服饰关联度高 |
| 5 | 服 | 1,057 | 含"服食""降服""叹服"等大量非服饰用法 |
| 6 | 袍 | 124 | 袍服关联度较高,含少量"袍笏"等 |
| 7 | 带 | 431 | 含"带兵""地带"等非服饰用法 |
| 8 | 履 | 255 | 含"履霜""履险"等非服饰用法 |
| 9 | 佩/珮 | 211 | 含"佩服""钦佩"等非服饰用法 |
| 10 | 裘/褐/裙/簪/珰/绶/舄/笏/袂/袆/翟衣/帻/弁/幞/襦/帔/褕/袞/衮 | 876 | 多关键词组合,含多种服饰词 |
去重后统计
- 所有轮次命中行合并去重:4,129行
- 经人工筛选(剔除非服饰用法的行):实质涉及服饰内容约77条(约150行)
服饰关联度分析
- 高关联词:冕(93)、袍(124)、裘/褐/裙/绶/舄/笏/弁/幞/襦/帔/衮(876中约40%)——这些词的服饰含义占比最高
- 中关联词:裳(140)、履(255)、佩/珮(211)——约30-50%为服饰用法
- 低关联词:衣(1,394)、服(1,057)、冠(604)、带(431)——大量为非服饰用法,信噪比低
提取方法
- wc -l 统计总行数:63,162行
- 10轮 grep -n 检索服饰关键词,记录行号
- 合并去重所有命中行号,得到4,129行
- sed -n 提取关键行内容,分4批完成
- 人工审查每条内容:
- 剔除仅含"衣""服"等字而无服饰实义的段落(如"衣食""叹服""冠军")
- 保留有明确服饰信息的条目
- 按主题分类整理 - 撰写三份MD文件
分类统计
| 类别 | 条目数 | 占比 |
|---|---|---|
| 礼制冠服 | 20 | 26% |
| 官制赐服 | 12 | 16% |
| 宫廷服饰 | 8 | 10% |
| 士人服饰 | 10 | 13% |
| 岁时节令 | 12 | 16% |
| 神异服饰 | 6 | 8% |
| 佩饰 | 9 | 12% |
| 合计 | 77 | 100% |
质量控制
- ✅ 未加载整本TXT(最大单次sed提取约70行)
- ✅ 未使用批处理脚本(逐条sed提取)
- ✅ 三份MD均≤20KB
- ✅ 所有内容据实撰写,未编造任何条目
- ✅ 标注原始行号,可溯源验证
遗留说明
- 书目"衣服三卷"见于目录行(第139行),但实际内容分散编排,未形成独立服饰专卷。
- 第14842行"陶谷索袍带""窦仪索冠带"等反映宋初君臣朝服礼仪,极具史料价值。
- 霓裳羽衣曲相关条目出现3次(行2280、3329、13508),可互参。
- 部分服饰词如"袆衣""幞头""襦""褕"等在本书中未见实质服饰条目。
日志完毕。