《皇清书史》服饰整理工作日志
基本信息
| 项目 | 内容 |
|---|---|
| 源文件 | /home/z/my-project/upload/书法/书法/皇清书史.txt |
| 文件规模 | 12116行 / 约1013KB |
| 输出目录 | /home/z/my-project/upload/书法output/皇清书史/ |
| 执行时间 | 2026-03-05 |
| 执行方式 | rysxguji子Agent,按内置四级词库grep+sed提取 |
执行步骤
第一步:验证输入与创建输出目录
- 确认源文件存在,12116行/1013023字节
- 创建输出目录
/home/z/my-project/upload/书法output/皇清书史/ - ✅ 完成
第二步:一级词grep提取
- 词库:衣裳服冠冕弁帻巾帽袍裘带佩绶笏舄履鞋袜裙襦褐襕衫袴裈褙帔氅蓑铠甲
- 方式:先以单字匹配计数(506行),发现误匹配过多(如"履"出现在大量人名中)
- 调整策略:改用复合词精准匹配
- 执行命令示例:
rg -n '袍|裘|帻|弁|冕|绶|笏|舄|履|鞋|袜|裙|襦|褐|襕|衫|袴|裈|褙|帔|氅|蓑|铠|甲' 皇清书史.txt - 初步提取约169行,经人工甄别保留有效条目
- ✅ 完成
第三步:二级词grep提取
- 词库:锦绮绢帛罗缎绸缯缣纱绫绡丝绵麻葛苎褐布
- 重点搜索:绫本、绢素、缣素、帛、缎、文绮、碎布等复合词
- 提取结果:约40条有效服饰材料信息
- 甄别要点:绫/绢/缣在本书中主要作为书画载体出现,需区分"穿着用途"与"书写用途"
- ✅ 完成
第四步:三级词grep提取
- 词库:衮黼黻章纹绣织染裁缝衽领袖袂襟裆幅缘饰旒旆旂旗卤簿仪仗
- 执行:
rg -n '衮|黼|黻|章服|纹绣|织染|裁缝|衽|领袖|袂|襟|裆|幅缘|旒|旆|旂|旗|卤簿|仪仗|品官' - 排除"旗人""八旗""镶黄旗"等满洲旗籍无关匹配
- 有效发现:衮衣、垫角巾、正笏垂襟、衣纹、画襟等
- ✅ 完成
第五步:四级词+动词词grep提取
- 四级词:品色服色冠服舆服章服朝服公服祭服丧服吉服常服便服燕服赐服赐紫赐绯品官命妇婚服
- 动词词:赐服衣冠佩戴着披裹束系脱解换易加袭
- 重点关注:赐服、赐紫、赐绯、品服、朝服、命妇、布衣、锦衣
- 执行:
rg -n '赐服|赐衣|朝服|冠服|章服|品服|赐紫|赐绯|命妇|布衣|锦衣|衣冠|衣纹' - ✅ 完成
第六步:补充搜索——官服制度相关
- 搜索:赐品服、顶戴、花翎、蓝翎、补服、蟒袍、朝珠、织造、大缎、白金、貂裘、文绮
- 排除:赐中书、赐第、赐死、赐谥等非服饰类"赐"字用法
- 新发现:赏大缎二匹、赐六品顶带、赏戴花翎、赏头品顶带、白金文绮之赐等重要条目
- ✅ 完成
第七步:合并去重与甄别
- 将全部提取结果按行号排序去重
- 逐条甄别:区分真正服饰信息与误匹配
- 主要误匹配类型:
- "履"出现在人名中(履安、履中、履素等)→ 排除
- "巾箱帖"含"巾"但为帖名 → 排除
- "旗人""八旗"含"旗"但为旗籍 → 排除
- "锦标""锦江"含"锦"但为地名 → 排除
- "珊瑚网"为书名 → 排除
- "布衣"为身份标识,保留但注明非穿着描写
- 最终有效条目约70条
- ✅ 完成
第八步:撰写三份MD
| 文件 | 内容 | 要求 |
|---|---|---|
| 皇清书史_原文提取.md | 按类归组的原文条目,附行号 | ≤20KB |
| 皇清书史_总结.md | 十类分项总结+核心结论 | ≤20KB |
| 皇清书史_日志.md | 本文件,完整工作记录 | ≤20KB |
提取统计
| 关键词级别 | 搜索词数 | 初次匹配行数 | 去重甄别后有效条目 |
|---|---|---|---|
| 一级词 | 24 | 506→169 | 约15条 |
| 二级词 | 18 | 约120 | 约21条 |
| 三级词 | 18 | 约60 | 约8条 |
| 四级词 | 19 | 约40 | 约18条 |
| 动词词 | 13 | 含于四级 | 含于四级 |
| 补充搜索 | — | 约30 | 约8条 |
| 合计 | — | — | 约70条 |
甄别标准
- 保留:直接描述服饰穿着、赐服制度、织物材料(不论穿着/书写用途)、服饰比喻
- 保留但标注:布衣(社会身份而非穿着)、织物载体(书写用途而非穿着)
- 排除:人名中的服饰用字(如履安、裘曰修)、书名中的织物字(如珊瑚网、巾箱帖)、旗籍标识(如正红旗、镶蓝旗)
注意事项
- 《皇清书史》为书法史著作,服饰内容非其主旨,提取结果必然零散。
- 绫、绢、缣等织物词在本书中90%以上为书画载体用法,已逐条甄别。
- "布衣"一词出现30余次,多为身份标识,本次选取代表性条目收入。
- "毡裘气""兔毛褐"等已脱离服饰本义,转为书法品评术语,纳入提取但加以说明。
- 严禁整本载入LLM,全程采用grep逐词提取+人工甄别方式。
日志结束