《古今笑史》服饰整理工作日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 古今笑史 |
| 编者 | 明·冯梦龙(子犹) |
| 输入文件 | /home/z/my-project/upload/笑话/笑话/古今笑史.txt |
| 文件行数 | 4949行 |
| 输出目录 | /home/z/my-project/upload/笑话output/古今笑史/ |
| 处理日期 | 2026-03-04 |
处理流程记录
第一步:文件检测
wc -l /home/z/my-project/upload/笑话/笑话/古今笑史.txt
# 结果:4949行
mkdir -p /home/z/my-project/upload/笑话output/古今笑史/
文件规模适中(4949行),但仍遵循铁律,未整本载入LLM上下文,采用grep+sed逐轮提取。
第二步:六轮grep检索
第一轮:核心服饰词
rg -n '衣|裳|服|冠|帽|巾|履|鞋|靴|袜|带|佩|裘|袍|衫|裙|裤|褐|襦|袄|襟|裾|袂|衿|领|袖' 古今笑史.txt
命中:514行
各词频次: - 衣: 215 | 服: 109 | 冠: 72 | 带: 60 | 帽: 42 | 巾: 38 | 履: 24 | 领: 27 | 袖: 30 | 袍: 17 | 衫: 15 | 鞋: 14 | 裳: 11 | 裙: 11 | 靴: 11 | 麻(非布义): — | 裘: 7 | 裤: 7 | 袜: 6 | 袂: 6 | 佩: 5 | 袄: 5 | 褐: 2 | 襦: 2 | 襟: 3
第二轮:冠服制度词
rg -n '冕|弁|帻|幞头|簪|笄|步摇|凤冠|进贤冠|乌纱|貂蝉' 古今笑史.txt
命中:35行
第三轮:织物材料词
rg -n '丝|帛|绢|绸|缎|绫|罗|锦|绮|纱|布|麻|葛|棉' 古今笑史.txt
命中:280行
注:罗(91)、布(55)、麻(33)、葛(29)等单字噪音较大,需结合上下文二次过滤。
第四轮:颜色纹饰词
rg -n '紫|绯|绿|青|赤|黄|白|黑|玄|黼|黻|龙|凤|绣|织|染' 古今笑史.txt
命中:669行
注:白(213)、黄(137)、龙(117)等单字噪音极大,本数据仅作辅助参考,不直接用于原文提取。
第五轮:配饰器物词
rg -n '玉|佩|环|珮|鱼袋|笏|带钩|鞶囊|扇|伞|盖' 古今笑史.txt
命中:221行
注:盖(94)、玉(81)单字噪音大。
第六轮:动作制度词
rg -n '赐服|赐紫|赐绯|借紫|加冠|冠礼|服色|服制|禁服|僭服' 古今笑史.txt
命中:4行(赐紫1、赐绯1、服色1、衣服制度1)
第三步:复合词精准检索
为降低单字噪音,增加六批复合词检索:
| 批次 | 关键词类型 | 命中行数 |
|---|---|---|
| compound1 | 衣冠/衣服/朝服/公服/锦衣/布衣/紫衣/青衣等 | 95 |
| compound2 | 幞头/乌纱/进贤冠/纱帽/葛巾/步摇/簪钗等 | 33 |
| compound3 | 皂靴/草鞋/锦鞋/玉带/金带/犀带/笏板等 | 11 |
| compound4 | 赐服/赐紫/赐绯/紫袍/绯袍/道袍/襕衫等 | 31 |
| compound5 | 紫袍/金紫/锦衣/蟒袍/广袖/红袖/罗袖等 | 38 |
| compound6 | 绣衣/织锦/麻衣/葛衣/锦绣/绫罗/衰绖等 | 12 |
合并去重后:176个唯一行号。
第四步:补充检索
针对首轮可能遗漏的特殊服饰词,追加两批检索:
| 批次 | 关键词 | 命中行数 |
|---|---|---|
| extra1 | 深衣/直裰/道服/野服/胡服/纶巾/葛巾/网巾/笠/蓑衣 | 30 |
| extra2 | 簪花/首饰/珠翠/步摇/钗/髻/冠带/朝靴/簪笏 | 41 |
追加检索冠带/腰带/丧服/便服等:24行+19行。
第五步:sed提取与去重去噪
将所有命中的行号合并、排序、去重,使用sed逐行提取原文。
去噪原则: 1. 单独出现的颜色词(如"白云""黄花""青龙"等非服饰语境)剔除 2. "衣"作动词(如"衣食""丰衣足食"泛指)酌情保留或剔除 3. "青衣"作"仆婢"代称保留,作"青色衣服"本义亦保留 4. "盖"作"覆盖/车盖"义剔除,作"伞盖"义保留 5. "布"作"布匹/布衣"保留,作"宣布/布告"剔除 6. "玉"作"玉带/玉簪/玉佩"保留,作"美玉/玉器"泛指视语境判断
第六步:分类审查
将提取内容按六大类审查:
| 类别 | 条目数 | 核心内容 |
|---|---|---|
| 冠帽类 | 34条 | 幞头6条、纱帽4条、各种巾帽冠笠等24条 |
| 衣袍衫裙类 | 92条 | 各色官服、布衣、女性服饰、特殊服饰 |
| 鞋履类 | 13条 | 朝靴、麻鞋、芒履、草履、绣鞋袜等 |
| 配饰类 | 26条 | 腰带、笏、簪钗首饰、冠带等 |
| 冠服制度类 | 11条 | 赐服、服色等级、冠带买卖等 |
| 织物材料类 | 12条 | 绢、绫、罗、锦、纱、布、麻等 |
合计:188条有效服饰记载。
数据质量评估
噪音率
- 六轮单字grep总命中:514+35+280+669+221+4 = 1723行
- 去重后唯一行号:1297行
- 复合词精准检索命中:176行(高信度)
- 最终有效条目:188条(含补充检索新增)
- 综合噪音率:约89%(主要由第三、四、五轮单字匹配产生)
覆盖率评估
- 本书4949行,服饰相关188条,占比约3.8%
- 六轮检索+复合词检索+补充检索三轮覆盖,漏检率估计<5%
- 主要遗漏风险:不常见的服饰专有名词(如特定朝代的冠名)可能未被词库覆盖
内容信度
- 本书为笑话集,服饰记载多为轶事中的片段,非系统论述
- 服饰细节的真实性需结合同时代其他文献交叉验证
- 但对日常服饰使用习惯的反映具有独特价值
输出文件清单
| 文件名 | 大小 | 内容 |
|---|---|---|
| 古今笑史_总结.md | ~18KB | 服饰内容分类综述、特色分析、重要发现 |
| 古今笑史_原文提取.md | ~19KB | 188条服饰相关原文按类摘录 |
| 古今笑史_日志.md | ~8KB | 本文件,处理流程记录 |
遗留问题与建议
-
"青衣"双义问题:本书中"青衣"既指青色衣服(如鬼着皂单衣),又指仆婢(如"小青衣""二青衣"),两类用法已分别标注但未严格分列,建议后续整理时做语义标注。
-
服色等级与官品对应:本书多次提及绯、紫、绿等服色,但未明言品级对应关系,建议与《明史·舆服志》对照,确认冯梦龙时代的服色制度背景。
-
幞头时代错位:本书为明代作品,但收录唐宋轶事中频繁出现幞头,明代实已不用幞头,此为轶事流传的时代特征,非作者误记。
-
女性服饰较少:本书以男性官场轶事为主,女性服饰记载较少且多经过男性视角(如妓女服饰、妻妾首饰),建议补充其他女性题材古籍的服饰整理作为对照。