📋 研究总结 📝 处理日志 📜 原文提取

《古今笑史》服饰整理工作日志


基本信息

项目 内容
书名 古今笑史
编者 明·冯梦龙(子犹)
输入文件 /home/z/my-project/upload/笑话/笑话/古今笑史.txt
文件行数 4949行
输出目录 /home/z/my-project/upload/笑话output/古今笑史/
处理日期 2026-03-04

处理流程记录

第一步:文件检测

wc -l /home/z/my-project/upload/笑话/笑话/古今笑史.txt
# 结果:4949行
mkdir -p /home/z/my-project/upload/笑话output/古今笑史/

文件规模适中(4949行),但仍遵循铁律,未整本载入LLM上下文,采用grep+sed逐轮提取。

第二步:六轮grep检索

第一轮:核心服饰词

rg -n '衣|裳|服|冠|帽|巾|履|鞋|靴|袜|带|佩|裘|袍|衫|裙|裤|褐|襦|袄|襟|裾|袂|衿|领|袖' 古今笑史.txt

命中:514行

各词频次: - 衣: 215 | 服: 109 | 冠: 72 | 带: 60 | 帽: 42 | 巾: 38 | 履: 24 | 领: 27 | 袖: 30 | 袍: 17 | 衫: 15 | 鞋: 14 | 裳: 11 | 裙: 11 | 靴: 11 | 麻(非布义): — | 裘: 7 | 裤: 7 | 袜: 6 | 袂: 6 | 佩: 5 | 袄: 5 | 褐: 2 | 襦: 2 | 襟: 3

第二轮:冠服制度词

rg -n '冕|弁|帻|幞头|簪|笄|步摇|凤冠|进贤冠|乌纱|貂蝉' 古今笑史.txt

命中:35行

第三轮:织物材料词

rg -n '丝|帛|绢|绸|缎|绫|罗|锦|绮|纱|布|麻|葛|棉' 古今笑史.txt

命中:280行

注:罗(91)、布(55)、麻(33)、葛(29)等单字噪音较大,需结合上下文二次过滤。

第四轮:颜色纹饰词

rg -n '紫|绯|绿|青|赤|黄|白|黑|玄|黼|黻|龙|凤|绣|织|染' 古今笑史.txt

命中:669行

注:白(213)、黄(137)、龙(117)等单字噪音极大,本数据仅作辅助参考,不直接用于原文提取。

第五轮:配饰器物词

rg -n '玉|佩|环|珮|鱼袋|笏|带钩|鞶囊|扇|伞|盖' 古今笑史.txt

命中:221行

注:盖(94)、玉(81)单字噪音大。

第六轮:动作制度词

rg -n '赐服|赐紫|赐绯|借紫|加冠|冠礼|服色|服制|禁服|僭服' 古今笑史.txt

命中:4行(赐紫1、赐绯1、服色1、衣服制度1)

第三步:复合词精准检索

为降低单字噪音,增加六批复合词检索:

批次 关键词类型 命中行数
compound1 衣冠/衣服/朝服/公服/锦衣/布衣/紫衣/青衣等 95
compound2 幞头/乌纱/进贤冠/纱帽/葛巾/步摇/簪钗等 33
compound3 皂靴/草鞋/锦鞋/玉带/金带/犀带/笏板等 11
compound4 赐服/赐紫/赐绯/紫袍/绯袍/道袍/襕衫等 31
compound5 紫袍/金紫/锦衣/蟒袍/广袖/红袖/罗袖等 38
compound6 绣衣/织锦/麻衣/葛衣/锦绣/绫罗/衰绖等 12

合并去重后:176个唯一行号。

第四步:补充检索

针对首轮可能遗漏的特殊服饰词,追加两批检索:

批次 关键词 命中行数
extra1 深衣/直裰/道服/野服/胡服/纶巾/葛巾/网巾/笠/蓑衣 30
extra2 簪花/首饰/珠翠/步摇/钗/髻/冠带/朝靴/簪笏 41

追加检索冠带/腰带/丧服/便服等:24行+19行。

第五步:sed提取与去重去噪

将所有命中的行号合并、排序、去重,使用sed逐行提取原文。

去噪原则: 1. 单独出现的颜色词(如"白云""黄花""青龙"等非服饰语境)剔除 2. "衣"作动词(如"衣食""丰衣足食"泛指)酌情保留或剔除 3. "青衣"作"仆婢"代称保留,作"青色衣服"本义亦保留 4. "盖"作"覆盖/车盖"义剔除,作"伞盖"义保留 5. "布"作"布匹/布衣"保留,作"宣布/布告"剔除 6. "玉"作"玉带/玉簪/玉佩"保留,作"美玉/玉器"泛指视语境判断

第六步:分类审查

将提取内容按六大类审查:

类别 条目数 核心内容
冠帽类 34条 幞头6条、纱帽4条、各种巾帽冠笠等24条
衣袍衫裙类 92条 各色官服、布衣、女性服饰、特殊服饰
鞋履类 13条 朝靴、麻鞋、芒履、草履、绣鞋袜等
配饰类 26条 腰带、笏、簪钗首饰、冠带等
冠服制度类 11条 赐服、服色等级、冠带买卖等
织物材料类 12条 绢、绫、罗、锦、纱、布、麻等

合计:188条有效服饰记载。


数据质量评估

噪音率

  • 六轮单字grep总命中:514+35+280+669+221+4 = 1723行
  • 去重后唯一行号:1297行
  • 复合词精准检索命中:176行(高信度)
  • 最终有效条目:188条(含补充检索新增)
  • 综合噪音率:约89%(主要由第三、四、五轮单字匹配产生)

覆盖率评估

  • 本书4949行,服饰相关188条,占比约3.8%
  • 六轮检索+复合词检索+补充检索三轮覆盖,漏检率估计<5%
  • 主要遗漏风险:不常见的服饰专有名词(如特定朝代的冠名)可能未被词库覆盖

内容信度

  • 本书为笑话集,服饰记载多为轶事中的片段,非系统论述
  • 服饰细节的真实性需结合同时代其他文献交叉验证
  • 但对日常服饰使用习惯的反映具有独特价值

输出文件清单

文件名 大小 内容
古今笑史_总结.md ~18KB 服饰内容分类综述、特色分析、重要发现
古今笑史_原文提取.md ~19KB 188条服饰相关原文按类摘录
古今笑史_日志.md ~8KB 本文件,处理流程记录

遗留问题与建议

  1. "青衣"双义问题:本书中"青衣"既指青色衣服(如鬼着皂单衣),又指仆婢(如"小青衣""二青衣"),两类用法已分别标注但未严格分列,建议后续整理时做语义标注。

  2. 服色等级与官品对应:本书多次提及绯、紫、绿等服色,但未明言品级对应关系,建议与《明史·舆服志》对照,确认冯梦龙时代的服色制度背景。

  3. 幞头时代错位:本书为明代作品,但收录唐宋轶事中频繁出现幞头,明代实已不用幞头,此为轶事流传的时代特征,非作者误记。

  4. 女性服饰较少:本书以男性官场轶事为主,女性服饰记载较少且多经过男性视角(如妓女服饰、妻妾首饰),建议补充其他女性题材古籍的服饰整理作为对照。