📋 研究总结 📝 处理日志 📜 原文提取

《笑林广记》服饰整理日志

基本信息

  • 书名:笑林广记
  • 作者:[清]游戏主人纂集,[清]粲然居士参订
  • 源文件:/home/z/my-project/upload/笑话/笑话/笑林广记.txt
  • 总行数:2557行
  • 输出目录:/home/z/my-project/upload/笑话output/笑林广记/

处理流程

第一步:文件探查

  • wc -l → 2557行
  • 文件为中文TXT,UTF-8编码,含12卷目录

第二步:六轮grep筛查

轮次 关键词类别 关键词 命中行数
第一轮 核心服饰词 衣、裳、服、冠、帽、巾、履、鞋、靴、袜、带、佩、裘、袍、衫、裙、裤、褐、襦、袄、襟、裾、袂、衿、领、袖 154行
第二轮 冠服制度词 冕、弁、帻、幞头、簪、笄、步摇、凤冠、进贤冠、乌纱、貂蝉 9行
第三轮 织物材料词 丝、帛、绢、绸、缎、绫、罗、锦、绮、纱、布、麻、葛、棉、裘、褐 41行
第四轮 颜色纹饰词 紫、绯、绿、青、赤、黄、白、黑、玄、黼、黻、龙、凤、绣、织、染 115行
第五轮 配饰器物词 玉、佩、环、珮、鱼袋、笏、带钩、鞶囊、扇、伞、盖 34行
第六轮 动作制度词 赐服、赐紫、赐绯、借紫、加冠、冠礼、服色、服制、禁服、僭服 1行

六轮合计命中:354行(含大量重复行)

第三步:合并去重

  • 合并六轮结果,按行号排序去重
  • 去重后唯一行数:290行
  • 构建sed提取范围(匹配行±2行上下文),合并重叠区间后为153个范围
  • sed -n 提取上下文:1091行

第四步:人工审读去噪

审读1091行提取文本,进行以下去噪:

噪声类型1:关键词出现在非服饰语境 - "衣"在"衣食""依衣"等合成词中(约30行) - "服"在"降服""信服""舒服"等中(约15行) - "带"在"带归""带去""带笑"等中(约25行) - "白/黑/青/黄"等颜色词非服饰用(约60行) - "丝"在"丝竹""蜘蛛丝"等中(约8行) - "布"在"宣布""分布"等中(约5行) - "锦"在"锦旗"等非服饰语境(约3行) - "盖"在"盖义取""覆盖"等中(约10行) - "伞"在非仪仗语境(约3行) - "玉"在"玉帝""玉帝"等中(约5行) - "绿"在"吐绿痰"等非服饰语境(约2行) - "扇"在"扇尸""饭粘扇"等非服饰用(约3行)

噪声类型2:色情笑话中的服饰偶然出现 - "裤/裙"仅在脱衣情境中出现,与服饰文化无关(约20行) - 判断标准:服饰是否为笑话的叙事核心,而非背景细节

噪声类型3:同名条目重复 - "衣软"出现两次,内容不同,分别保留

去噪后保留有效服饰条目:55条

第五步:分类审查

将55条按服饰类型分为8大类:

分类 条目数 典型条目
官服制度 6 启奏、强盗脚、医官
士人服饰 8 及第、自不识、借药撵
帽类 5 蛀帽、帽当扇、道士冠
鞋靴袜类 5 合着靴、认鞋、鞋袜讦讼
衣裳类 6 爇衣、衣软、破衣
裙裤类 7 痴婿、独管裤、裁缝对课
配饰类 4 拾簪、麻屄、好男风
特殊服饰 11 借服、殡殓、见皇帝

第六步:产出三份MD

文件 大小 内容
笑林广记_服饰总结.md ~8.5KB 全书服饰内容综合分析
笑林广记_服饰日志.md 本文件 处理流程记录
笑林广记_服饰原文.md ~19KB 55条服饰相关原文

特别说明

  1. 《笑林广记》体量适中(2557行),但服饰关键词命中率较高(290/2557=11.3%),噪声比例也高(约81%的命中行为噪声),说明该书服饰用词多为日常语境而非专门服饰论述。
  2. 该书以讽刺笑话为主,服饰内容均服务于笑点,无纯粹描写服饰的段落。
  3. 第六轮"动作制度词"仅命中1行("服制"),反映此书为民间笑话集,不涉及正式冠服制度。
  4. 第四轮"颜色纹饰词"噪声率极高(颜色词多用于非服饰语境),实际有效条目仅约5条。