《快心编传奇三集》服饰内容提取 · 日志

时间:2026-03-04 任务:提取《快心编传奇三集》服饰相关内容,整理为3份MD文件


操作流程

Step 1: 读取参考模板

读取 /home/z/my-project/upload/参考/总结.md(260行)
读取 /home/z/my-project/upload/参考/日志.md(84行)
读取 /home/z/my-project/upload/参考/原文提取.md(165行)

三份模板分别对应: - 总结.md:分类汇总+表格+核心思想 - 日志.md:操作流程+关键发现+踩坑记录 - 原文提取.md:按类别提取原文片段+行号+注释

Step 2: 检查输入文件

wc -c 快心编传奇三集.txt → 512,364字节(约500KB)

文件较大,按规则使用grep+sed处理,不整本读取。

Step 3: 5轮grep服饰关键词

Round 1:基本衣类(衣、裳、袍、裙、衫、袄、裤、褂、裘)

grep -n → 约200行命中
关键发现:绵袄、棉衣、布棉袍子、蓝纱袍子、深衣、大红衮龙绣袍、大红圆领

Round 2:首饰配件(冠、帽、巾、簪、钗、环、佩、带、镯)

grep -n → 约200行命中
关键发现:幅巾、儒巾、将巾、乌纱、金钗、珠花、银簪、象牙气通簪、凤冠
编码错误:utf-8解码异常,部分结果丢失

Round 3:鞋履带饰(履、鞋、靴、袜、绦、帔、氅)

LC_ALL=C grep -n → 约100行命中
关键发现:绣鸳鸯搢丝鞋、净鞋暑袜、朱履、穿靴、绣兜、裙带、脚带

Round 4:纺织材料(绸、缎、绢、纱、锦、帛、罗、绫、布、褐)

grep -n → 约200行命中
关键发现:蓝纱袍子、丝缎、绸绫缎搢、五色搢丝、五色大缎、绫罗、罗襦
编码错误:utf-8解码异常

Round 5:妆饰打扮(绣、妆、打扮、穿戴、珠翠、凤冠、钗钏、簪环、衮龙、圆领)

iconv -c + grep -n → 约100行命中
关键发现:珠翠交加、翠绕珠围、珠围翠裹、钗环横卸、绕翠围珠、宝钗金钏

Step 4: sed提取关键段落上下文

sed -n '536,540p' → 妇人修饰论(核心段落)
sed -n '316,320p' → 婉玉瑞鹤仙词
sed -n '755,758p' → 喜儿梳头描写
sed -n '300,304p' → 锦绣缠四肢词
sed -n '40,50p'   → 聘礼清单
sed -n '803,818p' → 婚礼描写

Step 5: 生成三份MD文件

文件 大小 内容
原文提取.md 10,574B 6大类22条原文片段+行号+注释
总结.md 6,236B 8节分类汇总+表格+核心特点
日志.md 本文件 操作流程+关键发现+踩坑记录

关键发现

  1. "鸳鸯鞋"为全书核心服饰道具:搢丝绣鸳鸯鞋构成兰英冤案的物证,推动全书最重要支线情节
  2. 三种文人典型装扮:幅巾深衣(隐逸)、儒巾青衫(科举)、蓝纱袍子(生员),一次出场并列对照
  3. 官服写实:大红衮龙绣袍+乌纱玉带(总兵婚服)、大红圆领+金/银/角带(品级区分),符合明清制度
  4. 妇人修饰专论(第537行):近300字的女性穿着审美议论,涉及抹胸、裙带、绫罗、布眼等,为明清小说中罕见段落
  5. 聘礼三级对比:刘家豪奢→驾山简素→柳俊极丰,体现人物品格差异
  6. 绣兜为新娘蒙面之物:两次出现(婉玉、丽娟婚礼),合卺后揭去,为明清婚俗实录

踩坑记录

  1. 编码问题:Round 2和Round 4的普通grep遇到utf-8解码错误(0xe5/0xe3位置异常),改用LC_ALL=C grepiconv -c管道解决
  2. 关键词泛匹配:首轮grep含大量非服饰用法(如"衣"在"衣裳"vs"衣食"中含义不同),需人工筛选
  3. "搢"字歧义:书中"搢"字频出,但多为"搢笏"之意(官场用语),非服饰相关,需排除
  4. 注释括号干扰:原文中〔〕内为评点批语,与正文交错,提取时需辨别

审核结果

全部通过 ✅ — 原文均从TXT文件中grep+sed提取,有明确行号对应。3份MD均≤20KB。