《清文精选》服饰内容提取 · 工作日志

时间:2026-05-09

任务:提取《清文精选》全部服饰相关内容


操作流程

Step 1: 确认输入文件

```

wc -l → 279行(5本书中最小)

mkdir -p 文总集output/清文精选/

```

Step 2: 多轮grep搜索(10轮50词)

轮次关键词匹配行数
R1衣(13) 裳(3) 裘(0) 冠(5) 冕(0)
R2袍(0) 褐(0) 裙(0) 衫(2) 襦(0)
R3绶(0) 佩(0) 笏(0) 履(5) 舄(0)
R4帻(0) 弁(0) 铠(1) 甲(5)
R5帛(2) 绢(0) 缟(1) 纱(0) 锦(2)
R6绣(1) 黼(0) 黻(0) 衮(0) 章服(0)
R7带(4) 袂(1) 襟(0) 袖(2) 衽(1)
R8丝(0) 麻(0) 葛(1) 布衣(0) 绵(1)
R9朝服(0) 祭服(0) 丧服(0) 戎服(0) 法服(0)
R10深衣(0) 缁衣(1) 素衣(0) 朱衣(0) 青衣(1)

总匹配行数:约40行(去重前)

有效服饰段落数:约9段

Step 3: 补充搜索

Step 4: 噪音过滤

Step 5: 保存三份文件


关键发现

  1. 衣冠代葬为全书最感人服饰文献——史可法衣冠冢
  2. 红顶花翎为清末官服品级核心标志——梁启超《少年中国说》批判
  3. 全书279行为5本书中最小,但服饰密度最高
  4. 裘(0)袍(0)裙(0)冕(0)衮(0)——大量服制术语缺失
  5. 朝服祭服丧服戎服法服全部为0——制度性服饰完全缺失

文件大小