《唐宋八大家文钞》服饰内容提取 · 工作日志

时间:2026-05-09

任务:提取《唐宋八大家文钞》全部服饰相关内容,整理分类总结


操作流程

Step 1: 读取参考模板

```

读取 文总集output/崇古文诀/原文提取.md

读取 文总集output/崇古文诀/总结.md

读取 文总集output/崇古文诀/日志.md

→ 确认三份MD输出格式

```

Step 2: 确认输入文件

```

输入文件路径 /home/z/my-project/upload/文总集/文总集/唐宋八大家文钞.txt 不存在

→ 从殆知阁GitHub仓库(frankslin/daizhigev20, data分支)下载

→ 文件实际为.md格式(3.3MB, 6236行)

→ 用sparse checkout下载并复制为.txt

→ mkdir -p 文总集output/唐宋八大家文钞/ → 创建输出目录

```

Step 3: 多轮grep搜索(10轮50词)

轮次关键词匹配行数
R1衣(257) 裳(29) 裘(21) 冠(128) 冕(27)
R2袍(7) 褐(8) 裙(3) 衫(1) 襦(3)
R3绶(7) 佩(37) 笏(17) 履(87) 舄(8)
R4帻(1) 弁(6) 铠(7) 甲(182) 兜鍪(0)
R5帛(73) 绢(24) 缟(4) 纱(3) 锦(27)
R6绣(19) 黼(7) 黻(6) 衮(21) 章服(3)
R7带(61) 袂(4) 襟(12) 袖(14) 衽(5)
R8丝(39) 麻(41) 葛(64) 布衣(47) 绵(13)
R9朝服(4) 祭服(0) 丧服(5) 戎服(2) 法服(2)
R10深衣(1) 缁衣(0) 素衣(1) 朱衣(2) 白衣(3)

总匹配行数:约980行(去重前)

补充搜索:

Step 4: 重点提取与噪音过滤

关键发现

  1. 全书6236行,服饰内容约50段有效段落
  2. 官服赐予制度(金紫、绯衣银鱼)出现20余次,为全书最频繁的服饰内容
  3. 衮冕出现11次,为全书最高频服饰词
  4. 华夷服饰之辨在韩愈、柳宗元、欧阳修、苏辙文中均有涉及
  5. 五代史中契丹服饰描写最为详细——从毡裘左袵到冠通天冠服绛纱袍
  6. 苏轼礼论以衮冕与亵衣论述礼之"强人"本质
  7. 行2238章君字表民论为最完整的礼制服饰论述

Step 5: 噪音过滤

噪音类别

有效服饰段落估计:约50段

Step 6: 保存三份文件


关键发现

  1. 官服赐予最频繁:金紫、绯衣银鱼等出现20余次,几乎每篇墓志铭均涉及
  2. 衮冕讨论最集中:11次出现,涵盖五大语境,为全书最核心服饰词
  3. 华夷之辨最深刻:韩愈、柳宗元、欧阳修、苏辙均有论述
  4. 五代史夷狄服饰最详细:契丹从毡裘左袵到冠通天冠服绛纱袍的服饰转换
  5. 苏轼礼论最具理论性:衮冕与亵衣之"强人"论述

关键踩坑记录


文件大小


审核结果

原文均从grep -n搜索提取,有明确行号对应。《唐宋八大家文钞》为明茅坤编唐宋八大家散文合集,服饰内容以官服赐予制度最频繁、衮冕讨论最集中、华夷之辨最深刻。全书服饰内容约50段,属文总集中等水平。已据实整理,未灌水凑字。