《人事典·祸福部》服饰内容提取 · 操作日志

时间:2026-04-17
任务:从《人事典·祸福部》中提取服饰相关内容,产出三份MD文件


操作流程

Step 1: 读取参考文件

读取 /home/z/my-project/upload/参考/ 目录
- 总结.md(《吕氏春秋》服饰总结范例)
- 日志.md(《晋会要》提取操作日志范例)
- 原文提取.md(《天工开物》原文提取范例)

确认输出格式:三份MD,书名_总结.md / 书名_日志.md / 书名_原文提取.md

Step 2: 检查源文件

文件路径:/home/z/my-project/upload/part2_extracted/人事典祸福部.txt
文件大小:145,233 bytes~145KB
编码:UTF-8CRLF行终止符
行数:90行(极长行,最长8901字符)

⚠️ 文件超过20KB限制,严禁加载全文,必须用grep逐关键词扫描。

Step 3: 定义55个服饰关键词

衣、裳、冠、冕、弁、帻、巾、帽、裘、褐、
袍、裙、裤、袴、衿、袖、带、绶、佩、笏、
履、屦、鞋、靴、袜、襦、襟、蓑、衮、黼、
黻、锦、绢、绫、罗、纱、缎、帛、丝、绸、
缟、纩、絺、绤、麻、葛、布、旒、袗、袯、
袈、袆、襌、袂

Step 4: Grep扫描

# 逐关键词计数
for kw in                                                      ; do
  count=$(grep -c "$kw" 人事典祸福部.txt)
  echo "$kw: $count"
done

命中结果(count > 0):

关键词 原始命中数 服饰用法数 非服饰用法
8行 ~18处
2行 2处
4行 ~8处 冠军/弱冠
1行 1处
1行 1处
1行 1处
1行 1处
2行 1处 袖中刀/袖遗诏
3行 2处 便袋/萦带
2行 4处
2行 2处
6行 1处 履霜/福履/履行
1行 1处
1行 1处
1行 1处
1行 1处
1行 2处
1行 2处
1行 2处
3行 4处
4行 2处 丝竹/丝毫
2行 2处
2行 2处
3行 3处 布施/宣布
4行 0处 全为人名/地名

未命中关键词(30个): 帻、巾、裘、褐、裙、裤、袴、衿、笏、鞋、靴、袜、襟、蓑、衮、黼、黻、绫、纱、缎、绸、缟、纩、絺、绤、袗、袯、袆、襌

Step 5: 上下文提取

使用Python脚本,对每个命中的关键词提取前后40-60字符的上下文片段,按行号定位。对行88/89/90等超长行(>8000字符),仅提取服饰关键词周围的上下文窗口,总提取量控制在18KB以内。

Step 6: 人工甄别

逐条判断是否为真正的服饰用法,剔除非服饰误命:

Step 7: 分类整理

将37条有效服饰原文按6大类整理:
1. 衣裳与日常生活(8条)
2. 衣冠与身份等级(10条)
3. 冕服与礼制(7条)
4. 丧葬与祭祀服饰(5条)
5. 丝织与纺织材料(11条)
6. 服饰与祸福报应故事(7条)

Step 8: 生成三份MD

/home/z/my-project/upload/p2output/人事典祸福部/
├── 人事典祸福部_总结.md    (分类总表+核心发现+结论)
├── 人事典祸福部_日志.md    (本文件,操作记录)
└── 人事典祸福部_原文提取.md37条服饰原文逐条列出)

关键发现

  1. 服饰非本部主体:祸福部以因果报应为主题,服饰内容零散分布,无专论段落
  2. "衣冠"为最高频词:6次出现,均指官宦阶层,体现衣冠=仕途的文化观念
  3. "燕赵衣裳福"为独特记载:天下九福之一,罕见以服饰为"福"分类的条目
  4. 袈裟变牛皮为典型衣物报应故事:服饰直接参与因果报应的叙事
  5. 30个关键词未命中:帻/巾/裘/褐/裙/笏/鞋/靴/袜/衮/黼/黻等均无出现,反映本部非服饰专篇

踩坑记录


审核结果