御定佩文斋咏物诗选 — 服饰提取日志

基本信息

处理流程

Step 1: wc统计

Step 2: 五轮grep统计

轮次关键词类型grep -c 命中行数
R1核心词2,543
R2材质2,243
R3色彩纹饰8,308
R4制度42
R5配饰331

Step 3: 精确提取

R1 核心词精确匹配:1,163行 → 过滤后保留含衣裳、衣冠、裘、冠冕、袍、衫、裙等明确服饰复合词的行

R2 材质精确匹配:2,243行 → 过滤后保留锦衣、罗裳、葛巾等服饰上下文的153行

R3 色彩纹饰精确匹配:8,308行 → 过滤后保留紫袍、朱衣、素裳等服饰复合词的121行

R4 制度:19行(命中少但精准)

R5 配饰:331行

Step 4: 专用卷定位

通过搜索卷目发现10个服饰专卷:

使用sed -n按行范围完整提取各卷。

Step 5: 散见引用提取

在排除专用卷行范围(13381-14283)后,对全书进行服饰关键词精确匹配,得到503行散见引用。

Step 6: 筛选与审查

中间文件清单

文件名说明行数
round1_core.txtR1核心词初次提取1,163
round2_material.txtR2材质初次提取2,243
round2_material_filtered.txtR2材质过滤后153
round3_color.txtR3色彩初次提取7,494
round3_color_filtered.txtR3色彩过滤后121
round4_system.txtR4制度19
round5_accessory.txtR5配饰331
precise_all.txt合并精确提取1,077
strict_clothing.txt严格服饰提取1,039
vol144-163各卷txt10个专卷完整内容531
scattered_final.txt散见引用精选503

问题与备注

  1. 第3轮色彩词(紫、青、白、素等)命中率极高(8,308行)但噪声极大,必须结合服饰上下文过滤
  2. "裳"字在诗歌中常作"衣裳"连用,部分为泛指而非特指服饰
  3. "佩玉"一词在诗歌中多用作身份象征而非服饰描述
  4. 卷159"印笏"中印信部分与服饰关系较远,但笏属服饰制度范畴
  5. 卷157"苎葛"、卷158"氊罽"虽为织物类,但部分诗咏植物本身而非织物