《全元曲》服饰提取日志

基本信息

  • 输入文件:/home/z/my-project/upload/剧曲/剧曲/全元曲.txt
  • 输出目录:/home/z/my-project/upload/剧曲output/全元曲/
  • 文件大小:7.5MB
  • 总行数:53179行

第一步:关键词全量统计

命令:

for kw in 衣 裳 冠 带 袍 裘 褐 巾 履 屦 绅 袂 裾 襟 裙 幅 弁 冕 簪 珥 佩 环 绮 罗 纱 绢 帛 锦 绣 练 絮 布 麻 丝 绸 缎 缯 绫 纨 绡 绶 绂 黼 黻 鹖 帻 帷 帐 幄 旗 旌 旆 纛; do
  count=$(rg -c "$kw" 全元曲.txt 2>/dev/null || echo 0)
  lines=$(rg -n "$kw" 全元曲.txt 2>/dev/null | wc -l)
  echo "$kw: 文件数=$count 行数=$lines"
done

统计结果:

关键词 命中行数 关键词 命中行数 关键词 命中行数
1400 122 248
1547 347 60
15 178 97
5 10 55
13 115 253
45 0 9
165 3 62
240 96 825
246 34 58
949 904 101
226 571 292
441 49 10
3 28 20
72 38 0
1 1 0
4 16 286
19 318 104
11 16

合计:9746条(含重复行交叉命中),去重估计约6843条。

零命中:弁、绂、鹖(3个关键词无命中)


第二步:分批筛选提取

策略说明

因总命中量极大(6843+),采取以下筛选策略:
1. 高频词(衣/带/锦/绣/罗/布/丝,>400行):用二级过滤(搭配动词/颜色/材质词)缩减至20-30条候选
2. 中频词(袍/裙/冠/巾/簪/环/纱/旗,100-350行):直接提取前20-30条,人工筛选
3. 低频词(裘/褐/屦/绅/珥/弁/冕/帻/黼/黻等,<60行):全量提取后筛选
4. 特殊词(旗/旌/纛/帷/帐/幄):搭配颜色/材质词过滤

执行命令记录

# 冠帽类
rg -n "冠" 全元曲.txt | rg "戴|著|穿|脱|赐|加|进|换|卸|赏|束" | head -20
# 命中20条,筛出8条有实质服饰描写

# 袍类
rg -n "袍" 全元曲.txt | rg "穿|著|脱|换|赐|赏|紫|红|绿|青|白" | head -20
# 命中20条,筛出10条

# 裙类
rg -n "裙" 全元曲.txt | rg "穿|著|脱|换|红|绿|罗|锦|绣|百褶|石榴|翠" | head -20
# 命中20条,筛出8条

# 簪类
rg -n "簪" 全元曲.txt | rg "玉|金|银|翠|花|脱|插|戴|坠" | head -15
# 命中15条,筛出8条(含玉簪折断关键段落)

# 裘类(低频,全量提取)
rg -n "裘" 全元曲.txt
# 60条全量,筛出8条有实质描写

# 褐类(极低频,全量提取)
rg -n "褐" 全元曲.txt
# 15条全量,筛出5条

# 巾类
rg -n "巾" 全元曲.txt | rg "角巾|纶巾|头巾|道巾|幅巾|葛巾|儒巾|搭|戴|裹|结|束" | head -15
# 命中15条,筛出7条

# 罕见词全量提取
rg -n "黼|黻|冕|弁|鹖|帻" 全元曲.txt
# 冕9条+帻4条+黼1+黻1,弁/鹖0条

# 旗旌类
rg -n "旗|旌|旆|纛" 全元曲.txt | rg "皂|白|红|彩|画|绣|金|建|竖|树|打|扯|展|掩|遮" | head -15
# 命中15条,筛出7条

# 绶类(全量)
rg -n "绶" 全元曲.txt
# 38条,多为"紫绶金章"固定搭配

# 纨类(全量)
rg -n "纨" 全元曲.txt
# 20条,多为"纨扇"和"纨袴"

# 锦袍/紫袍/绿袍等组合
rg -n "绨袍|锦袍|紫袍|绿袍|皂袍|白袍|红袍|青袍|布袍|衲袍|道袍|僧袍" 全元曲.txt
# 命中多条

# 罗衫/罗裙等组合
rg -n "罗衫|罗裙|罗衣|罗袍|绮罗|轻罗|红罗|绿罗|生罗" 全元曲.txt
# 命中多条

# 服饰制度相关
rg -n "绨袍|布衣|衣冠|朝服|公服|衣裳|更衣|换衣|赐衣" 全元曲.txt
# 命中多条

第三步:分类归纳

将筛选出的代表性片段按8大类别归纳:

类别 筛选条目数 保留条目数 保留率
冠帽类 ~50 8 16%
衣袍类 ~80 10 12.5%
裙裳类 ~40 8 20%
佩饰类 ~50 9 18%
织物类 ~60 10 16.7%
带履类 ~30 6 20%
旗旌帷帐类 ~40 7 17.5%
礼服纹样类 ~15 4 26.7%
合计 ~365 62 17%

第四步:质量审核

对抗式学术审查要点

  1. "衣冠"非服饰:大量"衣冠之士""衣冠受祸"为阶层代称,非具体服饰描写——已过滤
  2. "带"动词用法:1547条"带"中约80%为动词"带领/带着",仅约200条指服饰带——已过滤
  3. "锦""绣"修辞用法:949条"锦"中大量为"锦江山""锦书"等修辞用法——已过滤,仅保留锦袍/锦带/锦衣等实物描写
  4. "环"非佩饰:240条"环"中含"环顾""环境"等非服饰用法——已用"环珮/珮环/玉环"组合过滤
  5. "布"多义词:571条"布"含"宣布""布告""分布"等——已用"布衣/布袍/布上"过滤
  6. "旗"军事vs礼制:318条"旗"多为军事描写——保留皂雕旗/绣旗/五方旗等有形制信息者
  7. 重复段落:同一出戏中相同服饰描写重复出现——去重后保留首次出现

审核结论

经上述审查,最终保留62条代表性片段,涵盖8大类别,每条均有实质服饰史料价值。


第五步:输出文件

文件名 大小 内容
全元曲_总结.md ~8KB 分类综述+学术审查+总结表
全元曲_原文提取.md ~9KB 带行号原文片段,关键词加粗
全元曲_日志.md 本文件 完整操作记录

所有文件均≤20KB,符合要求。


日志记录完毕 | 2026年3月4日