《全元曲》服饰提取日志
基本信息
- 输入文件:/home/z/my-project/upload/剧曲/剧曲/全元曲.txt
- 输出目录:/home/z/my-project/upload/剧曲output/全元曲/
- 文件大小:7.5MB
- 总行数:53179行
第一步:关键词全量统计
命令:
for kw in 衣 裳 冠 带 袍 裘 褐 巾 履 屦 绅 袂 裾 襟 裙 幅 弁 冕 簪 珥 佩 环 绮 罗 纱 绢 帛 锦 绣 练 絮 布 麻 丝 绸 缎 缯 绫 纨 绡 绶 绂 黼 黻 鹖 帻 帷 帐 幄 旗 旌 旆 纛; do
count=$(rg -c "$kw" 全元曲.txt 2>/dev/null || echo 0)
lines=$(rg -n "$kw" 全元曲.txt 2>/dev/null | wc -l)
echo "$kw: 文件数=$count 行数=$lines"
done
统计结果:
| 关键词 | 命中行数 | 关键词 | 命中行数 | 关键词 | 命中行数 |
|---|---|---|---|---|---|
| 衣 | 1400 | 裳 | 122 | 冠 | 248 |
| 带 | 1547 | 袍 | 347 | 裘 | 60 |
| 褐 | 15 | 巾 | 178 | 履 | 97 |
| 屦 | 5 | 绅 | 10 | 袂 | 55 |
| 裾 | 13 | 襟 | 115 | 裙 | 253 |
| 幅 | 45 | 弁 | 0 | 冕 | 9 |
| 簪 | 165 | 珥 | 3 | 佩 | 62 |
| 环 | 240 | 绮 | 96 | 罗 | 825 |
| 纱 | 246 | 绢 | 34 | 帛 | 58 |
| 锦 | 949 | 绣 | 904 | 练 | 101 |
| 絮 | 226 | 布 | 571 | 麻 | 292 |
| 丝 | 441 | 绸 | 49 | 缎 | 10 |
| 缯 | 3 | 绫 | 28 | 纨 | 20 |
| 绡 | 72 | 绶 | 38 | 绂 | 0 |
| 黼 | 1 | 黻 | 1 | 鹖 | 0 |
| 帻 | 4 | 帷 | 16 | 帐 | 286 |
| 幄 | 19 | 旗 | 318 | 旌 | 104 |
| 旆 | 11 | 纛 | 16 |
合计:9746条(含重复行交叉命中),去重估计约6843条。
零命中:弁、绂、鹖(3个关键词无命中)
第二步:分批筛选提取
策略说明
因总命中量极大(6843+),采取以下筛选策略:
1. 高频词(衣/带/锦/绣/罗/布/丝,>400行):用二级过滤(搭配动词/颜色/材质词)缩减至20-30条候选
2. 中频词(袍/裙/冠/巾/簪/环/纱/旗,100-350行):直接提取前20-30条,人工筛选
3. 低频词(裘/褐/屦/绅/珥/弁/冕/帻/黼/黻等,<60行):全量提取后筛选
4. 特殊词(旗/旌/纛/帷/帐/幄):搭配颜色/材质词过滤
执行命令记录
# 冠帽类
rg -n "冠" 全元曲.txt | rg "戴|著|穿|脱|赐|加|进|换|卸|赏|束" | head -20
# 命中20条,筛出8条有实质服饰描写
# 袍类
rg -n "袍" 全元曲.txt | rg "穿|著|脱|换|赐|赏|紫|红|绿|青|白" | head -20
# 命中20条,筛出10条
# 裙类
rg -n "裙" 全元曲.txt | rg "穿|著|脱|换|红|绿|罗|锦|绣|百褶|石榴|翠" | head -20
# 命中20条,筛出8条
# 簪类
rg -n "簪" 全元曲.txt | rg "玉|金|银|翠|花|脱|插|戴|坠" | head -15
# 命中15条,筛出8条(含玉簪折断关键段落)
# 裘类(低频,全量提取)
rg -n "裘" 全元曲.txt
# 60条全量,筛出8条有实质描写
# 褐类(极低频,全量提取)
rg -n "褐" 全元曲.txt
# 15条全量,筛出5条
# 巾类
rg -n "巾" 全元曲.txt | rg "角巾|纶巾|头巾|道巾|幅巾|葛巾|儒巾|搭|戴|裹|结|束" | head -15
# 命中15条,筛出7条
# 罕见词全量提取
rg -n "黼|黻|冕|弁|鹖|帻" 全元曲.txt
# 冕9条+帻4条+黼1+黻1,弁/鹖0条
# 旗旌类
rg -n "旗|旌|旆|纛" 全元曲.txt | rg "皂|白|红|彩|画|绣|金|建|竖|树|打|扯|展|掩|遮" | head -15
# 命中15条,筛出7条
# 绶类(全量)
rg -n "绶" 全元曲.txt
# 38条,多为"紫绶金章"固定搭配
# 纨类(全量)
rg -n "纨" 全元曲.txt
# 20条,多为"纨扇"和"纨袴"
# 锦袍/紫袍/绿袍等组合
rg -n "绨袍|锦袍|紫袍|绿袍|皂袍|白袍|红袍|青袍|布袍|衲袍|道袍|僧袍" 全元曲.txt
# 命中多条
# 罗衫/罗裙等组合
rg -n "罗衫|罗裙|罗衣|罗袍|绮罗|轻罗|红罗|绿罗|生罗" 全元曲.txt
# 命中多条
# 服饰制度相关
rg -n "绨袍|布衣|衣冠|朝服|公服|衣裳|更衣|换衣|赐衣" 全元曲.txt
# 命中多条
第三步:分类归纳
将筛选出的代表性片段按8大类别归纳:
| 类别 | 筛选条目数 | 保留条目数 | 保留率 |
|---|---|---|---|
| 冠帽类 | ~50 | 8 | 16% |
| 衣袍类 | ~80 | 10 | 12.5% |
| 裙裳类 | ~40 | 8 | 20% |
| 佩饰类 | ~50 | 9 | 18% |
| 织物类 | ~60 | 10 | 16.7% |
| 带履类 | ~30 | 6 | 20% |
| 旗旌帷帐类 | ~40 | 7 | 17.5% |
| 礼服纹样类 | ~15 | 4 | 26.7% |
| 合计 | ~365 | 62 | 17% |
第四步:质量审核
对抗式学术审查要点
- "衣冠"非服饰:大量"衣冠之士""衣冠受祸"为阶层代称,非具体服饰描写——已过滤
- "带"动词用法:1547条"带"中约80%为动词"带领/带着",仅约200条指服饰带——已过滤
- "锦""绣"修辞用法:949条"锦"中大量为"锦江山""锦书"等修辞用法——已过滤,仅保留锦袍/锦带/锦衣等实物描写
- "环"非佩饰:240条"环"中含"环顾""环境"等非服饰用法——已用"环珮/珮环/玉环"组合过滤
- "布"多义词:571条"布"含"宣布""布告""分布"等——已用"布衣/布袍/布上"过滤
- "旗"军事vs礼制:318条"旗"多为军事描写——保留皂雕旗/绣旗/五方旗等有形制信息者
- 重复段落:同一出戏中相同服饰描写重复出现——去重后保留首次出现
审核结论
经上述审查,最终保留62条代表性片段,涵盖8大类别,每条均有实质服饰史料价值。
第五步:输出文件
| 文件名 | 大小 | 内容 |
|---|---|---|
| 全元曲_总结.md | ~8KB | 分类综述+学术审查+总结表 |
| 全元曲_原文提取.md | ~9KB | 带行号原文片段,关键词加粗 |
| 全元曲_日志.md | 本文件 | 完整操作记录 |
所有文件均≤20KB,符合要求。
日志记录完毕 | 2026年3月4日