《六十种曲·鸣凤记》服饰提取日志
基本信息
- 输入文件:
/home/z/my-project/upload/剧曲/剧曲/六十种曲鸣凤记.txt - 输出目录:
/home/z/my-project/upload/剧曲output/六十种曲鸣凤记/ - 文件行数:1079行(wc -l验证)
- 文件编码:UTF-8,CRLF换行
- 关键词词库:衣裳冠带袍裘褐巾履屦绅袂裾襟裙幅弁冕簪珥佩环绮罗纱绢帛锦绣练絮布麻丝绸缎缯绫纨绡绶绂黼黻鹖帻帷帐幄旗旌旆纛(47字)
提取流程
第一步:wc -l查行数
$ wc -l 六十种曲鸣凤记.txt
1079 六十种曲鸣凤记.txt
第二步:逐关键词grep -n提取行号
使用Python逐行扫描(等效grep -n),结果如下:
| 关键词 | 命中行数 | 关键词 | 命中行数 | 关键词 | 命中行数 |
|---|---|---|---|---|---|
| 衣 | 43 | 裳 | 4 | 冠 | 19 |
| 带 | 30 | 袍 | 8 | 裘 | 6 |
| 褐 | 0 | 巾 | 2 | 履 | 3 |
| 屦 | 0 | 绅 | 4 | 袂 | 4 |
| 裾 | 1 | 襟 | 9 | 裙 | 4 |
| 幅 | 2 | 弁 | 1 | 冕 | 3 |
| 簪 | 5 | 珥 | 0 | 佩 | 8 |
| 环 | 10 | 绮 | 3 | 罗 | 29 |
| 纱 | 3 | 绢 | 0 | 帛 | 6 |
| 锦 | 30 | 绣 | 16 | 练 | 2 |
| 絮 | 8 | 布 | 13 | 麻 | 7 |
| 丝 | 8 | 绸 | 2 | 缎 | 0 |
| 缯 | 0 | 绫 | 0 | 纨 | 3 |
| 绡 | 0 | 绶 | 1 | 绂 | 0 |
| 黼 | 1 | 黻 | 1 | 鹖 | 0 |
| 帻 | 0 | 帷 | 3 | 帐 | 14 |
| 幄 | 3 | 旗 | 15 | 旌 | 22 |
| 旆 | 0 | 纛 | 0 |
合计命中行数(去重):216行
第三步:噪音过滤
过滤规则:
- 人名过滤:罗龙文(L125/128/134)为人名,非织物
- 曲牌过滤:锦堂月、窣地锦裆、锦衣香、皂罗袍、滚绣球为曲牌名,保留但标注
- 喻义过滤:箕裘(继承祖业喻)、飞絮/柳絮(飘零喻)、素练(江水喻)、绸缪(友谊喻)标注但酌情删减
- 机构名:锦衣卫为机构名,保留(兼具服饰意涵)
- 账册:细帐(L613)为账册而非帷帐,过滤
- 军谋:帷幄(L111/175/826)为军谋策略,非实指帷帐,标注
- 零命中关键词:褐、屦、绢、缎、缯、绫、绡、绂、鹖、帻、旆、纛、珥共13字无命中
过滤结果:
- 原始命中:216行
- 服饰相关:110行(初筛)
- 深度过滤:102行(去除纯喻义等噪音)
第四步:分类整理
按11类别归类:
| 类别 | 条目数 | 主要内容 |
|---|---|---|
| 冠帽头饰 | 14 | 峨冠、铁豸冠、蝉冠、挂冠、轩冕、武弁 |
| 衣袍裘褐 | 18 | 锦衣、铁衣、寒衣、宫袍、黄袍、蓝衣 |
| 腰带绅绶 | 7 | 博带、罗带、垂绅、缙绅、带围宽 |
| 裙裳裾幅 | 5 | 裙钗、霓裳、罗袖、鸳衾 |
| 鞋履 | 2 | 剑履、皂靴 |
| 袖襟袂 | 7 | 绣袄、连袂、分袂、牵襟、分襟、绝裾 |
| 佩饰簪环 | 11 | 环佩、玉佩、簪缨、脱簪、衔环 |
| 织物面料 | 22 | 绮罗、罗衾、纨袴、纨扇、锦绣、黼黻 |
| 粗布麻褐 | 3 | 韦布、麻绳 |
| 帷帐幄 | 4 | 芙蓉帐、甲帐、斗帐 |
| 军旗旌旆 | 9 | 旌旗、旌旄 |
第五步:输出文件
| 文件 | 大小 | 说明 |
|---|---|---|
| 总结.md | ~6KB | 服饰内容分析总结 |
| 原文提取.md | ~19KB | 按类别整理的原文摘录 |
| 日志.md | ~5KB | 提取过程记录 |
总输出:~30KB(远小于1MB限制)
grep验证抽检
以下为关键服饰语汇的grep验证结果(摘录):
L0124: 博带峨冠身显耀 ✓ 官服描写
L0140: 花香沾绣袄。酒色映宫袍 ✓ 歌舞服饰
L0194: 貂帽时瞻仙仗。黄衣日染天香 ✓ 宦官服饰
L0243: 歪了铁豸冠……踢绽了皂靴尖 ✓ 御史冠服
L0347: 裙钗雅淡 ✓ 女性服饰
L0374: 展开罗袖……佩玉响裙榴 ✓ 歌舞服饰
L0410: 万国衣冠……五云环佩 ✓ 朝堂仪制
L0494: 斗帐春寒……纨袴……绣丝 ✓ 闺阁织物
L0664: 罗带东风袅 ✓ 女性腰带
L0886: 做我相公的里衣……客久裘敝 ✓ 寒衣缝制
质量控制清单
- [x] wc -l确认文件行数:1079行
- [x] 47个关键词逐字grep,无遗漏
- [x] 引用原文不做转述
- [x] 噪音过滤(人名、曲牌、喻义等)
- [x] grep验证抽检10条
- [x] 输出文件均≤20KB
- [x] 总输出≤1MB
- [x] 不加载整本TXT,采用逐行grep方式