《新缀白裘》服饰提取日志
基本信息
- 书名:新缀白裘
- 输入文件:/home/z/my-project/upload/剧曲/剧曲/新缀白裘.txt
- 输出目录:/home/z/my-project/upload/剧曲output/新缀白裘/
- 处理时间:2026-03-05
处理流程记录
第一步:wc -l 查总行数
- 结果:1623行
第二步:多轮grep -n提取服饰关键词行号
使用47个服饰关键词逐一检索,命中统计如下:
| 关键词 | 命中行数 | 关键词 | 命中行数 | 关键词 | 命中行数 |
|---|---|---|---|---|---|
| 衣 | 93 | 带 | 76 | 丝 | 31 |
| 裘 | 30 | 锦 | 36 | 绣 | 41 |
| 罗 | 42 | 纱 | 20 | 冠 | 22 |
| 裙 | 21 | 布 | 21 | 麻 | 21 |
| 环 | 20 | 幅 | 19 | 帐 | 19 |
| 佩 | 16 | 袍 | 15 | 裳 | 11 |
| 练 | 11 | 巾 | 10 | 旗 | 8 |
| 襟 | 8 | 履 | 8 | 簪 | 6 |
| 絮 | 7 | 绮 | 8 | 绡 | 4 |
| 旌 | 4 | 纨 | 3 | 帛 | 3 |
| 绢 | 1 | 褐 | 1 | 袂 | 1 |
| 裾 | 1 | 冕 | 1 | 绸 | 1 |
| 缯 | 1 | 绶 | 1 | 帷 | 1 |
| 旆 | 1 | 黼 | 0 | 黻 | 0 |
| 鹖 | 0 | 帻 | 0 | 幄 | 0 |
| 纛 | 0 | 屦 | 0 | 绂 | 0 |
合计命中行数:384行(含大量噪音)
第三步:sed -n提取上下文并过滤噪音
噪音类型及过滤方法
- 曲牌名含关键词:如【皂罗袍】含"罗"、【锦堂月】含"锦"——不作为服饰条目
- 非服饰语境:
- "地带""期带"——"带"非服饰义
- "连衣""同衣"——"衣"为泛指而非具体服饰
- "流传""流传"——"传"非织物
- "练习""练"——非白绢义
- "麻雀""麻烦"——非麻布义
- "旗帜"在军事语境中的泛用
- 复合词判断:仅当关键词在服饰语境中使用时收录
过滤后有效服饰条目:约148条
第四步:输出三份MD文件
| 文件名 | 大小 | 说明 |
|---|---|---|
| 新缀白裘_总结.md | 4.9KB | 分类总结、统计、特色发现 |
| 新缀白裘_原文提取.md | 8.0KB | 按剧目分组的原文摘录 |
| 新缀白裘_日志.md | 本文件 | 处理流程记录 |
三份文件合计:< 20KB × 3,均远小于20KB限制。
关键词覆盖验证
命中关键词(38个)
衣、裳、冠、带、袍、裘、褐、巾、履、袂、裾、襟、裙、幅、冕、簪、佩、环、绮、罗、纱、绢、帛、锦、绣、练、絮、布、麻、丝、绸、缯、绫、纨、绡、绶、帷、帐、旗、旌、旆
未命中关键词(9个)
屦、绅、弁、珥、黼、黻、鹖、帻、幄、纛、绂
说明:未命中关键词在本书中无服饰语境下的出现。
方法说明
- 全程使用
rg(ripgrep) 搜索,未加载整本TXT - 原文引用不转述,保留原始文字
- 行号均指向原文件行号,可溯源验证
- 过滤标准:关键词须在服饰语境(穿戴、织物、旗帜等)中使用方收录