笠阁批评旧戏目 — 服饰提取日志
基本信息
| 项目 |
内容 |
| 输入文件 |
/home/z/my-project/upload/剧曲/剧曲/笠阁批评旧戏目.txt |
| 输出目录 |
/home/z/my-project/upload/剧曲output/笠阁批评旧戏目/ |
| 总行数 |
195 |
| 处理时间 |
2026-03-05 |
处理流程
第1步:行数统计
wc -l 笠阁批评旧戏目.txt → 195行
第2步:关键词初筛
使用ripgrep对42个服饰关键词逐一匹配,命中16行:
- 第21、33、67、70、74、78、80、85、87、95、97、107、114、136、163、194行
第3步:上下文提取
对命中行执行 sed -n 'start,endp' 提取前后各2行上下文,逐行审查语义。
第4步:噪音过滤
| 行号 |
关键词 |
噪音类型 |
处理 |
| 21 |
簪 |
仅剧名含字 |
保留剧名条目 |
| 33 |
锦 |
仅剧名含字 |
保留剧名条目 |
| 67 |
锦 |
仅剧名含字 |
保留剧名条目 |
| 70 |
锦 |
仅剧名含字 |
保留剧名条目 |
| 74 |
锦 |
仅剧名含字 |
保留剧名条目 |
| 78 |
丝 |
仅剧名含字 |
保留剧名条目 |
| 80 |
袍 |
仅剧名含字 |
保留剧名条目 |
| 85 |
锦、袍 |
仅剧名含字 |
保留剧名条目 |
| 87 |
锦 |
作者号"锦窝老人" |
标注为非服饰 |
| 95 |
环 |
仅剧名含字 |
保留剧名条目 |
| 97 |
环 |
仅剧名含字 |
保留剧名条目 |
| 107 |
锦 |
仅剧名含字 |
保留剧名条目 |
| 114 |
锦、带 |
仅剧名含字 |
保留剧名条目 |
| 136 |
裘 |
作者姓氏"裘叔度" |
标注为非服饰 |
| 163 |
罗 |
佛教译音"陀罗尼" |
标注为非服饰 |
| 194 |
绮 |
文学用语"绮语神行" |
标注为非服饰实物 |
第5步:输出文件
| 文件 |
大小 |
说明 |
| 总结.md |
<20KB |
服饰内容总结分析 |
| 原文提取.md |
<20KB |
原文逐条提取 |
| 日志.md |
<20KB |
本日志 |
关键词命中统计
| 关键词 |
命中行数 |
有效服饰行数 |
| 锦 |
7 |
0(均为剧名/人名用字) |
| 袍 |
2 |
0(均为剧名用字) |
| 环 |
2 |
0(均为剧名用字) |
| 簪 |
1 |
0(剧名用字) |
| 丝 |
1 |
0(剧名用字) |
| 绮 |
1 |
0(文学用语) |
| 裘 |
1 |
0(姓氏) |
| 罗 |
1 |
0(译音) |
结论:本书无实质性服饰描写内容,所有命中均为剧名、人名或文学修辞用字。