录曲余谈 — 服饰提取日志
基本信息
| 项目 |
内容 |
| 输入文件 |
/home/z/my-project/upload/剧曲/剧曲/录曲余谈.txt |
| 输出目录 |
/home/z/my-project/upload/剧曲output/录曲余谈/ |
| 总行数 |
87 |
| 处理时间 |
2026-03-05 |
处理流程
第1步:行数统计
wc -l 录曲余谈.txt → 87行
第2步:关键词初筛
使用ripgrep对42个服饰关键词逐一匹配,命中15行:
- 第4、6、12、16、18、20、39、41、47、55、57、71、73、81、83行
第3步:上下文提取
对命中行执行 sed -n 'start,endp' 提取前后各2行上下文,逐行审查语义。
第4步:噪音过滤
| 行号 |
关键词 |
噪音类型 |
处理 |
| 4 |
葛带、黄冠、草笠 |
有效服饰内容 |
✅ 保留 |
| 6 |
丝(刻木牵丝) |
木偶戏用语 |
❌ 过滤 |
| 12 |
头巾、褐、罗、衫 |
有效服饰内容 |
✅ 保留 |
| 16 |
无服饰关键词 |
误命中 |
❌ 过滤 |
| 18 |
无服饰关键词 |
误命中 |
❌ 过滤 |
| 20 |
无服饰关键词 |
误命中 |
❌ 过滤 |
| 39 |
无服饰关键词 |
误命中 |
❌ 过滤 |
| 41 |
无服饰关键词 |
误命中 |
❌ 过滤 |
| 47 |
锦(锦西厢) |
剧名 |
❌ 过滤 |
| 55 |
帷(帷簿私情) |
非服饰义 |
❌ 过滤 |
| 57 |
裙、服色 |
有效服饰内容 |
✅ 保留 |
| 71 |
纱(浣纱记) |
剧名 |
❌ 过滤 |
| 73 |
环(环翠堂) |
堂号 |
❌ 过滤 |
| 81 |
无服饰关键词 |
误命中 |
❌ 过滤 |
| 83 |
无服饰关键词 |
误命中 |
❌ 过滤 |
第5步:输出文件
| 文件 |
大小 |
说明 |
| 总结.md |
<20KB |
服饰内容总结分析 |
| 原文提取.md |
<20KB |
原文逐条提取 |
| 日志.md |
<20KB |
本日志 |
关键词命中统计
| 关键词 |
命中行数 |
有效服饰行数 |
| 带 |
1 |
1(葛带) |
| 冠 |
1 |
1(黄冠) |
| 笠 |
1 |
1(草笠) |
| 巾 |
1 |
1(头巾) |
| 褐 |
1 |
1(茶褐) |
| 罗 |
2 |
1(罗衫);1为误命 |
| 衫 |
1 |
1(罗衫) |
| 裙 |
1 |
1(百凤裙) |
| 丝 |
1 |
0(木偶戏用字) |
| 锦 |
1 |
0(剧名) |
| 帷 |
1 |
0(非服饰义) |
| 纱 |
1 |
0(剧名) |
| 环 |
1 |
0(堂号) |
有效服饰行:3行(第4、12、57行),信息密度较高。