录曲余谈 — 服饰提取日志

基本信息

项目 内容
输入文件 /home/z/my-project/upload/剧曲/剧曲/录曲余谈.txt
输出目录 /home/z/my-project/upload/剧曲output/录曲余谈/
总行数 87
处理时间 2026-03-05

处理流程

第1步:行数统计

wc -l 录曲余谈.txt → 87行

第2步:关键词初筛

使用ripgrep对42个服饰关键词逐一匹配,命中15行:
- 第4、6、12、16、18、20、39、41、47、55、57、71、73、81、83行

第3步:上下文提取

对命中行执行 sed -n 'start,endp' 提取前后各2行上下文,逐行审查语义。

第4步:噪音过滤

行号 关键词 噪音类型 处理
4 葛带、黄冠、草笠 有效服饰内容 ✅ 保留
6 丝(刻木牵丝) 木偶戏用语 ❌ 过滤
12 头巾、褐、罗、衫 有效服饰内容 ✅ 保留
16 无服饰关键词 误命中 ❌ 过滤
18 无服饰关键词 误命中 ❌ 过滤
20 无服饰关键词 误命中 ❌ 过滤
39 无服饰关键词 误命中 ❌ 过滤
41 无服饰关键词 误命中 ❌ 过滤
47 锦(锦西厢) 剧名 ❌ 过滤
55 帷(帷簿私情) 非服饰义 ❌ 过滤
57 裙、服色 有效服饰内容 ✅ 保留
71 纱(浣纱记) 剧名 ❌ 过滤
73 环(环翠堂) 堂号 ❌ 过滤
81 无服饰关键词 误命中 ❌ 过滤
83 无服饰关键词 误命中 ❌ 过滤

第5步:输出文件

文件 大小 说明
总结.md <20KB 服饰内容总结分析
原文提取.md <20KB 原文逐条提取
日志.md <20KB 本日志

关键词命中统计

关键词 命中行数 有效服饰行数
1 1(葛带)
1 1(黄冠)
1 1(草笠)
1 1(头巾)
1 1(茶褐)
2 1(罗衫);1为误命
1 1(罗衫)
1 1(百凤裙)
1 0(木偶戏用字)
1 0(剧名)
1 0(非服饰义)
1 0(剧名)
1 0(堂号)

有效服饰行:3行(第4、12、57行),信息密度较高。