《文苑英华辨证》服饰内容提取 · 工作日志
时间:2026-05-09
操作流程
Step 1: 确认输入文件
- 输入:/tmp/daizhige_data/集藏/文总集/文苑英华辨证.md
- 全书:212行
- 输出:/home/z/my-project/upload/文总集output/文苑英华辨证/
Step 2: 多轮grep搜索
| 关键词 | 匹配行数 |
|---|---|
| 锦 | 11 |
| 衮 | 8 |
| 甲 | 7 |
| 绣 | 3 |
| 丝 | 3 |
| 葛 | 3 |
| 冕 | 2 |
| 履 | 2 |
| 帛 | 2 |
| 麻 | 2 |
| 珥 | 2 |
| 貂蝉 | 1 |
| 裘 | 1 |
| 裙 | 1 |
| 绶 | 1 |
| 舄 | 1 |
| 弁 | 1 |
| 簪 | 1 |
总匹配行数:52
有效服饰段落数:13
收录段落数:13
Step 3: 噪音过滤
- Tier 1高价值复合词直接收录
- Tier 2单字需2个以上服饰词同现才收录
- 按优先级排序,收录最高分段落
Step 4: 分类整理
- 官服与品阶:2段
- 戎服甲胄:4段
- 衣裳冠履:3段
- 织绣纹饰:4段
Step 5: 保存三份文件
- /home/z/my-project/upload/文总集output/文苑英华辨证//原文提取.md
- /home/z/my-project/upload/文总集output/文苑英华辨证//总结.md
- /home/z/my-project/upload/文总集output/文苑英华辨证//日志.md
文件大小
- 原文提取.md:约5KB(5509字节)
- 总结.md:约1KB(1542字节)
- 日志.md:约0KB(0字节)
审核结果
原文均从grep -n搜索提取,有明确行号对应。《文苑英华辨证》服饰内容约13段有效段落,收录13段。已据实整理,未灌水凑字。