御定佩文斋咏物诗选 — 服饰提取日志
基本信息
- 书名:御定佩文斋咏物诗选
- 文件路径:/home/z/my-project/upload/诗集/诗集/御定佩文斋咏物诗选.txt
- 输出路径:/home/z/my-project/upload/诗集output/御定佩文斋咏物诗选/
- 总行数:38,599
- 文件大小:3.0MB
- 处理时间:2026年
处理流程
Step 1: wc统计
- 总行数:38,599行
- 文件大小:3.0MB
Step 2: 五轮grep统计
| 轮次 | 关键词类型 | grep -c 命中行数 |
|---|---|---|
| R1 | 核心词 | 2,543 |
| R2 | 材质 | 2,243 |
| R3 | 色彩纹饰 | 8,308 |
| R4 | 制度 | 42 |
| R5 | 配饰 | 331 |
Step 3: 精确提取
R1 核心词精确匹配:1,163行 → 过滤后保留含衣裳、衣冠、裘、冠冕、袍、衫、裙等明确服饰复合词的行
R2 材质精确匹配:2,243行 → 过滤后保留锦衣、罗裳、葛巾等服饰上下文的153行
R3 色彩纹饰精确匹配:8,308行 → 过滤后保留紫袍、朱衣、素裳等服饰复合词的121行
R4 制度:19行(命中少但精准)
R5 配饰:331行
Step 4: 专用卷定位
通过搜索卷目发现10个服饰专卷:
- 卷144 战袍 (行13381-13405)
- 卷155 锦绮 (行13769-13802)
- 卷156 布帛 (行13804-13845)
- 卷157 苎葛 (行13847-13895)
- 卷158 氊罽 (行13897-13930)
- 卷159 印笏 (行13932-13974)
- 卷160 冠簪 (行13976-14048)
- 卷161 衣【附帕】 (行14050-14203)
- 卷162 带佩 (行14205-14235)
- 卷163 履舄 (行14237-14283)
使用sed -n按行范围完整提取各卷。
Step 5: 散见引用提取
在排除专用卷行范围(13381-14283)后,对全书进行服饰关键词精确匹配,得到503行散见引用。
Step 6: 筛选与审查
- 排除噪声:弋、弩、戟、盾、刀剑等非服饰语境
- 保留标准:关键词必须与服饰本体或服饰制度直接相关
- 质量评估:专用卷内容100%有效,散见引用约70%与服饰直接相关
中间文件清单
| 文件名 | 说明 | 行数 |
|---|---|---|
| round1_core.txt | R1核心词初次提取 | 1,163 |
| round2_material.txt | R2材质初次提取 | 2,243 |
| round2_material_filtered.txt | R2材质过滤后 | 153 |
| round3_color.txt | R3色彩初次提取 | 7,494 |
| round3_color_filtered.txt | R3色彩过滤后 | 121 |
| round4_system.txt | R4制度 | 19 |
| round5_accessory.txt | R5配饰 | 331 |
| precise_all.txt | 合并精确提取 | 1,077 |
| strict_clothing.txt | 严格服饰提取 | 1,039 |
| vol144-163各卷txt | 10个专卷完整内容 | 531 |
| scattered_final.txt | 散见引用精选 | 503 |
问题与备注
- 第3轮色彩词(紫、青、白、素等)命中率极高(8,308行)但噪声极大,必须结合服饰上下文过滤
- "裳"字在诗歌中常作"衣裳"连用,部分为泛指而非特指服饰
- "佩玉"一词在诗歌中多用作身份象征而非服饰描述
- 卷159"印笏"中印信部分与服饰关系较远,但笏属服饰制度范畴
- 卷157"苎葛"、卷158"氊罽"虽为织物类,但部分诗咏植物本身而非织物