唐诗品汇唐诗拾遗 服饰内容提取日志
基本信息
- 处理时间:2026-03-04
- 文件路径:/home/z/my-project/upload/诗集/诗集/唐诗品汇唐诗拾遗.txt
- 文件规模:17,852行,1,710,421字节
处理流程
Step 1: wc统计
17852 1710421 唐诗品汇唐诗拾遗.txt
Step 2: 5轮grep检索
| 轮次 | 关键词类型 | 匹配行数 |
|---|---|---|
| 第1轮 | 核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领) | 2,133 |
| 第2轮 | 材质复合词 | 98 |
| 第3轮 | 色彩+服饰复合词 | 55 |
| 第4轮 | 制度词 | 20 |
| 第5轮 | 配饰词 | 146 |
Step 3: 精确复合词筛选
使用约150个复合服饰词汇进行二次筛选,得到469行精确匹配。
Step 4: 价值度评分筛选
因匹配行数较多,引入价值度评分系统(0-3分):
- 高价值(≥2分):含制度记载、具体名物、材质色彩组合 → 59条
- 中价值(1分):含材质服饰组合描述 → 80条
- 低价值(0分):纯文学意象或泛指 → 330条
评分标准:
- 含制度性描述(赐衣、章服等)+3分
- 含具体名物(白纻、茱萸锦带、方领等)+2分
- 含材质+服饰组合(罗衣、绮罗等)+1分
- 纯文学意象词(霓裳、羽衣等单独出现)-1分
- "衣冠""布衣"单独作身份代称 -1分
Step 5: 分类整理
核心条目按5大类分类,详见总结文档。
筛选标准说明
- "衣冠":仅保留同时含其他服饰词的条目或具体朝仪描写
- "布衣":仅保留描写具体穿着场景的用法
- "霓裳":单独出现作文学意象不收,与具体服饰词共现则收录
- 赐衣/赐紫/赐锦:全部收录,为重要制度记载
- 金紫/银青/金鱼/银鱼:全部收录,为唐代品官服饰制度
问题与备注
- 文本含大量评注(刘云、谢云等),需区分原文与评注
- 部分诗人生平介绍含服饰制度信息(如"赐紫禅师")
- "火浣单衣绣方领茱萸锦带玉盘囊"为全书最具名物价值条目
- 越罗(3条)、蜀锦等地方性丝织品需关注