《两宋名贤小集》服饰提取日志
基本信息
- 书名:两宋名贤小集
- 文件路径:/home/z/my-project/upload/诗集/诗集/两宋名贤小集.txt
- 文件大小:36431行 / 3,461,830字节(约3.3MB)
- 输出目录:/home/z/my-project/upload/诗集output/两宋名贤小集/
操作步骤记录
步骤1:文件大小检查
wc -l -c /home/z/my-project/upload/诗集/诗集/两宋名贤小集.txt
# 结果:36431行,3461830字节
- 判断:大体积TXT,严禁整本载入LLM,必须逐轮grep提取。
步骤2:创建输出目录
mkdir -p /home/z/my-project/upload/诗集output/两宋名贤小集/
步骤3:第一轮grep——核心服饰词
grep -c '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩|玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 两宋名贤小集.txt
# 命中行数:4677
- 初步结果极多(含大量非服饰用法如"衣""玉""带"等泛用词),需进一步精筛。
步骤4:第二轮grep——材质/织物词
grep -c '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 两宋名贤小集.txt
# 命中行数:1969
- "丝""锦""罗"等词在诗歌中大量出现,多为修辞而非实写织物。
步骤5:第三轮grep——色彩/纹饰词
grep -c '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 两宋名贤小集.txt
# 命中行数:7172
- 色彩词极多(尤其"白""青""黄"等),大部分为风景描写,非服饰色彩。需结合上下文判断。
步骤6:第四轮grep——制度/动作词(重点)
grep -n '赐服|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮' 两宋名贤小集.txt
# 命中行数:258
- 此轮最为精准,检出关键条目:
- L1522:衮龙衣
- L2801:衮衣
- L28997:百官常服
- L1494:面赐紫
- L1312:章服裹猿狙
- L3438:赐衮衣
- L4204:朝服领巫觋
- L21509:丧服不除
- L34715:五色龙文杂衮衣
- L27910:衮服严常祀
步骤7:第五轮grep——配饰/器物词
grep -n '簪|钗|钿|珰|珥|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 两宋名贤小集.txt
# 命中行数:434
- 检出关键条目:
- L14592:幞头岩(幞头为官帽)
- L25946:幞头垂脚蓝绶敝
- L33616:星冠霞帔云衣裳
- L1159/1198:佩鱼符
- L4361:翠钿贴靥、玉凤雕钗
- L4304:绿绣珥貂
- L7171:冠珥汉貂蝉
步骤8:专项精筛——具体服饰名词
grep -n '锦衣|紫衣|白纻|貂裘|金龟|鱼符|章服|朝服|常服|祭服|丧服|赐衣|赐紫|赐绯|幞头|霞帔|佩鱼|鱼袋|衮衣|衮服|绿衣|朱衣|朱绂|紫绶|金紫|银绯|冠服|品色|舆服' 两宋名贤小集.txt
- 检出约70条高价值条目,涵盖主要官服制度信息。
步骤9:专项精筛——袍衫裙裘
grep -n '袍|衫|裙|袂|襟|履|靴|舄|裘' 两宋名贤小集.txt | grep '白纻|锦衣|紫衣|衮袍|龙袍|战袍|朝衣|赐衣|衣冠|衣裳|素衣|青衣|黄衣|红衣|绿衣|衣带|衣钵|衣裓|衣襟|衣冠|袍笏|袍服|青袍|白袍|红袍|紫袍|绿袍|衫裙|青衫|白衫|红衫|春衫|长衫|罗裙|翠裙|红裙|绿裙|裙袂|貂裘|羊裘|狐裘|鹿裘|轻裘|布裘'
- 检出约100条,覆盖日常服饰与文人着装。
步骤10:筛选与排除
排除以下非服饰用法:
- "衮衮"(副词"滚滚"):约30余条,全部排除
- "衣"作"穿衣/披衣"泛指而非具体服饰者:排除
- "玉"作"玉杯/玉盘/玉山"等非佩玉用法者:排除
- "带"作"地带/带领/带着"等非腰带用法者:排除
- "冠"作"冠军/冠绝"等非帽冠用法者:排除
- "紫/白/青"等色彩词作景物描写者:排除
- "绿衣"等咏花拟人者:排除
- "衣钵"为佛教传承之喻者:标注但不列为服饰
步骤11:分类整理
将有效条目按以下类别整理:
- 官服制度与章服(衮衣、章服、常服、朝服、赐服、朱衣、紫袍、青衫、金紫、朱绂、鱼符、幞头、珥貂等)
- 日常服饰与文人着装(貂裘、羊裘、轻裘、战袍、锦衣、春衫、布衣、鹑衣等)
- 女性服饰(红裙、罗裙、宫装、歌舞服饰、闺阁首饰等)
- 配饰与器物(簪缨、笏、绶、环佩、珰珥等)
- 服饰材质与工艺(锦、罗、绮、绫、缣、茧丝等)
- 色彩与纹饰(赭红、紫、朱、青、白、黼黻、绣纹等)
步骤12:对抗式学术审查
- 审查误读:"章服裹猿狙"确认为比喻,非实写;"衮衮"全部排除;"白纻"区分实指与典故
- 审查遗漏:检查"佩玉""绿衣"等,排除非服饰用法
- 审查时代:标注唐代服饰描写(如L10342紫袍玉带写唐玄宗)
- 审查可靠性:注文中的服饰信息(如L1494"面赐紫")更为可靠
步骤13:输出三篇MD文档
- 两宋名贤小集_总结.md
- 两宋名贤小集_日志.md(本文件)
- 两宋名贤小集_原文提取.md
统计数据
| 搜索轮次 | 关键词类型 | 命中行数 | 有效服饰条目(估算) |
|---|---|---|---|
| 第一轮 | 核心词 | 4677 | 约200 |
| 第二轮 | 材质/织物 | 1969 | 约50 |
| 第三轮 | 色彩/纹饰 | 7172 | 约80 |
| 第四轮 | 制度/动作 | 258 | 约60 |
| 第五轮 | 配饰/器物 | 434 | 约70 |
| 专项精筛 | 具体服饰名词 | 约170 | 约100 |
有效服饰条目总计:约150条(去重后)
注意事项
- 本集有伪托问题(四库提要已辨),但所收诗作本身仍具史料价值。
- 诗歌中服饰描写多为文学意象,需与其他史料(如《宋史·舆服志》)互证。
- "白纻"在本集中出现频率极高,兼有服饰实指与歌舞典故双重含义。
- 部分描写为唐代服饰(如写唐玄宗诸王"紫袍玉带"),不可径作宋代史料使用。