列朝诗集 服饰内容提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 列朝诗集 |
| 文件路径 | /home/z/my-project/upload/诗集/诗集/列朝诗集.txt |
| 输出目录 | /home/z/my-project/upload/诗集output/列朝诗集/ |
| 文件大小 | 121,648行 / 6,057,635字节 |
| 处理日期 | 2026-03-04 |
处理步骤记录
Step 1: 文件大小检查
wc -l -c /home/z/my-project/upload/诗集/诗集/列朝诗集.txt
# 结果:121648行,6057635字节
文件超过6MB,严格遵循铁律:不整本载入LLM,全程使用grep+sed片段提取。
Step 2: 5轮关键词grep
第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)
for kw in 衣裳 衣冠 裘 冕 弁 帻 巾帽 佩玉 玉带 绶 笏 舄 履 靴 袍 衫 裙 褶 袂 襟 领; do
echo "=== $kw ==="; rg -n "$kw" 列朝诗集.txt | wc -l
done
结果:
- 衣裳: 117 | 衣冠: 122 | 裘: 260 | 冕: 48 | 弁: 26 | 帻: 48
- 巾帽: 1 | 佩玉: 11 | 玉带: 17 | 绶: 48 | 笏: 37 | 舄: 54
- 履: 227 | 靴: 27 | 袍: 192 | 衫: 144 | 裙: 148 | 褶: 7
- 袂: 106 | 襟: 195 | 领: 149
第2轮:材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)
for kw in 锦 绮 绢 帛 缎 绫 罗 纱 缟 绸 葛 麻褐 布衣 绵 茧; do
echo "=== $kw ==="; rg -n "$kw" 列朝诗集.txt | wc -l
done
结果:
- 锦: 818 | 绮: 373 | 绢: 27 | 帛: 69 | 缎: 0 | 绫: 43
- 罗: 808 | 纱: 185 | 缟: 41 | 绸: 32 | 葛: 158 | 布衣: 89
- 绵: 152 | 茧: 61
第3轮:色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)
for kw in 紫绯 赐紫 赐绯 朱 赭 青 绿 白 玄 黄 丹 素绣 纹章 黼 黻 华服; do
echo "=== $kw ==="; rg -n "$kw" 列朝诗集.txt | wc -l
done
结果:
- 紫绯: 1 | 赐绯: 3 | 朱: 785 | 赭: 32 | 青: 3625 | 绿: 1673
- 白: 4794 | 玄: 671 | 黄: 2748 | 丹: 807 | 黼: 20 | 黻: 7
注意:单字颜色词匹配量极大且多为非服饰用法,改用复合词搜索策略。
改用复合词:
rg -n '紫袍|紫衣|绯衣|绯袍|青衣|青衫|绿衣|绿袍|白衣|白袍|黄衣|朱衣|朱袍|丹衣|玄衣|素衣|赭衣' 列朝诗集.txt
# 结果:123条
第4轮:制度词(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)
for kw in 赐服 赐紫 赐绯 品色 舆服 章服 冠服 朝服 祭服 丧服 常服 加冠 衮 服制; do
echo "=== $kw ==="; rg -n "$kw" 列朝诗集.txt | wc -l
done
结果:
- 赐服: 0 | 赐紫: 0 | 赐绯: 3 | 品色: 0 | 舆服: 0 | 章服: 1
- 冠服: 1 | 朝服: 0 | 祭服: 0 | 丧服: 0 | 常服: 0 | 加冠: 3
- 衮: 78 | 服制: 1
衮: 78处需大量排除"衮衮"(滚滚)用法。
第5轮:配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)
for kw in 簪 钗 钿 珰 珥 环 镯 鱼袋 幞头 云肩 霞帔 蔽膝 芾 韠 佩鱼; do
echo "=== $kw ==="; rg -n "$kw" 列朝诗集.txt | wc -l
done
结果:
- 簪: 211 | 钗: 132 | 钿: 62 | 珰: 44 | 珥: 32 | 环: 281
- 镯: 4 | 鱼袋: 0 | 幞头: 0 | 云肩: 1 | 霞帔: 3 | 蔽膝: 0
- 芾: 10 | 韠: 1 | 佩鱼: 1
Step 3: 补充搜索
针对初步分析发现的重点领域,补充搜索:
# 帽类
rg -n '乌帽|乌纱|纱帽|席帽|毡帽|皮帽|狐帽|貂帽|高帽|短帽|小帽|方山帽|红帽|白帽|竹帽|藤帽' 列朝诗集.txt
# 结果:约80条
# 半臂/裲裆
rg -n '半臂|比甲|褙子|裲裆|抹胸|裹肚' 列朝诗集.txt
# 结果:半臂10条,裲裆1条
# 白苎/白纻
rg -n '白苎|苎衣|苎袍|白纻|纻衣' 列朝诗集.txt
# 结果:约50条
# 赐服
rg -n '尚衣|赐衣|赐紫|赐绯|赐袍|赐葛|赐裘|赐带|赐冠' 列朝诗集.txt
# 结果:约20条
# 罟罟冠
rg -n '罟罟|罟冠|顾姑|姑姑冠|固姑冠' 列朝诗集.txt
# 结果:4条
# 裙类
rg -n '红裙|茜裙|石榴裙|绛裙|裙褶|裙带|罗裙' 列朝诗集.txt
# 结果:约30条
Step 4: 上下文提取
对高特异性术语使用sed提取上下文:
# 高特异性术语上下文
rg -n '赐绯|章服|冠服|服制|云肩|霞帔|韠|佩鱼|黻|冕旒|赭袍|柘黄|衮龙|尚衣|貂裘|包髻团衫|裤褶|绣褶|细褶衣|玉带朱衣' 列朝诗集.txt
# 颜色+服饰复合词
rg -n '紫袍|紫衣|绯衣|绯袍|赭袍|赭衣|黄袍|柘黄|朱衣|朱袍|玄衣|素衣|丹衣' 列朝诗集.txt
# 材质+服饰复合词
rg -n '锦袍|宫锦袍|锦裘|越罗衫|罗衫|罗裙|罗衣|纱帽|葛衣|缟衣|布衣' 列朝诗集.txt
# 配饰
rg -n '金钗|宝钗|翠钿|明珰|环佩|玉簪|步摇|花钿|簪珥|珥貂|钗梁' 列朝诗集.txt
Step 5: 筛选与分类
根据提取结果进行:
- 排除非服饰用例(衮衮=滚滚、锦衣卫=机构、玉簪花=植物、布衣=别号等)
- 按服饰类别分类(8大类)
- 标注史料价值等级
Step 6: 对抗式审查
执行审查项目:
- [x] 排除"衮衮"(滚滚)约10处
- [x] 排除"锦衣卫"机构名约5处
- [x] 区分"布衣"别号用法约30处与服饰用法
- [x] 排除"玉簪花"植物名约7处
- [x] 区分"衣冠"文化代称与服饰描写
- [x] 排除单字颜色词泛用(青/白/绿/黄等数千处)
- [x] 标注"白衣送酒"等典故用法
- [x] 存疑条目标注(L113064服制、L10430绶等)
输出文件
| 文件 | 说明 |
|---|---|
| 列朝诗集_原文提取.md | 按分类整理的服饰相关原文,带行号,约350+条 |
| 列朝诗集_总结.md | 服饰内容分析总结 |
| 列朝诗集_日志.md | 本处理日志 |
统计摘要
- 5轮关键词grep总匹配:约8000+条(含大量非服饰用例)
- 经筛选的有效服饰条目:约350-400条
- 高史料价值条目:约15条
- 最具价值的发现:元代罟罟冠记录、明代半臂高丽样、赐服制度记录、倭王锦袍