十朝诗乘·服饰提取日志

基本信息

书名：十朝诗乘
文件路径：/home/z/my-project/upload/诗集/诗集/十朝诗乘.txt
文件大小：2668行，2,023,363字节（极长行，每行可达5000+字）
处理时间：2026-03-04

处理流程

第1步：文件检查

wc -l -c 十朝诗乘.txt
# 结果：2668行，2023363字节
# 特殊情况：极长行文本（行均758字节），为散文体诗话，非一般分行诗集

第2步：逐轮grep检索

第1轮：核心词

rg -n '衣|裳|裘|冠|冕|弁|帻|巾|帽|佩玉|带|绶|笏|舄|履|靴|袍|衫|裙|褶|袂|襟|领' 十朝诗乘.txt | wc -l
# 结果：753行匹配

第2轮：材质

rg -n '锦|绮|绢|帛|丝|缎|绫|罗|纱|缟|绸|葛|麻|褐|布|绵|茧' 十朝诗乘.txt | wc -l
# 结果：600行匹配

第3轮：色彩纹饰

rg -n '紫|绯|朱|赭|青|绿|白|玄|黄|丹|素|绣|纹|章|黼|黻|华' 十朝诗乘.txt | wc -l
# 结果：1089行匹配（颜色词大量为非服饰用法）

第4轮：制度

rg -n '服[饰妆办]|赐服|赐紫|赐绯|品色|舆服|章服|冠服|朝服|祭服|丧服|常服|加冠|衮[服衣冕]' 十朝诗乘.txt | wc -l
# 结果：21行匹配——精准度极高，制度词命中率最高

关键发现：

L80：章服未定时期记载（清初冠服制度）
L814：军机处章京服制详述
L1417/1865：八分制度（宗室服饰特权）
L1113：朝珠制度沿革
L1183：貂服限制令

第5轮：配饰

rg -n '簪|钗|钿|珰|珥|环|镯|鱼袋|幞头|云肩|霞帔|蔽膝|芾|韠|佩鱼' 十朝诗乘.txt | wc -l
# 结果：182行匹配

第3步：高价值组合检索

由于本书为散文体，行极长，grep输出单行可达数千字，因此采用更精确的组合词搜索：

章服|冠服|赐衣|赐袍|朝服|朝衣 → 清代官服制度
锦袍|紫袍|绯袍|貂裘|狐裘 → 具体服饰
团龙|补服|开气袍|紫缰|朝珠|帽罩 → 品级标识
花翎|黄马褂|黄褂 → 清代特有赐服
八分|宝石顶 → 宗室特权
窄袖|短衣|罗襦|绣罗|珠帽|貂袍 → 满蒙联姻服饰

第4步：关键行上下文提取

使用sed提取关键行（因每行极长，直接读取grep结果即可获取完整上下文）。

第5步：筛选与分类

筛选原则：

优先收录制度性服饰记载（品色、赐服、冠服制度等）
重视散文注释中的服饰制度细节
排除纯色彩词非服饰用法
保留殉节服饰、薙发易服等历史事件相关记载
特别关注清代特有服饰制度（花翎、黄马褂、八分等）

第6步：对抗式审查

审：第3轮1089行匹配过多 → 改：仅保留与服饰制度明确关联者
审：本书记载大量非服饰制度内容（军事、政治等） → 改：聚焦服饰制度与品色等级
审：散文体导致grep输出过长 → 改：从长行中提取关键诗句和注释
审： "服"字匹配大量非服饰用法（"服官""服刑"等） → 改：仅保留"朝服""章服""冠服"等明确服饰词
审：部分行因编码问题grep超时 → 改：使用LC_ALL=C确保检索正常

统计

有效服饰相关片段：约45条（因散文体，每条信息量远超一般诗集）
服饰制度最丰富的条目：L80（章服制度）、L814（军机处服制）、L1417/1865（八分制度）、L1095（花翎黄马褂）、L1183（貂服制度）
本书服饰内容的独特价值：清代官服制度沿革的系统性记载，为一般诗集所无