交谊典僚属部 服饰内容提取日志

操作流程记录

第一步:文件信息确认

$ wc -c /home/z/my-project/upload/part1_extracted/交谊典僚属部.txt
251817 /home/z/my-project/upload/part1_extracted/交谊典僚属部.txt

$ file 交谊典僚属部.txt
Unicode text, UTF-8 text, with very long lines (5472), with CRLF line terminators

$ wc -l 交谊典僚属部.txt
219

文件特点:219行但行极长(最长5472字符),CRLF换行,rg直接搜索出现编码错误,改用Python处理。

第二步:五轮关键词逐词grep

使用Python脚本逐一检索五轮共59个关键词,结果如下:

第一轮:衣裳冠冕巾帽袍衫裙裘带佩履舄靴

关键词 命中行数 经审查为服饰
14行 7行有效
1行 1行有效
12行 5行有效
2行 2行有效
2行 0行有效
2行 1行有效(黄帽)
0行
2行 0行有效
1行 0行有效
3行 3行有效
7行 2行有效(韦带)
4行 2行有效(佩墨绶、鸣佩)
10行 2行有效(珠履、簪履)
0行
0行

第二轮:服色舆服冠服章服朝服祭服丧服吉服常服公服

关键词 命中行数 经审查为服饰
服色 0行
舆服 0行
冠服 1行 1行有效
章服 3行 3行有效
朝服 1行 1行有效
祭服 0行
丧服 0行
吉服 0行
常服 2行 2行有效
公服 2行 2行有效

第三轮:丝帛绢锦绮绫罗缎绸缂丝葛麻布褐

关键词 命中行数 经审查为服饰
丝帛 0行
2行 2行有效
3行 1行有效(锦绣)
2行 1行有效(绫纨绮縠)
2行 1行有效(绫纨绮縠)
7行 0行有效(均为罗浮/罻罗/罗含等人名地名)
0行
2行 0行有效(均为绸缪=缠绵)
缂丝 0行
5行 1行有效(一裘一葛)
1行 0行有效
8行 3行有效(布衣韦带/布衣友)
1行 1行有效(解褐)

第四轮:紫袍绯袍绿袍赐紫赐绯鱼袋笏幞头金带玉带

关键词 命中行数 经审查为服饰
紫袍 0行
绯袍 0行
绿袍 0行
赐紫 0行
赐绯 0行
鱼袋 0行
1行 0行有效(未在服饰语境)
幞头 0行
金带 0行
玉带 0行

注:紫衣(L62)为第一轮"衣"字命中,非第四轮"紫袍"命中。

第五轮:旂旗章珮环玦簪钗钿翠珠玉

关键词 命中行数 经审查为服饰
0行
旗章 0行
0行
3行 0行有效(非首饰语境)
0行
4行 3行有效(玳簪/雪满簪/簪刺/簪彤管)
1行 0行有效
0行
3行 1行有效(翠幄)
6行 2行有效(珠履/随侯珠)
12行 0行有效(均为玉京/玉绳/玉质等非服饰用法)

第三步:上下文提取

对33行命中行提取±1行上下文,合并相邻行段后得到14个文本段,总字符数76,463。

第四步:对抗式审查

逐一审查33行命中,排除非服饰用法:

行号 命中关键词 审查结论 排除原因
L3 葛布珠玉 排除 "诸葛"人名/"布腹心"=公布/"珠玉"=比喻
L4 冠履簪 部分保留 "道冠"=超越/簪履保留
L16 排除 "绸缪"=缠绵,非绸缎
L20 冠绸葛布 排除 "绸缪"/"蔓葛"=植物/"不云布"=分布
L25 衣玉 排除 "玉京"=仙境
L30 衣履锦 排除 "锦衣卫"=机构/"履霜"=踩霜
L36 排除 "带乡音"=口音
L38 履环玉 排除 "履薄冻"=踩冰
L50 排除 "珠零乱"=雨珠,非首饰
L55 排除 "诸葛"=人名
L59 冠冕巾履葛 排除 "冠族"=世家/"含齿戴发"/"葛"非服饰
L66 排除 非服饰语境
L69 衣冠裙锦罗麻布环钗玉 大部排除 未见明确服饰描述
L71 排除 "冠盖"=仕宦代称
L175 衣帽衫带绮罗玉 排除 "羔羊"引诗经,非服饰语境

经审查,保留20行有效服饰内容,排除13行。

第五步:分类整理

将30条有效记录分为四类:
- 甲类:官服制度(10条)——核心内容
- 乙类:日常服饰与材质(8条)
- 丙类:首饰与饰品(6条)
- 丁类:诗文服饰意象(6条)

第六步:输出文件

文件 用途
交谊典僚属部_总结.md 分类总结与关键发现
交谊典僚属部_日志.md 本文件,操作流程记录
交谊典僚属部_原文提取.md 逐条原文提取