交谊典僚属部 服饰内容提取日志
操作流程记录
第一步:文件信息确认
$ wc -c /home/z/my-project/upload/part1_extracted/交谊典僚属部.txt
251817 /home/z/my-project/upload/part1_extracted/交谊典僚属部.txt
$ file 交谊典僚属部.txt
Unicode text, UTF-8 text, with very long lines (5472), with CRLF line terminators
$ wc -l 交谊典僚属部.txt
219
文件特点:219行但行极长(最长5472字符),CRLF换行,rg直接搜索出现编码错误,改用Python处理。
第二步:五轮关键词逐词grep
使用Python脚本逐一检索五轮共59个关键词,结果如下:
第一轮:衣裳冠冕巾帽袍衫裙裘带佩履舄靴
| 关键词 | 命中行数 | 经审查为服饰 |
|---|---|---|
| 衣 | 14行 | 7行有效 |
| 裳 | 1行 | 1行有效 |
| 冠 | 12行 | 5行有效 |
| 冕 | 2行 | 2行有效 |
| 巾 | 2行 | 0行有效 |
| 帽 | 2行 | 1行有效(黄帽) |
| 袍 | 0行 | — |
| 衫 | 2行 | 0行有效 |
| 裙 | 1行 | 0行有效 |
| 裘 | 3行 | 3行有效 |
| 带 | 7行 | 2行有效(韦带) |
| 佩 | 4行 | 2行有效(佩墨绶、鸣佩) |
| 履 | 10行 | 2行有效(珠履、簪履) |
| 舄 | 0行 | — |
| 靴 | 0行 | — |
第二轮:服色舆服冠服章服朝服祭服丧服吉服常服公服
| 关键词 | 命中行数 | 经审查为服饰 |
|---|---|---|
| 服色 | 0行 | — |
| 舆服 | 0行 | — |
| 冠服 | 1行 | 1行有效 |
| 章服 | 3行 | 3行有效 |
| 朝服 | 1行 | 1行有效 |
| 祭服 | 0行 | — |
| 丧服 | 0行 | — |
| 吉服 | 0行 | — |
| 常服 | 2行 | 2行有效 |
| 公服 | 2行 | 2行有效 |
第三轮:丝帛绢锦绮绫罗缎绸缂丝葛麻布褐
| 关键词 | 命中行数 | 经审查为服饰 |
|---|---|---|
| 丝帛 | 0行 | — |
| 绢 | 2行 | 2行有效 |
| 锦 | 3行 | 1行有效(锦绣) |
| 绮 | 2行 | 1行有效(绫纨绮縠) |
| 绫 | 2行 | 1行有效(绫纨绮縠) |
| 罗 | 7行 | 0行有效(均为罗浮/罻罗/罗含等人名地名) |
| 缎 | 0行 | — |
| 绸 | 2行 | 0行有效(均为绸缪=缠绵) |
| 缂丝 | 0行 | — |
| 葛 | 5行 | 1行有效(一裘一葛) |
| 麻 | 1行 | 0行有效 |
| 布 | 8行 | 3行有效(布衣韦带/布衣友) |
| 褐 | 1行 | 1行有效(解褐) |
第四轮:紫袍绯袍绿袍赐紫赐绯鱼袋笏幞头金带玉带
| 关键词 | 命中行数 | 经审查为服饰 |
|---|---|---|
| 紫袍 | 0行 | — |
| 绯袍 | 0行 | — |
| 绿袍 | 0行 | — |
| 赐紫 | 0行 | — |
| 赐绯 | 0行 | — |
| 鱼袋 | 0行 | — |
| 笏 | 1行 | 0行有效(未在服饰语境) |
| 幞头 | 0行 | — |
| 金带 | 0行 | — |
| 玉带 | 0行 | — |
注:紫衣(L62)为第一轮"衣"字命中,非第四轮"紫袍"命中。
第五轮:旂旗章珮环玦簪钗钿翠珠玉
| 关键词 | 命中行数 | 经审查为服饰 |
|---|---|---|
| 旂 | 0行 | — |
| 旗章 | 0行 | — |
| 珮 | 0行 | — |
| 环 | 3行 | 0行有效(非首饰语境) |
| 玦 | 0行 | — |
| 簪 | 4行 | 3行有效(玳簪/雪满簪/簪刺/簪彤管) |
| 钗 | 1行 | 0行有效 |
| 钿 | 0行 | — |
| 翠 | 3行 | 1行有效(翠幄) |
| 珠 | 6行 | 2行有效(珠履/随侯珠) |
| 玉 | 12行 | 0行有效(均为玉京/玉绳/玉质等非服饰用法) |
第三步:上下文提取
对33行命中行提取±1行上下文,合并相邻行段后得到14个文本段,总字符数76,463。
第四步:对抗式审查
逐一审查33行命中,排除非服饰用法:
| 行号 | 命中关键词 | 审查结论 | 排除原因 |
|---|---|---|---|
| L3 | 葛布珠玉 | 排除 | "诸葛"人名/"布腹心"=公布/"珠玉"=比喻 |
| L4 | 冠履簪 | 部分保留 | "道冠"=超越/簪履保留 |
| L16 | 绸 | 排除 | "绸缪"=缠绵,非绸缎 |
| L20 | 冠绸葛布 | 排除 | "绸缪"/"蔓葛"=植物/"不云布"=分布 |
| L25 | 衣玉 | 排除 | "玉京"=仙境 |
| L30 | 衣履锦 | 排除 | "锦衣卫"=机构/"履霜"=踩霜 |
| L36 | 带 | 排除 | "带乡音"=口音 |
| L38 | 履环玉 | 排除 | "履薄冻"=踩冰 |
| L50 | 珠 | 排除 | "珠零乱"=雨珠,非首饰 |
| L55 | 葛 | 排除 | "诸葛"=人名 |
| L59 | 冠冕巾履葛 | 排除 | "冠族"=世家/"含齿戴发"/"葛"非服饰 |
| L66 | 衣 | 排除 | 非服饰语境 |
| L69 | 衣冠裙锦罗麻布环钗玉 | 大部排除 | 未见明确服饰描述 |
| L71 | 冠 | 排除 | "冠盖"=仕宦代称 |
| L175 | 衣帽衫带绮罗玉 | 排除 | "羔羊"引诗经,非服饰语境 |
经审查,保留20行有效服饰内容,排除13行。
第五步:分类整理
将30条有效记录分为四类:
- 甲类:官服制度(10条)——核心内容
- 乙类:日常服饰与材质(8条)
- 丙类:首饰与饰品(6条)
- 丁类:诗文服饰意象(6条)
第六步:输出文件
| 文件 | 用途 |
|---|---|
| 交谊典僚属部_总结.md | 分类总结与关键发现 |
| 交谊典僚属部_日志.md | 本文件,操作流程记录 |
| 交谊典僚属部_原文提取.md | 逐条原文提取 |