交谊典朋友部 服饰整理日志
操作流程
步骤1:文件统计
- 命令:
wc -c / wc -l
- 结果:249,835 字节 / 437 行
- 说明:文件行数少但单行极长(平均约572字节/行),禁止整本载入
步骤2:五轮关键词 grep -n
第一轮:衣裳冠冕巾帽袍衫裙裘带佩履舄靴
- 命令:
grep -n '衣\|裳\|冠\|冕\|巾\|帽\|袍\|衫\|裙\|裘\|带\|佩\|履\|舄\|靴'
- 命中行数:34 行
- 备注:单字匹配噪声极高(如"带"可解为地带、带领等)
第二轮:服色舆服冠服章服朝服祭服丧服吉服常服公服
- 命令:
grep -n '服色\|舆服\|冠服\|章服\|朝服\|祭服\|丧服\|吉服\|常服\|公服'
- 命中行数:1 行(仅"丧服"命中1次)
- 备注:本典非舆服志,复合官服词几乎无匹配
第三轮:丝帛绢锦绮绫罗缎绸缂丝葛麻布褐
- 命令:
grep -n '丝\|帛\|绢\|锦\|绮\|绫\|罗\|缎\|绸\|缂丝\|葛\|麻\|布\|褐'
- 命中行数:27 行
- 备注:丝、布、罗等单字误判多,需语境审查
第四轮:紫袍绯袍绿袍赐紫赐绯鱼袋笏幞头金带玉带
- 命令:
grep -n '紫袍\|绯袍\|绿袍\|赐紫\|赐绯\|鱼袋\|笏\|幞头\|金带\|玉带'
- 命中行数:1 行("笏"命中1次,含于"簪笏"中)
- 备注:品服词在本典中几乎无匹配
第五轮:旂旗章珮环玦簪钗钿翠珠玉
- 命令:
grep -n '旂\|旗\|章\|珮\|环\|玦\|簪\|钗\|钿\|翠\|珠\|玉'
- 命中行数:35 行
- 备注:章、玉、珠、翠单字误判极多,需严格过滤
步骤3:紧凑匹配与统计
- 使用
grep -on 仅输出行号+匹配词(避免整行输出)
- 使用 Python 统计每行各关键词命中次数
- 结果:50 行有至少一个关键词匹配
步骤4:语境审查(sed + Python 上下文提取)
- 对 50 行逐一提取 ±30 字上下文
- 严格关键词匹配:73 条初始命中
- 语境单字关键词匹配:47 条
- 合计初始命中:120 条
步骤5:分类与去重
- 按服饰类别分为7大类
- 去除误判项(见下方审查记录)
- 合并同源重复(如"袭衮衣与绣裳"两见记为1条)
- 最终有效记录:42 条
审查记录
误判排除清单
| 关键词 |
原始匹配次数 |
有效次数 |
排除原因 |
| 章 |
48 |
0 |
均为"文章""章句"义 |
| 玉 |
34 |
0 |
均为比喻/人名,非玉佩/玉带 |
| 珠 |
6 |
0 |
"跳珠""珠星"等比喻 |
| 翠 |
6 |
0 |
"翠草""翠巘"景物 |
| 旗 |
4 |
0 |
旗帜,非服饰 |
| 丝 |
18 |
0 |
"丝竹""青丝"非织物 |
| 布 |
20 |
9 |
含于"布衣"者有效,其余"宣布"义 |
| 带 |
12 |
3 |
仅"锦带""缓带""服带"有效 |
| 冠 |
22 |
10 |
含于复合词者有效,其余动词/人名 |
| 葛 |
10 |
1 |
仅"葛衣"有效,其余地名 |
| 巾 |
6 |
4 |
"纶巾""角巾""衣巾"有效 |
| 履 |
14 |
6 |
大部分为"履道""操履"等非服饰义 |
| 环 |
2 |
0 |
非环佩义 |
| 签 |
2 |
2 |
"玳簪"有效 |
合并去重
- "袭衮衣与绣裳"——L218与L419两见(任昉文重出),合并为1条
- "弹冠"——4处出处不同,各保留为独立条目
- "布衣"——9处用法各异(布衣之交、布衣之心、脱粟布衣等),各保留
- "屣履"——3处(崔骃、范式、谢师直),各保留
- "纶巾"——2处(谢安形象、隐逸词),各保留
文件大小控制
- 三个MD文件均控制在 20KB 以内
- 原文提取不载入整行,仅提取 ±35 字上下文片段
操作时间线
wc -c → 249,835字节
- 五轮
grep -n → 34+1+27+1+35 = 98行初步命中
grep -on 紧凑统计 → 91+92+133 = 316条关键词命中
- Python 逐行统计 → 50行有匹配
- Python 语境提取 → 严格73条 + 语境47条 = 120条初始
- 人工审查去重 → 42条有效记录
- 生成三个MD文件
↑