《交谊典恩雠部》服饰提取日志
操作流程记录
步骤1:文件大小检查(wc -c)
- 时间:操作起始
- 命令:
wc -c /home/z/my-project/upload/part1_extracted/交谊典恩雠部.txt - 结果:214,110 字节
- 判断:文件约209KB,严禁整本载入,须逐行筛查
步骤2:创建输出目录
- 命令:
mkdir -p /home/z/my-project/upload/p1output/交谊典恩雠部/ - 结果:成功
步骤3:五轮词库 grep -n 筛查
第一轮:基础服饰词
- 关键词:衣 裳 冕 巾 帽 袍 衫 裙 裘 带 佩 履 舄 靴
- 命令:
grep -n '衣\|裳\|冠\|冕\|巾\|帽\|袍\|衫\|裙\|裘\|带\|佩\|履\|舄\|靴' - 原始命中:12行
- 说明:本轮命中率较低,因本部以恩雠叙事为主,服饰词出现稀疏
第二轮:制度服饰词
- 关键词:服色 舆服 冠服 章服 朝服 祭服 丧服 吉服 常服 公服
- 命令:
grep -n '服色\|舆服\|冠服\|章服\|朝服\|祭服\|丧服\|吉服\|常服\|公服' - 原始命中:2行
- 说明:命中极少,"服"字多作"服从""服阕""服用"解
第三轮:面料材质词
- 关键词:丝 帛 绢 锦 绮 绫 罗 缎 绸 缂 丝 葛 麻 布 褐
- 命令:
grep -n '丝\|帛\|绢\|锦\|绮\|绫\|罗\|缎\|绸\|缂\|葛\|麻\|布\|褐' - 原始命中:13行
- 说明:大量误命中(地名、人名等),需人工甄别
第四轮:官服等级词
- 关键词:紫袍 绯袍 绿袍 赐紫 赐绯 鱼袋 笏 幞头 金带 玉带
- 命令:
grep -n '紫袍\|绯袍\|绿袍\|赐紫\|赐绯\|鱼袋\|笏\|幞头\|金带\|玉带' - 原始命中:1行
- 说明:本部官服等级词极少出现
第五轮:器饰珍宝词
- 关键词:旂 旗 章 珮 环 玦 簪 钗 钿 翠 珠 玉
- 命令:
grep -n '旂\|旗\|章\|珮\|环\|玦\|簪\|钗\|钿\|翠\|珠\|玉' - 原始命中:首次超时,改用部分关键词
- 调整命令:
grep -n '旂\|旗章\|珮\|环玦\|簪\|钗\|钿\|翠' - 结果:成功获取
步骤4:sed 精细处理
- 对五轮结果进行上下文提取(grep -n -o '.{0,20}关键词.{0,20}')
- 逐条甄别,去除非服饰用法的误命中
- 合并重复行号
步骤5:分类整理
将35条有效记录分为10个类别:
1. 冠冕头饰(3条)
2. 衣裳袍服(9条)
3. 裙裳下服(1条)
4. 丧服制度(1条)
5. 官服等级(7条)
6. 佩饰配件(5条)
7. 鞋履(2条)
8. 丝织品(4条)
9. 甲胄旗帜(2条)
10. 衣冠习俗(1条)
步骤6:审查去重
- 跨轮次重复项合并(如"金紫"在第四、五轮均有命中)
- 同一行号多条记录分别标注
- 排除非服饰语境(如"冠世伟才"中"冠"非冠帽义、"环"多作环绕义)
步骤7:生成三MD文件
- 原文提取.md:逐条列出原文及出处
- 交谊典恩雠部_总结.md:分类统计与分析
- 日志.md(本文件):操作流程记录
筛除明细
| 误命中关键词 | 行号 | 原文片段 | 排除原因 |
|---|---|---|---|
| 冠 | 109 | 冠世伟才 | "冠"作"冠绝"解,非冠帽 |
| 环 | 127 | 白玉四环 | "环"为器物,非服饰环佩 |
| 旗 | 176 | 姑蔑之旗 | 军旗,非服饰旗章 |
| 玉 | 176 | 子女玉帛 | 财物统称,非服饰玉佩 |
| 丝 | 127 | 丝布 | 已计入丝布条 |
| 带 | 多处 | 佩带/地带 | 多为动词或地理 |
| 履 | 118 | 尾堪履 | 动词"踩踏"义 |
| 佩 | 109 | 佩带芳 | 已计入佩带条 |
| 珠 | 127 | 明珠一寸 | 珍宝,非服饰珠饰 |
| 翠 | 118 | 翠羽装剑鞘 | 已计入翠羽条 |
输出文件清单
| 文件名 | 内容 | 约计大小 |
|---|---|---|
| 原文提取.md | 35条原文记录及出处 | ~6KB |
| 交谊典恩雠部_总结.md | 分类统计与分析 | ~5KB |
| 日志.md | 操作流程记录 | ~4KB |
关键统计
- 五轮词库关键词总数:65个
- 有效命中关键词数:28个
- 有效服饰记录数:35条
- 涉及行号:行76, 102, 105, 109, 113, 118, 127, 165, 176, 177, 180, 182
日志完成时间:2024年操作记录
操作原则:严禁整本载入、禁编造、无服饰须明说