楚辞集注辩证后语 — 服饰内容提取日志
操作日志
步骤1:检查源文件
- 命令:
wc -c /home/z/my-project/upload/楚辞/楚辞/楚辞集注辩证后语.txt
- 结果:518,089字节,931行
- 命令:
mkdir -p /home/z/my-project/upload/楚辞output/楚辞集注辩证后语/
- 结果:输出目录创建成功
步骤2:第一轮关键词grep
- 命令:
rg -n "衣|裳|冠|带|佩|裘|弁|履|舄|芾|袂|襟|衿|袍|襦|褐|巾|帻|簪|笄" "楚辞集注辩证后语.txt"
- 结果:66行命中
- 细分:衣30行,裳12行,冠16行,带11行,佩19行,裘/弁/履/舄/芾/袂/襟/衿/袍/襦/褐/巾/帻/簪/笄共30行
步骤3:第二轮关键词grep
- 命令:
rg -n "丝|帛|锦|绮|绫|罗|缟|素|绢|纱|葛|麻|布|皮|革" "楚辞集注辩证后语.txt"
- 结果:77行命中
- 备注:大量"素""文""皮""革"等为泛用词,非服饰语境居多
步骤4:第三轮关键词grep
- 命令:
rg -n "黼|黻|文|章|绣|绘|华|彩|色|饰" "楚辞集注辩证后语.txt"
- 结果:239行命中
- 备注:此轮噪声最高——"文""章""华""色""饰"等为极高频泛词,需人工筛选
步骤5:第四轮关键词grep
- 命令:
rg -n "荷衣|芙蓉裳|薜荔|兰佩|蕙纕|杜衡|芳芷|江离|秋兰|白珩|琼佩|玉鸾|翠|蕙带" "楚辞集注辩证后语.txt"
- 结果:14行命中
- 备注:此轮精准度最高,几乎全部为服饰/植物佩饰语境
步骤6:第五轮关键词grep
- 命令:
rg -n "服|奇服|深衣|大带|礼服|朝服|祭服" "楚辞集注辩证后语.txt"
- 结果:58行命中
- 备注:"服"字多义(服事、服用、服丧等),需语境筛选
步骤7:合并去重
- 命令:合并五轮行号并
sort -nu | uniq
- 结果:290行去重后含服饰关键词
步骤8:专项检索
- 命令:
rg -n "黼|黻" → 3行(L692、L820、L829)
- 命令:
rg -n "制芰荷以为衣|芙蓉以为裳|高余冠|长余佩|修吾初服|昌被|衣不带|华采衣|帝服|被服|衽|蕙纕|佩帏|琼佩|玉鸾|帏|黻衣|绣裳|鞶|珩|短布单衣|弁|袂|冠咢|佩綝|修初服|长余佩"
- 结果:精准锁定核心服饰描写
步骤9:生成三份MD输出
- 楚辞集注辩证后语_总结.md
- 楚辞集注辩证后语_日志.md(本文件)
- 楚辞集注辩证后语_原文提取.md
质量控制
- ✅ 严禁整本载入LLM——采用rg逐行提取
- ✅ 服饰关键词内置固化——五轮词库完整执行
- ✅ 严禁批处理/for循环——逐轮手动执行
- ✅ 原文提取带行号——所有引用标注行号
- ✅ 对抗式学术审查——总结中标注噪声行及多义字警告