楚辞集注楚辞辩证楚辞后语——服饰提取操作日志
基本信息
- 源文件:/home/z/my-project/upload/楚辞/楚辞/楚辞集注楚辞辩证楚辞后语.txt
- 文件大小:373,096字节(约364KB),722行
- 输出目录:/home/z/my-project/upload/楚辞output/楚辞集注楚辞辩证楚辞后语/
- 操作时间:2026-03-05
第一步:文件概况
bash
wc -c -l /home/z/my-project/upload/楚辞/楚辞/楚辞集注楚辞辩证楚辞后语.txt
# 结果:722行 373096字节
第二步:五轮grep -n提取行号
第一轮:核心服饰词
bash
grep -n '衣' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_yi.txt # 33行
grep -n '裳' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_shang.txt # 11行
grep -n '冠' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_guan.txt # 12行
grep -n '带' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_dai.txt # 9行
grep -n '佩' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_pei.txt # 22行
grep -n '裘|弁|履|舄|芾' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_rest1.txt # 15行
grep -n '袂|襟|衿|袍|襦|褐' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_rest2.txt # 7行
grep -n '巾|帻|簪|笄' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_rest3.txt # 8行
第一轮小计:117行命中
第二轮:材质织物词
bash
grep -n '丝|帛|锦|绮|绫|罗' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r2_a.txt # 35行
grep -n '缟|素|绢|纱' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r2_b.txt # 22行
grep -n '葛|麻|布|皮|革' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r2_c.txt # 40行
第二轮小计:97行命中
第三轮:装饰纹样词
bash
grep -n '黼|黻|绣|绘' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r3_a.txt # 5行
grep -n '文' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r3_wen.txt # 138行(噪声极大)
grep -n '章' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r3_zhang.txt # 81行(噪声极大)
grep -n '华|彩|色|饰' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r3_b.txt # 53行
第三轮小计:277行命中("文""章"噪声极大,需二次筛选)
第三轮二次筛选(服饰定向模式)
bash
grep -n '被文|采衣|华采|文服|绣裳|织|缟衣|素衣|服纎|鲜卑.*带' 楚辞集注楚辞辩证楚辞后语.txt
# 结果:7行有效
grep -n '黼|黻|绣裳|绣衣|织|缟衣|素衣' 楚辞集注楚辞辩证楚辞后语.txt
# 结果:26行,去重后新增4行
第四轮:楚辞特有词
bash
grep -n '荷衣|芙蓉裳|薜荔|兰佩|蕙纕|杜衡|芳芷|江离|秋兰|白珩|琼佩|玉鸾|翠|蕙带' 楚辞集注楚辞辩证楚辞后语.txt
# 结果:17行命中
第五轮:朱熹集注特有词
bash
grep -n '礼服|朝服|祭服|奇服|深衣|大带' 楚辞集注楚辞辩证楚辞后语.txt
# 结果:1行命中(行115"竒服")
第三步:合并去重
bash
# 合并所有行号
awk -F: '{print $1}' /tmp/r1_*.txt /tmp/r2_*.txt /tmp/r3_a.txt /tmp/r4.txt /tmp/r5.txt | sort -n | uniq > /tmp/all_lines.txt
# 结果:105个唯一行号
# 加入第三轮二次筛选新增4行后:109个唯一行号
第四步:Python精提取与去噪
使用Python脚本进行精确片段提取:
- 读取109个命中行的全文
- 以窗口=60字符提取每个关键词前后的上下文
- 初步提取472个片段
- 人工设计高/中优先级模式进行筛选
- 高优先级模式(荷衣、芙蓉裳、冠佩、黼黻、绣裳等43种)筛选后得到67个相关行
- 进一步按篇章分类提取,最终确定49条原文+25条集注+5条辩证=79条
- 后续补充涉江奇服(行115)、惜誓冠服(行229)、哀时命绿衣朱裳(行538)、胡笳氊裘(行560),更新为84条
第五步:辩证章节专项检索
bash
# 检索行241-425(辩证卷上下)
python3检索'衣|裳|冠|带|佩|裘|弁|履|袂|襟|黼|黻|绣|锦|罗|帛|深衣|大带'
# 结果:8行命中,其中5条为有效服饰考辨
关键发现:
- 行257:兰佩考辨——"古之所谓香草必其花叶皆香而燥湿不变故可刈而为佩"
- 行311:环佩考辨——引史记为证
- 行321:遗玦捐袂辨——批评旧注
- 行369:裳衣兵车辨——"凿说也"
- 行389:戎衣音读考辨
第六步:后语章节专项检索
bash
# 检索行550-722(后语部分)
python3检索全关键词
# 结果:行538哀时命/行554思玄/行560胡笳/行659吊屈/行668乞巧文/行686丰衣/行710素位
去噪处理:
- 行686"妻不织而丰衣":非核心服饰描写,降级
- 行710"素位安行":素位为儒家术语,非服饰义,剔除
- 行650/656"罗列":罗为排列义,非织物义,剔除
第七步:对抗式学术审查
审查内容详见总结MD第三章。关键结论:
- "昌被"保留(朱熹以服饰术语释之)
- "织络"剔除(非服饰义)
- 补入涉江"奇服"(行115)及惜誓化用(行229)
- 补入哀时命"绿衣朱裳"(行538)
- "鲜卑带"保留(民族服饰交流证据)
第八步:撰写三份MD
- 楚辞集注楚辞辩证楚辞后语_总结.md:学术总结
- 楚辞集注楚辞辩证楚辞后语_日志.md:本文件
- 楚辞集注楚辞辩证楚辞后语_原文提取.md:带行号原文片段
关键命令记录
| 步骤 | 命令类型 | 命令概要 |
|---|---|---|
| 1 | wc | wc -c -l 源文件 |
| 2 | grep -n | 五轮关键词检索,共20+条命令 |
| 3 | awk+sort+uniq | 合并去重行号 |
| 4 | python3 | 精提取与分类(472→67→84条) |
| 5 | python3 | 辩证章节专项检索 |
| 6 | python3 | 后语章节专项检索+去噪 |
| 7 | 人工审查 | 对抗式学术审查8项 |
| 8 | Write | 写入三份MD |