楚辞集注楚辞辩证楚辞后语

楚辞集注楚辞辩证楚辞后语——服饰提取操作日志

基本信息

第一步:文件概况

bash
wc -c -l /home/z/my-project/upload/楚辞/楚辞/楚辞集注楚辞辩证楚辞后语.txt
# 结果:722行 373096字节

第二步:五轮grep -n提取行号

第一轮:核心服饰词

bash
grep -n '衣' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_yi.txt       # 33行
grep -n '裳' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_shang.txt     # 11行
grep -n '冠' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_guan.txt      # 12行
grep -n '带' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_dai.txt       # 9行
grep -n '佩' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_pei.txt       # 22行
grep -n '裘|弁|履|舄|芾' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_rest1.txt   # 15行
grep -n '袂|襟|衿|袍|襦|褐' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_rest2.txt # 7行
grep -n '巾|帻|簪|笄' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r1_rest3.txt      # 8行

第一轮小计:117行命中

第二轮:材质织物词

bash
grep -n '丝|帛|锦|绮|绫|罗' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r2_a.txt   # 35行
grep -n '缟|素|绢|纱' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r2_b.txt          # 22行
grep -n '葛|麻|布|皮|革' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r2_c.txt        # 40行

第二轮小计:97行命中

第三轮:装饰纹样词

bash
grep -n '黼|黻|绣|绘' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r3_a.txt         # 5行
grep -n '文' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r3_wen.txt                  # 138行(噪声极大)
grep -n '章' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r3_zhang.txt                # 81行(噪声极大)
grep -n '华|彩|色|饰' 楚辞集注楚辞辩证楚辞后语.txt > /tmp/r3_b.txt           # 53行

第三轮小计:277行命中("文""章"噪声极大,需二次筛选)

第三轮二次筛选(服饰定向模式)

bash
grep -n '被文|采衣|华采|文服|绣裳|织|缟衣|素衣|服纎|鲜卑.*带' 楚辞集注楚辞辩证楚辞后语.txt
# 结果:7行有效
grep -n '黼|黻|绣裳|绣衣|织|缟衣|素衣' 楚辞集注楚辞辩证楚辞后语.txt
# 结果:26行,去重后新增4行

第四轮:楚辞特有词

bash
grep -n '荷衣|芙蓉裳|薜荔|兰佩|蕙纕|杜衡|芳芷|江离|秋兰|白珩|琼佩|玉鸾|翠|蕙带' 楚辞集注楚辞辩证楚辞后语.txt
# 结果:17行命中

第五轮:朱熹集注特有词

bash
grep -n '礼服|朝服|祭服|奇服|深衣|大带' 楚辞集注楚辞辩证楚辞后语.txt
# 结果:1行命中(行115"竒服")

第三步:合并去重

bash
# 合并所有行号
awk -F: '{print $1}' /tmp/r1_*.txt /tmp/r2_*.txt /tmp/r3_a.txt /tmp/r4.txt /tmp/r5.txt | sort -n | uniq > /tmp/all_lines.txt
# 结果:105个唯一行号
# 加入第三轮二次筛选新增4行后:109个唯一行号

第四步:Python精提取与去噪

使用Python脚本进行精确片段提取:

  1. 读取109个命中行的全文
  2. 以窗口=60字符提取每个关键词前后的上下文
  3. 初步提取472个片段
  4. 人工设计高/中优先级模式进行筛选
  5. 高优先级模式(荷衣、芙蓉裳、冠佩、黼黻、绣裳等43种)筛选后得到67个相关行
  6. 进一步按篇章分类提取,最终确定49条原文+25条集注+5条辩证=79条
  7. 后续补充涉江奇服(行115)、惜誓冠服(行229)、哀时命绿衣朱裳(行538)、胡笳氊裘(行560),更新为84条

第五步:辩证章节专项检索

bash
# 检索行241-425(辩证卷上下)
python3检索'衣|裳|冠|带|佩|裘|弁|履|袂|襟|黼|黻|绣|锦|罗|帛|深衣|大带'
# 结果:8行命中,其中5条为有效服饰考辨

关键发现:

第六步:后语章节专项检索

bash
# 检索行550-722(后语部分)
python3检索全关键词
# 结果:行538哀时命/行554思玄/行560胡笳/行659吊屈/行668乞巧文/行686丰衣/行710素位

去噪处理:

第七步:对抗式学术审查

审查内容详见总结MD第三章。关键结论:

  1. "昌被"保留(朱熹以服饰术语释之)
  2. "织络"剔除(非服饰义)
  3. 补入涉江"奇服"(行115)及惜誓化用(行229)
  4. 补入哀时命"绿衣朱裳"(行538)
  5. "鲜卑带"保留(民族服饰交流证据)

第八步:撰写三份MD

关键命令记录

步骤 命令类型 命令概要
1 wc wc -c -l 源文件
2 grep -n 五轮关键词检索,共20+条命令
3 awk+sort+uniq 合并去重行号
4 python3 精提取与分类(472→67→84条)
5 python3 辩证章节专项检索
6 python3 后语章节专项检索+去噪
7 人工审查 对抗式学术审查8项
8 Write 写入三份MD