楚辞章句疏证

楚辞章句疏证 服饰内容提取日志

文件信息

操作步骤记录

步骤1:文件基本信息

bash
wc /home/z/my-project/upload/楚辞/楚辞/楚辞章句疏证.txt
# 结果:7091行 7020词 540229字节
mkdir -p /home/z/my-project/upload/楚辞output/楚辞章句疏证/

步骤2:第一轮grep——核心服饰词(19词)

衣:64  裳:24  冠:17  带:36  佩:56  裘:4  弁:0  履:45  舄:0  芾:1
袂:8   襟:4   衿:2   袍:1   襦:1   褐:0   巾:0  帻:0  簪:0  笄:0

第一轮合计命中:264行

步骤3:第二轮grep——材质织物词(15词)

丝:6  帛:3  锦:1  绮:5  绫:1  罗:35  缟:4  素:30  绢:0  纱:0
葛:14 麻:14 布:19 皮:6  革:15

第二轮合计命中:153行

步骤4:第三轮grep——装饰纹样词(10词)

黼:0  黻:0  文:244  章:64  绣:5  绘:0  华:103  彩:2  色:56  饰:56

第三轮合计命中:530行
噪音标记:"文"244命中中大量为"文字""文王""文化"等非服饰义;"华"103命中中含"年华""华屋"等非服饰义;"色"56命中含"颜色""声色"等非服饰义;"饰"56命中部分为服饰义。本轮噪音率极高,仅保留确证服饰相关条目。

步骤5:第四轮grep——楚辞特有词(14词)

荷衣:2  芙蓉裳:0  薜荔:20  兰佩:0  蕙纕:1  杜衡:8  芳芷:4
江离:10 秋兰:7   白珩:0   琼佩:2  玉鸾:3  翠:15   蕙带:2

第四轮合计命中:74行

步骤6:第五轮grep——疏证训诂词(12词)

服:88  礼服:0  朝服:0  祭服:0  奇服:3  袆衣:0  褕狄:0
冕:1   弁:0   深衣:0  大带:0  革带:0

第五轮合计命中:92行
噪音标记:"服"88命中中大量为"服从""服色""降服""征服"等非服饰义,仅保留"奇服""被服""初服""服云衣"等确证服饰条目。

步骤7:合并去重与上下文提取

五轮合计命中行数:1113行(含大量重复与噪音)
去重后有效行号约:280行
采用rg -n直接提取带行号原文,上下文扩展3-5行,合并重叠区间。

步骤8:去噪处理

已剔除的噪音类型

  1. "履行"(动词义,非鞋履义):约30条
  2. "素餐"("不素餐兮"非服饰):1条
  3. "文王""文章""文化"等非服饰义"文":约200条
  4. "年华""华屋""华采"等非服饰义"华":约80条
  5. "颜色""声色"等非服饰义"色":约40条
  6. "征服""降服""服色"等非服饰义"服":约70条
  7. "革带""变革""更革"等非服饰义"革":约10条
  8. "罗生""罗网""罗列"等非织物义"罗":约15条
  9. "麻"多指植物麻草而非织物:约8条
  10. "皮"多指兽皮典故非服饰:约3条

去噪后有效服饰条目:约120条

步骤9:对抗式学术审查

详见总结文件中"学术审查"部分。

步骤10:撰写三份MD

关键词命中率统计

轮次 类别 关键词数 总命中 有效命中 噪音率
1 核心服饰词 19 264 ~200 24%
2 材质织物词 15 153 ~50 67%
3 装饰纹样词 10 530 ~30 94%
4 楚辞特有词 14 74 ~60 19%
5 疏证训诂词 12 92 ~15 84%

结论:楚辞特有词(第四轮)命中率最高、噪音率最低,是本典籍服饰提取最有价值的词群。核心服饰词(第一轮)次之。装饰纹样词(第三轮)因"文""华""色"等高频多义词噪音率极高,需大量人工筛选。