楚辞章句疏证 服饰内容提取日志
文件信息
- 源文件:/home/z/my-project/upload/楚辞/楚辞/楚辞章句疏证.txt
- 文件大小:540,229字节(540KB)
- 总行数:7091行
- 输出目录:/home/z/my-project/upload/楚辞output/楚辞章句疏证/
操作步骤记录
步骤1:文件基本信息
bash
wc /home/z/my-project/upload/楚辞/楚辞/楚辞章句疏证.txt
# 结果:7091行 7020词 540229字节
mkdir -p /home/z/my-project/upload/楚辞output/楚辞章句疏证/
步骤2:第一轮grep——核心服饰词(19词)
衣:64 裳:24 冠:17 带:36 佩:56 裘:4 弁:0 履:45 舄:0 芾:1
袂:8 襟:4 衿:2 袍:1 襦:1 褐:0 巾:0 帻:0 簪:0 笄:0
第一轮合计命中:264行
步骤3:第二轮grep——材质织物词(15词)
丝:6 帛:3 锦:1 绮:5 绫:1 罗:35 缟:4 素:30 绢:0 纱:0
葛:14 麻:14 布:19 皮:6 革:15
第二轮合计命中:153行
步骤4:第三轮grep——装饰纹样词(10词)
黼:0 黻:0 文:244 章:64 绣:5 绘:0 华:103 彩:2 色:56 饰:56
第三轮合计命中:530行
噪音标记:"文"244命中中大量为"文字""文王""文化"等非服饰义;"华"103命中中含"年华""华屋"等非服饰义;"色"56命中含"颜色""声色"等非服饰义;"饰"56命中部分为服饰义。本轮噪音率极高,仅保留确证服饰相关条目。
步骤5:第四轮grep——楚辞特有词(14词)
荷衣:2 芙蓉裳:0 薜荔:20 兰佩:0 蕙纕:1 杜衡:8 芳芷:4
江离:10 秋兰:7 白珩:0 琼佩:2 玉鸾:3 翠:15 蕙带:2
第四轮合计命中:74行
步骤6:第五轮grep——疏证训诂词(12词)
服:88 礼服:0 朝服:0 祭服:0 奇服:3 袆衣:0 褕狄:0
冕:1 弁:0 深衣:0 大带:0 革带:0
第五轮合计命中:92行
噪音标记:"服"88命中中大量为"服从""服色""降服""征服"等非服饰义,仅保留"奇服""被服""初服""服云衣"等确证服饰条目。
步骤7:合并去重与上下文提取
五轮合计命中行数:1113行(含大量重复与噪音)
去重后有效行号约:280行
采用rg -n直接提取带行号原文,上下文扩展3-5行,合并重叠区间。
步骤8:去噪处理
已剔除的噪音类型:
- "履行"(动词义,非鞋履义):约30条
- "素餐"("不素餐兮"非服饰):1条
- "文王""文章""文化"等非服饰义"文":约200条
- "年华""华屋""华采"等非服饰义"华":约80条
- "颜色""声色"等非服饰义"色":约40条
- "征服""降服""服色"等非服饰义"服":约70条
- "革带""变革""更革"等非服饰义"革":约10条
- "罗生""罗网""罗列"等非织物义"罗":约15条
- "麻"多指植物麻草而非织物:约8条
- "皮"多指兽皮典故非服饰:约3条
去噪后有效服饰条目:约120条
步骤9:对抗式学术审查
详见总结文件中"学术审查"部分。
步骤10:撰写三份MD
- 楚辞章句疏证_总结.md
- 楚辞章句疏证_日志.md(本文件)
- 楚辞章句疏证_原文提取.md
关键词命中率统计
| 轮次 | 类别 | 关键词数 | 总命中 | 有效命中 | 噪音率 |
|---|---|---|---|---|---|
| 1 | 核心服饰词 | 19 | 264 | ~200 | 24% |
| 2 | 材质织物词 | 15 | 153 | ~50 | 67% |
| 3 | 装饰纹样词 | 10 | 530 | ~30 | 94% |
| 4 | 楚辞特有词 | 14 | 74 | ~60 | 19% |
| 5 | 疏证训诂词 | 12 | 92 | ~15 | 84% |
结论:楚辞特有词(第四轮)命中率最高、噪音率最低,是本典籍服饰提取最有价值的词群。核心服饰词(第一轮)次之。装饰纹样词(第三轮)因"文""华""色"等高频多义词噪音率极高,需大量人工筛选。