《论衡》服饰提取操作日志

书名:论衡
输入文件:/home/z/my-project/upload/part4/论衡.txt
输出目录:/home/z/my-project/upload/4笔记output/论衡/
词库:/home/z/my-project/skills/rysxguji/references/fushi-keywords.md
操作时间:2025年
操作员:子Agent(rysxguji技能调用)


一、文件基本信息


二、检索过程

第1轮:核心服饰词检索

执行命令(Python等效,因rg遇到UTF-8编码异常):

```python

R1-1: 首服+体服+下服+足服关键词

keywords = ['冠','冕','弁','巾','帻','幞头','帽','盔','胄','缨','簪','钗','步摇','胜','花钿', '衣','裳','袍','衫','襦','袄','褐','裘','氅','褂','襕','裲裆','半臂','比甲','背子','褙子','深衣','袆衣','翟衣', '裙','裤','裈','蔽膝','袴','履','舄','靴','鞋','袜','屦','屐'] ```

命中统计

关键词 命中行数 有效服饰条目
43 10
18 6
11 4
20 6(排除"履大人迹"等踩踏义)
3 2
2 0(均为"甲胄"泛指,非具体服饰描述)
2 1
2 2
2 2
2 1
1 1
1 0(篇目标题行,非服饰义)
1 1
1 1
54 0(均为"胜过"义,非"花钿"义)

```python

R1-2: 腰带+佩饰+礼服+衣料+染色纹样

keywords = ['带','革带','玉带','金带','犀带','角带','鞓带','蹀躞带','大带','丝带', '佩','珮','鱼袋','笏','绶','环','钏','璎珞','霞帔','披帛', '衮服','章服','朝服','公服','常服','吉服','丧服','祭服','戎服','法服','燕服','赐服', '丝','帛','绢','绸','缎','绫','罗','锦','绮','纱','缂丝','布','麻','葛','棉', '染','绣','纹','黼','黻','龙','蟒','飞鱼','斗牛','仙鹤','麒麟','品色','服色'] ```

命中统计

关键词 命中行数 有效服饰条目
18 8(排除"竹帛"典籍义)
14 4(排除"带领/连带"义)
12 6
6 3(排除"钦佩"义)
5 2
4 2
4 1
4 2
4 2
朝服 3 3
3 1(排除"星罗"义)
2 1
2 0(均为环形义)
2 1
戎服 1 0(五服制度名,非服饰本体)
1 1
1 1
服色 1 1
57 0(均为龙/龙气义,非龙纹)
麒麟 9 0(均为瑞兽义,非麒麟服)
31 3(大量为"分布/宣布"义)

零命中关键词:革带、玉带、金带、犀带、角带、鞓带、蹀躞带、大带、丝带、珮、鱼袋、笏、钏、璎珞、霞帔、披帛、衮服、章服、公服、常服、吉服、丧服、祭服、法服、燕服、赐服、绢、绸、缎、绫、绮、缂丝、棉、纹、蟒、飞鱼、斗牛、仙鹤、品色

第2轮:制度动作词检索

python keywords = ['赐服','赐紫','赐绯','赐蟒','赐鱼','赏衣', '僭','逾制','违式','品色','冠礼','笄礼','敛衽','释服','加冠']

命中统计

关键词 命中行数 有效条目
加冠 1 1

其余制度动作词(赐服、赐紫、赐绯、僭、逾制等)均零命中。这与论衡为东汉哲学著作、非制度史料的性质一致。

第3轮:组合扩展词检索

python keywords = ['蚕','桑','茧','缫','织','纺','绸','缂丝', '折帛','和买','市舶','绢价','匹帛', ...]

命中统计

关键词 命中行数 有效条目
15 4
4 3
4 2
2 1
1 1

其余组合词(衮冕、蟒衣、鱼袋制度等)均零命中。


三、误命中审查过程

按排除规则表逐条审查:

  1. (54处):全部为"胜过/胜负/克胜"义,无"花钿"义——全部排除
  2. (57处):全部为龙/龙气/龙颜/龙鳞(生物义),非龙纹服饰——全部排除
  3. (31处):大量"分布/宣布/布衣"义,仅"余布""缣布""布帛"三处为衣料义——保留3处
  4. (18处):"竹帛"为典籍义,排除;"丝帛/缣布丝绵/布帛"为衣料义,保留
  5. (20处):"履大人迹/履冰/步履"为踩踏义,排除;"履/取履/进履/徒履/履舄"为鞋义,保留
  6. (2处):均为"环绕"义——全部排除
  7. (2处):均为"甲胄"泛指,非具体服饰描述——排除
  8. 戎服(1处):为"荒服戎服要服"五服制度名——排除

四、上下文提取方法

由于论衡.txt每行极长(平均2202字),采用以下策略: 1. 用Python读取文件,逐行搜索关键词 2. 对命中行,以关键词为中心截取前后各60-80字的上下文 3. 人工审查语境,确认是否为服饰义 4. 将有效片段记录入原文提取文档


五、输出文件校验

文件 大小 是否≤20KB 是否非空 是否含审查
论衡_总结.md ~12KB
论衡_日志.md ~8KB
论衡_原文提取.md ~10KB

六、特殊说明

  1. rg工具编码异常:ripgrep在处理本文件时反复出现utf-8 codec can't decode byte错误,改用Python直接读取,所有检索结果均经Python验证
  2. 行内超长文本:论衡每行即为一篇完整文章或大段落,单行最长超过2000字,上下文提取时仅截取关键词附近片段
  3. 零内容关键词众多:大量唐宋以后的服饰制度词(赐紫赐绯、蟒衣飞鱼、品色制度等)在东汉著作中本不存在,属正常零命中