《论衡》服饰提取操作日志

书名：论衡
输入文件：/home/z/my-project/upload/part4/论衡.txt
输出目录：/home/z/my-project/upload/4笔记output/论衡/
词库：/home/z/my-project/skills/rysxguji/references/fushi-keywords.md
操作时间：2025年
操作员：子Agent（rysxguji技能调用）

一、文件基本信息

文件大小：647,401 字节
文件行数：825 行
编码：UTF-8（含CRLF行终止符，部分行极长达2202字）
文件结构：首4行为乾隆御制读王充论衡+钦定四库全书提要，后续为正文

二、检索过程

第1轮：核心服饰词检索

执行命令（Python等效，因rg遇到UTF-8编码异常）：

```python

R1-1: 首服+体服+下服+足服关键词

keywords = ['冠','冕','弁','巾','帻','幞头','帽','盔','胄','缨','簪','钗','步摇','胜','花钿', '衣','裳','袍','衫','襦','袄','褐','裘','氅','褂','襕','裲裆','半臂','比甲','背子','褙子','深衣','袆衣','翟衣', '裙','裤','裈','蔽膝','袴','履','舄','靴','鞋','袜','屦','屐'] ```

命中统计：

关键词	命中行数	有效服饰条目
衣	43	10
冠	18	6
裳	11	4
履	20	6（排除"履大人迹"等踩踏义）
裘	3	2
胄	2	0（均为"甲胄"泛指，非具体服饰描述）
簪	2	1
袴	2	2
舄	2	2
屦	2	1
弁	1	1
巾	1	0（篇目标题行，非服饰义）
袍	1	1
褐	1	1
胜	54	0（均为"胜过"义，非"花钿"义）

```python

R1-2: 腰带+佩饰+礼服+衣料+染色纹样

keywords = ['带','革带','玉带','金带','犀带','角带','鞓带','蹀躞带','大带','丝带', '佩','珮','鱼袋','笏','绶','环','钏','璎珞','霞帔','披帛', '衮服','章服','朝服','公服','常服','吉服','丧服','祭服','戎服','法服','燕服','赐服', '丝','帛','绢','绸','缎','绫','罗','锦','绮','纱','缂丝','布','麻','葛','棉', '染','绣','纹','黼','黻','龙','蟒','飞鱼','斗牛','仙鹤','麒麟','品色','服色'] ```

命中统计：

关键词	命中行数	有效服饰条目
帛	18	8（排除"竹帛"典籍义）
带	14	4（排除"带领/连带"义）
丝	12	6
佩	6	3（排除"钦佩"义）
锦	5	2
麻	4	2
葛	4	1
染	4	2
绣	4	2
朝服	3	3
罗	3	1（排除"星罗"义）
绶	2	1
环	2	0（均为环形义）
纱	2	1
戎服	1	0（五服制度名，非服饰本体）
黼	1	1
黻	1	1
服色	1	1
龙	57	0（均为龙/龙气义，非龙纹）
麒麟	9	0（均为瑞兽义，非麒麟服）
布	31	3（大量为"分布/宣布"义）

零命中关键词：革带、玉带、金带、犀带、角带、鞓带、蹀躞带、大带、丝带、珮、鱼袋、笏、钏、璎珞、霞帔、披帛、衮服、章服、公服、常服、吉服、丧服、祭服、法服、燕服、赐服、绢、绸、缎、绫、绮、缂丝、棉、纹、蟒、飞鱼、斗牛、仙鹤、品色

第2轮：制度动作词检索

python keywords = ['赐服','赐紫','赐绯','赐蟒','赐鱼','赏衣', '僭','逾制','违式','品色','冠礼','笄礼','敛衽','释服','加冠']

命中统计：

关键词	命中行数	有效条目
加冠	1	1

其余制度动作词（赐服、赐紫、赐绯、僭、逾制等）均零命中。这与论衡为东汉哲学著作、非制度史料的性质一致。

第3轮：组合扩展词检索

python keywords = ['蚕','桑','茧','缫','织','纺','绸','缂丝', '折帛','和买','市舶','绢价','匹帛', ...]

命中统计：

关键词	命中行数	有效条目
桑	15	4
蚕	4	3
织	4	2
茧	2	1
纺	1	1

其余组合词（衮冕、蟒衣、鱼袋制度等）均零命中。

三、误命中审查过程

按排除规则表逐条审查：

胜（54处）：全部为"胜过/胜负/克胜"义，无"花钿"义——全部排除
龙（57处）：全部为龙/龙气/龙颜/龙鳞（生物义），非龙纹服饰——全部排除
布（31处）：大量"分布/宣布/布衣"义，仅"余布""缣布""布帛"三处为衣料义——保留3处
帛（18处）："竹帛"为典籍义，排除；"丝帛/缣布丝绵/布帛"为衣料义，保留
履（20处）："履大人迹/履冰/步履"为踩踏义，排除；"履/取履/进履/徒履/履舄"为鞋义，保留
环（2处）：均为"环绕"义——全部排除
胄（2处）：均为"甲胄"泛指，非具体服饰描述——排除
戎服（1处）：为"荒服戎服要服"五服制度名——排除

四、上下文提取方法

由于论衡.txt每行极长（平均2202字），采用以下策略： 1. 用Python读取文件，逐行搜索关键词 2. 对命中行，以关键词为中心截取前后各60-80字的上下文 3. 人工审查语境，确认是否为服饰义 4. 将有效片段记录入原文提取文档

五、输出文件校验

文件	大小	是否≤20KB	是否非空	是否含审查
论衡_总结.md	~12KB	✅	✅	✅
论衡_日志.md	~8KB	✅	✅	✅
论衡_原文提取.md	~10KB	✅	✅	✅

六、特殊说明

rg工具编码异常：ripgrep在处理本文件时反复出现utf-8 codec can't decode byte错误，改用Python直接读取，所有检索结果均经Python验证
行内超长文本：论衡每行即为一篇完整文章或大段落，单行最长超过2000字，上下文提取时仅截取关键词附近片段
零内容关键词众多：大量唐宋以后的服饰制度词（赐紫赐绯、蟒衣飞鱼、品色制度等）在东汉著作中本不存在，属正常零命中