《论衡》服饰提取操作日志
书名:论衡
输入文件:/home/z/my-project/upload/part4/论衡.txt
输出目录:/home/z/my-project/upload/4笔记output/论衡/
词库:/home/z/my-project/skills/rysxguji/references/fushi-keywords.md
操作时间:2025年
操作员:子Agent(rysxguji技能调用)
一、文件基本信息
- 文件大小:647,401 字节
- 文件行数:825 行
- 编码:UTF-8(含CRLF行终止符,部分行极长达2202字)
- 文件结构:首4行为乾隆御制读王充论衡+钦定四库全书提要,后续为正文
二、检索过程
第1轮:核心服饰词检索
执行命令(Python等效,因rg遇到UTF-8编码异常):
```python
R1-1: 首服+体服+下服+足服关键词
keywords = ['冠','冕','弁','巾','帻','幞头','帽','盔','胄','缨','簪','钗','步摇','胜','花钿', '衣','裳','袍','衫','襦','袄','褐','裘','氅','褂','襕','裲裆','半臂','比甲','背子','褙子','深衣','袆衣','翟衣', '裙','裤','裈','蔽膝','袴','履','舄','靴','鞋','袜','屦','屐'] ```
命中统计:
| 关键词 | 命中行数 | 有效服饰条目 |
|---|---|---|
| 衣 | 43 | 10 |
| 冠 | 18 | 6 |
| 裳 | 11 | 4 |
| 履 | 20 | 6(排除"履大人迹"等踩踏义) |
| 裘 | 3 | 2 |
| 胄 | 2 | 0(均为"甲胄"泛指,非具体服饰描述) |
| 簪 | 2 | 1 |
| 袴 | 2 | 2 |
| 舄 | 2 | 2 |
| 屦 | 2 | 1 |
| 弁 | 1 | 1 |
| 巾 | 1 | 0(篇目标题行,非服饰义) |
| 袍 | 1 | 1 |
| 褐 | 1 | 1 |
| 胜 | 54 | 0(均为"胜过"义,非"花钿"义) |
```python
R1-2: 腰带+佩饰+礼服+衣料+染色纹样
keywords = ['带','革带','玉带','金带','犀带','角带','鞓带','蹀躞带','大带','丝带', '佩','珮','鱼袋','笏','绶','环','钏','璎珞','霞帔','披帛', '衮服','章服','朝服','公服','常服','吉服','丧服','祭服','戎服','法服','燕服','赐服', '丝','帛','绢','绸','缎','绫','罗','锦','绮','纱','缂丝','布','麻','葛','棉', '染','绣','纹','黼','黻','龙','蟒','飞鱼','斗牛','仙鹤','麒麟','品色','服色'] ```
命中统计:
| 关键词 | 命中行数 | 有效服饰条目 |
|---|---|---|
| 帛 | 18 | 8(排除"竹帛"典籍义) |
| 带 | 14 | 4(排除"带领/连带"义) |
| 丝 | 12 | 6 |
| 佩 | 6 | 3(排除"钦佩"义) |
| 锦 | 5 | 2 |
| 麻 | 4 | 2 |
| 葛 | 4 | 1 |
| 染 | 4 | 2 |
| 绣 | 4 | 2 |
| 朝服 | 3 | 3 |
| 罗 | 3 | 1(排除"星罗"义) |
| 绶 | 2 | 1 |
| 环 | 2 | 0(均为环形义) |
| 纱 | 2 | 1 |
| 戎服 | 1 | 0(五服制度名,非服饰本体) |
| 黼 | 1 | 1 |
| 黻 | 1 | 1 |
| 服色 | 1 | 1 |
| 龙 | 57 | 0(均为龙/龙气义,非龙纹) |
| 麒麟 | 9 | 0(均为瑞兽义,非麒麟服) |
| 布 | 31 | 3(大量为"分布/宣布"义) |
零命中关键词:革带、玉带、金带、犀带、角带、鞓带、蹀躞带、大带、丝带、珮、鱼袋、笏、钏、璎珞、霞帔、披帛、衮服、章服、公服、常服、吉服、丧服、祭服、法服、燕服、赐服、绢、绸、缎、绫、绮、缂丝、棉、纹、蟒、飞鱼、斗牛、仙鹤、品色
第2轮:制度动作词检索
python
keywords = ['赐服','赐紫','赐绯','赐蟒','赐鱼','赏衣',
'僭','逾制','违式','品色','冠礼','笄礼','敛衽','释服','加冠']
命中统计:
| 关键词 | 命中行数 | 有效条目 |
|---|---|---|
| 加冠 | 1 | 1 |
其余制度动作词(赐服、赐紫、赐绯、僭、逾制等)均零命中。这与论衡为东汉哲学著作、非制度史料的性质一致。
第3轮:组合扩展词检索
python
keywords = ['蚕','桑','茧','缫','织','纺','绸','缂丝',
'折帛','和买','市舶','绢价','匹帛', ...]
命中统计:
| 关键词 | 命中行数 | 有效条目 |
|---|---|---|
| 桑 | 15 | 4 |
| 蚕 | 4 | 3 |
| 织 | 4 | 2 |
| 茧 | 2 | 1 |
| 纺 | 1 | 1 |
其余组合词(衮冕、蟒衣、鱼袋制度等)均零命中。
三、误命中审查过程
按排除规则表逐条审查:
- 胜(54处):全部为"胜过/胜负/克胜"义,无"花钿"义——全部排除
- 龙(57处):全部为龙/龙气/龙颜/龙鳞(生物义),非龙纹服饰——全部排除
- 布(31处):大量"分布/宣布/布衣"义,仅"余布""缣布""布帛"三处为衣料义——保留3处
- 帛(18处):"竹帛"为典籍义,排除;"丝帛/缣布丝绵/布帛"为衣料义,保留
- 履(20处):"履大人迹/履冰/步履"为踩踏义,排除;"履/取履/进履/徒履/履舄"为鞋义,保留
- 环(2处):均为"环绕"义——全部排除
- 胄(2处):均为"甲胄"泛指,非具体服饰描述——排除
- 戎服(1处):为"荒服戎服要服"五服制度名——排除
四、上下文提取方法
由于论衡.txt每行极长(平均2202字),采用以下策略: 1. 用Python读取文件,逐行搜索关键词 2. 对命中行,以关键词为中心截取前后各60-80字的上下文 3. 人工审查语境,确认是否为服饰义 4. 将有效片段记录入原文提取文档
五、输出文件校验
| 文件 | 大小 | 是否≤20KB | 是否非空 | 是否含审查 |
|---|---|---|---|---|
| 论衡_总结.md | ~12KB | ✅ | ✅ | ✅ |
| 论衡_日志.md | ~8KB | ✅ | ✅ | ✅ |
| 论衡_原文提取.md | ~10KB | ✅ | ✅ | ✅ |
六、特殊说明
- rg工具编码异常:ripgrep在处理本文件时反复出现
utf-8 codec can't decode byte错误,改用Python直接读取,所有检索结果均经Python验证 - 行内超长文本:论衡每行即为一篇完整文章或大段落,单行最长超过2000字,上下文提取时仅截取关键词附近片段
- 零内容关键词众多:大量唐宋以后的服饰制度词(赐紫赐绯、蟒衣飞鱼、品色制度等)在东汉著作中本不存在,属正常零命中