《池北偶谈》服饰内容提取 — 操作日志

日期:2026-04-19 任务:提取《池北偶谈》全部服饰相关内容,整理分类总结 输入文件:/home/z/my-project/upload/part3/池北偶谈.txt 文件规模:3218行 / 643KB


Step 1: 文件基本信息

```bash wc -l /home/z/my-project/upload/part3/池北偶谈.txt

结果:3218行

ls -lh /home/z/my-project/upload/part3/池北偶谈.txt

结果:643KB

```

文件为大型TXT(>500KB),按规范禁止一次性载入,采用grep定位+sed提取策略。


Step 2: 读取词库

词库路径:/home/z/my-project/skills/rysxguji/references/fushi-keywords.md

词库结构: - 一、核心服饰词(首服、体服、下服、足服、腰带、佩饰、礼服、衣料、染色纹样) - 二、制度动作词(赐予、禁令、等级、礼仪、日常) - 三、组合扩展词 - 四、排除规则表 - 五、grep执行策略


Step 3: 第1轮grep — 核心服饰词

```bash rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' /home/z/my-project/upload/part3/池北偶谈.txt | wc -l

结果:501行命中

```

高歧义关键词统计:

关键词 命中行数 服饰相关(估) 非服饰(估)
134 ~40 ~94(人名、比喻)
81 ~4 ~77(人名、地名)
39 ~12 ~27(锦州、锦绣比喻)
21 ~8 ~13(绣花比喻)
28 ~1 ~27(人名、履历)
31 ~5 ~26(冠军等)
30 ~3 ~27(领兵、领命)
25 ~2 ~23(环绕、人名)
26 ~8 ~18(地带、带领)
17 ~3 ~14(钦佩)
67 ~15 ~52(服从、服药)
14 ~5 ~9
12 ~4 ~8
12 ~3 ~9

Step 4: 第2轮grep — 制度动作词

```bash rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' /home/z/my-project/upload/part3/池北偶谈.txt | wc -l

结果:13行命中

```

审查结果: - :8行命中,其中7行为政治僭越(僭逆、僭称),仅1行(L3176龙凤形)与服饰僭越相关 - 赐紫:2行(L1199赐紫金鱼袋、L1886赐紫金鱼袋)——有效 - 赐绯:2行(L1886赐绯鱼袋、L1928赐绯衣袋)——有效 - 释服:1行(L2510不释服而往)——有效 - 冠礼:1行(L2223冠礼经)——有效


Step 5: 第3轮grep — 组合扩展词(按需)

根据前两轮结果,核心服饰词命中较多(501行),不需要大幅扩展。 仅补充搜索以下组合词:

```bash rg -n '衣冠|朝服|蟒衣|玉带|赐紫|赐绯|鱼袋|裙带|织金|纻丝|哆啰绒|哔叽缎|倭缎|袴褶|黄冠|衲衣|紫花布|玄衣|金带|金耳环|绯裘' /home/z/my-project/upload/part3/池北偶谈.txt

结果:约30行命中

```


Step 6: 排除审查

按词库排除规则表逐条审查:

关键词 误命类型 排除操作
人名(罗钦顺、罗一峰、罗愿等)、地名(暹罗、诸罗、俄罗斯) 排除~75行,保留4行(罗衣、罗绢、黄罗、染罗衣)
人名(熊赐履)、词义(履历、践履、步履) 排除~25行,保留1行
环听、环绕、环佩(诗中修辞) 排除~21行,保留2行(金耳环、环佩实物)
动词/方位义(地带、带领、带往、夹带) 排除~15行,保留8行
心理义(钦佩、敬佩) 排除2行,保留3行
非服饰义(服从、服药、服丧、服阕) 排除~15行,保留8行
非服饰义 排除0行(冠字出现多在衣冠/冠服中)
"麻制"无出现 排除0行
"释褐"保留(含服饰义),"褐衣"保留 全部保留
地名(锦州) 排除~2行

排除后有效命中:约67行(含37条高质量/中等质量服饰条目)


Step 7: sed上下文提取

```bash

对37条核心命中行号,提取N-2至N+5行上下文

while IFS= read -r line_num; do start=$((line_num - 2)) [ "$start" -lt 1 ] && start=1 end=$((line_num + 5)) echo "===== 行${line_num}上下文 =====" sed -n "${start},${end}p" /home/z/my-project/upload/part3/池北偶谈.txt done < /tmp/chi_valid_curated.txt ```

提取总行数:约670行上下文


Step 8: 分类整理

将37条有效命中分为9类: 1. 赐服与等级制度(7条) 2. 冠服名目(9条) 3. 衣料与纺织品(4条) 4. 人物服饰品评(12条) 5. 佩饰与首饰(5条) 6. 丧服与礼仪(5条) 7. 古代铭文中的服饰(1条) 8. 僭越与禁令(1条) 9. 外国/异族服饰(5条)


Step 9: 生成三份文件

文件 路径 说明
总结 /home/z/my-project/upload/3笔记output/池北偶谈/池北偶谈_总结.md 含对抗式审查
日志 /home/z/my-project/upload/3笔记output/池北偶谈/池北偶谈_日志.md 含grep命令和统计
原文 /home/z/my-project/upload/3笔记output/池北偶谈/池北偶谈_原文提取.md 带行号片段

操作流程轨迹

文件基本信息确认✅(3218行/643KB) → 读取词库✅ → 第1轮grep核心词501行命中 → 第2轮grep制度词13行命中 → 第3轮grep组合扩展~30行命中 → 排除审查(~434行排除,~67行有效) → sed提取上下文~670行 → 分类整理9类37条 → 生成3份MD文件

统计摘要

指标 数值
文件总行数 3218
第1轮原始命中行 501
第2轮原始命中行 13
排除后有效行 ~67
高/中质量服饰条目 37
分类数 9