《池北偶谈》服饰内容提取 — 操作日志
日期:2026-04-19 任务:提取《池北偶谈》全部服饰相关内容,整理分类总结 输入文件:/home/z/my-project/upload/part3/池北偶谈.txt 文件规模:3218行 / 643KB
Step 1: 文件基本信息
```bash wc -l /home/z/my-project/upload/part3/池北偶谈.txt
结果:3218行
ls -lh /home/z/my-project/upload/part3/池北偶谈.txt
结果:643KB
```
文件为大型TXT(>500KB),按规范禁止一次性载入,采用grep定位+sed提取策略。
Step 2: 读取词库
词库路径:/home/z/my-project/skills/rysxguji/references/fushi-keywords.md
词库结构: - 一、核心服饰词(首服、体服、下服、足服、腰带、佩饰、礼服、衣料、染色纹样) - 二、制度动作词(赐予、禁令、等级、礼仪、日常) - 三、组合扩展词 - 四、排除规则表 - 五、grep执行策略
Step 3: 第1轮grep — 核心服饰词
```bash rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' /home/z/my-project/upload/part3/池北偶谈.txt | wc -l
结果:501行命中
```
高歧义关键词统计:
| 关键词 | 命中行数 | 服饰相关(估) | 非服饰(估) |
|---|---|---|---|
| 衣 | 134 | ~40 | ~94(人名、比喻) |
| 罗 | 81 | ~4 | ~77(人名、地名) |
| 锦 | 39 | ~12 | ~27(锦州、锦绣比喻) |
| 绣 | 21 | ~8 | ~13(绣花比喻) |
| 履 | 28 | ~1 | ~27(人名、履历) |
| 冠 | 31 | ~5 | ~26(冠军等) |
| 领 | 30 | ~3 | ~27(领兵、领命) |
| 环 | 25 | ~2 | ~23(环绕、人名) |
| 带 | 26 | ~8 | ~18(地带、带领) |
| 佩 | 17 | ~3 | ~14(钦佩) |
| 服 | 67 | ~15 | ~52(服从、服药) |
| 帽 | 14 | ~5 | ~9 |
| 帛 | 12 | ~4 | ~8 |
| 巾 | 12 | ~3 | ~9 |
Step 4: 第2轮grep — 制度动作词
```bash rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' /home/z/my-project/upload/part3/池北偶谈.txt | wc -l
结果:13行命中
```
审查结果: - 僭:8行命中,其中7行为政治僭越(僭逆、僭称),仅1行(L3176龙凤形)与服饰僭越相关 - 赐紫:2行(L1199赐紫金鱼袋、L1886赐紫金鱼袋)——有效 - 赐绯:2行(L1886赐绯鱼袋、L1928赐绯衣袋)——有效 - 释服:1行(L2510不释服而往)——有效 - 冠礼:1行(L2223冠礼经)——有效
Step 5: 第3轮grep — 组合扩展词(按需)
根据前两轮结果,核心服饰词命中较多(501行),不需要大幅扩展。 仅补充搜索以下组合词:
```bash rg -n '衣冠|朝服|蟒衣|玉带|赐紫|赐绯|鱼袋|裙带|织金|纻丝|哆啰绒|哔叽缎|倭缎|袴褶|黄冠|衲衣|紫花布|玄衣|金带|金耳环|绯裘' /home/z/my-project/upload/part3/池北偶谈.txt
结果:约30行命中
```
Step 6: 排除审查
按词库排除规则表逐条审查:
| 关键词 | 误命类型 | 排除操作 |
|---|---|---|
| 罗 | 人名(罗钦顺、罗一峰、罗愿等)、地名(暹罗、诸罗、俄罗斯) | 排除~75行,保留4行(罗衣、罗绢、黄罗、染罗衣) |
| 履 | 人名(熊赐履)、词义(履历、践履、步履) | 排除~25行,保留1行 |
| 环 | 环听、环绕、环佩(诗中修辞) | 排除~21行,保留2行(金耳环、环佩实物) |
| 带 | 动词/方位义(地带、带领、带往、夹带) | 排除~15行,保留8行 |
| 佩 | 心理义(钦佩、敬佩) | 排除2行,保留3行 |
| 服 | 非服饰义(服从、服药、服丧、服阕) | 排除~15行,保留8行 |
| 冠 | 非服饰义 | 排除0行(冠字出现多在衣冠/冠服中) |
| 麻 | "麻制"无出现 | 排除0行 |
| 褐 | "释褐"保留(含服饰义),"褐衣"保留 | 全部保留 |
| 锦 | 地名(锦州) | 排除~2行 |
排除后有效命中:约67行(含37条高质量/中等质量服饰条目)
Step 7: sed上下文提取
```bash
对37条核心命中行号,提取N-2至N+5行上下文
while IFS= read -r line_num; do start=$((line_num - 2)) [ "$start" -lt 1 ] && start=1 end=$((line_num + 5)) echo "===== 行${line_num}上下文 =====" sed -n "${start},${end}p" /home/z/my-project/upload/part3/池北偶谈.txt done < /tmp/chi_valid_curated.txt ```
提取总行数:约670行上下文
Step 8: 分类整理
将37条有效命中分为9类: 1. 赐服与等级制度(7条) 2. 冠服名目(9条) 3. 衣料与纺织品(4条) 4. 人物服饰品评(12条) 5. 佩饰与首饰(5条) 6. 丧服与礼仪(5条) 7. 古代铭文中的服饰(1条) 8. 僭越与禁令(1条) 9. 外国/异族服饰(5条)
Step 9: 生成三份文件
| 文件 | 路径 | 说明 |
|---|---|---|
| 总结 | /home/z/my-project/upload/3笔记output/池北偶谈/池北偶谈_总结.md | 含对抗式审查 |
| 日志 | /home/z/my-project/upload/3笔记output/池北偶谈/池北偶谈_日志.md | 含grep命令和统计 |
| 原文 | /home/z/my-project/upload/3笔记output/池北偶谈/池北偶谈_原文提取.md | 带行号片段 |
操作流程轨迹
文件基本信息确认✅(3218行/643KB)
→ 读取词库✅
→ 第1轮grep核心词501行命中
→ 第2轮grep制度词13行命中
→ 第3轮grep组合扩展~30行命中
→ 排除审查(~434行排除,~67行有效)
→ sed提取上下文~670行
→ 分类整理9类37条
→ 生成3份MD文件
统计摘要
| 指标 | 数值 |
|---|---|
| 文件总行数 | 3218 |
| 第1轮原始命中行 | 501 |
| 第2轮原始命中行 | 13 |
| 排除后有效行 | ~67 |
| 高/中质量服饰条目 | 37 |
| 分类数 | 9 |