《玉堂闲话》服饰内容提取 — 操作日志
日期:2026-03-05 任务:提取《玉堂闲话》全部服饰相关内容,整理分类总结
Step 1: 文件基本信息
```bash wc -l /home/z/my-project/upload/part3/玉堂闲话.txt
结果:370行
wc -c /home/z/my-project/upload/part3/玉堂闲话.txt
结果:136623 bytes (约134KB)
```
文件中等偏大,遵守"严禁加载整本TXT"规则,全程使用grep+sed操作。
Step 2: 第1轮grep — 核心服饰词全搜
```bash rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' /home/z/my-project/upload/part3/玉堂闲话.txt | wc -l
结果:99行命中
```
Step 3: 第2轮grep — 制度动作词
```bash rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' /home/z/my-project/upload/part3/玉堂闲话.txt | wc -l
结果:3行命中
``` - Line 142: "头冠礼衣" — 礼仪服饰 - Line 150: "敛衽" — 礼仪动作 - Line 358: "赐紫袍金章" — 赐服制度
Step 4: 第3轮grep — 组合扩展词
```bash rg -n '蟒衣|蟒袍|飞鱼|斗牛|麒麟|赐衣|赐帛|锦衣|玉带|金带|犀带|革带|束帛|绢帛|丝帛|绫罗|锦绣|缂丝|纱帽|乌纱|毡帽|皮弁|进贤冠|红罗|碧绸|织成|纻丝|蚕|桑|茧|缫|织|纺|折帛|和买|市舶|绢价|匹帛|赐鱼袋|佩鱼|金银鱼袋|衮冕|软脚|硬脚|展角|交角' /home/z/my-project/upload/part3/玉堂闲话.txt
结果:11行命中
```
关键命中: - Line 7: "织屦""织草鞋" — 编织鞋履 - Line 171: "玉带" — 玉带 - Line 276: "披锦绣之服" — 比喻 - Line 350: "金带""白衫" — 唐代常服 - Line 364: "织女""寒不营衣" — 纺织/贫民服饰
Step 5: 排除规则审查
| 关键词 | 误命中数 | 处理 |
|---|---|---|
| 织 | ~3 | "织女"为星名,排除;"织屦""织草鞋"保留 |
| 桑 | ~2 | "桑林"为地名/植物,排除 |
| 锦绣 | 1 | "锦绣万花谷"为书名,排除 |
| 衣 | ~8 | "衣冠士庶/子弟"为社会身份代称,保留 |
| 带 | ~5 | "连带""地带"等排除 |
| 履 | 1 | "足履龟纹"动词义,排除 |
| 冠 | ~3 | "冠军"排除 |
审查后有效服饰条目:约18条。
Step 6: sed提取上下文
对关键行号提取上下文(N-2到N+5):
bash
sed -n '55,62p' 玉堂闲话.txt # 绿袍
sed -n '63,68p' 玉堂闲话.txt # 衣紫衫
sed -n '144,148p' 玉堂闲话.txt # 紫衣命服
sed -n '356,362p' 玉堂闲话.txt # 赐紫袍金章
sed -n '110,114p' 玉堂闲话.txt # 冠簪巾栉
sed -n '118,122p' 玉堂闲话.txt # 远游之冠
sed -n '132,136p' 玉堂闲话.txt # 巾冠
sed -n '181,186p' 玉堂闲话.txt # 星冠霞帔
sed -n '348,354p' 玉堂闲话.txt # 白衫金带
Step 7: 分类整理与创作
将18条有效条目分为5类: 1. 朝堂冠服与品色(4条) 2. 首服与佩饰(3条) 3. 日常与人物服饰(8条) 4. 宗教与神异服饰(3条) 5. 仪仗与服饰器物(1条)
创作三份MD: - 玉堂闲话_总结.md - 玉堂闲话_日志.md(本文件) - 玉堂闲话_原文提取.md
操作流程轨迹
文件扫描370行/134KB → 第1轮grep 99行命中
→ 第2轮grep 3行命中 → 第3轮grep 11行命中
→ 排除规则审查过滤 → 有效条目约18条
→ sed提取上下文 → 五类分类整理 → 创作三份MD
审核结果
- 原文验证:✅ grep行号对应
- 排除规则:✅ "锦绣万花谷""桑林""足履龟纹"等误命中已排除
- 体积检查:✅ 三篇MD均<20KB