《燕山外史》服饰内容提取 — 操作日志

日期:2026-03-05 任务:提取《燕山外史》全部服饰相关内容,整理分类总结


Step 1: 文件信息

```bash wc -l -c 燕山外史.txt

结果:158行,116479字节(约114KB)

——骈文小说,行数少但每行极长 ```

Step 2: 第1轮grep — 核心服饰词

```bash rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' 燕山外史.txt

结果:104行命中

```

Step 3: 第2轮grep — 制度动作词

```bash rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' 燕山外史.txt

结果:1行命中(行30"敛衽受经")——保留

```

Step 4: 第3轮grep — 组合扩展词

前两轮已获大量内容(104+1行),针对性搜索特定组合:

```bash rg -n '妆束|粉黛|翠袖|钗珥|簪花|戎装|儒服|裘马|冠裳|裙屐|织|绣|纹|缂丝' 燕山外史.txt

结果:约30行新增命中

```

Step 5: 排除审查

关键词 误命中场景 处理
"罗" "星罗棋布"排列义 排除
"衣"动词义 "衣冠"代指士大夫 保留——含服饰信息
"衣"作穿着 "衣裳颠倒""被衣绣" 保留——描述穿着行为
"丝"非织品 "情丝""游丝" 排除——比喻义
"纹"非纹样 "龙纹"无,其他比喻 排除非纹样义
"佩"心理义 无命中
"环"非首饰 "碧雾笼环"=玉环 保留——首饰
"领"动词 无命中
"锦绣" "锦绣前程"无;多为丝织品义 保留
"服"非服饰 "佩服""水土不服" 排除

经审查,保留30条核心有效内容。

Step 6: sed提取关键段落

因骈文每行极长,提取整行为主:

bash sed -n '15p' 燕山外史.txt # 粉黛紫钗纨扇 sed -n '17p' 燕山外史.txt # 粗服乱头衣裳为嫁 sed -n '18p' 燕山外史.txt # 冠玉傅粉薰香 sed -n '19p' 燕山外史.txt # 郭巾谢屣燎衣宝钗罗带 sed -n '30p' 燕山外史.txt # 翠袖敛衽钗珥簪花 sed -n '39p' 燕山外史.txt # 舞衫歌扇宝罽绣裀朱履 sed -n '51p' 燕山外史.txt # 戎装儒服 sed -n '147p' 燕山外史.txt # 椎髻浣衣翡翠宝钗

Step 7: 分类整理

按8大类分组:首服与发饰、体服与衣料、裙衫与罗绮、钗饰与佩件、妆扮与粉黛、履制与足服、冠服与品级、戎装与武服

Step 8: 生成三份文件


操作流程轨迹

文件信息158行/114KB(骈文行长)→ 第1轮核心词grep 104行命中 → 审查保留30条核心 → 第2轮制度词grep 1行命中(敛衽)→ 第3轮针对性搜约30行 → 整行提取8段 → 分类8大类 → 保存3份文件

关键发现