《江邻幾杂志》服饰内容提取 — 操作日志

日期:2026-04-19 任务:提取《江邻幾杂志》全部服饰相关内容,整理分类总结


Step 0: 文件基本信息

```bash wc -l /home/z/my-project/upload/part3/江邻幾杂志.txt

结果:768行

wc -c /home/z/my-project/upload/part3/江邻幾杂志.txt

结果:72284字节(约72KB)

```

文件较小,无需分块处理,但仍遵守"严禁加载整本TXT"规则,采用grep定位+sed提取方式。


Step 1: 第1轮grep — 核心服饰词

bash rg -n '衣|裳|冠|冕|袍|裘|带|佩|巾|帻|履|舄|笏|绶|幞头|裙|衫|袄|褐|缙|绅|纨|绮|绫|罗|锦|绣|帛|绢|绸|缎|丝|棉|葛|麻|毡|帽|靴|鞋|袜|披|氅|褂|领|袖|袂|裾|襟|衽|裆|裤|褶|襦|襕|裲裆|半臂|霞帔|首饰|簪|钗|钏|环|珮|鱼袋|鞍|鞯|辔|卤簿|仪仗|服色|章服|品服|朝服|公服|常服|吉服|丧服|祭服|戎服|赐服|赐紫|赐绯|蟒衣|飞鱼|斗牛|补服|弁|盔|胄|缨|步摇|胜|花钿|蔽膝|袴|屦|屐|蹀躞|缂丝|纹|黼|黻|法服|燕服|翟衣|袆衣|深衣' INPUT_FILE

命中行号:11, 29, 33, 37, 57, 67, 75, 77, 87, 93, 113, 121, 139, 147, 171, 185, 191, 199, 215, 217, 221, 225, 237, 239, 275, 279, 289, 329, 359, 401, 427, 429, 451, 459, 463, 465, 471, 503, 516, 540, 542, 546, 556, 558, 560, 591, 601, 603, 611, 615, 627, 629, 655, 687, 691, 703, 705, 727, 731, 735, 741

共62行命中(初步)


Step 2: 第2轮grep — 制度动作词

bash rg -n '赐服|赐紫|赐绯|赐蟒|赐鱼|赏衣|僭|逾制|违式|品色|冠礼|笄礼|敛衽|释服|加冠' INPUT_FILE

命中行号:193, 741 - 行193"僭":殒夏僭使人 → 非服饰语境,排除 - 行741已在第1轮覆盖


Step 3: 第3轮grep — 组合扩展词

bash rg -n '赐鱼袋|佩鱼|金银鱼袋|蟒衣|飞鱼服|斗牛服|麒麟服|蚕|桑|茧|缫|织|纺|折帛|和买|市舶|绢价|匹帛|乌纱|软脚|硬脚|展角|交角' INPUT_FILE

命中行号:389, 427, 552 - 行389"桑":桑林地名 → 排除 - 行427已在第1轮覆盖 - 行552"桑":桑螵蛸(昆虫名) → 排除


Step 4: 对抗式审查

逐条审查排除误命中,严格按照排除规则表执行:

行号 关键词 误命中类型 处理
37 "水波纹"指纹理非纹样 排除
67 "冠枢府"=居首位 排除
113 无服饰义 排除
139 无服饰命中 排除
171 "噉葛"=食用 排除
185 《佩觹集》书名 排除
191 "带馆职"=兼任 排除
193 非服饰僭越语境 排除
221 无服饰命中 排除
225 "银二笏"=量词 排除
237 "佩服其言"=敬佩 排除
275 无服饰命中 排除
359 "又云冕"=人名 排除
389 "桑林"=地名 排除
465 无服饰命中 排除
471 无服饰命中 排除
540 无服饰命中 排除
542 "牛带寒鸦"=动词 排除
546 "冠多士"=动词 排除
552 "桑螵蛸"=昆虫 排除
558 无服饰命中 排除
560 "麻出"=麻制诏书 排除
627 "斑锦文"=蛇纹比喻 排除
629 "罗蔔"=萝卜 排除
705 "锦江"=地名 排除
727 "白麻"=麻制诏书 排除

审查后有效命中:39条(对应原文位置索引39条)


Step 5: sed 上下文提取

对所有有效命中行提取N-2至N+5行上下文,确保笔记条目完整性。

示例: ```bash sed -n '197,204p' INPUT_FILE # 行199上下文

提取到旋裙、凉衫、毳袍核心段落

```


Step 6: 分类整理

将39条有效命中分为8大类: 1. 冠服制度与服饰名物(8条) 2. 服饰禁令与僭越(4条) 3. 冠服名物与佩饰分项(6类) 4. 外族服饰与异物(3条) 5. 人物服饰轶事(8条) 6. 唐宋服饰制度变迁(6条) 7. 衣料与纺织(4条) 8. 其他(保留条目)


Step 7: 生成三份文件


操作流程轨迹

文件基本信息检查✅(768行/72KB) → 第1轮grep核心词62行命中 → 第2轮grep制度词2行命中(1条新增) → 第3轮grep扩展词3行命中(0条新增) → 对抗式审查排除26条误命中 → 有效命中39条 → sed上下文提取✅ → 分类8大主题✅ → 保存3份文件✅

关键发现

审核结果