《尚史》服饰内容提取操作日志

基本信息

操作流程记录

Step 1: 文件探测

wc -c: 文件字节数
wc -l: 文件行数
head -50: 查看文件开头

结果:文件为清代马骕所撰《尚史》,采摭百家杂说,上起鸿荒,下迄秦代,仿纪传体编次。

Step 2: 多轮grep提取

第1轮:衣|裳|袍|衫|裙|袄|裤|袜|履|鞋|靴|舄

第2轮:冠|冕|弁|帽|幞头|帻|笠

第3轮:绢|绫|罗|缎|锦|绮|丝|绸|布|麻|葛|棉|苎

第4轮:裘|皮|貂|狐|羊|麂

第5轮:紫|绯|红|绿|青|白|黑|黄

第6轮:鱼袋|笏|带|佩|簪|钗|钏|坠|环(服饰搭配筛选)

第7轮:赐服|赐紫|赐绯|借紫|借绯

第8轮:服色|品色|章服|冠服|舆服|制服

第9轮:染|绣|织|裁|缝|绩|纺(服饰搭配筛选)

第10轮:补服|补子|文官|武官

Step 3: 上下文提取

对关键行号使用 sed -n '行号-5,行号+10p' 提取完整上下文段落。

Step 4: 精简筛选

Step 5: 分类整理

将服饰内容归为9大类:冕服冠裳、五服五章、赐服、丧服、胡服骑射、列国风俗、政治象征、纺织织物、佩饰车马。

grep统计汇总

轮次 关键词 总命中 有效命中
1 衣裳袍衫裙等 200+ 60
2 冕弁帽帻等 200 50
3 绢绫罗锦布麻葛等 200 40
4 裘皮貂狐等 200 15
5 紫绯红白黑等 200 20
6 佩簪环等 50 10
7 赐服赐紫等 10 8
8 服色章服冠服等 30 15
9 染绣织缝等 50 10
10 补服文官武官等 30 0
合计 ~1170 ~228

注意事项

  1. 《尚史》为辑录体史书,服饰记载多为引录先秦典籍原文
  2. 服饰内容分散于本纪、世家、列传各篇,无专篇论述
  3. 先秦无补服、品级等后世制度,第10轮grep无有效命中
  4. 颜色词(第5轮)大量为非服饰语境,需严格筛选