宋诗钞 服饰内容提取日志

基本信息

第一步:wc统计

79503 行  39922 词  5917558 字节

第二步:5轮grep

第1轮:核心词(衣裳裘冠冕弁帻巾帽佩玉带绶笏舄履靴袍衫裙褶袂襟领)

第2轮:材质词(锦绮绢帛丝缎绫罗纱缟绸葛麻褐布绵茧)

第3轮:色彩纹饰词(紫绯朱赭青绿白玄黄丹素绣纹章黼黻华)

第4轮:制度词(服赐服赐紫赐绯品色舆服章服冠服朝服祭服丧服常服加冠衮)

第5轮:配饰词(簪钗钿珰珥环镯鱼袋幞头云肩霞帔蔽膝芾韠佩鱼)

5轮合并去重

第三步:靶向grep精筛

第四步:Python正则二次过滤

第五步:分类整理

类别条数
衣裳550
材质165
袍衫裙148
色彩纹饰98
首饰配饰62
裘褐52
履舄靴51
带绶佩笏40
冠帽36
其他服饰29
服制24
合计1,052(有交叉)

第六步:审查

输出文件

  1. 宋诗钞_总结.md —— 服饰内容总结分析
  2. 宋诗钞_日志.md —— 本文件,处理日志
  3. 宋诗钞_原文提取.md —— 服饰原文分类提取