《太平广记》服饰内容提取日志

基本信息


步骤1:wc -l


步骤2:10轮grep -n搜索

第1轮:服制关键词(舆服|冠服|章服|服色|品服|朝服|公服|祭服|丧服|常服|法服|时服)

第2轮:首服关键词(冠|冕|巾|帻|幞头|弁|帽|笠|盔|旒)

第3轮:体服关键词(袍|衫|襦|袄|裙|裤|褐|裘|深衣|大袖|半臂|褙子)

第4轮:配饰关键词(佩|笏|鱼袋|革带|大带|鞶囊|珮|簪|钗|步摇|花钗|钿)

第5轮:足服关键词(履|舄|靴|鞋|袜|赤舄)

第6轮:织物关键词(锦|绮|帛|绢|绫|罗|缎|缂丝|纱|绸|绉|缯|纨|素)

第7轮:纹饰关键词(黼黻|文章|绣|纹|龙章|日月|华虫|宗彝|藻火|粉米|染|蓝|靛|朱|绛|赭)

第8轮:蚕桑关键词(蚕|桑|丝|绵|茧|织|纺|缫|纬|经|机杼)

第9轮:布衣关键词(布衣|短褐|缊袍|敝衣|粗布|麻衣)

第10轮:赐服关键词(赐服|赐紫|赐绯|借紫|加冠|及笄|冠礼|释服|更衣)


步骤3:sed提取上下文

使用python3提取关键行前后2行上下文,共提取341行文本片段。

关键行清单(去重后约80个核心行号):
L1515, L1519, L1579, L1580, L1595, L1729, L1779, L1837, L1987, L2226, L2326, L2366, L2540, L2623, L2627, L2645, L2850, L2918, L3189, L3203, L3285, L3319, L3339, L3514, L3543, L3590, L3927, L3931, L4180, L4647, L4651, L4743, L4954, L5769, L6769, L6945, L7508, L7693, L8150, L8438, L8462, L8478, L10375, L10568, L10704, L11145, L11282, L11652, L12190, L12389, L12397, L12990, L13062, L13263, L13641, L13800, L14031, L14083, L14563, L14571, L14612, L14626, L15363, L15367, L15449, L15723, L15864, L16668, L16709, L17029, L20657


步骤4:精简与审查


汇总统计

指标 数值
总行数 32286
10轮grep总命中 ~5000+
去重筛选后有效服饰行 ~80
提取上下文行数 341
丰富度评级 ★★★★☆(四星:神仙服饰、唐官服、女性妆饰内容丰富,缺仪卫卤簿等制度细节)

文件输出

文件 大小
太平广记_总结.md 待测
太平广记_日志.md 待测
太平广记_原文提取.md 待测