《太平广记》服饰内容提取日志
基本信息
- 书名:太平广记
- 文件:/home/z/my-project/upload/part4_extracted/太平广记.txt
- 总行数:32286
- 输出目录:/home/z/my-project/upload/p4output/太平广记/
步骤1:wc -l
- 命令:
wc -l 太平广记.txt - 结果:32286行
- 编码:UTF-8 (CRLF)
步骤2:10轮grep -n搜索
第1轮:服制关键词(舆服|冠服|章服|服色|品服|朝服|公服|祭服|丧服|常服|法服|时服)
- 工具:rg -n
- 命中行数:约18行有效命中(排除目录行)
- 主要发现:
- L1515 常服朱砂(非服制义,为服药义)
- L2326 "服色各异"——道士服色
- L2540 "益都之盛服""世间之服""天衣"——核心服饰段落
- L2627 "具公服"
- L2645 "衣公服"
- L2918 "沐浴朝服"
- L3189 "舆服以表贵贱"——服制理论
- L3927 "莽朝服"
- L4180 "具朝服如元正之仪"
- L4647 "袈裟""法服"
- L5769 "法服持锡"
- L6945 "具公服"
第2轮:首服关键词(冠|冕|巾|帻|幞头|弁|帽|笠|盔|旒)
- 工具:rg -n(因匹配过多,分两批执行)
- 命中行数:约100+行(含大量非服饰义的"冠"字用法)
- 筛选后有效发现:
- L1579 "戴天真之冠"
- L1580 "戴太真晨婴之冠"
- L1595 "戴九云夜光之冠"
- L2226 "戴远游冠"
- L3319 "戴远游冠"(王方平)
- L3931 "露幞头脚"
- L13062 "冕旒俱秀发"
- L15449 "将却幞头"
- L20657 "戴布帻巾""幞头布"
第3轮:体服关键词(袍|衫|襦|袄|裙|裤|褐|裘|深衣|大袖|半臂|褙子)
- 工具:python3 逐行匹配
- 命中行数:约300+行
- 主要发现:
- L1595 "服青霜之袍"
- L1987 "一布袍""断袍"
- L2366 "破蓝衫""黑木腰带""一脚着靴"
- L2850 "布袍曳杖"
- L4954 "衣黄袍"
- L6769 "锦袍束带"
- L7693 "绿袍""腰带"
- L8438 "紫袍金带"
- L8462 "绯袍"
- L10568 "郁轮袍"
- L11145 "皆衣紫"
- L11652 "紫绣短袍"
- L12190 "锦袍赐之""夺袍"
- L12389 "衣以锦绣""绣袍"
- L13263 "紫衫"
- L15363 "袍笏"
- L15723 "著绯袍"
- L16668 "紫袍"
- L17029 "绿地锦袍"
第4轮:配饰关键词(佩|笏|鱼袋|革带|大带|鞶囊|珮|簪|钗|步摇|花钗|钿)
- 工具:python3 逐行匹配
- 命中行数:约200+行
- 主要发现:
- L1519 "玉笏"
- L1579 "佩金刚灵玺"
- L1580 "腰佩分景之剑"
- L1595 "曳六出火玉之珮"
- L3319 "虎头鞶囊""五色之绶"
- L11282 "鱼袋之饰"专条
- L11652 "金雀钗""龙文匕首"
- L12397 "金钿珠翠"
- L12990 "金络额"
- L14031 "玉簪拴头""象牙为篦"
- L14571 "七宝钗""黄金步摇"
- L14626 "花钗媚子"
- L16709 "凤钗金作缕"
第5轮:足服关键词(履|舄|靴|鞋|袜|赤舄)
- 工具:python3 逐行匹配
- 命中行数:约120+行(含大量"履行""履历"等非服饰义)
- 筛选后有效发现:
- L1580 "履玄璚凤文之舄"
- L1779 "坠履于桥下"
- L1837 "一舄焉""官属履"
- L2226 "曳朱履"
- L2366 "一脚着靴"
- L2623 "草履"
- L3285 "丝履"
- L3339 "所著履"
- L3543 "蹑琼文九章之履"
- L8150 "靴衫笏"
- L14083 "孔子履"
- L14571 "七宝綦履"
第6轮:织物关键词(锦|绮|帛|绢|绫|罗|缎|缂丝|纱|绸|绉|缯|纨|素)
- 命中行数:约1390行(大量为目录、人名含"罗""素"等字)
- 筛选后有效服饰发现约30行
第7轮:纹饰关键词(黼黻|文章|绣|纹|龙章|日月|华虫|宗彝|藻火|粉米|染|蓝|靛|朱|绛|赭)
- 命中行数:约1074行(大量为"朱"姓等非服饰义)
- 筛选后有效发现约15行
第8轮:蚕桑关键词(蚕|桑|丝|绵|茧|织|纺|缫|纬|经|机杼)
- 命中行数:约1722行(大量"经"字为佛经等义)
- 筛选后有效服饰发现约10行
第9轮:布衣关键词(布衣|短褐|缊袍|敝衣|粗布|麻衣)
- 命中行数:64行
- 有效发现约15行
第10轮:赐服关键词(赐服|赐紫|赐绯|借紫|加冠|及笄|冠礼|释服|更衣)
- 命中行数:46行
- 有效发现约12行
步骤3:sed提取上下文
使用python3提取关键行前后2行上下文,共提取341行文本片段。
关键行清单(去重后约80个核心行号):
L1515, L1519, L1579, L1580, L1595, L1729, L1779, L1837, L1987, L2226, L2326, L2366, L2540, L2623, L2627, L2645, L2850, L2918, L3189, L3203, L3285, L3319, L3339, L3514, L3543, L3590, L3927, L3931, L4180, L4647, L4651, L4743, L4954, L5769, L6769, L6945, L7508, L7693, L8150, L8438, L8462, L8478, L10375, L10568, L10704, L11145, L11282, L11652, L12190, L12389, L12397, L12990, L13062, L13263, L13641, L13800, L14031, L14083, L14563, L14571, L14612, L14626, L15363, L15367, L15449, L15723, L15864, L16668, L16709, L17029, L20657
步骤4:精简与审查
- 从341行上下文中筛选约80条核心服饰原文
- 按10类关键词归入7大主题
- 删除重复、非服饰义条目
- 添加注释说明专业术语
- 审核所有引文均出自原文,无编造
汇总统计
| 指标 | 数值 |
|---|---|
| 总行数 | 32286 |
| 10轮grep总命中 | ~5000+ |
| 去重筛选后有效服饰行 | ~80 |
| 提取上下文行数 | 341 |
| 丰富度评级 | ★★★★☆(四星:神仙服饰、唐官服、女性妆饰内容丰富,缺仪卫卤簿等制度细节) |
文件输出
| 文件 | 大小 |
|---|---|
| 太平广记_总结.md | 待测 |
| 太平广记_日志.md | 待测 |
| 太平广记_原文提取.md | 待测 |