御定佩文韵府——服饰内容提取日志
基本信息
- 文件:/home/z/my-project/upload/part4_extracted/御定佩文韵府.txt
- 大小:62MB / 46,993行
- 输出目录:/home/z/my-project/upload/p4output/御定佩文韵府/
操作记录
第1步:wc -l
- 结果:46,993行
- 注意:文件含超长行(平均456字符/行),UTF-8+CRLF
第2步:10轮关键词搜索(Python二进制读取方式,避免编码错误)
| 轮次 |
关键词 |
命中次数 |
首现行号 |
| R1 |
舆服 |
1,104 |
L156 |
| R1 |
冠服 |
37 |
L4507 |
| R1 |
章服 |
43 |
L4078 |
| R2 |
赐紫 |
36 |
L201 |
| R2 |
赐绯 |
35 |
L3170 |
| R2 |
朝服 |
243 |
L1063 |
| R2 |
祭服 |
58 |
L1770 |
| R3 |
衮服 |
17 |
L4295 |
| R3 |
衮冕 |
82 |
L2288 |
| R3 |
黼黻 |
114 |
L263 |
| R4 |
佩玉 |
155 |
L96 |
| R4 |
佩璜 |
6 |
L13710 |
| R4 |
玉佩 |
145 |
L158 |
| R5 |
绶 |
1,167 |
L111 |
| R5 |
帻 |
468 |
L136 |
| R5 |
弁 |
675 |
L236 |
| R6 |
冕旒 |
65 |
L2149 |
| R6 |
裘 |
1,755 |
L60 |
| R6 |
褐 |
751 |
L143 |
| R7 |
袍 |
1,105 |
L167 |
| R7 |
袂 |
647 |
L259 |
| R7 |
襦 |
320 |
L1510 |
| R8 |
履 |
3,336 |
L44 |
| R8 |
舄 |
382 |
L744 |
| R8 |
屦 |
566 |
L517 |
| R9 |
帔 |
212 |
L487 |
| R9 |
裙 |
834 |
L375 |
| R9 |
裳 |
1,941 |
L115 |
| R10 |
丝 |
4,599 |
L110 |
| R10 |
绢 |
814 |
L164 |
| R10 |
缣 |
463 |
L17 |
第3步:补充搜索高区分度术语
| 关键词 |
命中次数 |
首现行号 |
| 步摇 |
10 |
L818 |
| 冠笄 |
12 |
L5521 |
| 翟衣 |
17 |
L3332 |
| 袆衣 |
26 |
L755 |
| 鞠衣 |
24 |
L3330 |
| 褕翟 |
5 |
L15753 |
| 阙翟 |
5 |
L9449 |
| 大带 |
39 |
L4296 |
| 蔽膝 |
37 |
L1488 |
| 绶带 |
25 |
L4090 |
| 鱼袋 |
22 |
L3170 |
| 品服 |
21 |
L12084 |
| 服色 |
68 |
L1409 |
| 簪 |
885 |
L164 |
| 钗 |
458 |
L206 |
第4步:内容提取
- 高优先级术语(冠服/赐紫/赐绯/衮服/祭服/袆衣/鞠衣/翟衣/步摇/冠笄/大带/蔽膝/鱼袋/品服):提取344行至extract_raw.txt
- 中优先级术语(衮冕/黼黻/冕旒/服色/绶带/褕翟/阙翟/章服):采样69行至extract_med.txt
- 通用术语采样(朝服/舆服/裳/袍/裘/裙/襦/帔/舄/屦/佩玉/玉佩/帻/弁/簪/钗):采样80行至extract_sample.txt
- 补充提取关键行(L818/830/1111/3106/3332/5521/8867/9449/12833/12834/15753/15794/16038/23466/27079)
第5步:筛选与审查
- 高频词(裘1755/裳1941/丝4599/履3336)中大量为非服饰义项(如"裘"在韵藻中常指姓氏或地名),需人工判断
- 低频高区分度词(赐绯35/衮服17/褕翟5/阙翟5)几乎全部为服饰内容,命中率极高
- 文献引证主要来源:周礼、礼记、仪礼、后汉书舆服志、晋书舆服志、唐书车服志、宋史舆服志
注意事项
- 本文件62MB极巨大,严禁整本加载,全程使用Python二进制读取+行号定位
- 韵书体例致同一术语可能出现在非服饰语境中(如"冠服"出现在"九州图"条中实为"冠服不同"的王会图典故)
- 部分行命中但实际内容与服饰无直接关系(如"大带"在L5857实为"鞋带"),已人工审查剔除
↑