尚书全解·服饰内容提取日志
基本信息
- 文件:/home/z/my-project/upload/尚书/尚书/尚书全解.txt
- 大小:1,518,955字节,1,736行(最大行长4,445字符)
- 输出目录:/home/z/my-project/upload/尚书output/尚书全解/
搜索过程
第一轮:衣/裳/裘/弁/冕/服
| 关键词 | 命中行数 | 服饰义行数 | 非服饰义行数 |
|---|---|---|---|
| 衣 | 51 | ~10 | ~41(衣被1/垂衣拱手1/缀衣3/衣德言比喻/他) |
| 裳 | 13 | ~5 | ~8(黄裳=人名2/同裳=诗义/他) |
| 裘 | 5 | 1 | 4(朝委裘比喻1/非服饰3) |
| 弁 | 11 | ~5 | ~6(小弁诗篇1/非服饰5) |
| 冕 | 21 | ~12 | ~9(非服饰9) |
| 服 | 225 | ~20 | ~205(服从义~90/地域义~40/刑罚义~5/服行义~20/他~50) |
第二轮:冠/带/佩/舄/芾/韨
| 关键词 | 命中行数 | 服饰义行数 | 非服饰义行数 |
|---|---|---|---|
| 冠 | 25 | ~3 | ~22(冠篇首~12/地名/他) |
| 带 | 3 | 1 | 2(带上文=连接1/他1) |
| 佩 | 6 | 0 | 6(佩服=比喻3/澧浦=水名1/他2) |
| 舄 | 1 | 0 | 1(舄卤=盐碱地) |
| 芾 | 0 | 0 | 0 |
| 韨 | 0 | 0 | 0 |
第三轮:黼/黻/绣/衮/皮弁/章服
| 关键词 | 命中行数 | 服饰义行数 | 非服饰义行数 |
|---|---|---|---|
| 黼 | 10 | ~8 | ~2(黼扆=屏风2) |
| 黻 | 5 | 3 | 2(黻冕1已计/非服饰1) |
| 绣 | 4 | 3 | 1(非服饰1) |
| 衮 | 8 | 6 | 2(非服饰2) |
| 皮弁 | 2 | 2 | 0 |
| 章服 | 1 | 1 | 0 |
第四轮:玄衣/黄裳/赤舄/采服/锡服/絺冕
| 关键词 | 命中行数 | 服饰义行数 | 非服饰义行数 |
|---|---|---|---|
| 玄衣 | 0 | 0 | 0 |
| 黄裳 | 4 | 0 | 4(杜黄裳人名3/裴度同1) |
| 赤舄 | 0 | 0 | 0 |
| 采服 | 4 | 0 | 4(地域义2/采服之仪=礼制2) |
| 锡服 | 0 | 0 | 0 |
| 絺冕 | 1 | 1 | 0 |
第五轮:五服/五采/山龙/华虫/宗彝/藻火/粉米
| 关键词 | 命中行数 | 服饰义行数 | 非服饰义行数 |
|---|---|---|---|
| 五服 | 25 | ~3 | ~22(地域义~15/刑罚义~4/他~3) |
| 五采 | 2 | 2 | 0 |
| 山龙 | 3 | 2 | 1(地名1) |
| 华虫 | 3 | 2 | 1 |
| 宗彝 | 1 | 1 | 0 |
| 藻火 | 2 | 2 | 0 |
| 粉米 | 3 | 2 | 1 |
噪声排除统计
- 服字噪声率:约87%(225行中仅~20行为服饰义)
- 冠字噪声率:约84%(25行中仅~3行为服饰义)
- 五服噪声率:约76%(25行中仅~3行为服饰义)
- 黄裳噪声率:100%(4行均为人名杜黄裳)
- 总排除数:约195处
方法说明
- 因文件1.5MB超大,全程使用Python脚本进行关键词搜索与上下文提取
- 每个关键词命中行提取前后60-120字符上下文
- 逐条人工甄别服饰义与非服饰义
- 合并同一行多个关键词的重复提取