《尚书注疏》服饰内容提取日志
基本信息
- 文件路径:/home/z/my-project/upload/尚书/尚书/尚书注疏.txt
- 文件大小:1,293,098字节 / 1,420行(超长行格式,最长12,761字符)
- 输出目录:/home/z/my-project/upload/尚书output/尚书注疏/
关键词搜索结果
第一轮:衣/裳/裘/弁/冕/服
| 关键词 | 命中行数 | 服饰义行数 | 备注 |
|---|---|---|---|
| 衣 | 44 | 约15 | 大量"衣食""衣服""衣裳"泛称及"一戎衣""缀衣=幄帐""衣褐""衣德言"需甄别 |
| 裳 | 9 | 约7 | "垂衣裳""黼裳/蚁裳/彤裳""衣画而裳绣"等均为服饰义 |
| 裘 | 5 | 约2 | "大裘而冕"2处(L308/L892)为服饰义,其余为司裘/比喻 |
| 弁 | 4 | 约4 | "琼弁玉缨""皮弁""雀弁/綦弁"均为服饰义 |
| 冕 | 16 | 约16 | 几乎全为服饰义(衮冕/大裘冕/玄冕/麻冕/冕服等) |
| 服 | 148 | 约18 | 服从/服行/服刑/五服地域/侯服/绥服等大量非服饰义,噪声率约88% |
第二轮:冠/带/佩/舄/芾/韨
| 关键词 | 命中行数 | 服饰义行数 | 备注 |
|---|---|---|---|
| 冠 | 16 | 约3 | 大量为"冠其篇首"义(约13处),服饰义仅"冠冕""冠内之别名""祭冠""冠婚" |
| 带 | 6 | 约1 | "旁带""夹带"为地理义,"带索"为服饰义,"绅带"为服饰义 |
| 佩 | 11 | 0 | 全部为音释标注"背音佩"或比喻"佩服",无佩饰义 |
| 舄 | 0 | 0 | — |
| 芾 | 0 | 0 | — |
| 韨 | 0 | 0 | — |
第三轮:黼/黻/绣/衮/皮弁/章服
| 关键词 | 命中行数 | 服饰义行数 | 备注 |
|---|---|---|---|
| 黼 | 11 | 约9 | "黼裳""黼扆"需甄别(L1261黼扆=屏风,非服饰) |
| 黻 | 3 | 3 | 均为十二章服之黻 |
| 绣 | 4 | 3 | "絺绣""衣画裳绣"为服饰义,L1263"黼扆缀衣"非 |
| 衮 | 6 | 5 | "衮冕""玄衮及黼"为服饰义,L1263"衮衣笾豆"为礼器 |
| 皮弁 | 2 | 2 | L892皮弁质服、L1263綦文鹿子皮弁 |
| 章服 | 0 | 0 | — |
第四轮:玄衣/黄裳/赤舄/采服/锡服/絺冕
| 关键词 | 命中行数 | 服饰义行数 | 备注 |
|---|---|---|---|
| 玄衣 | 0 | 0 | L1264有"玄衣纁裳"但未独立匹配 |
| 黄裳 | 0 | 0 | — |
| 赤舄 | 0 | 0 | — |
| 采服 | 2 | 0 | 均为地域义(侯甸男邦采卫之采服) |
| 锡服 | 0 | 0 | — |
| 絺冕 | 0 | 0 | — |
第五轮:五服/五采/山龙/华虫/宗彝/藻火/粉米
| 关键词 | 命中行数 | 服饰义行数 | 备注 |
|---|---|---|---|
| 五服 | 17 | 约3 | 服饰义3处(五服五章),地域义约14处 |
| 五采 | 3 | 3 | 均为"五采彰施于五色作服"服饰义 |
| 山龙 | 3 | 3 | 均为十二章服名 |
| 华虫 | 2 | 2 | 均为十二章服名 |
| 宗彝 | 2 | 2 | 均为十二章服名 |
| 藻火 | 2 | 2 | 均为十二章服名 |
| 粉米 | 2 | 2 | 均为十二章服名 |
补充搜索
| 关键词 | 命中行数 | 服饰义行数 | 备注 |
|---|---|---|---|
| 丧服 | 约3 | 3 | L1311"反丧服"、L638丧服制度 |
| 玄衣纁裳 | 1 | 1 | L1264内嵌于长行 |
| 衮冕 | 约6 | 6 | 均为服饰义 |
| 皮服/卉服 | 约3 | 3 | L463-470岛夷服饰 |
| 大裘 | 2 | 2 | L308/L892祭天之服 |
噪声排除统计
- 服字噪声:约130处非服饰义(服从/服行/服刑/侯服/绥服/要服/荒服/采服地域/服命/服贾/服膺等),噪声率约88%
- 冠字噪声:约13处非服饰义("冠其篇首"为最常见噪声),噪声率约81%
- 五服噪声:约14处地域义,噪声率约82%
- 衣字噪声:约29处非服饰义("衣食"民生泛称/"一戎衣"军事/"缀衣"幄帐/"衣德言"比喻/"衣褐"虽为服饰但为贱服描述),噪声率约66%
- 另排除"越裳氏=地名""青衣县=地名""黼扆=屏风""小弁=诗篇名"等
处理方法
- 因文件超长行特征(最长12,761字符),全程使用Python脚本进行关键词搜索与上下文提取
- 对约30个关键行进行Python上下文提取(前后50-80字符),逐条甄别服饰义与非服饰义
- 特别关注L426单行(最长行之一),其中包含数千字的十二章服完整疏文