书纂言 服饰内容提取日志

任务信息

项目内容
任务ID1-06
文件/home/z/my-project/upload/尚书/尚书/书纂言.txt
输出/home/z/my-project/upload/尚书output/书纂言/
文件行数1359行
编码UTF-8(少量字节无法解码,用Python errors='replace'处理)

搜索过程

第一轮:衣/裳/裘/弁/冕/服

关键词命中行数服饰义行数说明
约20行8行大量为"缀衣"(幄帐)、"一戎衣"(军事行动)、"衣德言"(比喻义)等非服饰用法
3行3行行232下裳、行1242黼裳/蚁裳、行1243彤裳
1行1行行435"非缝皮为裘"——否定性辨析
3行3行行865-866皮弁、行1240-1241雀弁/綦弁
7行7行行1218衮冕、行1240-1242麻冕/冕、行1271-1272释冕/冕服
约80+行约18行服字噪声率约78%,大量为"服事""服从""五服(地域)"等非服饰义

排除的非服饰用法:

第二轮:冠/带/佩/舄/芾/韨

关键词命中行数服饰义行数说明
约6行2行行169画衣冠、行866玄冠为服饰义;余为"冠石山"(地名)、"冠婚"(冠礼)、"公冠篇"(篇名)
0行0行无命中
0行0行无命中
0行0行无命中
0行0行无命中
0行0行无命中

第三轮:黼/黻/绣/衮/皮弁/章服

关键词命中行数服饰义行数说明
4行4行行232黼黻、行1235黼纯/黼扆、行1242黼裳、行1260璜以黼
1行1行行232黼黻
3行2行行232絺绣/绣纹;行746"金之绣味辛"=金属味,非刺绣
2行2行行1218衮冕、行1242衮冕
皮弁1行1行行866皮弁
章服0行0行无命中

第四轮:玄衣/黄裳/赤舄/采服/锡服/絺冕

关键词命中行数服饰义行数说明
玄衣0行(独立)"玄衣纁裳"出现在行1242内嵌文中,非独立匹配
黄裳0行0行无命中
赤舄0行0行无命中
采服0行0行无命中
锡服0行0行无命中
絺冕0行0行无命中

补充发现: 行1242含"玄衣纁裳"为重要服饰术语,虽因grep未匹配到独立"玄衣"而漏检,但经上下文提取后补入。

第五轮:五服/五采/山龙/华虫/宗彝/藻火/粉米

关键词命中行数服饰义行数说明
五服约10行2行行220-221为等级服制义;余为地域区划义(禹贡五服)
五采1行1行行232五采彰施
山龙1行1行行232山龙华虫
华虫1行1行行232华虫
宗彝1行1行行232宗彝
藻火1行1行行232藻火
粉米1行1行行232粉米

注: 第五轮所有十二文章纹均集中在行232同一行,此行实为全书服饰论述的核心段落。

上下文提取

对确认的17处服饰义条目,使用Python逐行提取上下文:

  1. 行164-165:车服以庸 → sed提取全文
  2. 行169:画衣冠 → 提取前200字符
  3. 行220-221:五服五章 → sed提取全文
  4. 行232:十二章服大论述 → Python提取服饰部分(约500字符)
  5. 行236-237:车服以庸(重出) → sed提取全文
  6. 行306:皮服 → sed提取全文
  7. 行375:卉服 → sed提取全文
  8. 行435:织皮与裘辨 → Python提取织皮段
  9. 行865-866:皮弁/玄冠 → Python提取全文
  10. 行1116:衣服 → Python提取全文
  11. 行1127:卑服/恶衣服 → Python提取全文
  12. 行1217-1218:衮冕服 → Python提取全文
  13. 行1235:黼扆/黼纯 → Python提取全文
  14. 行1236:舞衣 → Python提取全文
  15. 行1240-1241:雀弁/綦弁/冕 → Python提取全文
  16. 行1242-1243:麻冕黼裳等 → Python提取全文
  17. 行1271-1272:释冕反丧服 → Python提取全文

甄别统计

统计项数量
grep总命中行数约130行
服饰义行数17处(含上下文跨行合并)
排除的非服饰义行约113行
服字噪声率约78%
冠字噪声率约67%
五服噪声率约80%

输出文件

文件名大小
书纂言_总结.md约7.7KB
书纂言_日志.md约5.5KB
书纂言_原文提取.md约8.0KB