史记集解·服饰提取日志

处理信息

  • 输入文件:/home/z/my-project/upload/zhengshi/正史/史记集解.txt
  • 输出目录:/home/z/my-project/upload/正史重制output/史记集解/
  • 文件大小:1.9MB
  • 文件编码:UTF-8
  • 总行数:2675
  • 处理日期:2026-03-04

步骤记录

步骤1:文件检查

  • 命令:wc -l 史记集解.txt
  • 结果:2675行
  • 文件大小:1.9MB,含极长行(最长8165字符)
  • 编码确认:UTF-8

步骤2:关键词统计

使用grep -c统计全部服饰关键词出现次数,有效关键词(出现次数>0)如下:

关键词次数关键词次数关键词次数
7453
111武冠1
11343
11117
中衣331
朝服5祭服2公服2
章服1丧服111
绿145116
1112245
6202
3897
舆服3车服7卤簿1
4127
1861
217服色13
冠带10服制1

未出现关键词(0次):幞头、进贤冠、通天冠、远游冠、裤、半袖、衮服、冕服、常服、法服、燕服、鱼袋、鞶囊、香囊、步摇、仪仗、绫、缎、纨、品色、冠制、赐服、赐紫、赐绯、借紫、借绯、钗

注:黄(116)、白(111)、衣(113)、青(45)、朱(45)等高频词含大量非服饰用法,需语境过滤。

步骤3:行号提取

使用grep -n提取各关键词所在行号。因文件行极长(部分行超8000字符),采用Python脚本进行上下文截取。

步骤4:上下文提取与过滤

  • 采用Python脚本提取关键词前后各35字符上下文
  • 高频词(衣、冠、带、佩、巾)施加语境过滤规则:
  • "衣":仅保留含服/冠/裳/袍/赐/祭/朝/丧/帛/罗/锦/缯/绣/饰/紫/绯/青/朱/车/深衣/中衣/服色/冠带等服饰关联词的上下文
  • "冠":排除"冠军"等非服饰用法
  • "带":仅保留含服/冠/衣/绶/笏/金/银/玉/革/紫/制/礼等关联词的上下文
  • "佩":仅保留含服/冠/衣/带/绶/玉/金/银/朝/祭/制/礼等关联词的上下文
  • "巾":仅保留含冠/帽/帻/弁/头/服/衣/朝/祭/制/礼等关联词的上下文

步骤5:提取结果

  • 原始提取条目:950条(含重复及非服饰语境)
  • 过滤后最终条目:85条(受20KB篇幅限制精选收录)
  • 涉及关键词:48个
  • 分类:冠首服饰、衣裳袍服、礼服制度、佩饰带绶、车服仪仗、织物帛锦、服色赐服七大类

步骤6:MD文件生成

文件名大小说明
史记集解_原文提取.md≤20KB服饰原文提取,按类别分章
史记集解_总结.md≤20KB服饰内容分析总结
史记集解_日志.md≤20KB本处理日志

注意事项

1. 《史记集解》行极长,每行常包含一整卷或大段内容,grep行号与实际篇章位置需对照原文确认。

2. 高频词(黄、白、衣等)大部分为非服饰用法,已做语境过滤,但仍可能有少量误收或遗漏。

3. 色彩词(青、朱、黑等)单独统计次数高,但纯色彩描述(如"青龙""朱鸟")非服饰内容,已尽量排除。

4. 25个关键词在本书中未出现(0次),包括幞头、进贤冠、通天冠等唐以后服饰用语,与本书汉晋时代背景一致。


处理完成 | 输出目录:/home/z/my-project/upload/正史重制output/史记集解/