宋词三百首——服饰整理日志
任务:宋词三百首服饰逐本整理
时间:2026-03-04
操作者:rysxguji子Agent
操作流程
步骤1:文件基本信息确认
- 命令:
wc -l /home/z/my-project/upload/词集/词集/宋词三百首.txt - 结果:2649行
- 命令:
ls -lh /home/z/my-project/upload/词集/词集/宋词三百首.txt - 结果:112K
步骤2:关键词grep初筛
- 命令:
rg -n '衣|裳|裘|冠|弁|冕|巾|帻|帽|簪|笄|钗|钿|环|佩|珮|带|绶|袍|襦|裙|衫|裤|褐|深衣|襕|袴|裈|履|舄|鞋|靴|袜|衮|黼黻|章服|品色|紫袍|绯袍|绿袍|青袍|赐服|锦|绮|绫|罗|缎|绢|帛|丝|绸|纱|缂丝|布衣|短褐|蓑|珠翠|翠翘|花钿|步摇|玉佩|鱼袋|笏|幞头|霞帔|云肩|抹胸|襕衫|直裰|道袍|鹤氅|褙子|半臂|比甲|龙袍|凤冠|帔帛|披帛|帷帽|面衣|首衣|足衣|香囊|荷包|金步摇|玉搔头|花黄|贴花|点唇|画眉|螺黛|旌旗|纛' /home/z/my-project/upload/词集/词集/宋词三百首.txt - 结果:命中约150行(含大量误命中,如"丝网""丝雨"等非服饰用法)
步骤3:上下文截取
- 对约50个关键行号执行
sed -n 'X,Yp'截取上下文 - 每次截取3-8行不等,确保词句完整
- 共执行约40次sed命令
步骤4:甄别去伪
- 排除非服饰用法的命中,例如:
- "丝网""丝雨""游丝"——"丝"非服饰用
- "珠帘""画帘"——"帘"非服饰
- "绮户"——"绮"修饰"户"为窗户,非衣物
- "锦瑟"——"锦"修饰乐器,保留但因"锦瑟"已成专词
- "衮衮惊心"——"衮衮"为副词,非衮服
- "玉环飞燕"——"玉环"为人名(杨贵妃),非首饰
- "带风伴雨""带将愁去"——"带"为动词,非服饰
- 甄别后保留约80余条真服饰条目
步骤5:分类整理
- 将条目分为九大类:
1. 衣袍衫褐(18条)
2. 冠巾帽帻(8条)
3. 簪钗钿环(20条)
4. 带绶佩囊(14条)
5. 鞋履袜(7条)
6. 丝织锦绣(10条)
7. 面妆与节庆盛装(6条)
8. 旗纛仪仗(4条)
9. 其他服饰(若干)
步骤6:写入输出文件
- 创建目录:
mkdir -p /home/z/my-project/upload/词集output/宋词三百首/ - 写入三份MD文件
关键发现
-
"罗"字极高频:罗衣、罗裙、罗带、罗袜、罗袖、罗绶……"罗"是宋词中最常见的丝织品词,反映宋代丝织业发达及词作多写闺阁情事。
-
"以带写瘦"范式:柳永"衣带渐宽"、陆淞"带围宽尽"、卢祖皋"罗带缓"、张炎"围羞带减"——四首词形成完整的"以腰带松紧写相思消瘦"传统。
-
分钗赠别程式:辛弃疾"宝钗分"、贺铸"翠钗分"、吴文英"拚分钿"——分钗为唐宋离别经典仪式。
-
节俗服饰珍贵记录:李清照"翟冠儿、雪柳、簇带"完整再现宋代妇女元宵盛装,刘克庄"綀衣纨扇、钗符艾虎"再现端午习俗,吴文英"盘丝系腕"写端午腕饰。
-
苏辛之异:苏轼"芒鞋""蓑"写隐逸旷达,辛弃疾"红巾翠袖""冠盖使"写家国壮志——同为豪放派,服饰意象取向迥异。
-
重复出现:部分词作在文件中出现两次(如晏几道《临江仙》《蝶恋花》等),grep时行号有重复区域,已去重处理。
踩坑记录
| 问题 | 解决方案 |
|---|---|
| "丝"字误命中极多(丝网、丝雨、游丝等) | 人工甄别,仅保留"冰丝织练""鬓丝"等服饰相关用法 |
| "带"字兼有动词用法(带风、带将愁去) | 逐一核查上下文,仅保留服饰名词用法 |
| "锦瑟"是否算服饰? | "锦"修饰乐器,但"锦瑟"已成文学专词,保留标注 |
| "玉环"是否算首饰? | 此处为杨贵妃别名,不算首饰,标注说明 |
| "衮衮"是否算衮服? | "衮衮"为副词(连续不断),非服饰,排除 |
| "绮户""纱窗"是否算服饰? | 绮/纱修饰建筑构件,不算服饰,但归入丝织品类备注 |
| 文件有重复段落(同词出现两次) | grep时发现行号翻倍,确认后去重 |
审核结果
- ✅ 全文未整本载入LLM上下文(仅用grep+sed逐段截取)
- ✅ 每份MD不超过20KB
- ✅ 仅处理《宋词三百首》,未读取其他文件
- ✅ 服饰关键词覆盖完整,九大类均有条目
- ✅ 原文提取带行号,关键词加粗
- ✅ 伪命中已甄别排除