《笺纸谱》服饰内容提取日志
基本信息
| 项目 | 内容 |
|---|---|
| 书名 | 笺纸谱 |
| 作者 | (元)费着 撰 |
| 输入文件 | /home/z/my-project/upload/器物/器物/笺纸谱.txt |
| 输出目录 | /home/z/my-project/upload/器物output/笺纸谱/ |
| 总行数 | 18行 |
处理流程记录
第一步:wc -l 统计
18 /home/z/my-project/upload/器物/器物/笺纸谱.txt
全书仅18行,篇幅短小。
第二步:多轮grep -n提取
使用44个服饰关键词逐一grep检索,原始命中结果如下:
| 关键词 | 命中行号 | 原始命中次数 |
|---|---|---|
| 帛 | 6 | 1 |
| 履 | 6 | 1 |
| 布 | 6, 8, 12 | 3 |
| 麻 | 6 | 2 |
| 锦 | 8 | 2 |
| 绫 | 8 | 1 |
| 绮 | 8 | 1 |
| 罗 | 12 | 1 |
| 幅 | 10, 16, 18 | 3(噪音) |
| 丝 | 16 | 1(噪音) |
| 绶 | 10 | 1(噪音) |
其余33个关键词(衣、裳、冠、带、袍、裘、褐、巾、屦、绅、袂、裾、襟、裙、弁、冕、簪、珥、佩、环、纱、绢、绣、练、絮、绸、缎、缯、纨、绡、绂、黼、黻、鹖、帻、帷、帐、幄、旗、旌、旆、纛)均无命中。
第三步:上下文提取
因全书仅18行,所有命中行已在第二步中完整获取,无需额外sed提取上下文。
第四步:噪音过滤
| 关键词 | 行号 | 原文片段 | 判定 | 理由 |
|---|---|---|---|---|
| 幅 | 10 | "霞光笺五百幅" | 噪音 | 纸张计量单位,非服饰"幅"义 |
| 幅 | 16 | "广幅无粉者""狭幅有粉者" | 噪音 | 指纸张幅面宽狭 |
| 幅 | 18 | "每幅方尺许" | 噪音 | 纸张量词 |
| 丝 | 16 | "竹丝" | 噪音 | 竹子细条,非丝织品 |
| 绶 | 10 | "严绶" | 噪音 | 人名,唐代官员严绶 |
过滤后保留有效关键词7个:帛、履、布、麻、锦、绫、绮、罗(布出现于3行,锦出现2次)。
第五步:验证grep
对过滤后关键词重新验证:
rg -n '帛' 笺纸谱.txt → 第6行命中
rg -n '履' 笺纸谱.txt → 第6行命中
rg -n '布' 笺纸谱.txt → 第6、8、12行命中
rg -n '麻' 笺纸谱.txt → 第6行命中
rg -n '锦' 笺纸谱.txt → 第8行命中
rg -n '绫' 笺纸谱.txt → 第8行命中
rg -n '绮' 笺纸谱.txt → 第8行命中
rg -n '罗' 笺纸谱.txt → 第12行命中
均确认无误。
输出文件
| 文件名 | 大小限制 | 说明 |
|---|---|---|
| 笺纸谱_总结.md | ≤20KB | 服饰内容分析总结 |
| 笺纸谱_原文提取.md | ≤20KB | 含关键词原文摘录 |
| 笺纸谱_日志.md | ≤20KB | 本日志文件 |
结论
《笺纸谱》为造纸专书,全书18行,服饰相关内容甚少。7个有效关键词(帛、履、布、麻、锦、绫、绮、罗)均以"纺织材料或纹样"身份出现,涉及三类场景:缣帛作书写载体、废旧衣料(布、履、麻)作造纸原料、丝织纹样(绫、绮、罗、布纹)施于纸面装饰。全书无直接描述服饰穿着、制度、礼仪之内容。