御定佩文斋广群芳谱 · 服饰内容提取日志

操作记录

步骤1:确认文件信息

wc -c 御定佩文斋广群芳谱.txt
# 结果:3860828字节(约3.86MB)
wc -l 御定佩文斋广群芳谱.txt
# 结果:9299行
# ⚠️ 超大文件,严禁整本载入LLM上下文

步骤2:5轮关键词grep检索(使用python逐行处理避免编码错误)

# 搜索1:衣裳服冠帽巾带履鞋袜裘袍裙袂衿襟
# 搜索2:丝帛绢锦绮绫罗缎纱绸麻葛布绵毡褐裘
# 搜索3:舆服冠服章服服色品服命服朝服祭服丧服吉服
# 搜索4:佩玉笏簪钗钏环珮鱼袋幞头
# 搜索5:织染绣裁缝缫纺练煮

搜索1结果(复合词):

搜索2结果(复合词):

搜索3结果:

搜索4结果:

搜索5结果(补充搜索):

步骤3:sed提取关键段落

# 桑蚕丝织核心段落
sed -n '2275,2312p' 御定佩文斋广群芳谱.txt  # 桑/蚕/丝织
# 苎麻纺织核心段落
sed -n '2333,2346p' 御定佩文斋广群芳谱.txt  # 苎麻/大麻
# 葛纺织核心段落
sed -n '2351,2362p' 御定佩文斋广群芳谱.txt  # 葛
# 木棉织布核心段落
sed -n '2363,2374p' 御定佩文斋广群芳谱.txt  # 木棉
# 栀子染料段落
sed -n '3766,3770p' 御定佩文斋广群芳谱.txt  # 栀子

步骤4:过滤噪音

步骤5:对抗式审查

步骤6:产出文档