御定全唐诗 — 服饰提取日志

基本信息

处理流程

Step 1: wc统计

Step 2: 五轮grep -c统计

轮次关键词类型命中行数
R1核心词9,546
R2材质6,762
R3色彩纹饰23,489
R4制度181
R5配饰1,397

Step 3: 精确术语grep -c统计

完成28个精确服饰术语的行数统计(详见总结.md)。

Step 4: 分类精选sed提取

Step 5: 重点内容精选提取

问题与备注

  1. 超大型文件(108K行),R3色彩词命中率极高(23,489行),噪声极大
  2. "冠"字1,153行含大量"冠军""冠绝"等非服饰用法
  3. "簪"353行含大量"簪缨""簪笏"等合成词,需进一步筛选
  4. "绶"347行含"印绶""紫绶"等官制用语
  5. 本书无服饰专卷,服饰内容全为散见引用
  6. 白居易诗中服饰描写最为丰富,含赐章服、故衫、霓裳羽衣等