论文部分内容阅读
[目的]在大语言模型背景下,针对查询式摘要数据集稀缺以及科研人员个性化查询需求。[方法]通过构建生成与自我校验提示链,基于ChatGPT和提示工程提出一种以大语言模型为“数据标注员”的自动化数据标注方法,构建了自然语言处理领域学术会议记录查询摘要数据集AMTQFSum。[结果] AMTQFSum在数据量和长度分布上更加优越,UniEval摘要评估模型显示AMTQFSum比现有QFS数据集平均得分提升了85%和33%。在六个经典抽取式和生成式查询式摘要模型上实验AMTQFSum数据集的基准效果,结果显示基于BART的查询式摘要生成效果最佳,ROUGE 1/2/L达52.53%、35.61%、44.80%。[局限]未扩大数据集学科范围。[结论]基于提示链的大模型数据标注方法为自动化数据标注提供可行方案,AMTQFSum数据集为查询式摘要生成任务提供研究基础。