第十届挑战赛C2-基于对偶对比学习文本分类及图神经网络的周边游需求图谱构建与分析

发布时间:2022-06-23 作者:本站原创 浏览量:132

摘 要:

随着“互联网+旅游”服务的推进和自媒体的繁荣,了解旅游市场现状的主要信息来源在于文本形式的在线旅游(Online Travel Agency,OTA)和游客的用户生成内容(User Generated Content,UGC)数据。然而OTA和UGC数据的内容却较为分散和碎片化,因此建立起基于自然语言处理(Natural Language Processing, NLP)技术的旅游需求系统,已成为旅游市场发展的迫切需求与新趋势。本文基于对偶对比学习文本分类及图神经网络两大核心技术从文本中发掘出相关的旅游要素,并挖掘出了要素之间的相关性和隐含的高层概念,解决了微信公众号文章分类、周边游产品热度分析、本地旅游图谱构建与分析、疫情前后旅游产品需求的变化分析四项问题。

针对任务一,首先对原始数据集进行预处理,包括合并公众号标题和正文以及去除冗余信息。分析数据可知,本题所给的数据没有分类标签,因此本文通过爬虫技术获取旅游类文本并结合THUCNews新闻文本分类数据集,构建旅游文本分类训练集。由于BERT及其变体在处理长度超过512的文本时采用直接截断的方法,会导致信息遗失,本文通过比较Text Rank和BiGRU两种文本摘要算法在NLPCC2017数据集上的Rouge指标,得出BiGRU算法更加灵活、更能全面考虑文本信息的结论,因此采用BiGRU生成式文本摘要算法对公众号文章进行摘要,避免了文本尾部内容的丢失。在此基础上,本文设计RoBERTa-BiGRU-Attentoin融合模型进行文本分类,并设计消融实验证明模型各个部分都是有效的。受数据量限制,难以发挥深度神经网络处理大数据的优势;同时考虑到人工标记数据的成本,本文采用对偶对比学习这一框架,将标签信息融入文本向量作为增强样本,有效利用了有限的标签信息,最终将数据集中的文本分为了4315篇与旅游相关和1971篇与旅游不相关的两类,结果比对正确率达到了96.90%,表明该模型在较小的训练数据规模上取得了良好效果。利用文本分类技术可以从海量数据中选取有效数据,整合了离散数据,解决了OTA和UGC数据的分散和碎片化的问题。

 针对任务二,由于题中的游记攻略文本属于非结构化文本,与酒店、餐饮、景区评论数据在结构上不统一,且存在大量冗余信息,因此要从游记攻略文本中抽取出有用信息。首先进行预处理,包括游记攻略分句、去除URL链接、对繁体字和Emoji进行转换等。为从非结构化的游记文本数据中精准抽取旅游产品,本文构建了旅游领域的命名实体识别数据集,使用当前工业界应用广泛的BERT-BiLSTM-CRF算法对游记攻略文本进行命名实体识别,并采用分层设置学习率、学习率衰减、加入对抗训练等训练策略,提高模型的精度和鲁棒性。在经过实体融合后共从游记攻略中识别出1913个有效实体。然后,利用BERT模型对旅游攻略中实体所在语句和题中酒店、景区、餐饮评论数据进行情感分析,评论结果分为好评、中评、差评三类。基于情感分析结果,结合产品热度会随时间衰减的特点,本文改进威尔逊区间算法,对每年旅游产品进行热度分析并排名,其中2018-2021年旅游产品热度最高的分别是“优之品西点”、 “浪漫海岸”、 “Hello炸鸡(方兴店)”、 “麦壳西点(开发区店)”结果表明,本文设计模型和方法从文本中抽取相关旅游要素的精度达到了92.99%,比传统模型平均高出8.43%。

针对问题三,直接对游记攻略文本进行关系抽取存在构建训练集标成本过高、难以挖掘出未标注的隐关联的缺陷。因此,本文首先利用改进Apriori算法进行关联分析并抽取(实体,关系,实体)三元组,相较于传统算法效率更高。然后,构建了GNNLP模型,以抽取出的三元组为基础建图,并利用图神经网络进行链路预测,对隐关联进行挖掘,可以量化两个产品间的关联强度,比如“御水古温泉酒店”和“御水古温泉”之间的关联度为1.00,则认为两者之间存在强关联关系;“晏镜岭”和“放鸡岛”之间的关联度为0.29,表明两者具有隐含的弱关联关系,事实上,由于“晏镜岭”和“放鸡岛”之间通过茂名御景国际大酒店建立联系,可以解决传统模型可解释性弱的问题。根据预测得到的弱关联关系对图谱进行强化补全,并利用Neo4j工具,通过实体查询和关系约束,生成面向不同分析对象的定制化视图。为特定企业对象的产品供给、资源优化配置以及市场开拓提供决策建议,测试结果表明,利用GNNLP模型挖掘出的隐含关联关系较普通单一模型效果平均提高了11.76%。

针对问题四,在前三问的基础上对疫情前后旅游产品知识图谱的变化及原因进行分析,通过关系约束,分析了新冠疫情前后茂名市主要旅游产品的市场变化趋势,通过实体查询,分析了同一产品疫情前后热度变化、产品之间的关联强度随疫情的变化规律,并从时空两个维度实现消费场景细化、定制、可扩展。比如周边游产品热度分析排名可为企业针对不同人群定制不同产品,产品间强关联模式的挖掘为酒店、景点、出行等产品组合销售,打造亲子游、自助游等定制化旅游资源的组合配置提供科学依据;通过隐含关系的挖掘,可以预测未来具有市场潜力的产品组合,瞄准未来产业发展先机,为新兴旅游线路的产业布局、企业扶持、产品预置提供数据支撑,特别是疫情前后市场变化规律为特色旅游、自助旅游线路沿线市场持续开拓提供有益参考。

关键词:RoBERTa-BiGRU-Attention 融合模型;对偶对比学;BERT-BiLSTM-CRF;情感分析; 改进威尔逊区间算法;改进Apriori;GNNLP

点击查看全文