旅游大数据平台规划与研究杨冬梅钱钰孙靳/文随着互联网技术的发展以及生活水平的提高袁传统旅游业已经无法满足人们的日常需求遥消费者需摘要更高效更个性化的旅游服务袁旅游从业者也需要更多信息提高服务效率遥旅游大数据平台建设势在必要行遥本文分析了旅游信息化发展现状袁总结出传统旅游业面对的困境袁根据这些问题提出了旅游大数据平台建设方案遥本文重点阐述了大数据平台架构以及数据应用功能设计袁为传统旅游业向野互联网+行业应用冶转型提供参考遥平台规划关键词:旅游;大数据;发大数据应用是指通过对海量数据的储存、挖掘与分析,解决现有行现事物之间的相关性,预测未来可能发生的事情,业平台无法解决的问题,指引行业未来发展方向。大数据具有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value。(低价值密度)
探索现有业务系统大数据的核心价值是通过数据的碰撞,
无法发现的问题及根源,挖掘市场机会,探寻细分市场,提高决变革商业模式催生产策能力,创新企业管理模式和管理潜力,不仅改变了市品和服务的创新。大数据是看待现实的新角度,场营销、生产制造,同时也改变了商业模式。
当前旅游产业在信息化发展过程当中,信息技术的利用主对于整个产业而言,主要面临要体现在对消费者的服务方面,以下问题:
不(1)对于管理部门。无法实时掌握旅游目的地客流情况,同时无法对旅游目的地客流利于及时疏导客流提升旅游安全。
变化及客源情况进行分析,难以为景区建设提供决策信息。
(2)对于景区及相关产业经营者。无法统计游客的信息,难以为营销策略及资源分配提供决策信息;无法实时了解客流量信息,不便于高峰期及时疏导客流。
基于以上问题,应有效利用移动基站实时采集用户行为数旅游产业、据,全方位接入相关部门、OTA运营商、百度等涉旅数据,通过大数据挖掘分析游客行为特征,发现其中相关性,寻新契机,解决当前求市场趋势的根源,为旅游发展提供新思路、的痛点、难点,为后续发展规划提供决策依据。
一尧旅游大数据平台的总体设计1.整体架构
旅游大数据平台的整体架构分为四个部分,具体如附图所示:
(1)基础设施层。主要是为上层的数据整合和业务应用提可以在一组物理机上供基础软硬件环境保障。利用虚拟技术,
通过合理的资源利用估算划分并运行多个虚拟机,因而得以在多个环境间共享这台计算机的资源。不同的虚拟机可以在同一组物理机上运行不同的操作系统以及多个应用程序。虚拟化是它将物理硬件与操作系统硬件与操作系统之间的一个抽象层,
分开,打破以往一个操作系统必须配置一套硬件的传统部署方法,从而提供更高的应用系统资源利用率和灵活性。
(2)大数据整合与计算层。包含数据中心交换平台及数据数据采集与交换平台主要承担数据的调度整合中心两个部分,
与采集工作,包括完成所有外部系统数据源采集处理的调度工作,合理划分采集时间窗口,采集性能以及采集处理出现问题清洗、后的后续流程调度工作;同时完成采集数据的获取、加载等工作,按照预先设定好的数据处理规则进行数据的加工和处理。
同时还需要对平台需要采集和存储来自外部的海量数据,
因此,平台各类数据进行整合计算,实现深度分析和挖掘处理,通过构建分布式文件系统,实现并提供了6大支撑能力:支撑外部数据的并行高效采集、实现海量数据的分布式并行计算、建立实时流数据的采集与接入支持海量数据的高速检索查询、
提供高速的迭代运算能机制、支持高速的流式计算任务部署、力。
(3)数据治理层。主要完成整个平台数据的正常维护和运包括元数据与数据质量管理,数据安全管控,营的管理功能,以及数据管理等模块。
工具化、平台化思想,降(4)业务应用层。主要采用组件化、搭建服务弹性大、低开发成本,提升支撑服务效率,支撑随需扩展的应用服务体系。
3
卷首附图
2.数据架构
旅游大数据平台整体架构示意图
供不同的功能,以满足不同的业务需求和服务需要。图中展示的是根据目前重要的业务需求,规划的若干功能和应用系统,不断拓展未来还可以根据业务的需求,在数据平台的基础上,新的应用。
面向政府提供综合分析、预警预测、辅助决策功能,包含旅旅游大数据运行监测、游大数据专题分析、旅游舆情管理系统、移动执法系统等OTA旅游行情监控系统、旅游应急管控系统、应用服务。
面向产业,包括景区、酒店、旅行社、景点周边的购物餐饮营销辅助,经营辅等综合场所,提供全面及时的市场分析报告、经营状况和游客喜助等服务,帮助他们更好地了解市场环境、促进收入增长。好,从而帮助他们制定相关策略,
手机App、面向民生,提供旅游资讯服务、诚信管理等服务,结合本地特色,让游客能够玩得方便,玩的放心,玩的享受,从而打造品质旅游品牌。
二尧旅游大数据平台数据功能
旅游产业是为满足旅游者食住行游购娱六要素而形成的一连串横向联系的旅游供给行业构成的产业链。涵盖一个核心旅行社业、旅游餐饮业、宾馆业、行业:景区业;六个支撑行业:旅游交通业、旅游商品业、旅游康乐业;若干个支持行业:电信物流业、旅游智业、旅游协会等。业、银行保险业、教育培训业、建设旅游大数据平在产业链中不断累积着诸多旅游相关数据,
针对源数据初步台,就需要把这些数据及时有效地归集整理,宾馆数据、旅行社数据、分为十二大类,分别是:景区数据、交通国土、公安、气象、环保、数据、旅游商品数据、交通、通信、旅游
数据整合与系统数据架构由数据源、数据采集交换平台、存储、数据服务、数据应用、数据管控以及数据归档七部分组数据采集交成。数据以备份的形式从数据源传输进入前置机,
换平台从前置机获取数据,并进行清洗转换加载入数据存储在数据整合与存储库,不同的数据类型进入不同的存储平台,层对数据进行整合加工,根据不同数据粒度需要将数据分别加工入数据仓库,同时由数据服务层对数据资源进行封装并向应用层提供数据服务。整个数据处理全程由数据治理进行管控,保证数据的质量。
3.技术架构
采用文件/旅游大数据平台在技术上实现了数据采集交换,
消息机制采集、日志/报文采集,并通过接口加密技术实现MD5和链路加密,保证数据安全。同时构建Hadoop平台及其中Hadoop平台,通过HDFS和HBase,Storm平台。实现海量数据存储,引入Hive、Mahout计算框架,实现海量数据计算和全量数据挖掘。Storm平台,基于流式处理,引入VlotDB和Redis内存数据库,实现海量数据实时计算。平台基于spring/struts/hibernate开发PURE基础框架的跨数据库平台的一个包含用户、角色、资源、权限管理和页面定制的一个管理软也可以配合单点件,可作产品软件开发的基础安全管理框架,平台可实现数据计登录产品应用于应用集成。依托数据中心,算和展现分离。
4.功能架构
面向产业、面向民生,分别提旅游大数据平台将面向政府、4
在线服务商。
平台的数据交换功能属于基础应用支撑系统,
主要功能是负责旅游产业大数据平台与数据源以及基础应用层的应用系统(诸如监测系统、旅游移动执法系统等)进行数据交换共享传输。交换平台提供数据采集、数据加工处理、数据转载以及服务的协调、路由、查找、注册、治理等功能。同时,可实现按照不同采集模式采集各个业务系统的基础数据,经过加工处理将数据装载到目的业务系统或数据库中,实现业务数据安全、高效的共享交换。
三尧旅游大数据平台数据功能的技术支持
为满足各系统间数据交换的需求,
旅游数据交换平台系统提供多种数据采集模式,每一种数据采集模式都可以配置不同的数据采集策略,包括采集频率、采集顺序等。不同的数据采集模式,具体包括:触发器模式、时间戳模式、标志位模式。
旅游数据交换平台系统提供一些标准的数据处理模块,以实现不同系统间自动的数据格式转换,
包括数据库数据、普通文件数据、XML格式数据间的互相映射和转换,从而为各系统间的数据交换提供便利。同时,旅游数据交换平台系统提供图形可视化的异构数据格式转换映射功能模块,能够将输入数据和输出数据进行不同格式间的转换(如结构化的XML、非XML或Java对象数据),从而快速集成异构应用,无须考虑表示数据采用的格式。根据业务性能需要及加工量,可灵活选择一种或多种加工方式,完成数据整合交换。可以从XML、服务库、数据库、XPATH表达式中获取参数进行数据加工,具体如下:
函数加工:基于数据库适配器,按照“谁提供谁加工”原则,采用数据库函数方式完成数据加工。支持各种主流数据库的SQL语法,包括但不仅限于支持日期型、计算型、转换型等函数类型。
XML加工引擎:提供XSLT加工引擎,可方便集成其他XML加工引擎。并提供图形化加工操作,
通过拖拉拽方式完成加工配制,包括但不仅限于支持类型转换型、数据合并拆分、删减追加、计算、日期等加工类型。
服务加工集成:支持交换过程的流程干预,对于一个交换流程可集成第三方服务实现数据加工。实现加工过程封装为独立的服务供数据交换流程调用。
消息加工集成:支持XML消息、XPATH表达式消息获取参数加工,实现加工过程的灵活参数定义。
数据交换与共享需要以安全、可靠的传输通道链路来支撑,旅游数据交换平台系统提供安全、可靠、高效的数据交换传输功能模块,并通过持久化队列机制、断点续传、事务、智能拆分压缩等机制,保障系统间进行数据交换传输时“不丢、不错、不重、不漏”
。旅游数据交换平台系统提供的数据加载功能,
实现了将加工处理后的数据根据业务系统需要进行加载处理,
如加载到其他业务系统中直接使用,以及加载到其他数据库或文件中进行存储。
卷首旅游产业大数据平台是旅游信息化的基石,
承载着对所有应用系统的数据支撑工作,包含数据源接入、数据加工、整合,数据挖掘分析等数据信息的全流程管理。平台将来自景区、交通、旅行社等各个独立信息系统的异构数据根据其关联性进行抽取和组织,以多粒度知识数据表示方法从旅游信息概念集、概念关系集、资源实体集、资源元数据描述集等几个方面建立数据融合后的知识表达和资源组织模型。在此基础上,旅游大数据平台以面向服务的模式实现智能信息处理、
多媒体资源组织、通信、交易等公共服务的方法,实现旅游信息资源与服务的整合、信息内容的智能管理以及知识与服务的共享。其数据采集、数据分析、应用服务的全过程。
1.数据的抽取和组织
(1)旅游目的地名称的识别。采用规则与统计相结合的识别方法完成异构旅游信息抽取的关键是对旅游目的地名称的识别。充分利用专家知识形成各种规则在模型中进行综合运用,同时采用基于条件概率的判别学习模型。
(2)旅游行程中地域、时间等实体关系的自动数据抽取。对于旅游行程中实体关系的自动抽取,需设计实体关系抽取模型,完成实体关系的自动抽取任务。预处理模块对输入的文本进行分词和词性标注,将没有标记的字序列转变为词和词性序列;旅游行程实体识别模块抽取文本中的实体,将常用的目的地名称和行程描述关键词收录到词典中以提高识别率;语料库将已识别的语料转化,分类器完成特征的抽取和判别分类任务。
(3)旅游信息资源分类。目的是从提取到的信息中剔除不相关内容,并按照地域或主题类别归档。
(4)旅游信息资源主题对象模型的建立。对于分类后的属于不同主题类型的旅游信息资源,通过建立主题对象模型来挖掘其主题。首先将特定类别的旅游信息归纳为一个特定的主题对象,并建立对象模型,然后再根据模型从页面正文中抽取相关信息,并填充到对象属性中。对于主题对象模型的构建,可先对收集到的数据进行聚类分析,将主题信息进行概略划分,然后归纳出每一类主题的必要属性。将主题类型和对应的属性结合起来,就构建了一个旅游行程信息的主题模型,实现时则对应于程序系统中的一个逻辑对象。
每一个主题对象均对应一个特征词集合和与此对应的匹配规则,根据匹配规则和特征词集合,对从网页中抽取到的旅游行程进行分类。如果旅游行程的内容符合此特征词集合对应的规则,则将此行程归类为此主题对象类型,生成程序对象,然后根据模型属性的对应正则匹配表达式进行单个匹配,将匹配成功的属性填充到对象模型中。
2.数据处理
数据处理是指对旅游信息资源组织模型进行形式化描述,设计知识表达和资源组织主题图的存储、
访问与更新策略。(1)采用多媒体旅游数据的语义描述,集成不同来源的多媒体元数据。
5
卷首(2)从旅游信息概念集、概念关系集、资源实体集、资源元数据描述集等方面建立知识表达和资源组织模型。
(3)采用分布式存储策略,建立主题图仓库,实现海量资源的组织管理;
采用WebService定义访问接口,实现分布式环境下的互操作;
采用SOAP实现主题图同步数据的传输。(4)知识表达和资源组织的可视化导航:通过设计群体用户对资源的访问规律,对兴趣相似的用户提供热点主题、资源及访问路径的可视化导航。
3.信息内容的智能管理
数据挖掘是提供智能信息服务的关键技术。首先进行数据建模,针对不同业务范围的数据集合,通过相同的关联列字段,进行数据碰撞,在两个数据源中选择需要的数据列进行数据拼接,圈定特定数据集。接着定义关系,对要素信息数据分析和研判,并在这些信息数据之间建立起内在关联,帮助梳理各类分散的、独立的线索,最后组织为清晰、有序的情报分析链才能最终成像。
旅游信息分类、个性化智能搜索、主动信息服务和旅游行程导航等功能都要依赖于数据挖掘的结果。利用用户信息、景区信息、旅游产品信息和用户交互通信数据建立数据库,然后采用多种数据挖掘算法进行设计并从不同角度对旅游信息进行分析,最后建立景区景点、旅游产品和市场,以及用户特征的数据模型,通过对模型的评估和可视化,向用户提供数据分析服务。
文档中的知识获取,对旅游数据的类别特征、聚集特性及主题模式进行发现。通过特征聚类、信息增益等实现信息聚类,从中提取热点主题。
4.知识与服务的共享
由于旅游信息服务需要在大规模网络范围内实现知识与服务的共享和分发,
因此利用Web服务在服务描述、发现、集成、访问等多方面的开放性标准,实现跨平台、跨应用之间的集成,将现有的各种旅游系统信息整合到一个统一的智能旅游资讯服务平台。
四尧数据分析
平台依托移动用户信令数据,
提供游客行为分析,平台包括客流监控分析、客流来源分析、客流轨迹分析等八大分析功能,可方便旅游管理部门全面、客观掌握游客动态信息,辅助景区制定科学的运营管理措施。
流量监测分析建立了一套完整的游客识别体系,通过常驻人群、过路人群、旅游人群3个模型的组合应用,来精准识别景区游客,保证了输出高质量的数据。以客流分析为例具体内容如下:
1.客流实时监控
客流实时监控是针对景区当天各数据刷新时点/时间区间(刷新周期为60分钟),在当前所选景区或景点范围内的移动手机用户新增流量、离开流量、留存流量的统计分析。此客流监控分析可支持排除区域常驻人群号码(景区工作人员及常驻6
人群)。流量类型分为:总流量,国际流量,国内流量,省内流量,省外流量。系统将一天按60分钟区间分为24个时间点/时间区间,分析结果以数据表格、图表(线性图、柱状图等)多种方式进行展现。帮助旅游局和景区等相关应用人员实时了解和全面把控景区流量情况。
2.客流趋势分析
客流趋势分析是针对景区客流按天、周、月及自选时间区间(不超过15日)等不同时间周期内的总客流量及日均客流量的分析,并提供相同时间周期的客流同比分析,同比周期有按天、周、月、任意两个自选周期(均不超出15天)。流量类型同样分为:总流量,国际流量,国内流量,省内流量,省外流量。分析结果同样支持数据表格、图表(线性图、柱状图等)多种方式进行展现。
3.客流来源分析
游客来源分析是对游新增游客整天分析的结果按国际国内、国际国家、省或地级市的方式进行的统计,通过选择一个时间段(日、多日、周、月、季、年):首先按国际国内和市内外对游客来源进行汇总,对国际游客分析其热点来源国际,对国内游客分析其来源省份并向地市进行下钻分析。
4.驻留时长分析
留时长分析是指平均驻留时长分析,
是对当日离开景区游客的平均驻留时长及相对前期的对比;
分析结果同样支持数据表格、图表(线性图、柱状图等)
多种方式进行展现。5.驻留特征分析
驻留时长分布特征是对过去多天
(固定值)的数据在该区域累积的停留时间按0-1时、1-2时、2-6时、6-24时、24-48时、48时以上几个时间段进行的统计分析和对比。统计周期包括日、周、月、季、年。
6.客流轨迹分析
根据客流实时监控数据的累积,
随着时间的推移,通过技术手段实现一段时间内游客的活动轨迹。在游客游览轨迹分析基础上,对热门游览线路进行游客具体来源省份、来源城市及来源国家的分析,并形成热点来源地排名分析。帮助旅游行业多方位了解游客,使旅游宣传投放更有的放矢。
参考文献院
[1]吴平华.基于虚拟化服务器的部署方案[J].中国教育技术装备袁2012渊32冤.
[2]梁凯袁李祥.全国道路运政管理信息系统功能架构浅析[J].盐科学与化工袁2018渊02冤.
[3]张晗.面向流量经营敏捷推荐平台的设计与实现[D].成都院成都理工大学袁2015.
[4]张素香.信息抽取中关键技术的研究[D].北京院北京邮电大学袁2007.
渊作者单位院河南信息统计职业学院冤
因篇幅问题不能全部显示,请点此查看更多更全内容