您的当前位置:首页正文

大数据技术平台解决方案

2021-10-12 来源:九壹网
一、 技术方案

(一) 项目背景

1、

建设背景

媒立方项目分为大数据平台和传播服务平台两部分,通过利用大数据的技术和计算框架,形成基于全网重点内容的数据仓库以及集团用户阅读行为数据库,并在此基础上进一步发展出适应传统媒体和新媒体融合发展的智能大数据服务体系;同时通过整合打通报刊、网站、APP、微博、微信等的采编发布体系,结合智能大数据服务体系,最终形成适应传统媒体和互联网媒体融合发展的内容生产传播服务平台。

2、 设计目标

媒立方项目(大数据平台)由内容资源库、用户阅读行为数据库、智能分

析服务系统三个部分构成。本项目要求实现对集团媒体资源、国内重要媒体数据资源和UGC资源的统一整合,运用先进的大数据存储计算能力、自然语言分析以及机器学习等技术,建立一个完整的、专业的、易扩展、易管理、规范的内容资源库系统。系统要求收集集团内容产品线上用户的阅读行为,形成基于集团用户通行证标识体系和基于社会用户的阅读行为数据库。最后基于内容资源库和用户阅读行为数据库形成汇集多种智能分析服务的平台,融合在各类媒体形态的内容创作、发布、传播、评估等环节中,该平台相应的服务功能需同时具备集团媒体业务系统和外部机构用户对象的服务能力。

(二) 项目需求理解与分析

1、

总体需求

对互联网微博、新闻网站、微信公众号、论坛、数字报刊、移动新闻APP等网站类型进行实时监测,通过系统分析引擎提取互联网网站新闻媒体信息,为新闻、报刊发布提供信息依据。

同时采集的互联网大数据可与其他内部系统进行数据调用,整合分析等。

2、 2.1

功能需求

互联网大数据采集需求

可以按照逻辑关键词的筛选能对微博、新闻网站、微信公众号、论坛、数字报刊、移动新闻APP等不同类型网站按照事件或者新闻类型进行关键词信息抽取,并对不同类型新闻或者舆情数据进行分类管理统计。

2.2 内容资源库需求

能实现对集团媒体生产数据、互联网媒体发布的数据、部分UGC的数据以及相关内容的用户反馈互动数据;经过人工和自动的数据清洗后,形成基于内容可靠性分类、地域分类、舆论场分类这三个维度划分开的内容标签体系;并将在此基础上将内容进行领域划分和主题层次的抽取;能为智能分析服务系统提供数据来源和相关支撑。

2.3 用户阅读行为数据库需求

用户阅读行为数据库通过收集集团旗下媒体的线上用户阅读点击行为(含通行证用户和社会(匿名)用户两类),利用大数据计算引擎结合内容仓库的标签体系进行兴趣标签的快速迭代更新,建立用户阅读行为数据库,形成用户阅读兴趣画像、时序传播画像、媒体影响力画像等模型,为智能分析服务系统提供有力的数据支撑。

2.4 智能分析服务需求

对内容资源库和用户阅读行为数据库数据进行整合分析,以某单位业务为基

础,对整合数据进行多角度分析和统计,同时以不同风格的图表进行展示,为媒立方传播服务提供服务,并能提供外部机构用户对接开放API接口服务。

2.5 系统维护

系统具有用户组群、角色、功能模块等权限管理和等级划分,能合理的对系统进行访问控制。

3、 性能需求

1. 内部新闻线索(新闻爆料)分钟级别数据同步; 2. 微信公号、网站、论坛等平均20分钟以内; 3. 数字报刊60分钟以内;

4. 新浪微博100万全国重点用户平均15分钟以内; 5. 省内活跃用户平均60分钟;

6. 社交媒体官方热点等辅助信息平均15分钟以内; 7. 数据计算:满足PB级别数据量的离线大数据计算要求; 8. 内容仓库的访问并发要求:不低于5000用户。

9. 初期满足350万(250万PCweb和100万APP用户)日活跃线上用户的实时计算分析能力;

10. 提供PB量级的海量离线大数据和350万日活跃用户智能推荐能力; 11. 提供不小于5000用户并发访问和计算请求处理能力;提供每日累计百万次的API服务请求能力。

4、 4.1

业务需求 数据整合需求

具有良好的API接口扩展性,能与其他系统进行数据衔接,能通过现有数据进行数据整合调用。

5、 5.1

其他需求 可扩展性需求

由于互联网系统具有技术业务更新和发展迅速的特点,系统应具有良好的扩展性,以保证在可预估的数年内系统仍能适应业务需求,扩展性包括信息监测覆盖范围灵活扩展、大数据存储可扩展、应用功能无缝扩展及硬件可平行扩展等扩展性需求。

5.2 系统安全性需求

由于信息技术的飞速发展,各种木马、病毒等严重威胁着信息数据的安全。因此,系统必须支持对机密数据的安全保护,防止机密数据窃取外露,因此系统必须支持对敏感数据进行加密处理,确保数据传输的安全性。

在容灾方面,系统需支持数据冗余备份,确保硬件故障后也能在短时间内进行恢复等。

5.3 高性能及稳定性需求

互联网数据监测。往往在舆情事件爆发时更能体现其业务应用价值,将出现新闻数据暴增的情况,在系统性能及稳定性方面,系统需保持良好的运行状态并提供高性能的服务。确保系统能够快速、精准、全面地采集互联网中关于新闻或者舆情事件数据,并对相关信息进行分析,掌握整个事件动态;能够实现对新闻或者舆情事件信息进行跟踪,保障系统的高性能与稳定性运行。

(三) 平台总体设计

1、

系统总体架构

图:系统总体架构图

系统总体设计分为三层:采集层、分析层、呈现。 采集层:

1. 互联网大数据采集:主要对新闻网站、微博、微信、论坛、贴吧、视频

网站、新闻客户端等网站的新闻或者舆情事件信息进行采集。并对采集结果数据进行保存,同时以更新存储的方式进行分布式存储。 2. 大数据分析:对采集互联网大数据进行数据清洗、过滤、抽取、分析、

重组等分析和加工。以互联网新闻、微博等自媒体为监测基础,捕获新闻或者重要媒体信息,监测互联网数据。通过数据加工,提取对重要新闻媒体关注的要素,如正文、标题、来源、事件、点击数、转载数等。 分析层: 1.

信息整理:以内容资源库数据为基础,并结合用户阅读行为数据进行综合分析。同时对分析统计数据按照信息数据类型进行分类,如集团媒体生产数据、互联网媒体发布数据、UCG数据、用户信息库等进行分类整合。

2.

内容资源库:以互联网采集数据和集团媒体生产数据、UGC数据为基础,建立内容资源信息库,并对按照新闻、地域、舆论、门户进行分类。

3.

阅读行为数据库:通过互联网信息采集技术和信息识别技术对点击数、点击行为人等信息进行采集,从而对用户阅读兴趣、时序传播、媒体影响力进行量化分析。

4.

智能分析服务:提供来源和领域等多种主题展现方式,并对支持全文检索、信息监控服务、评价服务和推荐服务和管理。

呈现层:

1. 信息服务:为某单位用户提供新闻内容创建、新闻发布、新闻评估、新

闻采编、舆情分析、推荐服务。

(四) 平台整体设计

1、

系统设计思路

互联网技术的发展日新月异,任何技术都不能保证数年之后依然保持领先。为了保证在数年之内依然能适应互联网大数据监测业务需要,采集架构应基于“高频海量数据采集、分布式数据信息处理、数据无缝衔接、无缝扩展升级”的系统架构理念,并具有良好的技术与业务可扩展性,以云计算技术、海量数据处理、大数据聚合提取分析技术等前沿互联网技术为核心,在可预计的业务范围内,可通过系统功能无缝扩展、数据监测范围灵活延展、底层采集分析服务器高可用平行扩展实现业务发展需要。

2、 整体架构设计

图:系统整体架构图

从整体架构图看,系统分为硬件支撑层、数据采集层、数据存储层、平台层及应用层。

硬件支撑层:包括网络设备、安全设备、存储系统、主机系统,是整个系统的硬件基础。

数据采集层:主要负责采集互联网上主流的微信、APP、集团媒体数据、博客、微博、贴吧、论坛、电子报刊数据,并存储原始数据供数据处理和分析使用,采集基于静态IP方式或动态IP方式,不定期访问目标网站通过时间戳,校对信息的更新情况。

数据存储层:系统通过分布式采集集群在互联网上通过爬虫抓取的方式采集大情报数据,经过数据加工、清洗、挖掘、分类、自动文摘、语义库管理等工作完成数据预处理,并将数据导入大数据采集数据库。数据存储层是完成统计分析工作的基础。

平台层:平台层对整个应用层进行有效支撑,构建了业务环境。良好的业务支撑平台,在系统开发时能够提高开发效率,保证开发质量,在系统使用中又可以保证各项业务的顺利应用,技术含量较高。

应用层:为用户呈现数据、操作数据的主要处理层,该层根据SOA和工作门户的思想进行构建,支持用户自定义工作台,将关注互联网大数据和集团媒体信息进行合理的配置和优化。

3、 应用平台设计

整个应用平台由数据采集模型、分布式存储策略、数据清洗技术、数据分析、数据输出等部分构成,应用平台在整个系统中衔接着数据层与应用层,而在后续项目中进行系统重构及二次开发也需要依托现有平台,应用平台的优劣直接影响着整个系统的质量及后续运维状况,应用平台结构如下图所示:

图:数据清洗入库分析图

数据采集模型:采取爬虫采集方式,在互联网上对信息源采集数据进行增量式采集,通过采集资源策略配置、设定频率、自动去重等方式对数据采集过程进行管理。

分布式存储策略:将数据分散存储在多台独立的设备上,打破I/O速度限制,采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,可提高系统的可靠性、可用性和存取效率,还易于扩展。本项目将分布式数据库中的采集数据传输至大数据采集数据库,用户可调用数据进行数据分析。

数据清洗技术:大数据采集数据库中的数据是面向各类数据的集合,这些数据从互联网中采集和集团媒体数据整合而来,避免不了有的数据是错误数据、有的数据相互之间有冲突,这就需要利用数据清洗技术过滤那些不符合要求的数据。本项目主要通过无关字段清洗、过滤广告垃圾、时间戳、自动格式转换等方式进行数据清洗,保障数据的可用性。

数据分析:通过联机分析处理、数据挖掘等技术,对采集数据和整合数据进行多维度分析,并汇总聚类归纳推理,从中挖掘出潜在规律。对于数据分析的结果可以通过可视化的手段进行展示,用户可以通过数据分析功能得到需要的各种

统计报表。

数据输出:系统可将用户需要的数据按照特定规则进行输出,可以利用接口将各类媒体数据进行整合分析输出,也可以利用嵌入式技术,在大数据平台中开辟专栏展示分析数据。

4、 1.1

系统采集架构设计原则 安全性

系统运行安全稳定,保证7X24小时运转正常。

在系统的使用过程中确保操作与访问在合理的授权机制下进行;在数据的交换过程中保证数据不被窃取和篡改;在系统的出错时,保证数据的完整性和一致性;采用冗余机制建立备份系统,在系统出现故障时能不间断运行。

信息传输做到防止截获、篡改,采取以下措施:

系统软件保证传输安全所运用的技术有:外部数据传输进来机房时,通过边界防火墙进行严格的访问控制,策略上指定传输端的固定IP,固定端口,另外可通过与传输端的边界防火墙联动,将传输通道进行IPSEC加密传输,保证此条专用通道的传输安全性。

WEB安全的防护:通过部署IPS、 WEB防火墙、防DDOS攻击等产品,全方位保护WEB服务器的安全,防止网页挂马、SQL注入、XSS、跨站伪造(CSRF)、cookie篡改等攻击,以及应用层DDoS攻击。在防火墙上进行配置,将整个系统放在高安全级别的DMZ区,只有允许的http、https等合法请求通过,拒绝所有其他非对外的服务请求。

服务器自身安全的防护:全面扫描服务器的漏洞情况,并及时打好所有补丁,对进入服务器的口令进行严格配置,防止弱口令。

4.2 可用性

系统运作方式采用多任务并行处理方式,对任务和资源占用为高频率的数据解析读入和复杂数据进行查询,在通过任务调度器对CPU资源进行高效多线程任务并发处理。能满足同时上千用户同时访问使用。

此外,系统对数据采用三重冗余的设计方式,为系统数据提供高可用性能需

求,确保系统7×24小时不间断工作。

4.3 先进性

系统架构针对互联网大情报所要求的搜索深度深、采集精度高和抓取速度快等要求,邦富进行了专门的优化,采用了分布式多线程并发指令执行体系结构、增量实时索引、智能分词等多项先进技术,采集和数据管理效率非常高,管理员可以灵活设置更新周期。客户端采用可视化的配置工具,灵活配置应用属性页的抓取信息,用中低端硬件可达到理想的采集效果。

4.4 高可用性

系统运作方式采用多任务并行处理方式,对任务和资源占用为高频率的数据解析读入和复杂数据进行查询,在通过任务调度器对CPU资源进行高效多线程任务并发处理。能满足同时几百用户同时访问使用。

此外,系统对数据采用三重冗余的设计方式,为系统数据提供高可用性能需求。

4.5 扩展性

系统采用可扩展的模块化设计结构,易于扩展、升级和移植,当数据量达到现有系统上限后,能够通过横向加多节点服务器和纵向添加服务器计算资源(如:内存、CPU、硬盘等)的扩展,实现安全平稳的升级,并保证系统的运行流畅。

系统具备支持业务功能的重组与更新的灵活性,新的业务应用可灵活增加和定制,不影响系统原有业务流程。

系统实现组件化,在增删相应功能时,避免影响其他组件功能。

4.6 兼容性

系统具有良好的兼容性。系统采用分布式云平台设计,采用标准可跨平台的编程语言设计,可无缝实现跨平台操作。同时提供标准的WebService接口。可以与其他系统进行有效对接。系统采用B/S架构模式,只需通过IE等浏览器即可使用,兼容任何硬件主机,操作简单易用,并具有良好的扩展性。

4.7 高效性

系统采用了分布式计算调度技术和二级分布式缓存设计,减少了数据之间的运算时间,加快系统访问的及时性。增强了数据并发访问量的处理性能,提高了多类大数据采集服务。

系统运行处理采用分布式多任务并行处理技术、分布式分缓存技术、多任务联合索引技术以及多任务信息联合统计技术对任务事件进行多功能异步分析处理、实时索引检索、分类聚类、多重信息统计。系统处理能力较高,能耗较低占用空间较少,符合国家节能减排的政策要求。

(五) 平台功能设计

1、

功能设计思路

互联网大数据系统整合和集团媒体数据资源共享上需要做了大量工作,信息孤岛现象仍然十分明显。想要改变这种格局,需要对现行的各个数据格式进行详细分析,按照大信息采集、加工、分析、应用的内在要求简并、优化,以为核心构建互联网大数据交换平台,整合分散管理其他大信息流趋向,使系统之间的调用和通讯达到整体最优,增强各系统之间的数据关联性和功能关联性,使前台与后台之间以及后台各个不同支持机构之间的信息交换变得简单清晰和快捷通畅,消灭信息孤岛现象。同时,对互联网的大数据进行收集、处理、分析、整合、应用,为某单位新闻或者舆情事件分析提供数据支持。

1.1 系统+人工的功能设计思想

系统提供大数据信息采集功能的基础上,更需要经验丰富的用户人员对互联网大数据信息进行监测与采集策略配置,只有“系统+人工”的结合,才能发挥系统定量分析+人工定性分析的最大效果。

1.2 业务功能无缝结合

系统支持“大发现、加工、分析及总结”的全数据工作流程环节,各工作环节的数据可通过系统进行灵活流转与操作,实际业务使用操作中,可达到功能与其他系统进行无缝衔接,实现互联网信息监控工作统一管理的业务效果。

2、 系统业务流程

图:系统业务流程图

3、 全局采集对象列表遍历设计方案

由于该部分工作量庞大无法人工处理,我们采用网页机器人(即网页爬虫)技术来替代人工完成模拟网页遍历访问的工作。通过编制规则设定网页机器人的搜索方式、访问时间与频率,以及目标网站特征等项目。

由于论坛、新闻、博客等网页会过一定时间进行页面内容删除或者信息内容下架,因此须在首次采集时先完整采集所有数据,而在后续的采集任务中采用增量采集策略。

另外,新闻、微博、论坛通常都会采用一定的技术来阻止网页机器人的访问(如屏蔽短时间内多次访问网站的IP地址)。为此,需要模拟人类操作来设定机器人的访问模式,如模拟多个IP地址进行代理访问,稀释机器人访问密度,从而通过目标网站的监控。当所有采集完成后,网页机器人就会将数据信息返回给存储中心保存,以用于下一阶段的分析。

4、 4.1

数据迁移整合方案设计 数据信息库的构建

对用户媒体资源系统数据基础架构、数据存储架构进行分析,构建媒体资

源系统相兼容的数据信息库,如:数字报纸库、历史图片库、视野网信息库、图片库、音视频信息库等。切合信息库各个环节把各个信息数据进行衔接,为信息导入作为铺垫。

4.2 媒体资源系统数据分类

通过信息识别技术和数据清洗技术对媒体资源系统数据按照类别、格式、作用进行分类,根据用户需求主要分为数字报纸类、图片类、视野网类、音视频类、基础数据类。

然后通过系统数据进行平衡分类,以系统的跳转机制对媒体资源数据迁移到内容资源库中进行直接调用,可实现毫秒级转接。以平衡迁移的方式将媒体资源数据进行迁移,实现系统的无缝整合,即面向用户来说,整合后数据与整合前数据都是数据调用方式一样,不影响原有用户操作习惯和应用。

4.3 媒体资源系统数据移植

需将用户媒体资源系统原有的数据与新建的内容资源库进行落地迁移,以保障数据的复用性。

把用户媒体资源系统分类数据与内容资源库中的数据分类库进行对比,找出数据移植点,最后对数据完成数据迁移,实现数据本地化,完成将现有的媒体资源数据与内容资源库中的数据库分类进行完全切割。

通过数据分类库对比数字报数据库、历史图片库、基础数据(视野网)、图片库、音视频库分析,系统采用平衡渐进的方式对数据进行逐步迁移。首先对重要数据库以及多媒体数据进行逐步迁移,最后完成媒体资源系统数据本地迁移。

5、 5.1

平台功能设计 内容资源库

内容资源库通过对媒体生产数据、互联网媒体数据、UGC数据以及用户反馈

互动数据进行整合,用户通过简单的时间选取和关键字输入的基础配置,根据信息词库自动对整合数据生成分类,并根据分类信息自动统计相关分类信息,抽取大主题类型的重要指标。根据大数据的关键词库对采集信息进行统计分析,比较大信息类别自动判别舆情主题类监测信息,并能根据大涉及的关键词进行自动归并分类。

通过大数据分析技术和自然语言处理技术对采集数据按照项目要求首轮ETL进行三个维度的分类。

1. 新闻媒体类。主要分为以下几大类型网站。

政经党媒体:财新网、财经信息网、大庆网、中央纪委监察部网站……。 商业媒体:商业门户网、新浪、腾讯、百度、搜狐、网易、凤凰……。 机构自媒体:新华网、人民网、招商网、腾讯新闻、新浪新闻……。 一般UGC:人人网、朋友网、众众、微博、博客……。 2. 地域性类。主要分为省份和省内县市。

省份分为:浙江省、江苏省、安徽省、河南省、山东省、广东省……等。 各省内县市:

浙江省:杭州、宁波、温州、绍兴、湖州、嘉兴、金华、衢

州、舟山、台州、丽水。

江苏省:南京、无锡、徐州、常州、苏州、南通、连云港、

淮安、盐城、扬州……等。

安徽省:合肥、芜湖、淮南、安庆、亳州、池州、黄山……。 河南省:郑州、新乡、洛阳、南阳、平顶山、安阳……。 山东省:济南市、青岛市、东营市、烟台市、泰安市……。 广东省:广州市、韶关市、深圳市、东莞市、佛山市……。

3. 舆论立场类。主要细分为三个维度进行分类。

官方媒体立场:通过官方媒体网站布控对官方媒体信息进行筛选,提取官方媒体信息。

商业机构立场:通过商业机构网站布控对商业机构信息进行筛选,提取商业机构媒体信息。

草根网民立场:通过草根网民微博、博客、论坛布控对草根网民信息进行筛选,提取草根网民立场信息。

按照项目要求第二轮ETL进行门户网站频道分类。 分为财经、体育、娱乐、汽车、房产、旅游等。

按照项目要求第三轮ETL进行主题层次抽取,并进行相关大数据统计分析。主要针对相关主题可实现对主题深度、广度、扩散度、热度、影响度进行深层次

细分。经过三轮ETL能完成非结构化的内容数据标签化处理,形成结构化的特征抽取,为后续进一步大数据分析奠定基础。

5.2 用户阅读行为数据库

本系统大数据采集架构能实现对集团旗下媒体的线上网站、APP、微信公众号、数字报刊、微网站等类型进行用户(登录用户和非登录用户两类)阅读点击量进行采集,并跟踪采集每类用户点击内容。

同时可利用大数据计算引擎结合内容仓库的标签体系进行用户兴趣标签的快速迭代更新,建立用户阅读行为数据库,形成用户阅读兴趣画像、时序传播画像、媒体影响力画像等模型,为智能分析服务系统提供有力的数据支撑。

1. 用户阅读兴趣量化分布计算模型

图:量化分析模型图

基于本系统用户阅读兴趣量化分布计算模型,对用户阅读点击行为服务收集的数据和内容生产数进行分析,可按照新闻、论坛、博客、数字报刊、贴吧、视频、手机网站等类型阅读兴趣点进行统计,并根据阅读兴趣比例生成饼状分布图,从而实现量化更新用户阅读兴趣数据。

图:时序传播量化分析模型图

2. 时序传播量化分析计算模型

基于本系统用户阅读兴趣量化分布计算模型,对用户阅读点击行为服务收集的数据和内容生产数进行分析,可按照新闻、论坛、博客、数字报刊、贴吧、视频、手机网站等类型阅读兴趣点进行统计,并以时间、日期为横轴,数据量为纵轴,以时间传播数据的时序展示模型。

3. 媒体影响力量化分布计算模型

基于本系统用户阅读兴趣量化分布计算模型,对用户阅读点击行为服务收集的数据和内容生产数进行分析,量化分析所以媒体的传播数据,并分析传播的影响力分析。

外部媒体:用户可通过手动配置主题类型标签,并对外部媒体互联网媒体转载、社交媒体的转载、点击率进行统计,并生成影响力各种分析视图。

内部媒体:用户可通过手动配置主题类型标签,并对内部媒体互联网媒体转载、社交媒体的转载、点击率、点赞率进行统计,并生成影响力各种分析视图。

4. 多维度画像体系

系统建立短期、长期、趋势三个维度画像体系。

短期(1天、3天、1个星期)的用户阅读兴趣画像、时序传播画像、媒体影响力画像。

长期(1个月、三个月、半年、一年)的用户阅读兴趣画像、时序传播画像、媒体影响力画像。

趋势(按照时间演练推移的方式来分析影响力趋势)的用户阅读兴趣画像、时序传播画像、媒体影响力画像。

5.3 智能分析服务

2.4.1 资源服务

 全文检索引擎服务

为了保障用户信息类型获取的全面性,我们为用户配置了多媒体类型检索途径,建立全文检索引擎,能实现PB数量级,日均新增千万条数据量的近实时搜索;具备自动容错(冗余)机制,查询负载均衡能力,批量创建索引能力;具备初步的语义检索能力。以满足用户对各类舆情搜索的全面需求。信息全文检索主要功能设计如下:

1) 多种检索方式:系统提供多种舆情检索方式,分为本地检索和全网检索

两种,本地检索即对采集回来存储在本地数据库中的数据进行检索,速度快,精确性高;全网检索:采用元搜索技术,直接调用百度/谷歌等搜索元搜索引擎接口对互联网进行全网搜索,并对搜索结果数据与本地数据进行整合,增强数据准确性和完整性。

2) 设计多组合高级检索规则,提高信息检索精度。本地检索功能中的高级

检索,能支持以下检索方式。

① 支持模糊匹配方式选择检索(如完全匹配、匹配标题、垃圾过滤);

完全匹配:数据完全匹配的方式。

匹配事件标题:只事件标题进行匹配,可选择对新闻标题搜索或对全文搜索,对主题事件进行检索。 ② 类别选择检索(作者、正文)。

以匹配正文或者作者名字(虚拟身份)进行数据检索。 ③ 模糊关键词检索。

信息检索支持信息逻辑关键词(与、或、非、包含)等逻辑表达式进行模糊查询。

 个性化资源展现服务

系统提供多类个性化资源展现服务,来源展现和领域展现。

系统可通过关键词对相关主题进行采集搜索等,系统自动聚类来源、领域类信息。系统具有不少于10000用户进行关键词配置。

来源可分为:论坛、微博、新闻、电子报刊等。

领域可分为:传统媒体、新型媒体等领域,或者分为旅游、娱乐等,领域类型可根据用户需求自定义分类。

2.4.2 监控服务

 新闻线索服务

设计出基于内部新闻线索(新闻爆料)、全网微博、省内UGC内容(分区域)、微信公号文章等社交媒体数据形成的新闻线索服务,包含定向爆料、突发线索和热点线索三个层面,热点线索见热点分析服务中的说明,提供给相关业务系统使用;并预留未来扩充微博、微信等其他形态定向爆料的数据整合能力。 基于内容资源库和内部新闻媒体,包括新闻爆料、全网微博、省内UGC内容(分区域),微信公号进行新闻线索分析,并以定向爆料、突发线索、热点线索三个层面进行深入分析,形成新闻线索信息提供相关业务系统使用。 同时系统采用标准API扩展接口能为未来扩充微博、微信等形体定向爆料的数据整合。

 国家地图脉动服务

系统提供全国和浙江本省地图引擎渲染显示方式,并支持大屏(全高清1920×1080)、PC端、移动端(PAD、手机)展示,同时支持以下几个维度展示。

舆论状态分析展示:以地图为基础,动态展示舆情或者新闻各类数据,包括传播效应、民意反映、论坛微博等各方面声音、趋势力度、预警体系等。 领域监控和话题分析:对不同领域和单一话题进行深入分析,并展示相关状态。

舆论立场分析:党政官方和草根网民的不同关注的元素立场分析展示。  舆论跟踪服务

系统能通过利用单一事件中的传播热度曲线、传播主题热点变化、媒体报道介入情况三个维度,组合出舆论跟踪动态图。

同时系统采用标准的接口化设计,支持媒立方项目(传播服务平台)接口;系统采用SOA设计支持大屏(全高清1920×1080)、移动端(PAD、手机)。  大屏显示方案

图:大屏显示架设图

大屏幕显示系统充分利用邦富的采集资源优势,庞大的数据资源库、硬件设施、采集技术框架、分布式蜘蛛采集服务器群等,将互联网信息实时采集到邦富数据中心进行数据处理,然后将处理好的数据结果推送至存储分析服务器进行存储分析,并在大屏地图引擎服务器中完成数据前端展现(如手机端、PC端等)。

2.4.3 分析服务

 热点分析服务

系统采用信息聚类分类技术以及云平台结构分析,能有效的对论坛、微博、博客、新闻网站的事件性信息进行采集,并对采集信息种类进行分类,不同媒体工作部门,指定各个不同工作范围,管理不同的采集内容。

a) 信息热点

系统可根据业务需求,对指定站点进行监控,实时跟踪目标站点的动态增长变化信息,并结合监控的范围特点,根据热度分析技术,分多维度进行相应的热

度计算,从而形成信息热点。 b) 热点榜单

系统采用大数据挖掘技术,对新闻网站、论坛、微博、贴吧等站点进行深入挖掘并采集,并内置有站点信息识别技术,能对各类信息源站点进行识别并分类,同时并统计各个信源的采集量,并按事件热度、数量进行排列,形成热点榜单。

c) 热点趋势研判

系统以分布式架构为基础,可自定义分类专题、类别、种类,对不同的专题事件进行分类。同时采用语义分析、情感分析技术对采集的专题事件数据进行热度、趋势、范围等进行不同层次的统计并分析。通过定向搜索技术,对互联网上的舆情信息进行精确挖掘,通过点击数、评论数信息,自动分析内容的热度趋势,进行趋势研判。

 阅读群体分析服务

系统可以通过基于统计的文本信息处理方法,根据用户阅读行为的记录分析,形成用户阅读兴趣画像,再通过用户阅读兴趣画像,从而分析出集团各媒体产品的短期和长期的用户画像和趋势以及用户在阅读过程中增长最快的兴趣关键词。

短期画像趋势图:短期用户群画像和趋势可以根据时间分为1天/3天/1周等;

长期趋画像势图:长期用户群画像和趋势可以根据时间分为1个月/3个月/6个月等;

增长关键词:系统专门设立了关键词演变这一类型,系统根据关键字出现的关键字频率来定义关键字,关键字使用或查看的次数越多,关键字字体越大。

系统对集团各媒体发布的内容可按照领域和时间周期两个维度的时序阅读分布画像。

领域可分为:新闻、热点事件、舆情事件等不同领域; 时间周期:1周/1月/3月等不同的时间段。

系统可根据单一文章或者文章主题关键词,自动统计集团各媒体历史同领域主题稿件阅读量和合理发布时间,并形成相应的阅读量榜单和合理发布时间榜单。

并对应内容仓库官方立场核心媒体历史同领域主题稿件的报道主题角度匹配。

 事件分析服务

系统支持对互联网上热点事件进行全维度统计分析,根据用户输入相关关键词和事件周期,快速进行事件全貌还原,对任一突发事件,自动实时生成专题分析报告,同时,根据用户业务需求,对事件进行不同深度挖掘,包括事件趋势分析、网站分类统计、地域分布、网民观点归纳(网民声音)、传播路径分析(传播节点)、话题演化、媒体参与程度(影响力)、网上典型观点、事件动态追踪、正负面观点分析等,以图表方式进统一展示。

1) 事件简介:系统自动摘取事件的关键部分作为事件的简介,事件简介的截取

方式通常是文章的第一段内容。 事件简介可根据用户需求进行手工编辑(修改、删除、增加)简介。

2) 趋势浏览:根据事件抓取到的数据进行分析,形成相应的趋势浏览曲线图。

可分别查看:默认\\一天\\一周\\一月\\半年和一年。趋势曲线图分析的数据类型有新闻、论坛、博客、微博、视频、其他等类型。

3) 媒体参与程度:统计事件相关数据发表的各大类型网站,分别是:新闻、论

坛、博客、纸质媒体、视频等类型,并统计各个类型的数据总量。 4) 数据类型:利用柱状图和饼状图来呈现各大数据类型的比例,数据网站类型

分为新闻、博客、论坛、传统媒体和其他;数据态度类型分为:正面、负面和中立;数据范围分为境内和境外。

5) 事件动态:根据数据的点击频率来定义数据的动态,数据点击的次数和回复

的数据量决定事件的动态方向。

6) 热点网民:发表文章和评论相对较多的网民被定义为热点网民。

7) 传播路径:分析整个舆情事件的媒体传播路径图,从舆情事件的开始到高潮

再到结尾。讲述整个事件的动态传播路径。

8) 相关词:根据文章标题定义相关词语,所有相关词语都是从相关的数据文章

中筛选出来,被定义为相关词。

9) 典型观点:针对该事件的每一个网站类型而做的观点分析被定义为典型观点。

且对部分热点数据进行观点分析,统计文章的报道数和网站数。

 选题趋势分析服务

系统采用了智能语词语义分析综合分析,采编人员关键词输入后,系统可根据关键词配置,自动聚类选题相关的信息,进行分析,形成热度趋势图并对事件进行预判,事件热度趋势图可分为媒体介入力度和草根网民讨论热度两部分进行区别。

 数据探索服务和可视化市场 a) 数据探索服务

系统可根据用户需求,建立基于多个维度数据之间的关联性分析模型,如时间-主题分析、地域-主题分析、时间-地域-主题分析等模型,结合数据可视化工具,形成数据探索发现服务;

时间-主题分析:通过对指定时间段内报送的主题信息进行自动聚类和统计分析。绘制出该时间段内报送信息的发布态势曲线图;并能根据报送信息类别不同进行数据统计分析;且能自动提取出该时间段内典型热门的报送信息等。

地域-主题分析:通过对指定地域关键词进行设置,系统自动提取聚焦与该地域关键词相关的主题信息,并对该类报送信息进行深入分析,绘制出该类报送信息的发布态势曲线图;

时间-地域-主题域分析:通过对指定某一时间段内指定地域的主题事件关键词进行设置,系统自动提取出与该主题相关信息,并进行深入分析。包括该主题发布趋势分析、地域数据统计分析、主题关键词分析、倾向性分析、主题传播趋势分析、主题热门观点分析等。 a) 可视化市场

系统可对事件进行分析,根据用户不同的业务需求,建立基于数据分析结果展现需求的数据可视化市场,同时,具备自建数据可视化的功能。

可视化市场包含:

基础图库:指柱状图、圆饼图等,利用柱状图和饼状图来呈现各大数据类型的比例;

专题图库:系统具备支持业务功能的重组与更新的灵活性,支持专题图库功能,采用标准B/S架构,扩展性强,具有扩充整合更多分类的能力;

支持无缝对接到媒立方项目(传播服务平台)中。

2.4.4 推荐服务

 社交热点匹配服务

系统可根据用户时间设定,定时计算采编人员正在写的稿件内容并与近期社交热点进行匹配,匹配成功的将展现与近期社交热点相关的具体信息。系统还可以根据关键词组规则进行匹配,用户在输入关键词组信息后,自动对近期社交热点进行匹配,匹配成的将展现与近期社交热点相关的具体信息。  稿件背景匹配服务

系统关键词环境配置灵活,可设置关键词配置规则(与、或、非、优先级)。用户通过输入关键词词组后,利用图文识别分析技术,计算出稿件背景资料,并展现出相关信息  稿件辅助分发服务

利用媒体影响力模型,通过特征识别、自然语言分析、语义分析等技术,对采编准备签发的稿件内容所属领域进行计算,智能匹配集团内相关领域中相对有影响力的若干发布目标。  团队组成推荐服务

系统可以积累集团媒体稿件的各领域和主题中传播效应较好的稿件,并对相应的内容生产环节中的组成成员资料建立相应的成员资料库,成员资料包括成员姓名、性别、爱好、创作领域。

通过稿件语义分析,系统自动匹配将适合稿件主题的团队进行提取出来。  智能推荐引擎服务

系统实时跟踪监测,分秒钟实时检索,对用户阅读行为进行记录,并存储到用户阅读行为数据库和内容资源库中。同时根据热度分析技术,通过不同维度(热门、兴趣、地域、探索)对推荐内容进行分析分类。系统采用SOA设计原则,可对用户感兴趣的热点进行内容智能推荐服务。

热门引擎:根据用户搜索热度,自动记录并寻找与用户相关的近期热门资讯。 兴趣引擎:根据用户阅读兴趣,查找用户兴趣范围内的长尾性资讯。 地域引擎:基于用户阅读时的位置属性,推荐用户本地化资讯。

探索引擎:根据阅读内容,进行阅读延伸,推荐扩散性资讯,预测与阅读兴趣关联的内容。

2.4.5 评价服务

 传播效果评价服务

系统通过对内部生产数据互联网的转载数、转载路径、转发量、阅读量、点赞量、时长进行采集,在此基础上对集团媒体稿件和外部媒体稿件进行分析,以时间为横轴对同类主题进行传播效应分析;(比如热点事件、舆情事件、敏感新闻等);

同时具备面向个人、部门、媒体进行个性化范围评价服务能力。  考核稿费统计服务

通过对稿件的内容作者信息、编辑信息、内容本身数据、阅读量、转发量、点赞量等信息进行分析,并进行综合数量统计,把全媒体考核稿费系统要求的内部数据指标输出给稿费系统和考核系统,以便对考核稿费进行统计。

5.4 平台数据管理中心

根据本系统平台的内容资源库和用户阅读数据库的需求建立面向管理员的

数据管理中心;能实现数据的监控、预警、审计、安全、维护等管理功能;并能满足基于移动端监控、管理需要。

同时提供管理员便携访问和数据画像管理接口功能。

5.5 系统性能

平台基于BFS分布式云平台系统架构搜索深度深、采集精度高和抓取速度快,能针对新闻、论坛、博客、微博客、等不同类型的网站采集不同的信息要素。邦富BFS分布式系统架构搜索深度深、采集精度高和抓取速度快。依托云计算平台,通过分布式架构和自适应带宽设计,建立有效的采集调度规则,采用RSS信息聚合技术,实现内容共享,实现对海量、动态、高频(更新)数据的自动解析和采集。能够达到分钟级的实时采集效率和自适应带宽,在网页实时增量采集,分秒监测千百家网站信息变化动态,能满足以下采集和其他性能需求。

平台采用邦富分布式云平台架构能满足PB级别数量级;同时以分布式并行处理架构为支撑能满足不少于5000用户并发访问和计算请求处理能力;以及每日累计百万次的API服务请求能力。

性能要求 核心层级 内部新闻线索 微信公号、网站、论坛 数字报刊 新浪微博 性能要求 分钟级 分钟级别数据同步 平均20分钟以内 60分钟以内 100万全国重点博主平均15分钟以内,省内活跃用户平均60分钟。 平均15分钟以内 满足PB级别数据量 不低于5000用户 能满足350万(250万PCweb和100万APP用户)实时计算分析 PB级海量离线大数据 提供350玩日活跃用户推荐能力 提供不少于5000用户并发访问和计算请求处理能力 每日累计百万次的API服务请求能力 社交媒体官方热点 数据要求 内容仓库 日活跃用户分析 数量级 用户推荐能力 用户并发数 API请求能力 图:平台性能指标图

5.6 系统维护

系统可根据业务需求,管理员可针对不同级别用户授予不同功能权限。

权限管理:对系统特定用户或用户组进行功能权限的设定。 用户组群管理:可建立用户组群,将系统用户进行分组管理。

日志管理:对用户操作日志进行统一记录,可根据时间段查看相关日志操作信息。

系统自带独立灵活的权限管理体系,使用户能够根据自身需要和管理制度要求既全面又安全的快速获得所需要的各种丰富的信息资源,用户分组、分类,权限分级,能设置用户组及用户组权限。通过用户权限管理功能,可以实现对信息库的访问权限的分配。不同用户不同的权限能够看到不同范围的信息内容,管理员可根据不同用户的角色为其配置不同的菜单,通过严格而灵活的权限机制将各个用户和菜单有效结合。

(六) 大数据采集架构方案设计

1、

数据采集范围

本系统采用了基于分布式云平台设计方式,具有良好的扩展性、伸缩性、开放性,用户可以需求自定义确定监测信息源范围,可对新闻、微信、微博、博客、论坛、新闻APP、集团媒体生产数据等进行新闻或舆情事件监控并采集,同时并能根据配置采集策略对采集站点URL、URL过滤规则、抓取深度、抓取网页数量、扫描间隔进行配置,实现数据采集可自定义按需采集,具有良好的伸缩性。 序号 1 2 3 4 5 6 7

监测类型 新闻类网站 APP类网站 微信类 电子报刊类 微博、博客类 论坛类 集团媒体生产数据 监测范围 可按需定义 可按需定义 可按需定义 可按需定义 可按需定义 可按需定义 可按需定义 2、 2.1

采集功能设计 数据架构设计

图:采集技术架构实现图

 分布式蜘蛛架构;

邦富BFS分布式采集架构针对大系统所要求的搜索深度深、采集精度高和抓取速度快等要求,进行了专门的优化,采用了分布式多线程并发指令执行体系结构、增量实时索引、智能分词等多项先进技术,采集和数据管理效率非常高,管理员可以灵活设置更新周期。客户端采用可视化的配置工具,灵活配置应用属性页的抓取信息。  数据采集调度;

系统的分布式蜘蛛架构,依托云计算平台,对各大互联网信息被监控站点、新闻大数据进行实时采集,建立有效的采集调度规则,采用RSS信息聚合技术,实现内容共享,实现对海量、动态、高频(更新)数据的自动解析和采集。  大并发数据采集;

通过邦富分布式架构和自适应带宽设计,能够达到分钟级的实时采集效率和自适应带宽,多个网站同时并发访问,一个任务分布式并发多点处理,多点负载均衡的效果,使得不会向同一个网站在短时间内接收过多的访问请求,提高大数

据采集的效率和性能。单机可以同时并发100个线程进行网页采集。通过大数据数据分析正文提取模块,自动去除广告和目录等无关信息,智能提取新闻正文、转载量、点击量、来源、时间、作者等信息。  增量数据采集

基于模版的元数据解析功能,对数据进行增量更新,保证重复的页面数据不再采集。

 数据去重与归并

可根据文章内容语义分析,自动在界面显示信息是否有重复信息,以及重复采集信息的名称、来源和采集时间等,实现大数据的自动去重,使用户查询到在互联网网站中出现的舆情和新闻信息,良好地解决了信息检索的范围问题,并能对具有连续性的多个网页页面页内容进行自动合并、互联网新闻信息自动提取等,最后形成格式化信息,使用户能阅读准确提取处理后的大数据,提高阅读效率,并能对提取后的文章内容进行编辑,提取准确率达95%以上。  数据采集变频

系统能对采集信息的频率进行设置,对于需要重点监控的网站可以设成更新站点并设置较高采集频率。同时数据变频采集模拟人工智能浏览访问采集技术,把采集任务分发到各个采集服务器集群节点,对同一web 网站信息进行自定义变频采集,能有效避免单点采集web服务器对采集屏蔽,提高了采集效率。

2.2 采集策略

系统对新闻、论坛、微博、博客、贴吧、微信、APP和集团媒体发布信息等不同类型的主题信息进行采集,可以根据不同的站点灵活设定采集策略,允许用户配置站点起始URL、URL过滤规则、抓取深度、抓取网页数量、扫描频率、扫描时间等采集参数和各个网站采集的开始时间、频率、采集优先级等,对于重点网站可以设成更新站点并设置较高采集频率,可自定义设置采集频率,每个网站的采集方案可进行保存、查看和修改。同时采用新型多媒体监测技术对网页信息进行实时监测,实时监测被监控的网站的动态更新信息,通过链接判重引擎对网页进行增量更新,保证重复的网页信息不再重复采集。

2.3 采集性能

以邦富独有的分布式采集架构和分布式云分析平台能实现对以下采集指标:

信息源 微博 微信 采集数量 新浪微博300万(包括100万全局账号和200万浙江活跃账号) 10万个微信公众账号 其他说明 包含人物关系关注数据和具备账号的转发和评论数据。 包含阅读量和点赞量。 包含部分多媒体元素和所属频道或分类。 包含部分多媒体元素和所属频道或分类。 包含部分多媒体元素和所属频道或分类。 论坛 5000个网站论坛 数字报刊 移动新闻 APP客户端 1000个数字报刊 10个移动新闻APP客户端 其他信息源 1. 定向主流微视频网站,相关数据富媒体元素只需采集相关链接; 2. 定向专业图片类网站,需完整采集数据富媒体元素; 3. 定向百度贴吧内容,根据访问状况采集部分富媒体元素; 4. 百度、搜狗微信、微博等官方提供的热点和榜单等二次加工出来的辅助信息; 5. 国家地理、人物名称、百科数据等辅助数据信息; 6. 集团内部生产相关数据及关联分析元素。 图:采集性能指标图表

2.4 数据采集

本平台系统采用分布式系统架构搜索深度深、采集精度高和抓取速度快,采用了分布式多线程并发指令执行体系结构、增量实时索引、智能分词、语义分析等多项先进技术,采集和数据管理效率非常高,采集频率可达分钟级。同时管理员可以灵活设置更新周期能针对新闻、论坛、微博、博客、贴吧、微信、APP等不同类型的网站采集不同的信息要素,并能根据依托云计算平台,通过分布式架构和自适应带宽设计,建立有效的采集调度规则,采用RSS信息聚合技术,实现内容共享,实现对海量、动态、高频(更新)数据的自动解析和采集。能够达到分钟级的实时采集效率和自适应带宽,在网页实时增量采集,分秒监测网站信息变化动态,而带宽占用极少,同时系统具有垃圾过滤机制,能自动过滤广告、无

关要的等无用信息,提取关注主题信息。

2.4.1 新闻采集

系统新闻信息采集,主要包含以下要素:标题、作者、信息正文、来源(当前网站)、转载源、发布时间、新闻链接。采集站点配置方面,可以根据不同的站点灵活设定采集策略,允许用户配置站点起始URL、URL过滤规则、抓取深度、抓取网页数量、扫描间隔、采集所属频道等进行采集,并能根据重点信息新闻网站信息优先级自定义设置采集频率,可对采集配置策略随时进行查看和修改。同时系统内置内容判重引擎以,对更新采集信息进行相似度计算分析,对相似信息进行去重处理,对网页进行增量更新采集,增加信息检索效率。

2.4.2 博客论坛采集

系统的论坛智能采集对指定论坛进行结构分析采集,从功能上包括以下特点:采集互动栏目信息时,包含以下要素:网站、链接、主题贴(新闻)、跟贴、发贴人、发贴时间、点击量、跟贴数量、博文、博主信息。支持帖子所在论坛、版面、帖子作者、发贴时间、回复数、点击数、标题、内容、帖子之间的回复关系的提取;在具有合法用户名及密码的前提下,可以穿透BASIC,FORM表单等认证方式,轻松采集数据,同时系统提供COOKIE技术的支持。

支持帐号自动登陆;支持认证码的识别;支持论坛中网名的识别;支持批量对论坛自动发贴、回帖;支持对论坛帖子的正负面分析;支持论坛帖子的热点发现和分析、敏感帖子识别;支持通过配置参数对贴文情况预警;支持对论坛帖子的搜索和趋势分析。

2.4.3 微博采集

全面覆盖了新浪、腾讯、搜狐、网易等国内知名微博站点。采用最新的自适应学习采集策略,根据博主活跃强度自适应调整采集频率,能更加有效地抓取微博信息。智能提取微博发表来源、时间、正文以及博主资料等格式化信息。

系统支持对微博信息采集,可抓取指定人和内容的所有文章,言论,加入的群组以及其它交互信息。对用户和内容进行分类判断;并从海量的信息中挖掘出

舆情信息,过滤掉娱乐还有无关个人日记等。 根据转发、评论以及用户参与行为,统计挖掘出热点信息以及敏感信息。根据采集微博涉舆情内容数据,深入挖掘微博话题传播轨迹和人物关系分析。

2.4.4 微信采集

微信监测系统采用全球领先的信息采集检索技术和算法,根据自身丰富的专业经验和长期的行业积累,通过后台的配置对敏感活跃有价值的微信公众帐号、专用微信帐号、微信群帐号进行全面地实时记录微信里链接、号码、邮箱、图片、地址、文字、语音、标题、发布时间、正文、公众号名称、摘要等信息。实时进行记录并存档,为用户提供专业、及时、精准微信信息。

2.4.5 移动APP客户端采集

采用全球领先的信息采集检索技术和LBS模拟技术,对移动客户端系统进行应用协议破解,并对应用协议进行模拟的方式对特定信息站点进行信息检索和采集,对同时结合自身丰富的专业经验和长期的行业积累,对涉藏舆情及时、准确、全面地采集在国内新闻客户端网站、境外新闻网站中的静动态网页新闻标题、发布时间、正文、网站名称、频道名称、信息来源、摘要、评论数量、评论内容、评论人、开设专题情况等各类信息,在此基础上进行数据的抽取、挖掘、聚集和分析等,经过一系列数据的深入整合,焦距舆情热点,为用户提供专业、及时、精准和富有实时价值的舆情信息与分析视图。

2.4.6 视频数据采集

系统具有视频数据智能识别和采集功能。系统采用多媒体监测和采集技术,对互联网多媒体视频信息进行信息识别,通过多媒体信息识别技术对视频标题、URL、网站名称、发布时间、发布人、描述、视频标签信息进行自动提取,同时结合语义分析技术对视频进行分类。

3、 3.1

采集业务流程设计 采集流程设计

图:采集功能业务流程图

 采集策略配置

管理员指定采集策略:包括采集站点范围、采集频率(不同站点类型可

配置不同的采集频率)、预处理策略等。采集调度器将根据采集策略启动采集任务,并添加到采集任务队列中,等待数据扫描;  数据扫描并采集

任务调度对线程进行启动,并定时对目标信源进行扫描,以上一次采集时

间点为判断依据,对更新的大信息进行增量采集并进行内存待预处理;  数据缓存预处理

系统将采集回来的数据进行解析,包括对大信息语词分析,对采集也没进行拆分,基于分词器对其梳理,对垃圾数据进行清除,

同时, 对新闻、论坛、微博等信息进行聚类,对重复的采集进行删除,最后将结果数据存入存储服务器,待与大查询关键字进行分析比对;  数据入库

将预处理解析完成的数据保存至存储服务器中进行存储。

3.2 采集风险和应对

3.2.1 采集风险

数据采集受网站本身架构的限制,采集系统需要适应不同架构网站的识别以

及采集功能,并能屏蔽不同类型网站给信息采集带来的限制。

同时数据采集受网站管理的限制,由于在一段时间或者单位时间内对同一网站采集过于频繁,信息采集量过于较大,将会引起采集网站管理的注意,从而会对我们采集IP进行封堵或者阻截,导致我们数据采集不全或者采集不成功的现象。

3.2.2 采集风险应对

广州邦富将运用强大的IP代理池以及API模仿机制,对其进行更高频率的

数据进行IP轮询采集抓取,能自定义对采集数据频率。为了防止IP采集对大监测IP的限制,广州邦富采集中心将与用户数据采集群建立心跳联系,与IP地址组成IP轮询地址池,从而降低采集频率,杜绝IP被封的可能性。

同时邦富对系统采用标准的设计原则和可跨平台、易扩展性的语言设计,能有效对不同网站类型架构进行识别,并进行插件式的嵌套访问。

(七) 信息分析设计

1、

多任务并行分析处理架构设计

在海量大数据采集中,系统任务和资源占用为高频率的数据解析读入和复杂

数据查询,在当前硬件配置下,系统可以基于操作系统内核进行任务调度器二次开发和定制,对CPU资源进行高效多线程任务并发处理。并行是并行计算程序设计模型的一种。在这个模型中,每一个线程执行一个分配到的任务,而这些线程则被分配(通常是操作系统内核)到该并行计算体系的各个计算节点中去任务调度。

一般任务在处理器上的调度是通过用户线程(User Thread,相对于内核线

程 - Kernel Thread 而言)实现的。操作系统内核通过操纵调度器(Scheduler)对线程进行调度从而将任务映射到各个处理器上。这种调度方式一般不能满足用户自由安排分配任务的要求,通常需要操作系统提供一个用户模式下的调度器来完成这个任务,调度器的任务就是尽可能合理的将任务分配和均衡到个处理器上,

对CPU资源进行业务定制分配,而非操作系统的自动分配。

在海量大数据采集中,同步是任务并行里最重要的任务之间通信的方法,因

为要对IO的完成情况以及优先级别进行数据交互,在本项目中,并行同步可分为进程同步(或者线程同步)和数据同步,进程同步主要是如何确定数个进程之间的执行顺序和避免数据竞争(Data race condition)的问题,避免数据竞争的主要方法是在程序中设立临界区,即一次只允许一个线程执行的一个任务片段,通常用于保护重要的公共变量。然而也有理论研究一次允许数个线程执行临界区代码的一般情况,保持进程间同步的主要方法有内存屏障(Memory barrier),互斥锁(Mutex),信号量(Semaphore)和锁(Lock),管程(Monitor)等方法。

在海量大数据采集中,多任务并行处理架构不只是单个机器单个CPU中的

并行处理,由于系统采用分布式存储的方式,一份数据同时存在于每个平行节点中,借鉴哈希数据分片算法思想,当有数据插入和查询时,任务调度器可以通过数据分片读取再整合的形式进行数据操作,大大加速数据解析入库和查询处理性能。

图:系统分析架构图

解析子模块按照大业务需求定时扫描数据源,获取采集模块采集最新数据

源,使用负载均衡算法,把解析任务分配到资源占用相对低的节点,提高解析效率。并且实时监控每个解析任务的状态,在解析任务发生异常时,系统将命令服务重启,并把任务状态转移到新的解析任务上去,保证解析的安全可靠。

 分布式并行解析

解析模块采用分布式并行解析系统进行搭建,采用任务管理调度器根据实际性能需要按照资源的使用情况创建并行解析子进程,并且会根据解析模块的资源使用情况,选择合理的资源进行任务承载。

 任务调度器的采用

对解析过程中的任务进行任务可配置、任务可管理、任务可监控以及错误任务可处理的思路。

 分布式并行分析

通过互联网大数据采集,经过系统的预处理后形成格式化结构数据。提取大数据指标数据,并进行聚合汇总,关联出相关新闻正文、微博个人发表信息、来源、时间、作者、转载、行为点击量等,并以新闻或者舆情事件为分析基础,对各个体系结构进行多维度分析,分析媒体影响力、传播、热点趋势、阅读群里分析等,并对个结果数据以饼状图、树状图等可视化界面进行展示。

 解析缓存的采用

为了保证解析和存储之间的紧耦合关系,系统将在解析与存储之间加入缓存设计,在解耦的同时,可解除解析与存储之间数据速率不同步的问题,从而大大加强系统的稳定性。

 扩展性

解析模块使用负载均衡算法,自动根据系统的解析性能要求,把任务分配到各解析子进程上,随着大数据的增加,数据解析也需要随着提升性能,解析模块可以通过简单配置并行解析实例来提升解析性能,实现性能平滑提升,不需要停机进行维护。

 可靠性

解析模块通过任务管理调度器全程监控每个解析子进程的解析状态,当解析进程出现异常时,任务管理调度器会立刻创建一个新的进程,并把出现异常的进程正在处理的任务队列迁移到新进程上,由新进程继续解析工作,然后把异常进

程销毁,保证解析的稳定可靠。

解析进程还会依照解析规则对数据源进行检验,如果发现数据源异常,会自动跳过数据源并把异常情况记录并发出警告,提示管理员检查数据源,并可根据管理员的操作进行手动干预重新解析。

2、 分类功能设计

用户通过简单的时间选取和关键字输入的基础配置,根据信息词库自动对整合数据生成分类,并根据分类信息自动统计相关分类信息,抽取大主题类型的重要指标。根据大数据的关键词库对采集信息进行统计分析,比较大信息类别自动判别舆情主题类监测信息,并能根据大涉及的关键词进行自动归并分类,提高信息分类的效率。

同时,系统根据采集信息分类,对每一分类信息进行的信息聚焦分析,自动分析出整个事件的发展、影响范围、热度、关注度、传播趋势进行深入整合分类,实现对各类信息分类划分。

3、 聚类功能设计

系统通过对大量的大数据进行分析,通过相似度cos等算法分析出与当前大最相关的一批大信息并找最相关数据作为源头。采用自动聚类技术,自动分析大信息,对大数据聚类分析出类似范围内的区域信息、舆论信息、门户类信息。

4、 智能中文分词技术

系统采用基于词典的智能中文分词技术,词典采用快速的索引方式进行组织,利用词频、词性信息提高了分词的准确度,通过大专业词典提高了分词的灵活度,避免中文检索的歧义与多义现象。通过自然语言理解技术可对文档数据进行分析并实现以中文分词为基础的文档信息单元的切分,能够根据关键词生成相关的关键词。系统能实现对采集的信息进行摘要、聚类、分类等智能化处理,辅助大监测工作人员完成等统计分析。自动检测信息片断集合中的各个未知主题,在线检测出新主题。在各种大信息来源中追踪那些与大目标主题相关的信息片段。从而实现对大类型的分析,辅助进行大专题监测,快速识别大信息、追踪大信息;不

需人工干预;

通过大自然语言理解技术可对文档数据进行分析并实现以中文分词为基础的文档信息单元的切分。分词模块中存储了中文词典、用户词典、同义词词典和过滤词词典,索引及检索模块通过分词模块实现原始数据的分词。在分词速度和分词准确性方面相对于目前业界其他厂商所用的中文分词有较大优势,尤其是在歧义分析和人名分析方面有较佳的效果,智能分词能够接近人的正常认识水平提出要求。

5、 词库设计

本系统词库采用了分布式架构设计,分布在每一个业务采集应用,系统会对每一个自动采集信息进行自动学习、自动识别、自动分析。把信息词库进行自动扩充,自动学习。系统内置了上万条相关词条,对准确的识别舆情的信息和新闻类信息歧义。同时系统知识词典库采用的是开放、灵活、可扩展的设计方式,能有效的对语义词典进行二次扩展以及人工维护添加。

6、 信息关联分析

系统能根据文章内容语义,把一条新闻或者舆情事件等各类涉及关注主题相关结构化和非结构化信息关联到一起,实现关注类数据精确匹配,以便多方位地精准了解舆情事件的进展情况,以及相关趋势等信息,全面地掌握各种相关信息。

(八) 核心技术应用

1、 1.1

数据采集技术 分布式蜘蛛采集技术

本系统采集前端,利用既有部署的蜘蛛群集,并在每个蜘蛛节点同时运行多个采集线程,对数据进行爬虫式增量采集,蜘蛛采集的最大特点是每个采集线程在采集前,会有探针对目标信源进行自学习,对更新频率高的信源进行自适应地高频率采集,反之亦然。

采集架构针对关注系统所要求的搜索深度深、采集精度高和抓取速度快等要求,进行了专门的优化,采用了分布式多线程并发指令执行体系结构、增量实时索引、智能分词等多项先进技术,采集和数据管理效率非常高,管理员可以灵活设置更新周期。客户端采用可视化的配置工具,灵活配置应用属性页的抓取信息。

2.1 集群性能均衡器技术

如何发挥集群的最大效用与保证集群的整体稳定性,是分布式计算中必须考虑的重要环节之一,在本系统中将采用集群性能均衡器技术,即集群调度器定时扫描服务器节点性能占用情况、I/O负荷情况等,并调用操作系统日志进行性能日志审计,对异常节点进行告警,并将任务调度重新哈希分配,重新平衡各任务节点的计算任务分配,由此增加整体集群的工作效率与稳定性。

2、 2.1

数据存储技术 数据分片存储

由于本项目监测覆盖范围广,在海量数据存储与处理中,分析性能与分析准确性是衡量海量数据处理质量好坏的标准。本项目拟定部署的分析集群,将采用分片存储机制,即对一份文件进行横向切割,并由调度器进行多机器分片存储,在数据运算时,可通过并行读取扫描,大大加快数据运算速率。

2.2 海量数据索引技术

不管数据库逻辑设计(表、视图的设计)还是数据库物理设计(如索引、Cluster),都会对系统性能产生影响。如在逻辑设计时考虑该表是很少改变的基本数据还是经常改变的业务数据、数据量的大小等;在物理设计时对查询为主的表应创建索引,连接访问频率高的主从表可建立Cluster等。

本系统中,从数据更新频率和数据量分析角度,将设计专题对应的海量关注数据进行索引建立,以分类专题的ID为索引,对其所关联的关注情报数据进行索引设计,在查询时可快速得到相关数据。

3、 3.1

数据分析技术 数据去重与归并技术

可根据文章内容语义分析,自动在界面显示信息是否有重复信息,以及重复采集信息的名称、来源和采集时间等,实现关注数据的自动去重,使用户查询到在大量互联网网站中出现的关注信息,良好地解决了大数据信息检索的范围问题,并能对具有连续性的多个关注页面页内容进行自动合并、关注信息自动提取等,最后形成格式化信息,使用户能阅读准确提取处理后的关注数据,提高阅读效率,并能对提取后的文章内容进行编辑,提取准确率达95%以上。在搜索得到的关注信息经人工确认后系统自动抓取并保留网页快照,进入信息审核过程。

3.2 新兴媒体监测分析技术

利用新兴媒体监测分析技术可以实时监测被监控的互联网新闻、论坛、 微博、贴吧等关注信息,利用蜘蛛爬虫技术进行自动采集,发现关于关注信息及时提取,并分析事件发生的趋势分布。用户可以根据需求对监控间隔进行调控,可以达到分钟级别的监控需求。同时可扩展性极强,能够应对大批量监控的要求。

3.3 数据聚类

采用自动聚类技术,自动分析关注信息,对关注信息,聚类分析出类似范围内的等信息。数据聚类算法可以分为结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上而下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上而下算法则是把所有对象作为一个整体分类,然后逐渐细分。

在本系统中,同步是并行任务之间通信的方法,因为要对IO的完成情况以及优先级别进行数据交互。并行同步可分为进程同步(或者线程同步)和数据同步,进程同步主要是如何确定数个进程之间的执行顺序和避免数据竞争的问题,避免数据竞争的主要方法是在程序中设立临界区,即一次只允许一个线程执行的一个任务片段,通常用于保护重要的公共变量。

在本系统中,多任务并行处理架构不只是单个机器单个CPU中的并行处理,

由于系统采用分布式存储的方式,一份数据同时存在于每个平行节点中,借鉴哈希数据分片算法思想,当有数据插入和查询时,任务调度器可以通过数据分片读取再整合的形式进行数据操作,如果数据分片存储在2台机器上,那2台机器可并行处理各存储的数据,大大加速数据解析入库和查询处理性能。

4、 采集时间戳

时间戳通常是一个字符序列,唯一地标识某一刻的时间,是一个经加密后形成的数据校验文档,它包括三个部分:

(1)需加时间戳的文件的摘要(digest);

(2)DTS收到文件的日期和时间; (3)DTS的数字签名。

用户首先将需要加时间戳的文件用Hash编码加密形成摘要,然后将该摘要发送到DTS,DTS在加入了收到文件摘要的日期和时间信息后再对该文件加密(数字签名)然后送回用户,这样就完成了利用时间戳完成数据校验的过程。

4.1 MD5

MD5技术,旨在保证确保传输前后数据的完整性和一致性,发送方在每次发包前将对数据赋值MD5码,只有在数据前后完整、一致的情况下,系统才会进行下一步操作。

我司从互联网采集海量关注情报数据,进行预处理后推送给用户,在推送前对数据赋值MD5码,用户接收前数据会进行完整、一致性验证,只有在数据完整、一致的情况下,系统才会进行下一步分析、处理,保证数据的完整高可用性。

4.2 应用技术架构灵活性保障

本项目基于“功能模块内部高内聚、功能模块之间松耦合”的SOA思想进行架构设计,即每个模块既可以独立完成某项关注情报服务,又可根据用户需求进行梳理,快速对模块进行串联对外提供整体服务。在技术层面,模块之间通过标准数据接口进行数据交换,以标准XML文件为数据交换载体,因此,在信源扩展的需求提出时,研发部门可仅仅只对涉及信源拓展的功能独立开发,在缩减研发周期的同时,也降低了需要整体重构的风险。

4.3 存储高兼容性保障

由于关注数据普遍为非结构化数据,更多以文本、图片、音频等形式存在,仅用传统的关系型数据库已不能满足数据存储和分析的需要。本项目采用NOSQL非关系型数据库作为存储之用,有别于关系型数据库的二维存储格式,新型数据库采用KEY-VALUE的存储架构,是当前非结构化数据存储的不二选择,因此,底层存储可完全兼容关注情报文本、二进制流等音视频信息,包容未来信源扩展的存储需要。

4.4 硬件高可用扩展性保障

关注情报数据,不仅具有数据量大、非结构化数据多的特点,还具有数据持续增长的特性,本项目数据云平台以分布式联合计算为基础,利用多重数据冗余、分片存储和分布式缓存的技术优势,可满足数据的安全备份和高性能分析要求。恰恰因为分布式集群,具有云平台底层硬件资源的高可用性,即在关注情报存储容量需进行扩容时,可热拔插式地对硬件节点进行扩容,实现硬件横向扩展。

5、 5.1

策略配置

站点监测范围配置

抓取关注情报数据不可能做到全网监控,所谓“全网监控”并非指的是对所有网站的数据都进行监控,而是对关注情报载体上的绝大部分数据进行监控,如果要监控所有网站,无论是从技术可行性的角度看还是从经济可行性角度看都是不可取的。因此在站点监测范围上要从权威性、影响力、准确性的角度看哪些网站的信息需要重点关注。本次项目将根据“人工运维+系统自动策略”的方式,根据实际情况对站点监测范围进行配置。

5.2 关键词配置

关键词是从网上获取信息的基础,配置准确的关键词在大大提高搜索效率的同时又能减少无用信息的获取。本系统需监测新闻网站、贴吧、论坛、微博、微信等关注的舆情数据,而每类数据又由若干个子数据类型组成,关键词配置规则

极其复杂。本项目在了解互联网大业务的基础上,通过分析理解各行业所需的关注数据类型,编制关键词配置库,用户只需选择配置好的关键词即可获取到相关的关注数据。同时,考虑到行业的发展状况,将在系统运行中,需要通过人工手段持续维护关键词配置库,保证系统能准确的通过关键词找到相应的关注情报数据。

(九) 平台技术设计

1、

平台关键技术选型

对于传统的单点存储与关系型数据库运算架构中,由于需满足数据操作的原子性及多表联合的查询的设计需求,从而很难满足对海量数据的存储和高查询性能的需求,同时,单个计算节点对同一数据库实例进行分布式部署联合计算方面,存在架构方面的短板,无法很好的满足数据存和储存扩展的需求,再有,由于关系型数据对数据的操作具有强一致性和原子性的设计,在对数据集群存储的扩容周期中,数据必须停止对外服务,从而无法对外提供持续性的数据服务,综上所述,对于网络大海量数据时代的数据库需求,单点存储计算的不适应性可分析如下:

1)、无法满足海量数据高效的存储和访问需求:数据采集的并发负载非常高,设计的目标达到每秒上万次读写请求进行事件分类、聚类预警等运算,通过对当前主流数据库(Sqlserver、Oracle)的性能分析,关系数据库勉强能满足万次级SQL数据查询,但是,对于上万次SQL写数据请求,由于需对数据物理存储载体进行高频率的操作,服务器硬盘的I/O请求无法满足;

2)、无法满足对海量数据的高效率存储和访问的需求:采集系统数据处理量峰值在接近1亿条左右(按照淘宝、JD最高销售量来推算),对于单点运算来说,在有突发事件产生时,每天上千万条记录的表里面进行SQL查询,效率是极其低下乃至不可忍受的;

3)、无法满足对数据库的高可扩展性和高可用性的需求:关系型数据库是最难进行横向扩展的,随着系统的推广,用户量和访问量与日俱增必定同步增长,而数据库却没有办法像web server和appServer那样简单的通过添加更多的硬

件和服务节点来扩展性能和负载能力。对于必须保证提供24小时不间断大监测服务的建设目标来说,对数据库系统进行升级和扩展,往往需要停机维护和数据迁移;

结合分析关系型数据库与分布式存储,我们将基于扬长避短的建设思想,综合利用这两种存储技术的优势对这两种存储形式进行不同场景下的使用:

分布式存储分析的应用场景:由于海量数据的处理过程需要大量的存储和计算资源,故分布式存储技术将用于海量原始数据的存储与分析;

单点关系型数据库的应用场景:关系型数据库将存储系统业务数据,具体包括分类名称及规则、聚类规则、用户信息等;

2、 核心存储数据库设计及选型

大情报分析系统具有产生的持续性、海量数据量特性以及数据多类型性;在数据持续海量采集的基础上,系统需对不同的任务指令进行实时性地处理和计算,最终通过系统对外提供大监测与处置服务,综上所述,系统在数据处理方面的核心需求可概况如下:

 数据的海量存储性;  数据存储计算的扩展性;  数据高并发的读写;  强大的数据处理和计算;  高性能的数据查询;  数据服务的标准性;

基于系统在数据处理方面的核心需求,传统的关系型数据库已不能满足海量数据存储与分析需要,系统存储数据库借鉴谷歌GFS架构,采用分布式文件数据库。

3、 底层架构所涉及技术

1)、网络机器人技术

网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Internet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接

遍历WWW,通过地址引用从一个HTML文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HTML文件合法性的验证、URL链接点验证与确认、监控与获取更新信息、站点镜像等。

2)、索引技术

索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备,目前的索引多采用Non—clustered方法。

3)、检索器与结果处理技术

检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。

4)、分布式并行计算技术

分布式并行计算技术是近几年兴起的发展高性能计算机的一项技术。它是一组相互独立的计算机,利用高速通信网络组成一个单一的计算机系统,并以单一系统的模式加以管理。其出发点是提供高可靠性、高性能计算、可扩充性和抗灾难性。一个分布式系统包含多台拥有共享数据存储空间的服务器,各服务器通过内部局域网相互通信。当一台服务器发生故障时,它所运行的应用程序将由其他服务器自动接管。在大多数模式下,分布式系统中所有的计算机拥有一个共同的任务目标,系统内的任一系统上运行的服务都可被所有的网络客户所使用。

4、 4.1

高可扩展性设计 存储扩展设计

以传统的关系型数据库,为采集系统提供数据存储,随着数据的增长,可以通过添加或者升级服务器硬件解决单节点存储和计算的瓶颈,然而,对于互联网行业应用场景,却远不能通过简单的硬件累加解决性能问题,单凭添加硬件会出

现严重的短板效应,例如网络数据扩展、网络数据持续性的高可用等数据场景,这是传统的架构无法根本性满足的需求。

分布式存储和计算平台,通过海量数据元数据集中管理,实际数据分布式存储和计算的实现机制,很好地解决了数据存储的扩展性问题。

1)、存储容量可扩展:对于分布式存储平台,通过以主节点管理数据分节点的工作机制,可以轻易的实现分工合作,理论上,单个主节点可以支撑约上千台的分节点服务器,而主节点又可以做分布,这使得整个架构从理论上是可以实现无限扩展;

2)、扩展自动化:当新的存储节点加入时,原有负载较高的服务器将自动的迁移部分数据到新的节点,同时修改相应的元属性配置服务器,所有的访问节点都会得到自动通知,实现扩展完全自动化。新数据节点的加入,其资源会被纳入到系统的资源池中,包括CPU资源、内存资源、存储资源及网络资源,这些资源会被元数据管理模块动态调度,数据节点的增加会同时提升系统的存储量、吞吐量、处理量;

3)、扩展高可用:系统可扩展无处不在,数据节点可平滑扩展,系统不需要停止正常大服务,只需要安装好系统,接入系统,系统将会自动对新数据节点进行管理。数据运算可按照业务需要对运算任务进行调整及扩容,不需要停机维护。元数据管理模块会根据当前系统不同功能负载,将对应的任务部署到新数据节点上,实现系统性能近似线性增长; 4)、存储形式可扩展:系统还可以对功能模块、甚至数据存储形式进行扩展,例如当前主要支持文字与图片形式的存储。

4.2 关注信息信源拓展

本项目的关注信息主要包括新闻网站、微博、论坛、博客、贴吧、微信、集团媒体数据等几个大的方面,采集的数据类型包括包括网页、文本、表格、统计图和图片等。关注情报数据具有广泛性和多样性,还可以预见在未来几年,无论从关注情报信源还是数据量,都会呈现井喷式的增长。因此需要根据实际情况不断地拓展信源,信源扩展性的高低决定着整个项目的成败,这就需要在技术架构、存储性能、硬件配置等方面进行科学严谨的设计,保障项目的成功。

5、 5.1

数据库设计 分布式数据库

本系统将采用云存储方式,基于分布式数据库和分布式文件系统进行设计,云计算平台分布式文档数据库采用非关系型的数据库MongoDB/ Hadoop,用BSON-Style 格式存储数据,具备更灵活的架构,而且更加适应互联网时代日益增多的非结构化数据。支持索引和复杂查询,采用嵌入式数据替代传统数据库的引用,缩短了数据的访问时间。使用高效的二进制数据存储,包括大型对象系统将基于云计算平台进行数据存储、访问、检索。按水平分区自动分布式存储,使得系统具备无限扩容的海量存储能力。同时支持节点复制备份和支持容错转移,为数据的安全提供了保障。拥有以下功能特性:

1)、采用文档型数据库MongoDB/Hadoop,; 2)、数据的存储格式为BSON(一种JSON的扩展) 3)、支持复杂查询和动态查询。

4)、采用分布式文件系统存储非结构化数据; 5)、采用文档型数据库MongoDB、Hadoop; 6)、使用高效的二进制数据存储,包括大型对象; 7)、面向集合存储,易存储对象类型的数据; 8)、支持完全索引,包含内部对象;

9)、自动处理碎片,以支持云计算层次的扩展性。

5.2

分布式文档数据库

系统云计算平台分布式文档数据库是一个非关系型的NoSQL数据库,用类

JSON 格式存储数据,具备更灵活的架构,而且更加适应互联网时代日益增多的非结构化数据。支持索引和复杂查询,采用嵌入式数据替代传统数据库的引用,缩短了数据的访问时间。按水平分区自动分布式存储,使得系统具备无限扩容的海量存储能力。同时支持节点复制备份和支持容错转移,为数据的安全提供了保障。邦富云计算平台分布式文档数据库拥有以下功能特性:

① 采用Schema free的文档型数据库;

② 数据的存储格式类JSON ③ 支持复杂查询和动态查询。 ④ 支持完全索引,包含内部对象。

⑤ 使用高效的二进制数据存储,包括大型对象(如视频等)。 ⑥

5.3 分布式索引技术

系统以hadoop体系为基础,采用hadoop分布式查询检索技术,能快速对互联网多媒体信息、信息存储信息进行检索,并对检索记录索引信息,为用户在系统中提高检索效率。

6、 数据存储设计

系统通过在网络上搜索互联网、集团媒体、UGC、用户阅读行为数据,以爬虫采集的方式将XML、文本、统计图表、表格、图片等格式的新闻或者舆情大数据,根据分布式冗余/获取数据的策略,采集到的数据存入采集服务集群。此时采集服务集群中以分布式存储的方式存储了海量的半结构化甚至非结构化数据。

而后根据用户的需求,将海量互联网大数据进行数据清洗,导入大数据采集数据库,形成结构化数据。本项目拟建的大数据挖掘平台将通过调取互联网采集数据库和集团媒体生产中的数据来进行请数据的分析与应用。同时其他系统也可以调用大数据采集数据库中的数据,实现互联网大数据的共享。数据存储设计的结构如下图:

图:数据存储设计架设图

7、 系统API接口设计方案

系统提供各种API接口,采用的接口要求标准、透明、开放,可满足不同层次的系统扩展需求,系统提供的接口如下:

二次开发API接口:包括业务和数据扩展工具、用户自定义存储过程接口、脚本编辑接口、插件接口、组件(各种中间件引擎)二次开发接口等。通过接口调用和扩展工具应用,能保证与媒立方项目(传播服务平台)进行平台衔接,满足自扩展的需求。

数据接口:考虑到后续建设中可能需要链接媒立方项目(传播服务平台)系统,本项目系统在设计开发时将获取目标系统的数据接口规则,将各种数据调入需要集成的系统。也可以根据目标系统的接口规则,在其内部嵌入大数据信息功能。(此种情况可能受到不同厂家不同系统的开发语言限制,从而增加双方系统的衔接难度)

(十) 技术路线

1、

云分析平台

邦富软件一直致力于云计算领域的研究,目前已经搭建起一套基于Linux具有自主著作权的云计算体系,邦富云计算平台由邦富BAE引擎、邦富VPS平台、邦富云安全引擎三部分组成,采用了邦富运用程序托管引擎、邦富VPS服务器资源动态分配以及切割、托管程序安全检测等新技术,具有托管运行即服务、服务器资源随需分配、运用程序执行环境安全保障等功能,应用于海量计算以及存储、支撑第三方服务或者软件等场合。

具体包含以下云计算子系统:  邦富云计算平台分布式文件系统  邦富云计算平台分布式文档数据库  邦富分布式缓存系统  邦富分布式消息队列  邦富云计算平台应用托管环境  邦富云计算平台应用引擎  邦富云计算平台应用软件服务系统 主要特征有:

1) 通过邦富研发的服务器虚拟化技术,支持对服务器CPU、内存、硬盘等资源的随需切割。

2) 虚拟服务器之间具有原生的安全隔离,具有自我保护以及重启机制,在托管程序发生故障时不会影响到其它的第三方运行。

3) 此外VPS引擎还具备管理平台,可实现通过WEB界面对服务器资源进行分配管理,无需服务器管理员在庞大的机房集群上去进行操作。

4) 邦富与计算平台内嵌代码安全性检测模块,根据客户托管的服务要求,自动的检测代码中是否有非法的访问模块,以及含有恶意代码。

5) 同时邦富与计算平台还具有原生的安全验证机制,通过HTTPS加密通道以及X501证书等手段进行安全保证。

6) 通过邦富开发的HTTP托管支撑环境,支持自动化管理第三方托管的软件和服务。

7) 通过心跳包以及IP漂移技术实现双机热备以及负载均衡等功能。

8) BAE平台支持开放的HTTP、自定义二进制等协议,能够完美保证云计算

平台软件服务的可插入性及兼容作用。

2、

集群性能均衡技术

如何发挥集群的最大效用与保证集群的整体稳定性,是分布式计算中必须

虑的重要环节之一,在本系统中,采用了集群性能均衡器技术,即集群调度器定时扫描服务器节点性能占用情况、I/O负荷情况等,并调用操作系统日志进行性能日志审计,对异常节点进行告警,并将任务调度重新哈希分配,重新平衡各任务节点的计算任务分配,由此增加整体集群的工作效率与稳定性。

3、 分布式多任务并行处理

本系统采用了分布式多任务并行处理技术,是为了能使一份文件同时被多台机器或进程进行读取计算,在本系统中,如果按照常规串联I/0读取与分析,所运行的速率将会使N台存储分析服务器的1/N甚至更慢,此外,传统串行序列化处理机制,在文本处理中,由于受内存与硬盘I/O速率不匹配,容易出现任务死锁等假死状况,由于采用了分布式多任务并行处理机制,将指两条或多条指令的并行执行,并行处理的多个处理任务,而使两个或多个任务并行处理。在大大提高运算速率的基础上,更保证了系统的稳定性。

4、 分秒级的实时信息检索技术

系统采用了高速度网页实时增量采集技术实现分秒监测网站信息变化动态,同时增量实时索引技术保证信息即时采集即时检索,使得用户能采集到最新的网站信息。同时,系统以先进搜索技术为核心,可实现亚秒级的检索速度以及每秒上百次的并发检索支持,保证全面快速的响应用户检索需求。

系统可实现全文检索,完全支持布尔逻辑检索、支持N阶渐进检索、支持同义词检索、支持自定义用户词典,拼音检索,模糊检索,相关检索等,并可以由系统管理员人工过滤不当网页,为用户提供最为适当的检索结果。本系统为用

户提供丰富的检索结果展示,能够根据每个网站的不同风格和要求定制结果显示模版。检索结果包括智能动态摘要、独有的网页快照,以及多种检索结果排序方式等,能够极大的方便用户对检索结果的浏览查看,提高用户对检索效果的满意度。

5、 新兴媒体监测分析技术

利用新兴媒体监测分析技术可以实时监测被监控的电商、网购、票务、团购、物业等大信息,利用蜘蛛爬虫技术进行自动采集,发现关于大信息及时提取,并分析事件发生的趋势分布。用户可以根据需求对监控间隔进行调控,可以达到分钟级别的监控需求。同时可扩展性极强,能够应对大批量监控的要求。

6、 海量数据索引技术

数据库逻辑设计(表、视图的设计)还是数据库物理设计(如索引、Cluster),他们都会对系统的性能产生影响。如在逻辑设计时考虑该表是很少改变的基本数据还是经常改变的业务数据、数据量的大小等;在物理设计时对查询为主的表应创建索引,连接访问频率高的主从表可建立Cluster等。

本系统中,从专题分类更新频率和数据量分析,将设计专题对应的海量大进行索引建立,以分类专题的ID为索引,对其所关联的大数据进行索引设计,在查询时,可快速得到分类专题相关的数据,同时,在进行分类分析时,支持快速专题趋势、演变及典型观点等进行展示。

7、 文本分词技术

汉语的中文信息处理就是要用计算机对汉语的音、形、义进行处理。词是最小的能够独立活动的有意义的语言成分。计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库。英语文本是小字符集上的已充分隔开的词串,而汉语文本是大字符集上的连续字串,词与词之间没有明确的分隔标记,因此自动分词技术应用而生。

自动分词技术是针对现代汉语字序列文本(文本),自动分解为词序列文本

的技术,其示意图如图1所示。

图: 分词技术示意图

自动分词算法可分为三大类:基于词典、词库匹配的分词方法;基于词频统计的分词方法和基于知识理解的分词方法。

第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,是一种应用最广泛的机械分词算法。常用的几种分词算法有:正向最大匹配、逆向最大匹配和最少切分。

第二类基于统计的分词方法,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。所以字与字相邻共现的频率或概率能够较好的反映成词的可信度。因此,可以对语料中相邻共现的各个字的组合频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某个阈值时,便可认为此字组可能够成了一个词。这种算法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计分词算法,但这种算法也有一定的局限性,例如会经常抽出一些共现频度高、但并不是词的常用字组,并且对常用词的识别精度差,时空开销大。

第三类基于理解的分词系统不仅靠词典,而是还要加上句法和语义分析,三者同时进行。通过获得有关词、句子等的句法和语义信息来对分词歧义进行判断从而模拟人类对句子的理解过程。这种分词算法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处于实验阶段。

8、 文本分类、聚类分析技术

邦富自动分类模块将传统关键字规则分类和自然语义分类完美结合的分类体系,支持多级分类。支持配置关健字和采集站点范围限制,支持关键字“与、

非、或、优先级”等逻辑表达式,并可以选择匹配标题、匹配内容、匹配标题或内容这三种方式中的一种。在分类过程中,除了通过关键字分类,更采用了先进的SVM、VSM和NN结合的算法实现自然语义智能自动分类。而且用户可以单独使用关键字分类系统或自然语义智能分类系统,或者将二者组合使用,既能提高分类的准确度,使用起来也更加方便灵活,使结果更精确。对信息分类树做增加,删除,修改名称等操作,并对采集到的信息进行各种加工,包括IP查询、复制链接、批量删除、关联大等,提供导出和信息的快照等操作。邦富分类专题基于真实可靠的数据,分类信息和检索信息可一一对应,完全可以验证。

信息的自动聚合:邦富本地大监测机制以关键字规则配置器为基础,基于邦富软件积累的庞大大信息库,自动生成正负面语料,通过基于统计的文本信息处理方法实现信息的自动聚类,用户只需配置预警参数和布尔逻辑建立关键字规则,便可实现对增长异常的大信息及时发现。通过机器在对本地信息的概念分析、概念模式识别、相关度计算的基础上,根据其内容主题进行自动分组,自动聚焦这段时间当地的大,从而可以充分挖掘隐含的、内在的信息,并可自动生成关于该大的专题式的报道。该分类机制分类速度快、效率高、使用灵活,并能够随时进行修改调整,修改同样立即生效。

9、 采用对象关系模型作为公共数据模型

公共数据的目的是维护业务对象数据的一致性和完整性,实现数据共享。它既不同于面向业务处理的业务数据,又不同于面向数据分析的数据仓库历史数据。因此,需要设计合适的数据模型,方便公共数据的存储的访问。

由于公共数据是按业务对象进行组织的,因此我们采用对象关系模型,即数据的物理存储采用传统的关系模型,但逻辑存取采用对象模型。对象关系模型的好处是支持嵌套,符合公共数据的特点,方便公共数据的共享和交换。

(十一) 系统信息安全管理方案

1、

用户管理

系统采用了用户等级设计,可按照部门、职位进行划分。不同用户间操作权限不一样,所管理的页面效果也不一样,每个用户都可以自定义配置自己显示风格。同时系统具有用户行为操作日志记录功能,能对每一个用户操作行为进行记录并查询。用户可通过时间、目录、组织架构对历史事件进行查询,也可自定义查询内容进行查询。

每个用户都自己行为数据库,通过配置策略可实现用户数据自动备份功能。

2、 2.1

信息安全管理 网络安全设计

在确保数据传输安全的前提下,还需对系统网络进行相应的安全设计,如专线传输、防火墙的使用等。  可使用专用数据传输线路

设立独立的数据中转服务器,把数据采集服务器和应用平台分开,数据中转服务器与数据传输时可使用专用的裸纤传输。是应用平台接入互联网的专用传输通道,避免服务器直接暴露在互联网上,风险小。  防火墙控制

配置防火墙,对数据进行策略控制与过滤,只有符合安全策略的数据流才能通过防火墙。  数据推入控制

系统从互联网采集海量数据,经过预处理之后将数据推送给用户,数据通过防火墙,此时只有符合防火墙安全策略的数据流才可以通过;当数据流出现异常时,比如流量过大、数据流不可信任,防火墙将拒绝数据流通过。  访问控制

所有的访问都会经过防火墙,防火墙记录下这些访问并作出日志记录,同时也能提供网络使用情况的统计数据。当出现可疑的访问时,防火墙能够进行适当的报警,并提供网络是否受到监测和攻击的详细信息。

① 涉密数据独立存储

系统根据数据中的敏感字出现频率与语义分析进行数据机密度判断,对涉密数据进行独立隔绝存储。同时,存储时对数据进行系统级别加密,即只有通过系统才能进行数据访问,对数据操作强制使用接口进行,并对传递到接口的参数进行严格判断,以防止恶意的操作参数。

② 数据冗余灾备

系统采用数据冗余、心跳备份,使得数据在发生单点故障的时候,其它无故障服务器自动承接处理任务,最大程度保证硬件故障不会对数据的可用性和完整性造成影响。

③ 定期巡查

定期巡查系统,对操作系统进行补丁更新,报障操作系统的安全性;部署完毕后还会部署自动告警系统,当系统遭到疑似入侵或者网络流量异常时,将会使用多种通知方式通知安全服务团队,及时处理险情。

④ 日志审核

数据传输及操作日志将会实时记录,并预设置相应日志审计规则,定期对网络操作进行日志审计,以发现异常数据流动。除了以上的被动式安全手段外,安全服务团队定期对防火墙、操作系统、网站系统、数据存储系统、网络流量等日志进行分析,并且会定期组织模拟入侵攻击,以保障系统的安全稳定运行。

2.2 系统安全设计

2.2.1 系统总体安全设计

系统从多个方面进行了安全设计,从数据传输安全、数据存储安全、网络设计安全、客户端应用安全等进行不同的安全保障策略。

① 数据传输安全

数据采用用户级别分级授权传输,传输使用SSL的https安全协议,并记录数据访问日志。数据是应用的基础,只有保证数据的完整性和安全性,才能确保采集系统的正常、高效运用。

② 数据传输加密

系统通过数据采集云从互联网采集大数据信息,系统自动根据数据中的大敏感字出现频率与语义分析进行数据机密度判断,对涉密数据进行加密,只有用户端拥有监测系统对应解密密钥及程序,才能对数据进行解密和利用,从而杜绝数据传输过程中因盗取而产生数据泄露的可能性。

③ MD5技术

MD5技术,旨在保证确保传输前后数据的完整性和一致性,系统在每次发包前将对数据赋值MD5码,只有在数据前后完整、一致的情况下,系统才会进行下一步操作。

2.2.2 系统平台安全设计

系统对应用安全进行设计,应用安全即应用系统的安全,即用户在使用系统是必须依照一定的安全策略进行相应的操作,从应用层面来保证系统的安全。应用系统的安全涉及很多方面,在项目的建设过程中,对不同的应用采取相应的安全措施:

1) 在系统开发过程中,会强制的对用户的私隐进行加密处理(如cookies等);

对数据查询强制使用参数化进行传递,以防止简单的SQL注入攻击; 2) 对数据库的权限强制读写分离,并定期进行账号密码的维护更新,以有

效防止账号密码泄漏造成的安全问题;

3) 系统具有完善的日志功能,对数据访问记录日志中,并设定应用系统日

志、数据库日志、操作系统日志等多想日志记录功能,实时记录各项应用信息操作日志,操作日志存储周期可以通过用户需求自定义进行配置。 4) 对有可能发生上传的环节进行严格的文件检测,防止非法用户上传恶意

程序及脚本,上传后对文件进行沙箱检测,以确定文件的安全性;

5) 系统提供的所有管理角色创建入口,对创建的账号密码进行严格检测,

坚决杜绝系统管理账号存在弱密码。

6)

因篇幅问题不能全部显示,请点此查看更多更全内容