您的当前位置:首页正文

分享网络爬虫与信息提取

2020-11-10 来源:九壹网


20 年 月 日

A4打印 / 可编辑

网络爬虫与信息提取 文件编号: 4E-A6-86-3D-47

附件2

2017年度福建省中青年教师教育科研项目“软

件和信息技术专项”

课 题 目 录

第 1 页 共 12 页

文件编号: 4E-A6-86-3D-47

海峡两岸信息服务创新大赛 暨福建省计算机软件设计大赛组委会

2017年制

目 录

高精度穿心开启式电流互感器 3 基于LCD技术光固化3D打印机研发 4 事件热度分析系统

5

带在线惯量辨识的伺服驱动器设计 6 停车场空位信息采集系统 7 遗传方法策略生成器 8

基于《功夫鸡》新系列动画片的创作探索新“中国动画学派”的发展之路

第 2 页 共 12 页

10

文件编号: 4E-A6-86-3D-47

项目单位:福建奥通迈胜电力科技有限公司 项目名称:高精度穿心开启式电流互感器 项目要求: 一、技术背景

开启式铁心电磁式电流互感器一直是电气设备中电流检测的主要工具,在电力系统继电保护应用中发挥着重要作用,系统对开启式电流互感器精度要求越来越高。开启式电流互感器属于电流互感器,同样是利用电磁感应原理进行工作,现在对电流互感器的研究主要体现在怎样提高其精度方面,因此,如何利用电磁感应原理而又不断改善电流互感器的精度性能成为亟待解决的问题。

二、技术要求

穿心开启式电流互感器作为电流信号传感器,大量应用在电力系统中,为了提高其测量精度,需要建立理论分析和工程应用相结合的穿心开启式电流互感器仿真模型(包含稳态和暂态模型),利用软件模拟电流互感器内部的电磁过程,并可进行电磁兼容、外部磁场、铁芯材料、线圈匝数、尺寸等对电流互感器影响的研究。并进行误差分析以及对物理设备进行性能改进,设计出基于穿心开启式电流互感器的、高精度(指标面议)以及高可靠性的电流测量传感器。

三、技术特点 (一)建模要求

对开启式电流互感器进行建模并仿真,从电磁兼容性、外部磁场、铁芯材料、线圈安匝数、尺寸等方面进行分析,提出改进措施,并设计出满足技术要求的实物。

(二)结构

开启式,硅钢、软磁或其他高性能铁芯材料。 (三)成型尺寸

第 3 页 共 12 页

文件编号: 4E-A6-86-3D-47

内径小于45mm,外径小于60mm,厚度小于30mm。 (四)宽量程、高精度 电流测量范围:0~1000A 精度:0~100A,±2A

100~1000A,±1% (五)无侵入性

要求能直接夹持在被测导线上,进行非侵入式测量,不必断开被测电路。

项目单位:福建时创电子科技有限公司 项目名称:基于LCD技术光固化3D打印机研发 项目要求: 一、技术背景

3D打印技术是当前一种新型快速成型增材制造技术。通过对数字模型多层叠加原理制造模型或产品。3D打印技术克服了传统机械加工无法实现的特殊复杂结构的障碍,实现了任意复杂结构部件的简单化低成本的生产。目前主要应用的3D打印技术分为,热熔塑胶基础技术FDM。激光烧结成型技术SLS\\SLM。激光光固化成型技术SLA\\DLP。

二、技术要求

增材制造之3D打印快速成型工艺,采用LCD液晶成像技术,选择性透光固化液态光敏固化树脂,实现固化快速成型。

三、技术特点

(一)采用液晶屏LCD成像原理,在计算机或独立控制系统的驱动下,由计算机程序提供图像信号。在液晶屏幕上出现选择性的透明区域。

(二)在紫外光源的照射下,液晶屏幕的图像透明区域对紫外光阻隔减小,在没有图像显示的区域,紫外光线被阻挡。透过液晶屏的紫外光线构成紫外光图像区域。

(三)在液晶屏幕的表面安放光固化液态树脂承载槽草地为透明薄膜,紫外光线经过透明薄膜照射到液态光固化树脂,被紫外光照射的树

第 4 页 共 12 页

文件编号: 4E-A6-86-3D-47

脂产生固化反映,照射到的液态树脂现成固态。液晶屏幕不透光的部分遮挡了紫外光线。被遮挡部分的液态光固化树脂没有被紫外光线照射到,因而仍然保持液态。固化的树脂就是计算机的模型。

(四)液晶显示屏的显示精度高。例如分辨率为1280 X 768 像素,12英寸显示屏点阵精度达到0.16X0.16mm。也就是说透过液晶显示屏成像的产品成型的尺寸精度可以达到0.16mm。

(五)液晶屏成像直接接触性成型,图形变形率低,实现高精度成型。

(六)成型尺寸:大于50mm×50mm×50mm (七)光源:采用405nmUVLED蓝光光源 (八)采用时创科技专利斜拉分离技术 项目单位:福建新意科技有限公司 项目名称:事件热度分析系统 项目要求: 1.

技术背景

网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。对于大数据行业,数据的价值不言而喻,在这个信息爆炸的年代,互联网上有太多的信息数据,合理利用爬虫爬取有价值的数据,是弥补自身先天数据短板的不二选择。

1.

技术要求

充分利用网络爬虫、云计算、智能分析等新兴信息技术手段,通过互联网采集相关热点信息,对其进行智能分析,并完成有价信息的推送。例如:上市公司的热点新闻、财务报告等。本主题重在探索未来大数据智能分析,通过公司互联网信息聚合,分析提取热点事件,及时推送给移动客户端,提高热点事件的响应及时性,推动相关智能分析应用发展。

第 5 页 共 12 页

文件编号: 4E-A6-86-3D-47

三、技术特点 1.

采用J2EE作为“事件热度分析系统”服务平台的技术平台基

础架构,使用网络爬虫技术,结合大数据分析计算,智能推送周边相关应用服务,服务以iOS或Android手机应用形式提供给最终用户,应用可以采用HTML5的表现层方式展示。

2. 3. 析

4. 5. 6.

项目单位:福建睿能科技股份有限公司 项目名称:带在线惯量辨识的伺服驱动器设计 项目要求: 一、项目背景

目前的大多数伺服系统都是采用PID控制,相应的PID参数在负载运行之前已预先设定好。多数的伺服驱动器电流环参数都已经固化,此时电流环的闭环特性已经确定下来,系统的惯量与速度环的带宽和位置环带宽有着紧密的联系。在运行过程中,负载的惯量可能会随时变化,需要调整位置环参数和速度环参数来匹配实际的系统惯量,因此在线辨识惯量尤其重要。快速准确的辨识转动惯量算法是目前首要解决的关键技术之一。

二、技术要求

随着工业自动化和制造业的快速发展,对高性能的伺服系统有了更高的要求,这些要求包括快速跟随性,位置准确性等。大多数的伺服系

第 6 页 共 12 页

客户端开发:微信公众号

大数据分析技术:采用hadoop/spark平台对聚合数据进行分互联网信息聚合:采用网络爬虫技术对公司信息进行抓取 在课题题要求范围内,选取最佳实现方案,需考虑网站的爬交付产物:可运行应用及实现方案说明书

取和分析效率,扩展性,可维护性等

文件编号: 4E-A6-86-3D-47

统都应用在时变惯量的运动控制场合,伺服系统的转动惯量会因为负载的惯量变化而跟着变化,此时伺服系统的性能会受到很大的影响。为了满足工业自动化领域的高性能要求,需要准确的辨识负载惯量大小。

三、项目技术特点

(一)在伺服系统负载模型结构已知的条件下,在多个周期的数据采样获取信息后,使用辨识算法处理获得的数据,通过采集新的数据不断地对先前的估计值进行修正,最后得到比较准确的估计值,这种方法称为在线辨识。

(二)选择合适的辨识方法,建立算法模型框图,分析辨识算法的特点,通过仿真或实物测试,验证出能够满足辨识速度和误差要求的算法。

(三)辨识误差 5%以内,辨识速度 50个采样周期。

(四)伺服驱动器,采用矢量控制,控制对象为三相永磁同步电机,电机带编码器。

项目单位: 新东网科技有限公司

项目名称: 停车场空位信息采集系统 项目要求: 1. 技术背景

近年来,随着人民生活水平的提高,机动车数量的迅速增长,使得停车位成了稀缺资源。停车难的问题一直困扰着广大市民,给市民的正常生活带来了很大的不便。“停车难”已成为城市通病,因停车问题引发的纠纷屡见不鲜。

政府不断出台政策鼓励公共停车场的建设,新增停车位的数量确实可以直接缓解部分区域停车难的问题。然而,停车场建设周期长、停车位利用率高低不均,使得停车难问题的解决无法达到预期效果。如何提

第 7 页 共 12 页

文件编号: 4E-A6-86-3D-47

高现有停车场利用率,是快速解决停车难的有效途径。

2. 技术要求

快速获取目的地周边停车场位置及实时空位信息,将需要停放的车辆引导至目的地附近有空位的停车场,成为解决停车场难问题的关键。

考虑到各个停车系统建设标准不统一,采用接口开发、系统对接的方案,将存在很大工作量。因此,需建设一套独立的空位信息采集系统。

3. 技术特点 1. 目标

建设一套独立的停车场空位信息采集系统 (二)内容

软件包含1套软件管理平台、1个Android手机网客户端、1个iOS手机客户端;硬件包含1套空位信息采集硬件

(三)功能要求 1、软件:

1. 停车场信息的增删改查。以图示、列表的方式,展示当前位置周边的停车场基础信息,包括停车场图片、地址、收费标准、总车位、空闲车位等

2. 接收空位采集硬件上报的空闲车位变化信息,根据空闲车位信息的变化,对停车场实时空闲车位信息进行计算

3. 对外提供停车场信息(包括图片、地址、收费标准、总车位、空闲车位等信息)系统接口

2、硬件:

1. 实时采集停车场入场口和出场口的信息,上报给系统平台 2. 车辆进出采集建议使用超声波传感器、倾角传感器等 3、注意事项:

1. 有部分停车场属于同进同出,需对进出进行区分 2. 硬件设备要便于安装,传感器建议自带电池 项目单位:上海商羊资产管理有限公司 项目名称:遗传方法策略生成器 项目要求: 一、技术背景

程序化交易是指盘中不再以人的主观观点进行多空交易,而是利用计算机使用一系列的交易指标把人们盘中交易的策略编辑到电脑程序中完全使用电脑交易的行为,相对主管交易有如下优势:克服人性贪婪

第 8 页 共 12 页

文件编号: 4E-A6-86-3D-47

恐惧的弱点,具有完美的执行力;可以更精细地把握市场机会,对行情判断高效迅速;更广泛的关注数量众多的交易品种。

遗传算法(GA)是一种优化仿生的随机搜索算法,模仿了自然界中生物进化的方法来解决数学问题中的最优化问题。遗传算法具有以决策变量的编码作为运算对象和直接以目标函数值作为搜索信息避开函数求导问题等优点。遗传算法将数学求解优化问题中的自变量,目标函数转化为了“染色体”和 “适应度函数”,将优化步骤转化为了“优胜劣汰”。对所有优化问题的自变量经过一代一代的变异进化,最后获得使个体最适应外界环境的染色体,从而解决了数学中最优化问题的难题。

二、技术要求

应用遗传算法,输入多样的交易标的的历史行情数据,结合不同技术指标的计算方式,并以收益曲线为目标的优化,以期获得在历史数据中表现得更优秀的交易策略。

三、项目要求 (一)导入数据:

格式 :[日期,时间,开盘价,最高价,最低价,收盘价,成交量,成交额]。(出题者可提供数据);输入交易成本;

(二)自定义输入:

用户可以选择以自定义的指标、价格形态、产品相关性描述和基本面数据,作为 策略生成器的输入信号;

(三)训练框架:多个训练目标函数模型可选(净利润,胜率,交易次数,最大资产回撤,夏普率,单日最大资产回撤比率,盈亏比,等等),要求可复选,可输入权重向量; 多个下单模型(建仓、平仓和止损,下根bar开盘进场,当前bar触价进场等)。一般商品、期权交易模型。定义样本内(In-Sample)和样本外(Out of Sample, OOS)数据比例。

(四)实时检测策略表现:每次进化过程中存活下来的优解策略,都会在样本外 (Out of Sample, OOS) 数据做模拟交易,得出样本外 OoS 盈利 (OoS Profit) 和回撤 (OoS Draw Down) 的成绩。让用户一目了然地看到进化过程中每一个的优解策略的盈利和回撤。用户在斟酌表现后,如果对交易策略尚不满意,可以选择重回第3步,挑选其他不同框架重新训练。

(五)转化策略成第三方交易平台代码:用户在当中找到了合意的交易策略, 可将策略自动转换为基于如 Multicharts (MC)、

Tradeblazer等等为基础的平台原始代码,在用户习惯使用的平台上进行回测、模拟交易或实盘交易。

第 9 页 共 12 页

文件编号: 4E-A6-86-3D-47

项目单位: 福州零壹动漫有限公司

项目名称: 基于《功夫鸡》新系列动画片的创作探索新“中国动画学派”

的发展之路 项目要求:

一、技术背景

通过这个课题探索研究中华民族的文学和艺术精髓如何与动漫相结合,通过动漫形式表现出来,打造有商业和艺术价值的优质“中国学派”的动画片;通过这个项目培养出更多新一代的动画人,有艺术眼光的制片人,有商业能力的经纪人,有职业操守、严于律己、勇往直前、天马行空的动画导演和动画制作团队。

1. 技术要求

一集 11分钟 完整的《功夫鸡》动画系列剧集,包括(剧本、故事脚本、分镜头台本、设计稿、人物设定、背景设定、配音配乐文件、全部后期源文件);

三、技术特点

(一)制作软件:FLASH和TBS。

(二)制作要求: 以现有《功夫鸡》剧集为参考。借鉴现有的功夫鸡系列的故事模版创作结构,可以自己创新,不能影响功夫鸡品牌的特色和角色魅力。内容完整,主题明确,内容积极向上。

第 10 页 共 12 页

文件编号: 4E-A6-86-3D-47

整理丨尼克

本文档信息来自于网络,如您发现内容不准确或不完善,欢迎您联系我修正;如您发现内容涉嫌侵权,请与我们联系,我们将按照相关法律规定及时处理。

第 11 页 共 12 页

因篇幅问题不能全部显示,请点此查看更多更全内容