近年来,各个领域的企业都积极地开展对大数据的挖掘和利用。随着物联网、智能设备与互联网+的概念不断普及,每天在互联网上产生的数据已经超过2.5 万亿字节,致使这些巨量的数据无法在短时间内被捕捉和处理,提炼成为我们日常有用的数据。大数据与信息技术的应用融合,将科技情报研究工作转变为一种基于海量数据的知识发现和知识分析过程,科技情报研究已经向"数据密集型科学"这一新的研究范式演进[1]。企业的科技研发部门肩负着企业科技创新与成果转化的重担,科研人员每年必须积极参与国家及地方各部委发布的科研课题从而获得科研经费的支撑。在海量数据的环境下,真正需要的有价值的知识被淹没,准确的科技情报收集工作不但占用了科研人员宝贵的时间,不能很好地为企业的科研工作提供保障。
作为国家知识库的概念,中国知网(CNKI)拥有世界上最大的中文知识信息资源数据库,每天提供数千种信息检索服务,且其平台KBase 服务于包括欧美、日本在内的发达国家,并取得了成功。在全球5,000 个机构用户中,其卓越的性能和稳定性深受用户欢迎。此外,在调查了美国的兰德公司(RAND)、加拿大科技情报研究所(CISTI)、日本科学技术政策研究所(NISTEP)等几家国际著名情报机构的情报分析方法后发现,国外典型科技情报机构的情报分析与应用呈现出工具化、系统化与平台化的特征。
综上分析,企业情报部门及科研人员需要获得粒度更细更精准的科技情报服务,亟需设计开发一套符合企业实际情况、开发灵活、简单易用、具备科技情报收集与分析功能的软件平台系统。Python 语言是一种功能强大的具有解释性、交互性和面向对象的第四代计算机编程语言,它开发代码的效率非常高,具有强大和丰富实用的第三方标准库,使得编程变得简洁快速并支持广泛的应用程序开发,从简单的文字处理到基于Web 的开发及游戏设计的应用[2]。使用基于Python的网络爬虫应用,不仅可以实时监控提供科技情报的网站发布的所有信息,并且还能进行关键字等的过滤,无需人工干预,就能向指定的用户提供有效信息的推送。
1 系统的主要功能及目标
根据前期对企业科研部门调研,本文所研究的基于Python 的科技情报智能化识别检索系统需要实现以下功能: 定时从系统预设的网络渠道获取最新发布的科研情报; 建立可视化科技情报智能化识别检索系统,用户还可自行订阅相关类型或关键字的情报。系统建设完成后,能推广至集团及下属子集团各科研单位进行使用。
2 系统的功能设计
2.1 系统的设计
本系统程序设计分为两大模块:(1)通过Python 网络爬虫程序抓取可自定义类型及关键字的科技情报,将非结构化数据按指定格式保存到数据库中;(2)建立基于B/S 架构的可视化管理平台,可实现包括用户管理、信息检索、内容订阅、数据维护、日志管理等功能。程序设计功能框架如图1 所示。
图1 程序设计功能框架图
2.2 基于Python的网络爬虫程序
网络爬虫是一种按照规则对Web 信息进行遍历,自动抓取万维网信息的程序或脚本[3]。网络爬虫的主要原理是从预置的URL 地址集合中遍历HTML 页面所有的内容,并根据不同的需求采集当前页面或者下N 级子页面中的有效信息,最后把网页中的非结构化数据转存到结构化数据库中。简单可描述为:预置URL 地址->遍历HTML 页面->获取有效信息->结构化存储。
urllib 包为Python3 中提供了十分强大的能够操作URL 功能的库。例如,使用 能够打开并爬取一个网页,具体实现的方法为: 打开某个指定URL 地址, 获取HttpResponse 返回对象并读取其ResposneBody,然后通过预置的算法对返回对象进行精细化加工。在实际爬虫程序从网页抓取数据的过程中,可以使用Beautiful Soup 这一Python 的第三方库,Beautiful Soup 功能包括解析HTML、XML 文档、修复含有未闭合标签等错误的文档 (此种文档常被称为tag soup)。这个扩展包为待解析的页面创建一棵树,以便提取其中的数据,这在网络数据采集时非常有用[4]。举一个简单例子:
soup=BeautifulSoup(html)//初始化
其中得到的soup 可以理解为把HTML 页面中的树状结构的所有节点按照一定方式保存到Python 程序可以解析的对象。Beautiful Soup 提供了强大的API 用来解析这个soup 对象,采集其中有用的信息。紧接着上面的代码段:
lists = _all('div',class_='page-link') 文章来源:《地质科技通报》 网址: http://www.dzkjqbzz.cn/qikandaodu/2020/1001/399.html
地质科技通报投稿 | 地质科技通报编辑部| 地质科技通报版面费 | 地质科技通报论文发表 | 地质科技通报最新目录
Copyright © 2018 《地质科技通报》杂志社 版权所有
投稿电话: 投稿邮箱: