0引 言
随着信息技术的不断发展,以大数据和人工智能为代表的一系列颠覆性技术正日益影响和改变人类的认知和行为方式,特别是自然语言理解,在一定程度上代替人工从事基础性和重复性的工作。与此同时,相比于大数据时代的数据更迭,传统的科技文本研究模式以孤立信息为源头、以专家经验为依据、以脑力劳动为工具,在信息维度、评判准则、更新速度等各个方面,都渐渐跟不上科技信息数据的产生节奏和消费速度[1-2]。随着数据科学和智能技术的发展,以计算机为基础的科技情报专用检索分析系统开始出现,成为辅助情报研究的有效工具,并渐渐开始应用到信息收集、数据筛选、主题分类、整合汇编、批量导出、关联分析等细分领域[3-5]。
美国基特软件公司于2009年就开始密切参与DAPAR软件研发挖掘情报信息,开发的Cognika情报系统已进入市场为分析人员提供科技情报[6]。专利CNA提出了一种面向商品生产行业的情报搜索分析方法,基于元搜索技术对互联网进行覆盖检索,基于语义技术和网页结构技术分析产品属性,采用Web系统和产品报表给企业和政府提供与市场竞争相关的商品情报服务[7]。专利CNA提出了一种面向互联网和第三方数据库的情报搜索、知识挖掘方法及其系统,能够响应用户对非结构化网页的搜索、分类需求,对信息员更新情况及时捕捉和提醒,并借助知识挖掘方法生成报告和导出文件,还可以通过机器学习算法主动发掘用户需求,为一般工作人员、专业情报人员、行业专家提供高质量和高新鲜度的情报服务[8]。然而,目前还没有较为主流的平台或技术能够完整覆盖情报研究的全流程。
本文提出一体化自动情报研究方法和平台设计,借助可编程、可固化的专家经验,和可训练、可迭代的机器学习,实现对科技信息文本的多元采集、自动清洗、智能分类、立体呈现、汇编报告、综合分析等主要环节和常用工具的全覆盖,实现流程各个基础环节的无缝连接,充分发挥专家经验和人工智能的各自优势和互补效应,有效克服当前科技信息研究领域辅助工具的一体化程度低、专家经验利用率低、智能化程度低等缺陷。测试表明,论文提出的方法和系统能够有效提高科技文本采集分析效率,具有较高的工程应用价值。
1顶层设计
人类从事科技情报研究的一般流程是:情报检索,信息筛选,分类整理,汇编成文,撰写报告,反馈迭代。遵照前述流程抽象出数据流,进而给出本设计的平台顶层框架,包括数据采集、自动清洗、智能分类、情报呈现、汇编报告、人工干预等6个部分,如图1所示。按照层次不同,总体分为底层引擎和应用接口两部分,采集、清洗、分类是底层引擎,呈现、汇编、管理则是应用接口。其中,数据采集是平台获取多源情报数据的入口,自动清洗用于对原始的非结构化数据进行数据预处理,智能分类用于对预处理后的情报数据做可配置的分类预测,有序呈现用于对分好类的数据做后处理以实现摘要提取、浏览下载、主题推送,汇编报告依据主题对处理后的分类数据进行情报汇编集成和情报报告生成,系统管理模块用于对平台的全局变量、系统资源、用户组织、样本标记等进行管理。为了辅助情报研究工作,平台还附加了常用工具模块,嵌入平台中作为集中化的辅助工具。这些模块按照情报研究的流程模式组成可自动运行的一体化平台,部署在云服务器或本地服务器上,供远程或本地使用,实现从海量数据到科技情报的自动搜索分析流程。
图1 自动化情报平台的顶层设计原理框图
2关键模块设计
2.1数据采集和清洗
数据采集环节用于平台获取多源情报数据,包括对网络和本地的开源数据进行定制化采集,支持多媒体数据格式,包括文本、图片、网页、音频、视频等各类文件。设计中支持的可选参数包括:(1)目标源,即被采集的网站网址或本地路径,同时可录入中英文名称、语言类型、网站属性;(2)挖掘层级,即在网址或根路径下的访问深度,(3)外域权限,即是否通过站内链接、快捷方式访问域名或根路径外的数据,(4)文件类型,可筛选pdf,doc,html,jpg,mp4等,(5)线程个数,即采集任务使用的多线程数量,(6)触发方式,包括人工触发采集和指定时间自动采集。本地采集功能还支持对给定的本地路径下的各类文件和指定名称的数据库进行一键式导入和结构化提取。以上获取的各类原始数据存储在本地原始非结构化数据库中,其中文件存储在本地磁盘,文件属性存储在数据库表中。全部原始数据可以在前台通过条件检索进行浏览查看、人工修改、批量下载。
文章来源:《地质科技通报》 网址: http://www.dzkjqbzz.cn/qikandaodu/2020/1004/404.html
地质科技通报投稿 | 地质科技通报编辑部| 地质科技通报版面费 | 地质科技通报论文发表 | 地质科技通报最新目录
Copyright © 2018 《地质科技通报》杂志社 版权所有
投稿电话: 投稿邮箱: