文档章节

公检法行业大数据 之非结构化数据篇

灵玖lingjoin
 灵玖lingjoin
发布于 2014/09/29 15:18
字数 1480
阅读 13
收藏 0
  近年来,随着公检法行业新业务不断上线,公安高清卡口、社采系统和人口库的升级,检察院统一业务软件、高清审讯系统改造,法院的数字法庭、电子卷宗等建设,使得数据每年都是以50-80%的速度递增。

    大多数公检法行业信息中心主任所要管理的级数据已经从TB级发展到PB级了。特别在公安行业,很多总队的信息中心数据量已经接近10PB。对于如此大数据量的管理,传统的管理模式让IT管理员感到有些力不从心了。 这些数据中的结构化数据,也就是我们通常使用的数据库数据占据数据总量的20%左右,余下的80%都是非结构化数据。这些非结构化数据中主要是视频数据、各类图片、扫描件和各类文档数据。 


    我们认为非结构化数据重要性早已不亚于那些结构化了的数据库数据。首先,非结构化数据信息量10倍于结构化数据。其次,结构化数据中存放的大都是结果性数据,而非结构化数据中存放的是过程性数据。我们在还原一个案件不仅仅只需要一个结果就行,对过程信息的掌握程度于我们对还原案件真相也是必不可少的。在这些文件中存有大量的情报和工作经验,但随着岗位调动和电脑损坏,导致我们随时都有可能会丢失大量的文档数据,丢而失的都是我们的情报和经验,对于大数据时代来看,这些意味着线索、经验和生产力的覆灭。


    然而,非结构化数据管理现状可以说是处于一种“无组织无纪律”的状态。在过去10多年信息化建设中,对于非机构化数据管理方面基本是零投入,更谈不上整体管理。非结构化数据存放地点五花八门,硬盘录像机中、U盘、个人电脑、服务器、邮件系统和FTP服务器中都会出现这些数据。要找一个文件可能要去10多个系统中去搜索,跨系统查询的结果大都是一无所获。在利用方面,我们最常用FTP文件服务器却很难应付大规模的应用。一个地市公安、检察院和法院的用户面对的用户群都是以千计数,而FTP在权限管理、数据保护和数据分享方面很难满足这样的用户数要求。 


    对于非结构化数据管理,我们认为要做到以下两点,即统一管理和深化应用。对于公检法单位来说,第一步要做的是把分散在各处的非结构化数据进行统一存放管理。大家都知道在数据中心数据管理级别远远高于普通终端,可以采用高可用、多节点和备份容灾系统,确保数据永不丢失。只要进入数据中心的文档云,可以说文档的价值就被永久的保存下来了。


    而如何让这些文档数据集中管理呢,在实际过程中,不仅要解决技术上的困难,还要克服制度上和工作习惯上的阻碍。 实际上,我们可以按照三步实施的方法来解决非结构化数据的管理难题。 首先,建设私有网盘来吸引一线干警上传非结构化数据。在日常工作中,干警没有很好的数据管理习惯,文档随意存放,要用的时候经常找不到,而放在公有云上又是违法法规的。


    所以,如果有个基于内网的私有云盘,他们会非常乐意把所有文件都存放上去,方便今后工作。经过1年使用并形成习惯后,就完成了第一步数据集中存放。其次,可以在案件小组中实现人员间的数据共享。在日常办案中,常常需要临时组建侦破小组,时间从几个月到几年不等,小组成员之间相互交换数据只能靠U盘,既不方便和很影响效率。


    而现在可以用文档云中部门级共享的模式来实现这样的业务场景。最后,当单位使用有一定基础后,可以实现知识文库和非结构化情报数据平台整体迁移,以便充分挖掘文档知识的巨大价值。 由于行业特殊性,公检法行业在选择数据管理平台时,一般会选择国产文档云产品。在国内的成熟产品中,爱数AnyShare文档云产品在架构和客户业务匹配度方面处于领先地位。


    爱数AnyShare文档云系列产品打破国外单一软件形式,采用一体机—软件、操作系统、计算端和存储端都集成在一起,能更好的满足国内用户要求实施快速、管理简单和自动化程度高的要求。对于公检法行业特殊的文档共享、协同工作、数据统一管理和文档防扩散方面针对国内实际业务需求,爱数为不同用户做针对性开发,特别在公检法行业三级架构管理方面,爱数AnyShare能真正实现文档云的架构,集全地区的所有文档数据,实现“大数据”管理。

 

 





© 著作权归作者所有

灵玖lingjoin
粉丝 85
博文 2884
码字总数 4069557
作品 0
东城
私信 提问
带你详细了解《什么是大数据及大数据的场景应用》

前言 现代科技高速发展,一方面给人们生活带来了便利;另一方面也给人们工作、生活冲击越来越大。接下来的物联网、人工智能、大数据、云计算、智能硬件等高科技来袭,会进一步颠覆人们传统的...

qq_41887527
2018/03/23
0
0
我被“非结构化数据包围了”,请求支援!

阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%。换句话来说,就是我们都被“非结构化数据”包围了。由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使...

阿里云官方博客
09/09
18
0
银行大数据风控平台的建设要点与应用

金融行业是经营风险的行业,风险控制能力是金融机构的核心竞争力。通常而言,金融机构一般是通过给客户的信用状况评分来计量贷款违约的可能性,并通过客户的风险水平进行利率定价。 作者丨这...

金融时代网
10/11
0
0
Java软件开发者,如何学习大数据?(了解一下)大数据的前世今生

Java软件开发者,如何学习大数据? 最近有不少初学者来问到,学习大数据,学习spark,公司主要使用那些语言编写,每听到这一个问题,起码还是很不错的,证明你已经开始学习大数据了,并了解大...

董黎明
2018/06/05
28
0
看云存储技术如何在安防监控系统中运用

  【IT168 资讯】大数据在安防行业的应用使得安防更加智能化,大数据的技术一般分为数据采集、存储、挖掘和分析技术。其中,智能分析居于核心地位。而智能分析是安防大数据区别于IT大数据的...

西部数码
2018/05/17
0
0

没有更多内容

加载失败,请刷新页面

加载更多

一起来学Java8(四)——复合Lambda

在一起来学Java8(二)——Lambda表达式中我们学习了Lambda表达式的基本用法,现在来了解下复合Lambda。 Lambda表达式的的书写离不开函数式接口,复合Lambda的意思是在使用Lambda表达式实现函...

猿敲月下码
37分钟前
9
0
debian10使用putty配置交换机console口

前言:Linux的推广普及,需要配合解决实际应用方能有成效! 最近强迫自己用linux进行实际工作,过程很痛苦,还好通过网络一一解决,感谢各位无私网友博客的帮助! 系统:debian10 桌面:xfc...

W_Lu
今天
10
0
aelf Enterprise 0.8.0 beta有奖公测,“Bug奖金计划”重磅开启

2019年9月30日,aelf Enterprise 0.8.0 beta版正式发布。aelf Enterprise 0.8.0 beta是一个完备的区块链系统, 包含完备的区块链系统、开发套件、开发文档、以及配套的基础应用和基础服务。 ...

AELF开发者社区
今天
10
0
oracle 初始化数据库脚本

create user lpf identified by 123456; create tablespace lpf_ts_cms datafile '/opt/app/oracle/product/11.2.0/lpf.dbf' size 200M; alter user lpf default tablespace lpf_ts_cms; sel......

internetafei
今天
8
0
深入了解Redis底层数据结构

说明 说到Redis的数据结构,我们大概会很快想到Redis的5种常见数据结构:字符串(String)、列表(List)、散列(Hash)、集合(Set)、有序集合(Sorted Set),以及他们的特点和运用场景。不过它们是...

TurboSanil
今天
7
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部