文档章节

数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

hyfsoft
 hyfsoft
发布于 2014/06/24 17:03
字数 1328
阅读 73
收藏 0

#程序员薪资揭榜#你做程序员几年了?月薪多少?发量还在么?>>>

      DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。本产品采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属性抽出函数,页抽出函数,设定User Password的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。本产品在国内外得到了广泛的应用,在产品性能和质量上都得到了用户高度的好评。
产品功能:
1. 文件格式自动识别功能
本产品通过解析文件内部的信息,自动识别生成文件的应用程序名和其版本号,不依赖于文件的扩展名,能够正确识别文件格式和相应的版本信息。可以识别的文件格式如下:支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、压缩文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式

2. 文本抽出功能
即使系统中没有安装作成文件的应用程序,可以从指定的文件或插入到文件中的OLE中抽出文本数据。
3. 文件属性抽出功能
从指定的文件中,抽出文件属性信息。
4. 页抽出功能
从文件中,抽出指定页中文本数据。
5. 对加密的PDF文件文本抽出功能
    从设有打开文档口令密码的PDF文件中抽出文本数据。
6. 流(Stream)抽出功能
    从指定的文件、或是嵌入到文件中的OLE对象中向流里抽取文本数据。
7. 支持的语言种类
   本产品支持以下语言:英语,中文简体,中文繁体,日本语,韩国语
8. 支持的字符集合的种类
    抽出文本时,可以指定以下的字符集合作为文本文件的字符集(也可指定任意特殊字符集,但需要另行定制开发):GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等
目前,DMCTextFilter V4.2 纯文本抽出通用程序库产品在数字图书馆,搜索引擎,全文检索,数据库等各个领域得到了广泛应用。在世界各地得到了众多知名企业的青睐。本产品在性能和质量上都得到了用户高度评价。我司将不懈努力,继续为用户提供品质优良,性能可靠的一流产品。为用户提供优良的技术服务,满足用户的各种需求。
在实际的推广和应用中,我公司的通用文本抽出程序软件被应用到了多个领域,如:信息资源开发利用,智能搜索引擎,情报分析和服务,信息安全,企业知识门户,数字图书馆,电子商务等领域。
目前主要突出体现出如下应用价值:
1) 为海量非结构化资源提供了智能加工工具,提高信息资源加工效率;同时,可为政务信息资源服务的使用者提供智能检索和挖掘分析的手段,放大政务信息资源增值效用。
2) 此软件在国家相关部门的搜索引擎以及多个行业垂直搜索引擎服务的建设中,获得了成功应用,可以为提高垂直搜索引擎服务的智能化、行业化和知识化水平奠定了基础。
3) 此软件为相关机构从事内容安全管理提供了智能化的技术,可以降低监管成本,提高监管效率。
4) 此软件可以作为信息资源利用和知识管理应用的基础构件,为企业信息资源的加工、分析和服务提供先进智能的文本转换技术。


© 著作权归作者所有

hyfsoft
粉丝 3
博文 45
码字总数 50835
作品 0
东城
私信 提问
加载中

评论(0)

数据抽取——纯文本抽出程序库DMCTextFilter

数据抽取工具 纯文本抽出程序库DMCTextFilter DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE...

hyfsoft
2014/06/10
0
0
数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本...

hyfsoft
2014/07/24
0
0
大数据处理

DMCTextFilter和HTMLFilter数据过滤器 我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,海量数据处理的三个主要因素:大容量数据、多格式数据和速度, DMCTextFilter和HTMLFil...

hyfsoft
2014/06/25
0
0
大数据处理

DMCTextFilter和HTMLFilter数据过滤器 我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,海量数据处理的三个主要因素:大容量数据、多格式数据和速度, DMCTextFilter和HTMLFil...

hyfsoft
2014/06/13
0
0
自然语言处理常见应用领域及研究内容

自然语言处理研究的内容包括但不限于如下分支领域:文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析...

阡陌间
03/31
0
0

没有更多内容

加载失败,请刷新页面

加载更多

python+selenium自动化框架搭建

很多人想要项目源码之前都是加我QQ之后一个一个发的,这样有点麻烦,所以我就建了一个群,完整的项目文件放在里面了有需要的直接加这个群,其他的资料我也会放在里面。群里都是一些学习自动化...

osc_twlari2q
15分钟前
14
0
Dash 5 for Mac 5.1.6 好用的API文档工具

Dash for mac是使用与Mac OS平台的软件编程文档管理工具,Dash 5 Mac破解版可以浏览API文档,以及管理代码片段工具。Dash自带了丰富的API文档,涉及各种主流的编程语言和框架。 Dash是一个A...

麦克W
16分钟前
11
0
关于百度地图js api的getCurrentPosition定位不准确的解决方法

很久之前帮大叔解决了一个gps坐标转换为百度地图坐标的问题。今天大叔又给我讲百度地图定位不准。我查了一下api,用了官方给出的这样一组函数。 1 //创建查询对象 2 var geolocation = ne...

osc_wl6d9wri
16分钟前
18
0
12章节 Samba、NFS文件共享服务 13章节 bind域名解析服务

12.1 SAMBA文件共享服务 FTP文件传输服务确实可以让主机之间的文件传输变得简单方便,但是FTP协议的本质是传输文件,而非共享文件。 1991年,当时还在读大学的Tridgwell,为了解决Linux系统与...

bpqd2020
17分钟前
8
0
XGBoost 重要参数(调参使用)

XGBoost 重要参数(调参使用) 数据比赛Kaggle,天池中最常见的就是XGBoost和LightGBM。 模型是在数据比赛中尤为重要的,但是实际上,在比赛的过程中,大部分朋友在模型上花的时间却是相对较少的...

osc_kedi1mvz
17分钟前
22
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部