加载中
Spark Sql,DataFrames入门

概述 本博客所讲的内容基于spark2.1.0 spark sql是spark中一个用于处理结构化数据的模块。在spark中结构化数据被抽象为Dataset,它是一组有类型和Schema的数据集。而当Dataset中存放的数据类...

2017/03/20 17:17
43
使用tika对各种文档进行内容抽取

public static String extractData(String path){ String str = null;  Parser p= new AutoDetectParser();  BodyContentHandler hand= new BodyContentHandler(10000)...

2014/12/08 17:41
19
lucence索引的创建与简单的查询

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,可以用来做全文的检索,最近在学习lucence,所以想写一下关于lucence的博客,既是为了能为同...

2014/12/07 15:30
80
基于多线程的简单网络爬虫

前几周在弄爬虫相关的东西,因为在实习,所以在闲来无事的时候,自己通过java api实现了一个基于多线程的简单广度网络爬虫,由于这个爬虫没有使用任何jar包,所以功能也相对简单,只是根据深...

2014/11/26 10:41
151
Hbase分页

和传统数据库不同,Hbase的分页非常的困难(就我的愚见,可以说hbase无法真正分页),在参考了网上一些代码后,写了一段hbase分页代码。其原理主要是,先查询出rowKey,对rowKey进行分页后,...

2014/11/25 16:48
338
关于,数据库的异步操作的demo

在以往的项目中,我在对数据库进行修改操作时(cud),往往采用的是同步的方式,这种方式虽然很直观,但是当并发量达到一定的数目是,这种操作会很花费时间(想象一下,假如你的服务器1秒只能...

2014/11/19 23:10
100
使用Guava cache构建本地缓存

前言 最近在一个项目中需要用到本地缓存,在网上调研后,发现谷歌的Guva提供的cache模块非常的不错。简单易上手的api;灵活强大的功能,再加上谷歌这块金字招牌,让我毫不犹豫的选择了它。仅...

05/02 17:53
20
docker入门

前言 最近在部署公司的一个项目时,由于部署环境和开发环境不一致,从而导致部署时项目环境搭建占据了整个部署的大部分时间的问题。为了解决部署问题,开始接触docker,发现docker的镜像容器...

04/20 15:09
10
docker安装

前言 docker的安装非常的简单,但是在不同的操作系统还是有一定的区别。本文主要介绍在windows和centos环境下的安装。 windows10 对于windows系统,docker官方提供了 docker for windows。但...

04/20 10:15
18
docker 容器中文乱码问题

前言 在打包docker镜像后,启动容器,发现容器中的中文文件出现了乱码的情况。 解决办法 修改Dockerfile文件中添加 ENV LANG C.UTF-8,如: FROM tensorflow/tensorflow:1.3.0-py3 COPY . /a...

04/19 17:29
16
上传jar包到maven本地仓库

起因 在构建maven项目时,有时我们会用在到maven中央仓库找不到的第三方包,这时候我们有两种解决方案: 使用nexus搭建私库,将第三方jar包上传到私库。这种方案适合公司,或有多人共同开发一...

04/18 09:57
95
docker 配置国内镜像

修改 daemon.json docker的镜像地址可以通过修改daemon.json中的 registry-mirrors 属性来实现自定义。 在windows环境中该文件存放在 C:\Users\{userName}\.docker 目录,其中{userName}是你...

04/17 11:24
13
使用maven构建scala项目

maven 是一个java构建工具,但是通过添加插件的方式,也可以用来构建scala项目。 项目结构 对于一个maven scala项目应该有以下结构: pom.xml src main scala com/my-package/... *.sca...

04/16 17:14
32
webmagicx使用手册

前言 前些天开源了一个基于配置的爬虫webmagicx(https://gitee.com/luosl/webmagicx),没想到还有不少朋友感兴趣,而且都在问文档的事情,于是就有了这篇博客,或者说是webmagicx的文档。 ...

01/02 17:35
29
httpclinet获取cookie

在httpclient中,我们可以通过httprespones获取响应头,并在响应头中筛选key值为Set-Cookie的响应头,这个就是网站所返回的cookie信息。代码如下: val client = HttpClients.createDefault(...

2017/01/19 11:35
9
httpclient使用

/**   * 项目名:Crawler   * 文件名:NewsInfoLoad.java   * 作者:zhouyh   * 时间:2014-9-4 上午08:47:06   * 描述:TODO(用一句话描述该文件做什么)    */ package ...

2015/01/05 16:24
37

没有更多内容

加载失败,请刷新页面

返回顶部
顶部