加载中
也谈python使用 pytesser识别验证码

网上有很多python识别验证码文章,按照他们的步骤,一个都没有成功。

2014/06/29 11:35
473
centos7 启动 vncserver 出现错误

启动 vncserver :1 或 vncserver :2 出现错误时,找到 /tmp/.X11-unix 删除 X1 ,X2 rm -rf X1 X2

2016/09/28 17:39
20
Centosos7 安装 eclipse 和pydev

1.下载 Eclipse IDE for Java Developers Version: Mars.2 Release (4.5.2) Build id: 20160218-06 wget ftp://ftp.bluage.com/eclipse451/eclipse-inst-linux64.tar.gz 2.安装 Eclipse tar ...

2016/09/28 17:35
22
nutch 在hadoop环境下过滤抓取url的设置

有个网站有问题,导致nutch 抓取超过24小时,故修改 master主机的nutch conf下regex-urlfiter.txt,发现没有效果。nutch在Hadoop环境下运行,master 和 slave 主机 都要读取regex-urlfilter...

2014/07/13 20:33
52
百度富编辑器UEditor初始化全屏办法

在Iframe中嵌入UEditor后,打开浏览器后,要求UEditor铺满整个Iframe。百度了一下,按照网友的办法: editor.setFullScreen(true); 或 editor.ui.setFullScreen(true); 无效果。 无奈之下,打...

2013/12/19 08:38
5.1K
ntuch solrindex 能索引出anchor数据的方法

网页的标题在检索排名中占有很重的权重,可是,一些网站管理系统常常用网站名或栏目名做标题,所以,为了保证文章的检索的命中率,nutch在生成lucene的数据时,把anchor也作为排名因素,给予...

2013/03/14 12:12
177
nutch-1.3使用solrindex出现 Invalid UTF-8 character ...

用nutch-1.3抓取了大量的页面后,最后用solrindex索引到solr中,发现出现了如下错误: LinkDb: finished at 2011-08-10 06:14:32, elapsed: 03:13:16 SolrIndexer: starting at 2011-08-10 0...

2011/08/16 18:19
1K
nutch与起点R3集成之笔记(四)

通过“nutch与起点R3集成之笔记(一、二、三)”中的步骤,我们可以建立起一个行业内部网的搜索引擎,但搜索引擎一个最重要的功能,就是必须能搜索到网络中最新的内容。这就要求nutch能及时采...

derby数据库操作

在起点R3中采用了derby数据库存放系统定义的信息,如索引字段定义。derby是apache项目的一个开源软件,可通过derby的客户端工具ij.bat可以查看derby数据库内容。方法如下: 1.从http://apac...

2011/07/26 18:27
761
nutch与起点R3集成之笔记(三)

四、抓取网页,建立solr索引 在抓取网页前,要保证起点R3处在运行状态。即 在浏览器中键入 http://127.0.0.1:880/ 后,会出现如下窗口: 在linux或cygwin中运行nutch抓取网页命令为 :bin/n...

nutch与起点R3集成之笔记(二)

在nutch与起点R3集成之笔记(一)中介绍了在起点R3中添加nutch要用到的索引字段,上述字段建好后,就可以通过nutch抓取一个或多个网站内容,并通过 bin/nutch solrindex 送到起点R3索引库中。...

nutch与起点R3集成之笔记(一)

百度、google帮我们找Internet的信息,但对于一个行业内部网(intranet)来说,百度、google就无法帮忙了。并且,对一个行业来说,更多的信息都是放在行业内部网上,并且采用网页、office文档...

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部