加载中
Python读大数据量txt文本

如果直接对大文件对象调用 read() 方法,会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。即通过yield。

2016/03/24 20:02
3.4K
Elasticsearch笔记(二)—索引及其构建

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是...

Elasticsearch笔记(一)—Elasticsearch安装配置

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是...

2016/03/22 10:06
2.3W
Scrapy爬虫:代理IP配置

在爬取网站内容的时候,最常遇到的问题是:网站对IP有限制,会有防抓取功能,最好的办法就是IP轮换抓取(加代理)

2016/03/18 10:11
7K
在不知道密码情况下卸载企业版360

公司内部配的电脑安装有企业版360,退出和卸载都需要输入隐私密码。然而根本就不知道密码。 由于强迫症原因完全不能忍受360这个流氓。 于是找到了这个卸载方法。 1、首先找到360的安装目录;...

2016/03/15 16:01
1.4K
使用openpyxl读写Excel2007以及更高版本

传统的python读写excel模块xlwt只能写入不超过65536条数据,这点数据量是很少的,要想写成xlsx格式必须借助其他模块。 这里介绍openpyxl 安装方式:pip instal或者easy_install方式均可以 使...

使用xlrd模块读写Excel文件

一、安装xlrd模块 到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了python 环境。 二、使用介绍 1、导入模块 import xlrd 2、打开Excel文件读取数据 data = xlr...

Python爬虫—多线程的简单示例

python是支持多线程的,主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块,threading模块是对thread做了一些包装的,可以更加方便的使用。 虽然python的多线程受...

2016/03/02 14:09
2.1K
Python排序总结:列表、字典、包含字典的列表、包含元组的列表排序

列表、字典、包含字典的列表、包含元组的列表排序

Python读写ini配置文件

在用Python做开发的时候经常会用到数据库或者其他需要动态配置的东西,硬编码在里面每次去改会很麻烦。Python自带有读取配置文件的模块ConfigParser

2016/01/29 13:49
995
Python中文分词—jieba分词

结巴分词github项目地址:https://github.com/fxsjy/jieba 1、安装: 全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 http://pypi.python...

2016/01/27 15:36
590
Python报错解决方法总结

记录在使用Python过程中出错及解决错误的方法,欢迎各位多提意见。

2016/01/26 13:55
212
Scrapy框架——命令行工具

以前写Scrapy爬虫的时候都是用的其他编辑器什么的,忽略了命令行的重要性。后来发觉使用命令行确实能减少不少工作量,带来很多方便。

Python爬虫:模拟登录带验证码网站

python爬虫:模拟登录带验证码网站 拿学校教务系统练手……

scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP

由于工作需要,利用scrpay采集某个商业网站的数据。但是这个网站反扒非常厉害。因此不得不采用代理IP来做,但是做了几天后几乎能用的代理IP全被禁掉了。而且这种找代理、然后再验证的流程非常...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部