文档章节

python 进行twitter图文信息数据获取

Digimon
 Digimon
发布于 2017/07/10 19:21
字数 590
阅读 543
收藏 0

尝试利用python进行twitter数据的获取 ** 1.注册twitter**

第一步就需要翻墙。host方法只能注册一个账户刷一刷文章,但并不能进入开发者API那一块。进入开发者网页最简单的方法就是直接在个人主页的"twitter"前面加一个"apps."就好了。然后按照要求申请一个apps,获得consumer key,consumer secret,access token,access token secret 4个字符串

2.python 环境

没什么特殊的要求,我的python 3.5,pip 自动安了一个tweepy 就好了。说明文档在这里:http://tweepy.readthedocs.io/en/v3.5.0/getting_started.html

3.试运行

尝试第一次运行。需要一直开着全局模式的代理,局部代理一样会报错

import tweepy
consumer_key='twitter apps注册给的'
consumer_secret=''twitter apps注册给的'
access_token='twitter apps注册给的'
access_secret='twitter apps注册给的'

auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)

api = tweepy.API(auth,proxy='127.0.0.1:1080')#proxy这里这个号不给的话会一直报没响应的错误

#home_time方法返回用户和用户朋友的最多20条状态
for status in tweepy.Cursor(api.home_timeline).items(10):
    print (status.text)

试运行结果

这里是关注的用户的twitter信息……鬼知道我关注了些什么……

4.全球用户的相关主题get

这里需要让tweepy链接twitter的stream api。这里选择的主题是panda,原本希望应该是什么大熊猫相关的东西吧,然而万万没想到……之后再说。调用后生成json文件

class MyListen(StreamListener):
    def on_data(self, data):
        try:
            with open('panda.json','a') as f:
                f.write(data)
                print("add!!")
                return True
        except BaseException as e:
            print("Error: data")
        return True
    def on_error(self, status):
        print(status)
        return True

witter_stream=Stream(auth,MyListen(),proxy='127.0.0.1:1080')
#选择希望get的相关内容
witter_stream.filter(track=['#panda'])

生成的json文件里有一堆东西,包括用户信息,文章内容,文章引用图片信息,转发,评论内容。随着程序的运行,每一组都有可能增大。只能强制中断,不然就没完了……其中想将图片直接读取

5.通过url存下图片 图片信息的url 在media组中。找到即可。用到skimage读取信息。skimage的安装需要pip install scikit-image。这是我实验用的一个url。

from skimage import io
image=io.imread('http://pbs.twimg.com/media/DEOBBJJU0AATl3e.jpg')
io.imshow(image)
io.imsave('t.jpg',image)
io.show()

然而……说好的熊猫却是这样的…… url解析图片

© 著作权归作者所有

Digimon
粉丝 43
博文 20
码字总数 16060
作品 0
成都
程序员
私信 提问
地铁译:Spark for python developers ---构建Spark批处理和流处理应用前的数据准备

从github,twitter,meetup 获得数据,并理解数据,由于GFS, 代码的执行要翻墙的…… 使用PySpark和PyData相关库构建应用来分析社交网络中含有Spark的交互信息. 我们从GitHub收集有关Apach...

abel_cao
01/17
0
0
Python开源微博工具:Twitter

原文来自:https://www.oschina.net/p/python-twitter 前言 python-twitter“围绕 Twitter API 及 twitter 数据模型的一个 python 包装程序”。现在已经有几个库可以通过多种语言与 Twitter ...

Python学习1
05/06
12
0
2018最后一个月的Python热文Top10!赶紧学起来~

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/85219496 作者 | Mybridge 译者 | linstancy 整理 | Jane 出品 | AI科技大...

AI科技大本营
2018/12/22
0
0
10大Python开源项目推荐(Github平均star2135)

翻译 | suisui 出品 | 人工智能头条(AI_Thinker) 继续假日充电系列~本文是Mybridge 挑选的 10 个 Python 开源项目,Github 平均star 2135,希望你能够喜欢~~ (这些也是来自Mybridge的资源...

AI科技大本营
2018/05/03
0
0
入门系列之:Python3 如何使用NLTK处理语言数据

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由冰糖葫芦 发表于云+社区专栏 介绍 文本已成为最常见的表达形式之一。我们每天都要发送电子邮件、短信、推文、更新状态。因...

腾讯云加社区
2018/07/24
0
0

没有更多内容

加载失败,请刷新页面

加载更多

只需一步,在Spring Boot中统一Restful API返回值格式与统一处理异常

统一返回值 在前后端分离大行其道的今天,有一个统一的返回值格式不仅能使我们的接口看起来更漂亮,而且还可以使前端可以统一处理很多东西,避免很多问题的产生。 比较通用的返回值格式如下:...

晓月寒丶
昨天
59
0
区块链应用到供应链上的好处和实际案例

区块链可以解决供应链中的很多问题,例如记录以及追踪产品。那么使用区块链应用到各产品供应链上到底有什么好处?猎头悬赏平台解优人才网小编给大家做个简单的分享: 使用区块链的最突出的优...

猎头悬赏平台
昨天
28
0
全世界到底有多少软件开发人员?

埃文斯数据公司(Evans Data Corporation) 2019 最新的统计数据(原文)显示,2018 年全球共有 2300 万软件开发人员,预计到 2019 年底这个数字将达到 2640万,到 2023 年达到 2770万。 而来自...

红薯
昨天
65
0
Go 语言基础—— 通道(channel)

通过通信来共享内存(Java是通过共享内存来通信的) 定义 func service() string {time.Sleep(time.Millisecond * 50)return "Done"}func AsyncService() chan string {retCh := mak......

刘一草
昨天
58
0
Apache Flink 零基础入门(一):基础概念解析

Apache Flink 的定义、架构及原理 Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速...

Vincent-Duan
昨天
60
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部