加载中
大规模异步新闻爬虫: 用asyncio实现异步爬虫

“等了好久终于等到今天,梦里好久终于把梦实现”,脑海里不禁响起来刘德华这首歌。是啊,终于可以写我最喜欢的异步爬虫了。前面那么多章节,一步一步、循序渐进的讲解,实在是“唠叨”了不少...

大规模异步新闻爬虫6:网页正文的提取

前面我们实现的新闻爬虫,运行起来后很快就可以抓取大量新闻网页,存到数据库里面的都是网页的html代码,并不是我们想要的最终结果。最终结果应该是结构化的数据,包含的信息至少有url,标题...

06/23 17:18
0
大规模异步新闻爬虫5:实现一个同步定向新闻爬虫

前面,我们先写了一个简单的百度新闻爬虫,可是它槽点满满。接着,我们实现了一些模块,来为我们的爬虫提供基础功能,包括:网络请求、网址池、MySQL封装。 有了这些基础模块,我们的就可以实...

大规模异步新闻爬虫4: 让MySQL 数据库操作更方便

小猿们还记得最开始我们实现的那个槽点多多的百度新闻爬虫吗?那里的逻辑最后是把下载的网页和网址存储到数据库,但是我们只是简单的实现为打印信息。 现如今,我们能用的数据库很多,老牌关...

06/23 17:16
65
大规模异步新闻爬虫1:简单的百度新闻爬虫

前面老猿我唠叨了很多内容,都是为今天的实战做铺垫。小猿们可能已经等得有些不耐烦了,那么我们就废话不多说,马上干起来! 这个实战例子是构建一个大规模的异步新闻爬虫,但要分几步走,从...

06/23 17:14
36
大规模异步新闻爬虫2:实现一个更好的网络请求函数

上一节我们实现了一个简单的再也不能简单的新闻爬虫,这个爬虫有很多槽点,估计小猿们也会鄙视这个爬虫。上一节最后我们讨论了这些槽点,现在我们就来去除这些槽点来完善我们的新闻爬虫。 问...

06/23 17:12
0
大规模异步新闻爬虫3:实现功能强大、简洁易用的网址池(URL Pool)

对于比较大型的爬虫来说,URL管理的管理是个核心问题,管理不好,就可能重复下载,也可能遗漏下载。这里,我们设计一个URL Pool来管理URL。 这个URL Pool就是一个生产者-消费者模式: 依葫芦...

06/23 17:10
52
Python实现常见的几种加密算法(MD5,SHA-1,HMAC,DES/AES,RSA和ECC)

生活中我们经常会遇到一些加密算法,今天我们就聊聊这些加密算法的Python实现。部分常用的加密方法基本都有对应的Python库,基本不再需要我们用代码实现具体算法。 MD5加密 全称:MD5消息摘要...

06/16 10:04
20
Android抓包总结

前言 这篇文章算是总结一下我之前抓包遇到的一些问题, 个人属性里带bug, 所以遇到的问题会比较多, 算是给大家提供一个抓包抓不到应该如何解决的思路。 工具介绍 Android中可用的抓包软件有f...

APP逆向好贴收集

一个非常简单的安卓逆向练手app ---------https://www.52pojie.cn/thread-1383123-1-1.html 逆向练手——一个app从java到so加密逆向分析过程 --------https://www.52pojie.cn/thread-970682...

06/03 11:37
17
python爬虫多次请求超时的几种重试方法

第一种方法 headers = Dict() url = 'https://www.baidu.com' try: proxies = None response = requests.get(url, headers=headers, verify=False, proxies=None, timeout=3) except: # logd...

05/11 12:25
52
淘宝h5 页面 sign加密算法

淘宝h5 页面 sign加密算法 1.淘宝sign加密算法 淘宝对于h5的访问采用了和客户端不同的方式,由于在h5的js代码中保存appsercret具有较高的风险,mtop采用了随机分配令牌的方式,为每个访问端分...

解决新版Android Studio 4.0+无法断点调试smali问题

【前言】    之前我写过一篇Android Studio 3.0+无源码调试apk的博客,可能很多小伙伴试了,发现虽然apk是导入进Android Studio,但是却无法加断点,主要是因为新版本的Android Studio默认...

frida hook时机选择 主动挂起进程

说明:仅供学习使用,请勿用于非法用途,若有侵权,请联系博主删除 作者:zhu6201976 需求场景: 某些场景hook时机较早,需在应用刚启动时进行hook,此时便需要主动挂起进程,类似app的动态调...

04/28 10:13
130
WX小程序抓包、反编译

从一次失败的WX小程序抓包、反编译经历中学习反思 某天看到群里某个朋友说某小程序抓不到包,我突然就来了兴趣,我也试着分析了下这个小程序,名字我就不说了,本着我个人兴趣分析学习的目的...

frida框架hook常用字符串模板总结

ArrayBuffer转String: 解决中文乱码(模板) function ab2str(buf) { return new Uint16Array(buf) // encodedString = String.fromCodePoint.apply(null, new Uint16Array(buf)); // // decod...

04/26 14:35
0
frida框架hook参数获取方法入参模板

python脚本 # -*- coding: utf-8 -*- import logging import frida import sys logging.basicConfig(level=logging.DEBUG) def on_message(message, data): if message['type'] == 'send': ....

04/26 14:33
0
APP逆向案例---xxapp

步骤一 抓个包 其中m_d,m_e为加密参数 步骤二(已经看了是360加固我们脱壳一下) # Author: hluwa <hluwa888@gmail.com> # HomePage: https://github.com/hluwa # CreatedTime: 2020/1/7 20...

04/26 14:31
0
app逆向万能的md5加密hook破解入参方法(其他加密用通用方法原理差不多,小白推荐)

一.原理 安卓开发调用md5加密时候都会调用到系统类java.security.MessageDigest 加密时候会会调用里面2个关键方法update以及digest 根据这个原理我们开始写代码吧 二.代码 hook.js function...

ImportError: No module named 通用解决方法

最近多个小伙伴儿问“ImportError: No module named xxx“,应该怎么样解决。 其实,问这个问题,还是因为你对python的基本方法没有掌握好,我也把这类问题的通用解决方法整理一下,希望对小...

04/12 15:51
42

没有更多内容

加载失败,请刷新页面

返回顶部
顶部