收集微信微信官方账号数据有两种方式:
1.搜狗微信:因搜狗与微信有合作,可通过搜狗微信收款;这个微信官方账号只能收藏最新的10篇文章,所以很难拿到历史文章。而且,要注意抓取频率。频率高的话会有验证码。这个平台只能收集少量数据,不推荐使用。
2.微信微信官方账号平台:微信官方微信官方账号平台必须先申请一个公众号(因为微信最近开通了在微信官方账号中插入其他微信官方账号链接的功能,以便收集数据),然后在创作管理-图文素材-列表查看-新建创作 # 8211;新写的图文-点击超链接操作爬虫。这是推荐的抓取历史文章的方式。(不过需要注意的是如果这个频率太快,或者抓取太多,账号会被24小时屏蔽,不是ip,是账号。目前没有什么好的办法。我个人是用加上随机缓存时间来模拟人类浏览,为了结果牺牲时间。)
主要是第二种方式(微信微信官方账号平台):
1。首先用硒模拟登录微信微信官方账号,获取相应的cookie并保存。
2。当你得到cookie的时候,当你请求url的时候,你会跳转到个人主页(因为cookie)。这个时候url就有了一个令牌,每个请求都是一个不同的令牌。用正则表达式把他弄下来。
3。构造一个数据包,模拟一个get请求,并返回数据(打开F12时可以看到这一点)。
4。获取数据并解析它。
这是基于微信微信官方账号平台的数据采集思路。网上有很多具体的代码,这里就不贴我的了。都是一样的,就是构造一个数据包,向服务器提交数据包,获取返回数据,解析数据的步骤。代码简单,可以尝试按照自己的思路写(如果写不出想要的代码,请私信我)。
注意:恶意爬虫是一种危险的行为。切记不要恶意抓取一个网站,遵循互联网爬虫规范。简单学习就可以了。