记一次最近的工作内容(奇怪的任务增加了)因为Python是去年接触并且没有过爬虫的实际学习操作,所以在出现“要收集文章标题链接”的任务是还是有点难以下手的。虽然有了解过爬虫可以方便操作,但因为经验不足导致花了不少时间进行学习查找。。。最后倒是找到了不用写代码就可以爬取这些信息的方法,并且能将这些信息自动导入excel表格中查看使用。于是这里记录一下方法以及查找思路和过程。
不需要代码,使用工具辅助的办法(0基础)
公众号文章信息的爬取方法:
使用工具"小V公众号文章下载器"
下载地址:www.xiaokuake.com
爬取中的工具
爬取的结果
使用教程:网址介绍中有,按顺序做下来即可
优点:可以快速爬取需要的信息,不仅局限于标题链接,还包括文章本身以及数据分析等
缺点:要付费,试用版只能用爬一个账号并且不能怕文章本身,不过付费可以按天数购买,比其他一些买软件本身的便宜,做短期内需求的爬虫来说不错。不过只能爬取公众号的文章,加上爬取过多的话账号24小时内无法在pc端看历史记录(大约在日爬取3k文章左右后会发生这种情况,此时需要用另外的账号继续)
使用工具批量微信公众号下载小工具
下载地址:https://i.ijrou.com/p/story/WeChatDownload.html
使用教程:下载下来会有相关教程视频
优点:免费,可以下载文章为转word,pdf等,用法也简单
缺点:大概就是没有我需要的要求(指下载文章的地址以及标题并转为excel表格)吧。。。。
知乎文章信息的爬取方法:
浏览器插件web scraper
谷歌应用商店可以下载
正在爬取资料,使用快捷键F12打开
爬取结果
使用教程:
优点:简单易操作,免费,而且操作起来更快
缺点:爬取的资料没有那么全面
需要用代码的办法汇总(需要有python基础)
微信公众号文章:通过抓包或者自己注册一个公众号进行操作,网上的方法大同小异,这里不多赘述。附一个找到的比较完整的网址,有一定的python基础的朋友可以去试试看。
链接:https://github.com/wnma3mz/wechat_articles_spider
这里有完整的工程文件,不过没有基础的话不好理解(我基础忘了所以弄了好久还是有点问题,才会去换思路找工具的囧)
知乎文章:网上这个倒是只看到一个方法,是风变编程的一个案例,网上也有很多这个方法的总结。做法相对上面的会简单一点(但仍没有插件来的快)
链接:https://www.cnblogs.com/www1707/p/10720645.html
方法与微信公众号文章的获取方法类似,即使稍微简单点,但仍然需要一定的基础。
找这些内容时的一点心得
虽然找出来归纳后就这么多,但是当时找的时候挺麻烦的。因为只是对爬虫有点了解,加上当时只学了点皮毛,要立刻实操赶鸭子上架有点困难。一开始查找的思路是用“python爬取公众号文章链接”这个条件进行查找,但是找出来的方法我不一定能用,而且经常出bug(菜鸡的痛),之后还拜托大鸽看看怎么写,不过还是有点问题没法处理,同时对于导出成excel表没什么头绪。
后面换了种思路,网上找的时候发现不只是我有这种需求,有不少人也需要而且不一定会用python,就想着“既然网上有这种需求,说不定有相应的工具”。然后就倒真找到了一些,但是这些工具下载器五花八门的,还很贵(单买软件或者单次服务就很贵)。然后比较了几个工具后最后选择了现在分享的工具,要氪金但花的金钱比我花时间找和学习的时间比起来实惠了不少。即使是这样,我还是花了两天才导出完所有内容(如果自己做不知道要做到什么时候)
归纳在一起有五千多条
完成后也反省了下:
- 我一开始的思路就是有点问题的:在短时间内速成上手还是有点困难,应该换个思路找找有没有相应的工具,因为既然有这种需求那就应该有对应的市场,如果早点意识到就不会花那么多时间做无用功了。
- 学Python真的很重要,以后自己找资料也不会那么麻烦,更不会像几天前那样像无头苍蝇到处撞。(要学的东西增加了)
不过可喜可贺最后任务还是完成了,也学到了一些奇怪的东西(雾)
最近还要忙些事,忙完再整理下之前学的表达式知识出点内容。