我们随便找了一篇文章来进行实战操作地址如下
https://www.toutiao.com/a6608208517834736142/
用chrome看了一下源码,没有发现期望中的html结构,还是通过接口动态加载,不过在查看源码的时候发现来一些有趣的东西就是在script脚本里面发现来articleInfo这个东西,里面的数据就是文章详情页的数据,乍一看还看不出来,html标签都被转义了,所以要仔细的看看,既然这里能够发现我们想要的东西,那么接下来的就是抄家伙开撸,思路是通过urllib请求拿到真个的返回内容然后通过正则表达式进行提取,提取完以后在用html库进行进行转义就可以拿到内容了,是不是很666
直接上代码。代码中有些是专有的业务逻辑剔除掉即可