python爬虫:bilibili弹幕爬取+词云生成
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上。
我的B站教学:https:/video/av75377135?p=2
工作原理
b站是提供弹幕接口的,所以我们的整体操作进行如下:
1.到B站获取cid2.将cid与网站固定格式进行链接3.用python请求网页4.进行简单的单词处理5.生成词云
接下来我们就按照刚才说的顺序进行详细解释
操作顺序
1.到B站获取cid
首先点进一个视频网页,点击F12-network获取监测页面,然后一定要点击播放视频,我们就会在监测页面中看到一个叫heartbeat的XHR脚本,点开任意一个即可。
点击之后我们需要看Headers,里边包括了我们想知道的信息。往下滚动就会发现cid,这个id是唯一的,也就是说下次抓取的时候还可以用这个id。
2.将cid与网站固定格式进行链接
我们拿到cid之后就可以去检查一下是否可以获取弹幕了。获取的固定xml格式是: http://www.doushuaigong.cn///johnchang0201/article/details/103004229 IT入门 感谢关注 文章转载自微信公众号IT入门
一学就会 Python入门教程 → 程序员用的单词表→ 练习地址 :/it
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
