每天上下班,我都会经过一个地铁出站口。这个出口平常人不多,有一台长长的扶梯,扶梯旁经常站着一个地铁站务员。每天看到她时,她满脸都是无聊和困惑,仿佛她自己也在纳闷为何站在这里。故事FM中的一则广播吸引了我,讲述的是《地铁里消失的年轻人》。节目描述了一个地铁站务员的故事,使我深感共鸣。对这群有故事的人的故事充满兴趣的我,推荐大家也听听他们的故事,也许你会发现他们的故事与你我有关。
作为一个《故事FM》的网易云听众,我常常沉浸在那些触动心弦的故事中。最近我对网易云音乐电台的评论产生了兴趣,想要了解那些和我一样被故事打动的人们。为此,我整理了一下以前学习的代码,增加了网易云音乐电台的评论爬取功能。
在网易云音乐的评论系统中,动态页面加载是获取评论的关键。通过Chrome浏览器的“检查”功能,可以看到每次点击“下一页”时,虽然地址栏的网址没有变化,但有一条评论API的post请求被触发。这就是网易云音乐评论爬虫的精髓所在。通过加密页面参数生成新的Form Data,然后post获取下一页的评论数据。关于具体的加密算法,网络上有很多文章进行了介绍。我整理的是来自知乎大佬的加密讲解。
通过爬虫技术,我们可以获取评论用户的ID、用户名、用户头像、评论时间、点赞数和评论详情。这些数据为接下来的数据分析部分打下了基础。关注微信公众号:正版乔,回复「故事评论」,查看你想看的细节。也可以继续收听《故事FM》,感受这个世界其他人的故事。原文出处: |