肥宅钓鱼网
当前位置: 首页 钓鱼百科

python 抓取网易云(Python爬取周杰伦MojitoMV弹幕)

时间:2023-08-13 作者: 小编 阅读量: 2 栏目名: 钓鱼百科

作者|黄伟呢来源|数据分析与统计学之美6月12日凌晨0点,周杰伦最新单曲《Mojito》正式上线,仅上线1小时销售量就超过百万张,预计今天这首单曲的销量仍然会继续攀升。杰伦的上一首单曲《说好不哭》是在2019.9发布的,这首歌是与老搭档方文山搭档的歌曲,当时这首歌在QQ音乐上的销量超过了1500万张,创造历史新高。而新歌《Mojito》则是与另外一位搭档黄俊郎合作的单曲,相信这首歌肯定也会有不错的销量。

作者 | 黄伟呢

来源 | 数据分析与统计学之美

6月12日凌晨0点,周杰伦最新单曲《Mojito》正式上线,仅上线1小时销售量就超过百万张,预计今天这首单曲的销量仍然会继续攀升。这次新歌的歌名叫做《Mojito》,翻译成中文是莫吉托,一种巴西鸡尾酒,怪不得观看这首歌MV的时候,感受到一股很浓烈的异域风情呢。

杰伦的上一首单曲《说好不哭》是在2019.9发布的,这首歌是与老搭档方文山搭档的歌曲,当时这首歌在QQ音乐上的销量超过了1500万张,创造历史新高。而新歌《Mojito》则是与另外一位搭档黄俊郎合作的单曲,相信这首歌肯定也会有不错的销量。

好了回归到正题,既然这首歌大家反应这么大,那么大家都是怎么评论这首歌曲的呢?我们爬取了B站上面的弹幕数据,看看粉丝们都说了什么。

B站弹幕的爬取

B站的网页确实变化的很快,我还记得5月份的时候,弹幕的接口数据还找得到。然而今天我找了好久都没有找到,难道是今天的状态不行?没关系,在网页中虽然没找的这个弹幕数据的接口,但是我们之前找到了,我们直接拿过来用就好了。

爬取B站弹幕数据的API:https://api.bilibili.com/x/v1/dm/list.so?oid=XXX

从上述网址中我们看到了一个叫做oid的东西,后面是一串数字,不同的网页有着不同的数字串,因此我这里用“XXX”代替了。我们现在就要思考的是,这个oid我们应该怎么获取呢?不要着急下面带大家一步步查找。

我们要想知道这个oid是什么,首先要获取到cid。弹幕数据的接口我们虽然找不到,但是目录页接口还是可以找到的,网址如下。通过这个网址我们可以获取到我们要的那个cid,cid这个键对应的值,就是我们要的oid数字串。

https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp

注意:由于这个MV只有一个完整的视频,所以这里只有一个cid,如果一个视频是分不同小节发布的,这里就会有多个cid,不同的cid代表不同的视频。

我们将上面接口的url地址和拿到的oid数字串进行拼接,就可以得到这首MV弹幕的真正地址啦,现在把地址提供给大家。我们只需要请求这个网址,解析网页后就可以获取我们想要的数据啦。

https://api.bilibili.com/x/v1/dm/list.so?oid=201056987

这里还有最后一点需要提醒大家的。观察目录页的那个接口(网址如下),里面有一串字符串BV1PK4y1b7dt,我们先不管这个参数是什么,我们只关心这个字符串从哪里来的呢?

https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp

最后我们观察这首MV的原始网址(网址如下),原来这个字符串就在这首MV的原始网址中。好了,说到这里,我就将B站弹幕数据爬取的一些参数的来龙去脉,给大家讲清楚了,下面我们开始代码部分吧。

https://www.bilibili.com/video/BV1PK4y1b7dt?t=1

代码如下:

import requestsimport jsonimport chardetimport refrom pprint import pprint# 1.根据bvid请求得到ciddef get_cid:url = 'https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp'res = requests.get(url).textjson_dict = json.loads(res)#pprint(json_dict)return json_dict["data"][0]["cid"]# 2.根据cid请求弹幕,解析弹幕得到最终的数据"""注意:哔哩哔哩的网页现在已经换了,那个list.so接口已经找不到,但是我们现在记住这个接口就行了。"""def get_data(cid):final_url = "https://api.bilibili.com/x/v1/dm/list.so?odan_mu.txt", mode="w", encoding="utf-8") as f:for i in data:f.write(i)f.write("\n")cid = get_ciddata = get_data(cid)save_to_file(data)

结果如下:

词云图的制作

# 1 导入相关库import pandas as pdimport jiebafrom wordcloud import WordCloudimport matplotlib.pyplot as pltfrom imageio import imreadimport warningswarnings.filterwarnings("ignore")# 2 读取文本文件,并使用lcut方法进行分词with open("dan_mu.txt",encoding="utf-8") as f:txt = f.readtxt = txt.splitdata_cut = [jieba.lcut(x) for x in txt]data_cut# 3 读取停用词with open(r"G:\6Tipdm\wordcloud\data\stoplist.txt",encoding="utf-8") as f:stop = f.readstop = stop.splitstop = [" ","道","说道","说"]stop# 4 去掉停用词之后的最终词s_data_cut = pd.Series(data_cut)all_words_after = s_data_cut.apply(lambda x:[i for i in x if i not in stop])# 5 词频统计all_words =for i in all_words_after:all_words.extend(i)word_count = pd.Series(all_words).value_counts# 6 词云图的绘制# 1)读取背景图片back_picture = imread(r"G:\6Tipdm\wordcloud\jay1.jpg")# 2)设置词云参数wc = WordCloud(font_path="G:\\6Tipdm\\wordcloud\\simhei.ttf",background_,max_words=2000,mask=back_picture,max_font_size=200,random_state=42)wc2 = wc.fit_words(word_count)# 3)绘制词云图plt.figure(figsize=(16,8))plt.imshow(wc2)plt.axis("off")plt.showwc.to_file("ciyun.png")

结果如下:

从词云图可以看到,整个弹幕屏幕都是表达了粉丝对于《Mojito》这首歌的热爱,可能有些词语显得有些莫名其妙,像震动、手机等词语,但是看过MV的人都知道确实都是赞美之词。

首先,啊啊啊这个感叹词出现的次数是最多的,难道大家是刚刚听到这首歌,惊喜之情无法用言语来表达?只好借用这样的感叹词来表达自己内心的激动?这可不是我的风格,我要是喜欢就会用直白的话表达出来。

其次,手机、震动这样的词出现的也很多。我刚刚看到这样的词语时候,我很莫名其妙。一首新歌MV和手机震动有啥关系呢?这原来是一个梗,恕我当时也没怎么关注,含义就是:周杰伦新歌销量太好,网友调侃便说杰伦手机一直在震动。如果你也不知道这是一个什么梗,提供一个网址给大家了解一下。

https://www.ixiumei.com/a/20190917/364084.shtml

我们还可以注意到,有一个词的频率出现次数也是很高的,那就是爷青回。哈哈,刚刚看到这个词语的人肯定是很懵逼的,这是什么意思呢?其实就是爷的青春回来了的意思。不得不说周杰伦的歌确实影响了我们这一代人,新歌一发布,不少人感叹:杰伦,回不去了吗?虽然我们的年纪在慢慢长大,但是我们却始终习惯停留在青春的状态。当然像爱、好听、粉、亿遍这样的词语大家也都知道是什么意思,我也就不详细说明了,总的来说从整个词云图来看,基本上是0差评。《Mojito》整首歌给我的感觉就是节奏欢快,周杰伦虽然成了无数人的青春,不少人也是感叹青春回不去了吗?但是在这个炎炎夏日聆听这首欢快的歌曲,也是及其不错的。

☞那些被大数据时代抛弃的人

☞反转!物联网火爆,开发者却太难了!

☞TypeScript 热度超 C 与 Python、Go 开发收入高、运维吃香,调查了 65000 名开发者有这些发现!

☞一篇与众不同的 String、StringBuilder 和 StringBuffer 详解

☞利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

☞赠书 | 供应链金融模式有哪些?区块链在供应链金融中如何应用?

    推荐阅读
  • 无锡市中心的商业综合体有哪些(无锡这四个商业体将在年底开业)

    并且交通便利,有19条公交线路,项目未来会接驳无锡地铁3号线1号出口。悦尚奥莱预计2021年底前开业悦尚奥莱位于惠山区天一新城,项目商业建筑面积约36.8万方,是目前长三角区域最大的存量商业改造项。△批前公示的外立面改造设计示意图无锡方圆荟的工作人员称:目前商场外立面的供应商已经进场,脚手架搭建完成约80%,正在进行防护网以及安全标识的悬挂。预计十月份较为完整地呈现外立面。

  • 流感疫苗什么时候打 流感疫苗什么时候打比较好小学生

    如何接种流感疫苗首次接种流感疫苗的婴儿和儿童需要接种2针,间隔时间为4周。流感疫苗应该尽早接种,这样可以发挥疫苗的而保护作用,防止受流感病毒的侵袭和危害。流感疫苗接种的注意事项1、接种流感疫苗后,要在接种原地观察30分钟左右,以防身体出现其他不适。若果出现持续高烧等严重情况,请立即就医。

  • 真知是什么意思(真知的含义)

    真知是什么意思真知zhēnzhī:正确而深刻的认识,并且真实。《庄子·大宗师》:“有真人而后有真知。”南朝·宋·谢灵运《辨宗论》:“真知者照寂,故理常为用,用常在理,故永为真知。”宋·陈鹄《耆旧续闻》卷一:“真实处,便是真知;才以不知为知,必是欺伪底人。”明·张弼《答苏州别驾周德中》诗:“欧阳自号无仙子,卓识真知冠古今。”成语“真知灼见”是形容见解正确、透彻。亦指真正看到,确实知道。

  • 战国七雄的国都有哪些(齐楚秦)

    然而,随着周王室的衰落,诸侯之间的兼并战争兴起,到战国时期,只剩下十多个诸侯国,其中以齐楚秦燕赵魏韩最为强大,是为战国七雄。楚国是战国七雄中最古老的诸侯国,在其八百年历史中,一共经历过六次迁都。郢都是楚国使用时间最长的都城,使用时间长达400年,也是楚国最有名的都城,楚庄王称霸天下时,楚国的都城便是郢都。期间,公元前372年。因都城为大梁,魏国又称梁国,魏惠王也被称为梁惠王。

  • 抗日战争中的四个小英雄(盘点抗日战争期间为国牺牲的小英雄)

    1943年,年仅13岁的他为了掩护民兵和乡亲,挺身而出被鬼子逮捕。少年时参加了儿童团,并担任团长,积极参与土地改革。为掩护他们,周银海选择挺身而出,自己却被捕。敌人气急败坏之下,将周银海枪杀,此时的周银海年仅14岁。第五位,石宝芹。1948年二月份,石宝芹等四人被杀害,而石宝芹当时只有16岁。

  • iphone12副厂手机壳评测(12模型机照 厚度较iPhone)

    根据此前传闻,iPhone12全系列将有4机款,分为5.4吋、6.1吋及6.7吋3种萤幕大小,其中5.4吋、6.1吋将为入门机款,「Pro」系列则有6.1吋及6.7吋两种尺寸。随着苹果传统的发表会时序渐近,自「手机壳厂」泄漏的新机外观讯息也陆续流出,科技新闻网站《9to5Mac》稍早贴出一系列iPhone12模型机照,并比对新机与iPhone4的外型设计。图片中的iPhone12不意外地有着平坦的边框,整体设计致敬iPhone4,而背面的设计则更像iPhone11系列。

  • 怎么辨别山寨证书(山寨证书满天飞)

    作为热爱学习、专心搞钱的深圳人学门技术、考本证书傍身那是时刻惦记的咱常说知识就是力量技能改变生活但现在各类名目繁多的技能考证项目着实让人眼花缭乱什么碳排放管理师、幼儿绘本阅读指导师家庭教育指导师等等看着好像还挺“与时俱进”甚至有的还打着“免培训、包通过、国家认可、官方认证”等旗号经常有不明真相的群众相信了这些宣传而遭受经济损失想要不上当受骗最好的办法就是你比骗子懂得多赶快来看看都有哪些是“有效”的

  • 鸭蛋怎么煮蛋壳硬(鸭蛋该怎么煮)

    在煮鸡蛋之前,最好先把鸡蛋放入冷水中浸泡一会儿,再放入冷水锅中煮沸,这样蛋壳就不易破裂了。煮鸡蛋时若用大火,容易引起蛋壳内空气急剧膨胀而导致蛋壳爆裂;若使用小火,又延长了煮鸡蛋的时间,而且不容易掌握好蛋的老嫩程度。实践证明,煮鸡蛋以中火最为适宜。需要注意的是,煮硬蛋时切不可随意延长时间。因为鸡蛋在沸水中煮的时间过长、超过10分钟时,鸡蛋内部会发生一系列化学变化,从而降低鸡蛋的营养价值。

  • 华为lra-al00是什么型号

    荣耀20青春版是荣耀公司旗下一款手机。手机搭载麒麟710F处理器。2019年10月22日在北京召开发布会正式推出。手机提供冰岛幻境、蓝水翡翠、幻夜黑三种配色,售价1399元起。荣耀20青春版还具备轻薄的特点,机身重量172克,厚度7.7mm,更加利于单手持握。正面配备一块6.3英寸的AMOLED1080P屏幕,屏幕比例20:9,通过了德国莱茵低蓝光护眼认证。此外,荣耀20青春版还支持光学屏幕指纹以及双人脸识别解锁,保留了3.5mm耳机接孔。

  • 华为常见故障的维修思路(华为手机维修自学教程)

    华为的强大意味着华为手机的维修市场越来越大。其中供电IC芯片U1001,U1001得到供电后M9、M11脚产生待机电压VOUT_PMUD。与此同时U1001内部32.768KHZ实时时钟电路也开始工作。因为华为手机随着自己的设计升级,电源采用的芯片也在不断升级,好多电源芯片型号都是HI6421但是他们却属于不同的级别。华为MATE20系列,电源采用了HI6421的V700属于第七代系列。以后,杨哥会给大家分析更多的华为技术贴。与你一起终身学习,这里是杨哥说维修。