肥宅钓鱼网
当前位置: 首页 钓鱼百科

python 抓取网易云(Python爬取周杰伦MojitoMV弹幕)

时间:2023-08-13 作者: 小编 阅读量: 2 栏目名: 钓鱼百科

作者|黄伟呢来源|数据分析与统计学之美6月12日凌晨0点,周杰伦最新单曲《Mojito》正式上线,仅上线1小时销售量就超过百万张,预计今天这首单曲的销量仍然会继续攀升。杰伦的上一首单曲《说好不哭》是在2019.9发布的,这首歌是与老搭档方文山搭档的歌曲,当时这首歌在QQ音乐上的销量超过了1500万张,创造历史新高。而新歌《Mojito》则是与另外一位搭档黄俊郎合作的单曲,相信这首歌肯定也会有不错的销量。

作者 | 黄伟呢

来源 | 数据分析与统计学之美

6月12日凌晨0点,周杰伦最新单曲《Mojito》正式上线,仅上线1小时销售量就超过百万张,预计今天这首单曲的销量仍然会继续攀升。这次新歌的歌名叫做《Mojito》,翻译成中文是莫吉托,一种巴西鸡尾酒,怪不得观看这首歌MV的时候,感受到一股很浓烈的异域风情呢。

杰伦的上一首单曲《说好不哭》是在2019.9发布的,这首歌是与老搭档方文山搭档的歌曲,当时这首歌在QQ音乐上的销量超过了1500万张,创造历史新高。而新歌《Mojito》则是与另外一位搭档黄俊郎合作的单曲,相信这首歌肯定也会有不错的销量。

好了回归到正题,既然这首歌大家反应这么大,那么大家都是怎么评论这首歌曲的呢?我们爬取了B站上面的弹幕数据,看看粉丝们都说了什么。

B站弹幕的爬取

B站的网页确实变化的很快,我还记得5月份的时候,弹幕的接口数据还找得到。然而今天我找了好久都没有找到,难道是今天的状态不行?没关系,在网页中虽然没找的这个弹幕数据的接口,但是我们之前找到了,我们直接拿过来用就好了。

爬取B站弹幕数据的API:https://api.bilibili.com/x/v1/dm/list.so?oid=XXX

从上述网址中我们看到了一个叫做oid的东西,后面是一串数字,不同的网页有着不同的数字串,因此我这里用“XXX”代替了。我们现在就要思考的是,这个oid我们应该怎么获取呢?不要着急下面带大家一步步查找。

我们要想知道这个oid是什么,首先要获取到cid。弹幕数据的接口我们虽然找不到,但是目录页接口还是可以找到的,网址如下。通过这个网址我们可以获取到我们要的那个cid,cid这个键对应的值,就是我们要的oid数字串。

https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp

注意:由于这个MV只有一个完整的视频,所以这里只有一个cid,如果一个视频是分不同小节发布的,这里就会有多个cid,不同的cid代表不同的视频。

我们将上面接口的url地址和拿到的oid数字串进行拼接,就可以得到这首MV弹幕的真正地址啦,现在把地址提供给大家。我们只需要请求这个网址,解析网页后就可以获取我们想要的数据啦。

https://api.bilibili.com/x/v1/dm/list.so?oid=201056987

这里还有最后一点需要提醒大家的。观察目录页的那个接口(网址如下),里面有一串字符串BV1PK4y1b7dt,我们先不管这个参数是什么,我们只关心这个字符串从哪里来的呢?

https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp

最后我们观察这首MV的原始网址(网址如下),原来这个字符串就在这首MV的原始网址中。好了,说到这里,我就将B站弹幕数据爬取的一些参数的来龙去脉,给大家讲清楚了,下面我们开始代码部分吧。

https://www.bilibili.com/video/BV1PK4y1b7dt?t=1

代码如下:

import requestsimport jsonimport chardetimport refrom pprint import pprint# 1.根据bvid请求得到ciddef get_cid:url = 'https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp'res = requests.get(url).textjson_dict = json.loads(res)#pprint(json_dict)return json_dict["data"][0]["cid"]# 2.根据cid请求弹幕,解析弹幕得到最终的数据"""注意:哔哩哔哩的网页现在已经换了,那个list.so接口已经找不到,但是我们现在记住这个接口就行了。"""def get_data(cid):final_url = "https://api.bilibili.com/x/v1/dm/list.so?odan_mu.txt", mode="w", encoding="utf-8") as f:for i in data:f.write(i)f.write("\n")cid = get_ciddata = get_data(cid)save_to_file(data)

结果如下:

词云图的制作

# 1 导入相关库import pandas as pdimport jiebafrom wordcloud import WordCloudimport matplotlib.pyplot as pltfrom imageio import imreadimport warningswarnings.filterwarnings("ignore")# 2 读取文本文件,并使用lcut方法进行分词with open("dan_mu.txt",encoding="utf-8") as f:txt = f.readtxt = txt.splitdata_cut = [jieba.lcut(x) for x in txt]data_cut# 3 读取停用词with open(r"G:\6Tipdm\wordcloud\data\stoplist.txt",encoding="utf-8") as f:stop = f.readstop = stop.splitstop = [" ","道","说道","说"]stop# 4 去掉停用词之后的最终词s_data_cut = pd.Series(data_cut)all_words_after = s_data_cut.apply(lambda x:[i for i in x if i not in stop])# 5 词频统计all_words =for i in all_words_after:all_words.extend(i)word_count = pd.Series(all_words).value_counts# 6 词云图的绘制# 1)读取背景图片back_picture = imread(r"G:\6Tipdm\wordcloud\jay1.jpg")# 2)设置词云参数wc = WordCloud(font_path="G:\\6Tipdm\\wordcloud\\simhei.ttf",background_,max_words=2000,mask=back_picture,max_font_size=200,random_state=42)wc2 = wc.fit_words(word_count)# 3)绘制词云图plt.figure(figsize=(16,8))plt.imshow(wc2)plt.axis("off")plt.showwc.to_file("ciyun.png")

结果如下:

从词云图可以看到,整个弹幕屏幕都是表达了粉丝对于《Mojito》这首歌的热爱,可能有些词语显得有些莫名其妙,像震动、手机等词语,但是看过MV的人都知道确实都是赞美之词。

首先,啊啊啊这个感叹词出现的次数是最多的,难道大家是刚刚听到这首歌,惊喜之情无法用言语来表达?只好借用这样的感叹词来表达自己内心的激动?这可不是我的风格,我要是喜欢就会用直白的话表达出来。

其次,手机、震动这样的词出现的也很多。我刚刚看到这样的词语时候,我很莫名其妙。一首新歌MV和手机震动有啥关系呢?这原来是一个梗,恕我当时也没怎么关注,含义就是:周杰伦新歌销量太好,网友调侃便说杰伦手机一直在震动。如果你也不知道这是一个什么梗,提供一个网址给大家了解一下。

https://www.ixiumei.com/a/20190917/364084.shtml

我们还可以注意到,有一个词的频率出现次数也是很高的,那就是爷青回。哈哈,刚刚看到这个词语的人肯定是很懵逼的,这是什么意思呢?其实就是爷的青春回来了的意思。不得不说周杰伦的歌确实影响了我们这一代人,新歌一发布,不少人感叹:杰伦,回不去了吗?虽然我们的年纪在慢慢长大,但是我们却始终习惯停留在青春的状态。当然像爱、好听、粉、亿遍这样的词语大家也都知道是什么意思,我也就不详细说明了,总的来说从整个词云图来看,基本上是0差评。《Mojito》整首歌给我的感觉就是节奏欢快,周杰伦虽然成了无数人的青春,不少人也是感叹青春回不去了吗?但是在这个炎炎夏日聆听这首欢快的歌曲,也是及其不错的。

☞那些被大数据时代抛弃的人

☞反转!物联网火爆,开发者却太难了!

☞TypeScript 热度超 C 与 Python、Go 开发收入高、运维吃香,调查了 65000 名开发者有这些发现!

☞一篇与众不同的 String、StringBuilder 和 StringBuffer 详解

☞利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

☞赠书 | 供应链金融模式有哪些?区块链在供应链金融中如何应用?

    推荐阅读
  • 醒图中如何将抠图存为贴纸 醒图怎么把抠图保存到贴纸

    演示机型:Iphone13&&华为P50&&小米11系统版本:iOS15.2&&HarmonyOS2&&MIUI12.5APP版本:醒图5.2.0醒图中如何将抠图存为贴纸共有4步,本操作方法适用于Iphone13、华为P50、小米11三种机型。2点击人像选择抠图在页面中点击人像,选择抠图项目。3选择智能抠图选择智能抠图,抠出需要的部分图片。4下载另存至手机根据下载路径,另存为图片文件至手机即可保存为贴纸。

  • 新冠疫苗打还是不打好(到底要不要打新冠疫苗)

    新冠疫苗打还是不打好在身体条件允许的情况下,打新冠疫苗比较好,新冠疫苗能够特异性识别侵入的病原,形成免疫记忆,在遇到相同病原时便迅速产生抗体,消灭病原,达到预防效果,而且新冠疫苗的Ⅰ期、Ⅱ期的临床试验数据提供了一些有效性的参考指标,如中和抗体等,可见新冠疫苗具有较好的安全性和有效性。现阶段新冠肺炎疫情依然肆虐全球,人类对于新冠肺炎病毒普遍易感,而接种疫苗是重要的预防措施之一。

  • 重庆科技馆在哪个位置(了解科技馆建筑特色)

    以下内容大家不妨参考一二希望能帮到您!重庆科技馆在哪个位置重庆科技馆位于江北区江北城文星门街7号。重庆科技馆外观采用石材与玻璃两种材质。外墙石材使用多种颜色交叉重叠,像坚硬的岩石,隐喻“山”;占整个外墙的60%、近10000平方米的玻璃幕墙则清澈通透,隐喻“水”。石材的棱角分明、玻璃的透明如水,恰到好处地彰显出重庆“山水之城”的特征。

  • 望江南中的主旨句是什么 望江南名句是哪句

    千帆过尽盼望的人都没有出现,太阳的余晖脉脉地洒在江面上,江水慢慢地流着。思念的柔肠萦绕在那片白苹洲上。

  • 微信辅助一个月可以做几次 微信辅助几个月可以辅助一次

    2012年4月,腾讯公司将微信推向国际市场,更新为“Wechat”。2015年2月4日,微信团队在其公众平台发布抄袭行为处罚规则:第一次删文并警告、第二次封号7天、第三次封15天、第四次封30天、第五次永久封号。对于不遵守平台规则,乱使用“原创声明”功能的恶意和违规行为,一经发现和被举报,微信公众平台将永久回收其“原创声明”功能,且进行阶段性封号处理。

  • 榴莲怎么种植方法(榴莲如何种植)

    在播种前需要将种子进行浸泡,使其更易发芽。播种时要选择较大的行距,一般上下左右都间隔20厘米最为适宜。在春季抽出花蕾、夏季结果、采果前都需要施加肥料补充营养,在采果后还要施加有机肥使榴莲树积累营养继续生长。

  • 砂锅炖牛肉的家常做法(教你砂锅炖牛肉的家常做法)

    下面内容希望能帮助到你,我们来一起看看吧!砂锅炖牛肉的家常做法主料:牛肉5斤,生抽酱油半勺,葱1根,姜1块,辅料:蒜适量,盐适量,花椒少许,丁香少许,草果半个,大料少许,桂皮少许。除葱姜蒜其它食材放入调料盒中。牛肉放凉水中泡出血水,然后放入凉水锅中,在放入火中。大火烧开去掉浮末。盖上砂锅盖改小火炖一个半小时即可熟了。炖熟牛肉,汤香肉烂香香的。

  • 端午节的粽子是什么样的(粽子简介)

    端午节的粽子是什么样的端午节的粽子是甜粽子:水果粽,豆沙粽,枣子粽,香芋粽;咸粽子:肉粽,香菇粽,莲子棕。粽子的主要材料是糯米、馅料和箬叶(或柊叶)等。由于各地饮食习惯的不同,粽子形成了南北风味;从口味上分,粽子有咸粽和甜粽两大类。食粽的风俗,千百年来每年农历五月初五的端午节,中国百姓家家都要浸糯米、洗粽叶、包粽子。粽子作为中国历史文化积淀最深厚的传统食品之一,传播亦甚远。

  • 火影忍者血继限界能学吗(五种稀有血继限界)

    尸骨脉雾隐村反叛家族,辉夜一族的血继限界,这种疑似源于大筒木辉夜的血脉之力能够让继承者自由的控制成骨细胞的数量和骨骼成分,可以自由变化自己的骨头数目或型态,君麻吕死后,此种血继限界仅存于兜的身体中。尘遁由二代土影无开发而来的超越血继限界的血继淘汰,由火、风、土三种属性结合而成,形成一种特殊的光点与结界,在结界内被光点碰触到的任何物体都会化为灰烬,目前仅大野木能够使用该能力。

  • 首乌的功效与作用(首乌的好处有什么)

    首乌的功效与作用乌须发,古代中医将人的头发称为“血余”,认为“发为血之余”,即头发乃是血的延续,头发的荣润依赖于肝肾所藏的精血。而何首乌具有补肝肾、益精血的功效,内服可防治须发早白。预防动脉硬化,何首乌提取液还能降低血小板与红细胞聚集,减弱两者与血管内皮的吸附,能有效避免微血栓的形成,从而能增强血小板和红细胞的功能,促进血液流动,防止动脉粥样硬化。