最近做了一个《数据之+》的平台,根据大数据的采集,通过一系列对比算法从中分析出最受欢迎的,比较准确客观的排行榜,比如电影,书籍,好物,回答等,希望能为大家节省时间,让人人都能从海量的数据中解脱出来,从优质的数据中受益。
1.数据采集
从互联网上爬取了1030条推荐回答,涉及电影5470部,去重后2122部。
2.存储到内存数据库Redis有序集合
把抓取到的数据,从缓存队列取出来,整理之后存储到内存数据库,如果已存在则分数+1。
3.数据分析
从2122部电影里,根据出现重复次数及分数,由高到低进行排序,筛选出100部。
经过一番折腾,总算分析出《高分好看的100部电影》(推荐次数最多)如下结果:
电影名:推荐次数
- 《肖申克的救赎》:72
- 《寄生虫》:65
- 《绿皮书》:51
- 《霸王别姬》:50
- 《小丑》:43
- 《何以为家》:43
- 《怦然心动》:39
- 《泰坦尼克号》:38
- 《阿甘正传》:37
- 《婚姻故事》:37
- 《美丽人生》:36
- 《爱尔兰人》:36
- 《这个杀手不太冷》:34
- 《海上钢琴师》:34
- 《楚门的世界》:34
- 《当幸福来敲门》:30
- 《少年的你》:30
- 《千与千寻》:30
- 《盗梦空间》:29
- 《流浪地球》:29
- 《星际穿越》:29
- 《1917》:29
- 《误杀》:26
- 《教父》:26
- 《辛德勒的名单》:25
- 《小妇人》:24
- 《哪吒之魔童降世》:24
- 《我不是药神》:23
- 《三傻大闹宝莱坞》:23
- 《罗小黑战记》:22
- 《放牛班的春天》:22
- 《调音师》:21
- 《触不可及》:21
- 《忠犬八公的故事》:21
- 《赎罪》:20
- 《罗马假日》:19
- 《闻香识女人》:18
- 《好莱坞往事》:18
- 《穿条纹睡衣的男孩》:17
- 《熔炉》:17
- 《极速车王》:17
- 《控方证人》:17
- 《海蒂和爷爷》:16
- 《利刃出鞘》:16
- 《82年生的金智英》:16
- 《西西里的美丽传说》:15
- 《看不见的客人》:15
- 《猫鼠游戏》:14
- 《活着》:14
- 《波西米亚狂想曲》:14
- 《杀人回忆》:14
- 《末代皇帝》:14
- 《断背山》:14
- 《情书》:14
- 《地久天长》:14
- 《十二怒汉》:14
- 《傲慢与偏见》:14
- 《乔乔的异想世界》:14
- 《七号房的礼物》:14
- 《辩护人》:13
- 《素媛》:13
- 《白日梦想家》:13
- 《天堂电影院》:13
- 《你的名字》:13
- 《七宗罪》:13
- 《饮食男女》:12
- 《釜山行》:12
- 《超脱》:12
- 《让子弹飞》:12
- 《禁闭岛》:12
- 《痛苦与荣耀》:12
- 《无间道》:12
- 《心灵捕手》:12
- 《小偷家族》:12
- 《了不起的盖茨比》:12
- 《乱世佳人》:12
- 《龙猫》:11
- 《穿普拉达的女王》:11
- 《狩猎》:11
- 《流感》:11
- 《我和我的祖国》:11
- 《大鱼》:11
- 《驴得水》:10
- 《飞屋环游记》:10
- 《雨人》:10
- 《钢琴家》:10
- 《蝴蝶效应》:10
- 《美国往事》:10
- 《时空恋旅人》:10
- 《无人知晓》:10
- 《搏击俱乐部》:10
- 《恋恋笔记本》:10
- 《奇迹男孩》:10
- 《大话西游》:10
- 《低俗小说》:10
- 《阳光灿烂的日子》:9
- 《阳光普照》:9
- 《遗愿清单》:9
- 《遇见你之前》:9
- 《返老还童》:9
以上就是分析出来的数据,因为采集数据量有限,结果可能有些出入,但大体上是准确的,毕竟很多人已经帮你筛选过了,比自己去找要好很多。
人生苦短,不要浪费时间。
以后我还会分析各种有用的回答,并且持续优化排序算法,让分析更准确,希望对大家有所帮助!
创作不易,觉得不错,给个赞,感谢支持!
- 我的微信
- 微信扫一扫
-
- 我的微信公众号
- 微信扫一扫
-
评论