温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :)
1. 项目简介
本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据,并对电影数据进行可视化分析,实现电影的检索、热门电影排行和电影的分类推荐,同时对电影的评论进行关键词抽取和情感分析。
2. 功能组成
基于python的电影数据可视化分析系统的功能组成如下图所示:
3. 基于python的电影数据可视化分析与推荐系统
3.1 系统注册登录
系统的其他页面的访问需要注册登录,否则访问受限,其首页注册登录页面如下:
3.2 全球电影数据爬虫
互联网电影资料库,隶属于xxx公司旗下网站,是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库,包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。
def get_movie_detail(url):"""获取电影发行的详细信息"""response = requests.get(url, headers=headers)response.encoding = 'utf8'soup = BeautifulSoup(response.text, 'lxml')intro_text = soup.find('span', class_='a-size-medium').text.strip()summary = soup.find('div', class_='mojo-summary-values')items = summary.find_all('div', class_='a-section a-spacing-none')movie_detail = {}for item in items:spans = item.find_all('span')key = spans[0].text.strip()if key == 'Domestic Distributor':# 经销商movie_detail['Domestic_Distributor'] = spans[1].text.strip().split('See')[0]elif key == 'Domestic Opening': # 国内开放opening = item.find('span', class_='money').text.strip()movie_detail['Domestic_Opening'] = float(opening.replace(',', '')[1:])elif key == 'Budget': # 电影发行时候的预算budget = item.find('span', class_='money').text.strip()movie_detail['Budget'] = float(budget.replace(',', '')[1:])elif key == 'Earliest Release Date':# 首次发行时间movie_detail['Earliest_Release_Date'] = spans[1].text.strip().split('(')[0].strip()elif key == 'MPAA':movie_detail['MPAA'] = spans[1].text.strip()elif key == 'Running Time': # 电影时长run_time = spans[1].text.strip()run_time = int(run_time.split('hr')[0].strip()) * 60 + int(run_time.split('hr')[1].strip()[:-3])movie_detail['Running_Time'] = run_timeelif key == 'Genres':# 电影题材genres = spans[1].text.strip()movie_detail['Genres'] = genres.split()else:continuemojo_gutter = soup.find('div', class_='a-section mojo-h-scroll')# 发行地域数areas = mojo_gutter.select('table')movie_detail['Relase_Areas'] = len(areas)# 发行的版本数release_trs = mojo_gutter.select('tr')movie_detail['Relase_Count'] = len(release_trs) - len(areas)return movie_detail
3.3 全球电影数据可视化分析
电影出品的年份和制作语言分布情况
不同制作国家或地区的电影数目分布情况
不同类型电影的数目分布情况
不同类型电影的时长分布箱型图
不同类型电影的拍摄预算与票房收入的分布箱型图
不同类型电影的评分分布箱型图
不同电影风格的受欢迎程度分布箱型图
电影评分对票房的影响
3.4 国内电影网站的TOP 电影分析
实时抓取国内某电影评论网站不同分类下的TOP电影排名数据:
def top20_movie_analysis(cate):""" Top20 电影 """url = 'https://movie.xxxx.com/j/search_subjects" />3.5 电影分类推荐
3.6电影评论分析
对抓取的电影评论信息进行文本预处理,包括去除空字符、重复字符和标点符号等,并进行基于 tfidf 和情感词典的情感分析:
......count = 0while True:......start = 10 * (len(comments) // 10 + 1)comment_url = movie_url + '/reviews" />4. 总结
本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据,并对电影数据进行可视化分析,实现电影的检索、热门电影排行和电影的分类推荐,同时对电影的评论进行关键词抽取和情感分析。
欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。
技术交流认准下方CSDN 官方提供的学长 Wechat / QQ 名片 :)
精彩专栏推荐订阅:
1. Python 毕设精品实战案例
2. 自然语言处理 NLP 精品实战案例
3. 计算机视觉 CV 精品实战案例