基于爬虫+词云图+Kmeans聚类+LDA主题分析+社会网络语义分析对大唐不夜城用户评论进行分析

‍♂️ 个人主页：@艾派森的个人主页
✍作者简介：Python学习者
希望大家多多支持，我们一起进步！
如果文章对你有帮助的话，
欢迎评论点赞收藏加关注+

一、项目简介

二、实验过程

2.1获取数据

2.2情感分析

2.3TF-IDF+Kmeans聚类分析

2.4LDA主题分析

2.5社会语义网络分析

三、总结

一、项目简介

本项目是基于携程网中关于大唐不夜城评论的文本分析，项目中用到了Python爬虫、词频分析、词云图分析、kmeans聚类、LDA主题分析、情感分析、社会网络语义分析等。

二、实验过程

实验环境

Anaconda

Python3.9

2.1获取数据

数据目标是获取携程网中关于大唐不夜城景点的评论文本数据

由于该网站抓包不是很方便，于是我果断选择使用selenium自动化工具来爬取数据。该网站也不需要登录，直接可以访问这个页面并且可跳转下一页，最后我们使用CSV文件进行存储。

先导入第三方库

from time import sleepfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver import Chrome,ChromeOptionsfrom selenium.webdriver.common.by import Byimport warningsimport csvimport random#忽略警告warnings.filterwarnings("ignore")

创建我们的浏览器并准备好用来存储评论数据的csv文件

# 创建一个驱动service = Service('./chromedriver.exe')options = ChromeOptions()options.add_experimental_option('excludeSwitches', ['enable-automation','enable-logging'])options.add_experimental_option('useAutomationExtension', False)# 创建一个浏览器driver = Chrome(service=service,options=options)driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": """Object.defineProperty(navigator, 'webdriver', {get: () => false})"""})with open('comments.csv','a',encoding='utf-8',newline='')as f:csvwriter = csv.writer(f)csvwriter.writerow(('景点','用户评论'))main()

接下来就主要编写我们的main()函数，该函数主要就是访问页面获取评论标签元素，一页获取完点击下一页，并用创建的csv文件进行存储。

def main():driver.get('https://you.ctrip.com/sight/xian7/130441.html')sleep(2)for i in range(109):comment_list = driver.find_elements(By.XPATH,'//*[@id="commentModule"]/div[5]/div/div[2]/div[2]')for item in comment_list:try:comment = item.find_element(By.XPATH,'.').textcomment = comment.strip()comment = comment.replace('\n','')csvwriter.writerow(('大唐不夜城',comment))f.flush()print(comment)except:passdriver.find_element(By.CSS_SELECTOR,'li.ant-pagination-next>span').click()print(f'=====================第{i+1}页爬取完毕！=========================')sleep(random.random()*5)

评论一共有109页，于是我们爬取了109页，大概也就1000条评论数据，爬虫运行截图如下：