词云图制作 python
练了一段时间的词云图,就来和大家讲讲词云图制作的详细过程。
效果图
工具准备
- 1、python3
- 2、安装第三方库wordcloud
- 3、安装numpy、pillow库。
- 4、安装jieba库
- 5、安装matplotlib库
from wordcloud import WordCloudimport numpy as npfrom PIL import Imagefrom matplotlib import colorsimport collections#这些都是需要使用的库
安装方法:我大多是借助pycharm中的setting直接安装。但是也有安装失败的,大家可以自行“c一下”
代码展示
# -*- coding: utf-8 -*-import jiebafrom wordcloud import WordCloudimport numpy as npfrom PIL import Imagefrom matplotlib import colorsimport collectionsdef chinese_jieba(): # 读取目标文本 with open(r'文本.txt', encoding='utf-8') as fp: txt = fp.read() fp.close() wordlist_jieba = jieba.lcut(txt) # 将文本分割,返回列表 txt_jieba = " ".join(wordlist_jieba) # 将列表拼接为以空格为间断的字符串 return txt_jieba def stopwords_read(): # 读取停用词,也可自己根据需求写入 stopwords_ = ['里', '拍'] with open('chinesestopwords.txt', 'r', encoding='utf-8') as f: for line in f: if len(line) > 0: stopwords_.append(line.strip()) return stopwords_ def wordcloud_generate(): stopwords_ = stopwords_read()#读取停用词 txt = chinese_jieba()#读取文本 background_image = np.array(Image.open('椭圆背景.jpg'))#自定义背景轮廓 colormaps = colors.ListedColormap(['#871A84', '#BC0F6A', '#BC0F60', '#CC5F6A', '#AC1F4A']) # 自定义字体色,该系列是蓝紫色 wordcloud = WordCloud(font_path='simhei.ttf', # 字体 prefer_horizontal=0.99,#大部分都是横向排放 background_color='white', # 背景色 max_words=100, # 显示单词数 max_font_size=400, #最大字号 stopwords=stopwords_, # 过滤噪声词 mask=background_image,#背景轮廓 colormap=colormaps,#使用自定义颜色 collocations=False ).generate(txt) image = wordcloud.to_image() image.show() # 展示图片 wordcloud.to_file('词云图.jpg') # 保存图片if __name__ == '__main__': wordcloud_generate()
以上代码可直接运行生成的图片可以去存放这个代码的文件夹下寻找
代码分析
基本运行条件:
首先是各种库都安装完毕;
其次将代码、目标文本、停用词文本、字体、背景图存放在同一个文件夹下(如果不存放在同一个文件夹下,就需要将代码中的资源引用路径改为绝对路径)如图:
文本
文本我是存储在txt文件中,具体信息来自微博上对智慧养老的关键字爬取,事实上,词云图也很好地体现了这一主题。停用词
什么是停用词?
首先我们得清了解,在对文本进行分词后,可能会得到一些零散无用的词,有时候不利于文本主题的展现,比如“这个”,“那个”等,那么我们可以将这些词列入停用词中,图片上就不会展现这些词了。词云图文字颜色
文字颜色有许多设置方法,这里采用自定义配色,这里送上我推荐的一些颜色集合供大家使用,经过我千挑万选,蛮好看的颜色
['#43045F', '#4E0362', '#C63264', '#FF9799', '#FFBAAB'] #紫色['#7e9680', '#79616f', '#AE6378', '#D87F81', '#EAB595'] #杂色
- 其余参数
许多参数我在程序中均有注释,大家可以结合理解,根据自己的需要修改。 - 清晰度
如果是根据背景图片生成词云图,那么生成的词云图的清晰度是和背景图片一样的,背景图片是100100像素的,那么生成的词云图也是100100的,建议大家选取清晰度高的背景图片。