工具集

  1. Python: python.org/downloads/re
  2. 结巴中文分词jieba
  3. 词云生成 wordCloud
  4. 在线抠图,抠出想要的词云形状 remove.bg/zh
  5. 在线PS,图片截取及制作词云的形状 ps.gaoding.com/

安装Python

直接到Python官网下载安装即可。我用的是Python 3.7,链接如下:

python.org/downloads/re

打开cmd窗口并设置环境变量

  • 打开cmd窗口
  • 使用pushd切换到工作目录
pushd H:\Rudy\Project\自媒体\微信公众号_精打细算买好物\词云

注意:请将路径替换成你自己的工作目录。

  • 设置环境变量
SET PATH=C:\Users\My\AppData\Local\Programs\Python\Python37;C:\Users\My\AppData\Local\Programs\Python\Python37\Scripts;%PATH%

注意:路径是你自己电脑上的Python安装路径。

安装结巴中文分词jieba

在cmd窗口,用以下命令安装jieba,这里用的是清华大学的pip源。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

安装wordCloud

在cmd窗口这,用以下命令安装wordCloud,这里用的是清华大学的pip源。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple wordCloud

处理中文分词

输入

  • jieba_in.txt:用来生成词云图的原始文本。
jieba_in.txt截图
  • jieba_userdict.txt:不想被拆分的自定义词语字典。比如我的微信微信公众号“精打细算买好物”,结巴分词默认会分成“精打细算”、“买”、“好物”三个词语,但只要我把“精打细算买好物”加到到这个文件里,那么结巴分词就不会拆分它,而是把它当成一个词语输出。一个词语占一行。
jieba_userdict.txt截图

输出

  • jieba_out.txt:用来生成词云图的最终文本,是wordCloud的输入文件。
jieba_out.txt截图

处理步骤

很简单, 一个命令就可以搞定了:

python -m jieba -u jieba_userdict.txt jieba_in.txt > jieba_out.txt

如果你的文本文件是UTF-8编码的, 那就用以下命令指定文件编码即可。

python -X utf8 -m jieba -u jieba_userdict.txt jieba_in.txt > jieba_out.txt

处理词云形状

输入:

  • wc_org.jpg:计划用来生成词云的原始形状文件

输出:

  • wc_mask.png:词云的形状。
  • wc.png:词云中字体的颜色。

处理步骤

1)选中用来生成词云的主要图案,Ctrl+C复制。

2)创建一个新文件,然后Ctrl+V粘贴

3)将新文件导出为:wc_org_main.jpg。

1)打开网页,把上一步生成的wc_org_main.jpg拖动到网页上,即可去掉背景。

2)去掉背景后,默认是透明的。但是wordCloud不能处理透明背景,所以我们要把背景设为白色,然后下载重命名为wc.png。这个wc.png有两个用途:一是用来制作词云的形状,二是用来定义词云中字体的颜色。

1)打开上一步生成的wc.png。

2)使用魔棒,选中所有白色区域。

3)反选,再按键盘“Delete”键删除

4)使用黑色填充,然后导出文件为:wc_mask.png,这就是wordCloud用来生成词云的形状文件。


生成词云

输入

  • jieba_out.txt:经过中文分词处理用于生成词云的文本文件
  • wc_stopwords.txt:除外文件。文件中的词语不会出现在词云。
  • wc.png:词云字体的配色。
  • wc_mask.png:词云形状。
  • 字体文件名:在C:\Windows\Fonts中选一个字体,右键属性即可得到字体的文件名。*.TTF文件可以,*.fon文件不支持,其他字体文件未测试。

输出

  • out.png:词云的图形文件。

处理步骤

  • 默认配色

在cmd窗口里,运行一下命令即可:

wordcloud_cli --text jieba_out.txt --imagefile out.png --mask wc_mask.png --fontfile STXINGKA.TTF --stopwords wc_stopwords.txt
  • 指定配色文件

在cmd窗口里,运行一下命令即可:

wordcloud_cli --text jieba_out.txt --imagefile out.png --mask wc_mask.png --fontfile STXINGKA.TTF --stopwords wc_stopwords.txt --colormask wc.png
  • 白色背景

在cmd窗口里,运行一下命令即可:

wordcloud_cli --text jieba_out.txt --imagefile out.png --mask wc_mask.png --fontfile STXINGKA.TTF --stopwords wc_stopwords.txt --colormask wc.png --background white