word2vec的使用参数解释和应用场景
#1. word2vec原生代码运行 ##搭建word2vec环境 ###安装Cywin 因为我用的服务器是windows sever,所以需要装了cywin 安装过程参考: Windows下使用Word2vec继续词向量训练 ###下载word2vec 因为word2vec现在已经集成到了tensorflow中,所以官网上svn已经没法下到了 这里找到了别人在github的word2vec项目可以使用:地址 ###使用word2vec 用cywin切换到word2vec目录下,进入./src文件夹,然后输入make,回车,之后会在bin文件下出现很多exe执行文件 ##数据准备 ###搜狗的新闻数据, 来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。 大家可以下到,申请也不麻烦,就是数据有点老,有些新鲜词汇没有,另外,由于是新闻数据,所以,有些词汇也是没有的 ###数据整理和分词 首先,下载的数据是有html标签的,我们只需要content的内容: 数据整理和分词参考这篇博客 首先,取content标签下的数据
