语料库

想要训练好word2vec模型,一份高质量的中文语料库是必要的,目前常用质量较好的中文语料库为维基百科的中文语料库。

维基百科的中文语料库质量高、领域广泛而且开放,其每月会将所有条目打包供大家下载使用,可以点击: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版(也可以访问:https://dumps.wikimedia.org/zhwiki/ 获取历史版本)。 由于某些的原因,中文维基百科的条目到目前只有91万多条,而百度百科、互动百科都有千万条了(英文维基百科也有上千万了)。尽管中文维基百科语料条数较少,但仍不失为最高质量的中文语料库。(ps:百度百科、互动百科多用爬虫爬取内容,不少记录质量差。) https://github.com/lzhenboy/word2vec-Chinese

使用 Hugo 构建
主题 StackJimmy 设计