文档章节

Java实现中文word2vec

Acce1erator
 Acce1erator
发布于 2016/04/21 14:23
字数 318
阅读 3607
收藏 48

依赖:

  1. java深度学习框架,deeplearning4j:http://deeplearning4j.org/word2vec

  2. 开源中文分词框架,ansj_seg:http://www.oschina.net/p/ansj

  3. 项目GitHub地址:https://github.com/YuyuZha0/word2vec

     

     

说明:word2vec深层次的原理不做说明,要实现word2vec主要要做到只有一件事,那就是词汇的识别。英文由于是空格符隔开的,所以分词比较容易,但是中文(包括日文、韩文)等是靠字形成句子的,所以借助分词工具将句子进行语法拆分很重要。word2vec借助一定的模型,通过对语料上下文进行分析,从而将词的含义投射到向量空间。相似的词在向量空间夹角很小,而不同的词差别则较大。需要注意的是,这一过程是不需要人工干预的,你只需要准备好语料即可.

 

2016-12-19更新:所有代码均迁移到了GitHub

 

 

© 著作权归作者所有

Acce1erator
粉丝 23
博文 25
码字总数 18001
作品 0
朝阳
程序员
私信 提问
加载中

评论(6)

Acce1erator
Acce1erator 博主

引用来自“gembins”的评论

有完整的代码吗,打个包
https://github.com/YuyuZha0/word2vec
Acce1erator
Acce1erator 博主

引用来自“zephyrDK”的评论

你好,想跟你请教个问题:能否把RegexUtil.java 的源码贴出来?
源码找不到了,但基本的逻辑我贴在原文的末尾了,希望能帮到你,另外这个每次调用都创建Pattern的做法很不可取,最好的做法是创建static final的pattern多次调用,后续我会尝试复原这个项目到时候发到GitHub上。
z
zephyrDK
你好,想跟你请教个问题:能否把RegexUtil.java 的源码贴出来?
Acce1erator
Acce1erator 博主

引用来自“gembins”的评论

RegexUtils 这个类的源码呢?

这些代码留在上一家公司了,这个工具类就是一个正则匹配分组,jdk自带的不缓存pattern,我做了下优化封装
g
gembins
有完整的代码吗,打个包
g
gembins
RegexUtils 这个类的源码呢?
ansj_seg+word2vec的使用

word2vec是谷歌开源的一个语义预测框架。主要是将词映射到一个维度空间上,每个词都有n个不同维度的信息,用vector表示,词与词之间的关系,就用vec之间的cosine值来表示,consine值越大,说...

大海之中
2018/06/26
0
0
11大Java开源中文分词器的使用方法和分词效果对比

本文的目标有两个: 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那...

杨尚川
2015/05/10
0
18
Tomcat中文乱码问题的原理和解决方法

Tomcat中文乱码问题的原理和解决方法   自从接触Java和JSP以来,就不断与Java的中文乱码问题打交道,现在终于得到了彻底的解决,现将我们的解决心得与大家共享。   一、Java中文问题的由...

孙斐
2013/02/26
0
0
图说 Java:理解 Java 机制最受欢迎的 8 幅图

世间总是一图胜过千万言,下面的8幅图来自于 Program Creek 的 Java教程 ,目前这是该网站最受欢迎的文章. 希望本文能帮你回顾你已经知道的那些知识。如果图片讲解的不够清晰,你可能需要阅读详...

大数据之路
2013/10/30
0
3
Discuz! Ucenter API for JAVA

Discuz! Ucenter API for JAVA 使用自己的项目于discuz联合登陆注册。 https://pan.baidu.com/s/1Wny6jNvvzCNvOPR0Oxe39Q 测试代码和源码都在这里。 源码和jar文件都在http://code.google.co...

小帅帅丶
2014/06/16
0
9

没有更多内容

加载失败,请刷新页面

加载更多

PostgreSQL build

https://buildfarm.postgresql.org/cgi-bin/show_log.pl?nm=lumpsucker&dt=2019-06-23%2020%3A57%3A27...

MtrS
今天
3
0
八、Docker Swarm

Docker Swarm有两件事:一个企业级的Docker主机安全集群,另一个是用于协调微服务应用程序的引擎。 在集群方面,它将一个或多个Docker节点组合在一起,并允许你将他们作为一个集群来管理。开...

倪伟伟
昨天
7
0
Fragment懒加载其实很简单

前言 记得去年面试的时候, 面了一家小公司, 那个面试官问我, fragment的懒加载做过吗?我说没做过(确实没做过).后来面试快结束了, 又问我, 懒加载没做过是吗?后来可想而知也没收到offer, (ಥ_...

天王盖地虎626
昨天
5
0
聊聊dubbo的TimeoutFilter

序 本文主要研究一下dubbo的TimeoutFilter ListenableFilter dubbo-2.7.2/dubbo-rpc/dubbo-rpc-api/src/main/java/org/apache/dubbo/rpc/ListenableFilter.java public abstract class Liste......

go4it
昨天
9
0
方法与数组

方法 方法就是完成特定功能的代码块;在很多语言里面都有函数的定义,函数在Java中被称为方法 格式: 修饰符 返回值类型 方法名(参数类型 参数名1,参数类型 参数名2…) throw 异常{ 函数体;...

凹凸凸
昨天
10
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部