文档章节

基于词向量机器学习及其效果

厉力文武
 厉力文武
发布于 2017/03/11 08:33
字数 229
阅读 75
收藏 1

命令:./word2vec -train src.txt -output dst.vec -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 2 -binary 1

虚拟机(Linux kafka 2.6.32-71.el6.i686 #1 SMP Fri Nov 12 04:17:17 GMT 2010 i686 i686 i386 GNU/Linux)、CPU(2核)、MEM(2G)、DISK(30G),296兆语料(107561条)耗时5小时。

Enter word or sentence (EXIT to break): 装修

Word: 装修  Position in vocabulary: 951

                                           Word       Cosine distance
------------------------------------------------------------------------
                                            装饰        0.731105
                                            修缮        0.637651
                                            室内        0.605636
                                            幕墙        0.603140
                                            改造        0.582827
                                            用房        0.578895
                                            展厅        0.565073
                                         智能化        0.561778
                                            餐厅        0.548683
                                            房屋        0.545347
                                            人防        0.536202
                                            布展        0.528918
                                            门窗        0.508925
                                         卫生间        0.508035
                                            屋面        0.507124
                                            楼顶        0.500727
                                         平改坡        0.500140
                                         业务楼        0.498720
                                            土建        0.498519
                                         教学楼        0.496684
                                         地下室        0.491081
                                         宿舍楼        0.488782
                                            室外        0.483385
                                            粉刷        0.474570
                                         活动室        0.471253
                                         阅览室        0.469641
                                            暖气        0.468239
                                         住院部        0.466538
                                         宁海校        0.464838

Enter word or sentence (EXIT to break): 东 西 南

Word: 东  Position in vocabulary: 240

Word: 西  Position in vocabulary: 256

Word: 南  Position in vocabulary: 292

                                            Word       Cosine distance
------------------------------------------------------------------------
                                               北          0.784407

© 著作权归作者所有

厉力文武
粉丝 30
博文 86
码字总数 81619
作品 0
朝阳
程序员
私信 提问
深度学习文本分类在支付宝投诉文本模型上的应用

小蚂蚁说: 随着深度学习的快速发展,以及在图像、语音领域取得的不错成果,基于深度学习的自然语言处理技术也日益受到人们的关注。计算机是怎么理解人类的语言的呢? 传统机器学习的应用,常...

阿里云云栖社区
2018/08/17
0
0
文本分类解决方法综述(1)(2)(3)

一、传统文本分类方法   文本分类问题算是自然语言处理领域中一个非常经典的问题了,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至在80年代初一度发展...

阿锋zxf
2018/09/10
38
0
CIKM AnalytiCup 2018冠军方案出炉,看他们构造模型的诀窍

雷锋网 AI 科技评论消息,CIKM AnalytiCup 2018(阿里小蜜机器人跨语言短文本匹配算法竞赛)近日落幕,由微软罗志鹏、微软孙浩,北京大学黄坚强,华中科技大学刘志豪组成的 DeepSmart 团队在...

汪思颖
2018/11/29
0
0
干货解析|深度学习文本分类在支付宝投诉文本模型上的应用

小蚂蚁说: 随着深度学习的快速发展,以及在图像、语音领域取得的不错成果,基于深度学习的自然语言处理技术也日益受到人们的关注。计算机是怎么理解人类的语言的呢? 传统机器学习的应用,常...

兔子酱
2018/08/16
0
0
大数据分析挖掘技术学习:Python文本分类

引言 文本分类作为自然语言处理任务之一,被广泛应用于解决各种商业领域的问题。文本分类的目的是将 文本/文档 自动地归类为一种或多种预定义的类别。常见的文本分类应用如下: • 理解社交媒...

加米谷大数据
2018/07/19
3
0

没有更多内容

加载失败,请刷新页面

加载更多

如何编写高质量的 JS 函数(1) -- 敲山震虎篇

本文首发于 vivo互联网技术 微信公众号 链接:https://mp.weixin.qq.com/s/7lCK9cHmunvYlbm7Xi7JxQ 作者:杨昆 一千个读者,有一千个哈姆雷特。 此系列文章将会从函数的执行机制、鲁棒性、函...

vivo互联网技术
38分钟前
5
0
学会这5个Excel技巧,让你拒绝加班

在网上,随处都可以看到Excel技巧,估计已看腻了吧?但下面5个Excel技巧会让你相见恨晚。关键的是它们个个还很实用 图一 技巧1:快速删除边框 有时当我们处理数据需要去掉边框,按Ctrl+Shif...

干货趣分享
今天
11
0
JS基础-该如何理解原型、原型链?

JS的原型、原型链一直是比较难理解的内容,不少初学者甚至有一定经验的老鸟都不一定能完全说清楚,更多的"很可能"是一知半解,而这部分内容又是JS的核心内容,想要技术进阶的话肯定不能对这个...

OBKoro1
今天
9
0
高防CDN的出现是为了解决网站的哪些问题?

高防CDN是为了更好的服务网络而出现的,是通过高防DNS来实现的。高防CDN是通过智能化的系统判断来路,再反馈给用户,可以减轻用户使用过程的复杂程度。通过智能DNS解析,能让网站访问者连接到...

云漫网络Ruan
今天
15
0
OSChina 周一乱弹 —— 熟悉的味道,难道这就是恋爱的感觉

Osc乱弹歌单(2019)请戳(这里) 【今日歌曲】 @xiaoshiyue :好久没分享歌了分享张碧晨的单曲《今后我与自己流浪》 《今后我与自己流浪》- 张碧晨 手机党少年们想听歌,请使劲儿戳(这里)...

小小编辑
今天
3.3K
25

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部