文档章节

机学走起第七式:对接

厉力文武
 厉力文武
发布于 2017/08/18 15:57
字数 439
阅读 15
收藏 0

    之前聊过采用TF和TF-IDF两种权重作为向量值参与相似度计算的算法和实现,感觉效果和预期还是有一定的差距,怎么办?撸起袖子加油干。昨天聊过局哈算法今天让实践来检验真知,毛主席教导我们世上无难事只要肯登攀,拿出可上九天揽月可下五洋捉鳖的气概,没有困难创造困难也要上,深挖洞广积粮备战备荒,在机器学习人工智能神经网络的道路上坚定不移的迈向新季度,直入正题。

    第一步数据准备:初始IDF、分词、计算TF-IDF,创建向量,不细说了不清楚的从第一式开始爬楼慢慢看吧;

    第二步局部哈希:昨天聊过了,晓之以情动之以理掰开揉碎能说不能说的都明白儿的讲了,真是尽力了;

    第三步海明距离:把降维后的向量值放到一起做异或逻辑运算,统计比特位为1的个数,64位下小于等于三即可认为近似。在海量数据中的计算网上有许多讨论,无非空间换时间,但都感觉和完美有一定距离,有说能O(1)的,这是真的吗???

private static void SimHashHamDistance(Long s) {
	int num = 0;
		
	while (0 != s) {
		s &= s -1;
		num += 1;
	}
		
	System.out.println("HamDistance: " + num);
}

    比对着用例瞅瞅效果,https://git.oschina.net/gonglibin/codes/9nsmgr64ed0q7h5blpcf131,扎心了吧老铁?

航天员: [0.042866474940001], 载人: [0.03454385915100477], 交会: [0.03324403373307827], 对接: [0.02921719003554388], ......
航天员: [0.042866474940001], 载人: [0.03454385915100477], 交会: [0.03324403373307827], 对接: [0.02921719003554388], ......
1111010011100110010101100111010000010110111010111000111111011010
1111010011100110010101100111010000010110111010111010111111011110
0000000000000000000000000000000000000000000000000010000000000100
HamDistance: 2

    预告:《机学走起第八式:返回》之相似度算法对比和体会。

© 著作权归作者所有

共有 人打赏支持
厉力文武
粉丝 30
博文 86
码字总数 81619
作品 0
朝阳
程序员
私信 提问
嵌入式系统定制开发的分层与专业的分类

嵌入式系统这个名词还是比较难以准确定义的,一般把“用于控制、监视或者辅助操作机器和设备的装置”称为嵌入式系统,系统包括一系列软硬件设施等,比如:手机的系统开发(Android、IOS等),...

gunser
05/31
0
0
我使用NHibernate在.NET中遇到的问题一记!

.Net ORM映射框架 NHibernate,本来是Java的东西,一群牛B轰轰的码农,移植到了.NET平台、是个非常不错的 ORM 映射框架、 故事开始啦 ~_~ ! 下班的钟声已经敲响了,远远望去。打卡机处排着长...

点儿都不扯
2015/03/27
0
0
8Manage助力中机国达向数字化采购管理转型

近日,中机国达电力科技江苏有限公司签约8Manage,将上线8Manage SPM(采购与供应商管理系统),以期整合企业资源,向数字化采购管理转型,实现对采购流程和供应商的360°管控。 中机国达电力...

玄学酱
03/19
0
0
一览加密区块链数字资产系统九大开发体系

据我统计,加密区块链数字资产系统开发体系目前有九大体系,当然了这只是我的初步统计,也希望大家能够了解我们的开发体系,并进行资讯开发了解! 【本文由系统开发/微信 138 2881 2723提供】...

数字资产先生
06/08
0
0
浙大的游戏设计教程

第一部分 游戏程序设计概览 计算机游戏简介:什么是游戏、游戏的分类等 游戏的基本开发流程? 游戏开发的基本理念及方法 游戏软件的体系结构:包括三维游戏引擎的架构分析 游戏的调试与测试 ...

Matrix4X4
2012/08/19
361
2

没有更多内容

加载失败,请刷新页面

加载更多

使用 React 和 Vue 创建相同的应用,他们有什么差异?

在工作中应用 Vue 之后,我对它有了相当深刻的理解。 不过,俗话说「外国的月亮比较圆」,我好奇「外国的」 React 是怎么样的。 我阅读了 React 文档并观看了一些教程视频,虽然它们很棒,但...

阿K1225
14分钟前
0
0
如何使用Kubernetes的configmap通过环境变量注入到pod里

在Kubernetes官网里,有这样一篇文章,提到了Kubernetes里的一个最佳实践就是把应用代码同配置信息分开,一种方式就是使用Kubernetes 1.2里引入的configmap概念。 https://kubernetes.io/bl...

JerryWang_SAP
30分钟前
0
0
2天闭门培训|以太坊智能合约从入门到实战(北京)

2天培训 16个课时 探寻技术原理,精通以太坊智能合约开发 以太坊智能合约是现在应用的最广泛的区块链应用开发方式,HiBlock区块链社区针对以太坊智能合约的学习特别推出2天闭门研修班,通过2...

HiBlock
32分钟前
0
0
限定某个目录禁止解析php,限制user_agent,php相关配置

11月20日任务 11.28 限定某个目录禁止解析php 11.29 限制user_agent 11.30/11.31 php相关配置 1.限定某个目录禁止解析php 核心配置文件内容 <Directory /data/wwwroot/www.123.com/upload> p...

hhpuppy
43分钟前
2
0
Spring的好文章

孤傲苍狼 https://www.cnblogs.com/xdp-gacl/p/4249939.html 跟我学spring http://jinnianshilongnian.iteye.com/blog/1413846 SpringIoc 和Spring Aop 代理模式: 静态代理 动态代理 cglib代......

wangwei2134
54分钟前
0
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部