文档章节

机学走起第七式:对接

厉力文武
 厉力文武
发布于 2017/08/18 15:57
字数 439
阅读 15
收藏 0

    之前聊过采用TF和TF-IDF两种权重作为向量值参与相似度计算的算法和实现,感觉效果和预期还是有一定的差距,怎么办?撸起袖子加油干。昨天聊过局哈算法今天让实践来检验真知,毛主席教导我们世上无难事只要肯登攀,拿出可上九天揽月可下五洋捉鳖的气概,没有困难创造困难也要上,深挖洞广积粮备战备荒,在机器学习人工智能神经网络的道路上坚定不移的迈向新季度,直入正题。

    第一步数据准备:初始IDF、分词、计算TF-IDF,创建向量,不细说了不清楚的从第一式开始爬楼慢慢看吧;

    第二步局部哈希:昨天聊过了,晓之以情动之以理掰开揉碎能说不能说的都明白儿的讲了,真是尽力了;

    第三步海明距离:把降维后的向量值放到一起做异或逻辑运算,统计比特位为1的个数,64位下小于等于三即可认为近似。在海量数据中的计算网上有许多讨论,无非空间换时间,但都感觉和完美有一定距离,有说能O(1)的,这是真的吗???

private static void SimHashHamDistance(Long s) {
	int num = 0;
		
	while (0 != s) {
		s &= s -1;
		num += 1;
	}
		
	System.out.println("HamDistance: " + num);
}

    比对着用例瞅瞅效果,https://git.oschina.net/gonglibin/codes/9nsmgr64ed0q7h5blpcf131,扎心了吧老铁?

航天员: [0.042866474940001], 载人: [0.03454385915100477], 交会: [0.03324403373307827], 对接: [0.02921719003554388], ......
航天员: [0.042866474940001], 载人: [0.03454385915100477], 交会: [0.03324403373307827], 对接: [0.02921719003554388], ......
1111010011100110010101100111010000010110111010111000111111011010
1111010011100110010101100111010000010110111010111010111111011110
0000000000000000000000000000000000000000000000000010000000000100
HamDistance: 2

    预告:《机学走起第八式:返回》之相似度算法对比和体会。

© 著作权归作者所有

共有 人打赏支持
厉力文武
粉丝 30
博文 83
码字总数 77362
作品 0
朝阳
程序员
嵌入式系统定制开发的分层与专业的分类

嵌入式系统这个名词还是比较难以准确定义的,一般把“用于控制、监视或者辅助操作机器和设备的装置”称为嵌入式系统,系统包括一系列软硬件设施等,比如:手机的系统开发(Android、IOS等),...

gunser
05/31
0
0
一览加密区块链数字资产系统九大开发体系

据我统计,加密区块链数字资产系统开发体系目前有九大体系,当然了这只是我的初步统计,也希望大家能够了解我们的开发体系,并进行资讯开发了解! 【本文由系统开发/微信 138 2881 2723提供】...

数字资产先生
06/08
0
0
8Manage助力中机国达向数字化采购管理转型

近日,中机国达电力科技江苏有限公司签约8Manage,将上线8Manage SPM(采购与供应商管理系统),以期整合企业资源,向数字化采购管理转型,实现对采购流程和供应商的360°管控。 中机国达电力...

玄学酱
03/19
0
0
浙大的游戏设计教程

第一部分 游戏程序设计概览 计算机游戏简介:什么是游戏、游戏的分类等 游戏的基本开发流程? 游戏开发的基本理念及方法 游戏软件的体系结构:包括三维游戏引擎的架构分析 游戏的调试与测试 ...

Matrix4X4
2012/08/19
361
2
我使用NHibernate在.NET中遇到的问题一记!

.Net ORM映射框架 NHibernate,本来是Java的东西,一群牛B轰轰的码农,移植到了.NET平台、是个非常不错的 ORM 映射框架、 故事开始啦 ~_~ ! 下班的钟声已经敲响了,远远望去。打卡机处排着长...

点儿都不扯
2015/03/27
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

(三)Nginx配置·续

概述 前文写了关于Nginx环境配置,但是还没有完,接下来将会继续讲三个相关的配置 主要是以下三个 1.Nginx访问日志 2.Nginx日志切割 3.静态文件不记录日志和过期时间 Nginx访问日志 1.先看看...

杉下
今天
1
0
jquery创建类似于java的map

var map = {}; // Map map = new HashMap(); map[key] = value; // map.put(key, value); var value = map[key]; // Object value = map.get(key); var has = key in map; // boolean has = ......

SuperDabai
今天
0
0
java大数据转换16进制转10进制

public static void main(String[] args) {String hex = "0xdbf3accc683297cf0000";BigInteger amount = new BigInteger(hex.substring(2), 16);System.out.println(amount);......

任梁荣
昨天
2
0
OSChina 周六乱弹 —— 目测我们程序员丁克的几率不大

Osc乱弹歌单(2018)请戳(这里) 【今日歌曲】 @真Skr小机灵鬼儿:8.13分享Jocelyn Pook/Russian Red的单曲《Loving Strangers》 《Loving Strangers》- Jocelyn Pook/Russian Red 手机党少...

小小编辑
昨天
13
3
TypeScript基础入门 - 函数 - 剩余参数

转载 TypeScript基础入门 - 函数 - 剩余参数 项目实践仓库 https://github.com/durban89/typescript_demo.gittag: 1.2.1 为了保证后面的学习演示需要安装下ts-node,这样后面的每个操作都能...

durban
昨天
1
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部