机学走起第七式:对接
机学走起第七式:对接
厉力文武 发表于4个月前
机学走起第七式:对接
  • 发表于 4个月前
  • 阅读 9
  • 收藏 0
  • 点赞 0
  • 评论 0

腾讯云 技术升级10大核心产品年终让利>>>   

    之前聊过采用TF和TF-IDF两种权重作为向量值参与相似度计算的算法和实现,感觉效果和预期还是有一定的差距,怎么办?撸起袖子加油干。昨天聊过局哈算法今天让实践来检验真知,毛主席教导我们世上无难事只要肯登攀,拿出可上九天揽月可下五洋捉鳖的气概,没有困难创造困难也要上,深挖洞广积粮备战备荒,在机器学习人工智能神经网络的道路上坚定不移的迈向新季度,直入正题。

    第一步数据准备:初始IDF、分词、计算TF-IDF,创建向量,不细说了不清楚的从第一式开始爬楼慢慢看吧;

    第二步局部哈希:昨天聊过了,晓之以情动之以理掰开揉碎能说不能说的都明白儿的讲了,真是尽力了;

    第三步海明距离:把降维后的向量值放到一起做异或逻辑运算,统计比特位为1的个数,64位下小于等于三即可认为近似。在海量数据中的计算网上有许多讨论,无非空间换时间,但都感觉和完美有一定距离,有说能O(1)的,这是真的吗???

private static void SimHashHamDistance(Long s) {
	int num = 0;
		
	while (0 != s) {
		s &= s -1;
		num += 1;
	}
		
	System.out.println("HamDistance: " + num);
}

    比对着用例瞅瞅效果,https://git.oschina.net/gonglibin/codes/9nsmgr64ed0q7h5blpcf131,扎心了吧老铁?

航天员: [0.042866474940001], 载人: [0.03454385915100477], 交会: [0.03324403373307827], 对接: [0.02921719003554388], ......
航天员: [0.042866474940001], 载人: [0.03454385915100477], 交会: [0.03324403373307827], 对接: [0.02921719003554388], ......
1111010011100110010101100111010000010110111010111000111111011010
1111010011100110010101100111010000010110111010111010111111011110
0000000000000000000000000000000000000000000000000010000000000100
HamDistance: 2

    预告:《机学走起第八式:返回》之相似度算法对比和体会。

共有 人打赏支持
粉丝 28
博文 41
码字总数 57816
×
厉力文武
如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
* 金额(元)
¥1 ¥5 ¥10 ¥20 其他金额
打赏人
留言
* 支付类型
微信扫码支付
打赏金额:
已支付成功
打赏金额: