文档章节

php-数据分析 余弦相似度实现

Foyon
 Foyon
发布于 2012/09/11 16:16
字数 315
阅读 411
收藏 2
<?php
/**
 * 数据分析引擎
 * 分析向量的元素 必须和基准向量的元素一致,取最大个数,分析向量不足元素以0填补。
 * 求出分析向量与基准向量的余弦值
 * @author Foyon
 */


/**
 * 获得向量的模
 * @param unknown_type $array 传入分析数据的基准点的N维向量。|eg:array(1,1,1,1,1);
 */
function getMarkMod($arrParam){
$strModDouble = 0;
foreach($arrParam as $val){
$strModDouble += $val * $val;
}
$strMod = sqrt($strModDouble);
//是否需要保留小数点后几位
return $strMod;
}

/**
 * 获取标杆的元素个数
 * @param unknown_type $arrParam
 * @return number
 */
function getMarkLenth($arrParam){
$intLenth = count($arrParam);
return $intLenth;
}
/**
 * 对传入数组进行索引分配,基准点的索引必须为k,求夹角的向量索引必须为 'j'.
 * @param unknown_type $arrParam
 * @param unknown_type $index
 * @ruturn $arrBack
 */
function handIndex($arrParam, $index = 'k'){
foreach($arrParam as $key => $val){
$in = $index.$key;
$arrBack[$in] = $val; 
}
return $arrBack;
}

/**
 * 
 * @param unknown_type $arrMark标杆向量数组(索引被处理过)
 * @param unknown_type $arrAnaly 分析向量数组 (索引被处理过) |array('j0'=>1,'j1'=>2....)
 * @param unknown_type $strMarkMod标杆向量的模
 * @param unknown_type $intLenth 向量的长度
 */
function getCosine($arrMark, $arrAnaly, $strMarkMod ,$intLenth){
$strVector = 0;
$strCosine = 0;
for($i = 0; $i < $intLenth; $i++){
$strMarkVal = $arrMark['k'.$i];
$strAnalyVal = $arrAnaly['j'.$i];
$strVector += $strMarkVal * $strAnalyVal;
}
$arrAnalyMod = getMarkMod($arrAnaly); //求分析向量的模
$strFenzi = $strVector;
$strFenMu = $arrAnalyMod * $strMarkMod;
$strCosine = $strFenzi / $strFenMu;
if(0 !== (int)$strFenMu){
$strCosine = $strFenzi / $strFenMu;
}
return $strCosine;
}
?>

© 著作权归作者所有

Foyon
粉丝 4
博文 8
码字总数 7357
作品 0
海淀
程序员
私信 提问
余弦距离、欧氏距离和杰卡德(Jaccard)相似性度量的比较

1、余弦距离 余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。 向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近...

u011734144
2018/05/09
0
0
推荐系统(三):基于标签的协同过滤算法

一、推荐系统的主要方法 推荐系统的目的是联系用户的兴趣和物品,这种联系需要依赖不同的媒介。目前流行的推荐系统基本上通过以下3种方式联系用户兴趣和物品: (1)利用用户喜欢过的物品,给...

翡翠森林Z
2017/12/05
0
0
K-Means聚类的一些小问题

K-Means的细节问题##### K值怎么定?我怎么知道应该几类? 答:这个真的没有确定的做法,分几类主要取决于个人的经验与感觉,通常的做法是多尝试几个K值,看分成几类的结果更好解释,更符合分...

超神的小橘子
2018/02/26
0
0
Mahout中相似度计算方法介绍

Mahout中相似度计算方法介绍 在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,...

liangtee
2013/03/16
0
3
使用spark计算文档相似度

1、TF-IDF文档转换为向量 以下边三个句子为例 经过分词后变为 经过词频(TF)计算后,词频=某个词在文章中出现的次数 262144为总词数,这个值越大,不同的词被计算为一个Hash值的概率就越小,...

penngo
2016/12/17
3.2K
2

没有更多内容

加载失败,请刷新页面

加载更多

Protocol Buffers 简介

文档编辑和持续集成状态: 本文档的 Protocol Buffer 的中文文档使用的是 Asciidoctor 进行编排的 http://docs.ossez.com/protocol-buffers-docs/index.html(本 WIKI 中的内容将会与在线发布...

honeymoose
今天
4
0
uniapp + bootstrapvue 移动/PC 一套搞定 (一)配置bootstrapvue

1.准备文件 自己到DCloud官网: http://dcloud.io/ 去下载官方的IDE Hbuilder,新建一个空的uniapp项目即可。 uniapp框架自带优化的vue,我们仅仅需要准备以下三个文件: bootstrap.min.css ...

panyunxing
今天
12
0
Android Camera原理之camera service类与接口关系

camera service主要是指 frameworks/av/services/camera/下面的代码,最近在看这一块的代码,为了更好地理清这一块的代码,也为了后续学习camera方便一些,我觉得很有必要理一下这一块的整体...

天王盖地虎626
今天
6
0
Golang学习笔记

[TOC] Golang学习笔记 这个学习笔记是最早在1.初,版本左右的时候写的,和当前最新的版本可能会有较大的差异. 因为成文比较早,文章里面又有很多自己的见解,有些东西当时理解的不太透彻可能写错...

我爱吃炒鸡
今天
18
0
科技赋能成效显著!金融壹账通两大赋能项目荣获IDC大奖

7月19日,2019IDC中国未来金融论坛曁颁奖典礼于北京举办。由金融壹账通赋能的长春农商银行多人视频面审智能风控系统、包头农商银行互联网银行SaaS服务两大项目因在项目的创新性、技术领先性、...

IFTNews
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部