加载中
ROC和AUC介绍以及如何计算AUC

ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨...

2014/11/03 21:02
1.1W
解决HBase Replication在数据大量写入时导致RegionServer崩溃问题

HBase在0.90之后的版本提供Replication功能,这些天本人在测试这个功能时发现在大量数据(>100W)写入时会出现RegionServer崩溃的情况。异常日志如下: 2014-10-29 10:40:44,225 WARN org.apa...

2014/10/29 12:40
1.9W
Linux下用NetHogs监控各个进程流量

有时候我们客户会发现服务器或 VPS 网络慢,进一步发现大量带宽被占用,一些客户到这里为止就不知道怎么办了。有什么简单办法能找出哪个程序(或者进程)占用了带宽呢?Linux 监控流量的小工...

2014/10/23 15:25
5.5K
一致性hash算法 - Consistent Hashing

Consistent Hashing 算法早在 1997 年就在论文 Consistent hashing and random trees 中被提出,目前在cache 系统中应用越来越广泛; 1 基本场景 比如你有 N 个 cache 服务器(后面简称 cach...

2014/10/18 14:01
225
Multi Paxos:Basic Paxos的进化

Multi Paxos基于Basic Paxos,将原来2-Phase过程简化为了1-Phase,从而加快了提交速度。Multi Paxos要求在各个Proposer中有唯一的Leader,并由这个Leader唯一地提交value给各Acceptor进行表决...

2014/08/20 16:25
4.5K
CAP原理和最终一致性(Eventually Consistency)

在足球比赛里,一个球员在一场比赛中进三个球,称之为帽子戏法(Hat-trick)。在分布式数据系统中,也有一个帽子原理(CAP Theorem),不过此帽子非彼帽子。CAP原理中,有三个要素: 一致性(Cons...

GBDT(MART) 迭代决策树入门教程 | 简介

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之...

2014/04/06 11:04
3.7K
解决hadoop集群中datanode启动后自动关闭的问题

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /var/lib/hadoop-0.20/cache/hdfs/dfs/data: namenode namespaceID = 2400128...

2013/09/15 21:52
1W
Jetty 的工作原理以及与 Tomcat 的比较

Jetty 的基本架构 Jetty 目前的是一个比较被看好的 Servlet 引擎,它的架构比较简单,也是一个可扩展性和非常灵活的应用服务器,它有一个基本数据模型,这个数据模型就是 Handler,所有可以被...

2013/09/04 20:33
3.3K
层次聚类算法BIRCH(另附Java版下载地址)

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)天生就是为处理超大规模(至少要让你的内存容不下)的数据集而设计的,它可以在任何给定的内存下运行。关于BIRCH的更...

libSVM 参数解释

运行libsvm官网提供的转换后的UCI a1a数据集的结果: 数据集下载地址:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html#a1a * optimization finished, #iter = 537 nu ...

2013/07/22 16:09
1.6K
LaTex Error:Unknown graphics extension:.eps (la...

latex 中可以使用.eps的图片,许多文档都介绍了怎么引用这种格式的图片,但没有给出使用过程中的注意事项。我在使用MIKTEX的时候,latex文档中引 入.eps图片遇到了这样的问题。编译的时候显示...

2013/07/18 13:01
2K
算法复杂度的渐近表示法

一个算法的时间复杂度,指算法运行的时间。 假设数据输入规模是n,算法的复杂度可以表示为f(n)的函数 一。大O记号 假设f(n)和g(n)的定义域是非负整数,存在两个正整数c和n0,使得n>n0的时候,...

2013/06/16 10:17
371
java生成指定范围的随机数

要生成在[min,max]之间的随机整数: import java.util.Random; public class RandomTest { public static void main(String[] args) { int max=20; int min=10; ...

2013/06/14 09:04
715
集成学习(Ensemble Learning)

Ensemble Learning现在基本上就叫集成学习。相关的概念有上面说的多模型系统(这实际上在很大程度上对应了机器学习里面的多专家混合)、Committee Learning、Modular systems、多分类器系统等...

2013/06/13 19:30
173
关于MySQL 1067错误的解决方法

错误信息为: A system error has occurred. System error 1067 has occurred. The process terminated unexpectedly. 在我的机上的解决办法是: 修改%windir%\my.ini,增加 [mysqld] #设置b...

2013/06/05 21:18
442
LaTeX 中更改单个页面页边距

当文档中存在尺寸比较大的图片时,为了将部分图片放到一个页面内,可能会需要调整单个页面的页边距。版本5之后的gemoetry宏包所包含的\newgeometry命令可以实现这一目的。具体的方法很多,这...

2013/06/04 14:37
7.6K
十大数据挖掘算法及各自优势

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN,...

构建高性能J2EE应用的10个技巧

构建高性能的J2EE应用不但需要了解常用的实施技巧。下面介绍最常用的10种有效方法,可帮助架构设计师们快速成为这方面的专家。 Java性能的基础—内存管理 任何Java应用,单机的或J2EE的性能基...

2013/05/16 08:44
128
基于内容的推荐(Content-based Recommendations)

这篇文章应该是翻译自《The Adaptive Web》一书--本人注 Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界...

没有更多内容

加载失败,请刷新页面

返回顶部
顶部