大数据之路

# 第一部分：数据建模理论和逻辑

## 一、从数据分析的定义开始

Analysis of data is a process of inspecting, cleaning, transforming, and modeling data with the goal of discovering useful information, suggesting conclusions, and supporting decision making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains.
（来源：
Data analysis

Data modeling is a process used to define and analyze data requirements needed to support the business processes within the scope of corresponding information systems in organizations. Therefore, the process of data modeling involves professional data modelers working closely with business stakeholders, as well as potential users of the information system.（来源：Data modeling

Mathematical formulas or models called algorithms may be applied to the data to identify relationships among the variables, such as correlation or causation. In general terms, models may be developed to evaluate a particular variable in the data based on other variable(s) in the data, with some residual error depending on model accuracy (i.e., Data = Model + Error)（来源：Data modeling

# 第二部分：数据建模的应用

## Step 2：数据获取

（打码方式比较简单粗暴，请凑合看吧……）

## Step 3：数据清洗

1、论坛由于其特殊性，很多人成交后会把帖子改成《已出》等标题，这一类数据需要删除：

2、有一部分人用直接贴图的方式放求购信息，这部分体现为只抓到图片链接，需要删除。

## Step 4：数据整理

（主机掌机那个标签后来我在实际操作时没有使用）

## Step 9 & 10：设定参数 & 加载算法

K-means算法除了输入变量以外，还需要设定聚类数，我们先拍脑袋聚个五类吧！

（别笑，实际操作中很多初始参数都是靠拍脑袋得来的，要通过结果来逐步优化）

# Refer：

[1] 一个数据分析师的自我修养

http://zhuanlan.zhihu.com/data-analyst-improvement

[2] 建模那点事儿（上）

http://zhuanlan.zhihu.com/data-analyst-improvement/20268716

[3] 建模那点事儿（下）

http://zhuanlan.zhihu.com/data-analyst-improvement/20391425

[4] 第一份数据报告的诞生

http://zhuanlan.zhihu.com/data-analyst-improvement/20256824

[5] 三个常用统计模型的典型应用场景

http://zhuanlan.zhihu.com/data-analyst-improvement/20461694

[6] 秒懂数据统计、数据挖掘、大数据、OLAP的区别

http://mp.weixin.qq.com/s/0PvCjjqleuMEvZCG1j5MGg

### 大数据之路

2015/11/27
0
0
Python爬虫代码：淘宝、豆瓣、知乎、微博、QQ、简书等

[0] 一份Python爬虫电子书 https://zhuanlan.zhihu.com/p/28865834 [1] 爬取网易云音乐所有歌曲的评论 https://github.com/RitterHou/music-163 [2] python爬虫代理IP池(proxy pool) https:......

2012/12/31
825
0

leizhimin
2017/11/22
0
0

51CTO博客开发 王春海的博客 delxu Tech Notebook 实践检验真理 “企鹅”那点事儿 林肯 seven 坏男孩 张宴-blog 生活点滴 openclouddb crazyjvm 董的博客 专注海量数据 IBM中国 sery 老男孩l...

dodowolf
2017/11/22
0
0
【Maven 那点事儿】中的图是拿什么画的呀

@黄勇 你好，想跟你请教个问题： 【Maven 那点事儿】中的图http://my.oschina.net/huangyong/blog/194583是拿什么画的呀？

bopjiang
2014/12/12
164
0

Activity启动模式二

ltlovezh
46分钟前
6
0

1、Color Filter Array — CFA 随着数码相机、手机的普及，CCD/CMOS 图像传感器近年来得到广泛的关注和应用。 图像传感器一般都采用一定的模式来采集图像数据，常用的有 BGR 模式和 CFA 模式...

57分钟前
7
0
kubernetes pod exec接口调用

8
0
3_数组

3_数组

8
0

APEMESH

7
0