文档章节

Python:基于pandas ,Pymatlab的 数据分析入门

wwhai
 wwhai
发布于 2016/11/24 17:51
字数 2079
阅读 1151
收藏 50
点赞 4
评论 8

最近这几天,老师有个项目要用到数据批量分析,让我参加进来,但是,我以前纯粹是搞应用程序开发的,并没有过多接触过数据分析。不行,任务下来了,硬着头皮也要上啊。于是,我浩浩荡荡的开始了数据分析学习计划。

首先,我先说一下,因为,我以前都是写Java代码的,所以,这次决定换个新语言,选了半天,决定从0基础入门python3.

关于python,我就不废话了,网上一大波教程和介绍,有兴趣可以去学习一下,个人觉得挺好玩的。【不过,这语言折磨人可是真的】

好了,进入正题。

我的课题选项是:假设有一次购物活动,来自福建省几个主要城市的人参加了这次购物活动,活动结束了,然后我们掌握了这些购买数据,然后进一步分析,便于掌握规律,提供数据给市场运营部去参考。

数据量:10000条购买数据,前面是人的基本信息,后面是所购买的商品种类列表。

福建省几个主要地区:

"福州", "泉州", "厦门", "三明", "龙岩"。。。。等等

①第一个任务,搭建环境

我这里用了这些主要依赖库

import pandas as pd
import numpy as np
import random

如果没有,你可以通过pip  或者其他三方安装工具,或者直接去官网下载【安装过程很痛苦】。

好了,基本环境搞完了,接下来就是怎么来分析了

下面是我的常量表:百家姓和一些人名,便于随机生成人名。

MAX_AGE = 55
MIN_AGE = 15
SHOPPING_LIST = ["女装", "男装", "内衣", "鞋靴", "箱包", "配件", "童装玩具", "孕产", "用品", "家电", "数码", "手机", "美妆", "洗护", "保健品", "珠宝",
                 "眼镜", "手表", "运动", "户外", "乐器", "游戏", "动漫", "影视", "美食", "生鲜", "零食", "鲜花", "农资", "房产", "装修", "建材", "家具",
                 "家饰", "家纺", "汽车", "二手车", "用品", "办公", "DIY", "五金电子", "百货", "餐厨", "家庭保健", "学习", "卡券", "本地服务"]
FIRST_NAME_TABLE = ["赵", "钱", "孙", "李", "周", "吴", "郑", "王", "冯", "陈", "褚", "卫", "蒋", "沈", "韩", "杨", "朱", "秦", "尤",
                    "许", "何", "吕", "施", "张", "孔", "曹", "严", "华", "金", "魏", "陶", "姜", "戚", "谢", "邹", "喻", "柏", "水", "窦",
                    "章",
                    "云", "苏", "潘", "葛", "奚", "范", "彭", "郎", "鲁", "韦", "昌", "马", "苗", "凤", "花", "方", "俞", "任", "袁", "柳",
                    "酆",
                    "鲍", "史", "唐", "费", "廉", "岑", "薛", "雷", "贺", "倪", "汤", "滕", "殷", "罗", "毕", "郝", "邬", "安", "常", "乐",
                    "于",
                    "时", "傅", "皮", "卞", "齐", "康", "伍", "余", "元", "卜", "顾", "孟", "平", "黄", "和", "穆", "萧", "尹", "姚", "邵",
                    "湛",
                    "汪", "禹", "狄", "米", "贝", "明", "臧", "计", "伏", "成", "戴", "谈", "宋", "茅", "庞", "熊", "纪", "舒", "屈", "项",
                    "祝",
                    "董", "梁", "杜", "阮", "蓝", "闵", "席", "季", "麻", "强", "贾", "路", "娄", "危", "江", "童", "颜", "郭", "梅", "盛",
                    "林",
                    "刁", "钟", "徐", "邱", "骆", "高", "夏", "蔡", "田", "樊", "胡", "凌", "霍", "虞", "万", "支", "柯", "昝", "管", "卢",
                    "莫",
                    "经", "房", "裘", "缪", "干", "解", "应", "宗", "丁", "宣", "贲", "邓", "郁", "单", "杭", "洪", "包", "诸", "左", "石",
                    "崔",
                    "吉", "钮", "龚", "程", "嵇", "邢", "滑", "裴", "陆", "荣", "翁", "荀", "羊", "於", "惠", "甄", "曲", "家", "封", "芮",
                    "羿",
                    "储", "靳", "汲", "邴", "糜", "松", "井", "段", "富", "巫", "乌", "焦", "巴", "弓", "牧", "隗", "山", "谷", "车", "侯",
                    "宓",
                    "蓬", "全", "郗", "班", "仰", "秋", "仲", "伊", "宫", "宁", "仇", "栾", "暴", "甘", "钭", "厉", "戎", "祖", "武", "符",
                    "刘",
                    "景", "詹", "束", "龙", "叶", "幸", "司", "韶", "郜", "黎", "蓟", "薄", "印", "宿", "白", "怀", "蒲", "台", "从", "鄂",
                    "索",
                    "咸", "籍", "赖", "卓", "蔺", "屠", "蒙", "池", "乔", "阴", "郁", "胥", "能", "苍", "双", "闻", "莘", "党", "翟", "谭",
                    "贡",
                    "劳", "逄", "姬", "申", "扶", "堵", "冉", "宰", "郦", "雍", "却", "璩", "桑", "桂", "濮", "牛", "寿", "通", "边", "扈",
                    "燕",
                    "冀", "郏", "浦", "尚", "农", "温", "别", "庄", "晏", "柴", "瞿", "阎", "充", "慕", "连", "茹", "习", "宦", "艾", "鱼",
                    "容",
                    "向", "古", "易", "慎", "戈", "廖", "庚", "终", "暨", "居", "衡", "步", "都", "耿", "满", "弘", "匡", "国", "文", "寇",
                    "广",
                    "禄", "阙", "东", "殴", "殳", "沃", "利", "蔚", "越", "夔", "隆", "师", "巩", "厍", "聂", "晁", "勾", "敖", "融", "冷",
                    "訾",
                    "辛", "阚", "那", "简", "饶", "空", "曾", "毋", "沙", "乜", "养", "鞠", "须", "丰", "巢", "关", "蒯", "相", "查", "后",
                    "荆", "红", "游", "竺", "权", "逯", "盖", "益", "岳", "帅", "缑", "亢", "况", "后", "有", "琴", ]

LAST_NAME_TABLE = ["小明", "红", "小花", "国强", "建国", "军", "波", "良", "小芳", "芳", "燕", "敏", "小敏", "文明", "建军", "文", "平", "之明",
                   "小燕", "英",
                   "轩懿", "伟烨", "博苑", "泽伟", "彤熠", "煊鸿", "涛博", "霖烨", "华 烨", "祺煜", "宸智", "豪正", "然昊", "杰明", "诚立", "轩立",
                   "辉立", "熙峻",
                   "文弘", "彤熠", "煊鸿", "霖烨", "瀚哲", "鹏鑫", "远致", "驰俊", "泽雨", "磊烨", "睿晟", "佑天", "昊文", "洁修", "昕黎", "航远",
                   "尧旭", "涛鸿",
                   "祺伟", "轩荣", "泽越", "宇浩", "瑜瑾", "轩皓", "苍擎", "宇擎", "泽志", "渊睿", "瑞楷", "轩子", "文弘", "瀚哲", "泽雨", "磊鑫",
                   "杰修", "诚伟",
                   "辉建", "鹏晋", "磊天", "辉绍", "洋泽", "轩明", "柏健", "煊鹏", "强昊", "宸伟", "超博", "浩君", "骞子", "辉明", "涛鹏", "彬炎",
                   "轩鹤", "彬越",
                   "华风", "琪靖", "诚明", "格高", "华光", "源国", "宇冠", "昱晗", "润涵", "飞翰", "海翰", "乾昊", "博浩", "安和", "博弘", "恺宏",
                   "朗鸿", "奥华",
                   "灿华", "慕嘉", "秉坚", "明建", "鑫金", "程锦", "瑜瑾", "鹏晋", "赋经", "同景", "琪靖", "昊君", "明俊", "同季", "济开", "安凯",
                   "成康", "语乐",
                   "勤力", "哲良", "群理", "彦茂", "博敏", "达明", "义朋", "泽彭", "举鹏", "存濮", "心溥", "瑜璞", "泽浦", "邃奇", "祥祺", "轩荣",
                   "达锐", "慈睿",
                   "祺绍", "杰圣", "睿晟", "源思", "年斯", "宁泰", "佑天", "巍同", "伟奕", "温祺", "虹文", "笛向", "远心", "德欣", "翰新", "言兴",
                   "阑星", "为修",
                   "尧旭", "明炫", "真学", "风雪", "昶雅", "曦阳", "熠烨", "韶英", "贞永", "德咏", "寰宇", "泽雨", "韵玉", "彬越", "和蕴", "彦哲",
                   "海振", "志正",
                   "晋子"]

然后是城市列表,因为,根据概率论,如果我们不加权的话,最后,随着数据的增加,我们的结果会南辕北辙。所以,我用了最简单的加权方法:直接列表里面的地名按照个数比来加权:

CITY_TABLE = ["福州", "泉州", "厦门", "三明", "龙岩", "三明", "龙岩", "三明", "龙岩", "三明", "龙岩", "三明", "龙岩", "南平", "漳州", "福清", "宁德",
              "莆田", "漳州", "漳州", "漳州", "漳州", "漳州", "漳州", "泉州",
              "泉州", "泉州", "泉州", "泉州", "福州", "福州", "福州", "泉州", "厦门", "厦门", "厦门", "厦门", "厦门", "厦门"]

注意到了没:几个城市的数目是成比例的,为了随机数产生的时候,按照一定的比例。当然,这是很不科学的,但是因为是简单入门案例,所以我这里用了模拟数据。

SEX_TABLE = ["男", "女"]
EXCEL_PATH = "../temp/sheet.xls"
SHOPPING_COUNT = 100

上面是一些常量,相信大家可以看得懂

最后,附上项目目录:

好了,直接看代码:

首先是,数据分析工具模块:

# coding='utf-8'
import pandas as pd
import numpy as np
import random
import app.my_utils.paraments as para


def create_shopping_list():
    res = ""
    for i in range(100):  # 假设购买了100件商品
        res += str(random.randint(1, para.SHOPPING_COUNT)) + ","
    return res


def create_excel(path):
    data_list = []
    for i in range(10000):
        data_list.append(
            [random.choice(para.FIRST_NAME_TABLE) + random.choice(para.LAST_NAME_TABLE),
             random.randint(para.MIN_AGE, para.MAX_AGE), random.choice(para.CITY_TABLE),
             random.choice(para.SEX_TABLE),
             create_shopping_list()])
    data_array = np.array(data_list)
    data_frame = pd.DataFrame(data=data_array, index=None, columns=["name", "age", "city", "sex", "shopping_list"])
    print("Start to write data in Excel sheet......")
    data_frame.to_excel(path)
    print("Excel Write Finished!")


def get_point(path):
    # ["福州", "泉州", "厦门", "三明", "龙岩", "南平", "漳州", "福清", "宁德", "莆田"]
    excel = None
    fuzhou_num = 0
    quanzhou_num = 0
    xiamen_num = 0
    sanming_num = 0
    longyan_num = 0
    nanping_num = 0
    zhangzhou_num = 0
    fuqing_num = 0
    ningde_num = 0
    putian_num = 0

    try:
        excel = pd.DataFrame(pd.read_excel(path))
    except Exception as e:
        print("Error!")

    finally:
        for i in range(0, len(excel)):
            item = excel.values[i].tolist()
            if item[2] == "福州":
                fuzhou_num += 1
            elif item[2] == "泉州":
                quanzhou_num += 1
            elif item[2] == "厦门":
                xiamen_num += 1
            elif item[2] == "三明":
                sanming_num += 1
            elif item[2] == "龙岩":
                longyan_num += 1
            elif item[2] == "南平":
                nanping_num += 1
            elif item[2] == "漳州":
                zhangzhou_num += 1
            elif item[2] == "福清":
                fuqing_num += 1
            elif item[2] == "宁德":
                ningde_num += 1
            elif item[2] == "莆田":
                putian_num += 1
        return [fuzhou_num, quanzhou_num, xiamen_num, sanming_num, longyan_num, nanping_num, zhangzhou_num, fuqing_num,
                ningde_num, putian_num]


if __name__ == "__main__":
    create_excel(para.EXCEL_PATH)
    ll = get_point(para.EXCEL_PATH)
    print(ll)

数据分析模块,是为了产生数据和简单分析数据。

然后是主模块:

# -*-coding:gbk-*-
import pylab

pylab.mpl.rcParams['font.sans-serif'] = ['SimHei']
pylab.mpl.rcParams['axes.unicode_minus'] = False
import numpy as np
import matplotlib.pyplot as plt
import app.my_utils.utils as ut
import app.my_utils.paraments as para

index = np.arange(5)
X = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
Y = ut.get_point(para.EXCEL_PATH)
plt.title("购物数据分析表")
plt.xticks(X, ["福州", "泉州", "厦门", "三明", "龙岩", "南平", "漳州", "福清", "宁德", "莆田"])
plt.xlabel("福建各个城市名称")
plt.ylabel("参加购物人数/城市", color="red")
plt.legend(["人数:"], loc=0)
plt.bar(X, Y, color="green")
plt.show()

最后,产生一个效果图:

哈哈,是不是可以打出:厦门,泉州,漳州人比较有钱?(数据没有说服力,仅仅是测试而已)。

好了,最简单的入门程序到这里就完了,如果你有兴趣,还可以再深度挖掘:比如,来自福州的男性喜欢购买什么,来自厦门的女性喜欢购买什么等等。

喜欢的话,欢迎转载。

 

© 著作权归作者所有

共有 人打赏支持
wwhai
粉丝 12
博文 15
码字总数 18651
作品 1
福州
程序员
加载中

评论(8)

Leohahaha
Leohahaha
很好的数据分析入门呢,倒是和大数据没啥关系,不过依然受益良多。
卖萌的程序猿
卖萌的程序猿
大数据从应用上就是数学建模,从技术上就是分布式
小白love
听不懂
ericsoul
ericsoul

引用来自“灰色小狼”的评论

大数据就是一大堆数据么?

大数据其实还真是指一大堆数据,只是包括的对一大推数据的处理的相关技术。说白了就是,没有大数据技术,就无法处理大数据。其实对于数据的处理还是差不多的。只是楼主的充其量是数据统计而不是数据分析。数据分析有目的性,有结论。
wwhai
wwhai

引用来自“ericsoul”的评论

这叫数据统计

差不多吧
wwhai
wwhai

引用来自“灰色小狼”的评论

大数据就是一大堆数据么?

你要喷也没办法,我都说了是入门,难道你一接触就是直接上升到分布式?难道你从来没有处理过表格?
灰色小狼
灰色小狼
大数据就是一大堆数据么?
ericsoul
ericsoul
这叫数据统计
[雪峰磁针石博客]python数据分析快速入门教程2-pandas数据结构

Title: python数据分析快速入门教程2-pandas数据结构 Date: 2018-03-31 9:20 Category: 数据分析 Slug: pythonpandascrash_tutorial2 [雪峰磁针石博客]python数据分析快速入门教程1-开胃菜 ...

Python测试开发人工智能
07/10
0
0
荐书丨确认过眼神,这份Python书单一定是你的菜

点击上方“程序人生”,选择“置顶公众号” 第一时间关注程序猿(媛)身边的故事 Python 是军刀型的开源工具,被广泛应用于Web 开发、爬虫、数据清洗、自然语言处理、机器学习和人工智能等方...

csdnsevenn
05/05
0
0
Python发展迅速,成为学术界新主流

如果说2018年以前R是数据学术界的主流,但是现在Python正在慢慢取代R在学术界的地位。 Python与R相比速度要快。Python可以直接处理上G的数据;R不行,R分析数据时需要先通过数据库把大数据转...

Python燕大侠
05/07
0
0
入门数据分析,从python开始

Python是目前学习数据分析课程中,非常重要的一块,也是目前非常受行业欢迎的。因此,学习非常重要,下面是Python学习的一些重要步骤和知识! 步骤1:熟悉Python 对数据科学,Python和R都是不...

weixin_41852491
05/28
0
0
[雪峰磁针石博客]python数据分析快速入门教程1-开胃菜

简介 Pandas是用于数据分析的开源Python库,也是目前数据分析最重要的开源库。它能够处理类似电子表格的数据,用于快速数据加载,操作,对齐,合并等。为Python提供这些增强功能,Pandas的数据...

Python测试开发人工智能
07/10
0
0
5本必读Python入门书籍,你都看过吗?(附福利)

今天技术学派为大家准备了5本Python入门书籍,除了书籍小编还整理了3个常用的资源网站分享给大家。 1.Python基础教程 《Python基础教程》是经典的Python入门教程书籍,本书层次鲜明,结构严谨...

Python燕大侠
06/07
0
0
Python学习小白必备书籍以及源码下载、代码求助三大网站

Python小白开发入门必备的3本书籍,除了书籍小U还整理了5个程序员们常用的资源网站。 入门书籍一 《Python for data analysis》 这本书涵盖了ipython notebook、Numpy、Scipy和Pandas包的使用...

柯西带你学编程
05/30
0
0
7.python数据分析与展示------Pandas库入门

1.Pandas库的介绍 Pandas是Python第三方库,提供高性能易用数据类型和分析工具 import pandas as pd Pandas基于Numpy实现,常与Numpy和Matplotlib一同使用 import pandas as pd d =pd.Series...

bxg1065283526
04/29
0
0
【python数据挖掘课程】二十三.时间序列金融数据预测及Pandas库详解

这是《Python数据挖掘课程》系列文章,也是我上课内容及书籍中的一个案例。本文主要讲述时间序列算法原理,Pandas扩展包基本用法以及Python调用statsmodels库的时间序列算法。由于作者数学比...

eastmount
05/09
0
0
在pandas的unstack时报ValueError: duplicate entries 错误

pandas是python中用于数据分析和处理的一个基于numpy的基本库工具,是从事python语言数据领域的一个基本入门工具,常见用途有: a提供高级的数据结构和相当丰富的数据操作API b提高了对复杂矩...

良思远行
04/14
0
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

NNS域名系统之域名竞拍

0x00 前言 其实在官方文档中已经对域名竞拍的过程有详细的描述,感兴趣的可以移步http://doc.neons.name/zh_CN/latest/nns_protocol.html#id30 此处查阅。 我这里主要对轻钱包开发中会用到的...

暖冰
今天
0
0
32.filter表案例 nat表应用 (iptables)

10.15 iptables filter表案例 10.16/10.17/10.18 iptables nat表应用 10.15 iptables filter表案例: ~1. 写一个具体的iptables小案例,需求是把80端口、22端口、21 端口放行。但是,22端口我...

王鑫linux
今天
0
0
shell中的函数&shell中的数组&告警系统需求分析

20.16/20.17 shell中的函数 20.18 shell中的数组 20.19 告警系统需求分析

影夜Linux
今天
0
0
Linux网络基础、Linux防火墙

Linux网络基础 ip addr 命令 :查看网口信息 ifconfig命令:查看网口信息,要比ip addr更明了一些 centos 7默认没安装ifconfig命令,可以使用yum install -y net-tools命令来安装。 ifconfig...

李超小牛子
今天
1
0
[机器学习]回归--Decision Tree Regression

CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很...

wangxuwei
昨天
1
0
Redis做分布式无锁CAS的问题

因为Redis本身是单线程的,具备原子性,所以可以用来做分布式无锁的操作,但会有一点小问题。 public interface OrderService { public String getOrderNo();} public class OrderRe...

算法之名
昨天
10
0
143. Reorder List - LeetCode

Question 143. Reorder List Solution 题目大意:给一个链表,将这个列表分成前后两部分,后半部分反转,再将这两分链表的节点交替连接成一个新的链表 思路 :先将链表分成前后两部分,将后部...

yysue
昨天
1
0
数据结构与算法1

第一个代码,描述一个被称为BankAccount的类,该类模拟了银行中的账户操作。程序建立了一个开户金额,显示金额,存款,取款并显示余额。 主要的知识点联系为类的含义,构造函数,公有和私有。...

沉迷于编程的小菜菜
昨天
1
0
从为什么别的队伍总比你的快说起

在机场候检排队的时候,大多数情况下,别的队伍都要比自己所在的队伍快,并常常懊悔当初怎么没去那个队。 其实,最快的队伍只能有一个,而排队之前并不知道那个队快。所以,如果有六个队伍你...

我是菜鸟我骄傲
昨天
1
0
分布式事务常见的解决方案

随着互联网的发展,越来越多的多服务相互之间的调用,这时候就产生了一个问题,在单项目情况下很容易实现的事务控制(通过数据库的acid控制),变得不那么容易。 这时候就产生了多种方案: ...

小海bug
昨天
3
0

没有更多内容

加载失败,请刷新页面

加载更多

下一页

返回顶部
顶部