文档章节

数据挖掘师作为诚实的代理人和变革推动者的角色

 数据分析师
发布于 2014/11/27 15:04
字数 1535
阅读 4
收藏 0

人们说你不可能在自己的土地上成为一位先知。作为一名总是以局外人的身份做数据挖掘的人,我发现这是真的。我发现建造一个模型时很少有超过10 - 20%的时间是花在电脑前的,有三分之一的时间是根本没有花在电脑前的。这就解释了我发现自己那些时间里并没有在用数据挖掘软件,或任何软件。还有什么别的要做的吗?

鼓励冷静:我经常遇到我的新客户承认他们的数据仓库不够完整,也不完全如他们想要的那样成熟。没有一家是的!有趣的是,它是最早被分享的一个事实是因为它暗示着,如果他们有了完善的数据仓库,数据挖掘项目就会很容易。嗯,他们从来都不容易。重要的工作是艰苦的工作,而且没有人真的有一种完美的数据仓库,因为IT的工作也很难。所以, 一个经验丰富的数据挖掘师正是要向客户解释他们并不是有太多落后。

在部门内宣传分析团队所花的时间:是的,这是一种专职的工作!意外的是数据挖掘被认为是即时查询,比如“我们在A地区第一季度的X销售是多少?”。我不确定这是从哪来的,但新的数据挖掘师会想知道他们能否在下周的会议之前完成CRISP-DM的所有六阶段的工作。到那时一个外来顾问资源的参与可以在很大程度上消除这些困惑,但有时还会有小部分逗留下来。内部成员怎样做才能完成所有他们正在进行的职能,并提交一份专业的多周的工作成效呢?当然,他们不能。在项目的第一周期间经常会有现实渗入。早解决比迟解决更好。

鼓励更加崇高的目标:据说数据准备要占70 - 90%的工作量。我的经历让我相信这些估计是偏离的。如果不仔细的话,“让我们做些预备”这样的事情可以是低效率的,因为要每天对输入的交互做出决策。用更多的最新数据更新模型是简单的,但是如果你实质上改变的是你在挖掘的变量因素,你必须要重复很多工作,而且要重新回顾很多决策。这是有可能的,用仔细的规划使影响最小化,但你有增加(虽然不会翻倍)数据准备时间的风险。最终最好与重要的工作进行沟通,敲敲门,整理资源,做你现在能做到的最完善的工作。

担当与IT的联络者:一种几乎普遍的事实是,IT被提醒说数据挖掘师需要他们的数据,但是IT并没有被提醒说,数据挖掘师需要他们的时间和注意力。当然,没有人想要成为其他团队的负担,但一些额外的负担是不可避免的。一位即将开始数据挖掘项目的分析师会有没有回答的问题或未满足的需要,需要IT团队的支持。外部的数据挖掘资源往往要对IT管理人员解释没有办法完全消除这种情况;这是自然的,而它并不是分析团队的过错。与此同时,有经验的数据挖掘师在额外的工作将要出现时就已经预测到了,会采取行动来减轻它,并试图尽可能方便地安排它。

争取其他部门对项目(和数据) 支持:企业中的某些部门是期待参与其中的,像IT部门。经常有人说一个成功的数据挖掘项目是从上到下地搜索相关数据。有些人会感到惊讶,他们的部门并未尽一切努力。他们可能会不高兴。他们可能会为项目能为整个公司产生利益而激励,但你也可能在不恰当的时候在找他们 — 在他们要外出度假或正临近至关重要的最后项目期限时。清楚的提醒总是明智的,而且应该早一点。做的好的话,在一项高能见度的项目中的主要部门得到一些政治资本,而他们应该小心使用。

从一开始就让每个人思考部署和投资回报率(ROI):分析师太经常被认定是负责“洞察力”的,而已经收到魔力幻灯片的管理团队会从幻灯片里取出它,一路依靠洞察力来完成部署和投资回报率(ROI)。真有这样的好事吗?数据挖掘师必须要细心教育别人很好的规划必须到位,而这个很好的规划必须从数据挖掘项目的第一周就开始执行。让高管们发挥至关重要的作用,但稍加指导对每个人都有好处。毕竟,它可能是每个人的第一个数据挖掘项目。

渐渐消失在幕后:每个人都想因他们的辛勤工作获得赞扬,但聪明的数据挖掘师在告别会上让项目的提倡者和内部客户做所有的发言。数据挖掘师已有最佳的位置,但要保持安静。坦白地说,如果数据挖掘师仍然在项目中肩挑重任,那该项目还没有到准备庆典的时候。最后的会议,可能是许多最终的会议的第一次应该交接工作,报告最初(或预算的)投资回报率(ROI) ,并宣布部署细节的时候。

© 著作权归作者所有

共有 人打赏支持
粉丝 30
博文 1645
码字总数 2338861
作品 0
邢台
API经济崛起 超过16983个API正在被唤醒

  【IT168 评论】与以往相比,2017年越来越多的CIO会考虑如何创建与现有IT平台和未来计划相关联的新商业模式,实现商业价值的实现,这种趋势在未来3年还将高速发展。CIO和IT人员需要开始思...

it168网站
2017/03/01
0
0
百度高层巨震!陆奇卸任COO,王海峰晋升高级副总裁

刚刚,百度宣布集团总裁兼首席运营官陆奇由于个人和家庭原因,无法继续全职在北京工作,将从7月起不再担任上述职务,但仍将继续担任集团公司副董事长。同时,副总裁王海峰晋升为高级副总裁并...

dqcfkyqdxym3f8rb0
05/18
0
0
用编程的思路模拟解决脑筋急转弯问题

前些日子看了可汗学院的这个关于诚实人和说谎者的脑筋急转弯问题,我觉得如果能用程序来模拟,那一定很有趣。 这个题目是这样的,有两扇门,一扇通往天堂,一扇通往地狱,你要做出选择打开那...

naughty
2014/04/04
0
1
揭秘 Instagram 的 13 人团队和 9 位投资人

拍照分享应用Instagram刚刚被Facebook以10亿美元的现金和股票收购。但是你知道吗,Instagram创立仅551天,团队只有13个人,其中两位还是在上个月的SXSW期间加入。而背后的9位神秘投资人同样扮...

虫虫
2012/04/10
1K
15
评论:人工智能时代教师角色需要改变

(原标题:评论:人工智能时代教师角色需要改变)   人工智能时代教师角色需要改变 人工智能的飞速发展,将给未来教育带来哪些变革?这是当下社会热烈讨论的话题。“未来人才培养和人工智能...

中国青年报
2017/12/18
0
0

没有更多内容

加载失败,请刷新页面

加载更多

原型模式

1、原型模式-定义 用原型实例指定创建对象的种类,并且通过拷贝这些原型创建新的对象 克隆(浅度克隆->拷贝值类型或者引用,深度克隆->创建新的对象,开辟新的内存) 例如客户端知道抽象Pro...

阿元
今天
47
0
awk命令扩展使用操作

awk 中使用外部shell变量 示例1 [root@centos01 t1022]# A=888[root@centos01 t1022]# echo "" | awk -v GET_A=$A '{print GET_A}'888[root@centos01 t1022]# echo "aaaaaaaaaaaaa" | aw......

野雪球
今天
41
0
深入解析MySQL视图VIEW

Q:什么是视图?视图是干什么用的? A:视图(view)是一种虚拟存在的表,是一个逻辑表,本身并不包含数据。作为一个select语句保存在数据字典中的。   通过视图,可以展现基表的部分数据;...

IT--小哥
今天
45
0
虚拟机学习之二:垃圾收集器和内存分配策略

1.对象是否可回收 1.1引用计数算法 引用计数算法:给对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加1;当引用失效时,计数器值就减1;任何时候计数器值为0的对象就是不可能...

贾峰uk
今天
40
0
smart-doc功能使用介绍

smart-doc从8月份底开始开源发布到目前为止已经迭代了几个版本。在这里非常感谢那些敢于用smart-doc去做尝试并积极提出建议的社区用户。因此决定在本博客中重要说明下smart-doc的功能,包括使...

上官胡闹
昨天
47
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部