开源中国

我们不支持 IE 10 及以下版本浏览器

It appears you’re using an unsupported browser

为了获得更好的浏览体验,我们强烈建议您使用较新版本的 Chrome、 Firefox、 Safari 等,或者升级到最新版本的IE浏览器。 如果您使用的是 IE 11 或以上版本,请关闭“兼容性视图”。
阿里数据的个人空间 - 开源中国社区
技能积分 0
活跃积分 0
粉丝 8
加入于 2017/09/11 最近登录:今天 15:03
阿里数据 5小时前
如此进行多轮便得到了我们认为的“高质量”样本; 2)当样本数据来源于不同数据源的时候,如何挑选出最准确的样本? 总体来说,多数据源上的样本挑选可以仿照上述单一数据源的做法,但是需要注意的是保持不同数据...
@tanyaobin
@阿里数据 1、数据挖掘讲究样本数据准确性,请问如何综合多种数据源找出准确的杨本数据?2、用户类数据应该如何历史归档(每天数据量是TB、PB级别),能保证新业务需求到来时,可以基于用户作至少三个月到半年的数...
阿里数据 5小时前
这个问题每个人的方法不同,仅供参考哈: 1)如何从标记样本中找到尽可能准确可信的样本(其实是标记的准确性)? 在给定一批标记数据之后,为了找到其中相对“高质量”的样本,我们会采用多轮采样的方法,首选随机...
@tanyaobin
@阿里数据 1、数据挖掘讲究样本数据准确性,请问如何综合多种数据源找出准确的杨本数据?2、用户类数据应该如何历史归档(每天数据量是TB、PB级别),能保证新业务需求到来时,可以基于用户作至少三个月到半年的数...
阿里数据 5小时前
比如我们有用到开源的druid,还有自研的garuda等等。采用的技术很多,不一一赘述,另外离线和实时所采用的聚合技术也不同。欢迎加入阿里数据~
@Osc尘埃
@阿里数据  类似于用户行为数据这种,需要做多维度的实时累计。在阿里用到哪些技术来实现的了。
阿里数据 5小时前
在阿里巴巴内部,我们用的是odps-graph、geabase、igraph、Biggraph……它们目前没有开源。
@苦苦奋斗的渣渣
@阿里数据  阿里是否有做图数据存储,采用的什么方案,是否开源的   ,titan阿里是否有尝试过,阿里的图数据存储  好像是飞天系统(忘记了)  是否考虑过开源   或者进行商业化
阿里数据 5小时前
我们采用的是阿里云的MaxCompute,可前往阿里云官网了解~
@Baclk5
@阿里数据   阿里云的 spark,hadoop平台是采用开源的,还是自己定制开发的版本?? 对于CDH版本的大数据平台,和HDP版本的大数据平台,你们有啥建议??
阿里数据 5小时前
我们用的是阿里自研的伏羲调度系统
@sca7
@阿里数据   任务调度系统架构选择应该怎么选?oozie你们在用吗?有没有什么更好的建议?
阿里数据 5小时前
我们是多个集群。
@神秘的小黑
@阿里数据 请问下阿里的大数据是全在一个大集群,还是按项目分开不同集群呢?按什么类型来分?不同项目不同大数据集群,那太多集群不好维护吧 ??
阿里数据 5小时前
如果一定要强一致性就用双主或者半同步复制,但是要注意网络质量。
@无聊的人啊
@阿里数据 mysql 如何做到主从强一致性。从库有延迟的问题。读写分离就会成一个坑
阿里数据 5小时前
数据打通的问题可以通过IDMapping;第二个问题:深挖用户属性还是要结合业务多分析和理解数据;语义分析是可以有效增强用户属性信息,不要为增加属性维度而增加多余的甚至没用的信息。仅供参考
@吐槽的达达仔
@阿里数据 内部数据和外部数据始终存在隔阂,无法打通,使得用户纬度太少。如果需要深挖用户属性,该如何下手??像语义分析,这种能否足够有效地增加用户的属性维度??
阿里数据 5小时前
java类的入门书籍可以尝试看看《Java编程思想》《深入理解Java虚拟机》
@唯君依吾兮
@阿里数据 我也想知道,现在有好多关于java和大数据的书籍,不知道初入门者应该选什么书看一下会提高的比较快,如果想深入研究大数据,首先要做的是哪些准备.
顶部
×
动弹一下 还可以输入5
单图/多图
网络图片
上传图片
9 张,还能上传 9
上传图片
  • +
发布
×
设置备注名:
保存
用户尚未登录,点击这里登录