你当前的位置是：

技术 | 大数据分析自动化，取代人的直觉与算法的系统

大数据分析包括寻找有某种预测能力的埋藏模式。但是，选择哪些数据的“特征”来进行分析通常需要靠人类的直觉。

在一个包含数据库中，举个例子，各种促销和每周的利润的开始和结束日期，其关键数据可能不是日期本身而是它们之间的跨度，或着不是总利润，但平均跨越这些跨度。

大数据分析包括寻找有某种预测能力的埋藏模式。但是，选择哪些数据的“特征”来进行分析通常需要靠人类的直觉。在一个包含数据库中，举个例子，各种促销和每周的利润的开始和结束日期，其关键数据可能不是日期本身而是它们之间的跨度，或着不是总利润，但平均跨越这些跨度。

麻省理工学院的研究人员的目标是，用一个不仅能搜索模式也能设计特征的新系统把人类元素从大数据分析中剥离出来。为了测试他们系统的第一个原型，他们参加了三个数据科学竞赛，它与人类团队比赛，在不熟悉的数据集中找到预测模式。906个团队参与了三项比赛，研究人员的“数据科学机器”先于615个团队完成。

在三项比赛中，数据科学机器的预测的准确率是94%和96%。第三个数字则是一个更为温和的数字87%。人类的团队通常需要进行好几个月的预测算法，而数据科学机器产生它的每一个条目只花了2-12小时。

“我们把数据科学机器视为人类智能的自然补充，”Kanter说，他在麻省理工的硕士论文是《数据科学机器的基础》。“有这么多的数据需要进行分析。现在它(机器)只是待在那里没有做任何事。因此，也许我们可以拿出一个至少让我们能够开始着手、让我们前进的解决方案。”

项目之间

Kanter和他的导师KalyanVeeramachaneni，麻省理工学院计算机科学和人工智能实验室的研究科学家(CSAIL)，在他们的论文中描述了数据科学机器，Kanter将在下周的IEEE国际科学数据和先进分析会议上发表。

Veeramachaneni统一领导计算机科学与人工智能实验室的所有成员组，在大数据分析的实际问题中采用机器学习技术，如依据风电场场址确定其发电能力或预测学生从在线课程中辍学的风险。

“我们从解决一些工业数据科学问题的经验中观察到的是一个非常关键的步骤，称为特征工程，”Veeramachaneni说。“你要做的第一件事就是把你的数据从数据库或结构中提取出来，为了做这个，你必须得有很多想法。”

例如，2个关键指标被用在预测辍学上：一个学生花多少时间解决一个问题集和一个学生相比他或她的同学花了多少时间在课程网站上。麻省理工学院的在线学习平台MITx不记录那些统计数字，但它可以从推断中收集数据。

特色组成

Kanter和Veeramachaneni使用了一些技巧来制定数据分析候选特征。一种是利用数据库设计中固有的结构关系。数据库通常在不同的表中存储不同类型的数据，使用数字标识表示它们之间的相关性。数据科学机器跟踪这些相关性，将它们作为一个线索进行功能建设。

例如，一个表可以列出零售项目和它们的成本;另一个表可能包括在个别客户购买的项目中列出的项目。数据科学机器将从第一个表中的第一个表输入到第二个。然后，从第二表的关联的几个不同的项目中选择相同的购买数量，它将执行一套操作，以产生候选功能：总成本，每个订单，每个订单的平均成本，最低成本，每个订单，等等。作为跨表格的数字标识，数据科学机器会在各自层的顶端进行相互操作，找到最小的平均值、平均数、和等。

它也寻找所谓的分类数据，这似乎是限制在一个有限的范围内的值，如一周的天数或品牌名称。然后，它会依据划分现有的跨类别的功能产生新的功能。

一旦它生成了一系列的备选项，它会减少它们的数量以确定这些值具有相关性。然后开始测试其样本数据的简化特征，使它们以不同的方式来优化它们预测收益率的准确性。

“数据科学机器是一个令人惊奇的、最前沿的研究解决实际问题的项目，是一种看问题的全新的方式。”MargoSeltzer说到，他是一个没有参与这项工作的哈佛大学计算机科学教授。“我想他们所做的将迅速成为一种标准——很快就会。”

来源：网络大数据

网站专用.png

点击次数：更新时间：2016-03-23 15:00:40 【打印此页】【关闭】

上一条：技术 | 绿色制造技术在机械制造领域的应用下一条：市场 | 2016物联网普及年流程编制是主要挑战

专家学者

智造文库

热点推荐

观察 | 中国社会科学院工业经济研究所：未来产业展望
7月11日未来产业是由前沿技术驱动，当前处于孕育萌发阶段或产业化初期，具有显著战略性、引领性、颠覆性和不确定性的前瞻性产业。未来产业代表着科技和产业长期发展方向，在发展成熟和实现产业转化后，能够对国民经济形成重要支撑和巨大带动作用。在新一轮科技革命和产业变革推动下，全球颠覆性科技创新成果不断涌现，未来产业已成为世界主要国家重点布局的战略领域。在2014年中央经济工作会议上
湾区 | 打“飞的”上班？低空经济万亿级风口，大湾区乘势高飞！
7月4日沙特阿拉伯近日公布将启用无人驾驶“空中出租车”计划采用的正是“湾区制造”这批由广州亿航智能提供的无人驾驶电动垂直起降航空器（eVTOL）在低空环境中沿直线飞行至少30公里最高时速可达130公里为人们的出行带来更多便利和舒适今年4月广州亿航智能“EH216-Se”eVTOL成为全球首个三证齐全无人驾驶载人飞行器标志着“空中汽车”已具备量产资质打“飞的

技术 | 大数据分析自动化，取代人的直觉与算法的系统

专家学者

智造文库

最新公告

中国（大湾区）国际智能制造产业峰会

最新动态

国际智能制造产业联盟与黑龙江穆棱经济开发区举行战略合作签约仪式

国际智能制造产业联盟副主席王根权到黑龙江省大庆市考察

热点推荐

观察 | 中国社会科学院工业经济研究所：未来产业展望

湾区 | 打“飞的”上班？低空经济万亿级风口，大湾区乘势高飞！