大数据采集 哈希及哈希在大数据检索和挖掘中的应用
沉沙 2018-12-07 来源 : 阅读 1067 评论 0

摘要:本篇教程介绍了大数据采集 哈希及哈希在大数据检索和挖掘中的应用,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据采集的理解更加深入。

本篇教程介绍了大数据采集 哈希及哈希在大数据检索和挖掘中的应用,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据采集的理解更加深入。

<

Overview

Nearest neighbor (NN) search plays a fundamental role in machine learning and related areas, such as information retrieval and data mining. Hence, there has been increasing interest in NN search in massive (large-scale) data sets in this big data era. In many real applications, it's not necessary for an algorithm to return the exact nearest neighbors for every possible query. Hence, in recent years approximate nearest neighbor (ANN) search algorithms with improved speed and memory saving have received more and more attention from researchers.

【最近邻搜索(Nearest neighbor (NN) search)】在机器学习等相关领域扮演着重要的角色,例如【信息检索(information retrieval,[ˌɪnfɚˈmeʃən rɪˈtrivəl])】和【数据挖掘(data mining,[ˈdetə ˈmaɪnɪŋ])】。因此,在这个大数据时代,人们对【大规模数据(massive (large-scale) data sets)】的最近邻搜索越来越感兴趣。在很多实际应用中,所以用的算法没必要对于每一个可能的查询都返回确切的最近邻居。因此,最近几年,可以提高速度和节省空间的【近似最近邻搜索(approximate nearest neighbor (ANN) search)】算法已经受到来自研究者们跟多的关注。

Due to its low storage cost and fast query speed, hashing has been widely adopted for ANN search in large-scale datasets. The essential idea of hashing is to map the data points from the original feature space into binary codes in the hashcode space with similarities between pairs of data points preserved. The advantage of binary codes representation over the original feature vector representation is twofold. Firstly, each dimension of a binary code can be stored using only 1 bit while several bytes are typically required for one dimension of the original feature vector, leading to a dramatic reduction in storage cost. Secondly, by using binary codes representation, all the data points within a specific Hamming distance to a given query can be retrieved in constant or sub-linear time regardless of the total size of the dataset. Hence, hashing has become one of the most effective methods for big data retrieval and mining.

由于哈希的低存储耗费和高查询速度,它被广泛应用于大数据的近似最邻近搜索。哈希的基本思想是将原始特征空间的数据点映射成哈希码空间的二进制码,同时也保存了每一对数据点之间的相似性。二进制码的表示相对于原始特征向量的表示有两点优势。首先,每一个二进制码可以通过1bit来存储,而一个原始特征向量则需要几个byte来存储,导致了存储耗费的大幅减少。其次,通过使用二进制码来表示,对于一个给定的查询,所有的在特定的【汉明距离(Hamming distance)】内的数据点都能够在常量时间或分段线性时间内被检索到,而不管数据集的总的大小。因此,哈希已经成为大数据检索和挖掘最有效的方法之一了。

To get effective hashing codes, most methods adopt machine learning techniques for hashing function learning. Hence, learning to hash, which tries to design effective machine learning methods for hashing, has recently become a very hot research topic with wide applications in many big data areas. This tutorial will provide a systematic introduction of learning to hash, including the motivation, models, learning algorithms, and applications. Firstly, we will introduce the challenges faced by us when performing retrieval and mining with big data, which are used to well motivate the adoption of hashing. Secondly, we will give a comprehensive coverage of the foundations and recent developments on learning to hash, including unsupervised hashing, supervised hashing, multimodal hashing, etc. Thirdly, quantization methods, which are used to turn the real values into binary codes in many hashing methods, will be presented. Fourthly, a large variety of applications with hashing will also be introduced, including image retrieval, cross-modal retrieval, recommender systems, and so on.

为了得到高效的哈希编码,对于哈希函数学习,很多方法采用机器学习技术。因此,学习哈希,即为哈希尽可能设计有效的机器学习方法,最近已经成为一个非常热的研究话题,同时在很多大数据领域也有很多应用。这个教程会提供一个学习哈希的系统的介绍,包括动力、模型、学习算法、应用。首先,我们会介绍当我们检索和挖掘大数据时所面临的挑战,这是采用哈希的很好的动力。其次,我们会给出一个关于学习哈希的基础和最近发展的综合性概述,包括无监管哈希、监管哈希、多模态哈希、等。第三,会介绍【量化方法(quantization methods)】,它在很多哈希方法中用来将真实的值转变为二进制码。第四,大量不同的哈希应用也会被介绍,包括图像检索,跨模态检索,推荐系统等等。    

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据采集频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程