来源:[db:来源] 时间:2022-04-16 18:31:37
原标题:【Google Cloud Next18】BigQuery新增多项功能资料仓储内机器学习BigQuery ML成最大亮点
Google在今年Cloud Next宣布,于原本的分析资料仓储BigQuery服务加上机器学习,推出BigQuery ML新功能,资料科学家或是分析师,可以使用简单的SQL语法,直接以BigQuery中大量的结构与半结构化资料,建置与部署机器学习模型。创建模型语法简单的就像是创建表格一样CREATE MODEL dataset.model_name。
BiqQuery原来就允许大型资料集相互交叉分析,但Google发现,许多使用BiqQuery的企业并没有使用机器学习来进一步理解产生的资料,而追究原因发现,精通SQL的资料分析师可能没有相对应资料科学的机器学习知识。
因此Google推出BigQuery ML,这是BigQuery内部的一个功能,允许资料分析师可以直接使用存在于BigQuery中的结构化与半结构化资料。BigQuery ML是一组简单的SQL语法扩充,使用这些语法,用户就能直接应用常见的机器学习功能,像是销售预测或是客户分类等预测分析功能,而且部署这些功能,比起传统机器学习系统时间要少上许多。另外,对于机器学习应用最令人头痛的资料準备问题,BigQuery ML也提供了一些能够减少用户工作量的做法,不只有智慧预设设定还有资料转换的功能,帮助使用者快速取得良好的结果。
Google提到,他们在设计BigQuery ML后端时,面临选择两难。由于将大量资料从BigQuery伺服器,传输到执行机器学习的专用伺服器上非常的耗时,而且会产生额外的安全以及隐私成本。但考量梯度下降法能够实作使用常用SQL操作,又是常见的机器学习最佳化的方法,使Google可以在BigQuery ML上,重新利用既存BigQuery SQL处理引擎。
也由于BigQuery引擎当初设计的目标,是要能有效快速的扫描大量资料集,而非用于随机描绘小样本,基于种种原因,Google决定在BigQuery ML中使用批次梯度下降法,而非随机(Stochastic)的版本,Google表示,儘管现在随机梯度下降法在多数大型机器学习系统更为常见,但批量版本也具有很多优点。
Google解释,尤其是在大部分资料库内的机器学习系统,都使用随机梯度下降法,但是当资料非以最佳化排序时,产生的结果可能不如预期,而且BigQuery上资料分布的模式,通常是为执行一般SQL查询所做的效能最佳化,如果为了支援随机机器学习而不断的重新分布资料,将造成昂贵的成本。批次梯度下降法对硬碟上资料排序与分区较不敏感,因此不会有上述问题,另外,批次处理方法还能结合线搜索(Line Search),让机器学习更稳定以及更少的调校,相反的,在随机方法上使用线搜索更为麻烦。
另外,BigQuery除了新增机器学习功能外,测试版BigQuery clustering允许用户在BigQuery中创建丛集表,将具备相似丛集金钥的资料列綑绑在一起,以加速资料查询。另外,BigQuery GIS功能也进入测试阶段,Google提到,地理空间资料是物联网、远端讯息处理、零售和製造工作流的关键,BigQuery GIS与Google Earth Engine团队合作,以使用S2函式库支援新地理空间资料类型与功能。BigQuery还增加了一个实用的小功能,就是现用户只要使用Sheets连结器,就能直接在Sheets存取与浏览BigQuery中的资料。
相关推荐
猜你喜欢