电话机

全面解读谷歌云人工智能如何为机器学习提供

发布时间:2023/2/17 15:16:24   

研究表明,虽然GoogleCloudAI(谷歌云人工智能)和机器学习平台缺少一些功能,并且仍处于测试阶段,但其范围和质量在行业中仍是首屈一指的。

谷歌公司拥有行业规模最大的机器学习堆栈之一,目前以其GoogleCloudAI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow,但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样,谷歌公司几年前将Kubernetes剥离成为开源软件,但它仍然是主要的容器管理系统。

谷歌云平台是开发人员、数据科学家和机器学习专家的最佳工具和基础设施来源之一,但是从历史上看,对于缺乏认真的数据科学或编程背景的业务分析师而言,GoogleCloudAI的吸引力并不大。而这种情况现在开始改变。

GoogleCloudAI和机器学习平台包括人工智能构建块、人工智能平台和加速器以及人工智能解决方案。这些是针对业务主管而不是数据科学家的相当新的人工智能解决方案,其中可能包括来自谷歌公司或其合作伙伴的咨询。

经过预先训练但可自定义的人工智能构建块可以在不熟悉编程或数据科学的情况下使用。尽管如此,出于实用的原因,数据科学家经常使用它们,从本质上讲,无需大量的模型培训即可完成工作。

人工智能平台和加速器通常面向数据科学家,并且需要编码技能、数据准备技术知识和大量培训时间。为此建议在尝试了相关构建模块之后再去实施。

GoogleCloudAI产品中仍然缺少一些链接,尤其是在数据准备方面。GoogleCloud与数据导入和调节服务最接近的是Trifacta公司的第三方CloudDataprep。但是,内置在CloudAutoMLTables中的功能工程很有希望,并且将这种服务用于其他情况将很有用。

人工智能的阴暗面与责任感(或缺乏道德感)以及持久的模型偏见(通常是由于用于训练的偏见数据)有关。谷歌公司于年发布了人工智能原则。这项工作仍在进行中,但这是指导的基础,最近在有关责任人工智能的博客文章中对此进行了讨论。

谷歌公司在人工智能市场上有很多竞争对手,而公共云市场上也有很多竞争对手(云计算供应商超过六家)。为了公平地进行比较,并且进行总结:AWS云平台可以完成谷歌云平台的大部分工作,并且也非常出色,但是通常收取更高的价格。

谷歌云的人工智能构建块不需要太多的机器学习专业知识,而需要基于预先训练的模型和自动训练。人工智能平台可以让用户训练和部署自己的机器学习和深度学习模型。

GoogleCloudAI构建基块

GoogleCloudAI构建基块是易于使用的组件,用户可以将其合并到自己的应用程序中以添加视觉、语言、对话和结构化数据。许多人工智能构件都是经过预训练的神经网络,但是如果它们不能满足用户的需求,则可以使用转移学习和神经网络搜索进行自定义。AutoMLTables有所不同,因为它可以使用数据科学家来为表格数据集找到最佳机器学习模型的过程实现自动化。

AutoML

GoogleCloudAutoML服务为语言对翻译、文本分类、对象检测、图像分类和视频对象分类和跟踪提供定制的深层神经网络。它们需要标记数据进行培训,但不需要深入学习、转移学习或编程方面的重要知识。

GoogleCloudAutoML可以为用户的标记数据自定义经过谷歌公司测试的、高精度的深度神经网络。AutoML从数据中训练模型,而不是从头开始,AutoML为语言对翻译和上面列出的其他服务实现了自动深度转移学习(意味着从现有的基于其他数据的深层神经网络开始)和神经结构搜索(意味着找到了额外网络层的正确组合)。

在每一个领域,谷歌公司已经有一个或多个基于深度神经网络和大量标签数据的预先训练服务。这些方法很可能适用于未经修改的数据,用户应该对此进行测试,以节省时间和成本。如果他们没有做到,GoogleCloudAutoML可以帮助用户创建一个能做到的模型,而不需要用户知道如何执行转移学习或如何设计神经网络。

与从头开始训练神经网络相比,转移学习具有两个主要优点:首先,它需要的训练数据要少得多,因为网络的大多数层已经经过了良好的训练。其次,它训练得更快,因为它只优化最后一层。

虽然过去通常将GoogleCloudAutoML服务打包在一起提供,但现在列出了它们的基本预训练服务。其他大多数公司所说的AutoML是由GoogleCloudAutoMLTables执行的。

为此测试AutoMLVision自定义花卉分类器,采用一个小时的时间从Google样本图像中训练了这个分类器,并在附近艺术博物馆拍摄了郁金香的照片进行比较。

AutoMLTables

对于许多回归和分类问题,通常的数据科学过程是创建数据表以进行训练、清理和整理数据,执行特征工程,并尝试在转换后的表上训练所有适当的模型,包括进行优化的步骤最佳模型的超参数。在人工识别目标字段后,GoogleCloudAutoMLTables可以自动执行整个过程。

AutoMLTables会自动在Google的model-zoo中搜索结构化数据,以找到最适合的模型,从线性/逻辑回归模型(用于更简单的数据集)到高级的深度、集成和架构搜索方法(用于更大型、更复杂的模型)不等。它可以自动执行各种表格数据原语(例如数字、类、字符串、时间戳和列表)上的要素工程,并帮助用户检测和处理缺失值、异常值和其他常见数据问题。

其无代码界面可指导用户完成整个端到端机器学习生命周期,从而使团队中的任何人都可以轻松构建模型,并将其可靠地集成到更广泛的应用程序中。AutoMLTables提供了广泛的输入数据和模型行为可解释性功能,以及用于防止出现常见的错误。AutoMLTables也可在API和笔记本环境中使用。

AutoMLTables与其他几种AutoML实现和框架竞争。

从功能设计到部署,AutoMLTables实现了用于为表格数据创建预测模型的整个流程的自动化。

在AutoMLTables的分析阶段可以看到所有原始功能的描述性统计信息。

免费的GoogleCloudVision“尝试API”界面允许将图片拖动到网页上并查看结果。可以看到孩子在微笑,因此“Joy”标签正确。但该算法无法完全识别所戴的帽子。

VisionAPI

GoogleCloudVisionAPI是一项经过预先训练的机器学习服务,用于对图像进行分类并提取各种功能。它可以将图像分为数千种经过预先训练的类别,从图像中发现的通用对象和动物(例如猫)到一般情况(例如黄昏),再到特定地标(艾菲尔铁塔和大峡谷),并确定图像的一般属性,例如其主导色。它可以隔离脸部区域,然后对脸部进行几何分析(面部方位和地标)和情感分析,尽管它不会将某人脸部识别为特定人物,但名人(需要特殊使用许可)除外。VisionAPI使用OCR检测图像中超过50种语言和各种文件类型的文本。它还可以识别产品徽标,并检测成人、暴力和医疗内容。

VideoIntelligenceAPI

谷歌云的VideoIntelligenceAPI会自动识别存储和流式视频中的2万多个对象、位置和动作。它还可以区分场景变化,并在视频、快照或帧级别提取丰富的元数据。它还使用OCR执行文本检测和提取,检测显式内容,自动关闭字幕和说明,识别徽标,并检测人脸、人物和姿势。

谷歌公司建议使用VideoIntelligenceAPI来提取元数据以索引、组织和搜索用户的视频内容。它可以录制视频并生成隐藏字幕,以及标记和过滤不适当的内容,所有这些都比人工录制更具成本效益。用例包括内容审核、内容推荐、媒体存档、广告。

NaturalLanguageAPI

自然语言处理(NLP)是其“秘方”的重要组成部分,可以使对GoogleSearch和GoogleAssistant的输入效果很好。NaturalLanguageAPI将相同的技术公开给用户的程序。它可以使用10种语言执行语法分析、实体提取、情感分析和内容分类。如果用户了解某种语言,可以指定使用。否则,API将尝试自动检测语言。当前可应要求提前提供一个单独的API,专门处理与医疗保健相关的内容。

TranslationAPI

TranslationAPI可以翻译一百多种语言,如果用户没有指定,则可以自动检测源语言,并提供三种版本:基本翻译、高级翻译、媒体翻译。高级翻译API支持词汇表,批处理翻译和自定义模型的使用。基本翻译API本质上是消费者Google翻译界面所使用的API。而AutoMLTranslation允许用户使用转移学习来训练自定义模型。

MediaTranslationAPI直接以12种语言从音频文件或流文件中转换内容,并自动生成标点符号。视频和电话通话音频有不同的模型。

Text-to-Speech

Text-to-Speech(文字转声音)的API可以将纯文本和SSML标记转换为声音,可以选择多种声音和40种语言和变体。其变体包括不同的国家和民族口音,例如美国、英国、南非、印度、爱尔兰和澳大利亚的语言。

其基本的声音听起来通常很机械。WaveNet声音通常听起来更自然,但使用成本较高。用户还可以从自己的录音室质量的录音中创建自定义声音。

用户可以将合成声音的速度调高或调慢4倍,将音调调高或调低20个半音。SSML标签允许用户添加暂停、数字、日期和时间格式以及其他发音说明。还可以将音量增益最多增加16分贝,或将音量最多减小96分贝。

Speech-to-Text

Speech-to-Text(声音转文字)API使用谷歌公司先进的深度学习神经网络算法将语音转换为文字,以实现自动语音识别(ASR)。它支持超过种语言和变体,可以在本地(带有许可证)以及在谷歌云平台中进行部署。Speech-to-Text可以针对较短的音频样本(一分钟或更短)进行同步运行,针对较长的音频(最长达到分钟)进行异步处理,并可以进行流传输以进行实时识别。

用户可以通过提供提示来自定义语音识别,以转录特定于领域的术语和稀有单词。有专门的ASR模型用于视频、电话、命令和搜索,以及“默认”(其他任何东西)。虽然用户可以在API请求中嵌入编码的音频,但更多情况下,用户将为存储在Google云存储桶中的二进制音频文件提供URI。

Dialogflow

DialogflowEssentials建立在“Speech-to-Text”(声音转文字)和“Text-to-Speech”(文字转声音)的基础上,并且可以利用40多个预先构建的代理作为模板,用于具有单个主题对话的小型机器人。DialogflowCX是一个高级开发套件,用于创建会话式人工智能应用程序,包括聊天机器人、语音机器人和IVR(交互式语音响应)机器人程序。它包括一个可视化的机器人构建平台(见下面的屏幕截图)、协作和版本控制工具以及高级IVR功能支持,并针对企业规模和复杂性进行了优化。

DialogflowCX是用于复杂语音交互虚拟代理的设计器。设计师在此处列出了意图“store.location”的十个短语。类似的短语也会被识别出来。

InferenceAPI

时间序列数据通常需要进行一些特殊的处理,尤其是如果用户希望除了处理大型历史数据集之外还对流数据实时执行数据处理,尤其如此。完全托管的无服务器InferenceAPI目前处于有限的Alpha测试中,可使用事件时间标记检测趋势和异常,处理包含多达数百亿个事件的数据集,每秒可以运行数千个查询,并以低延迟进行响应。

Re

转载请注明:http://www.aideyishus.com/lkjg/3547.html

------分隔线----------------------------