emarketer 相关数据显示,预计2021年全球在线零售市场规模将达4.1万亿美元,占全球零售市场规模约17.5%。得益于海外消费者购物习惯的转变及中国完整而稳定的供应链体系,中国跨境电商正迎来新的增长机会。

我们邀请到了 WebEye 高级云架构师 Candice 和 Tim 带来 Google Cloud AI 赋能电商零售技术解决方案。由于分享内容非常丰富,我们对其进行了分块整理,以下为第一趴—— Google Cloud AI 产品全览& Vision AI 场景使用。

Google Cloud AI 产品全览  

图1

在图1中,某些情况下,最右侧更符合客户的使用场景 ,此时客户已经进行了模型训练,使用了诸如 TensorFlow 的工具,这时我们建议可以直接将客户的环境搬迁到云上进行部署训练。其中,能够产生最大价值的应属于模型训练模块。当然,客户也可以选择在云端进行预测推理或模型部署。这种规模的客户一般是具备了比较完善的数据科学家的团队,拥有丰富的管理模式,对于学术的了解也非常深入。而他们可能更加关注 Google 上有没有较好的硬件支持,比如 GPU、TPU 等非常完善的工具支持。

当然 Google 上是完全可以满足他们的需求的,举例来说 T4这款 GPU,是英伟达的一个产品,Google 是第一个推出 T4 的云厂商,同时也是第一个推出 A 100 GPU 的云厂商。同时也对应的推出的一个机型—— A2。目前在市面上拥有 AE 版 GPU 的厂商,包括英伟达,最多只支持八张卡。但是 Google Cloud 上面支持了十六张卡,其算力是非常强大的。

那我们再往中间看(图1),对于更多的客户来说,可能并没有完善的人员配备,而对 AI 也没有非常深入的了解。这样的客户群体,我们会推荐 Auto ML ,这是一个非常强大的生态 ,操作简单界面友好,通过 Web 页面,鼠标“点点”就可以完成操作,但是用的前提是企业需要准备自己的业务数据作为此次训练的数据集。(虽然谷歌拥有非常多的公共数据集,但是为了贴近自身使用场景,最好还是建立自己的数据集。)

图1左侧是一个预训练好的模型,开箱即用的服务。例如 Google Translation 服务,不同语言之间的翻译转换, 目前已经支持上百种语言。再如前文提到的 Speech to Text ,语音转文字、文字转语音以及 NLP(自然语言分析,例如在一段文本中提取实体进行情感分析)。

以上这些 ,Google Cloud 都提供了可以直接调用的 API ,以帮助我们的客户更快速的接入并投入到生产环境中。

图2

图2在前面的游戏解决方案专场出现过一次,从这张图我们可以看到,从最底层的基础设施 GPU、TPU  到实际的生产开发环境, Google 提供了非常全面且原生的支持。

下面我们先主要聊一聊 “Sight ” 模块的 Vision,其中分为两个部分—— Vision API 和 AutoML Vision。

Vision API 是经过预先训练的机器学习模型,可以为图像添加标签,并将其快速归入数百万个预定义的类别。可以检测图像中的对象和人脸、读取印刷体及手写文本,并在您的图像目录中纳入有价值的元数据。

而通过 AutoML Vision ,用户可以自定义训练模型,在准确率、延迟时间和规模方面进行模型优化。

通过上面的动图,我们先来简单的了解一下 Vision AI,在上传一张猫咪的图片之后,我们可以看到 Object 会有一个非常精准的识别结果,Labels 则是针对图片多组类别的实体的相关信息的一个识别;

Properties 主要是可以侦测图片的一些一般属性,比如主色调等,并会返回颜色的 RPG 值;

Safe Search 一般会被用来进行安全审核,比如针对色情暴力图片的审查。


Vision AI 功能概览

人脸识别

图3

该功能会被人脸进行标记,并识别情绪,目前在很多领域已经被使用,如图3所示,当我们上传的照片比较清晰时,可以较为准确的对于画面中出现的人脸进行识别,并可以对人脸的面部表情进行初步的判断。


检测标签

其使用场景也非常丰富,比如在一些未成年的场景中不能出现酒、烟及枪支,但是这些又不属于色情暴力的范畴,那么我们就可以使用这个标签来进行组合审查

图4

如图4,当我们上传一张吸烟动作的图片时,Labels 中会对抽烟动作、香烟实体进行准确识别。


文本提取

图5

该功能结合了 OCR 光学字符识别,可以检测并提取出图片中的文本内容,支持包括印刷体、手写体的检测。在图5,我们上传了一张带有手写的英文小诗的图片,在反馈的结果中,我们可以看到提取的文字相当准确。

这里有一个实用化的场景 —— 处理数据,在我们的数据集里面可能有一些大量的非结构化的数据,比如图片信息,我们就可以先用 Vision 做文本提取,将其中的信息提取出来并转化为半结构化的文本,然后再使用 NLP 自然语言分析将其中实体及情感值进行提取,将其转化为诸如 key-value 的完全结构化的数据,之后再进行下一步的操作处理。


AI 案列分享—— AutoML Vision

图6

这是一个电商客户。在平台发展过程中一直有一个困扰——经常接到关于抄袭或侵权的投诉,导致需要投入大量的人力来处理此类事件,后面借助 AutoML Vision 训练特定模型来进行著名品牌的 Logo 及花纹等。然后在机器审核的时候直接进行过滤。整个流程下来,相对于以往可以节省大量的人力审核成本。

在模型训练的前期我们需要收集大量的图片数据集,同时为了保证数据集的质量,我们还准备了非常多的发行变形的图片,如高斯模糊,甚至还包括被剪切过的视频。当然我们还准备了大量的反例,最后得到一个效果不错的模型反馈。

AI 案例分享 —— Vision API    

图7

同样有一个电商客户,主要做泳衣售卖,但是我们知道泳衣有些款式非常热辣性感,很有可能会涉及到色情的范围,作为电商平台,首先要保证商品详情页的图片是合规的,那么图片审核非常必要。

在这个场景下,我们可以通过 Vision API 和 Safe Search 来进行色情审查。

如图7,在上传案例图之后,我们可以看到关于色情的指标反馈,Adult 和 Racy 的命中率非常高,已经到了 Very Likely 的程度。那么我们就可以在机器识别的阶段就 Pass 掉这张图,从而减少人工审核的成本。


由于篇幅有限,第一趴的内容就先到这里。

关于 Google Cloud 智能推荐系统与以图搜图功能的场景应用,下期再继续吧。

返回全部