0239-372619430

leyu·乐鱼分类

深度学习在美团点评的应用|乐鱼体育发布日期：2024-10-06 浏览次数：

本文摘要：按：本文刊载于微信公众号美团评论技术团队，取得许可刊登。

按：本文刊载于微信公众号美团评论技术团队，取得许可刊登。作者分别为：文竹，美团评论美团平台与酒旅事业群智能技术中心负责人；李彪，美团评论美团平台及酒旅事业群NLP技术负责人；晓明，美团评论平台及酒旅事业群图像技术负责人。

(公众号：)| 前言近年来，深度自学在语音、图像、自然语言处置等领域获得十分引人注目的成果，出了最引人注目的技术热点之一。美团评论这两年在深度自学方面也展开了一些探寻，其中在自然语言处置领域，我们将深度自学技术应用于文本分析、语义给定、搜索引擎的排序模型等；在计算机视觉领域，我们将其应用于文字辨识、目标检测、图像分类、图像质量排序等。

下面我们就以语义给定、图像质量排序及文字辨识这三个应用于场景为事例，来详尽讲解美团评论在深度自学技术及应用于方面的经验和方法论。| 基于深度自学的语义给定语义给定技术，在信息检索、搜索引擎中具有最重要的地位，在结果解任、精准排序等环节充分发挥着最重要起到。传统意义上讲的语义给定技术，更为侧重文字层面的语义相符程度，我们不得已称作语言层的语义给定；而在美团评论这样典型的O2O应用于场景下，我们的结果呈现出除了和用户传达的语言层语义强劲涉及之外，还和用户意图、用户状态强劲涉及。用户意图即用户是来干什么的？比如用户在百度上搜寻“关内关外”，他的意图有可能是想要告诉关内和关外代表的地理区域范围，“关内”和“关外”被作为两个词展开检索，而在美团上搜寻“关内关外”，用户想找的就是“关内关外”这家饭店，“关内关外”被作为一个词来对待。

再说用户状态，一个在北京和另一个在武汉的用户，在百度或淘宝上搜寻任何一个词条，有可能获得的结果会差太多；但是在美团这样与地理位置强劲涉及的场景下就不会几乎不一样。比如我在武汉搜“黄鹤楼”，用户去找的有可能是景点门票，而在北京搜寻“黄鹤楼”，用户去找的很有可能是一家饭店。

如何融合语言层信息和用户意图、状态来做到语义给定呢？我们的思路是在短文本外引进部分O2O业务场景涉及特征，带入到设计的深度自学来做到语义给定的框架中，通过页面/下单数据来提示语义给定模型的优化方向，最后把训练出有的页面相关性模型应用于到搜寻涉及业务中。右图是针对美团评论场景设计的页面相近度框架ClickNet，是较为轻量级的模型，顾及了效果和性能两方面，能很好地推展到线上应用于。表示层对Query和商家名分别用语义和业务特征回应，其中语义特征是核心，通过DNN/CNN/RNN/LSTM/GRU方法获得短文本的整体向量回应，另外不会引进业务涉及特征，比如用户或商家的涉及信息，比如用户和商家距离、商家评价等，最后融合一起往上载。

自学层通过多层仅有相连和非线性变化后，预测给定分数，根据分数和Label来调整网络以自学出有Query和商家名的页面给定关系。在该算法框架上要训练效果很好的语义模型，还必须根据场景做到模型调优：首先，我们从训练语料做到很多优化，比如考虑到样本不平衡、样本最重要度、方位Bias等方面问题。其次，在模型参数徵优时，考虑到有所不同的优化算法、网络大小层次、超强参数的调整等问题。

经过模型训练优化，我们的语义给定模型早已在美团评论平台搜寻、广告、酒店、旅游等解任和排序系统中上线，有效地提高了访购率/收益/点击率等指标。小结深度自学应用于在语义给定上，必须针对业务场景设计适合的算法框架，此外，深度自学算法虽然增加了特征工程工作，但模型调优上可玩性不会减少，因此可以从框架设计、业务语料处置、模型参数调优三方面综合一起考虑到，构建一个效果和性能兼优的模型。| 基于深度自学的图像质量排序国内外各大互联网公司（比如腾讯、阿里和Yelp）的线上广告业务都在注目展出什么样的图像能更有更加多页面。

在美团评论，商家的首图是由商家或运营人工登录的，如何自由选择首图才能更佳地更有用户呢？图像质量排序算法目标就是做自动自由选择更加优质的首图，以更有用户页面。传统的图像质量排序方法主要从美学角度展开质量评价，通过颜色统计资料、主体产于、线条等来分析图片的美感。但在实际业务场景中，用户对图片质量好坏的辨别主观性很强，无法构成统一的评价标准。

比如:有的用户对清晰度或分辨率更加脆弱；有的用户对色彩或线条更加脆弱；有的用户喜好有视觉冲击力的内容而非平淡无奇的环境图。因此我们用于深度自学方法，去挖出图片的哪些属性不会影响用户的辨别，以及如何有效地融合这些属性对图片展开评价。

我们用于AlexNet去萃取图片的高层语义叙述，自学美感、可记忆度、更有度、品类等High Level特征，并补足人工设计的Low Level特征（比如色彩、锐度、对比度、角点）。在取得这些特征后，训练一个浅层神经网络对图像整体评分。该框架（如图2右图）的一个特点是牵头了深度自学特征与传统特征，既引进高层语义又保有了低层标准化叙述，既还包括全局特征又有局部特征。

对于每个维度图片属性的自学，都必须大量的标签数据来承托，但几乎通过人工标记代价很大，因此我们糅合了美团评论的图片来源和POI标签体系。关于更有度属性的自学，我们挑选了美团DealBlogger中点击率低的图片（多数是摄影师通过单反相机摄制）作为正例，而挑选UGCBlogger中点击率较低的图片（多数是低端手机摄制）作为负例。

关于品类属性的自学，我们将美团一级品类和少见二级品类作为图片标签。基于上述质量排序模型，我们为广告POI挑选出合适的优质首图展开展出，起着更有用户页面，提升业务指标的目的。

图3得出了基于质量排序的首图替代性结果。| 基于深度自学的OCR为了提高用户体验，O2O产品对OCR技术的市场需求已渗透到上单、缴纳、仓储和用户评价等环节。OCR在美团评论业务中主要起着两方面起到。一方面是辅助载入，比如在移动支付环节通过对银行卡卡号的照片辨识，以构建自动被绑卡，又如辅助BD载入菜单中菜品信息。

另一方面是审查校验，比如在商家资质审查环节对商家上载的身份证、营业执照和餐饮许可证等证件照片展开信息提取和核验以保证该商家的合法性，比如机器过滤器商家上单和用户评价环节产生的包括违禁词的图片。比起于传统OCR场景（印刷体、扫瞄文档），美团的OCR场景主要是针对手机摄制的照片展开文字信息提取和辨识，考虑到线下用户的多样性，因此主要面对以下挑战：光学简单：噪声、模糊不清、光线变化、应力；文字简单：字体、字号、色彩、磨损、笔画宽度不相同、方向给定；背景简单：版面缺陷，背景阻碍。对于上述挑战，传统的OCR解决方案不存在着以下严重不足：通过版面分析（二值化，相连域分析）来分解文本行，拒绝版面结构有较强的规则性且前背景可分性强劲（例如文档图像、车牌），无法处置前背景简单的随便文字（例如场景文字、菜单、广告文字等）。

通过人工设计边缘方向特征（例如HOG）来训练字符识别模型，此类单一的特征在字体变化，模糊不清或背景阻碍时一般化能力很快上升。过度倚赖字符重复的结果，在字符变形、黏附、噪声阻碍的情况下，重复的错误传播特别是在引人注目。针对传统OCR解决方案的严重不足，我们尝试基于深度自学的OCR。1. 基于Faster R-CNN和FCN的文字定位首先，我们根据否有先验信息将版面区分为可控场景（例如身份证、营业执照、银行卡）和非可控场景（例如菜单、门头图）。

对于可控场景，我们将文字定位切换为对特定关键字目标的检测问题。主要利用Faster R-CNN展开检测，如下图右图。为了确保重返板的定位精度同时提高运算速度，我们对原先框架和训练方式展开了微调:考虑到关键字目标的类内变化受限，我们剪裁了ZF模型的网络结构，将5层卷积增加到3层。

训练过程中提升于是以样本的重合亲率阈值，并根据业务市场需求来兼容RPN层Anchor的宽高比。对于非可控场景，由于文字方向和笔画宽度给定变化，目标检测中重返板的定位粒度过于，我们利用语义拆分中常用的全卷积网络（FCN）来展开像素级别的文字/背景标示，如下图右图。

为了同时确保定位的精度和语义的明晰，我们不仅在最后一层展开反卷积，而且融合了深层Layer和浅层Layer的反卷积结果2. 基于序列自学框架的文字辨识为了有效地控制字符重复和辨识后处理的错误传播效应，构建末端到末端文字辨识的可训练性，我们使用如下图右图的序列自学框架。框架整体分成三层：卷积层，迭代层和翻译成层。其中卷积层托特征，迭代层既自学特征序列中字符特征的先后关系，又自学字符的先后关系，翻译成层构建对时间序列分类结果的解码。

由于序列自学框架对训练样本的数量和产于拒绝较高，我们使用了现实样本+制备样本的方式。现实样本以美团评论业务来源（例如菜单、身份证、营业执照）居多，制备样本则考虑到了字体、应力、模糊不清、噪声、背景等因素。基于上述序列自学框架和训练数据，在多种场景的文字辨识上都有较大幅的性能提高，如下图右图。| 总结本文主要以深度自学在自然语言处置、图像处理两个领域的应用于为事例展开了讲解，但深度自学在美团评论有可能充分发挥的价值相比之下不仅限于此。

未来，我们将之后在各个场景了解挖出，比如在智能交互、仓储调度、智能运营等，在美团评论产品的智能化道路上贡献一份力量。版权文章，予以许可禁令刊登。

下文闻刊登须知。

本文关键词：leyu·乐鱼,乐鱼体育,leyu体育,leyucom乐鱼官网官方网站,leyu手机在线登录入口,乐鱼网页版在线登录,乐鱼官网入口网页版

本文来源：leyu·乐鱼-www.uximedia.com