首页 体育 教育 财经 社会 娱乐 军事 国内 科技 互联网 房产 国际 女人 汽车 游戏

分析了自家150个ML模型之后,这家全球最大的旅行网站得出了6条经验教训

2019-12-18

参加:Yi Bai、张倩

在许多媒体文章中,咱们都能看到「机器学习赋能 XX 职业」的字眼,但这种「能量」终究体现在哪些方面,企业在引进机器学习模型的进程中要注意哪些问题,许多文章都没有说清楚。在本年的 KDD 大会接纳论文中,全球最大的线上游览署理网站 Booking.com贡献了一篇论文,剖析了他们面向客户的 150 个成功的机器学习运用以及从中得到的六条经验教训。本文是对这篇论文的简略总结。

「150 successful Machine Learning models: 6 lessons learned at Booking.com」是一篇绝佳的总述,它结合了 Booking.com 大约 150 个面向客户的成功的机器成功运用以及从中得到的经验教训。奇怪的是,尽管论文的标题这么写了,在正文中却从未明晰列出这 6 条经验教训。不过,咱们可以从论文的区分中推断出这些部分,以下是我的解读:

运用机器学习模型的项目会发明巨大的商业价值

模型的功能不等同于运营成绩

澄清你正在测验处理的问题

猜测的推迟是个重要问题

及早获取模型质量的反应

用随机对照试验测验你的模型的商业影响力

当然,这篇论文中的好主张可不止这六条。

咱们发现,发挥实在的商业影响力极为困难,更何况,将在建模方面所做的尽力和观测到的影响力之间的联络别离开来好好了解原本便是一件难事。咱们首要的结论是:要用机器学习打造出这 150 个成功的产品,其底子在于,要有一个迭代的、由假定驱动的流程,并结合其他学科。

别把这段引文解读为不值得在机器学习上出资。与之相反,我以为正如 DevOps 的现状陈述中所说到的高效能安排具有的一切其它特质相同,进步一个安排设计、构建以及在面向用户的场景中成功布置机器学习模型的才干,关于进步该安排的竞争力有底子性的作用。

你大约听说过 Booking.com,「世界上最大的在线游览社」。给用户传递杰出的游览体会是个有挑战性的使命,首要有以下几个要素:

引荐的危险很高——预定到一个过错的住处,可比播映一部你不喜爱的电影糟糕多了!

用户在预定旅程的时分,关于他们实在等待的东西往往没有给足信息。

住宿的供应受限,价位改变会影响住客的挑选倾向。

住客的挑选偏好在他们每次运用渠道的时分都或许发作改变。

住宿的相关信息过多,用户无法及时消化。

现在现已有大约 150 个机器学习模型布置到了生产中,因而,机器学习现已触及了 Booking.com 用户体会的方方面面。有些模型十分详细,聚集于特定布景下的特定景象;别的一些模型则像一个语义层,对某些在多种语境下都能派上用场的概念进行建模,比方依据用户旅程的结尾猜测该用户灵活性的模型。

Booking.com 所运用的模型可分为六个大类:

游览者偏好模型:在语义层作业,对用户的偏好做出各种猜测。

游览者布景模型:同样在语义层,猜测旅程发作的布景

条目空间导览模型:追寻用户的阅读记载,使得引荐能全体考虑用户个人历史记载和整个目录。

用户界面优化模型:优化布景图片、字体大小、按钮等 UI。风趣的是,「咱们发现没有某个特定的值是全体最优值,所以咱们的模型会依据布景和用户信息,来确认最佳的用户界面。」

内容策展模型:策划并挑选性地展现人工生成的内容,如谈论。

内容扩大模型:核算一个旅程所含元素的附加信息,如当时哪些挑选物超所值,或许某个区域内的价位趋势。

经验教训 1:运用机器学习模型的项目会发明巨大的商业价值

在 Booking.com,以上各类模型都供给了商业价值。而比较其它那些没有运用机器学习的成功项目,依据机器学习的项目往往发明出更高的报答。

图 2:各类模型相关于影响力中位数的商业影响力

而一旦投入运用,除却立刻的商业利益,它们往往会持续成为产品进一步开展的柱石。下图显现了一系列产品布置的影响力,每一个都依据前者,又持续改善商业产出。

图 3:关于某引荐产品的一系列试验。每个试验测验了一个专攻某个范畴的新版本或某个机器学习问题的设定。条形的长度为相关于初版的观测值

经验教训 2:模型的功能不等同于运营成绩

Booking.com 经过随机对照试验衡量模型在某些商业目标上的影响力,以此来预估模型发生的价值。

咱们有一项风趣的发现:进步模型的功能未必就能添加商业价值。

原因或许有以下几点:商业价值的饱满、受众较少导致的部分饱满、对某些不能成功转化为商业目标的直接目标的过度优化、以及下图中所阐释的恐惧谷效应。

图 5:恐惧谷:人们有时分并不喜爱过分精准的猜测。图中的用户诉苦称:「booking.com 怎样知道我在去萨尔斯堡之前要先去维也纳?」

经验教训 3:澄清你正在测验处理的问题

在开端构建模型之前,有必要花时间去对你要处理的问题做一个细心的界说。

构建问题的进程把某个商业事例或许概念作为输入,把一个界说好的建模问题作为输出,以此找到一个好的处理方案来为这个商业事例或概念建模。

有些令人惊叹的改善并非来自于在给定系统下对模型进行优化,而是来自于改动系统自身。比方,把依据点击数据的用户偏好模型改为依据住客谈论数据的自然语言处理问题。

咱们发现,一般最佳的问题并不是那些咱们能直接想到的,而改动问题的设定能有用解锁躲藏价值。

经验教训 4:猜测的推迟是个重要问题

关于功能关于商业目标的影响力,咱们还有另一个重要的点。在一个介绍组成推迟的试验中,Booking.com 发现,假如推迟添加 30% 左右,转化率就会下降 0.5%。「对咱们的运营来说,这是一个相关本钱。」

关于机器学习模型来说,这个尤为相关,由于它们需求强壮的核算资源来做猜测。即使是数学上简略的模型,也有或许引进攸关成果的推迟。

Booking.com 采纳多种办法下降模型引进的推迟,包含分发多个模型副原本达到横向扩展、自研定制版线性猜测引擎、更偏好参数少的模型、批量恳求以及预核算和/或缓存。

经验教训 5:及早获取模型质量的反应

当模型处理恳求时,监控输出质量十分重要,但至少有两个问题不太好处理……

难以观测到实在标签,导致反应不完整。

反应推迟,比方,在用户预定时模型猜测了用户是否会留下谈论,但直到游览完成后才干鉴定这个猜测是否精确。

Booking.com 在这样的景象下有一招关于二分类问题作用不错,便是看模型发生的回应的概率散布。「有一个明晰稳定点的滑润双峰散布,大都标明模型可以成功分辩两个类别。」其它形状则标明这个模型或许遇到了一些困难。

图 7:回应散布图的比如

……依据标明,对回应散布的剖析十分有用,协助咱们在前期就可以探测出模型中的缺点。

经验教训 6:用随机对照试验测验你的模型的商业影响力

这篇文章中调查的机器学习成功事例,大都伴随着精巧的试验设计呈现,有的试验设计引导了开发的流程,有的则是为了检测影响力。

文中供给了在不同状况下怎么设定试验的主张。

当不是一切被试都有资历参加某个改变的时分,在有资历的被试子集里创立试验组和对照组。

图 8:对挑选性触发的试验设计

假如模型发生的成果只在一些状况下影响用户体会,那么进一步限制试验组和对照组的规模,使模型在这个规模里能发生用户可见的输出。为了评价功能的影响,添加第三个控制组,彻底不调用模型。

图 9:对依靠模型输出的触发的试验设计,以及衡量功能影响的控制组

比较模型的时分,咱们感兴趣的是两个模型不一致的状况。咱们运用只调用了当时模型的控制组。这样的话试验设计便是这样的:

图 10:比较模型时的试验设计

由假定驱动的迭代和跨学科融合是咱们用机器学习发明价值时的中心力气。咱们期望这项作业能为其他机器学习从业者供给指引,并在这个专题上激起更多的探究。

原论文链接:http://delivery.acm.org/10.1145/3340000/3330744/p1743-bernardi.pdf?ip=23.239.23.176 id=3330744 acc=OPENTOC key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E9F04A3A78F7D3B8D __acm__=1571126805_78c20d9477e51ffc6689ca98cd41eb6a

解读链接:https://blog.acolyer.org/2019/10/07/150-successful-machine-learning-models/

热门文章

随机推荐

推荐文章