第22篇 机器学习与深度学习为什么难以应用? - AMORE STORIES - CHINESE
#Digital
2018.08.24
0 LIKE
197 VIEW
  • 메일 공유
  • https://stories.amorepacific.com/zh/%e7%ac%ac22%e7%af%87-%e6%9c%ba%e5%99%a8%e5%ad%a6%e4%b9%a0%e4%b8%8e%e6%b7%b1%e5%ba%a6%e5%ad%a6%e4%b9%a0%e4%b8%ba%e4%bb%80%e4%b9%88%e9%9a%be%e4%bb%a5%e5%ba%94

第22篇 机器学习与深度学习为什么难以应用?

专栏作家Kim Haksin
Digital IT Innovation Team


# Intro

 正如"人工智能将改变一切",人工智能被越来越多地应用于各个领域,为顾客提供前所未有的用户体验,解决迄今悬而未决的问题。举例来说,人类可凭借人工智能技术将具有持续性和反复性的工作实现自动化,或利用数据预测未来、理解非结构化数据(文本、图片等),应用范围将会更加广泛,应用场景也会更加多样化。人工智能基于机器学习(Machine Learning),尤其是模拟人类大脑神经网络的深度学习(Deep Learning),而这些技术目前正被积极地应用。

 我通过公司新推行的"主题慧超"项目,体验了可以期待在B2C应用的亚马逊人工智能服务,从头到尾熟悉了机器学习与深度学习。虽然只有在短短3个月的时间内粗略地了解了机器学习与深度学习,自始至终却经历了不断遇到问题,不断解决问题的过程。在此过程中稍微体会到为什么机器学习与深度学习难以被应用,并且想通过这篇文章与大家分享我的经验与体会。

# 机器学习为什么难以应用

1. 数据问题

 机器学习与深度学习利用数据通过反复学习,创建越来越接近答案的模型(函数)。由于这是通过学习数据、利用数据创建的模型,不同数据会带来截然不同的结果,因此机器学习与深度学习的结果取决于优质数据并非言过其实。那么,什么是优质数据?优质数据可以从两个角度解释:一是数据质量(Data Quality),一是数据数量(Data Volume)。就第一个数据质量而言,我问过亚马逊员工什么是优质数据,他们回答:"优质数据要具有连续性,不能有任何遗漏,还要具备一致性。"还有人回答:"要具备想通过机器学习或深度学习来解决问题的数据。"第二个要讲的是数据数量。机器学习与深度学习需要相当多的数据。如果要创建分类图片的模型,可能会依据要分类的数量或一个对象的数量而不同,而仅一个对象就需要数十到数百张图片。

 在现实世界上找到同时满足前述两个条件的优质数据,可谓难上加难。数据采集绝非一日之功,需要日积月累的努力,而且还需要很多资源。如今,所有公司意识到"数据=竞争力与资产"。随着数据的重要性日益突出,若想从外部获取数据,需要支付更多费用。

2. 令人煎熬的数据预处理(Preprocessing)

 机器学习与深度学习必须要做数据预处理。数据预处理流程简单地来说分为以下几个步骤:数据理解与分析、数据清洗、数据变换、数据格式化等。为了理解和分析数据,需要了解相关域名的背景知识,并在此基础上理解和分析数据的含义。这需要相当长时间的操作,而且理解和分析完数据之后,还要再删除不必要的数据,或新增从现有数据来看认为有意义的数据特征(Feature)。之后要填补遗漏的数据值,如果数据值变化幅度大,要进行归一化处理来减少幅度;由文字组成的数据要全部转换成数字。因为机器学习与深度学习只运算数字,所以要把文字转换成数字。最后要进行格式化处理,把相关数据转化为机器学习可接受的格式。这段时间会依数据质量而不同,无论如何这在机器学习与深度学习中操作时间占比相当大。如果得出来的结果不尽如人意,可以尝试其他方法,这时又要进行一部分的数据预处理。

3. 配方(recipe)多种多样

 在解决一个问题时,机器学习与深度学习的解决方案不止一个,有各式各样的解决方案。假设要做一个辨别垃圾邮件的模型,其解决方法有很多种。最常见的解决方案有XG-Booster、Decision Tree、Support Vector Machine、K-NN(Nearest Neighbor)等。选择其中一个解决方案后,还有更多的配方待你选择。在多种配方中,最常见的是需要根据过去的经验或实践由人来决定其值的超参数(Hyper Parameter)。超参数值要由人去指定,但是超参数值的组合非常非常多,而且会因参数值不同而取得不同的结果。因此,若想找出合适的超参数值与组合,需要不断地尝试,在类似问题上经验积累到一定程度后,才能更快一点解决问题。
  • 用图描述了机器学习为何难以应用:只有具备充分的数据,选择合适的算法,加上正确的运行,才能得出结果。
    资料来源 : http://ai.stanford.edu

4. 无法保障最优解

 在机器学习与深度学习所具有的诸多问题中,比较突出的问题是相关配方到底能不能保障最优解。用专业术语来讲,就是全局极小值(Global Minimum),指的是在学习整个数据的过程(能够更好地预测答案的过程)中达到最优值。然而,机器学习与深度学习有时会得出对部分数据优化的局部极小值(Local Minimum)而非全局极小值,或者有时得出全局极小值但又无法解释清楚。因此该模型得出的结果从商务层面来看有没有意义,还是要看能否在商务层面接受该模型所得出的结果。

5. 学习过程所需时间过长

 在前面讲数据的时候也提到,机器学习与深度学习需要相当多的数据。换言之,学习这么多数据,需要花很长时间。时间会因问题而异,而假设要做一个辨别图片的模型,需要一个价格昂贵的图形处理器(GPU), 并且为了学习GPU的使用方法并且使用GPU学习,需要短至几小时、长至几天的时间。学习后如果得出令人满意的结果,那就再好不过了,但是如果学习结果不尽如人意,就要重新组合配方,重新学习。当然,重新学习之后,也不一定能得到心满意足的结果。

6. 很难解释所得出的结果

 在机器学习与深度学习中,能够简单地解释结果的模型(Decision Tree等)其实并不多。监督学习(Supervised Learning)*无监督学习(Unsupervised Learning)*也是如此。其中就深度学习而言,基本上无法解释其结果。因为深度学习隐层(Hidden Layer)的计算结果如同黑匣子,无法知道该模型为什么得出这种结果。亚马逊有关人士向我透露,比起通过深度学习模型来学习和验证结果的时间,解释和分析其结果的时间更长,要花费的努力更大。正因为此,目前正大力研究"可解释的人工智能(Explainable AI)",但尚处于起步阶段,看来还有很长的路要走。

- 监督学习(Supervised Learning)* :利用一组已知的样本,创建普遍化的模型,将决策流程自动化的学习方式(例如:让机器学习辨别垃圾邮件的方法,在今后收到新邮件时,参考过去的经验来区分垃圾邮件和一般邮件)
- 无监督学习(Unsupervised Learning)* :有别于监督学习,不提供答案,主要用于了解数据的相关性或数据的组成结构(例如:聚类Clustering)

# 机器学习与深度学习解决问题的方向

 如前所述,现在从头开始学机器学习与深度学习非常困难,需要专家的指导,可目前专家人数极少,绝对是供不应求。硅谷也面临人才紧缺的问题,机器学习与深度学习工程师很难招到,年薪要求也高,而且这种高端人才大多集中在谷歌、亚马逊、微软等IT巨头,或者是梦想成为独角兽公司的创客。易言之,除非是大型企业,否则很难应用机器学习与深度学习。正因为此,就在前一篇专栏(第21篇:创造人工智能的人工智能——AutoML)中提到,IT巨头为实现机器学习与深度学习的大众化而推出Auto ML。日前在旧金山召开的2018谷歌云年度大会(Google Cloud Next)上,谷歌发布了新增Auto ML功能的Big Query。利用Big Query,只要搜索数据并确定基于该数据要解决的问题,就会自动创建出机器学习或深度学习模型。除谷歌之外,还有亚马逊的SageMaker、IBM的Watson Studio。事实上,这些平台的用户不是普通人(开发者)而是数据科学家*,但随着时间的推移,将会很快发展成普通人(开发者)也能轻松体现机器学习与深度学习的平台,因此我认为将会在不久的未来,普通人也能利用这些平台来快速解决问题。

- 数据科学家* :采用科学方法,运用数据寻找有利于创造商务成果或达成目标之洞察的工程师,主要是对众多数据进行体系化与分析工作
  • AutoML process
    资料来源 : Data Robot


# 结束语

 虽然只是短短三个月的经历,通过专栏与各位分享了我所遇到的问题,以及亚马逊员工所透露的机器学习与深度学习的难点。文章中讲到了许多机器学习与深度学习消极的一面,这其实是机器学习与深度学习必须面临的问题,而且只有不断解决这些问题,才能靠经验的积累解决更多问题。我将利用通过主题慧超项目所积累的经验,研究和探讨在B2C应用机器学习与深度学习的方法,并以此来为顾客提供各种各样的用户体验而努力。


  • 喜欢

    0
  • 推荐

    0
  • 赞赏

    0
  • 支持

    0
  • 想看后续

    0
TOP

Follow us:

FB TW IG