Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Daniel Shenfeld作者

在12家科技创业公司工作后,这是我的8条经验

关于产品、数据和人,这里有 8 条经验。

这是一篇经验帖,作者 Daniel Shenfeld 曾在 12 家创业公司工作过,这些公司覆盖金融科技、医疗、教育技术、生物技术等多个领域,所处的阶段也各有不同,从种子前(pre-seed)到收购后都有。Daniel 在不同的公司中担任各种各样的职位,从基层员工到数据科学主管和战略顾问主管都做过。在所有工作中,他一直致力于研究有趣的机器学习数据科学问题。所有人都试图创造伟大的产品,一些人确实成功了。

从这么多工作经历中他学到了什么?本文介绍了他对产品、数据和人才的 8 条经验。

关注产品,而非 AI

作为货真价实的数学家,我一开始是被机器学习科学打动的,想创建新的算法和方法来解决挑战。

但我很快就意识到,即便是最准确的机器学习模型也没法自己创造价值。机器学习和 AI 的价值是根据它们支持的产品来衡量的。弄清楚如何有效地做到这一点才是构建 ML 驱动产品的真正意义所在。

《爱丽丝梦游仙境》的作者刘易斯·卡罗尔(Lewis Carroll)也是一位数学家。他发明了许多极具吸引力的产品,尽管有一些并没能像预期的那样发挥作用。(本文所有插图均来自约翰·坦尼尔(John Tenniel))

关注问题,而非方法

如果以构建产品为目标,那么机器学习和 AI 就只是达成目标的手段。重要的是如何解决产品问题,而不是使用什么样的方法。在大多数情况中,快捷但有缺陷的方法(quick and dirty solution)会让你走得更远。如果一个问题用简单回归就能很好地解决时,就不要训练深度神经网络了。

当关注问题本身时,你有时会发现机器学习并不是解决问题的最好工具。很多问题是流程的问题。即使在这些情况下,数据科学家也可以做出很多贡献,因为他们天然倾向于采取严格、数据驱动的方法。但这并不表示用 AI 修复糟糕的流程是个好主意。只需修复流程

寻找数据和产品之间的协同效应

将现有产品和根据机器学习模型做的预测结果结合起来很少能体现出机器学习的真正价值。当然,这也会给它们加一点分,但在强大的 AI 产品中,机器学习不只是附加功能。它是创造价值的引擎,而产品是建立在引擎基础上的:产品和数据必须要协同工作。

如果做得好,就会形成强大的良性循环,我称之为「产品/数据拟合」(product/data fit):产品有效地意识到数据的潜在价值,同时持续生成必要数据来进一步改进产品。

机器学习引入产品是次优策略。

尤其是,AI 不能只停留在数据科学和工程团队中。组织的其他部分,从产品到管理层,都要参与其中,来加速创造价值的过程。这需要大量的教育和投入,而这超出了工程师们以往构建软件的习惯(即便是在初创公司中)。

数据先行,AI 在后

机器学习和 AI 都需要大量数据,更重要的是「高质量数据」。如果你要从头构建一个产品,那从第一天开始你就要考虑收集数据了。如果你要在现有产品中引入 AI 技术,那在进入 AI 部分之前,首先要准备好在数据工程和重建架构方面进行大量投入。

这并不意味着你要在实现价值前预先加载所有工作。更好的数据操作意味着更好的分析,这对任何组织的学习和改进都至关重要。利用这些成果来展示价值并产生组织认同。当你的分析非常坚实时,就可以真正开始考虑机器学习了。

进行有效沟通

打造优秀的产品需要优秀的产品经理和高管的支持。虽然 AI 和深度学习的力量吸引了许多人,但很少有非技术人员真正了解这些技术。有效讨论机器学习和 AI 需要对统计学有深刻的理解,沟通鸿沟往往会造成不切实际的期望。

关于机器学习和 AI 的讨论显然不是完全基于业务指标的。

一个关键点是讨论业务指标的同时,也要思考如何将业务指标转换为模型指标。这样的话产品经理要承担很多责任,但对数据科学家而言也是如此,他们必须了解拟建产品相关领域的知识,还要深入理解业务,这样才能真正高效地工作。

快捷但有缺陷的方法副作用并没有那么大

正如我前面提到的,快捷但有缺陷的方法会让你走得更远。部分在于,现在快捷但有缺陷的方法其实就是过去缓慢但准确的方法。像 word2vec 这样的工具变得和回归一样易于使用,而且研究者还在不断创建功能强大的新工具。对任何数据科学家来说,充分了解不同的构建模块以及它们之间的粘合剂是非常必要的。

开源工具爆炸式增长的后果之一是,大多数情况下开发专门的 ML 平台算不上一个好主意。当然,你应该有用常见构建块建立的专门算法,并将这些算法用在自己的问题和领域中。但,请把深度学习的研究留给谷歌的研究人员——要专注于业务问题,还记得吗?

如有疑问,展示数据

向用户展示数据很有用,但不是所有呈现方法都同样效果拔群。

在产品开发的早期阶段,最重要的活动是获得市场反馈。但机器学习需要大量数据,而这需要很长时间。这就出现了一个问题:如何在没有太多数据的情况下,获得市场对某个数据产品的反馈?

一般来说最好的解决方案是向用户展示数据。人类一次只能处理少量数据,所以没有太多数据也没关系。用户会如何处理你展示给他们的数据呢?他们想掩饰哪些,又想深入挖掘哪些呢?公开之前无法获取的信息是一种很强大的方法,而且能够提供数据的潜在业务价值。

建立信任

信任是大多数技术成功的主要因素。最终,每一项技术都是供人类使用的,因此必须取得人们的信任。在机器学习应用的背景下,有些人可能担心他们的工作会被自动化取代。其他人则正在根据技术提供的信息做出重要决策。

如果一个 AI 产品中混合了这些担忧,比如某个产品试图替人类做出决策,而不是让人类自主决策,则会导致信任的快速流失。

信任易失不易得。打造人们信任的产品。

柴郡猫展示了一种获得用户信任的方法。

原文链接:https://towardsdatascience.com/what-ive-learned-working-with-12-machine-learning-startups-a9a3026d2419

产业机器学习创业公司经验教训
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

暂无评论
暂无评论~