Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Ivy、胡笳、云舟编译

超想去某AI公司?简历再好都不如给「准东家」私人定制一份机器学习项目!

Edouard Harris是一名在YC创业公司工作的物理学家,他的工作就是帮助毕业新生获得第一份机器学习相关的工作。

从自己的经验出发,Harris认为,一位目标明确的应聘者如果只需要做一件事情,那就是,从准东家的立场出发,找到他们最需要的,建立一个个人的机器学习项目池。

在这篇文章中,他会告诉你如何做到这点。

当然,“押宝”有风险,各位读者模仿需谨慎。建立这样的项目是个耗时耗力的大工程。

以下是全文,enjoy~

在YC的工作中,我看过上百个以找工作为目的创建的个人项目,质量参差不齐,差距甚大。接下来,我会着重介绍其中两个非常好的成功押宝的项目。

押宝项目——货架空缺识别

下面是一个真实的故事,为了保护个人隐私我更改了姓名。

X公司使用人工智能技术来实现杂货店的库存紧缺提醒,当库存不够,需要进货时,系统能够自动发送提示。这个故事的男主角我们暂时成为Ron,他真的很想在X公司工作。所以他建立了一个与X公司高度匹配的项目,这个项目让他成功的得到了去X公司面试的机会。

我们通常不建议学生把赌注全押在一家公司,这样风险太大。但是,也有例外,就像我说的Ron,他是真的很想在X公司工作。

那么,Ron到底做了什么?

红色的边框表示有物体缺失。

1.Ron首先用胶带把手机贴在购物车上,随后他推着购物车在一家杂货店的过道上来回走动,同时用相机记录过道的情况。在不同的杂货店中重复实验,每间杂货店做10-12次记录。

2.一回到家,Ron就开始建立机器学习模型。他的模型检测到杂货店货架上存在空位--货架上的玉米片(或其他东西)消失了。

3.Ron做的最棒的事情就是他在GitHub上实时构建了自己的模型,并且向所有用户公开源码。每天,他都会对代码库进行改进(提高准确性),并且在README中记录有哪些变化。

4.X公司发现了Ron的项目并对Ron的做法表现出了兴趣。事实上,他们不仅仅对他好奇甚至还有些紧张。因为Ron在不知情的情况下,几天内复现了部分他们的专有技术栈。(当然,Ron的尝试远非完美,X公司为这个问题投入了比他更多的资源。但Ron的项目与公司的非常相似,所以X公司立刻就让Ron将他的项目库权限改为私有,不再向公众公开。)

X公司实力很强,他们的技术在同行业中名列前茅。尽管如此,Ron的项目只用了4天时间就直接吸引到了X公司CEO的关注。

飞行员项目

这儿还有另外一个真实的故事。

Alex是一名历史专业的学生,辅修俄语(这是真的)。不寻常的是,他对机器学习也有兴趣。更令人惊讶的是,尽管以前从未写过一行Python代码,但他还是决定去学习机器学习

Alex选择边实践边学习,他决定建立一个分类器,以检测战斗机飞行员是否在飞机上失去了意识。Alex希望通过观察飞行员的视频来发现这一点。他知道人只要观察一下视频就能很容易看出来飞行员已经失去了知觉,所以他认为机器也应该能分辨的出来。

这是Alex在几个月中所做的事情:

Alex的G-force感应意识探测器的演示

1.Alex 从YouTube,下载了从驾驶舱拍摄的飞行员驾驶飞机的每一个视频剪辑(数量有几十个)。

2.接着,他开始给数据贴标签。Alex构建了一个UI,可以滚动查看数千个视频帧,通过按“意识”按钮或“无意识”按钮,就可以自动将该帧保存至对应标记的文件夹中。贴标签的过程非常无聊,这耗费了他极其多的时间。

3.Alex为图像构建了一个数据管道,他将飞行员从驾驶舱背景中裁剪出来——以便他的分类器能更加专注于飞行员个体。最后,他开始建立意识分类器。

4.在做这些事情的同时,Alex还在交流活动中向招聘经理展示他的项目。每当他拿出项目并在手机上展示时,他们都会问他是怎么做的,数据管道是怎么建的,数据是如何收集的。但他们从来没有问过他的模型准确性——实际上低于50%。

当然,Alex正计划提高模型的准确性,但他还没有开始就被一家公司录用了。事实证明,他的项目的视觉展示效果以及他在数据收集方面的智慧,对公司来说,比他的模型准确性更重要。

能想象出Alex只是一名历史专业的学生,还辅修俄语吗?

他们的共同点

是什么让Ron和Alex获得如此成功呢?

以下是他们做的最正确的四件事:

1.Ron和Alex并没有在建模上花费太多精力。我知道这听起来很奇怪,但对于现在的许多用例,建模是一个已经被解决的问题。在实际工作中,除非你正在进行最先进的人工智能研究,否则80-90%的时间你都会用来清理数据。对个人项目来说也是一样的。

2.Ron和Alex收集了自己的数据。因此,他们最终获得的数据比在Kaggle或UCI数据库中找到的数据更加混乱。但杂乱的数据教会了他们如何去处理数据。比起学术网站上下载的数据,他们能更好的理解自己收集的数据集。

3.Ron和Alex搭建了项目展示平台。在面试的过程中,你没有机会展示你所有的技能。面试是尽可能的把自己推销出去,尽可能抓住别人的眼球。人类是视觉生物,所以如果你拿出手机,向面试官展示你做了些什么,那就要确保你所展示的看起来很有趣。

4.Ron和Alex做的事似乎都很疯狂。实际上这确实很疯狂。普通人不会用胶带将手机粘到购物车上。普通人不会花时间在YouTube视频中裁剪飞行员视频。你知道是谁会做这些吗?那些愿意不惜一切代价完成工作的人。而公司真的非常想雇佣那些人。

Ron和Alex所做的事情看起来非常多,但实际上,这并没有比你在真正的工作中预期的要多多少。这就是重点所在:当你没有做X的工作经验时,招聘经理会找你有没有做过与X类似的事情。

幸运的是,你只需要在这种程度上做一两次项目就够了——Ron和Alex的项目在他们所有的面试中都被重复使用。

因此,如果我不得不用一句话概括一个好ML项目的核心思想,那就是:用一个有趣的数据集构建一个项目,数据集的收集需要花费心思,同时做好项目演示平台,使其尽可能具有视觉冲击力。

最后,文摘菌友情提醒大家:押宝有风险,模仿须谨慎,依然祝大家求职成功!

相关报道:

https://towardsdatascience.com/the-cold-start-problem-how-to-build-your-machine-learning-portfolio-6718b4ae83e9

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业机器学习
3
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

推荐文章
暂无评论
暂无评论~