为何DARPA百万美金押注这家搜索公司?

Parse.ly听起来不像是一个典型的国防项目承包商的名字。 但是这家总部位于纽约的网站分析初创公司在美国国防部高级研究计划局( DARPA)的Memex项目中获得了100多万美元的资金支持,该项目致力于开发下一代网页搜索。 Parse.ly联合创始人兼首席技术官Andrew Montalenti表示:「这个项目将尝试探索搜索和网络爬虫所能实现的所有应用案例,而不仅仅是简单的商业网络搜索。」
一个初期应用的例子是,追踪和关闭贩卖人口和现代奴役相关的线上交易。
DARPA表示,杜绝人口贩卖是(国防部的)一项「关键使命」,白宫一则报告援引 Memex 项目时称,新的搜索工具可以帮助监测线上贩卖人口活动,识别从事人贩的群体并发现与其他恶意活动之间的联系。 今年早些时候DARPA在宣布这项计划的声明中表示:「借助论坛、聊天、广告、招聘和隐藏服务等等,现代奴役产业不断壮大。」「反贩卖人口的索引,加上搜索和分析的可配置界面,将会提供发现并消灭贩卖人口组织的新机遇。」 参与该计划的主承包商、致力于通过短信服务在低连接区域收集和传播信息的IST Research也指出该计划在流行病学和跟踪假冒商品销售中同样具有应用潜力。 在其日常业务中,Parse.ly为传媒公司提供工具以分析哪些人浏览了网站,在不同的页面上的耗时,在社交网站上分享的内容等等。为了回答这些问题,Parse.ly研发出一些工具,以获取消费者浏览的网页,寻找新内容,并自动提取作者、段落、标签和其他有用信息。 [caption id="attachment_3185" align="alignnone" width="500"]图片来自Parse.ly网络 图片来自Parse.ly网络[/caption] Montalenti称,这项工作(部分开源)去年吸引了DARPA的注意。Parse.ly不会致力于像打击人口贩卖这样的特定的应用,但会继续开发获取网站并进行实时内容分析的一般性工具。
开放性研究
Montalenti表示,DARPA 在通过对Parse.ly的拨款时,提出了一个建议性要求:「该项目应像之前那样,主要是以团队形式进行开源项目开发。」Montalenti透露,对20世纪70年代的互联网前身阿帕网的有着著名资助的DARPA 越来越支持那些旨在产生同行评审、重现性科研结果或者公开使用开源代码的项目。 因为Parse.ly从技术上来说是该项目的分包商,大多数政府合同的官僚开销——Montalenti毫不忌讳地承认Parse.ly并不擅长这点——由项目主承包商承担,而给Parse.ly留下更多专攻科学和工程项目的自由空间。
「我们将想出获取网页的特定部分并对结果进行处理的办法。」
Montalenti 说,「他们基本上是这么和我们讲的,(一个选择)是你们和更为稳定的政府承包商结对,他们会帮你们处理各种繁文缛节,这样你们就可以集中在更为基础的研究上。」 该项目的目标之一是大致建立一个开源、分布式获取的网络爬虫(API),这样所有人都有可能借助亚马逊的弹性计算云这样的技术制造高性能的爬虫,这就类似谷歌和必应等搜索引擎内部使用的那些专用工具。 Montalenti说:「我们想向外扩展节点以获取网页特定部分,并使人们能够对结果进行任何操作。你可以选出你想要检测的新闻域名列表,你可以运行一大堆亚马逊EC2实例,让网页爬虫以更高的频率抓取网页的特定区域,当新内容出现在网页该区域时能为你提供实时结果。」 Parse.ly已经着手于一些开源项目来建立爬虫,包括Python获取框架Scrapy,分布式实时处理引擎Apache Storm和分布式信息传递和日志框架 Apache Kafka。 Kafka管理着诸如URL、网页内容和获取及分析项目的元数据等数据流,Storm使得对海量文献的分析成为可能,Montalenti称其为「如果你要做大规模文档处理的话,这是一个可供使用的伟大技术。」 因为Parse.ly通常采用Python编程语言,该公司的一些开源项目涉及到利用其强大的自然语言处理器和计算机信息库建立从自然语言到Storm 和 Kafka转化通道,但这一任务一般意义上更经常使用Java 或者其他编程语言。 思想交流会议 除了为Parse.ly正常运行中提供资金支持,Memex 项目还为该公司的开发者和相似领域的包括学术界的其他研究人员提供宝贵的沟通交流机会。 Montalenti 表示,这有助于公司保持在数据获取和处理技术的领先地位。 DARPA这里有「有全小组会议和聚会,不同组织的研究者齐聚一堂,展示自己的研究成果。这真是酷毙了,让人感到谦卑。」 本文来自于Fastcompany,机器之心编译出品,参与成员:电子羊、XW奇。  
入门