Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

泽南 小舟报道

印度小哥在「我的世界」里搭神经网络,做图像识别,网友:这是「别人的世界」

在沙盒游戏《我的世界》中,有人搭建了完整的校园,有人举办了毕业典礼,有的人从零开始制作计算机,玩家们层出不穷的创意总能让人眼前一亮。现在,又有一位印度程序员展现了真正的技术:在《我的世界》里搭建神经网络

对于计算机科学爱好者们来说,有关《我的世界》中的环境是否「够格」作为各种严肃实验的话题,早已经过了充分讨论:

答案是肯定的,《我的世界》中红石电路和命令方块体系已经分别图灵完备了。这意味着我们理论上可以在其中构建一个通用图灵机(虽然难度比较大),进而造出一台功能完整的常规架构计算机。

既然如此,我们能不能在游戏里「敲出」一个神经网络模型呢?

已经有人做到了。最近,一名来自印度的程序员 Ashutosh Sathe 向我们展示了真正的技术,他在《我的世界》里运行起了一个具有图像识别能力的神经网络

只要在游戏里的「画板」上写字,《我的世界》里的「计算机」就可以识别出你写的内容是什么:

在《我的世界》里进行 MNIST 式的手写数字识别。

神经网络推断出画板上的文字为数字 1」。

除了给出识别的结果,神经网络识别的过程也是清晰可见:

在看了这波操作之后,众多吃瓜网友留下了不争气的泪水,感慨道:「这是『别人的世界』……」

这一炫酷的技术被称为 scarpet-nn,是一套可以让玩家在《我的世界》游戏中运行二值神经网络(BNN)的工具。BNN 是一种激活、权重被固定为 1 或-1 的特殊神经网络,大幅度简化了神经网络的运算量,最早由 Yoshua Bengio 等人提出。正是这些特性,让 BNN 的权重可以由单个二进制位来表示,并在《我的世界》里运行。

与此前人们在《我的世界》中运行神经网络的一些尝试不同,scarpet-nn 的 API 允许人们在游戏中运行任何二值神经网络的体系架构。也就是说,任何人都可以训练自己的二值神经网络,然后将其运行在《我的世界》里。

Ashutosh Sathe 还开放了代码。

项目地址:https://github.com/ashutoshbsathe/scarpet-nn

技术细节:投影(Litematica)原理图生成

要想在我的世界里运行神经网络,你首先需要安装一个 Java 版游戏,Litematica 和 carpetmod 两个 mod,另一方面还需要有 Python 3,深度学习框架 pytorch 和 nbtlib 库。

通用表征标准

在 scarpet-nn 中,nn-to-litematica 模块将 pytorch 检查点的二值化权重转换为 litematica 原理图。每个 litematica 的排列方式是让前两个维度位于 (x,z) 平面上。此外,原理图的加载点(加载原理图时玩家所在的区域)总是表示权重数组中的第一个数字。权重数组中的第一个维度是从加载点到 X 轴正半轴,第二个维度是从加载点到 Z 轴正半轴。超过 3 的维度会被重塑成第 3 个轴(Y 轴)。

卷积层的表征

这里遵循上述通用表征标准。由于卷积层是以四维数组的形式存储的,因此需要压缩额外的维度,使其变成三维。卷积层的典型 shape 是 [c_2,c_1,f_h,f_w]。其中,

  • c_2 = 输出激活应有的通道数

  • c_1= 输入激活应有的通道数

  • (f_h,f_w)= 卷积滤波器的高度和宽度


为了将此转换成三维的表征,scarpet-nn 将 (f_h,f_w) 压缩成一个大小为 f_h×f_w 的单一维度。因此,生成的原理图中新的卷积层将会是 [c_2,c_1,f_h×f_w]。

为了直观地理解这一点,请看下面的样例图片。该图展示了第三个卷积层(conv3)权重的块表征,它的权重从 [16, 8, 3, 3] 压缩成了 [16, 8, 9]。

全连接层的表征

全连接(fc)层也符合 scarpet-nn 的通用表征标准。全连接层的典型 shape 是 [n,k],输入是 [m,n],输出是 [m,k]。由于所有的操作都是二维的,所以不需要做维度调整。由于也没有第三维,所以整个的权重数组都在 X-Z 平面内。

如下是 fc1 层的示意图。该层的 shape 是 [8, 16]。

看完技术细节,有人觉得,在这种像素化的沙盒游戏里,用红石搭建神经网络,未免也太过复杂……

但也有人觉得,恰恰是因为用红石逻辑构建网络,才让人印象深刻。

作者本人回复说,scarpet-nn 比命令方块体系的性能要好得多,《我的世界》可以将其用于绘制地图时在隐蔽模式下打开隐藏内容。

只是目前,在《我的世界》中可以实现的神经网络功能仍然有限:看起来只有前向传播而没有反向传播。

不过在玩家们的不懈努力下,又有什么是不能实现的呢?

参考链接:
https://ashutoshbsathe.github.io/scarpet-nn/
https://www.reddit.com/r/MachineLearning/comments/gb08da/p_i_wrote_an_api_to_build_neural_networks_in/


工程游戏神经网络二值网络
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

二值化技术

二值化是将像素图像转换为二进制图像的过程。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图灵机技术

图灵机,又称确定型图灵机,是英国数学家艾伦·图灵于1936年提出的一种抽象计算模型,其更抽象的意义为一种数学逻辑机,可以看作等价于任何有限逻辑数学过程的终极强大逻辑机器。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

图生成技术

根据给定信息信息生成图表。

推荐文章
暂无评论
暂无评论~