亲,欢迎光临25中文网!
错缺断章、加书:站内短信
后台有人,会尽快回复!
25中文网 > 都市言情 > 重生之AI教父 > 第163章 这特么不数学啊
  • 主题模式:

  • 字体大小:

    -

    18

    +
  • 恢复默认

网络结构的重参数化,原理并不复杂,说白了就像是数学上的结合律。

和加法结合律,乘法结合律什么的差不多是一个意思。

属于是小学二年级知识点。

只不过这次结合的并非是3+5这样的简单加法,而是比较复杂的神经网络算子。

哪些算子是线性的可以合并,如何合并比较好,分支怎么设计,还是稍微有一些工作量。

这个结果值得和前面的移动端网络一起,写作两篇论文。

孟繁岐自从签了谷歌之后,基本上不怎么写论文了,没有了很强烈的发文需求,忙了好一阵子创业和捞钱的事情。

这一次参与围棋AI的项目,倒是跟几位高手一同写了不少内容。

席尔瓦,戴密斯,黄士杰和孟繁岐前段时间把阿尔法狗的技术总结了一番,各自详细描述了一下技术内容,目前由席尔瓦在整合当中。

由席尔瓦,黄士杰和孟繁岐共同作为第一作者,戴密斯为通讯作者,投稿阿尔法狗的详细技术内容到《自然》杂志。

这番投稿比原本早了快两年,给编辑以及审稿人的震撼程度势必又能再上一个台阶。

原本是三个月,现在估算下来,可能两个月左右就能刊登。

“我去年年底投的计算机视觉领域的顶会,一审结果还没出呢。”孟繁岐查看了一下邮箱,觉得情况有些好笑。

他公布在arxiv上面的那些论文,虽然质量很高,但其实严格意义上来说,都还在审稿当中。

算不上是正式发表的内容。

arxiv上确实存在没有正式发表,也不准备再正式发表的旷世奇作,重要论文。但毕竟是极少数。

大部分未发表内容还是比较一般的,孟繁岐还在早期阶段,咖位还不够,该发的文章还是得发。

可能再过两年,以他的咖位就不需要继续正式发表什么文章了,懒得发的话,随便arxiv上公布一下也可。

说是这么说,但孟繁岐还是没能想到,自己第一篇正式发表的文章竟然很可能会是一篇一作《自然》正刊,而且根据前世的情况判断,基本板上钉钉,是封面文章。

实在是造化弄人。

《自然》和《科学》的地位有目共睹,可以说是科学出版界的百年老店了。

由于两家都是综合性刊物,所有的科学领域一起竞争每周相当有限的版面,想在上面发表文章可以说是相当的困难。

即便是学术实力很强的大学,院士十来位,杰青和长江学者百来个,一般一整年能出一两篇自然和科学,也已经算不错的了,值得嘉奖。

在国内做研究人员,别的不说,一篇自然、科学正刊,直接立领五十万乃至上百万奖金,不在话下。

后续的奖励和政策协助那更是数不胜数,哇,爆率真的很高。

席尔瓦和戴密斯也觉得特别神奇,孟繁岐从残差网络崭露头角以来四五个月,一轮审稿期还没过完呢,技术倒是生产个不停。

还没有正式录用一篇文章,就已经能和自己几人一起发自然正刊了。

要知道他们都是多少年的积累和努力才有了这个实力。

“你这个重参数化的思想,逻辑上好像把自己给绕进去了啊。”重参数化是一个创意为主的想法,属于脑洞文。

想到比较困难,实现上倒没有那么复杂。

只是这个原理,在几位研究者看来,好像不大数学。

“现在的情况就是,你有两个结构,一个用来训练,一个用来推理。训练的比较复杂比较慢,但是推理的则小很多,也很快。”戴密斯简要地总结道。

随即指出了最关键的问题:“但你构建的这两个结构却是等价的,这里存在一个巨大的问题,如果两者本身就是等价的,为什么以复杂的形态训练效果会好,而简单的情况训练效果则会差呢?”

“这不数学。”席尔瓦给孟繁岐的想法下了一个结论。

这里面从数学逻辑上来说,存在一个套娃一样的悖论。

那就是有强烈意义的操作,两个分支数学上就合并不了,至于没用的操作最开始就在数学上等价,没必要拆开。

“网络结构的分支合并是没有办法越过非线性算子的,如果越过,则不能合并对吧。”戴密斯如此抽丝剥茧道。

网络结构的重参数化,最终目的是要得出与合并之前一样的运算结果,因此非线性的激活函数是没法包含在残差里的,否则就没法合并。

比如最常用的激活函数,ReLU,其实说白了就是保留所有大于0的数字,小于0的数字归零。

“这个非线性函数操作必须在分支合并之外,而不可以在分支合并之内。”

这个很好理解,假设一个原本的数字x是1,而他F(x)运算之后得出的结果是-2。

那么ReLU(F(x))+ x,和ReLU(F(x)+ x)的结果是完全不同的。

前者为0+1,后者为ReLU(-2+1)=0。

所有的可合并分支,必须不含有非线性激活算子,才能够满足结合律和分配率。

但问题又来了,如果构造出来的几个分支都可以等价转换为一个,那为什么不从一开始就只训这一个分支呢?这不是快很多吗?

最后的效果为什么会不一样呢?

这从直觉上和数学上都是不大合理的事情。

这不就相当于小学数学分开算吗?

2x拆成x+x去训练,这怎么会有区别呢?

“我们不能这么去想,残差链接的想法也没有脱离线性变换,也只是加了一个相同形状的张量x而已呀。”孟繁岐自己也不知道具体的原理,这个世界上没人能解释得清楚。

“但是残差链接在你的实际应用当中,是跨越了非线性激活函数的,你的公式看上去很简单,但代码里却很复杂。”戴密斯无情地指出了这个说法的问题所在。

“那理论上说,是不是3x3的卷积核一定好过1x1的卷积?只要九宫格外面的八个数字都是0,那么3x3的卷积核其实就变成了一个1x1的卷积,因为外面8个数字不参与运算。”

孟繁岐想了想,又换了一个例子来尝试证明。

“呃...好像确实是这个道理。”

就好像有某种物品,一定好过没有,因为再不济你也可以把它扔掉嘛,这样你现在就也没有这个东西,大家都一样了。

“那为什么我这里结果显示,同一个位置上面,1x1 + 3x3的性能却明显好于3x3 + 3x3,也就是说一个强结构加一个弱结构好于两个强结构相加,这难道不奇怪吗?”

“而且,批归一化虽然推理时是线性的,但训练时其实还是非线性的,也就是说即便没有专门的非线性函数,这种可重构的结构设计,多个分支内在训练的时候仍旧是具备非线性能力的。”

理论很美好,但实验结果很骨感。

即便席尔瓦和戴密斯的数学再扎实,也终究没法解释孟繁岐获得了提升的实验结果。

两个人能做的也只有喃喃自语同一句话。

这特么根本不数学啊!