返回第252章 浅度学习(1 / 2)读书成神豪首页

自然啊

世界上最早的科学期刊之一,也是全世界最权威及最有名望的学术期刊之一。

首版於1869年11月4日,到现在2015年传承都快一百五十年了

而且在今天大多数科学期刊都专一于一个特殊的领域不同,自然是少数其它类似期刊有科学和美国国家科学院院刊依然发表来自很多科学领域的一手研究论文的期刊。

在许多科学研究领域中,每年最重要、最前沿的研究结果是在自然中以短文章的形式发表的。

尽管影响因子的评价不完全客观,但40的影响因子可见一斑其影响力了

尽管脑海中想了很多,但章杉还是不能完全理解在这上面发文的概念

就在章杉无比膨胀的时候,系统泼冷水了:

“宿主在投稿0级论文的时候拥有100的通过率,宿主在投稿1级论文的时候目前通过率为99”

“宿主投稿论文等级为n级别时,通过率相较0级每提高n级,将下降n的通过率”

章杉:。。。

得,白激动半天

按照系统这个说法,将来投稿9级论文的时候只有19的通过率了。

不过话说回来,目前系统里面1级论文就是发在的节奏了。

9级论文将来发在哪里?

现在说来,投稿nr的话自然不是100的过通过率了。

而是99的过稿率

虽然这听起来很靠谱

但章杉是一贯脸黑,9999中奖率都有翻车的时候

现在具体会是什么结果,哪里又能说得好呢

对于投稿nr的那篇,章杉全然没兴趣了,反而是对那两个0级论文章杉兴趣更浓一些

虽然这两篇论文依旧是人类佼佼者才能企及的高度。

但以章杉的智慧他很快就搞清楚论文rrppnnrrsrrs交代的来龙去脉:

深度学习训练一个模型需要很多的人工标注的数据。

在图象识别里面,经常可能需要上百万的人工标注的数据,在语音识别里面,可能需要成千上万小时的人工标注的数据,机器翻译更是需要数千万的双语句对做训练,这些都是大数据的体现。

但是,很多时候找专家来标注数据是非常昂贵的,并且对一些应用而言,很难找到大规模的标注的数据,例如一些疑难杂症,或者是一些比较稀有的应用场景。

而标注数据的代价是极高的。

比如说对机器翻译而言,现在如果请人工来翻译,一个单词的费用差不多是510美分之间,一个句子平均长度差不多是30个单词,如果章杉需要标注一千万个双语句对,也就是章杉需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。

数据标注的费用是非常非常高的,让一个创业公司或者一些刚刚涉足人工智能的公司拿这么大一笔资金来标注数据是很难或者是不太可行的。

因此当前深度学习的一个前沿就是如何从无标注的数据里面进行学习。

而章杉这篇文章里描述的生成式对抗网络就是起到这样的作用。

生成式对抗网络的主要目的是学到一个生成模型,这样生成式对抗网络可以生成很多图像,这种图像看起来就像真实的自然图像一样。

生成式对抗网络解决这个问题的思路跟以前的方法不太一样,生成式对抗网络是同时学习两个神经网络:一个神经网络生成图像,另外一个神经网络给图像进行分类,区分真实的图像和生成的图像。

在生成式对抗网络里面,第一个神经网络也就是生成式神经网络,生成式对抗网络的目的是希望生成的图像非常像自然界的真实图像,这样的话,那后面的第二个网络,也就是那个分类器没办法区分真实世界的图像和生成的图像而第二个神经网络,也就是分类器,生成式对抗网络的目的是希望能够正确的把生成的图像也就是假的图像和真实的自然界图像能够区分开。

这两个神经网络的目的其实是不一样的,他们一起进行训练,就可以得到一个很好的生成式神经网络。

生成式对抗网络最初提出的时候,主要是对于图像的生成。

章杉论文里提出来的显然是将该方法应用到各个不同的问题上。

不过论文的着重点还是章杉针对如何从无标注的数据进行学习!

在文中他提出了一个新思路,叫做对偶学习。

对偶学习的思路和前面生成式对抗学习会非常不一样。

章杉发现很多人工智能的任务在结构上有对偶属性。

在机器翻译里面,章杉把翻译成英文,这是一个任务,但是章杉同样也需要把英文翻译成,这是一个对偶的任务。

这种原任务和对偶任务之间,他们的输入和输出正好是反着来的。