又被算法骗了!一种广泛使用的算法会导致信息丢失

2020-03-18

AI 

在人工智能开展得如火如荼的今日,许多研讨范畴和环节现已有了老练、固定的体系和套路,后来者能够轻松沿着现已铺好的路途前往最前沿范畴。可是,一份最新研讨显现,这一范畴最根底的部分、一种被广泛应用的算法,从根本上便是有缺点的。

3月2日宣布在《美国国家科学院院刊》上的论文The impossibility of low-rank representations for triangle-rich complex networks(杂乱三角冗余网络低阶表明的不或许性)对神经网络建模所选用的“低维嵌入”算法进行了评价,并证明其存在严重缺点。一同,尽管新的嵌入办法正在迅速开展,可是这些办法都有相同的缺点。

嵌入技能本质上是将文本信息映射到数值空间中,再对这些数值进行运算。以交际网络为例,嵌入技能便是将一个人在交际网络中的方位转化成几许空间中的一组坐标,为每个个别生成一个能够刺进算法的数字,再经过算法生成关于人们行为的猜测、为用户供给主张等等。

文章榜首作者、加州大学副教授C. Seshadhri表明:“把一些笼统的东西——比方一个人在交际网络中的方位——转化成详细的数字列表,这很重要。另一件重要的工作是,你要把它转化到一个低维空间,这样代表每个人的数字列表就会相对较小。”

问题在于,一旦转化完结,体系就会疏忽实践的交际网络,彻底依据空间中各点之间的联络进行猜测。例如,假如你周围的许多人都在购买某个特定的产品,体系或许就会猜测你也会购买相同的产品。

在文章中,Seshadhri和合作者先是用数学办法证明这个嵌入进程会导致杂乱网络的重要结构丢掉,随后,他们又经过在不同类型的杂乱网络上测验不同的嵌入技能,从经历上证明了这一成果。

“假如模型某处呈现了许多个三角形,就意味着在交际网络的这一部分存在许多社区结构。在一个典型的交际网络中,有些人有许多的联络,但大多数人没有许多联络。关于那些交际网络规模有限的人来说,这些三角形更重要。”

在对嵌入技能的剖析中,研讨人员发现许多代表社区结构的社会三角形在嵌入进程中丢掉了。“所有这些信息好像都消失了,所以当你构建这些几许表征时,你想找到的东西简直都消失了,”Seshadhri说。

不过,低维嵌入办法并不是一无可取。尽管在独自运用时会丢掉许多东西,可是假如将其和其他输入办法一同运用,不只能够补偿这一缺点,还能给整个模型的功能带来一点小小的提高。

不过说到底,为特定的使命开发特定的技能,才是取得好成果的最佳挑选。

“这些嵌入技能适用于许多不同的使命,这便是许多人选用它们的原因。将它们刺进现有的机器学习体系也很简单。但关于特定的使命,你其实能够取得更好的成果,”Seshadhri说。

参考文献:

[1] https://www.pnas.org/content/early/2020/02/26/1911030117