复旦数学家:从般若心经|文化层面揭示大数据的本质

文章来源:互联网作者:小编发布时间:2022-04-29 13:27:03

Ready

✪ 吴宗敏 | 复旦大学数学学院

《文化纵横》微信:whzh_21bcr

【导读】大约从2012年起,“大数据”通过各种传播渠道,成为公众耳熟能详的热词。然而在媒体的狂轰滥炸背后,“大数据”对于大多数人来说其实还是一个人云亦云空泛的词汇,其真正内涵对大众的理解还存在距离。事实上,大数据技术不仅已经在现实中改变了人类生活的方方面面,也带来了人们意识观念上的深刻改变:人类的一切经验皆是数据、皆可量化处理。一些科学家认为大数据是科学研究继实验观察、理论建构、计算机仿真之后的“第四范式”。而本文则以佛教认识论中“受想行识”的分类,以两千多年前的佛教思想来界说今天的大数据技术。本文不仅是对大数据概念的清晰介绍,而且让人感到今天的前沿技术并不是对古老思想的全盘颠覆,而是后者的传承与最新进展。文章原载“科学1915”,仅代表作者观点,特此编发,以飨读者。

大数据的受、想、形、识

大数据这个新名词,近来总在不同的媒体出现。究竟什么是大数据,不同人有着不同的理解与解读,但总体形象还不十分清晰。如果说成数据科学,那就比较容易理解了,即关于对象为数据的科学,而大数据应该是数据科学中的问题,是尚未解决的问题,是数据科学延伸的一个研究领域。

何谓大数据

大数据与传统的数据科学有什么差异呢?“大”的一个直接解释是多,但数据多并不自然等同于大数据。譬如小孩子背圆周率,不可能全部背出来,因为这是一个无限小数,也就是说数据是无限多。但是数学上早已给出多种不同的计算方法,想要精确到多少位就精确到多少位。

笔者认为,凡是数学已给出方法计算的,都不能算作大数据,或者说用现有数学方法处理的数据都不能算作大数据。笼统地讲,数据科学涉及数据采集、描述、表示、分析、重构 、理解、演绎、挖掘等部分。而大数据与传统的数据科学的差异,笔者认为主要在于:数据的异源、异构、不能直接嵌入经典的数学空间、含有深层的隐藏信息,以及与已获得的经验数据的联系、融合。这是大数据研究的挑战性所在。

研究大数据是为了提高我们对现实世界的认识达到大智慧。这在佛学中称为“般若波罗蜜多”。所以笔者在这里引用《般若波罗蜜多心经》中的话:“受想行识、亦复如是”。这里改动一个词,将“行”改成“形”。受——就是感受,就是数据采集;想——就是数据分析;形——是形成概念,数据重构;识——是对数据解读进而成为对现实世界的理解,并可用来为之服务。下面就这四个方面谈谈笔者对大数据的理解。

受——数据采集

人是怎么感受世界的?这还要引用《般若波罗蜜多心经》:“眼耳鼻舌身意”。眼睛看到的东西我们可以用数字照片记录下来,耳朵听到的可以用数字录音。视网膜、耳蜗中的绒毛及听骨记录的,如同计算机中的视频、音频文件,也是有限的离散数据。电子鼻、糖度仪一定程度上模拟了鼻舌。“身”是触觉,也有不少仪器模拟它,如红外遥感、X波雷达、CT等来模拟,而且扩充了人类采集数据的能力。“意”的解释稍微困难一些,可能是第六感,用数学语言说就是通过异构数据的协同计算获得的信息。蝙蝠可以通过听声音来辨别前方的物体,而一个人可以做到听音辨物就会被认为是特异功能了。

一个有名的数学问题是:人可以从鼓声听出鼓面的形状吗?纯粹数学家找到了两种鼓面,证明它们发出相同的声音,不过鼓面的构造比较复杂。这个结论事实上告诉我们,如果只有圆、椭圆、三角、四边、六边、八边等简单鼓面形状的鼓,人们是可以通过训练(数学上是学习算法),从鼓声中分辨得到鼓面形状的。再如,上司发火时会伴随着脸部的肌肉抽搐,当半夜从睡梦中被一阵电话铃声叫醒,听到他在电话里咆哮,虽然没有看见他,脑海中一定会出现那张弯曲的脸,或者说甚至可以听出表情。这好像是超能力,笔者更愿意把它叫做隐能力。X波雷达、红外遥感也是如此。

所以,数据科学首先要在数据采集上将看不见、听不到的数据转换为看得见、听得到的数据,将不是用通常手段采集的数据转换为通常的数据表达形式,以扩充、提高人们采集数据的能力,特别是拓展隐能力。

反过来,心理学家也做过实验:将一个每秒24帧图像的影片,每24幅后加一张图片,可以是血腥的,甚至只是写上一句令人沮丧的话,然后以每秒25帧的速度播放。播放时一般不会发觉有什么异样,但当人看完整部电影之后,就会感觉非常不舒服。这也叫暗示,某种信息在不知不觉中传到并记录在观众脑子里。近年来,有不少科幻影片通过手机等植入广告的形式发送隐藏信息,以控制人们的思想。甚至有传言,美军在伊拉克战场上就已经采用了这种战术,在战场上用超声波播放伊斯兰教祷告的录音以瓦解敌方的斗志。开发利用数据采集与播放发送的隐能力,是数据科学特别是大数据的重要领域。

想——数据分析

数据分析,首先是去噪,譬如现在好的相机都有防抖功能,这是利用数学方法获得了去除噪声的图片。再一个是滤波或者说信号分离。在宁静的山村,人们早上醒来,听到几波鸡叫,会记得有几只鸡,它们在哪几个方位。这里做了现在称为机器学习或学习理论的事情:识别与分类。把一些鸡叫声归为一类,识别出这是同一只鸡在叫,同时分辨出有几只鸡。

又如,看了一个网页,会记住一些关键词,或者说提取了特征统计量。在记录图片时,记住的不会是图片每一个点的颜色(BMP文件),而主要是一种印象,或者说是印象派的图像。印象派有两种:一种是高更的,是导数、图像边缘突现;一种是莫奈的,模糊化的,可能是JPG文件或数学中称为小波框架的图像。这也就是压缩感知,把数据进行降维、压缩,记住想记住的东西,用尽量少的脑细胞记住一件事情。

数据处理的一个重要组成部分是数据的降维。譬如人脸识别,如果可以简单刻画(用简单函数表示)这个人的相片所在的那个低维流形,那么就把那个人容易地识别出来了。降维的主要数学方法是主成分分析,也就是提取特征。统计中的均值方差都是数据的某种特征。JPG图像文件的压缩逻辑是把一个大概印象放在高层,而将细节放在底层,可以逐渐细化地显示。心理学家也做过实验,让许多人快速看一些图片,然后让其描述所看到的内容,也就是印象。发现人的印象也可以分为两类:高更型的可以归于逻辑思维型的,将图像分片,每片用一种颜色表示;莫奈型的可以归于形象思维型的,是细节图像的模糊化结果。当然,更多的人是介于两者之间,融合了这两个压缩感知的方法。

数据从数学上来说主要表现为点或高维空间的点,函数离散化以后还是点,算子离散化以后是矩阵或张量,仍然是高维空间的点。通俗地讲,数据处理就是处理高维空间的点的关系。而点之间的关系是由距离(注意通常不是欧几里得距离)或连接图、连接路径组成。数学上是用转移矩阵表示的,或者说是复杂网络的动力学问题。要找到点之间的关系,通常首先要给每个点或点簇、点云一个地名,这个地名通常是模糊的,它由这个抽象的点或点簇所表示的具体对象的一些关键词组成,这时学习理论的两个根本问题又出现了:一个是模拟识别,就是寻找关键词、特征;一个是分类或聚类,把相近或相异的关键词用数学表示出来。接下来是一个对数学而言还只算是进入皮毛的问题,就是用数学来研究词典、语义学、句法分析、人物关系、段落大意及文章主题。

复旦数学家:从般若心经|文化层面揭示大数据的本质

形——数据重构

通常认为,数据有三元的结构属性:真实的存在、记录的数据、人类的理解。人脑形成的对该事物的理解与采集的数据是有差别的,而采集的数据与该事物的真实存在也总是有差别的。人脑不可能采集事物的全部数据,而人脑对真实事物的理解又会比采集数据要全面。因此记录的数据通常是有容余的,同时又是不全面的。

譬如一个人不同环境下的大量相片。有些部分是重复的,通常脸部最多,但又不完全重复,因为角度、光照或表情可能不同。单词“redandency”笔者想译成容余而不是冗余,是想说明这些信息是有重复,但它对信息重构不是完全没有用的。

当从真实存在的事件中采集了数据后,人脑会对之复原或重构,在人脑中形成对该事件的形象或理解——脑海中的世界。人们总是将获得的信息或数据去噪、分类、解构后安装、重构到自己已有的知识结构中。

对于信息有多个来源时,有相信谁的问题,这犹如许多软件可以自动进行天气预报,但结果一般不完全相同,医生看病也是如此。最为简单的是加权平均,比较地相信权威。但人们会得出更为聪敏的结论,知道在什么问题上应该更相信谁,并且一定会以非常大的权重加入自己固有的思想。用数学的语言说,会将问题升维。克莱因瓶不能在三维空间用函数描述,但在四维空间可以数学描述。复数、四元数正是用来处理这样的问题的。所以,为更好地处理数据,升维是数据处理的一个重要方法,在一个更高的思维层面上考虑问题,以便更好地看到主要矛盾之间的关系。

识——数据挖掘、预测、利用

识,即数据挖掘、预测、利用。海量数据总还是有限的,也就是说对于真实世界的描述人们可以获得的数据还是太少,还都在瞎子摸象阶段。当采集到的数据只有大象耳朵时,大象就像簸箕了。作为大数据,首先应通过其他途径的经验数据综合认识到大象的耳朵像簸箕,然后还可以综合采集其他部位的数据的结论,形成对整个大象的描述。

在数据重构中,人们应该得到比采集数据更多的东西,根据经验恢复部分的缺省数据。譬如大楼,是物理真实存在的一些不完整信息在人脑中形成对大楼的了解。物理存在的内容是完整的事实,而可以看到或了解的只是其中很少一部分,如只是一张斜角包含大半个正面的照片,但由对称性等经验,在人脑中形成的影像会更全面。如果有高楼下面几层的照片,其中窗户是清晰的,同时又有该高层建筑的远距离照片,窗户不怎么清晰,那么在人脑中形成的将是一张窗户清晰的整体相片。

人脑有非常强的数据解构、重建及根据经验再融合重构的能力。大数据就是希望利用数学通过计算机来实现这个能力,并且希望比人类做得更好、更快,特别是大数据分析中,希望完成利用人力几乎不可能完成的任务。看到半张脸、半幢大楼,那么根据对称性,人们对整体会有一个更加全面的形象概念。当下一次从另外的角度再见到时还会认识。

那么半句话呢?前几天笔者在某城市就看到一个被树木遮住一半的城市公益广告牌:“花一样的……”。因为是市府公益广告,第一反应是“花一样的城市”,提醒保持环境卫生之类,后来看见边上是一所小学,我想到了“花一样的年华”,提醒要遵守交通规则,当然脑海中还出现了“花一样笑容”“花一样的美丽”等句子。走近一看是“花一样的钱,办更大的事”。

这是经验数据在起作用,可见笔者的经验比较浪漫主义,局限在花朵的花,但与现实有一定的距离。当然要处理这样的问题,数学的方法现在可以在譬如百度上键入“花一样的”,然后就可以得到非常多的信息,聚类分类后,统计一下,就可以得到某种结果出现的概率。但要排除掉“这是市府的公益广告”、“边上有学校”之类只在具体事件发生地出现的非直接信息或采集的数据。这些信息通常是有用的,并且可能是决定性的。而在上面的例子,则也可能是误导信息。大数据就是要处理并合理利用这样的信息。

现在许多案件的破获都利用摄像头的视频信息。譬如波士顿爆炸案,是由一系列的模糊信息导致的越来越清晰的结论:炸弹包裹是黑色手提包,有带黑色棒球帽者提着黑色手提包,带黑色棒球帽者经常与带白色棒球帽者在一起,而带白色棒球帽者有脸部清晰相片,对照警察局记录该人有案底。但要处理这些相片需要多少工作量。这些工作有时只靠人力还不行。每个人只能处理一部分相片,而更为关键的是,将各相片中的模糊结论或模糊概念联系起来,能得到貌似还是模糊的、其实更为清晰的结论。

首先应该整理这些相片得到一些关键词,最好在照片的拍摄过程中照相机就已经进行了自动处理(离线处理,预处理),放在照片附带的说明文件中。而关键词或者说标签最好是标准化的,当然同时越是标准化越会流失一些可能有用的模糊信息。由于视角的不同与关心问题的角度不同,每个人选择的关键词或标签也是不同的、个性化的。这样又导致了个性化关键词的语义模糊匹配问题。在数学上,对个体智能或底层数据处理的研究已经达到了很高的阶段,并且可以说已经看到了基本解决此类问题的曙光。但对群体智能,如何融合多个个体智能的高层数据结构处理、描述、传输、动力系统行为的研究还在一个刚起步和黑暗的阶段。也就是说,大数据处理的高层云模糊设计的数学描述,是大数据处理是否可以有所斩获的关键。

具体的就是,如何整理非结构化的数据,使之成为拟结构化的、半结构化的、或者结构化的数据。同时又不能丢失可能有用的信息。

总的来说,大数据研究是用数学或数据来描述、理解现实世界,是完成“受想形识”,达到大智慧的唯一途径。

—— 新书推荐 ——

本文原载于公众号“科学杂志1915”,原题为“大数据的受、想、形、识图片来源于网络,如有侵权,敬请联系删除。欢迎个人分享,媒体转载请联系版权方。

打赏不设上限, 支持文化重建

End
复制本文链接 资讯文章为本游戏网所有,未经允许不得转载。
最新录入
新软新品榜