七牛云 招聘 薪酬:黑天鹅事件

来源:百度文库 编辑:中财网 时间:2024/03/29 15:21:22

什么是黑天鹅事件(Black Swan Events?)

  伦敦商学院的研究员Nassim Nicholas Taleb因为不信任钟型曲线、更认同幂次法则而写了两本书《被随机愚弄》和《黑天鹅》,后者是对前者的更深入说明。所谓钟形曲线又称正态曲线,它是一根两端低中间高的曲线。它首先被数学家用来描述科学观察中量度与误差两者的分布。比利时天文学家奎斯勒首先提出大多数人的特性均趋向于正态曲线的均数或中数,越靠两极的越少,从而把正态曲线首先应用于社会领域。幂次法则(Power law)是个体的规模和其名次之间存在着幂次方的反比关系。

  在作者看来,“我们的世界是被极端的、未知的、不可能的事情主宰着。此时应把不可预知的事情当作起点而不是当作例外放下不管,尤其在黑天鹅开始繁殖的情况下。技术和科学的进步带给人们一种幻觉,以为自己能控制命运,”而事实上,“黑天鹅”才是历史上决定性的事件。作者在思考了“黑天鹅”会造成的后果(未知的未来的决定性)之后向人们提出建议:假定确实会发生糟糕的事情,你要做好准备,从美妙的突发事件中获利,尽量不要受到糟糕的突发事情的伤害。让机会最大化,去参加派对、住在城市里、别放过任何机会。

  简单地说,黑天鹅事件是指非常难以预测,且不寻常的事件,通常会引起市场连锁负面反应。

  最著名的黑天鹅事件受害者是盛极一时的美国长期资本公司,这家由诺贝尔经济学奖得主和众多华尔街高手组建的对冲基金设计了“完美”的投资组合且战绩辉煌,但由于出现了其复杂模型都难以预料的俄罗斯国债偿付危机所引发的全球市场连锁反应,招致损失惨重,最终以倒闭告终。

  此外像巴林银行因一个交易员的违规操作而被逼破产也属于黑天鹅事件。黑天鹅事件的时常出现提醒投资者股市的凶险和难以琢磨。

  为什么要等到事情发生之后,我们才认得出黑天鹅现象呢?部分的答案是,在应该注意普遍现象时,人们长久以来却习惯注意特定事件。我们习惯注意已经知道的事情,却一而再再而三忽略我们所不知道的事情。因此,我们无法真正地评估机会;我们很容易将事情简化、予以叙述、分类;而且我们不够开放,没能珍视那些能够想象“不可能事物”的人。

  多年来,我们是怎样欺骗自己,以为自己知道的比实际上知道的还多。我们总是只看到无足轻重的事情,而大的事件却继续在你我的惊叹声中出现,并形塑着这个世界。当事情发生以后我们从“我们所不知道的事物”反瞻所知道的一切导出《黑天鹅效应》。面对黑天鹅现象,并从这些意外的大事件获益。

黑天鹅的寓意

  惯常思维模式的彻底颠覆在发现澳大利亚之前,17世纪之前的欧洲人认为天鹅都是白色的。,所以欧洲人没有见过黑天鹅,“所有的天鹅都是白的”就成了一个没有人怀疑的事实,一直到人们在澳大利亚发现黑天鹅,欧洲人的想法因此一百八十度翻转,黑天鹅也变成了不吉利的象征,像是我们所说的乌鸦一样。这种翻转会造成人们心理很剧烈的震荡,因为“所有的天鹅都是白的”有数万只的白天鹅作证,但是要推翻它,只需要一只黑天鹅就足够了。也就是说,人们所习惯相信的信念、所乐观看待的事件,有可能是错的,而我们从未思考过“它是错的”所造成的后果,我们期待的破灭,竟是如此之轻易。

  黑天鹅的存在寓意着不可预测的重大稀有事件,它在意料之外,却又改变一切。人类总是过度相信经验,而不知道一只黑天鹅的出现就足以颠覆一切。然而,无论是在对股市的预期,还是政府的决策中,或是普通人日常简单的抉择中,黑天鹅都是无法预测的。google的惊人成就、“9·11”事件的发生、美国的次级贷危机、我国的雪灾,都是如此。认为,黑天鹅潜藏在几乎每一件事的背后──从宗教之兴起,到我们个人生活中的大小事件。

  一般来说,“黑天鹅”是指满足以下三个特点的事件:

  首先,它具有意外性。

  第二,它产生重大影响。

  第三,虽然它具有意外性,但人的本性促使我们在事后为它的发生编造理由,并且或多或少认为它是可解释和可预测的。

“黑天鹅”的逻辑

  “黑天鹅”的逻辑是:你不知道的事比你知道的事更有意义。在人类社会发展的进程中,对我们的历史和社会产生重大影响的,通常都不是我们已知或可以预见的东西。股市会突然崩盘,美国地产泡沫会引发谁都没有预料到的次贷危机,一场突如其来的大雪会使得大半个中国陷入瘫痪状态,带来上千亿的损失……我们其实每一天都被“黑天鹅”环绕着。即使你足不出户,认识到黑天鹅事件的影响力也并不难。审视一下你自己的生存环境,数一数自你出生以来,周围发生的重大事件、技术变革和发明,它们有多少在你预料之中?看看你自己的生活,你的职业选择、与爱人的邂逅、朋友的背叛、暴富或潦倒、股市大涨或崩盘……这些事有多少是按照计划发生的?

黑天鹅事件

  黑天鹅事件一:“9·11”事件 2001年9月11日上午,美国人刚准备开始一天的工作,恐怖分子劫持了四架飞机撞向美国纽约世贸中心与华盛顿五角大楼。3000多人在这次黑天鹅事件中丧生,美国的经济此后一度处于瘫痪状态,巨大的经济损失无法用数字来统计。这是一起典型的黑天鹅的事件,出乎意料,产生重大影响。

  黑天鹅事件二:我国雪灾 2008年春节期间,我国自西向东连续出现大范围雨雪天气,涉及到了浙江、江苏、安徽、江西等14个省区。这只冬季里的“黑天鹅”造成农作物受灾面积4219.8千公顷;倒塌房屋10.7万间,损坏房屋39.9万间;因灾直接经济损失220.9亿元。

  黑天鹅事件三:泰坦尼克号泰坦尼克号——这艘当时世界上最大的豪华客轮,被称为“永不沉没的梦幻客轮”。谁都没有想到它会沉没。它于1912年4月10日从英国南安普顿驶往纽约,但就在其处女航的第4天晚上,因为在北大西洋撞上冰山而沉没。由于缺少足够的救生艇,这次“黑天鹅事件”中,1500人葬生海底,成为迄今为止最著名的一次海难。

  黑天鹅事件四:长期资本管理公司依据历史数据建立了复杂的定量模型,并认为新兴市场利率将降低,发达国家的利率走向相反,于是大量买入新兴市场债券,同时抛空美国国债。出乎公司所有的人预料,1998年8月,俄罗斯宣布卢布贬值延迟三个月偿还外债,俄罗斯国债大幅贬值并完全丧失流动性。从5月俄罗斯金融风暴到9月全面溃败,这家声名显赫的对冲基金在短短150余天内资产净值下降90%,出现43亿美元巨额亏损,仅剩5亿美元,濒临破产。俄罗斯国债的大幅贬值就是一只无人能预见的黑天鹅,它再次印证了这一观点:对于不可预计的突发事件的发生,金融市场是没有准备的。

  黑天鹅事件五:次级抵押贷款风波在过去的20年中,华尔街各大金融机构聘请了来自美国顶尖高校的数学人才,编制了针对股市的电脑自动交易系统。理论上,电脑交易出现大崩盘的概率为“10 万年才会发生一次”,就像从前欧洲的人们确信所有的天鹅都是白色的。但在今年夏天,因为次级债市突变,高盛旗下由电脑交易的“全球配置基金”在一周的时间里价值缩水30%,损失14亿美元。


-------

正态分布曲线

正态分布曲线(Normal distribution curve),也称钟型曲线

什么是正态分布曲线[1]

  正态分布曲线反映了随机变量的分布规律。理论上的正态分布曲线是一条中间高,两端逐渐下降且完全对称的钟形曲线。

正态分布曲线的特性[2]

  正态分布曲线具有以下几个方面的主要特性。

  1.正态分布曲线是中间高、两边低、而且对称的光滑曲线,曲线的最高瞄在平均数处,越是接近平均数的组,变量分布的次数越多,离平均数越远,分布的次数越少。

  2.正态分布曲线因总体平均数和标冶差的不同呈现为不同的曲线,所以它不是一条曲线,而是一个曲线系统,不同的总体都有它自己的曲线。下两图表示平均数和标混差不同的正态分布曲线。

  3.正态分布曲线与横轴间的总面积作为1,由平均数的两侧各距1个标准差的距离,与横轴作两条垂直线,两条垂直线内的面积约占曲线内总面积的68.2796;从平均数的商测各距2个标准差的距离作两条垂直线,则所占面积为95.46%,取3个标准差,则占99.73%,如图所示。上述一定区间的面积占总面积的百分率,意味着总体的变数在此区间内分布的概率。

  上述一定区间变数的理论分布概率,可以从实际调查的资料加以验证。现以水稻杂交种“南优2号”100株株高的样本资料,在\overline{X}土1s土2s、土3s三个范国内观察值的分布次数统计如表。

  水稻杂交种“南优2号”100株株高的样本资料,在土1s土2s、土3s三个范国内观察值的分布次数

±ks数值范围范围内观察值次数理论次数±1s94.18±3.6190.57-97.797268.27±2s94.18±7.2286.96-101.409495.46±2s94.18±10.8383.35-105.0110099.73


参考文献

  1. ↑ 张世林.体育测量评价理论与方法[M].ISBN:7-5004-2941-X/G804.49.中国社会科学出版社,2001.
  2. ↑ 山东省昌潍农业专科学校,广西壮族自治区农业学校.作物遗传与育种学第5分册田间试验和生物统计[M].ISBN:7-109-00011-7/S33-43.农业出版社,1987

 

 

 

 

 --------------------------

power law幂次法则

个体的规模和其名次之间存在着幂次方的反比关系,R(x)=ax(-b次方)。其中,x为规模(如:人口、成绩、营业额…),R(x)为其名次(第1名的规模最大),a为系数,b为幂次。当二边均取对数(log)时,公式成为log(R(x)) = log(a) - b˙log(x)。若以log(R(x))为X轴,log(x)为Y轴,其分布图呈直线,斜率为负。斜率之绝对值越小,代表规模差异越小。 
  
  幂次法则的现象在100多年前即被发现。许多的经验研究发现,诸如都市人口、网站规模、(英文)字汇出现频率、国民生产毛额…,均呈现幂次法则现象。其中,最有名的是Zipf's Law,其幂次为-1 。

幂次法则也是复杂系统(complex systems)重要的「自组织」(self-organization)现象。复杂系统的六个特性:不存在总体生长控制规则、分散的个体互动、呈现阶层式结构、动态演化过程、不断出现新奇现象、不均衡状态。个体的非线性(方程式)互动关系所构成的复杂系统,却可能在总体面呈现简单的形式规则(自组织现象)。幂次法则便是其中一个很常见的现象。 
  
  「都市体系」之研究: (1)1933年,德国地理学家Walter Christaller提出「中地理论」(central place theory), (2)1949年,Zipf提出「等级大小法则」(rank-size rule)。 (3)1996年,Krugman以美国城市进行实证分析,发现:美国于一百年(1890-1990)间所形成之130个城市,呈现斜率接近-1的幂次关系。

生命科学中,如是说:

斯蒂文斯(SSStevens)针对费奇纳(GTFechner)的古典心理物理学倡导一种新的心理物理学,针对前者的对数法则而主张建立幂法则。这一法则,是按照标准测定一定感觉大小的法则,它以S=K(Φ-Φ0n来表示(S是感觉的大小,Φ是刺激的大小, Φ0是刺激的阈值)。n近似1K是常数,因种类之不同而异。如两边都取对数,则成为直线关系。指数n是根据感觉的种类规定的,例如音的大小是0.6,光的亮度是0.33,重量是1.45。作为这一法则的生理学根据之一,可以举出这样的事实,即从单一皮肤神经记录的向心冲动的频率和对皮肤的刺激的强度之间存在着幂函数。


幂律分布研究简史
1 引言


  自然界与社会生活中,许多科学家感兴趣的事件往往都有一个典型的规模,个体的尺度在这一特征尺度附近变化很小。比如说人的身高,中国成年男子的身高绝大多数都在平均值1.70米左右,当然地域不同,这一数值会有一定的变化,但无论怎样,我们从未在大街上见过身高低于10厘米的“小矮人”,或高于10米的“巨人”。如果我们以身高为横坐标,以取得此身高的人数或概率为纵坐标,可绘出一条钟形分布曲线(如图1左图所示),这种曲线两边衰减地极快;类似这样以一个平均值就能表征出整个群体特性的分布,我们称之为泊松分布。另外一个我们要注意的,是最高的人与最矮的人的身高之比,根据吉尼斯世界纪录[1, 2],世界上最高的人与最矮的人(均已去世)的身高分别是2.72米和0.57米,二者之比为4.8,这个数值并不是很大,我们将在下文中证实。

  对于另一些分布,像国家GDP或个人收入的分布,情况就大不一样了,个体的尺度可以在很宽的范围内变化,这种波动往往可以跨越多个数量级。比如根据世界银行的统计[3],最富有的国家——自然是美国——其2003年GDP高达10,881,609,000,000美元(一个天文数字),而数据显示同年GDP最低的国家——西非岛国圣多美和普林西比——只有54,000,000美元,二者之比高达201511.3。个人收入分布亦是如此,想想世界首富比尔·盖茨那高达465亿美元的个人资产就清楚了。国家或城市人口的分布也会出现类似的情形,据世界银行的统计[4],2003年人口最多的国家——中国——总人口数多达1,288,400,000,而数据显示同年人口最少的国家——西太平洋上的帕劳群岛——人口数仅为20,000(不及中国一个普通县城的人口数),二者之比有64420之多。以收入或人口数为横坐标,以不低于该收入值或人口数的个体数或概率为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的累积分布曲线(如图1右图所示),它与钟形的泊松分布曲线有显著的不同。这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有300多个国家和地区,只有11个国家的人口数超过一亿。


图1 泊松分布(左)与“长尾”分布(右)

2 幂律分布研究:上个世纪及以前

  对“长尾”分布研究做出重要贡献的是Zipf和Pareto[5],虽然他们并不是这种分布的最早发现者。

  1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系:P(r)~r^(-α),这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“最小努力原则”。分形几何学的创始人Mandelbrot[6]对Zipf定律进行了修订,增加了几个参数,使其更符合实际的情形。

  19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系:P[X≥k]~x^(-k),上式即为Pareto定律。

  Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其它形式的幂律分布,像名次——规模分布、规模——概率分布,这四种形式在数学上是等价的[5, 7],幂律分布的示意图如图1右图所示,其通式可写成y=c*x^(-r),其中x,y是正的随机变量,c,r均为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。对上式两边取对数,可知lny与lnx满足线性关系,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式。图2显示的是图1右图在双对数坐标下的图形,由于某些因素的影响,图2前半部分的线性特性并不是很强,而在后半部分(对应于图1右图的尾部),则近乎为一直线,其斜率的负数就是幂指数。


图2 双对数坐标下一个幂律分布的示意图,直线表示对图1右图尾部的线性拟合

  实际上,幂律分布[8]广泛存在于物理学、地球与行星科学、计算机科学、生物学、生态学、人口统计学与社会科学、经济与金融学等众多领域中,且表现形式多种多样。在自然界与日常生活中,包括地震规模大小的分布[9](古登堡-里希特定律)、月球表面上月坑直径的分布[10]、行星间碎片大小的分布[11]、太阳耀斑强度的分布[12]、计算机文件大小的分布[13]、战争规模的分布[14]、人类语言中单词频率的分布[5]、大多数国家姓氏的分布[15]、科学家撰写的论文数的分布[16]、论文被引用的次数的分布[17]、网页被点击次数的分布[18]、书籍及唱片的销售册数或张数的分布[19, 20]、每类生物中物种数的分布[21]、甚至电影所获得的奥斯卡奖项数的分布[22]等,都是典型的幂律分布。

  以网页被点击次数的分布为例[23],尽管中国向七千九百万网民提供的网站接近六十万个,但只有为数不多的网站,才拥有网民一次访问难以穷尽的丰富内容,拥有接纳许多人同时访问的足够带宽,进而有条件演化成热门网站,拥有极高的点击率,像新浪、搜狐、网易等门户网站。

  网页被点击次数的幂律分布其幂指数在0.60-1.03之间,而网站访问量的幂律分布其幂指数则接近1[24]。对于Pareto定律,在成熟市场中,金融资产收益率的幂律分布其幂指数约等于3[25]。特别需要指出的是,一些幂律分布的幂指数带有一定的普适性,如月球表面的月坑,直径大于r的月坑总数N(r)与r满足幂律关系,其幂指数D≈2.0,这一指数不仅对月球的月坑有效,甚至对火星和金星的火山口也有效[11];还有一个是行星间碎片大小的分布,其幂指数在2.0-2.1之间,这一区间不仅对陨石和小行星(如木星和火星轨道之间的小行星)这样的大碎片有效,而且对高速子弹打入岩石时所形成的小碎片大小的分布也有效[11];英文单词出现频率所满足的Zipf定律,不仅对报纸、《圣经》有效,而且对狄更斯的小说,莎士比亚的戏剧等也有效,甚至对其它一些国家的语言也是有效的,且幂指数α均约等于1[26, 27];情报学和科学学中有一个著名的公式,即洛特卡(Lotka)定律,它表明一定时期某一学科或主题内,撰写了x篇论文的作者数y(x)与x满足幂律关系,不管学科或主题如何变化,其幂指数均在1.2-3.7之间,且大致按基础自然科学、技术科学、社会科学与人文科学的顺序递增[28]。

  幂律表现了一种很强的不平等性,对个人收入的分布来说这确实是一件很恐怖的事,但同时也说明了,单纯依据人均收入来衡量两个城市或国家的发展水平,并没有多大的实际意义,必须还要提供一个衡量收入分布不均程度的参数——基尼系数[29, 30],才能增强比较的可靠性。

  统计物理学家习惯于把服从幂律分布的现象称为无标度现象,即,系统中个体的尺度相差悬殊,缺乏一个优选的规模。可以说,凡有生命的地方,有进化、有竞争的地方都会出现不同程度的无标度现象。

3 幂律分布研究:当前

  许多领域(像生物学、计算机科学)的进展都面临着要处理一些复杂系统问题[31],自然界和社会中的系统的复杂性可归因于一个个交织的网络(像生态网、因特网)的复杂性,通过这些复杂网络,系统的各个组成部分相互之间发生着各种线性的、非线性的作用。复杂网络[32-35]的研究应运而生,它是近年来刚刚兴起的一个研究方向,隶属复杂性科学,教导我们从网络的观点来看待整个世界,甚至我们人类都可看成是复杂网络中的一个个小小的节点。钱学森[36]给出了复杂网络的一个较严格的定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。目前,这个新领域已聚集了一大批杰出的物理学家、生物学家、计算机网络专家、数学家和社会学家。

  从统计物理学来看,网络是一个包含了大量个体及个体之间相互作用的系统。近年来在对复杂网络的研究过程中,科学家们亦发现了众多的幂律分布,虽然这些网络在结构及功能上是如此的千变万化,相差迥异。复杂网络中节点的度值k*相对于它的概率P(k)满足幂律关系,且幂指数多在大于2小于3的范围内[31, 32];这一现象是如此的普遍,如此地令人惊叹不已,以至于人们给具有这种性质的网络起了一个特别的名字——无标度网络[37]§。这里的无标度是指网络缺乏一个特征度值(或平均度值),即节点度值的波动范围相当大。

------------------------------------------
* 节点的度定义为与该节点相连接的节点的个数。
§ 可能地,Price[17] (Science, 1965)所研究的索引网络是第一个被发现的无标度网络。
------------------------------------------

  无标度网络在自然界和现实生活中的实例举不胜举**,像Internet[38]、WWW[39, 40]这样的技术性网络,电子邮件网络[41]、电影演员合作网络[42]、引文关系网络[43]这样的社会性网络,甚至细胞代谢网络[44]、蛋白质调控网络[45]、食物链网络[46]等之类的生物网,都是典型的无标度网络。在过去的40多年里,科学家们一直想当然地认为现实中的网络都是随机的,随机图论[47]就是专门为了研究随机网络而发展起来的一门数学学科,但无标度特性的发现打破了这种构想。随机网络的度分布是泊松分布,度值比平均值高许多或低许多的节点,都十分罕见,是一种高度“民主”的网络,而无标度网络的度分布则是幂律分布,节点度值相差悬殊,往往可以跨越几个数量级,是一种极端“专制”的网络,二者之间有本质的区别。这两种网络的一个形象化的比较如图3[48]所示。

------------------------------------------
** 存在一些指数型度分布的复杂网络[37],如高速公路网,电力网。
------------------------------------------


图3 具有相同节点数和边数的随机网络(左)和无标度网络(右)

  度分布满足幂律的无标度网络还有一个奇特的性质——“小世界”特性[49],虽然WWW中的页面数已超过80亿,但平均来说,在WWW上只需点击19次超链接,就可从一个网页到达任一其它页面。“小世界”现象在社会学上也称为“六度分离”,它来源于1967年,美国哈佛大学的社会心理学家Milgram的一个实验[50-52],这个实验证实,世界上任何两个人,不论他(她)是中国的藏民,非洲的难民,还是美国的政界高层,好莱坞的明星,甚至北极的爱斯基摩人,美洲的土著印第安人,都可通过熟人找熟人的方式建立联系,而两者之间的平均最少“中介”数是6,如此看来,整个地球确实是一个小小的世界。

  图4[53]是Internet的拓扑图,它具有很强的自相似性,跟河流网之类的分形图非常类似。分形理论的创始人Mandelbrot[54]曾说过,“当你看到一个非整数指数关系,就应想到分形。不过你应当小心从事”。可以说,幂律分布与分形、非线性、复杂性密切相关,它支配了所有自然演化的具有自相似特性的无标度网络。无标度网络的度分布是一个非整数指数关系,这种网络的拓扑图呈现分形特征也在情理之中。近年来,物理工作者们日渐对无标度网络的拓扑结构产生了浓厚的兴趣,并构建了多种物理定义,从不同的角度研究了无标度网络的分形维问题[55-57]。

  简单性一向是现代自然科学、特别是物理学的一条重要的指导原则[58]。许多科学家相信自然界的基本规律是简单的,爱因斯坦就是这种观点的突出代表者,他曾说过,“要使我们的理论尽可能得简单——但不是更简单。”从普适简单的幂律,我们似乎可以说,大自然是如此的复杂,而支配它的物理定律却又是如此的简洁优雅。

4 幂律分布的形成机制

  如此广泛的幂律是怎样形成的呢?这是目前许多学者关注的焦点,毕竟一味地到处寻找幂律关系并没有多大的意义,而支配它形成的最根本的动力学原因才是最重要的。从现象到本质的探索一直是物理学的使命,十几年来,或者几十年来,为了解释幂律分布的形成原因,科学家们提出了几种机制,包括增长与优先连接[42, 59]、自组织临界[60, 61]、HOT理论[62, 63]、渗流模型[8,64-66]及一些随机过程[7, 8, 67]等。

  一些解释幂律形成原因的机制是相当复杂的,甚至动用了“临界现象理论”和“重正化群”[68, 69]等工具。其实,一些简单的代数方法——像“指数组合”[7, 8]、“变量替换”[70]——亦能产生幂律分布,比如,Miller[71]曾用“指数组合”的方法解释了英文单词频率的幂律分布,Reed和Hughes[7]利用该机制,并结合随机过程,解释了城市人口分布、生物物种数分布等幂律分布。


图4 Internet在自治系统层次上的拓扑图

  4.1 优先连接

  Barabási与Albert针对复杂网络中普遍存在的幂律分布现象,提出了网络动态演化的BA模型[42, 59],他们解释,成长性和优先连接性是无标度网络度分布呈现幂律的两个最根本的原因。所谓成长性是指网络节点数的增加,像Internet中自治系统或路由器的添加,以及WWW中网站或网页的增加等,优先连接性是指新加入的节点总是优先选择与度值较高的节点相连,比如,新网站总是优先选择人们经常访问的网站作为超链接。随着时间的演进,网络会逐渐呈现出一种“富者愈富,贫者愈贫”的现象。社会学家所说的“马太效应”[72],《新约》圣经所说的“凡有的,还要加给他,叫他有余”,同优先连接也有某种相通之处。

  “优先连接性”的思想并不是BA模型的原创,早在1925年,Yule[73]在解释每类植物物种数的分布满足幂律分布的原因时就已经提出了类似的思想,虽然当时研究的对象不是复杂网络。1955年,Simon[74]对优先连接性作了进一步深入的研究***,他对网络中可能存在的幂律不怎么感兴趣,但他列举了五种可以用他的理论解释的幂律分布:文献中单词频率的分布,科学家撰写的科技文献数量的分布,城市人口的分布,收入的分布及每类生物中物种数的分布。

------------------------------------------
*** 在Simon的工作之前,Champernowne[75]就提出了一个类似于“乘法过程”的数学模型,解释了个人收入分布的幂律现象。实际上,Simon的工作只是Champernowne模型的推广。
------------------------------------------

  “优先连接”并不适用于所有出现幂律分布的情况,即便是对于某些无标度网络,用它解释幂律的成因也显得很不合理。以生态系统中的食物链为例,认为被捕食者最有可能被猎物广泛的杂食性捕食者吃掉,确实是一件很荒唐的事。还有像Internet、航空网等网络,流量或容量的限制可以在一定程度上抑制优先连接性,电影演员的合作网络中,节点(演员)的衰老或隐退也能起到类似的作用。

  4.2 自组织临界

  自组织临界理论[61]是一个影响深远的理论,在复杂系统的研究领域中,该模型曾一直被认为是产生幂律分布的动力学原因,幂律亦可作为自组织临界的证据。它认为,由大量相互作用的成分组成的系统会自然地向自组织临界态发展;当系统达到这种状态时,即使是很小的干扰事件也可能引起系统发生一系列灾变。布鲁克海文实验室的Bak、加州大学圣巴巴拉分校的汤超和佐治亚理工学院的Wiesenfeld等人用著名的“沙堆模型”[61, 76]形象地说明了自组织临界态的形成和特点(如图5[76]):设想在一平台上缓缓地添加沙粒,一个沙堆逐渐形成。开始时,由于沙堆平矮,新添加的沙粒落下后不会滑得很远。但是,随着沙堆高度的增加,其坡度也不断增加,沙崩的规模也相应增大,但这些沙崩仍然是局部性的。到一定时候,沙堆的坡度会达到一个临界值,这时,新添加一粒沙子(代表来自外界的微小干扰)就可能引起小到一粒或数粒沙子,大到涉及整个沙堆表面所有沙粒的沙崩。这时的沙堆系统处于“自组织临界态”,有趣的是,临界态时沙崩的大小与其出现的频率呈幂律关系。这里所谓的“自组织”是指该状态的形成主要是由系统内部各组成部分间的相互作用产生,而不是由任何外界因素控制或主导所致,这是一个减熵有序化的过程;“临界态”是指系统处于一种特殊的敏感状态,微小的局部变化可以不断被放大、进而扩延至整个系统。


图5 “沙堆模型”

  幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,利用它可以预测这类系统的相位及相变。自组织临界理论可以解释诸如火山爆发、山体滑坡、岩层形成、日辉耀斑、物种灭绝、交通阻塞、以及金融市场中的幂律分布现象。这种理论的启示是小事件和大事件可能有相同的起因,这为地震、恐龙灭绝、森林火灾等复杂大系统的突变提供了新的解释。以恐龙灭绝为例,古生物学家经过对化石的研究指出,这一重大事件不是经历了数万年或者几年,而是在20多天的突变中“一朝覆灭”的。恐龙的灭绝可以被看作是处于临界状态下的生态系统发生的一次“大雪崩”。

  4.3 HOT理论

  另一种解释幂律分布形成原因的重要理论是HOT[62, 63, 77],由加州大学圣巴巴拉分校的Jean Carlson以及加州理工学院的John Doyle提出。他们宣称,对于由许多子系统连结成的复杂系统, 不管是自然演化还是人为设计的, 当该系统可以有效地容忍某些不确定因素时(具强健性),将对其它未被考虑到的不确定因素变得更敏感。也就是说,强健性和敏感度具有相互递换的效果。这里的不确定因素包含系统内部的不确定因素以及外在环境的干扰。以生态系统为例,如果它可以容忍气温变化、湿度、养分等巨幅变化,那么这生态系统却可能无法容忍一些意料之外的小干扰,如基因突变、外来族群迁入、或新的病毒,这些干扰可能会造成生态环境的巨大改变。

  当一复杂系统处于HOT状态时,该系统将满足幂律,也就是说,全局性的优化过程可导致幂律分布:具有特征尺度的输入经过一个全局性的系统“产量”优化过程后,可产生具有幂律分布特性的输出。全局性优化在生态系统、航空航天与汽车系统、林业系统、因特网、交通运输及电力系统中具有广泛的应用,HOT理论可以解释上述系统中出现的幂律分布现象,比如可以解释林业系统中火灾规模所呈现的幂律分布。

  4.4 随机过程

  一些随机过程也可以产生幂律分布:“随机行走”模型可以解释物种寿命所呈现的幂律分布[78];“Yule过程”[21, 73]是一个生成幂律的比较通用的机制,通过调节它的某些参数,可以产生幂指数范围相当宽广的幂律分布,并可与实际观测值相一致。

  产生幂律分布的机制是相当多的,是否存在某个单一的、通用的理论可以解释所有的性质迥异的幂律分布呢?有一部分学者,特别是自组织临界理论的支持者,声称他们的理论可以,但大多数科学家认为[79],幂律分布是许多不同的过程或作用导致的结果,这就像经典力学,牛顿的经典力学固然很伟大,但它仅适用于宏观低速的情形。

5 幂律分布的动力学影响

  幂律分布的动力学影响主要是对复杂网络而言的。网络动力学性质的基本研究对象是动力学模型在不同网络上的性质与相应网络的度分布的联系,在一定程度上说,这是一种关于网络的结构与功能关系的研究。

  幂律特性的度分布对无标度网络的动力学性质有着极其深刻的影响。以疾病或病毒在网络中的传播这一物理过程为例,以前的基于规则网络及随机网络的研究表明[80-82],疾病的传染强度存在一个阈值,只有传染强度大于这个阈值时,疾病才能在网络中长期存在,否则感染人数会呈指数衰减。但对无标度网络上传染病模型的研究结果表明,不存在类似的阈值[83-86],只要传染病发生,就将长时间存在下去,这一特性表明,要想在Internet这样的无标度网络上彻底消灭病毒,即使是已知的病毒,也是不可能的[37]。

  另外,度分布的幂律特性对网络的容错性和抗攻击能力也有很大的影响,对网络的攻击分为随机攻击和选择性攻击两种类型[87],分别称为网络的容错能力与抗攻击能力。研究表明[87, 88],无标度网络具有很强的容错性,但是对基于节点度值的选择性攻击抗攻击能力相当差。比如对万维网或因特网中集散节点的攻击,有可能造成整个网络的瘫痪,对于某些微生物来说,它们体内度值很高的蛋白质通常掌握着细胞的生死(如图6[37]所示)。度分布满足泊松分布的随机网络,其容错性和抗攻击能力则是基本相当的[87]。可见,网络的结构稳定性是与网络的度分布特性紧密联系在一起的。


图6 酵母菌体内蛋白质的相互作用关系图

  对于幂律分布对网络的其它动力学方面的影响,比如对网络上Ising模型[89, 90]、XY模型[91]、临界现象[92]及沙堆模型[93]等的影响,限于篇幅,本文不再赘述,有兴趣的读者可以参考相关文献。幂律分布对现实中无标度网络的动力学性质影响深刻,这在相当程度上改变了我们对原有物理世界的看法,并进一步显示了幂律分布的重要性。

6 结束语

  幂律分布已有超过一百年的研究历史了,即使在现在,仍然是众多学科研究的热点。它那简洁优雅的形式,可以将许多似乎毫不相干的事物联系在一起,这种独特的魅力吸引了一大批杰出的物理学家、生物学家、天文学家、地质学家、数学家和社会学家,并不断有新的研究者加入到该领域。但即便如此,要真正从本质上把握驱动系统呈现幂律分布的物理过程与机制,仍然有许多试验或理论性的工作要做。另外,不同类型的幂律分布幂指数有很大的不同,究竟是什么原因导致了这种不同?这仍然是一个尚未完全解决的问题。不过,我们相信,不久的将来,在众多科学家的共同努力下,人类最终将根本性地破解幂律分布之谜,为物理世界的简洁之美再谱华章。

参考文献
[1] http://www.guinnessworldrecords.com/gwr5/content_pages/record.asp?recordid=48409, 2005
[2] http://www.guinnessworldrecords.com/content_pages/record_category_a.asp, 2005
[3] http://www.worldbank.org/data/databytopic/GDP.pdf, 2004
[4] http://www.worldbank.org/data/databytopic/POP.pdf, 2004
[5] http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html, 2000
[6] 张济忠.分形.北京:清华大学出版社,1997. 348[ Zhang J Z. Fractal. Beijing: Tsinghua University Press, 1997. 348 (in Chinese) ]
[7] Reed W J, Hughes B D. Phys. Rev. E, 2002, 66: 067103
[8] Newman M E J. arXiv: cond-mat/0412004 v2
[9] Gutenberg B, Richter R F. Bulletin of the Seismological Society of America, 1944, 34:185
[10] Neukum G, Ivanov B A. Crater size distributions and impact probabilities on Earth from lunar, terrestrial planet, and asteroid cratering data. In: Gehrels T (ed.). Hazards Due to Comets and Asteroids. Tucson: University of Arizona Press, 1994. 359
[11] 张济忠.分形.北京:清华大学出版社,1997. 326[ Zhang J Z. Fractal. Beijing: Tsinghua University Press, 1997. 326 (in Chinese) ]
[12] Lu E T, Hamilton R J. Astrophysical Journal, 1991, 380: 89
[13] Crovella M, Bestavros A. IEEE/ACM Transactions on Networking, 1997, 5(6):835
[14] Roberts D C, Turcotte D L. Fractals, 1998, 6: 351
[15] Zanette D H, Manrubia S C. Physica A, 2001, 295: 1
[16] Lotka A J. J. Wash. Acad. Sci, 1926, 16: 317
[17] Price D J de S. Science, 1965, 149: 510
[18] Adamic L A, Huberman B A. Quarterly Journal of Electronic Commerce, 2000, 1: 5
[19] Cox R A K, Felton J M, Chung K C. Journal of Cultural Economics, 1995, 19: 333
[20] Kohli R, Sah R. Working paper, Harris School of Public Policy, University of Chicago, 2003, 04.01
[21] Willis J C, Yule G U. Nature, 1922, 109: 177
[22] http://www.collisiondetection.net/mt/archives/001136.html, 2005
[23] http://news.xinhuanet.com/newmedia/2005-03/17/content_2710396.htm, 2005
[24] Teslyuk A B, Krashakov S A, Shchur L N. arXiv: cs.NI/0404010
[25] 张宇,张建玮,王正行.物理,2004, 33(10): 734[ Zhang Y, Zhang J W, Wang Z X. Wuli(Physics), 2004, 33(10): 734 (in Chinese) ]
[26] http://staff.science.nus.edu.sg/~parwani/c1/node87.html, 2002
[27] Montemurro M A. arXiv:cond-mat/0104066 v2
[28] 张济忠.分形.北京:清华大学出版社,1997. 350[ Zhang J Z. Fractal. Beijing: Tsinghua University Press, 1997. 350 (in Chinese) ]
[29] Colander D C. Microeconomics 4th ed. Boston: McGraw-Hill, 2001. 428
[30] Hu H B, Wang L. Advances in Complex Systems, 2005, 8(1): 159
[31] Barabási A-L. Emergence of scaling in complex networks. In: Bornholdt S, Schuster H G (Eds.). Handbook of Graphs and Networks: From the Genome to the Internet. Berlin: Wiley-VCH, 2002. Chapter 3
[32] Albert R, Barabási A-L. Rev. Mod. Phys., 2002, 74: 47
[33] Newman M E J. SIAM Review, 2003, 45: 167
[34] Evans T S. arXiv: cond-mat/0405123
[35] 周涛,柏文洁,汪秉宏等.物理,2005, 34(1): 31[ Zhou T, Bai W J, Wang B H et al. Wuli(Physics), 2005, 34(1): 31 (in Chinese) ]
[36] http://news.qdu.edu.cn/news.aspx?newsid=1514, 2003
[37] Barabási A-L, Bonabeau E. Scientific American, 2003, 288: 50
[38] Faloutsos M, Faloutsos P, Faloutsos C. Computer Communications Review, 1999, 29: 251
[39] Adamic L A, Huberman B A. Science, 2000, 287: 2115
[40] Albert R, Jeong H, Barabási A-L. Nature, 1999, 401: 130
[41] Ebel H, Mielsch L-I, Bornholdt S. Phys. Rev. E, 2002, 66: 035103(R)
[42] Albert R, Barabási A-L. Science, 1999, 286: 509
[43] Redner S. Eur. Phys. J. B, 1998, 4: 131
[44] Jeong H, Tombor B, Albert R et al. Nature, 2000, 407: 651
[45] Jeong H, Mason S P, Barabási A-L et al. Nature, 2001, 411: 41
[46] Montoya J M, Solé R V. Santa Fe Institute Working Papers, 2000, 00-10-059
[47] Bollobás B. Random Graphs 2nd ed. 北京:世界图书出版公司北京公司,2003
[48] http://physicsweb.org/articles/world/14/7/9/1, 2001
[49] Watts D J, Strogatz S H. Nature, 1998, 393: 440
[50] Milgram S. Psychology Today, 1967, 2: 60
[51] Travers J, Milgram S. Sociometry, 1969, 32:425
[52] Buchanan M. New Scientist, 2004, 181(2430): 32
[53] http://www.nd.edu/~networks/gallery.htm, 2004
[54] 张济忠.分形.北京:清华大学出版社,1997. 300[ Zhang J Z. Fractal. Beijing: Tsinghua University Press, 1997. 300 (in Chinese) ]
[55] Rozenfeld A F, Cohen R, ben-Avraham D et al. Phys. Rev. Lett., 2002, 89: 218701
[56] Csányi G, Szendrői B. arXiv:cond-mat/0406070 v1
[57] Song C M, Havlin S, Makse H A. Nature, 2005, 433: 392
[58] 郝伯林.物理,2001,30(8): 466[ Hao B L. Wuli(Physics), 2001, 30(8): 466 (in Chinese) ]
[59] Barabási A-L, Albert R. Physica A, 1999, 272: 173
[60] Bak P, Tang C, Wiesenfeld K. Phys. Rev. Lett., 1987, 59: 381
[61] 帕⋅巴克.大自然如何工作.武汉:华中师范大学出版社,2001[ Bak P. How Nature Works. Wuhan: Central China Normal University Press, 2001(in Chinese) ]
[62] Carlson J M, Doyle J. Phys. Rev. E, 1999, 60: 1412
[63] Carlson J M, Doyle J. Phys. Rev. Lett., 2000, 84: 2529
[64] Broadbent S R, Hammersley J M. Proc. Cambridge Philos. Soc., 1957, 53: 629
[65] Hammersley J M. Proc. Cambridge Philos. Soc., 1957, 53: 642
[66] Grimmett G. Percolation 2nd ed. Berlin: Springer-Verlag, 1999
[67] Mitzenmacher M. Internet Mathematics, 2004, 1: 226
[68] Reynolds P J, Klein W, Stanley H E. J. Phys. C, 1977, 10: L167
[69] Wilson K G, Kogut J. Physics Reports, 1974, 12: 75
[70] Sornette D. Critical Phenomena in Natural Sciences. New York: Springer-Verlag, 2000, 288
[71] Miller G A. American Journal of Psychology, 1957, 70: 311
[72] Merton R K. Science, 1968, 159: 56
[73] Yule G U. Philos. Trans. R. Soc. London B, 1925, 213: 21
[74] Simon H A. Biometrika, 1955, 42: 425
[75] Champernowne D. Economic Journal, 1953, 63: 318
[76] 斯图亚特·考夫曼.科学新领域的探索.长沙:湖南科学技术出版社,2004, 236[ Kauffman S A. Investigations. Changsha: Hunan Science & Technology Press, 2004, 236(in Chinese) ]
[77] Sornette D. Critical Phenomena in Natural Sciences. New York: Springer-Verlag, 2000, 317
[78] Sneppen K, Bak P, Flyvbjerg H et al. Proc. Natl. Acad. Sci. USA, 1995, 92: 5209
[79] Newman M E J. Nature, 2000, 405: 412
[80] Anderson R M, May R M. Infectious Diseases of Humans. Oxford: Oxford University Press, 1992
[81] Hethcote H W. SIAM Review, 2000, 42: 599
[82] Leveille J. HP Labs Technical Reports, 2002, HPL-2002-287
[83] Pastor-Satorras R, Vespignani A. Phys. Rev. E, 2001, 63: 066117
[84] Pastor-Satorras R, Vespignani A. Phys. Rev. Lett., 2001, 86: 3200
[85] Lloyd A L, May R M. Science, 2001, 292: 1316
[86] Dorogovtsev S N, Mendes J F F. Adv. Phys., 2002, 51: 1079
[87] Albert R, Jeong H, Barabási A –L. Nature, 2000, 406: 378
[88] Holme P, Kim B J, Yoon C N et al. Phys. Rev. E, 2002, 65: 056109
[89] Forogovtsev S N, Goltsev A V, Mendes J F F. Phys. Rev. E, 2002, 66: 016104
[90] Herrero C P. Phys. Rev. E, 2002, 65: 066110
[91] Medevedyeva F, Holme P, Minnhagen P et al. Phys. Rev. E, 2003, 67: 036118
[92] Golsev A V, Forogovtsev S N, Mendes J F F. Phys. Rev. E, 2003, 67: 026123
[93] Zhou T, Wang B H. arXiv: cond-mat/0406575