相信指数的力量与幂律分布的力量 《相信指数的力量》作者:张辉来源:辉哥奇谭最近我最大的认知收获来源于两个数学公式,一个是指数函数,另一个是幂律。理解这两... 

这就是指数增长的力量,这是活生生的例子,而非逻辑推理,伯克希尔·哈撒韦公司的例子,给我足够的震撼。若我现有的财富,可以在未来30年保持20%的年复利,将增长为现值的237倍,非常惊人!

但是,指数增长的原因是什么,我一直没有搞清楚,直到看了《系统思考》这本书。书中提及,世界上复杂的系统基本上可以用「增长闭环」和「调节闭环」来概括。

简而言之,增长闭环(正循环)带来了指数增长(比如下文提到的麦克风啸叫),而调节闭环带来一种稳定状态(类似马桶上水机关就是调节闭环,确保马桶水面保持稳定,世界上所有的「控制器」都是类似原理)。

正循环的典型例子是用麦克风时听到的尖锐声音——声音通过麦克风输入,经过功放(功率放大器)放大之后从音箱里传出来,再次传入麦克风,被功放再次放大。因为这种传导、放大过程是瞬时发生的,很快把音量推高到系统的极限,所以我们在手持麦克风朝向音箱时很快能听到尖锐的声音。

吴军在他的得到专栏《科技史纲60讲》中提到,支配人类科技史发展的是两个主要因素:第一是能量,第二是信息。人类每一次科技的进步,都来自于能量、信息分别发生了正循环,并且能量与信息之间产生了良性互动。

以能量为例,当人类学会穿衣服,每日所摄取的能量就远远超过了身体所需,于是可以用多余的能量做更高级的事情。而生活在极寒地带的人,因为获取的能源仅仅够维持每日生活,所以无法发展更高的文明。

当我理解「系统思考」与指数增长的基本原理之后,我有一个全新的视角来看待周围的世界。

比如,为何好公司能在长期内保持指数增长的势头,根本原因在于「收益再投入」,即这家公司把收益拿来继续投入品牌建设和生产率提升,从而提升产品占有率,降低生产成本。

当然,一家公司的增长极限则来自于该公司所在市场的总容量——这是一个天花板。所以,当好公司占有某个市场70%的市场份额时,如果所在市场增长缓慢,则为了保持之前的收益增长,必须探索新的市场。大部分好公司在探索新市场时落败,无法从「好」变成「伟大」。

而在巴菲特的投资理念中,就是要不断找到这些内在价值保持增长的公司,在成本合理时买入并持有。

但是,大多数贫穷或者忙碌的人,没有意识到这一点,无法产生这个「带宽」,甚至需要向外借债,带来负向的指数增长。

马太效应中说「穷者越穷,富者越富」,其实正是来自于正循环的力量。

(完)

作者:老范

本文有修改整理

PeterThiel《从0到1》一书中写到:“幂次法则是宇宙的力量,是宇宙最强大的力量。它完整定义了我们周围的环境,而我们几乎毫无察觉。”

《新约.马太福音》一书中提到:“凡是少的,就连他所有的,也要夺过来。凡是多的,还要给他,叫他多多益善。”这就是著名的马太效应。

概率论给我们的启示是:“凡是相信大数定律的,凡是相信热力学第一定律的,就不要去赌博,不要去炒股,不要去买彩票,不要去进行任何投机,而应该去开赌场。”

可见幂律对社会和经济的影响极大,那什么是幂律分布?幂律分布的原因是什么?幂律分布有哪些应用?本文对以上问题进行探讨。

在统计学中,幂律powerlaw表示的是两个量之间的函数关系,其中一个量的相对变化会导致另一个量的相应幂次比例的变化,且与初值无关:表现为一个量是另一个量的幂次方。例如,正方形面积与边长的关系,如果长度扩大到两倍,那么面积扩大到四倍。

幂函数:百科吧

(α为有理数)

指数函数:百科!

(a为常数且以a>0,a≠1)

幂律分布:是一种概率分布,假设变量x服从参数为α的幂律分布,则其概率密度函数可以表示为:概率密度函数为百科?

幂律分布也有很多其他的形式,例如“长尾”分布也是幂律分布的一种。

根据幂次法则我们可以知道:个体的规模和其名次之间存在着幂次方的反比关系。也就是事件越大,发生率越小,因此,在幂律分布中,小事件的数量要比大事件要多得多。大事件的可能性将幂律分布与正态分布区分开来,因为在正态分布中,我们实际上从未见过大事件,而在幂律分布中,大事件虽然也很少见,但是它们发生的频率足以引起注意和准备。即使是百万分之一的事件也必须加以考虑。

常见的幂律分布有齐普夫定律、二八法则、长尾效应、马太效应等。

1、齐普夫定律

1932年哈佛大学的语言学专家齐夫(Zipf)在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为齐夫定律,即对于指数为2的幂律分布(a=2),事件的等级排列序号乘以它的大小等于常数,也就是事件等级×事件大小=常数。

它表明在各种语言中,只有极少数的词被经常使用,而绝大多数词很少被使用。2016年,江南大学的研究者以诺贝尔文学奖得主莫言的《红高粱》《蛙》和《透明的红萝卜》为主要研究对象,采用字频统计软件和汉语词频统计软件,统计莫言作品中字频、词频,发现都能满足齐普夫定律。所得结果与包括英语、西班牙语、法语等在内的多种语言研究结果一致。

2、二八法则

19世纪意大利经济学家帕雷托(VilfredoPareto)研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。

3、长尾理论

4、马太效应

马太效应是社会学家和经济学家们常用的术语,它反映着富者更富、穷者更穷,一种两极分化的社会现象。1968年,美国科学史研究者罗伯特·莫顿(RobertK.Merton)提出这个术语用以概括一种社会心理现象:“相对于那些不知名的研究者,声名显赫的科学家通常得到更多的声望;也就是任何个体、群体或地区,在某一个方面(如金钱、名誉、地位等)获得成功和进步,就会产生一种积累优势,就会有更多的机会取得更大的成功和进步。”此术语后为经济学界所借用,反映赢家通吃的经济学中收入分配不公的现象。

统计物理学家习惯把服从幂律分布的现象称为无标度现象,即系统中个体的尺度相差悬殊,缺乏一个优选的规模。凡有生命、有进化、有竞争的地方都会出现不同程度的无标度现象。

1、优先链接模型

Barabási与Albert针对复杂网络中普遍存在的幂律分布现象,提出了网络动态演化的BA模型,他们解释,成长性和优先连接性是无标度网络度分布呈现幂律的两个最根本的原因。所谓成长性是指网络节点数的增加,像路由器的添加、网站或网页的增加等,优先连接性是指新加入的节点总是优先选择与度值较高的节点相连。

优先连接模型有助于解释为什么网络链接、城市规模、企业规模、图书销量和学术引用数量的分布都是幂律分布。在这些情况下,一个行动会增加其他人也这样做的可能性。

2、自组织临界模型

自组织临界模型,通过在系统中建立相互依赖关系的过程产生幂律分布,直到系统达到临界状态为止。许多真实的系统,如地震、网络、金融、沙堆、火灾等系统,都是自组织临界性系统。

其中著名的有沙堆模型,假设有人将沙粒从距桌面几十厘米的地方洒落到桌子上。随着沙粒不断增多,一个沙堆开始形成。最终,沙子的堆积会达到临界状态,此后每加一次沙子都可能导致“沙崩”。在这种临界状态下,多加入的沙子通常要么没有影响,要么最多只会导致一些沙子下滑。这些属于幂律分布中的数量众多的小事件。但有时,只要再加入一粒沙子就会导致大规模的“沙崩”,这就是大事件。

森林火灾模型(forestfiremodel)也是自组织临界模型的一种。假设树木可以在一个二维网格上生长,这些树木也可能会随机地被闪电击中。当树木的密度较低时,由闪电引发的任何火灾的规模都很小,最多只会蔓延到几个格点。当树木密度变得足够高时,再被闪电击中就会导致森林大火。

因为真实的森林火灾系统是一个开放系统,存在着能量的交换:它的能量输入就是可燃物树木的增长,它的能量输出就是火灾。森林火灾系统具有自组织临界性系统的典型特征:系统的能量注入是持续、缓慢而均匀的;能量耗散相对于能量注入来说是瞬时的、“雪崩式”的,但发生的次数相对比较少。具有这种性质的系统通常可以自发地演化到一个临界状态,最终导致大事件的发生。

幂律分布是社会系统和自然界中的一个普遍规律,普遍应用于物理学、纯数学、应用数学、经济学、统计学、生物学、社会科学、神经科学、人工智能等许许多多领域中,至今已经确定了成百种的幂律分布。列举案例学习如下:

案例一:投资的收益分布

作为一个普通的小散户,当我们处开始做股票投资的时候,你可能听不少身边的朋友告诫,要谨慎选择不同类型的股票,分散一下风险,“不要把鸡蛋放在一个篮子里”,否则一旦集中投资,碰上暴雷的股票,瞬间会让你血本无归。

然而按照幂次法则,你应该把资本集中到极少数的几只股票上,因为能给你带来较大收益的,往往只是很少部分的一些股票,你虽然投资了不少类型的股票,分散了风险,但是大部分的股票只能给你带来平庸的收益。

能够把集中投资做到极致的,就是查理芒格和巴菲特,巴菲特在伯克希尔的年度股东大会上,曾经告诉投资者,他和芒格投资的公司不计其数,但他挣到的绝大多数钱,只是来自于其中的不到十个公司,其背后的逻辑就是幂次法则。

案例二:工作上的优先级

我们可能看过不少关于工作任务管理方面的书籍,其中很重要的一个方法就是:工作优先级的排序。

工作任务优先级,要求我们每天列出工作任务清单,任务按照重要性排序,可以把事情大致分为四个方面:紧急,不紧急,重要,不重要。我们要优先处理紧急而重要的,接下来是紧急不重要的,然后是重要不紧急的,最后是不重要不紧急的,这样来做的话,你工作效率就会提高许多。

案例三:英语单词的学习

相信每个人都经历过学习英语的那段历程,从小学到初中,从初中到高中,从高中到大学……。可谓慢慢长路,但是除了英语专业的学生,真正把英语学的好的人确不多。

哈佛大学的语言学家乔治·金斯利·齐夫,曾经揭示过词频分布规律,在大多数语言中,只有极少数词被经常使用,而绝大多数词很少被使用,其背后的逻辑也遵循着幂律法则。

比如:在一本30000总单词量的英文小说里,大概只有2000的单词被频繁使用,并且使用频率达80%以上。尽管英语有十几万的词汇量,但你只需掌握最关键的2000个高频词汇,你就可以迅速入门英语。

四、幂次法则的启发

我们整天忙忙碌碌,以为自己是在努力着、奋斗着,殊不知,一天到头,我们却不知道自己到底都忙了什么,而忙过的这些事,又会对自己产生怎样的价值和意义。

THE END
1.重尾分布,长尾分布,肥尾分布和随机游走(Heavytailed,Long本文主要讨论重尾分布,长尾分布,肥尾分布三者的联系,同时顺带讨论了一下 Random walk 中的 Lévy flight 和 Brownianmotion。主要内容参考自 Wikipedia 和 Rick Wicklin 的博文Fat-tailed and long-tailed distributions。其实我们讨论重尾长尾肥尾,数学上并没有一个明确的对于尾(tail)的定义,但这也并不妨碍我们进行https://blog.csdn.net/dymodi/article/details/54231728
2.概率分布细谈:厚尾长尾幂律指数在人类行为和社交网络等社会学数据分析中,"厚尾" "长尾" “幂律” “指数”等数学术语频繁出现,新手阅读文献时往往摸不着头脑。在这篇文章中,我将逐一梳理这些常见概念的关系。 0. 指数分布 在介绍厚尾分布之前,我们需要先理解一个基础连续概率分布——指数分布。指数分布一般用来刻画独立随机事件发生的时间间隔。https://www.jianshu.com/p/b7e06c4839b2
3.长尾分布在分类和回归问题中很重要什么是长尾分布对于这个名词,不是很理解,查找资料得出长尾分布数据集的含义。 二、长尾分布数据 2.1 什么是长尾分布 长尾分布数据是一种偏态分布,是指几个类别(亦叫头类)包含大量的样本,而大多数类别(亦叫尾类)只有非常少量的样本。 即一小部分标签(即头部标签)有很多数据实例,而大多数标签(即尾部标签)只有很少数据实例的不平https://blog.51cto.com/u_16213624/10998293
4.长尾级联流行度预测模型训练方法及预测方法5.但是,目前还没有研究从数据服从长尾分布的角度来解决级联预测效果低下的回归问题。技术实现要素:6.本发明的目的旨在针对传统方法直接回避长尾数据带来的预测准确率不高、可解释性低等技术现状,提供一种直面长尾级联信息数据的流行度预测模型及训练方法,利用解耦思想,进行分步训练,以此来提高流行度预测准确率,能够作为https://www.xjishu.com/zhuanli/55/202111169186.html
5.白颈长尾雉形态特征白颈长尾雉繁殖方式→MAIGOO百科中文学名: 白颈长尾雉 拉丁学名: Syrmaticus ewllioti 别称: 横纹背鸡 界: 动物界 门: 脊索动物门 纲: 鸟纲 目: 鸡形目 科: 雉科 属: 长尾雉属 种: 白颈长尾雉 分布区域: 中国 目录 生长与分布 栖息环境 分布范围 形态及特征 生活习性 繁殖方式 价值及其他 种群现状 保护级别 https://www.maigoo.com/citiao/229755.html
6.规模经济思想的核心范文(一)医药商业企业长尾分布 从图2中国医药商业100强销售分布曲线的特征进行观察,中国医药商业行业的结构属于长尾结构(长尾理论所研究的结构),百强企业总销售额为2 764亿元(中国医药商业协会,2008),前10强企业占据了50%的市场份额,剩余90家医药商业企业销售收入累计占50%[4]。如果将所有医药商业企业销售分布图作出,长https://www.gwyoo.com/haowen/240241.html
7.ToB新视角:小程序生态评估方法探索优设网2. 做好抽样方案:长尾分布下分群抽样 B 端商户作为生态中的供给“群体”,具有内在群体结构,每个商户为生态提供的价值并不均匀,在生态内可获得的资源也不均匀。符合“贫者愈贫,富者愈富”的马太效应。 少数行业头部商户,自身体量规模大、品牌效应强,如家政行业的 58 到家、快递行业的顺丰等,属于各自行业内寡头玩家https://www.uisdc.com/miniprogram-assess-ways
8.信息学院在计算机视觉领域取得多项重要成果(第三期)尽管学术界在相关领域已经取得很多进展,但由于视觉关系的类别空间具有本质性的长尾分布和高度多样化的类内变化特征,识别视觉关系仍然具有挑战性。为了解决这些问题,研究人员提出了一种新的具有自适应消息传播机制的置信感知二分图神经网络,通过对场景图上下文语意依赖的稀疏性进行更为灵活有效的建模,从而进一步的改善了目前https://sist.shanghaitech.edu.cn/2021/0506/c2858a63430/page.htm
9.我所35篇论文被2022国际计算机视觉与模式识别大会(CVPR)接收近年来,长尾分布数据的视觉识别问题受到了越来越多的关注。通过大量的实验,我们发现在相同的训练设置,不同的模型初始化下,长尾数据训练出的模型表现出相当大的差异,这体现出了长尾学习中巨大的不确定性。为了减轻这种不确定性,我们提出了一种多专家网络的嵌套式的协同学习方法(NCL),它由两个部分组成,即嵌套个体学习https://www.1633.com/article_univ/217359.html
10.长尾年代(长尾理论)书评美国《联线》(Wired)杂志发表了总编克里斯?安德森(Chris Anderson)的文章:“长尾”。副标题是“别老掂着从榜顶的几个巨无霸里多榨几百万出来。娱乐的未来在码流低浅的那头无数个细微市场那儿”。“低浅的那头”,其实就是帕累托分布的尾巴;“无数个细微市场”,其实也就是托夫勒的全民个性化消费。安德森的神https://book.douban.com/review/1095674/
11.鼠类杂谈黄鼠分布于黑龙江、新疆、内蒙古等地,常见于山地草原。该物种的模式产地在西伯利亚色楞格河。 亚种:长尾黄鼠阿尔泰亚种,分布于新疆(阿尔泰山)等地。长尾黄鼠东北亚种,分布于黑龙江等地。长尾黄鼠天山亚种,分布于阿拉套山、新疆(伊犁天山、乌鲁木齐以西北天山)等地。 http://cdcp.gd.gov.cn/jkjy/jkzt/xdybmswkz/content/post_3439706.html
12.《长尾理论》读后感(通用13篇)《长尾理论》读后感 篇4 刚刚开始以为会描述长尾分布和正态分布的对人的启示意义:如何辨别潜在长尾分布和正态分布项目,并且利用一定的技巧将其推为长尾分布,可能同以前略览过的《黑天鹅现象》一书类似。细细看来,发现并非如此。 本书的话,大致描述的是一个长尾分布的项目存在的条件如何,这其中包括生产工具的普及从https://www.cnfla.com/duhougan/1328952.html
13.统计学入门第1章:不确定性的数学表达:指数分布狗熊会我们从中挑选出仅出险一次的4333张保单,绘制它们的索赔额直方图,如图1.5.4所示。可以看到,图1.5.4展示的情况与我们的猜想一致,大部分车险的索赔金额都集中在5000以内,且不同赔付区间内的保单占比随着赔付金额的增大而逐渐递减,这也是一个典型的长尾分布。https://www.shangyexinzhi.com/article/4456335.html
14.指数分布定义指数分布虽然不能作为机械零件功能参数的分布规律,但是,它可以近似地作为高可 靠性的复杂部件、机器或系统的失效分布模型,特别是在部件或机器的整机试验中得到广泛 的应用。指数分布比幕分布趋近0的速度慢很多,所以有一条很长的尾巴。指数分布很多时候被 认为是长尾分布。互联网网页链接的出度入度符合指数分布指数分布https://www.renrendoc.com/paper/215823448.html
15.土壤性质空间分布的空间预测模型(6页)土壤Cu含量的频率分布直方图表现为右侧长尾分布,说明该区土壤表层Cu含量的空间分布是非常不均匀的。 Cu含量的指示编码变换共使用了5个门槛值,相应指示编码的半方差图(图3)和半方差模型的拟合参数(表1)均由统计计算软件R中的geoR模块计算获得,半方差函数拟合采用的是权重最小二次方方法(WLS)。本研究中仅使用了5个https://max.book118.com/html/2023/0826/8073136073005124.shtm
16.Long因为图片级别的数据易于生成或收集,baseline模型也简单,目前主要的长尾分布研究都集中在图片分类领域。不过随着去年Facebook发布的LVIS(Large Vocabulary Instance Segmentation)数据集(https://arxiv.org/abs/1908.03195),越来越多的人也开始关注起了Instance级别的长尾分布分布问题(物体检测和实例分割),我会在下一节更新https://www.zhihu.com/column/p/158638078
17.起底亚马逊eBay和Etsy卖家分布情况,他们都呈现出这样一个定律从以上三张图可看出,每个平台上的卖家分布情况略有不同,这突出了TOP卖家的不同销售表现。从长尾分布情况来看,Etsy上TOP卖家的规模并不如eBay。虽然亚马逊TOP卖家数量少于eBay,但总体而言,他们创造了更多的GMV(网站交易总额)。Etsy上有21%的评论都流向了前1%的卖家,亚马逊上有42%的评论流向了前1%的卖家,eBay上则有https://www.cifnews.com/article/40788
18.银喉长尾山雀—拍自生态城永定州公园银喉长尾山雀的尾羽健全,活动敏捷,姿态多变,能很快习惯在鸟笼中生活,有一定的观赏价值。[9]银喉长尾山雀是中国较为常见的一种森林鸟类,分布广,数量丰富。主要以昆虫为食,在森林害虫控制方面作用很大,[10]银喉长尾山雀被列入国家林业局发布的《国家保护的有益的或者有重要经济、科学研究价值的陆生野生动物名录》。https://www.meipian.cn/50ola2h2
19.竞赛专题数据预处理如何处理数据中的坑?1. 查看Label分布 对长尾分布数据取log 2. 观察关联 绘制热力图,观察各个数值属性与Label的关联度,去除关联程度非常低的属性。越是白色越是关联紧密,可以观察Label跟哪些属性关联更紧密 3. 去除异常点 通过2找到和Label相关性最强的特征,绘制散点图以及箱型图剔除异常点。不过具体问题需要具体分析,有的异常出现可能https://maimai.cn/article/detail?fid=1321163961&efid=9yH23aG36RwtiOeB78-A8A
20.中国私募量化简史:策略投顾业态及展望基金频道量化竞争格局走向一九现象会越来越明显,长尾分布让头部品牌溢价能力越来越强。股票量化领域的头部效应要明显高于期货领域,这个跟市场容量与技术路径有关系。国内现阶段的格局还没有达到一种寡头垄断阶段,在走向这个过程中还存在不少变数。 外资私募管理人(WFOE)陆续进入国内,是否会对国内的量化格局形成冲击?拿股票高频策略https://funds.hexun.com/2019-09-09/198487973.html