什么是重尾分布集智百科集智俱乐部

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2022.05.12

本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改,一经修改,可以获得对应的积分奖励噢!

目录

重尾分布有三个重要的子类:胖尾分布Fat-taileddistribution,长尾分布Long-taileddistribution和次指数分布Subexponentialdistributions。实际上,所有常用的重尾分布都属于次指数分布类subexponentialclass。

在使用“重尾”Heavy-tailed一词时仍存在一些歧义。于是就出现了另外两种定义。

有一些作者使用该术语来指代并非所有阶矩都是有限的那些分布,也有一些作者使用这个术语来指代那些没有有限方差的分布。

在这里,给出的是最常用的定义,包括其他定义所涵盖的所有分布,以及具有所有幂矩但通常被认为是重尾分布的对数正态分布long-normaldistributions。(有时“重尾”用于任何具有比正态分布更重的尾巴的分布。)

定义

如果X的矩母函数,Mx(t)对于所有t>0都是无限的,则具有分布函数F的随机变量的分布被称为重尾(右)。

也可以写成尾分布函数thetaildistributionfunction:

分布函数为F的随机变量X具有长尾分布,如果对于所有t>0,都满足

或等价于

对于右尾长尾分布的随机变量有一个直观的解释,即在长尾分布随机变量尾部取值已超过某个高水平的条件下,它将超过其他更高水平的概率接近于1。

所有长尾分布都是重尾分布,但反过来不一定成立,且可以构造出非长尾分布的重尾分布。

次指数性是根据概率分布的卷积Convolution定义的。对于具有共同分布函数F的两个独立同分布的随机变量X1,X2,F与自身的卷积,F*2是二重卷积,使用Lebesgue–Stieltjes积分,方法如下:

如果满足以下条件,分布F在正半轴上是为次指数的

这意味着,对于任何n>=1,

对此的概率解释是,对于具有共同分布F的n个独立随机变量X1,….,Xn的总和

这通常被称为单跳singlebigjump或突变理论catastropheprinciple。

如果分布FI([0,∞))为实数,则F为整个实数上的次指数分布。此时I([0,∞))是正半轴的示性函数。或者,当且仅当X^+=Max(0,X)是次指数时,则支撑集为实数轴的随机变量X是次指数的。

所有次指数分布都是长尾分布,但可以构造出非次指数分布的长尾分布的示例。

常见的重尾分布

所有常用的重尾分布都是次指数的。

单尾的包括:

双尾的包括:

与胖尾分布的关系

胖尾分布是指对于较大的x,以幂律的速度x^-a趋向于0。由于这样的幂总是受到指数分布概率密度函数的限制,因此,胖尾分布始终是重尾分布。

但是,某些分布的尾部趋近于零的速率比指数函数慢(表示它们是重尾),而比幂快(表示它们不是胖尾)。例如对数正态分布。当然,许多其他的重尾分布,例如对数逻辑分布和帕累托分布也属于胖尾分布。

重尾密度的估计

编者推荐

课程推荐

巴拉巴西网络科学

本课程中,我们有幸邀请了汪小帆、赵海兴、许小可、史定华、陈清华、张江、狄增如、陈关荣、樊瑛、刘宗华这十个来自六大不同高校、在网络科学领域耕耘许久的教授作为导师,依据教材框架,各有侧重地为我们共同勾勒出整个学科的美丽图景,展示这个学科的迷人魅力,指引这个学科的灿烂未来。

课程推荐:巴拉巴西网络科学

复杂网络2020

本课程是由北京师范大学樊瑛老师所筹划的课程,这个课程对复杂性科学的一个概述,包含10个章节,每节都会涵盖复杂系统的一个主要概念。

课程推荐:圣塔菲课程:IntrodutiontoComplexity

厚尾分布

本课程是由北京师范大学陈清华老师所筹划的课程,这个课程结合实际数据和丰富的学术文献,从各方面向大家展示幂律分布——复杂系统入门必修课,其特征和意义,以及如何应用,为大家打造了体系完整的幂律分布学习框架!

课程推荐:复杂系统中的幂律分布(首节免费)

百科项目志愿者招募

作为集智百科项目团队的成员,本文内容由Jie,Smile,思无涯咿呀咿呀,丁义明老师参与贡献。我们也为每位作者和志愿者准备了专属简介和个人集智百科主页,更多信息可以访问其集智百科个人主页。

在这里从复杂性知识出发与伙伴同行,同时我们希望有更多志愿者加入这个团队,使百科词条内容得到扩充,并为每位志愿者提供相应奖励与资源,建立个人主页与贡献记录,使其能够继续探索复杂世界。

如果你有意参与更加系统精细的分工,扫描二维码填写报名表,我们期待你的加入!

THE END
1.重尾分布,长尾分布,肥尾分布和随机游走(Heavytailed,Long本文主要讨论重尾分布,长尾分布,肥尾分布三者的联系,同时顺带讨论了一下 Random walk 中的 Lévy flight 和 Brownianmotion。主要内容参考自 Wikipedia 和 Rick Wicklin 的博文Fat-tailed and long-tailed distributions。其实我们讨论重尾长尾肥尾,数学上并没有一个明确的对于尾(tail)的定义,但这也并不妨碍我们进行https://blog.csdn.net/dymodi/article/details/54231728
2.概率分布细谈:厚尾长尾幂律指数在人类行为和社交网络等社会学数据分析中,"厚尾" "长尾" “幂律” “指数”等数学术语频繁出现,新手阅读文献时往往摸不着头脑。在这篇文章中,我将逐一梳理这些常见概念的关系。 0. 指数分布 在介绍厚尾分布之前,我们需要先理解一个基础连续概率分布——指数分布。指数分布一般用来刻画独立随机事件发生的时间间隔。https://www.jianshu.com/p/b7e06c4839b2
3.长尾分布在分类和回归问题中很重要什么是长尾分布对于这个名词,不是很理解,查找资料得出长尾分布数据集的含义。 二、长尾分布数据 2.1 什么是长尾分布 长尾分布数据是一种偏态分布,是指几个类别(亦叫头类)包含大量的样本,而大多数类别(亦叫尾类)只有非常少量的样本。 即一小部分标签(即头部标签)有很多数据实例,而大多数标签(即尾部标签)只有很少数据实例的不平https://blog.51cto.com/u_16213624/10998293
4.长尾级联流行度预测模型训练方法及预测方法5.但是,目前还没有研究从数据服从长尾分布的角度来解决级联预测效果低下的回归问题。技术实现要素:6.本发明的目的旨在针对传统方法直接回避长尾数据带来的预测准确率不高、可解释性低等技术现状,提供一种直面长尾级联信息数据的流行度预测模型及训练方法,利用解耦思想,进行分步训练,以此来提高流行度预测准确率,能够作为https://www.xjishu.com/zhuanli/55/202111169186.html
5.白颈长尾雉形态特征白颈长尾雉繁殖方式→MAIGOO百科中文学名: 白颈长尾雉 拉丁学名: Syrmaticus ewllioti 别称: 横纹背鸡 界: 动物界 门: 脊索动物门 纲: 鸟纲 目: 鸡形目 科: 雉科 属: 长尾雉属 种: 白颈长尾雉 分布区域: 中国 目录 生长与分布 栖息环境 分布范围 形态及特征 生活习性 繁殖方式 价值及其他 种群现状 保护级别 https://www.maigoo.com/citiao/229755.html
6.规模经济思想的核心范文(一)医药商业企业长尾分布 从图2中国医药商业100强销售分布曲线的特征进行观察,中国医药商业行业的结构属于长尾结构(长尾理论所研究的结构),百强企业总销售额为2 764亿元(中国医药商业协会,2008),前10强企业占据了50%的市场份额,剩余90家医药商业企业销售收入累计占50%[4]。如果将所有医药商业企业销售分布图作出,长https://www.gwyoo.com/haowen/240241.html
7.ToB新视角:小程序生态评估方法探索优设网2. 做好抽样方案:长尾分布下分群抽样 B 端商户作为生态中的供给“群体”,具有内在群体结构,每个商户为生态提供的价值并不均匀,在生态内可获得的资源也不均匀。符合“贫者愈贫,富者愈富”的马太效应。 少数行业头部商户,自身体量规模大、品牌效应强,如家政行业的 58 到家、快递行业的顺丰等,属于各自行业内寡头玩家https://www.uisdc.com/miniprogram-assess-ways
8.信息学院在计算机视觉领域取得多项重要成果(第三期)尽管学术界在相关领域已经取得很多进展,但由于视觉关系的类别空间具有本质性的长尾分布和高度多样化的类内变化特征,识别视觉关系仍然具有挑战性。为了解决这些问题,研究人员提出了一种新的具有自适应消息传播机制的置信感知二分图神经网络,通过对场景图上下文语意依赖的稀疏性进行更为灵活有效的建模,从而进一步的改善了目前https://sist.shanghaitech.edu.cn/2021/0506/c2858a63430/page.htm
9.我所35篇论文被2022国际计算机视觉与模式识别大会(CVPR)接收近年来,长尾分布数据的视觉识别问题受到了越来越多的关注。通过大量的实验,我们发现在相同的训练设置,不同的模型初始化下,长尾数据训练出的模型表现出相当大的差异,这体现出了长尾学习中巨大的不确定性。为了减轻这种不确定性,我们提出了一种多专家网络的嵌套式的协同学习方法(NCL),它由两个部分组成,即嵌套个体学习https://www.1633.com/article_univ/217359.html
10.长尾年代(长尾理论)书评美国《联线》(Wired)杂志发表了总编克里斯?安德森(Chris Anderson)的文章:“长尾”。副标题是“别老掂着从榜顶的几个巨无霸里多榨几百万出来。娱乐的未来在码流低浅的那头无数个细微市场那儿”。“低浅的那头”,其实就是帕累托分布的尾巴;“无数个细微市场”,其实也就是托夫勒的全民个性化消费。安德森的神https://book.douban.com/review/1095674/
11.鼠类杂谈黄鼠分布于黑龙江、新疆、内蒙古等地,常见于山地草原。该物种的模式产地在西伯利亚色楞格河。 亚种:长尾黄鼠阿尔泰亚种,分布于新疆(阿尔泰山)等地。长尾黄鼠东北亚种,分布于黑龙江等地。长尾黄鼠天山亚种,分布于阿拉套山、新疆(伊犁天山、乌鲁木齐以西北天山)等地。 http://cdcp.gd.gov.cn/jkjy/jkzt/xdybmswkz/content/post_3439706.html
12.《长尾理论》读后感(通用13篇)《长尾理论》读后感 篇4 刚刚开始以为会描述长尾分布和正态分布的对人的启示意义:如何辨别潜在长尾分布和正态分布项目,并且利用一定的技巧将其推为长尾分布,可能同以前略览过的《黑天鹅现象》一书类似。细细看来,发现并非如此。 本书的话,大致描述的是一个长尾分布的项目存在的条件如何,这其中包括生产工具的普及从https://www.cnfla.com/duhougan/1328952.html
13.统计学入门第1章:不确定性的数学表达:指数分布狗熊会我们从中挑选出仅出险一次的4333张保单,绘制它们的索赔额直方图,如图1.5.4所示。可以看到,图1.5.4展示的情况与我们的猜想一致,大部分车险的索赔金额都集中在5000以内,且不同赔付区间内的保单占比随着赔付金额的增大而逐渐递减,这也是一个典型的长尾分布。https://www.shangyexinzhi.com/article/4456335.html
14.指数分布定义指数分布虽然不能作为机械零件功能参数的分布规律,但是,它可以近似地作为高可 靠性的复杂部件、机器或系统的失效分布模型,特别是在部件或机器的整机试验中得到广泛 的应用。指数分布比幕分布趋近0的速度慢很多,所以有一条很长的尾巴。指数分布很多时候被 认为是长尾分布。互联网网页链接的出度入度符合指数分布指数分布https://www.renrendoc.com/paper/215823448.html
15.土壤性质空间分布的空间预测模型(6页)土壤Cu含量的频率分布直方图表现为右侧长尾分布,说明该区土壤表层Cu含量的空间分布是非常不均匀的。 Cu含量的指示编码变换共使用了5个门槛值,相应指示编码的半方差图(图3)和半方差模型的拟合参数(表1)均由统计计算软件R中的geoR模块计算获得,半方差函数拟合采用的是权重最小二次方方法(WLS)。本研究中仅使用了5个https://max.book118.com/html/2023/0826/8073136073005124.shtm
16.Long因为图片级别的数据易于生成或收集,baseline模型也简单,目前主要的长尾分布研究都集中在图片分类领域。不过随着去年Facebook发布的LVIS(Large Vocabulary Instance Segmentation)数据集(https://arxiv.org/abs/1908.03195),越来越多的人也开始关注起了Instance级别的长尾分布分布问题(物体检测和实例分割),我会在下一节更新https://www.zhihu.com/column/p/158638078
17.起底亚马逊eBay和Etsy卖家分布情况,他们都呈现出这样一个定律从以上三张图可看出,每个平台上的卖家分布情况略有不同,这突出了TOP卖家的不同销售表现。从长尾分布情况来看,Etsy上TOP卖家的规模并不如eBay。虽然亚马逊TOP卖家数量少于eBay,但总体而言,他们创造了更多的GMV(网站交易总额)。Etsy上有21%的评论都流向了前1%的卖家,亚马逊上有42%的评论流向了前1%的卖家,eBay上则有https://www.cifnews.com/article/40788
18.银喉长尾山雀—拍自生态城永定州公园银喉长尾山雀的尾羽健全,活动敏捷,姿态多变,能很快习惯在鸟笼中生活,有一定的观赏价值。[9]银喉长尾山雀是中国较为常见的一种森林鸟类,分布广,数量丰富。主要以昆虫为食,在森林害虫控制方面作用很大,[10]银喉长尾山雀被列入国家林业局发布的《国家保护的有益的或者有重要经济、科学研究价值的陆生野生动物名录》。https://www.meipian.cn/50ola2h2
19.竞赛专题数据预处理如何处理数据中的坑?1. 查看Label分布 对长尾分布数据取log 2. 观察关联 绘制热力图,观察各个数值属性与Label的关联度,去除关联程度非常低的属性。越是白色越是关联紧密,可以观察Label跟哪些属性关联更紧密 3. 去除异常点 通过2找到和Label相关性最强的特征,绘制散点图以及箱型图剔除异常点。不过具体问题需要具体分析,有的异常出现可能https://maimai.cn/article/detail?fid=1321163961&efid=9yH23aG36RwtiOeB78-A8A
20.中国私募量化简史:策略投顾业态及展望基金频道量化竞争格局走向一九现象会越来越明显,长尾分布让头部品牌溢价能力越来越强。股票量化领域的头部效应要明显高于期货领域,这个跟市场容量与技术路径有关系。国内现阶段的格局还没有达到一种寡头垄断阶段,在走向这个过程中还存在不少变数。 外资私募管理人(WFOE)陆续进入国内,是否会对国内的量化格局形成冲击?拿股票高频策略https://funds.hexun.com/2019-09-09/198487973.html