长尾定律和二八定律的区别（解说两种定律区别及联系）

长尾定律和二八定律的区别（解说两种定律区别及联系）

2022-08-28 10:31:52 浏览:280

对频率分布中存在的“长尾”现象的统计学研究可以追溯到1948年美国哈佛大学语言学教授齐普夫(George K. Zipf)对英文文献中单词词频的分析和研究工作。齐普夫教授的研究成果指出，英语文献中单词的词频相对于序号的分布呈现一种幂函数分布，而不是正态分布(normal distribution)。由此，词频分布定律又被称为齐普夫定律(Zipf’s law)[1]。而这种幂函数分布，被称为“幂律”分布(power law distribution)[2]。

在我们的日常生活中，正态分布是非常常见的。比如，某一地区男性的身高，某一省的高考数学成绩，某一型号比特币矿机的平均使用寿命，等等。正态分布是一种较为“平等”的分布，因为大部分人的状况都在平均值上下，彼此相差不会太多。特别高的和特别低的，都是比较罕见的。

但是同时，正态分布又是一种不太“公平”的分布。比平均选手高出6个标准差的高手，在数学考试中，或者运动场上，几乎总是赢定那些平凡的无名之辈，让后者望尘莫及。分数线一画，没过线的大多数人就惨遭淘汰。克劳特的《定位》理论，说的就是人们对于一种产品只能记住第一名，最多还能再记住一个竞品和替代品，也就是第二名[3]。而更多的平庸选手，则只会被市场遗忘。

而幂律分布，则又是另外一幅景象。像人们的收入水平，单词的词频，城市的人口，比特币矿工拥有的算力，等等。幂律分布是一种较为“公平”的分布，虽然头部20%的选手占据了80%的市场，但是80%的长尾选手，仍然可以瓜分剩余20%的市场。大佬吃肉，小弟喝汤。

不过同时，幂律分布又是一种不太“平等”、两极分化的分布。它有一个通俗的说法叫做“二八法则”(80/20 rule)。20%的产品贡献了80%的收入，20%的人赚走了80%的钱，花20%的时间就可以学到80分的水平(剩下20分的水平则需要花80%的时间才行)，20%的美女被80%的男孩子追求，等等。

意大利经济学家维尔弗雷多·帕累托(Vilfredo Pareto)在1896年研究社会收入和财富分布时发现了80/20的现象，后人将其理论命名为“帕累托法则”(Pareto principle)[4]。帕累托在他的著作《政治经济学》(Cours d’économie politique)中指出了意大利大约80%的土地为20%的人所占有的现象。

当然，帕累托的研究具有鲜明的时代特征，而不能视为绝对的自然法则和永恒真理。在他做研究的时代，欧洲圈地运动已经成功驱逐和解放了农民，资本主义和工资工人阶级兴起，土地被集中占有并通过法律作为私产保护起来，形成了帕累托所观察到的现象。这一现象，是那个时代社会运动的结果呈现。

对于土地，也许应该像阳光、空气和水一样，又或者像一夫一妻制、一人一票制那样，实行强制平均分配，并立法禁止兼并(正如《刑法》之“重婚罪”所做的那样)。因为平均分布，是比幂律分布更公平的分布。人人平等，利益均分。

二八法则的两极分化，特别是富人更富、穷人更穷的社会现象，还有一个说法叫做“马太效应”(Matthew effect)[5]。马太效应，1968年由美国科学史研究者罗伯特·莫顿(Robert K. Merton)提出，借喻自圣经《新约·马太福音》：“凡有的，还要加倍给他叫他多余；没有的，连他所有的也要夺过来”，反映一种赢家通吃的现象。

当我们谈论二八法则或者马太效应的时候，有一个潜台词就是，我们是在关注和强调头部，也就是把注意力和精力放在20%的市场和客户身上。因为我们的精力和时间实在有限，所以需要聚焦于20%的头部，而忽视剩下的80%的长尾。

2004年10月，美国《连线》杂志主编克里斯·安德森(Chris Anderson, 1961-)在《连线》杂志发表了一篇有关“长尾理论”(the long tail theory)[6]的文章，在文章中，他提及了亚马逊、苹果和雅虎等公司，并用“长尾”的概念来阐述互联网企业的商业模式和战略，迅速带火了这个概念。2006年7月，他趁热打铁出了一本书，《长尾：为何未来商业会向更多人卖的更少》(The Long Tail: Why the Future of Business Is Selling Less of More)，成为全球畅销书和企业必读书籍。当时国内几乎所有互联网企业，都进行了集体学习和专题研讨。

我们需要注意的是，长尾理论和二八法则、马太效应谈论的还是同一个分布，幂律分布，但是，两者的差异主要在于关注点不同。二八法则强调的是头部，而长尾理论强调的是长尾。

长尾理论主要试图指出，如果我们可以瞄准过去被忽视的长尾市场，又称“利基市场”(niche market)，那么我们可能会惊喜的发现，这个狭窄而冗长的市场，其需求之和、整体利润足以与头部市场的总量相媲美。问题主要在于，服务这样一个狭长的、个性化的市场，对传统商业模式而言，边际成本是不经济的。但是互联网技术的发展使得我们可以建立规模化的计算机集群，24小时不间断的为极其大量的用户同时提供高度个性化的服务，而保持极高的服务效率和极低的边际成本。这就提高了商业效率，使得从利基市场中萃取大量微小价值成为可能，从而改变了只关注头部客户的传统商业模式。比如，Tiktok的服务器集群可以同时为全球上百万同时在线的用户各自推送完全个性化定制的内容，而新增一个用户所需要增加的边际成本低到几乎为零。这就是互联网服务和商业模式能够胜过传统商业模式的主要原因之一。

中本聪在2008年11月3日的邮件中阐述僵尸集群挖矿问题时借用了“长尾”这一概念，指大量的中小集群的算力之和加起来可以匹敌少量头部集群的算力的情况[7]。这种情况能够出现，则有赖于比特币游戏规则下哈希算力的分布符合幂律分布。

我们已经从中本聪的论坛发言中知道，“每天通过网络生成的比特币总量平均而言保持不变。较快的机器比较慢的机器获得更大的份额。如果每个人都购买更快的机器，他们将不会获得比以前更多的币”(中本聪，2009年12月12日论坛帖子)[8]。因为在一个短期内，每个新区块的币基交易发出的新增比特币的数量是一个固定大小的蛋糕，而所有矿工的所谓挖矿，就是比赛算力来争抢和瓜分这个蛋糕。

在中本聪于2009年1月13日单独写给达斯汀·特拉梅尔(Dustin Trammell)的私人邮件中，他这样写道：“这不像赛车，如果一辆车快两倍，就总是会赢。这是SHA-256运算，每次花不了1毫秒，而且每次都有独立的成功机会。每台计算机找到哈希碰撞的机会与计算能力成正比。一台慢一半的电脑会得到一半的比特币。”[9]

这个特点是和比特币挖矿竞赛是SHA-256哈希运算这一设计密不可分的。关于这一点，中本聪早在2008年11月15日的密码学邮件列表中就已经公开指出[10]：

「如果你将其视为CPU密集型的数字签名，那么您可能会把它当作一个抢先完成长时间操作并以最快的速度获胜的比赛。」

但是实际上，「工作量证明是一种哈希现金那样的SHA-256碰撞搜寻。这是一个无记忆的过程，你每秒钟进行数百万次哈希计算，每次有一个很小的机会找到。最快的3或4个节点的优势仅与它们在总CPU算力中所占的份额成正比。任何人在任意时刻找到答案的机会都与他们的CPU算力成正比。」

就像比赛扔硬币的游戏。谁率先扔出连续100个正面，谁获胜。那么，我们知道，在任一时刻，你的获胜概率只和手速成正比，而与你在此之前扔过多少次硬币没有任何关系。这就叫做“无记忆过程”(memory-less process)。这样的游戏，保证了任何时刻加入的新玩家都能够公平地参与到竞争中来。

这就是基于PoW (Proof-of-Work)工作量证明的共识算法的公平之处。相比之下，像基于PoS (Proof-of-Stake)权益证明或类似变体的共识算法，就因历史持币量不同而获得额外的竞争优势，从而获得更多量的币，若其继续用新币强化其权益证明，则愈发增强其竞争优势，对后进入的新玩家就会不够公平。