概率随机问题

vergilwang

浏览: 125387 次
性别:
来自: 北京

最近访客更多访客>>

iris19860111

u_lama

KEYS123456789

2644781824

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Algorithm
Probabilistic

1、问题定义可以简化如下：在不知道文件总行数的情况下，如何从文件中随机的抽取一行？

　　首先想到的是我们做过类似的题目吗?当然，在知道文件行数的情况下，我们可以很容易的用C运行库的rand函数随机的获得一个行数，从而随机的取出一行，但是，当前的情况是不知道行数，这样如何求呢？我们需要一个概念来帮助我们做出猜想，来使得对每一行取出的概率相等，也即随机。这个概念即蓄水池抽样（Reservoir Sampling）。

　　有了这个概念，我们便有了这样一个解决方案：定义取出的行号为choice，第一次直接以第一行作为取出行 choice ，而后第二次以二分之一概率决定是否用第二行替换 choice ，第三次以三分之一的概率决定是否以第三行替换 choice ……，以此类推，可用伪代码描述如下：

i = 0

while more input lines

with probability 1.0/++i

choice = this input line

print choice

　　这种方法的巧妙之处在于成功的构造出了一种方式使得最后可以证明对每一行的取出概率都为1/n（其中n为当前扫描到的文件行数），换句话说对每一行取出的概率均相等，也即完成了随机的选取。

　　证明如下：

　　回顾这个问题，我们可以对其进行扩展，即

2、如何从未知或者很大样本空间随机地取k个数？

　　类比下即可得到答案，即先把前k个数放入蓄水池，对第k+1，我们以k/(k+1)概率决定是否要把它换入蓄水池，换入时随机的选取一个作为替换项，这样一直做下去，对于任意的样本空间n，对每个数的选取概率都为k/n。也就是说对每个数选取概率相等。

　　伪代码：

Init : a reservoir with the size： k

for i= k+1 to N

M=random(1, i);

if( M < k)

SWAP the Mth value and ith value

end for

　　证明如下：

　　蓄水池抽样问题是一类问题，在这里总结一下，并由衷的感叹这种方法之巧妙，不过对于这种思想产生的源头还是发觉不够，如果能够知道为什么以及怎么样想到这个解决方法的，定会更加有意义。

3、等概率随机排列数组（洗牌算法）

　　问题描述：假设有一个数组，包含n个元素。现在要重新排列这些元素，要求每个元素被放到任何一个位置的概率都相等（即1/n），并且直接在数组上重排（in place），不要生成新的数组。用 O(n) 时间、O(1) 辅助空间。

　　先想想如果可以开辟另外一块长度为n的辅助空间时该怎么处理，显然只要对n个元素做n次（不放回的）随机抽取就可以了。先从n个元素中任选一个，放入新空间的第一个位置，然后再从剩下的n-1个元素中任选一个，放入第二个位置，依此类推。

　　按照同样的方法，但这次不开辟新的存储空间。第一次被选中的元素就要放入这个数组的第一个位置，但这个位置原来已经有别的（也可能就是这个）元素了，这时候只要把原来的元素跟被选中的元素互换一下就可以了。很容易就避免了辅助空间。

用Python来写一段简单的程序描述这个算法：

1
2
3
4
5
6
7

fromrandomimportRandom

defShuffle(li):
rand=Random()
forxinxrange(len(li)-1,0,-1): # 逆序遍历li
y=rand.randint(0,x) # 从剩余数据中随机选取一个
li[x],li[y]=li[y],li[x] # 将随机选取的元素与当前位置元素互换

主要的代码仅仅三行而已，浅显易懂。

来计算一下概率。如果某个元素被放入第i（1≤i≤n）个位置，就必须是在前 i - 1 次选取中都没有选到它，并且第 i 次选取是恰好选中它。其概率为：

pi=n−1n×n−2n−1×⋯×n−i+1n−i+2×1n−i+1=

可见任何元素出现在任何位置的概率都是相等的。

4、利用等概率Rand5产生等概率Rand3

intRand3()
{
intx;
do
{
x=Rand5();
}while(x>=3);
returnx;
}

算法很简单，x是我们最终要输出的数字，只要它不在[0, 3)范围内，就不断地调用Rand5来更新它。直观地看，算法输出的数字只有0、1、2这三个，而且对任何一个都没有偏袒，那么显然每个数字的概率都是1/3，那让我们来严格地计算一下。

以输出0为例，看看概率是多少。x的第一个有效数值是通过Rand5得到的。Rand5返回0的概率是1/5，如果这事儿发生了，我们就得到了0，否则只有当Rand5返回3或4的时候，我们才有机会再次调用它来得到新的数据。第二次调用Rand5之后，又是有1/5的概率得到0，2/5的概率得到 3或4导致循环继续执行下去，如此反复。因此概率的计算公式为：

p=====15+25×(15+25×(15+25×(⋯)))15×∑∞i=0(25)i15×11−2515×5313

喏，计算表明，Rand3输出0的概率确实是1/3，对于另外两个数字也是一样的。

5、给定一个函数rand5()，使函数rand7()可以随机等概率的生成1-7的整数

题目：

给定一个函数rand5()，该函数可以随机生成1-5的整数，且生成概率一样。现要求使用该函数构造函数rand7()，使函数rand7()可以随机等概率的生成1-7的整数。

思路：

很多人的第一反应是利用rand5() + rand()%3来实现rand7()函数，这个方法确实可以产生1-7之间的随机数，但是仔细想想可以发现数字生成的概率是不相等的。rand()%3 产生0的概率是1/5，而产生1和2的概率都是2/5，所以这个方法产生6和7的概率大于产生5的概率。

正确的方法是利用rand5()函数生成1-25之间的数字，然后将其中的1-21映射成1-7，丢弃22-25。例如生成(1，1)，(1，2)，(1，3)，则看成rand7()中的1，如果出现剩下的4种，则丢弃重新生成。

简单实现：

Java代码

publicclassTest{
publicintrand7(){
intx=22;
while(x>21){
x=rand5()+(rand5()-1)*5;
}
return1+x%7;
}
}

我的备注：

这种思想是基于，rand()产生[0,N-1]，把rand()视为N进制的一位数产生器，那么可以使用rand()*N+rand()来产生2位的N进制数，以此类推，可以产生3位，4位，5位...的N进制数。这种按构造N进制数的方式生成的随机数，必定能保证随机，而相反，借助其他方式来使用 rand()产生随机数(如rand5() + rand()%3)都是不能保证概率平均的。

此题中N为5，因此可以使用rand5()*5+rand5()来产生2位的5进制数，范围就是1到25。再去掉22-25，剩余的除3，以此作为rand7()的产生器.

给定一个函数rand()能产生0到n-1之间的等概率随机数，问如何产生0到m-1之间等概率的随机数？

intrandom(intm,intn){
intk=rand();
intmax=n-1;
while(k<m){
k=k*n+rand();
max=max*n+n-1;
}
returnk/(max/n);
}

如何产生如下概率的随机数？0出1次，1出现2次，2出现3次，n-1出现n次？

intrandom(intsize){
while(true){
intm=rand(size);
intn=rand(size);
if(m+n<size)
returnm+n;
}
}

标签:Algorithm

分享到：

linux grep sed awk | 概率相关问题

2013-05-27 21:20
浏览 392
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论