积分倒数的无偏估计(分子非常数)
积分倒数的无偏估计
- 实验只能说明收敛性,但是说明不了无偏
- 接续上文提出的新问题,具体如下
问题
- 已知
\[ f(x)=x^2 \]
\[ x\in[1,2],y\in[1,2] \]
\[ g(x\mid y)=(x+1)e^y \]
- 如何估计
\[ A =\int_1^2\dfrac{f(x)}{\int_1^2 g(x\mid y)\;\mathrm{d}y}\;\mathrm{d}x =\int_1^2\dfrac{x^2}{\int_1^2 (x+1)y\;\mathrm{d}y}\;\mathrm{d}x \]
\[ B=\int_1^2 \left(f(x)\int_1^2 g(x\mid y)\;\mathrm{d}y\right)\;\mathrm{d}x \]
- 解析值
\[ \int_1^2 g(x\mid y)\;\mathrm{d}y=\dfrac{3}{2}(x+1) \]
\[ \begin{aligned} A&=\dfrac{1+2\ln 3-2\ln 2}{2e(e-1)}\approx 0.193858\\ B&=\dfrac{73e(e-1)}{12}=28.413877\\ \end{aligned} \]
解法
naive
- 如何估计?
- 采样若干样本 \(x\),用于估计外层积分结果
- \(p(x)\)
- 对于一个给定的 \(x\),我们采样若干样本 \(y\),估计 \(y\) 的积分
- \(q(y)\)
- 采样若干样本 \(x\),用于估计外层积分结果
- 设定:在实际中,考虑到效率原因,对于每一个 \(x\) 只会采样少量样本 \(y\)
\[ \hat{A}=\dfrac{1}{X}\sum_{i=1}^{X}\dfrac{f(x_i)}{p(x_i)\dfrac{1}{Y}\sum_{j=1}^{Y}\dfrac{g(x_i\mid y_j)}{q(y_j)}} \]
\[ \hat{B}=\dfrac{1}{X}\sum_{i=1}^{X}\dfrac{f(x_i)}{p(x_i)}\left(\dfrac{1}{Y}\sum_{j=1}^{Y}\dfrac{g(x_i\mid y_j)}{q(y_j)}\right) \]
- 是否准确?
泰勒展开
数值积分
数值模拟结果
- 样本数构成
- \(X=100'000\)
- 一个 \(X\) 采样 \(Y=10\)
- 采样方式都是均匀采样
方法 | A 估计值 | A 绝对误差 | 是否为 A 的无偏估计 | B 估计值 |
---|---|---|---|---|
解析解 | \(0.193858\) | \(0\) | - | \(28.4139\) |
naive | \(0.195336\) | \(0.0014786\) | x | \(28.3969\) |
泰勒 | \(0.192066\) | \(0.00179133\) | v | - |
泰勒(优化) | \(0.192302\) | \(0.0015553\) | v | - |
Simpson | \(0.193858\) | \(6.72916\times10^{-9}\) | x | - |
- 这里泰勒展开并没有选择最优化的参数,因此效果可能一般
- 具体代码
分析
- 有偏的方法不一定比无偏的差
- 数值积分有很好的误差界(error bound),因此虽然是有偏的,但是效果可能更好
其他
- 在样本数 \((X+Y)\) 固定的时候,如何分配 \(X,Y\) 的数量,也会影响最终的结果的误差
- 更详细的分析需要通过具体式子的误差分析、方差分析实现
- 数值积分的效果不一定比 MC 估计差
- 数值积分:error bound
- MC:方差
- 无偏的方法不一定比有偏的方法差
其他
- 图表
- 分布 \(p(x)\)
\[ p(x\mid y)=\left\{ \begin{array}{ll} \dfrac{2}{3}(x-y),&x\ge y\\ \dfrac{2}{3}(x-y+1),&x<y\\ \end{array} \right. \]