Probability Inequalities

\varepsilon\mathbf{1}_{\{X \geq \varepsilon\}} \leq X

MARKOV'S INEQUALITY

Let

X \geq 0

be a random variable with mean

\mathbb{E}X<\infty

, and let

\varepsilon>0

. Then

\begin{equation*}\mathbb{P}(X \geq \varepsilon) \leq \frac{\mathbb{E}X}{\varepsilon}.\end{equation*}

\quad

Proof. We can notice inequality holds true

\begin{equation*}\varepsilon\mathbf{1}_{\{X \geq \varepsilon\}} \leq X.\end{equation*}

Taking expectation yields

\begin{equation*}\varepsilon\mathbb{P}(X \geq \varepsilon)=\mathbb{E}\left[\varepsilon\mathbf{1}_{\{X \geq \varepsilon\}}\right].\end{equation*}

Dividing by

\varepsilon

proves the claim.

\Box

CHEBYSHEV'S INEQUALITY

Let

X

be a random variable with mean

\mathbb{E}X

and finite variance

\operatorname{Var}(X)

. Then for every

\varepsilon>0

,

\begin{equation*}\mathbb{P}\left(|X-\mathbb{E}X| \geq \varepsilon\right) \leq \frac{\operatorname{Var}(X)}{\varepsilon^2}.\end{equation*}

\quad

Proof. Apply Markov's inequality to the nonnegative random variable

Y=(X-\mathbb{E}X)^2

:

\begin{equation*}\mathbb{P}\left(|X-\mathbb{E}X| \geq \varepsilon\right)=\mathbb{P}\left((X-\mathbb{E}X)^2 \geq \varepsilon^2\right)\leq \frac{\mathbb{E}(X-\mathbb{E}X)^2}{\varepsilon^2}=\frac{\operatorname{Var}(X)}{\varepsilon^2}. \qquad \Box\end{equation*}

ax+b\leq \varphi(x)

JENSEN'S INEQUALITY

Let

X

be with mean

\mathbb{E}|X| < \infty

, and let

\varphi:\mathbb{R}\to\mathbb{R}

be convex with

\mathbb{E}|\varphi(X)|<\infty

. Then

\begin{equation*}\varphi(\mathbb{E}X) \leq \mathbb{E}\varphi(X).\end{equation*}

\quad

Proof. By convexity, there exists a linear function

ax+b

such that

ax+b\leq \varphi(x)

for all

x

and

a\mathbb{E}X + b=\varphi(\mathbb{E}X)

. Therefore

\begin{equation*}\varphi(\mathbb{E}X)=a\mathbb{E}X+b=\mathbb{E}(aX+b)\leq \mathbb{E}\varphi(X).\end{equation*}

This proves Jensen's inequality.

\Box

CAUCHY–SCHWARZ INEQUALITY

If

X

and

Y

are square-integrable random variables, then

\begin{equation*}\left|\mathbb{E}(XY)\right| \leq \left(\mathbb{E}X^2\right)^{1/2}\left(\mathbb{E}Y^2\right)^{1/2}.\end{equation*}

\quad

Proof. For every

\lambda\in\mathbb{R}

,

\begin{equation*}0\leq \mathbb{E}(\lambda X-Y)^2\;=\underbrace{\mathbb{E}X^2}_{a}\lambda^2+\underbrace{\left(-2\mathbb{E}(XY)\right)}_{b}\lambda+\underbrace{\mathbb{E}Y^2}_{c}.\end{equation*}

For a quadratic polynomial

a\lambda^2+b\lambda+c

to be nonnegative on all

\mathbb{R}

, its discriminant must be nonpositive:

\begin{equation*}b^2-4ac\leq 0\quad\Longrightarrow\quad\left(-2\mathbb{E}(XY)\right)^2-4\mathbb{E}X^2\,\mathbb{E}Y^2\leq 0.\end{equation*}

Therefore

\begin{equation*}\left(\mathbb{E}(XY)\right)^2\leq \mathbb{E}X^2\,\mathbb{E}Y^2\overset{\text{Taking square roots}}{\Longrightarrow}\left|\mathbb{E}(XY)\right|\leq \left(\mathbb{E}X^2\right)^{1/2}\left(\mathbb{E}Y^2\right)^{1/2}. \quad \Box\end{equation*}

PALEY–ZYGMUND INEQUALITY

Let

X\geq 0

be a random variable with

\mathbb{E}X>0

and

\mathbb{E}X^2<\infty

. Then for every

\theta\in(0,1)

,

\begin{equation*}\mathbb{P}\!\left(X\geq \theta\mathbb{E}X\right)\geq (1-\theta)^2\frac{(\mathbb{E}X)^2}{\mathbb{E}X^2}.\end{equation*}

\quad

Proof. Let

A:=\{X\geq \theta\mathbb{E}X\}

and decompose

X

and

\mathbb{E}X

\begin{equation*}X=X\mathbf{1}_{A}+X\mathbf{1}_{A^c} \quad\Longrightarrow\quad \mathbb{E}X=\mathbb{E}(X\mathbf{1}_{A})+\mathbb{E}(X\mathbf{1}_{A^c}).\end{equation*}

On

A^c

we have

X<\theta\mathbb{E}X

, so

\begin{equation*}\mathbb{E}(X\mathbf{1}_{A^c})\leq \theta\mathbb{E}X. \quad\Longrightarrow\quad \mathbb{E}(X\mathbf{1}_{A})\geq (1-\theta)\mathbb{E}X.\end{equation*}

Apply Cauchy–Schwarz to

X\mathbf{1}_{A}

and

\mathbf{1}_{A}

:

\begin{equation*}\mathbb{E}(X\mathbf{1}_{A})^2 \leq \mathbb{E}(X^2)\mathbb{E}(\mathbf{1}_{A}^2)=\mathbb{E}(X^2)\mathbb{P}(A).\end{equation*}

Combining with

\mathbb{E}(X\mathbf{1}_{A})\geq (1-\theta)\mathbb{E}X

gives

\begin{equation*}(1-\theta)^2(\mathbb{E}X)^2\leq \mathbb{E}(X^2)\mathbb{P}(A)\quad\Longrightarrow\quad\mathbb{P}\!\left(X\geq \theta\mathbb{E}X\right)=\mathbb{P}(A)\geq (1-\theta)^2\frac{(\mathbb{E}X)^2}{\mathbb{E}X^2} \quad \Box\end{equation*}

CHERNOFF BOUND

Let

X

be a random variable such that

\mathbb{E}e^{\lambda X}<\infty

for some

\lambda>0

. Then for every

\varepsilon>0

,

\begin{equation*}\mathbb{P}(X \geq \varepsilon) \leq e^{-\lambda \varepsilon}\mathbb{E}e^{\lambda X}.\end{equation*}

Consequently,

\begin{equation*}\mathbb{P}(X \geq \varepsilon) \leq \inf_{\lambda>0} \left(e^{-\lambda \varepsilon}\mathbb{E}e^{\lambda X}\right).\end{equation*}

\quad

Proof. Apply Markov's inequality to the nonnegative random variable

e^{\lambda X}

:

\begin{equation*}\mathbb{P}(X \geq \varepsilon)=\mathbb{P}\left(e^{\lambda X}\geq e^{\lambda \varepsilon}\right)\leq \frac{\mathbb{E}e^{\lambda X}}{e^{\lambda \varepsilon}}.\end{equation*}

Because this bound holds for each

\lambda>0

, we can take the infimum over

\lambda>0

and get the sharpest bound:

\begin{equation*}\mathbb{P}(X \geq \varepsilon)\leq \inf_{\lambda>0}\left(e^{-\lambda\varepsilon}\mathbb{E}e^{\lambda X}\right) \quad \Box\end{equation*}

Let

X \sim \mathcal{N}(\mu,\sigma^2)

on

\mathbb{R}

, and fix

\varepsilon>0

. Apply Chernoff to the centered variable

Z:=X-\mu

:

\begin{equation*}\mathbb{P}(X-\mu \geq \varepsilon)=\mathbb{P}(Z \geq \varepsilon)\leq e^{-\lambda\varepsilon}\mathbb{E}e^{\lambda Z}, \qquad \lambda>0.\end{equation*}

For a Gaussian, the centered moment generating function is

\begin{equation*}\mathbb{E}e^{\lambda Z}=\exp\left(\frac{\lambda^2\sigma^2}{2}\right) \quad \Longrightarrow \quad \mathbb{P}(X-\mu \geq \varepsilon)\leq \exp\left(-\lambda\varepsilon+\frac{\lambda^2\sigma^2}{2}\right), \qquad \lambda>0.\end{equation*}

Now, we need to minimize

\begin{equation*}f(\lambda):=-\lambda\varepsilon+\frac{\lambda^2\sigma^2}{2},\qquad f'(\lambda)=-\varepsilon+\lambda\sigma^2,\qquad f''(\lambda)=\sigma^2>0,\end{equation*}

so the minimizer is

\begin{equation*}\lambda_*=\frac{\varepsilon}{\sigma^2}.\end{equation*}

Substituting

\lambda_*

gives the optimized Chernoff bound

\begin{equation*}\mathbb{P}(X-\mu \geq \varepsilon)\leq \exp\left(-\frac{\varepsilon^2}{2\sigma^2}\right).\end{equation*}

Before proving the Hoeffding's inequality we need the following lemma.

HOEFFDING'S LEMMA

If a random variable

Y

satisfies

\mathbb{E}Y=0

and

a \leq Y \leq b

almost surely, then for every

\lambda \in \mathbb{R}

,

\begin{equation*}\mathbb{E}e^{\lambda Y} \leq \exp\left(\frac{\lambda^2(b-a)^2}{8}\right).\end{equation*}

\quad

Proof. Fix

\lambda \in \mathbb{R}

. By convexity of

x \mapsto e^{\lambda x}

, for each

y \in [a,b]

,

\begin{equation*}\frac{b-y}{b-a}e^{\lambda a}+\frac{y-a}{b-a}e^{\lambda b} = 1 \quad \Longrightarrow \quad e^{\lambda y} \leq \frac{b-y}{b-a}e^{\lambda a}+\frac{y-a}{b-a}e^{\lambda b}.\end{equation*}

Taking expectation and using

\mathbb{E}Y=0

,

\begin{equation*}\mathbb{E}e^{\lambda Y} \leq \frac{b}{b-a}e^{\lambda a}-\frac{a}{b-a}e^{\lambda b}.\end{equation*}

Set

\begin{equation*}p:=-\frac{a}{b-a}\in[0,1],\qquad u:=\lambda(b-a).\end{equation*}

Then the right-hand side is

\begin{equation*}(1-p)e^{-pu}+pe^{(1-p)u}.\end{equation*}

Define

\begin{equation*}h(u):=\log\left((1-p)e^{-pu}+pe^{(1-p)u}\right).\end{equation*}

We have

h(0)=0

and

h'(0)=0

. A direct computation gives

\begin{equation*}h''(u)=\frac{p(1-p)e^u}{(1-p+pe^u)^2}\leq \frac14.\end{equation*}

Hence, by Taylor's formula with remainder bound,

\begin{equation*}h(u)\leq \frac{u^2}{8}.\end{equation*}

Therefore

\begin{equation*}\mathbb{E}e^{\lambda Y}\leq e^{h(u)}\leq \exp\left(\frac{u^2}{8}\right)=\exp\left(\frac{\lambda^2(b-a)^2}{8}\right).\end{equation*}

The lemma is proved.

\Box

HOEFFDING'S INEQUALITY

Let

X_1,\ldots,X_n

be independent random variables such that

a_i \leq X_i \leq b_i

almost surely. Let

\mu_i:=\mathbb{E}X_i

and define

\begin{equation*}S_n:=\sum_{i=1}^n\left(X_i-\mu_i\right).\end{equation*}

Then for every

\varepsilon>0

,

\begin{equation*}\mathbb{P}(S_n \geq \varepsilon) \leq \exp\left(-\frac{2\varepsilon^2}{\sum_{i=1}^n(b_i-a_i)^2}\right),\end{equation*}

\quad

Proof of Hoeffding's inequality. Let

\begin{equation*}Y_i:=X_i-\mu_i,\qquad S_n=\sum_{i=1}^n Y_i.\end{equation*}

Then

\begin{equation*}a_i-\mu_i \leq Y_i \leq b_i-\mu_i,\qquad (b_i-\mu_i)-(a_i-\mu_i)=b_i-a_i.\end{equation*}

For

\lambda>0

, Chernoff's bound gives

\begin{equation*}\mathbb{P}(S_n\geq \varepsilon)\leq e^{-\lambda\varepsilon}\mathbb{E}e^{\lambda S_n}=e^{-\lambda\varepsilon}\prod_{i=1}^n \mathbb{E}e^{\lambda Y_i},\end{equation*}

where we used independence. Applying Hoeffding's lemma to each

Y_i

:

\begin{equation*}\mathbb{E}e^{\lambda Y_i}\leq \exp\left(\frac{\lambda^2(b_i-a_i)^2}{8}\right)\Longrightarrow\mathbb{P}(S_n\geq \varepsilon)\leq \exp\left(-\lambda\varepsilon+\frac{\lambda^2}{8}\underbrace{\sum_{i=1}^n(b_i-a_i)^2}_{B}\right).\end{equation*}

The exponent is minimized at

\lambda=4\varepsilon/B

, and substitution yields

\begin{equation*}\mathbb{P}(S_n\geq \varepsilon)\leq \exp\left(-\frac{2\varepsilon^2}{B}\right) \qquad \Box\end{equation*}

BERNSTEIN BOUND

Let

X

satisfy

\mathbb{E}X=0

,

|X|\leq M

almost surely, and let

\sigma^2=\operatorname{Var}(X)

. Then for every

\lambda \in [0,3/M)

,

\begin{equation*}\mathbb{E}e^{\lambda X}\leq \exp\left(\frac{\lambda^2\sigma^2}{2(1-\lambda M/3)}\right).\end{equation*}

\quad

Proof. Since

\mathbb{E}X=0

,

\begin{equation*}\mathbb{E}e^{\lambda X}=1+\sum_{k=2}^{\infty}\frac{\lambda^k\mathbb{E}(X^k)}{k!}\leq 1+\sum_{k=2}^{\infty}\frac{\lambda^k\mathbb{E}(|X|^k)}{k!}.\end{equation*}

Because

|X|\leq M

, for

k\geq 2

we have

|X|^k\leq M^{k-2}X^2

, hence

\begin{equation*}\mathbb{E}(|X|^k)\leq M^{k-2}\mathbb{E}(X^2)=M^{k-2}\sigma^2.\end{equation*}

Therefore

\begin{equation*}\mathbb{E}e^{\lambda X}\leq 1+\frac{\sigma^2}{M^2}\sum_{k=2}^{\infty}\frac{(\lambda M)^k}{k!}=1+\frac{\sigma^2}{M^2}\left(e^{u}-1-u\right),\qquad u:=\lambda M.\end{equation*}

Now for

u\in[0,3)

,

\begin{equation*}e^u-1-u=\sum_{k=2}^{\infty}\frac{u^k}{k!}\leq \sum_{k=2}^{\infty}\frac{u^k}{2\cdot 3^{k-2}}=\frac{u^2}{2}\sum_{j=0}^{\infty}\left(\frac{u}{3}\right)^j=\frac{u^2}{2(1-u/3)},\end{equation*}

because

k!\geq 2\cdot 3^{k-2}

for all

k\geq 2

. Plugging this in,

\begin{equation*}\mathbb{E}e^{\lambda X}\leq 1+\frac{\lambda^2\sigma^2}{2(1-\lambda M/3)}\leq \exp\left(\frac{\lambda^2\sigma^2}{2(1-\lambda M/3)}\right).\end{equation*}

The lemma is proved.

\Box

BERNSTEIN'S INEQUALITY

Let

X_1,\ldots,X_n

be independent random variables with means

\mathbb{E}X_i=0

and

|X_i|\leq M

almost surely. Put

\begin{equation*}S_n:=\sum_{i=1}^n X_i,\qquad V_n:=\sum_{i=1}^n \operatorname{Var}(X_i).\end{equation*}

Then for every

\varepsilon>0

,

\begin{equation*}\mathbb{P}(S_n \geq \varepsilon) \leq \exp\left(-\frac{\varepsilon^2}{2\left(V_n + \frac{M\varepsilon}{3}\right)}\right).\end{equation*}

\quad

Proof of Bernstein's inequality. For

\lambda\in(0,3/M)

, Chernoff's bound gives

\begin{equation*}\mathbb{P}(S_n\geq\varepsilon)\leq e^{-\lambda\varepsilon}\mathbb{E}e^{\lambda S_n}=e^{-\lambda\varepsilon}\prod_{i=1}^n\mathbb{E}e^{\lambda X_i}.\end{equation*}

Applying the lemma to each

X_i

(with

\sigma_i^2=\operatorname{Var}(X_i)

),

\begin{equation*}\mathbb{P}(S_n\geq\varepsilon)\leq\exp\left(-\lambda\varepsilon+\frac{\lambda^2}{2(1-\lambda M/3)}\sum_{i=1}^n\sigma_i^2\right)=\exp\left(-\lambda\varepsilon+\frac{\lambda^2V_n}{2(1-\lambda M/3)}\right).\end{equation*}

Choose

\begin{equation*}\lambda_*:=\frac{\varepsilon}{V_n+M\varepsilon/3},\end{equation*}

for which

\lambda_*<3/M

. Substituting

\lambda_*

yields

\begin{equation*}\mathbb{P}(S_n\geq\varepsilon)\leq\exp\left(-\frac{\varepsilon^2}{2\left(V_n+\frac{M\varepsilon}{3}\right)}\right).\end{equation*}

Applying the same argument to

-X_i

and using the union bound gives the two-sided inequality.

\Box

AZUMA–HOEFFDING INEQUALITY

Let

\{(M_k,\mathcal{F}_k)\}_{k=0}^n

be a martingale and suppose there are constants

c_k

such that

\begin{equation*}|M_k - M_{k-1}| \leq c_k \quad \text{a.s., } 1 \leq k \leq n.\end{equation*}

Then for every

\varepsilon>0

,

\begin{equation*}\mathbb{P}(M_n-M_0 \geq \varepsilon) \leq \exp\left(-\frac{\varepsilon^2}{2\sum_{k=1}^n c_k^2}\right).\end{equation*}

\quad

Proof. Define martingale differences for

1\leq k\leq n

\begin{equation*}D_k:=M_k-M_{k-1} \quad\Longrightarrow\quad \mathbb{E}(D_k\mid\mathcal{F}_{k-1})=0.\end{equation*}

Applying Hoeffding's lemma on the interval

[-c_k,c_k]

gives, for every

\lambda>0

,

\begin{equation*}\mathbb{E}\!\left(e^{\lambda D_k}\mid\mathcal{F}_{k-1}\right)\leq\exp\left(\frac{\lambda^2c_k^2}{2}\right).\end{equation*}

Now iterate:

\begin{equation*}\mathbb{E}e^{\lambda(M_n-M_0)} =\mathbb{E}e^{\lambda\sum_{k=1}^n D_k}=\mathbb{E}\!\left[e^{\lambda\sum_{k=1}^{n-1}D_k}\mathbb{E}\!\left(e^{\lambda D_n}\mid\mathcal{F}_{n-1}\right)\right]\leq \exp\left(\frac{\lambda^2c_n^2}{2}\right)\mathbb{E}e^{\lambda\sum_{k=1}^{n-1}D_k}\leq \cdots \leq\exp\left(\frac{\lambda^2}{2}\sum_{k=1}^n c_k^2\right).\end{equation*}

Applying Chernoff's bound:

\begin{equation*}\mathbb{P}(M_n-M_0\geq\varepsilon)\leq\exp\left(-\lambda\varepsilon+\frac{\lambda^2}{2}\sum_{k=1}^n c_k^2\right).\end{equation*}

Minimizing over

\lambda>0

with

\lambda=\varepsilon/\sum_{k=1}^n c_k^2

gives

\begin{equation*}\mathbb{P}(M_n-M_0\geq\varepsilon)\leq\exp\left(-\frac{\varepsilon^2}{2\sum_{k=1}^n c_k^2}\right) \qquad \Box\end{equation*}

Kolmogorov's inequality is one of the main inequalities in probability theory; it gives an upper bound for the maximum of partial sums of independent mean-zero random variables.

KOLMOGOROV’S MAXIMAL INEQUALITY

Let

X_1, X_2, \ldots, X_n

be independent random variables with

\mathbb{E} X_i=0, \, \mathbb{E} X_i^2<\infty

,

i \leq n

. If

S_n = X_1 + \dots + X_n

then

\begin{equation*}\mathbb{P} \left( \max _{1 \leq k \leq n}\left|S_k \right| \geq \varepsilon \right) \leq \frac{\mathbb{E} S_n^2}{\varepsilon^2} .\end{equation*}

\quad

Proof. We put

\begin{align*}A & =\left\{\max_{1 \leq k \leq n} \left|S_k\right| \geq \varepsilon\right\}, \\A_k & =\left\{\left|S_i\right|<\varepsilon, i=1, \ldots, k-1,\left|S_k\right| \geq \varepsilon\right\}, \quad 1 \leq k \leq n ,\end{align*}

i.e., we break things down according to the time that

\left|S_k\right|

first exceeds

\varepsilon

. Then

A_k \cap A_j = \emptyset, \, j \neq k

and

A= \bigcup_{k=1}^{n} A_k

,

\begin{equation*}\mathbb{E} S_n^2 \geq \mathbb{E} S_n^2 I_A=\sum_{k = 1}^{n} \mathbb{E} S_n^2 I_{A_k}\end{equation*}

But

\begin{equation*}\mathbb{E} S_n^2 I_{A_k}=\mathbb{E}\left(S_k+\left(X_{k+1}+\cdots+X_n\right)\right)^2 I_{A_k}=\mathbb{E} S_k^2 I_{A_k}+\underbrace{2 \mathbb{E} S_k\left(X_{k+1}+\cdots+X_n\right) I_{A_k}}_{=0}+\underbrace{\mathbb{E}\left(X_{k+1}+\cdots+X_n\right)^2 I_{A_k}}_{\ge 0}\geq \mathbb{E} S_k^2 I_{A_k}.\end{equation*}

since

\begin{equation*}\mathbb{E} S_k\left(X_{k+1}+\cdots+X_n\right) I_{A_k}=\mathbb{E} S_k I_{A_k} \cdot \mathbb{E}\left(X_{k+1}+\cdots+X_n\right)=0\end{equation*}

because of independence and the conditions

\mathbb{E} X_i=0, i \leq n

. Hence

\begin{equation*}\mathbb{E} S_n^2 \geq \sum_{k = 1}^{n} \mathbb{E}S_k^2 I_{A_k} \geq \varepsilon^2 \sum_{k = 1}^{n} \mathbb{P}\left(A_k\right)=\varepsilon^2 \mathbb{P} \left( \max _{1 \leq k \leq n}\left|S_k \right| \geq \varepsilon \right) \qquad \Box\end{equation*}

Probability Inequalities

Markov's inequality

Chebyshev's inequality

Jensen's inequality

Cauchy–Schwarz inequality

Paley–Zygmund inequality

Chernoff bound

Gaussian Example in One Dimension

Hoeffding's inequality

Bernstein's inequality

Azuma–Hoeffding inequality

Kolmogorov’s maximal inequality

References