18.6. Biến Ngẫu nhiên

Section 2.6 đã giới thiệu các phương pháp cơ bản để làm việc với biến ngẫu nhiên rời rạc, mà trong trường hợp của ta các biến ngẫu nhiên này có thể chỉ có một tập hữu hạn các giá trị khả dĩ, hoặc có thể là toàn bộ các số nguyên. Trong phần này, ta tìm hiểu lý thuyết cho biến ngẫu nhiên liên tục, là các biến ngẫu nhiên có thể nhận bất cứ giá trị số thực nào.

18.6.1. Biến Ngẫu nhiên Liên tục

Biến ngẫu nhiên liên tục phức tạp hơn đáng kể so với biến ngẫu nhiên rời rạc. Từ làm việc với các biến rời rạc chuyển sang làm việc với các biến liên tục cũng đòi hòi một bước nhảy về kiến thức chuyên môn tương tự như chuyển từ tính tổng dãy số sang tính tích phân hàm số. Như vậy, ta sẽ cần dành một chút thời gian để phát triển lý thuyết.

18.6.1.1. Từ Rời rạc đến Liên tục

Để hiểu các thách thức kỹ thuật phát sinh khi làm việc với biến ngẫu nhiên liên tục, ta hãy thực hiện một thí nghiệm tưởng tượng sau đây. Giả sử ta chơi phóng phi tiêu vào một bảng phi tiêu, và muốn biết xác suất nó cắm chính xác vào điểm cách hồng tâm \(2 \text{cm}\).

Để bắt đầu, hãy hình dung ta thực hiện phép đo với độ chính xác một chữ số, tức là chia thành các vùng \(0 \text{cm}\), \(1 \text{cm}\), \(2 \text{cm}\), v.v. Phóng \(100\) phi tiêu vào bảng phi tiêu, và nếu \(20\) trong số đó rơi vào vùng \(2\text{cm}\), ta kết luận là \(20\%\) phi tiêu ta phóng cắm vào điểm cách tâm \(2 \text{cm}\).

Tuy nhiên, khi xét kỹ hơn, câu trả lời này không thỏa đáng! Ta muốn một giá trị chính xác, trong khi các vùng đó lại chứa tất cả điểm nằm giữa \(1.5\text{cm}\)\(2.5\text{cm}\).

Hãy tiếp tục với độ chính xác cao hơn, như là \(1.9\text{cm}\), \(2.0\text{cm}\), \(2.1\text{cm}\), và bây giờ ta thấy khoảng \(3\) trong số \(100\) phi tiêu cắm vào bảng trong vùng \(2.0\text{cm}\). Do đó ta kết luận xác suất lúc này là \(3\%\).

Tuy nhiên, điều này chưa giải quyết bất cứ điều gì! Ta chỉ vừa đẩy vấn đề độ chính xác lên thêm một chữ số thập phân. Thay vào đó hãy trừu tượng hóa vấn đề lên một chút. Hình dung ta biết xác suất mà \(k\) chữ số đầu tiên khớp với \(2.00000\ldots\) và ta muốn biết xác suất nó khớp với \(k+1\) chữ số đầu tiên. Khá hợp lý khi giả định là chữ số thứ \(k+1\) có thể nhận giá trị ngẫu nhiên từ tập \(\{0, 1, 2, \ldots, 9\}\). Ít nhất là ta không thể nghĩ ra được bất kỳ tác nhân vật lý có ý nghĩa nào mà lại có ảnh hưởng tới độ chính xác ở mức micro mét, để chữ số cuối cùng là chữ số \(7\) thay vì chữ số \(3\) chẳng hạn.

Về cơ bản, việc tăng độ chính xác thêm một chữ số đòi hỏi xác suất khớp sẽ giảm xuống 10 lần. Hay nói cách khác, ta kỳ vọng là

(18.6.1)\[P(\text{khoảng cách là}\; 2.00\ldots, \;\text{đến}\; k \;\text{chữ số} ) \approx p\cdot10^{-k}.\]

Giá trị \(p\) là xác suất khớp các chữ số đầu, và \(10^{-k}\) mô tả cho phần còn lại.

Lưu ý rằng nếu ta biết vị trí chính xác đến \(k = 4\) chữ số thập phân, có nghĩa là ta biết giá trị sẽ nằm trong khoảng \([(1.99995,2.00005]\) có độ dài \(2.00005-1.99995 = 10^{-4}\). Do đó, nếu gọi độ dài của khoảng này là \(\epsilon\), ta có:

(18.6.2)\[P(\text{khoảng cách nằm trong khoảng rộng}\; \epsilon\text{xung quanh}\; 2 ) \approx \epsilon \cdot p.\]

Ta hãy tổng quát hóa thêm một bước cuối. Ta hiện chỉ đang xét điểm \(2\), chưa nghĩ đến các điểm khác. Về cơ bản, giá trị \(p\) tại các điểm khác nhau có thể sẽ khác nhau. Ít nhất ta hy vọng rằng người ném phi tiêu nhiều khả năng sẽ ngắm trúng vùng gần tâm, \(2 \text{cm}\) hơn là \(20 \text{cm}\). Do đó, giá trị \(p\) là không cố định, mà phụ thuộc vào điểm \(x\). Điều này cho thấy ta nên kỳ vọng:

(18.6.3)\[P(\text{khoảng cách nằm trong khoảng rộng}\; \epsilon \text{xung quanh}\; x ) \approx \epsilon \cdot p(x).\]

(18.6.3) định nghĩa hàm mật độ xác suất - probability density function (p.d.f.), là hàm \(p(x)\) biểu diễn xác suất tương đối của việc ném trúng gần vị trí này so với vị trí khác. Ta hãy trực quan hóa một hàm như vậy.

%matplotlib inline
from d2l import mxnet as d2l
from IPython import display
from mxnet import np, npx
npx.set_np()

# Plot the probability density function for some random variable
x = np.arange(-5, 5, 0.01)
p = 0.2*np.exp(-(x - 3)**2 / 2)/np.sqrt(2 * np.pi) + \
    0.8*np.exp(-(x + 1)**2 / 2)/np.sqrt(2 * np.pi)

d2l.plot(x, p, 'x', 'Density')
../_images/output_random-variables_vn_cbc293_1_0.svg

Các vị trí mà giá trị hàm lớn cho biết có nhiều khả năng giá trị ngẫu nhiên sẽ rơi vào đó. Các vùng giá trị thấp là những vùng tại đó ít có khả năng giá trị ngẫu nhiên xuất hiện.

18.6.1.2. Hàm Mật độ Xác suất

Bây giờ ta hãy tìm hiểu sâu hơn. Chúng ta đã quan sát trực quan hàm mật độ xác suất \(p(x)\) là gì đối với một biến ngẫu nhiên \(X\), cụ thể:

(18.6.4)\[P(X \; \text{nằm trong khoảng rộng}\; \epsilon \text{xung quanh}\; x ) \approx \epsilon \cdot p(x).\]

Nhưng phương trình này ám chỉ các tính chất gì của \(p(x)\)?

Đầu tiên, xác suất không bao giờ âm, do đó $p(x) :raw-latex:`ge `0 $.

Thứ hai, hãy tưởng tượng việc cắt \(\mathbb{R}\) thành vô số lát cắt có chiều rộng \(\epsilon\), mỗi lát cắt là nửa khoảng \((\epsilon\cdot i, \epsilon \cdot (i + 1)]\). Đối với mỗi lắt cắt này, ta biết từ (18.6.4), thì xác suất xấp xỉ

(18.6.5)\[P(X \; \text{nằm trong khoảng rộng}\; \epsilon \text{xung quanh}\; x ) \approx \epsilon \cdot p(\epsilon \cdot i),\]

vì vậy tổng tất cả chúng sẽ là

(18.6.6)\[P(X\in\mathbb{R}) \approx \sum_i \epsilon \cdot p(\epsilon\cdot i).\]

Đây chỉ là xấp xỉ của một tích phân mà ta đã thảo luận trong Section 18.5, do đó có thể nói rằng

(18.6.7)\[P(X\in\mathbb{R}) = \int_{-\infty}^{\infty} p(x) \; dx.\]

Ta biết là \(P(X\in\mathbb{R}) = 1\), vì biến ngẫu nhiên này phải nhận một giá trị nào đó trong tập số thực, do đó ta có thể kết luận rằng với bất kỳ hàm mật độ nào:

(18.6.8)\[\int_{-\infty}^{\infty} p(x) \; dx = 1.\]

Thật vậy, đi sâu hơn vào phương trình này, ta thấy rằng với bất kỳ \(a\)\(b\) nào:

(18.6.9)\[P(X\in(a, b]) = \int _ {a}^{b} p(x) \; dx.\]

Ta có thể xấp xỉ phương trình này trong chương trình máy tính bằng cách sử dụng các phương pháp xấp xỉ rời rạc như trước đây. Trong trường hợp này, ta có thể ước tính xác suất nằm trong vùng màu xanh lam.

# Approximate probability using numerical integration
epsilon = 0.01
x = np.arange(-5, 5, 0.01)
p = 0.2*np.exp(-(x - 3)**2 / 2) / np.sqrt(2 * np.pi) + \
    0.8*np.exp(-(x + 1)**2 / 2) / np.sqrt(2 * np.pi)

d2l.set_figsize()
d2l.plt.plot(x, p, color='black')
d2l.plt.fill_between(x.tolist()[300:800], p.tolist()[300:800])
d2l.plt.show()

f'approximate Probability: {np.sum(epsilon*p[300:800])}'
../_images/output_random-variables_vn_cbc293_3_0.svg
'approximate Probability: 0.7736172'

Hai tính chất trên mô tả chính xác không gian của các hàm mật độ xác suất. Chúng là các hàm không âm \(p(x) \ge 0\) sao cho

(18.6.10)\[\int_{-\infty}^{\infty} p(x) \; dx = 1.\]

Ta cũng có thể thu được xác suất biến ngẫu nhiên nằm trong một khoảng cụ thể bằng cách tính tích phân:

(18.6.11)\[P(X\in(a, b]) = \int _ {a}^{b} p(x) \; dx.\]

Trong Section 18.8, ta sẽ gặp một số phân phối thông dụng, giờ hãy tiếp tục tìm hiểu các khái niệm lý thuyết.

18.6.1.3. Hàm Phân phối Tích lũy

Trong phần trước, chúng ta đã biết về hàm mật độ xác suất (p.d.f). Trong thực tế, đây là một phương pháp thường dùng để thảo luận về các biến ngẫu nhiên liên tục, nhưng nó có một nhược điểm khá lớn: bản thân các giá trị của p.d.f. không phải là các giá trị xác suất, mà ta phải tích phân hàm này để có xác suất. Không có gì sai với môt hàm mật độ lớn hơn \(10\), miễn là nó không lớn hơn \(10\) trong khoảng có chiều dài lớn hơn \(1/10\). Điều này có thể hơi phản trực giác, do đó người ta thường dùng hàm phân phối tích lũy - cumulative distribution function hoặc c.d.f., mà có giá trị trả về xác suất.

Cụ thể, với việc sử dụng (18.6.11), ta định nghĩa c.d.f. cho một biến ngẫu nhiên \(X\) với mật độ \(p(x)\) như sau:

(18.6.12)\[F(x) = \int _ {-\infty}^{x} p(x) \; dx = P(X \le x).\]

Hãy quan sát một vài tính chất của hàm này

  • $F(x):raw-latex:rightarrow `0 $ khi :math:`xrightarrow -infty.
  • $F(x):raw-latex:rightarrow `1 $ khi :math:`xrightarrow infty.
  • \(F(x)\) không giảm (\(y > x \implies F(y) \ge F(x)\)).
  • \(F(x)\) là liên tục (không có bước nhảy) nếu \(X\) là một biến ngẫu nhiên liên tục.

Ở gạch đầu dòng thứ tư, lưu ý rằng điều này không đúng nếu \(X\) là rời rạc, ví dụ như khi \(X\) chỉ nhận hai giá trị \(0\)\(1\) với xác suất \(1/2\). Trong trường hợp đó:

(18.6.13)\[\begin{split}F(x) = \begin{cases} 0 & x < 0, \\ \frac{1}{2} & x < 1, \\ 1 & x \ge 1. \end{cases}\end{split}\]

Trong ví dụ này, ta thấy một trong các lợi ích của việc sử dụng c.d.f., khả năng xử lý các biến ngẫu nhiên liên tục hoặc rời rạc với cùng một công cụ, hay thậm chí là hỗn hợp của cả hai (tung một đồng xu: nếu mặt ngửa thì trả về giá trị khi thả xúc xắc, nếu mặt sấp thì trả về khoảng cách ném phi tiêu từ tâm của bảng hồng tâm).

18.6.1.4. Kỳ vọng

Giả sử ta đang làm việc với một biến ngẫu nhiên \(X\). Phân phối của biến này có thể khó để diễn giải. Thường sẽ có ích nếu ta có thể tóm lược hành vi của một biến ngẫu nhiên một cách súc tích. Những giá trị giúp ta nắm bắt được hành vi của một biến ngẫu nhiên được gọi là thống kê tóm tắt. Các thống kê tóm tắt thường gặp nhất là kỳ vọng, phương saiđộ lệch chuẩn.

Kỳ vọng là giá trị trung bình của một biến ngẫu nhiên. Nếu ta có một biến ngẫu nhiên rời rạc \(X\), nhận giá trị \(x_i\) với xác suất \(p_i\), thì kỳ vọng được tính từ trung bình có trọng số: tổng các tích của giá trị biến với xác suất nhận giá trị đó:

(18.6.14)\[\mu_X = E[X] = \sum_i x_i p_i.\]

Với một vài lưu ý, giá trị kỳ vọng này về cơ bản cho ta biết biến ngẫu nhiên có xu hướng nhận giá trị nào.

Xét một ví dụ tối giản xuyên suốt phần này, gọi \(X\) là biến ngẫu nhiên nhận giá trị \(a-2\) với xác suất \(p\), \(a + 2\) với xác suất \(p\)\(a\) với xác suất \(1-2p\). Theo (18.6.14), với bất kỳ giá trị khả dĩ nào của \(a\)\(p\), giá trị kỳ vọng là:

(18.6.15)\[\mu_X = E[X] = \sum_i x_i p_i = (a-2)p + a(1-2p) + (a+2)p = a.\]

Ta thấy rằng giá trị kỳ vọng là \(a\). Điều này đúng với trực giác vì \(a\) là vị trí trung tâm của biến ngẫu nhiên này.

Bởi sự hữu dụng của kỳ vọng, hãy tổng hợp một vài tính chất của chúng.

  • Với bất kỳ biến ngẫu nhiên \(X\) và hai số \(a\)\(b\) nào, \(\mu_{aX + b} = a\mu_X + b\).
  • Với hai biến ngẫu nhiên \(X\)\(Y\), \(\mu_{X + Y} = \mu_X+\mu_Y\).

Kỳ vọng rất hữu ích để hiểu hành vi trung bình của một biến ngẫu nhiên, tuy nhiên nó vẫn không đủ để ta có được một cách nhìn trực quan toàn diện. Tạo ra lợi nhuận \(\$10 \pm \$1\) rất khác với việc tạo ra \(\$10 \pm \$15\) cho mỗi giao dịch mặc dù cả hai có cùng kỳ vọng. Trường hợp thứ hai có mức độ dao động lớn hơn nhiều và do đó rủi ro cũng lớn hơn nhiều. Vì vậy, để hiểu hành vi của một biến ngẫu nhiên, ta sẽ cần thêm tối thiểu một thước đo nữa thể hiện biên độ dao động của biến ngẫu nhiên đó.

18.6.1.5. Phương sai

Điều này dẫn tới khái niệm phương sai của biến ngẫu nhiên. Đây là một thước đo định lượng khoảng dao động quanh giá trị kỳ vọng của một biến ngẫu nhiên. Xét biểu thức \(X - \mu_X\). Đây là độ lệch (deviation) của biến ngẫu nhiên so với kỳ vọng của nó. Giá trị này có thể dương hoặc âm, vì vậy ta cần thực hiện thêm thao tác để lấy độ lớn (luôn dương) của độ lệch này.

Một cách hợp lý là lấy \(\left|X-\mu_X\right|\), và thực sự điều này dẫn đến một đại lượng hữu dụng là trung bình độ lệch tuyệt đối - mean absolute deviation, tuy nhiên do mối liên hệ với các lĩnh vực toán học và thống kê khác, người ta thường dùng một giải pháp khác.

Cụ thể là \((X-\mu_X)^2.\). Nếu lấy giá trị kỳ vọng của đại lượng này, ta có phương sai:

(18.6.16)\[\sigma_X^2 = \mathrm{Var}(X) = E\left[(X-\mu_X)^2\right] = E[X^2] - \mu_X^2.\]

Đẳng thức cuối cùng trong (18.6.16) có được bằng cách khai triển các số hạng trong vế giữa và vận dụng các tính chất của kỳ vọng.

Hãy cùng xem lại ví dụ trong đó \(X\) là biến ngẫu nhiên nhận giá trị \(a-2\) với xác suất \(p\), \(a+2\) với xác suất \(p\)\(a\) với xác suất \(1-2p\). Trong trường hợp này, ta đã biết \(\mu_X = a\), vì vậy chỉ cần tính \(E\left[X^2\right]\) như sau:

(18.6.17)\[E\left[X^2\right] = (a-2)^2p + a^2(1-2p) + (a+2)^2p = a^2 + 8p.\]

Sau đó, theo (18.6.16) ta có phương sai:

(18.6.18)\[\sigma_X^2 = \mathrm{Var}(X) = E[X^2] - \mu_X^2 = a^2 + 8p - a^2 = 8p.\]

Kết quả này cũng hợp lý. Giá trị lớn nhất có thể của \(p\)\(1/2\), tương ứng với việc chọn \(a-2\) hoặc \(a+2\) (tương tự khi tung đồng xu). Lúc này giá trị phương sai tính theo công thức trên bằng \(4\), đúng với thực tế là cả \(a-2\)\(a+2\) cùng có độ lệch khỏi giá trị trung bình là \(2\)\(2^2 = 4\). Ngược lại, nếu \(p=0\), tức biến ngẫu nhiên này luôn nhận giá trị \(0\) và vì thế có phương sai bằng \(0\).

Hãy liệt kê một vài tính chất của phương sai:

  • Với biến ngẫu nhiên \(X\) bất kỳ: \(\mathrm{Var}(X) \ge 0\), với \(\mathrm{Var}(X) = 0\) khi và chỉ khi \(X\) là hằng số.
  • Với biến ngẫu nhiên \(X\) và hai số \(a\), \(b\) bất kỳ: \(\mathrm{Var}(aX+b) = a^2\mathrm{Var}(X)\).
  • Nếu hai biến ngẫu nhiên \(X\)\(Y\)độc lập: \(\mathrm{Var}(X+Y) = \mathrm{Var}(X) + \mathrm{Var}(Y)\).

Khi diễn giải các giá trị này, ta có thể gặp một chút vướng mắc. Cụ thể, hãy để ý đến đơn vị của các phép tính. Giả sử ta đang làm việc với số sao được đánh giá cho một sản phẩm trên trang web. Khi đó \(a\), \(a-2\), and \(a+2\) đều được đo bằng đơn vị ngôi sao. Tương tự, kỳ vọng \(\mu_X\) sau đó cũng có đơn vị là ngôi sao (được tính là trung bình có trọng số). Tuy nhiên, nếu xét đến phương sai, ta ngay lập tức gặp phải vấn đề, đó là \((X-\mu_X)^2\) sẽ có đơn vị bình phương số sao. Điều này có nghĩa là bản thân phương sai không thể dùng để so sánh trong phép đo ban đầu. Để có thể diễn giải được nó, ta cần quay lại đơn vị gốc.

18.6.1.6. Độ lệch chuẩn

Độ lệch chuẩn luôn có thể suy ra bằng cách lấy căn bậc hai của phương sai:

(18.6.19)\[\sigma_X = \sqrt{\mathrm{Var}(X)}.\]

Trong ví dụ trên, ta có độ lệch chuẩn \(\sigma_X = 2\sqrt{2p}\). Nếu đơn vị ta đang xét là số sao trong ví dụ đánh giá của mình, \(\sigma_X\) vẫn có đơn vị này.

Các tính chất của phương sai có thể được áp dụng lại cho độ lệch chuẩn.

  • Với biến ngẫu nhiên \(X\) bất kỳ: \(\sigma_{X} \ge 0\).
  • Với biến ngẫu nhiên \(X\) và hai số \(a\), \(b\) bất kỳ: \(\sigma_{aX+b} = |a|\sigma_{X}\)
  • Nếu hai biến ngẫu nhiên \(X\)\(Y\)độc lập: \(\sigma_{X+Y} = \sqrt{\sigma_{X}^2 + \sigma_{Y}^2}\).

Lúc này hãy đặt câu hỏi, “Nếu độ lệch chuẩn cùng đơn vị với biến ngẫu nhiên ban đầu, nó có cung cấp thông tin gì về biến ngẫu nhiên đó không?” Câu trả lời là có! Thật vậy, giống như kỳ vọng cho biết vị trí điển hình, độ lệch chuẩn cho biết khoảng biến thiên thường gặp của biến ngẫu nhiên đó. Ta có thể chứng minh chặt chẽ bằng bất đẳng thức Chebyshev:

(18.6.20)\[P\left(X \not\in [\mu_X - \alpha\sigma_X, \mu_X + \alpha\sigma_X]\right) \le \frac{1}{\alpha^2}.\]

Diễn giải bằng lời như sau: ví dụ khi \(\alpha=10\), \(99\%\) số mẫu của bất kỳ biến ngẫu nhiên nào sẽ nằm trong khoảng \(10\) độ lệch chuẩn về 2 phía của giá trị kỳ vọng. Điều này cho ta một cách giải thích trực tiếp các thống kê tóm tắt tiêu chuẩn.

Để thấy sự tinh tế của mệnh đề này, hãy xét lại ví dụ trong đó \(X\) là biến ngẫu nhiên nhận giá trị \(a-2\) với xác suất \(p\), \(a+2\) với xác suất \(p\)\(a\) với xác suất \(1-2p\). Ta có kỳ vọng là \(a\) và độ lệch chuẩn là \(2\sqrt{2p}\). Từ bất đẳng thức Chebyshev :eqref:eq_chebyshev với \(\alpha = 2\), ta có

(18.6.21)\[P\left(X \not\in [a - 4\sqrt{2p}, a + 4\sqrt{2p}]\right) \le \frac{1}{4}.\]

Điều này có nghĩa là trong \(75\%\) số lần lấy mẫu, biến ngẫu nhiên sẽ rơi vào khoảng trên, bất kể giá trị của \(p\). Bây giờ, hãy lưu ý rằng khi \(p \rightarrow 0\), thì khoảng này cũng hội tụ đến điểm duy nhất là \(a\). Tuy nhiên biến ngẫu nhiên chỉ nhận các giá trị \(a-2, a\)\(a+2\) nên \(a-2\)\(a+2\) chắc chắn sẽ nằm ngoài khoảng này! Câu hỏi đặt ra là giá trị \(p\) bằng bao nhiêu để \(a-2\)\(a+2\) nằm trong khoảng đó? Ta cần giải phương trình: \(a+4\sqrt{2p} = a+2\) để ra nghiệm \(p=1/8\), đó chính xác là giá trị \(p\) nhỏ nhất thỏa mãn yêu cầu rằng không quá \(1/4\) số mẫu nằm ngoài khoảng (\(1/8\) về phía trái và \(1/8\) về phía phải giá trị kỳ vọng).

Hãy cùng trực quan hóa điều này. Chúng ta sẽ đưa ra xác suất nhận được ba giá trị tương ứng là ba thanh dọc có chiều cao tỷ lệ với xác suất. Khoảng trên sẽ được biểu diễn dưới dạng một đường ngang ở giữa. Biểu đồ đầu tiên cho thấy khi \(p> 1/8\), khoảng này chứa hoàn toàn các điểm.

# Define a helper to plot these figures
def plot_chebyshev(a, p):
    d2l.set_figsize()
    d2l.plt.stem([a-2, a, a+2], [p, 1-2*p, p], use_line_collection=True)
    d2l.plt.xlim([-4, 4])
    d2l.plt.xlabel('x')
    d2l.plt.ylabel('p.m.f.')

    d2l.plt.hlines(0.5, a - 4 * np.sqrt(2 * p),
                   a + 4 * np.sqrt(2 * p), 'black', lw=4)
    d2l.plt.vlines(a - 4 * np.sqrt(2 * p), 0.53, 0.47, 'black', lw=1)
    d2l.plt.vlines(a + 4 * np.sqrt(2 * p), 0.53, 0.47, 'black', lw=1)
    d2l.plt.title(f'p = {p:.3f}')

    d2l.plt.show()

# Plot interval when p > 1/8
plot_chebyshev(0.0, 0.2)
../_images/output_random-variables_vn_cbc293_5_0.svg

Biểu đồ thứ hai cho thấy tại \(p = 1/8\), khoảng này tiếp xúc với hai điểm. Khoảng này là vừa đủ, vì không thể chọn khoảng nhỏ hơn mà bất đẳng thức vẫn đúng.

# Plot interval when p = 1/8
plot_chebyshev(0.0, 0.125)
../_images/output_random-variables_vn_cbc293_7_0.svg

Biểu đồ thứ ba cho thấy với \(p < 1/8\) thì khoảng chỉ chứa giá trị trung tâm. Điều này không vi phạm bất đẳng thức vì ta chỉ cần đảm bảo rằng không quá \(1/4\) xác suất nằm ngoài khoảng, trên thực tế khi \(p < 1/8\), biến ngẫu nhiên không thể nhận hai giá trị \(a-2\)\(a+2\).

# Plot interval when p < 1/8
plot_chebyshev(0.0, 0.05)
../_images/output_random-variables_vn_cbc293_9_0.svg

18.6.1.7. Kỳ vọng và Phương sai trên Miền liên tục

Tới giờ ta đều mới chỉ xét biến ngẫu nhiên rời rạc, tuy nhiên trường hợp biến ngẫu nhiên liên tục cũng tương tự. Để hiểu cách hoạt động của các biến liên tục một cách trực quan, hãy tưởng tượng ta chia trục số nguyên thành nhiều khoảng với độ dài \(\epsilon\) trong khoảng \([\epsilon i, \epsilon (i+1)]\). Sau khi thực hiện điều này, biến ngẫu nhiên liên tục trên trở thành dạng rời rạc và ta có thể áp dụng (18.6.14) dưới dạng:

(18.6.22)\[\begin{split}\begin{aligned} \mu_X & \approx \sum_{i} (\epsilon i)P(X \in (\epsilon i, \epsilon (i+1)]) \\ & \approx \sum_{i} (\epsilon i)p_X(\epsilon i)\epsilon, \\ \end{aligned}\end{split}\]

trong đó \(p_X\) là hàm mật độ của \(X\). Đây là xấp xỉ tích phân của \(xp_X(x)\), do đó ta có thể kết luận rằng:

(18.6.23)\[\mu_X = \int_{-\infty}^\infty xp_X(x) \; dx.\]

Tương tự, áp dụng (18.6.16), phương sai có thể được biểu diễn như sau:

(18.6.24)\[\sigma^2_X = E[X^2] - \mu_X^2 = \int_{-\infty}^\infty x^2p_X(x) \; dx - \left(\int_{-\infty}^\infty xp_X(x) \; dx\right)^2.\]

Tất cả những tính chất về kỳ vọng, phương sai và độ lệch chuẩn cho biến ngẫu nhiên rời rạc đều có thể áp dụng trong trường hợp liên tục. Ví dụ, xét biến ngẫu nhiên với hàm mật độ:

(18.6.25)\[\begin{split}p(x) = \begin{cases} 1 & x \in [0,1], \\ 0 & \text{otherwise}. \end{cases}\end{split}\]

ta có thể tính:

(18.6.26)\[\mu_X = \int_{-\infty}^\infty xp(x) \; dx = \int_0^1 x \; dx = \frac{1}{2}.\]

(18.6.27)\[\sigma_X^2 = \int_{-\infty}^\infty x^2p(x) \; dx - \left(\frac{1}{2}\right)^2 = \frac{1}{3} - \frac{1}{4} = \frac{1}{12}.\]

Để lưu ý, hãy quan sát thêm một ví dụ về phân phối Cauchy, với hàm mật độ:

(18.6.28)\[p(x) = \frac{1}{1+x^2}.\]
# Plot the Cauchy distribution p.d.f.
x = np.arange(-5, 5, 0.01)
p = 1 / (1 + x**2)

d2l.plot(x, p, 'x', 'p.d.f.')
../_images/output_random-variables_vn_cbc293_11_0.svg

Hàm này nhìn có vẻ không có vấn đề gì, và quả thật tra cứu bảng tích phân chỉ ra rằng diện tích vùng dưới nó bằng 1, và do đó nó định nghĩa một biến ngẫu nhiên liên tục.

Để xem có vấn đề gì ở đây, hãy thử tính phương sai của hàm này bằng (18.6.16):

(18.6.29)\[\int_{-\infty}^\infty \frac{x^2}{1+x^2}\; dx.\]

Hàm bên trong tích phân có dạng:

# Plot the integrand needed to compute the variance
x = np.arange(-20, 20, 0.01)
p = x**2 / (1 + x**2)

d2l.plot(x, p, 'x', 'integrand')
../_images/output_random-variables_vn_cbc293_13_0.svg

Hàm này rõ ràng có phần diện tích bên dưới là vô hạn do về cơ bản nó là hằng số 1 với một đoạn trũng xuống gần 0, và quả thật:

(18.6.30)\[\int_{-\infty}^\infty \frac{x^2}{1+x^2}\; dx = \infty.\]

Điều này có nghĩa là nó không có một phương sai hữu hạn đúng nghĩa.

Tuy vậy, nếu quan sát kĩ hơn ta có thể thấy một kết quả khó hiểu hơn nhiều. Hãy thử tính kỳ vọng sử dụng (18.6.14). Sử dụng đổi biến, ta được:

(18.6.31)\[\mu_X = \int_{-\infty}^{\infty} \frac{x}{1+x^2} \; dx = \frac{1}{2}\int_1^\infty \frac{1}{u} \; du.\]

Hàm tích phân bên trong chính là định nghĩa của hàm logarit, do đó tích phân này có kết quả \(\log(\infty) = \infty\), nên cũng không tồn tại giá trị kỳ vọng xác định!

Các nhà khoa học học máy định nghĩa mô hình của họ để thường không phải đối mặt với những vấn đề này, và trong đại đa số các trường hợp, ta sẽ xử lý những biến ngẫu nhiên với kỳ vọng và phương sai xác định. Tuy vậy, đôi khi biến ngẫu nhiên với đuôi nặng (heavy tails) (có xác suất thu được các giá trị lớn là đủ lớn để khiến kỳ vọng hay phương sai không xác định) vẫn có ích trong việc mô hình hóa những hệ thống vật lý, vậy nên sự tồn tại của chúng đáng để biết tới.

18.6.1.8. Hàm Mật độ Kết hợp

Toàn bộ phần phía trên đều chỉ xét biến ngẫu nhiên đơn lẻ có giá trị thực. Trường hợp có hai hay nhiều biến ngẫu nhiên hơn, mà thường giữa chúng có mối tương quan cao, thì sao? Tình huống này rất hay gặp trong học máy: tưởng tượng biến ngẫu nhiên \(R_{i, j}\) mã hóa giá trị màu đỏ của điểm ảnh tại toạ độ \((i, j)\) trong một ảnh, hay biến \(P_t\) biểu diễn giá chứng khóan tại thời điểm \(t\). Những điểm ảnh lân cận thường có màu tương tự, và giá tại các thời điểm lân cận thường tương tự. Ta không thể xem chúng như những biến ngẫu nhiên riêng biệt, và cũng không thể xây dựng một mô hình tốt (trong Section 18.9 có ví dụ một mô hình hoạt động kém do giả sử như vậy). Ta cần phát triển lý thuyết toán học để làm việc với những biến ngẫu nhiên liên tục có tương quan với nhau như vậy.

May mắn thay, với tích phân bội trong Section 18.5, ta có thể phát triển một lý thuyết như vậy. Để đơn giản, giả sử ta có hai biến ngẫu nhiên \(X, Y\) có thể tương quan với nhau. Sau đó, tương tự như trường hợp đơn biến, ta có thể đặt câu hỏi:

(18.6.32)\[P(X \;\text{nằm trong khoảng rộng}\; \epsilon \text{xung quanh}\; x \; \text{và} \;Y \;\text{nằm trong khoảng rộng}\; \epsilon \text{xung quanh}\; y ).\]

Suy luận tương tự như trường hợp biến đơn chỉ ra rằng mệnh đề trên có thể xấp xỉ với:

(18.6.33)\[P(X \;\text{nằm trong khoảng rộng}\; \epsilon \text{xung quanh}\; x \; \text{và} \;Y \;\text{nằm trong khoảng rộng}\; \epsilon \text{xung quanh}\; y ) \approx \epsilon^{2}p(x, y),\]

với một hàm \(p(x, y)\) nào đó. Đây được gọi là mật độ kết hợp của \(X\)\(Y\). Những tính chất của hàm mật độ cho biến đơn vẫn đúng cho trường hợp này:

  • \(p(x, y) \ge 0\);
  • \(\int _ {\mathbb{R}^2} p(x, y) \;dx \;dy = 1\);
  • \(P((X, Y) \in \mathcal{D}) = \int _ {\mathcal{D}} p(x, y) \;dx \;dy\).

Bằng cách này, ta có thể làm việc với nhiều biến ngẫu nhiên tương quan với nhau. Nếu số biến ngẫu nhiên nhiều hơn 2, ta có thể mở rộng hàm mật độ nhiều chiều: \(p(\mathbf{x}) = p(x_1, \ldots, x_n)\). Những thuộc tính như không âm, có tổng tích phân bằng một vẫn đúng.

18.6.1.9. Phân phối Biên

Khi làm việc với nhiều biến ngẫu nhiên, ta thường muốn bỏ qua các tương quan và đặt câu hỏi, “biến ngẫu nhiên đơn lẻ này có phân phối như thế nào?” Phân phối như vậy được gọi là phân phối biên (marginal distribution).

Cụ thể, giả sử ta có hai biến ngẫu nhiên \(X, Y\) với mật độ kết hợp \(p _ {X, Y}(x, y)\). Ta sẽ sử dụng chỉ số dưới để chỉ mật độ này của biến ngẫu nhiên nào. Bài toán trở thành sử dụng hàm này để tìm phân phối biên \(p _ X(x)\).

Như đa số trường hợp, hãy đưa ra một bức tranh trực quan để hiểu tường tận khái niệm. Nhắc lại rằng hàm mật độ \(p _ X\) thoả mãn

(18.6.34)\[P(X \in [x, x+\epsilon]) \approx \epsilon \cdot p _ X(x).\]

Hàm này không nhắc đến \(Y\), nhưng nếu ta chỉ có \(p _{X, Y}\), ta cần đưa \(Y\) vào bằng cách nào đó. Đầu tiên ta thấy hàm này giống với:

(18.6.35)\[P(X \in [x, x+\epsilon] \text{, và } Y \in \mathbb{R}) \approx \epsilon \cdot p _ X(x).\]

Trong trường hợp này mật độ không trực tiếp cho ta biết điều gì, ta cũng cần chia \(y\) thành các khoảng nhỏ, do đó ta có thể viết lại hàm này như sau:

(18.6.36)\[\begin{split}\begin{aligned} \epsilon \cdot p _ X(x) & \approx \sum _ {i} P(X \in [x, x+\epsilon] \text{, và } Y \in [\epsilon \cdot i, \epsilon \cdot (i+1)]) \\ & \approx \sum _ {i} \epsilon^{2} p _ {X, Y}(x, \epsilon\cdot i). \end{aligned}\end{split}\]
chapter_appendix-mathematics-for-deep-learning/../img/marginal.svg

Fig. 18.6.1 Bằng cách lấy tổng theo cột trên mảng xác suất, ta có thể thu được phân phối biên cho biến ngẫu nhiên được biểu diễn theo trục \(x\).

Điều này tức là lấy tổng giá trị mật độ trên chuỗi các hình vuông theo cột như trong Fig. 18.6.1. Thật vậy, sau khi khử số hạng epsilon ở cả hai vế, tổng vế phải chính là tích phân theo \(y\) và ta có thể kết luận rằng:

(18.6.37)\[\begin{split}\begin{aligned} p _ X(x) & \approx \sum _ {i} \epsilon p _ {X, Y}(x, \epsilon\cdot i) \\ & \approx \int_{-\infty}^\infty p_{X, Y}(x, y) \; dy. \end{aligned}\end{split}\]

Do đó:

(18.6.38)\[p _ X(x) = \int_{-\infty}^\infty p_{X, Y}(x, y) \; dy.\]

Tức để thu được phân phối biên của một biến, ta cần lấy tích phân trên các biến còn lại. Quá trình này thường được gọi là lấy tích phân - integrating out hay biên hóa - marginalized out những biến không cần thiết.

18.6.1.10. Hiệp phương sai

Khi làm việc với nhiều biến ngẫu nhiên, còn có một thông số thống kê nữa rất có ích: hiệp phương sai (covariance). Thông số này đo mức độ biến thiên cùng nhau của hai biến ngẫu nhiên.

Để bắt đầu, giả sử ta có hai biến ngẫu nhiên rời rạc \(X\)\(Y\), xác suất mang giá trị \((x_i, y_j)\)\(p_{ij}\). Trong trường hợp này, hiệp phương sai được định nghĩa như sau:

(18.6.39)\[\sigma_{XY} = \mathrm{Cov}(X, Y) = \sum_{i, j} (x_i - \mu_X) (y_j-\mu_Y) p_{ij}. = E[XY] - E[X]E[Y].\]

Để hiểu một cách trực quan về công thức trên, xét cặp biến ngẫu nhiên: \(X\) có thể nhận giá trị \(1\)\(3\), và \(Y\) có thể nhận giá trị \(-1\)\(3\). Giả sử ta có các xác suất sau:

(18.6.40)\[\begin{split}\begin{aligned} P(X = 1 \; \text{và} \; Y = -1) & = \frac{p}{2}, \\ P(X = 1 \; \text{và} \; Y = 3) & = \frac{1-p}{2}, \\ P(X = 3 \; \text{và} \; Y = -1) & = \frac{1-p}{2}, \\ P(X = 3 \; \text{và} \; Y = 3) & = \frac{p}{2}, \end{aligned}\end{split}\]

trong đó \(p\) là tham số tùy ý trong đoạn \([0,1]\). Nếu \(p=1\) thì \(X\)\(Y\) luôn đồng thời mang giá trị lớn nhất hoặc nhỏ nhất của chúng, và nếu \(p=0\) thì một biến mang giá trị lớn nhất trong khi biến còn lại mang giá trị nhỏ nhất. Nếu \(p=1/2\) thì bốn khả năng có xác suất xảy ra như nhau, và không liên quan đến nhau. Hãy cùng tính hiệp phương sai. Đầu tiên, \(\mu_X = 2\)\(\mu_Y = 1\), do đó theo (18.6.39):

(18.6.41)\[\begin{split}\begin{aligned} \mathrm{Cov}(X, Y) & = \sum_{i, j} (x_i - \mu_X) (y_j-\mu_Y) p_{ij} \\ & = (1-2)(-1-1)\frac{p}{2} + (1-2)(3-1)\frac{1-p}{2} + (3-2)(-1-1)\frac{1-p}{2} + (3-2)(3-1)\frac{p}{2} \\ & = 4p-2. \end{aligned}\end{split}\]

Khi \(p=1\) (trường hợp mà trong cùng một thời điểm chúng cùng là giá trị lớn nhất hoặc nhỏ nhất) hiệp phương sai bằng \(2\). Khi \(p=0\) (trường hợp mà chúng ngược nhau) hiệp phương sai bằng \(-2\). Cuối cùng, khi \(p=1/2\) (trường hợp chúng không liên quan đến nhau), hiệp phương sai bằng \(0\). Từ đó ta thấy rằng hiệp phương sai biểu thị quan hệ của hai biến ngẫu nhiên này với nhau.

Chú ý là hiệp phương sai chỉ biểu thị mối quan hệ tuyến tính. Các quan hệ phức tạp hơn như \(X = Y^2\), trong đó \(Y\) được chọn ngẫu nhiên với xác suất bằng nhau từ tập \(\{-2, -1, 0, 1, 2\}\), có thể không được thể hiện. Quả thật ta có thể tính được hiệp phương sai của hai biến ngẫu nhiên này bằng không, mặc dù một biến là hàm tất định của biến còn lại.

Với biến ngẫu nhiên liên tục, khái niệm hiệp phương sai không đổi. Lúc này ta đã quen với việc biến đổi giữa miền rời rạc và liên tục, nên chúng tôi sẽ chỉ cung cấp dạng liên tục của (18.6.39) mà không giải thích thêm:

(18.6.42)\[\sigma_{XY} = \int_{\mathbb{R}^2} (x-\mu_X)(y-\mu_Y)p(x, y) \;dx \;dy.\]

Để hiển thị, hãy quan sát tập các biến ngẫu nhiên có hiệp phương sai có thể điều chỉnh được.

# Plot a few random variables adjustable covariance
covs = [-0.9, 0.0, 1.2]
d2l.plt.figure(figsize=(12, 3))
for i in range(3):
    X = np.random.normal(0, 1, 500)
    Y = covs[i]*X + np.random.normal(0, 1, (500))

    d2l.plt.subplot(1, 4, i+1)
    d2l.plt.scatter(X.asnumpy(), Y.asnumpy())
    d2l.plt.xlabel('X')
    d2l.plt.ylabel('Y')
    d2l.plt.title(f'cov = {covs[i]}')
d2l.plt.show()
../_images/output_random-variables_vn_cbc293_15_0.svg

Hãy xem xét một vài tính chất của hiệp phương sai:

  • Với biến ngẫu nhiên \(X\) bất kỳ: \(\mathrm{Cov}(X, X) = \mathrm{Var}(X)\).
  • Với hai biến ngẫu nhiên \(X, Y\) và hai số \(a\), \(b\) bất kỳ: \(\mathrm{Cov}(aX+b, Y) = \mathrm{Cov}(X, aY+b) = a\mathrm{Cov}(X, Y)\).
  • Nếu \(X\)\(Y\) độc lập: \(\mathrm{Cov}(X, Y) = 0\).

Ngoài ra, ta có thể sử dụng hiệp phương sai để mở rộng một hệ thức ta đã thấy trước đó. Hãy nhớ lại nếu \(X\)\(Y\) là hai biến ngẫu nhiên độc lập thì:

(18.6.43)\[\mathrm{Var}(X+Y) = \mathrm{Var}(X) + \mathrm{Var}(Y).\]

Với kiến thức về hiệp phương sai, ta có thể khai triển hệ thức này. Quả nhiên, sử dụng đại số có thể chứng minh tổng quát rằng:

(18.6.44)\[\mathrm{Var}(X+Y) = \mathrm{Var}(X) + \mathrm{Var}(Y) + 2\mathrm{Cov}(X, Y).\]

Công thức này là dạng tổng quát của quy tắc tính tổng phương sai cho các biến ngẫu nhiên tương quan.

18.6.1.11. Độ tương quan

Như trong trường hợp của kỳ vọng và phương sai, hãy xét đến đơn vị. Nếu \(X\) được đo bằng một đơn vị (giả sử là inch), và \(Y\) được đo bởi đơn vị khác (giả sử là đô-la), phương sai được tính bởi tích của hai đơn vị này \(\text{inch} \times \text{đô-la}\). Những đơn vị này khó diễn giải, nên ta muốn có một phép đo sự tương quan mà không phụ thuộc vào đơn vị. Thật vậy, ta thường không quan tâm tới định lượng tương quan một cách chính xác, mà thường muốn biết sự tương quan này cùng hay ngược hướng, và mạnh như thế nào.

Để cắt nghĩa, hãy thực hiện một thí nghiệm tưởng tượng. Giả sử ta chuyển đổi các biến ngẫu nhiên có đơn vị inch và đô-la thành inch và xu. Trong trường hợp này biến ngẫu nhiên \(Y\) được nhân thêm \(100\). Theo định nghĩa, \(\mathrm{Cov}(X, Y)\) cũng sẽ được nhân thêm \(100\). Như vậy sự thay đổi đơn vị làm tăng hiệp phương sai \(100\) lần. Do đó, để có độ tương quan không phụ thuộc vào đơn vị, ta cần chia cho một đại lượng nào đó cũng được tăng thêm \(100\) lần. Một lựa chọn rõ ràng chính là độ lệch chuẩn! Có thể định nghĩa hệ số tương quan - correlation coefficient như sau:

(18.6.45)\[\rho(X, Y) = \frac{\mathrm{Cov}(X, Y)}{\sigma_{X}\sigma_{Y}},\]

ta thấy đây là giá trị không phụ thuộc vào đơn vị. Một chút toán có thể chứng minh rằng \(\rho(X, Y)\) nằm giữa \(-1\)\(1\) với \(1\) ứng với tương quan cực đại dương, còn \(-1\) ứng với tương quan cực đại âm.

Quay lại ví dụ ở miền rời rạc phía trên, ta có \(\sigma_X = 1\)\(\sigma_Y = 2\), và tương quan giữa hai biến ngẫu nhiên có thể tính bằng (18.6.45):

(18.6.46)\[\rho(X, Y) = \frac{4p-2}{1\cdot 2} = 2p-1.\]

Đại lượng này bây giờ nằm trong khoảng \(-1\)\(1\) với \(1\) nghĩa là tương quan dương nhiều nhất, \(-1\) nghĩa là tương quan âm nhiều nhất.

Một ví dụ khác, xét biến ngẫu nhiên \(X\) bất kỳ, và \(Y=aX+b\) là một hàm tuyến tính tất định của \(X\). Ta có:

(18.6.47)\[\sigma_{Y} = \sigma_{aX+b} = |a|\sigma_{X},\]
(18.6.48)\[\mathrm{Cov}(X, Y) = \mathrm{Cov}(X, aX+b) = a\mathrm{Cov}(X, X) = a\mathrm{Var}(X),\]

và do đó theo (18.6.45) ta có:

(18.6.49)\[\rho(X, Y) = \frac{a\mathrm{Var}(X)}{|a|\sigma_{X}^2} = \frac{a}{|a|} = \mathrm{sign}(a).\]

Ta thấy rằng độ tương quan là \(+1\) cho \(a > 0\), và \(-1\) cho \(a < 0\), tức độ tương quan đo mức độ và hướng của sự tương quan giữa hai biến ngẫu nhiên, không phải tỷ lệ biến đổi.

Ta hãy minh họa một vài biến ngẫu nhiên với tương quan có thể điều chỉnh.

# Plot a few random variables adjustable correlations
cors = [-0.9, 0.0, 1.0]
d2l.plt.figure(figsize=(12, 3))
for i in range(3):
    X = np.random.normal(0, 1, 500)
    Y = cors[i] * X + np.sqrt(1 - cors[i]**2) * np.random.normal(0, 1, 500)

    d2l.plt.subplot(1, 4, i + 1)
    d2l.plt.scatter(X.asnumpy(), Y.asnumpy())
    d2l.plt.xlabel('X')
    d2l.plt.ylabel('Y')
    d2l.plt.title(f'cor = {cors[i]}')
d2l.plt.show()
../_images/output_random-variables_vn_cbc293_17_0.svg

Ta liệt kê một vài tính chất của tương quan:

  • Với biến ngẫu nhiên \(X\) bất kỳ, \(\rho(X, X) = 1\).
  • Với hai biến ngẫu nhiên \(X, Y\) và hai số \(a\), \(b\) bất kỳ, \(\rho(aX+b, Y) = \rho(X, aY+b) = \rho(X, Y)\).
  • Nếu \(X\)\(Y\) độc lập với phương sai khác không: \(\rho(X, Y) = 0\).

Lưu ý cuối cùng, bạn có thể thấy rằng một vài công thức trên khá quen thuộc. Quả thật, nếu khai triển tất cả với giả định \(\mu_X = \mu_Y = 0\), ta có:

(18.6.50)\[\rho(X, Y) = \frac{\sum_{i, j} x_iy_ip_{ij}}{\sqrt{\sum_{i, j}x_i^2 p_{ij}}\sqrt{\sum_{i, j}y_j^2 p_{ij}}}.\]

Đây giống như tổng của tích các số hạng chia cho căn bặc hai của tổng bình phương các số hạng. Đó chính xác là công thức cho cô-sin của góc giữa hai vector \(\mathbf{v}, \mathbf{w}\) với trọng số tọa độ \(p_{ij}\):

(18.6.51)\[\cos(\theta) = \frac{\mathbf{v}\cdot \mathbf{w}}{\|\mathbf{v}\|\|\mathbf{w}\|} = \frac{\sum_{i} v_iw_i}{\sqrt{\sum_{i}v_i^2}\sqrt{\sum_{i}w_i^2}}.\]

Quả thật nếu nghĩ chuẩn (norm) liên quan tới độ lệch chuẩn, và độ tương quan là cô-sin của các góc, các trực giác ta có từ hình học có thể được áp dụng để tư duy về các biến ngẫu nhiên.

18.6.2. Tóm tắt

  • Biến ngẫu nhiên liên tục là các biến ngẫu nhiên có thể lấy một dãy các giá trị liên tục. Chúng có một vài cản trở kỹ thuật khó giải quyết hơn so với biến ngẫu nhiên rời rạc.
  • Hàm mật độ xác suất cho phép làm việc với các biến ngẫu nhiên liên tục bằng một hàm số mà diện tích dưới đường cong ở một khoảng là xác suất tìm được một mẫu trong khoảng đó.
  • Hàm phân phối tích lũy là xác suất biến ngẫu nhiên nhận giá trị nhỏ hơn một ngưỡng nhất định. Đây là một góc nhìn hữu ích để hợp nhất các biến rời rạc và liên tục.
  • Kỳ vọng là giá trị trung bình của một biến ngẫu nhiên.
  • Phương sai là trung bình bình phương sự chênh lệch giữa biến ngẫu nhiên và kỳ vọng của nó.
  • Độ lệch chuẩn là căn bậc hai của phương sai, được dùng để đo phạm vi giá trị mà biến ngẫu nhiên có thể nhận.
  • Bất đẳng thức Chebyshev chặt chẽ hóa điều này bằng cách đưa ra một khoảng tường minh mà hầu hết các giá trị của biến ngẫu nhiên sẽ rơi vào.
  • Mật độ kết hợp (joint density) cho phép ta làm việc với các biến ngẫu nhiên tương quan. Ta có thể biên hóa mật độ kết hợp bằng cách lấy tích phân theo các biến ngẫu nhiên khác để thu được phân phối của biến ngẫu nhiên mong muốn.
  • Hiệp phương sai và hệ số tương quan là một cách đo bất kỳ mối quan hệ tuyến tính nào giữa hai biến ngẫu nhiên tương quan.

18.6.3. Bài tập

  1. Giả sử ta có biến ngẫu nhiên với mật độ \(p(x) = \frac{1}{x^2}\) nếu \(x \ge 1\), ngược lại \(p(x) = 0\). Tính \(P(X > 2)\).
  2. Phân phối Laplace là một biến ngẫu nhiên có mật độ \(p(x = \frac{1}{2}e^{-|x|}\). Tính kỳ vọng và độ lệch chuẩn của biến ngẫu nhiên này. Gợi ý \(\int_0^\infty xe^{-x} \; dx = 1\)\(\int_0^\infty x^2e^{-x} \; dx = 2\).
  3. Tôi nói “Tôi có một biến ngẫu nhiên với kỳ vọng là \(1\), độ lệch chuẩn là \(2\), và tôi quan sát thấy \(25\%\) các mẫu của tôi có giá trị lớn hơn \(9\).” Bạn có tin tôi không? Tại sao?
  4. Giả sử bạn có hai biến ngẫu nhiên \(X, Y\), với mật độ kết hợp \(p_{XY}(x, y) = 4xy\) nếu \(x, y \in [0,1]\), ngược lại \(p_{XY}(x, y) = 0\). Hiệp phương sai của \(X\)\(Y\) là bao nhiêu?

18.6.4. Thảo luận

18.6.5. Những người thực hiện

Bản dịch trong trang này được thực hiện bởi:

  • Đoàn Võ Duy Thanh
  • Nguyễn Mai Hoàng Long
  • Phạm Đăng Khoa
  • Đỗ Trường Giang
  • Trần Yến Thy
  • Lê Khắc Hồng Phúc
  • Phạm Hồng Vinh
  • Phạm Minh Đức
  • Nguyễn Văn Cường