18.3. Giải tích một biến¶

Trong Section 2.4, chúng ta đã thấy những thành phần cơ bản của giải tích vi phân. Trong mục này chúng ta sẽ đi sâu vào kiến thức nền tảng của giải tích và cách áp dụng chúng trong trong ngữ cảnh học máy.

18.3.1. Giải tích Vi phân¶

Giải tích vi phân là nhánh toán học nghiên cứu về hành vi của các hàm số dưới các biến đổi nhỏ. Để thấy được tại sao đây lại là phần cốt lõi của học sâu, hãy cùng xem xét một ví dụ dưới đây.

Giả sử chúng ta có một mạng nơ-ron sâu với các trọng số được biễu diễn bằng một vector duy nhất \(\mathbf{w} = (w_1, \ldots, w_n)\). Cho trước một tập huấn luyện, chúng ta sẽ tập trung vào giá trị mất mát \(\mathcal{L}(\mathbf{w})\) của mạng nơ-ron trên tập huấn luyện đó.

Đây là một hàm số cực kì phức tạp, biểu diễn chất lượng của tất cả các mô hình khả dĩ của một cấu trúc mạng cho trước trên tập dữ liệu này, nên gần như không thể chỉ ra được ngay một tập các trọng số \(\mathbf{w}\) để cực tiểu hóa mất mát. Do vậy trên thực tế, chúng ta thường bắt đầu bằng việc khởi tạo ngẫu nhiên các trọng số, và tiến từng bước nhỏ theo hướng mà sẽ giảm giá trị mất mát nhanh nhất có thể.

Vấn đề bây giờ thoạt nhìn cũng không dễ hơn bao nhiêu: làm thế nào để tìm được hướng đi sẽ giảm giá trị hàm mất mát nhanh nhất có thể? Để trả lời câu hỏi này, trước hết ta hãy xét trường hợp chỉ có một trọng số: \(L(\mathbf{w}) = L(x)\) với một số thực \(x\) duy nhất.

Hãy cùng tìm hiểu xem chuyện gì sẽ xảy ra khi ta lấy giá trị \(x\) và thay đổi nó với một lượng rất nhỏ thành \(x + \epsilon\). Nếu bạn muốn một con số rõ ràng, hãy nghĩ về một số như \(\epsilon = 0.0000001\). Để minh họa chuyện gì sẽ diễn ra, hãy vẽ ví dụ đồ thị của hàm số \(f(x) = \sin(x^x)\), trên khoảng \([0, 3]\).

%matplotlib inline
from d2l import mxnet as d2l
from IPython import display
from mxnet import np, npx
npx.set_np()
# Plot a function in a normal range
x_big = np.arange(0.01, 3.01, 0.01)
ys = np.sin(x_big**x_big)
d2l.plot(x_big, ys, 'x', 'f(x)')

Trong một khoảng lớn thế này, cách hàm số biến đổi rất khó nắm bắt. Tuy nhiên, nếu ta thu nhỏ khoảng xuống ví dụ như thành \([1.75,2.25]\), ta thấy đồ thị trở nên đơn giản hơn rất nhiều.

# Plot a the same function in a tiny range
x_med = np.arange(1.75, 2.25, 0.001)
ys = np.sin(x_med**x_med)
d2l.plot(x_med, ys, 'x', 'f(x)')

Đỉnh điểm, nếu ta phóng gần vào một đoạn rất nhỏ, cách hàm số biến đổi trở nên đơn giản hơn rất nhiều: chỉ là một đường thẳng.

# Plot a the same function in a tiny range
x_small = np.arange(2.0, 2.01, 0.0001)
ys = np.sin(x_small**x_small)
d2l.plot(x_small, ys, 'x', 'f(x)')

Đây là một trong những quan sát cốt lõi nhất trong giải tích: hành vi của các hàm số phổ biến có thể được mô hình hóa bằng một đường thẳng trên một khoảng đủ nhỏ. Điều này nghĩa là với hầu hết các hàm số, chúng ta có thể trông đợi rằng khi dịch chuyển \(x\) một khoảng nhỏ, \(f(x)\) cũng sẽ dịch chuyển một khoảng nhỏ. Câu hỏi duy nhất mà chúng ta cần trả lời là “Sự thay đổi của giá trị đầu ra lớn gấp bao nhiêu lần so với sự thay đổi của giá trị đầu vào? Bằng một nửa? Hay sẽ lớn gấp đôi?”

Ta cũng có thể xét nó như tỷ lệ giữa sự thay đổi của đầu ra so với sự thay đổi nhỏ trong đầu vào của một hàm số. Chúng ta có thể biễu diễn nó dưới dạng toán học là:

(18.3.1)¶\[\frac{L(x+\epsilon) - L(x)}{(x+\epsilon) - x} = \frac{L(x+\epsilon) - L(x)}{\epsilon}.\]

Những kiến thức trên đã đủ để chúng ta bắt đầu thực hành lập trình. Ví dụ, giả sử \(L(x) = x^{2} + 1701(x-4)^3\), ta có thể biết được độ lớn của giá trị này tại điểm \(x = 4\) như sau:

# Define our function
def L(x):
    return x**2 + 1701*(x-4)**3
# Print the difference divided by epsilon for several epsilon
for epsilon in [0.1, 0.001, 0.0001, 0.00001]:
    print(f'epsilon = {epsilon:.5f} -> {(L(4+epsilon) - L(4)) / epsilon:.5f}')

epsilon = 0.10000 -> 25.11000
epsilon = 0.00100 -> 8.00270
epsilon = 0.00010 -> 8.00012
epsilon = 0.00001 -> 8.00001

Nếu để ý kĩ, chúng ta sẽ nhận ra rằng kết quả của con số này xấp xỉ \(8\). Trong trường hợp ta giảm \(\epsilon\) thì giá trị đầu ra ngày càng tiến gần đến \(8\). Vì vậy chúng ta có thể kết luận một cách chính xác, rằng mức độ thay đổi của đầu ra khi đầu vào thay đổi là \(8\) tại điểm \(x=4\). Có thể viết dưới dạng toán học như sau:

(18.3.2)¶\[\lim_{\epsilon \rightarrow 0}\frac{L(4+\epsilon) - L(4)}{\epsilon} = 8.\]

Một chút bàn luận ngoài lề về lịch sử: trong những thập kỷ đầu tiên của các nghiên cứu mạng nơ-ron, các nhà khoa học đã sử dụng thuật toán này (sai phân hữu hạn - finite differences) để đánh giá một hàm mất mát dưới các nhiễu loạn nhỏ: chỉ cần thay đổi trọng số và xem cách thức mà hàm mất mát thay đổi. Đây là một cách tính toán không hiệu quả, đòi hỏi đến hai lần tính hàm mất mát để thấy được sự tác động của một thay đổi lên hàm mất mát đó. Thậm chí nếu chúng ta sử dụng phương pháp này với vài nghìn tham số nhỏ, nó cũng sẽ đòi hỏi phải chạy mạng nơ-ron hàng nghìn lần trên toàn bộ dữ liệu. Phải đến năm 1986 thì vấn đề này với được giải quyết khi thuật toán lan truyền ngược (backpropagation algorithm) được giới thiệu ở [Rumelhart et al., 1988] đã đem đến một giải pháp để tính toán sức ảnh hưởng của những thay đổi bất kỳ từ các trọng số lên hàm mất mát với thời gian tính toán chỉ bằng thời gian mô hình đưa ra dự đoán trên tập dữ liệu.

Quay lại với ví dụ của chúng ta, giá trị \(8\) này biến thiên với các trị khác nhau của \(x\), vậy nên sẽ là hợp lý nếu chúng ta định nghĩa nó như là một hàm của \(x\). Một cách chính thống hơn, độ biến thiên của giá trị này được gọi là đạo hàm và được viết là:

(18.3.3)¶\[\frac{df}{dx}(x) = \lim_{\epsilon \rightarrow 0}\frac{f(x+\epsilon) - f(x)}{\epsilon}.\]

Các văn bản khác nhau sẽ sử dụng các ký hiệu khác nhau cho đạo hàm. Chẳng hạn, tất cả các ký hiệu dưới đây đều diễn giải cùng một ý nghĩa:

(18.3.4)¶\[\frac{df}{dx} = \frac{d}{dx}f = f' = \nabla_xf = D_xf = f_x.\]

Phần lớn các tác giả sẽ chọn một ký hiệu duy nhất để sử dụng xuyên suốt, tuy nhiên không phải lúc nào điều này cũng được đảm bảo. Tốt hơn hết là chúng ta nên làm quen với tất cả các ký hiệu này. Ký hiệu \(\frac{df}{dx}\) sẽ được sử dụng trong toàn bộ cuốn sách này, trừ trường hợp chúng ta cần lấy đạo hàm của một biểu thức phức tạp, khi đó chúng ta sẽ sử dụng \(\frac{d}{dx}f\) để biểu diễn những biểu thức như

(18.3.5)¶\[\frac{d}{dx}\left[x^4+\cos\left(\frac{x^2+1}{2x-1}\right)\right].\]

Đôi khi, việc sử dụng định nghĩa của đạo hàm (18.3.3) để thấy một cách trực quan cách một hàm thay đổi khi \(x\) thay đổi một khoảng nhỏ là rất hữu ích:

(18.3.6)¶\[\begin{split}\begin{aligned} \frac{df}{dx}(x) = \lim_{\epsilon \rightarrow 0}\frac{f(x+\epsilon) - f(x)}{\epsilon} & \implies \frac{df}{dx}(x) \approx \frac{f(x+\epsilon) - f(x)}{\epsilon} \\ & \implies \epsilon \frac{df}{dx}(x) \approx f(x+\epsilon) - f(x) \\ & \implies f(x+\epsilon) \approx f(x) + \epsilon \frac{df}{dx}(x). \end{aligned}\end{split}\]

Cần phải nói rõ hơn về phương trình cuối cùng. Nó cho chúng ta biết rằng nếu ta chọn một hàm số bất kỳ và thay đổi đầu vào một lượng nhỏ, sự thay đổi của đầu ra sẽ bằng với lượng nhỏ đó nhân với đạo hàm.

Bằng cách này, chúng ta có thể hiểu đạo hàm là hệ số tỷ lệ cho biết mức độ biến thiên của đầu ra khi đầu vào thay đổi.

18.3.2. Quy tắc Giải tích¶

Bây giờ chúng ta sẽ học cách để tính đạo hàm của một hàm cụ thể. Dạy giải tích một cách chính quy sẽ phải chứng minh lại tất cả mọi thứ từ những định đề căn bản nhất. Tuy nhiên chúng tôi sẽ không làm như vậy mà sẽ cung cấp các quy tắc tính đạo hàm phổ biến thường gặp.

18.3.2.1. Các Đạo hàm phổ biến¶

Như ở Section 2.4, khi tính đạo hàm ta có thể sử dụng một chuỗi các quy tắc để chia nhỏ tính toán thành các hàm cơ bản. Chúng tôi sẽ nhắc lại chúng ở đây để bạn đọc dễ tham khảo.

Đạo hàm hằng số: \(\frac{d}{dx}c = 0\).
Đạo hàm hàm tuyến tính: \(\frac{d}{dx}(ax) = a\).
Quy tắc lũy thừa: \(\frac{d}{dx}x^n = nx^{n-1}\).
Đạo hàm hàm mũ cơ số tự nhiên: \(\frac{d}{dx}e^x = e^x\).
Đạo hàm hàm logarit cơ số tự nhiên: \(\frac{d}{dx}\log(x) = \frac{1}{x}\).

18.3.2.2. Các Quy tắc tính Đạo hàm¶

Nếu mọi đạo hàm cần được tính một cách riêng biệt và lưu vào một bảng, giải tích vi phân sẽ gần như bất khả thi. Toán học đã mang lại một món quà giúp tổng quát hóa các đạo hàm ở phần trên và giúp tính các đạo hàm phức tạp hơn như đạo hàm của \(f(x) = \log\left(1+(x-1)^{10}\right)\). Như được đề cập trong Section 2.4, chìa khóa để thực hiện việc này là hệ thống hóa việc tính đạo hàm cho các hàm kết hợp theo nhiều cách: tổng, tích và hợp.

Quy tắc tổng. \(\frac{d}{dx}\left(g(x) + h(x)\right) = \frac{dg}{dx}(x) + \frac{dh}{dx}(x)\).
Quy tắc tích. \(\frac{d}{dx}\left(g(x)\cdot h(x)\right) = g(x)\frac{dh}{dx}(x) + \frac{dg}{dx}(x)h(x)\).
Quy tắc dây chuyền. \(\frac{d}{dx}g(h(x)) = \frac{dg}{dh}(h(x))\cdot \frac{dh}{dx}(x)\).

Cùng xem chúng ta có thể sử dụng (18.3.6) như thế nào để hiểu những quy tắc này. Với quy tắc tổng, xét chuỗi biến đổi sau đây:

(18.3.7)¶\[\begin{split}\begin{aligned} f(x+\epsilon) & = g(x+\epsilon) + h(x+\epsilon) \\ & \approx g(x) + \epsilon \frac{dg}{dx}(x) + h(x) + \epsilon \frac{dh}{dx}(x) \\ & = g(x) + h(x) + \epsilon\left(\frac{dg}{dx}(x) + \frac{dh}{dx}(x)\right) \\ & = f(x) + \epsilon\left(\frac{dg}{dx}(x) + \frac{dh}{dx}(x)\right). \end{aligned}\end{split}\]

Đồng nhất hệ số với \(f(x+\epsilon) \approx f(x) + \epsilon \frac{df}{dx}(x)\), ta có \(\frac{df}{dx}(x) = \frac{dg}{dx}(x) + \frac{dh}{dx}(x)\) như mong đợi. Một cách trực quan, ta có thể giải thích như sau: khi thay đổi đầu vào \(x\), \(g\) và \(h\) cùng đóng góp tới sự thay đổi của \(\frac{dg}{dx}(x)\) và \(\frac{dh}{dx}(x)\) ở đầu ra.

Đối với quy tắc tích thì phức tạp hơn một chút và đòi hỏi một quan sát mới khi xử lý các biểu thức này. Cũng giống như trước, ta bắt đầu bằng (18.3.6):

(18.3.8)¶\[\begin{split}\begin{aligned} f(x+\epsilon) & = g(x+\epsilon)\cdot h(x+\epsilon) \\ & \approx \left(g(x) + \epsilon \frac{dg}{dx}(x)\right)\cdot\left(h(x) + \epsilon \frac{dh}{dx}(x)\right) \\ & = g(x)\cdot h(x) + \epsilon\left(g(x)\frac{dh}{dx}(x) + \frac{dg}{dx}(x)h(x)\right) + \epsilon^2\frac{dg}{dx}(x)\frac{dh}{dx}(x) \\ & = f(x) + \epsilon\left(g(x)\frac{dh}{dx}(x) + \frac{dg}{dx}(x)h(x)\right) + \epsilon^2\frac{dg}{dx}(x)\frac{dh}{dx}(x). \\ \end{aligned}\end{split}\]

Việc này giống với những tính toán trước đây, và dễ thấy kết quả của ta (\(\frac{df}{dx}(x) = g(x)\frac{dh}{dx}(x) + \frac{dg}{dx}(x)h(x)\)) là số hạng được nhân với \(\epsilon\), nhưng vấn đề là ở số hạng nhân với giá trị \(\epsilon^{2}\). Chúng ta sẽ gọi số hạng này là số hạng bậc cao, bởi số mũ của \(\epsilon^2\) cao hơn số mũ của \(\epsilon^1\). Về sau ta sẽ thấy rằng thi thoảng ta muốn giữ các số hạng này, tuy nhiên hiện tại có thể thấy rằng nếu \(\epsilon = 0.0000001\), thì \(\epsilon^{2}= 0.0000000000001\), là một số nhỏ hơn rất nhiều. Khi đưa \(\epsilon \rightarrow 0\), ta có thể bỏ qua các số hạng bậc cao. Ta sẽ quy ước sử dụng “\(\approx\)” để ký hiệu rằng hai số hạng bằng nhau với sai số là các thành phần bậc cao. Nếu muốn biểu diễn chính quy hơn, ta có thể xét phương trình

(18.3.9)¶\[\frac{f(x+\epsilon) - f(x)}{\epsilon} = g(x)\frac{dh}{dx}(x) + \frac{dg}{dx}(x)h(x) + \epsilon \frac{dg}{dx}(x)\frac{dh}{dx}(x),\]

và thấy rằng khi \(\epsilon \rightarrow 0\), số hạng bên phải cũng tiến về không.

Cuối cùng, với quy tắc dây chuyền, ta vẫn có thể tiếp tục khai triển sử dụng (18.3.6) và thấy rằng:

(18.3.10)¶\[\begin{split}\begin{aligned} f(x+\epsilon) & = g(h(x+\epsilon)) \\ & \approx g\left(h(x) + \epsilon \frac{dh}{dx}(x)\right) \\ & \approx g(h(x)) + \epsilon \frac{dh}{dx}(x) \frac{dg}{dh}(h(x))\\ & = f(x) + \epsilon \frac{dg}{dh}(h(x))\frac{dh}{dx}(x). \end{aligned}\end{split}\]

Chú ý là ở dòng thứ hai trong chuỗi khai triển trên, chúng ta đã xem đối số \(h(x)\) của hàm \(g\) như là bị dịch đi bởi một lượng rất nhỏ \(\epsilon \frac{dh}{dx}(x)\).

Các quy tắc này cung cấp cho chúng ta một tập hợp các công cụ linh hoạt để tính toán đạo hàm của hầu như bất kỳ biểu thức nào ta muốn. Chẳng hạn như trong ví dụ sau:

(18.3.11)¶\[\begin{split}\begin{aligned} \frac{d}{dx}\left[\log\left(1+(x-1)^{10}\right)\right] & = \left(1+(x-1)^{10}\right)^{-1}\frac{d}{dx}\left[1+(x-1)^{10}\right]\\ & = \left(1+(x-1)^{10}\right)^{-1}\left(\frac{d}{dx}[1] + \frac{d}{dx}[(x-1)^{10}]\right) \\ & = \left(1+(x-1)^{10}\right)^{-1}\left(0 + 10(x-1)^9\frac{d}{dx}[x-1]\right) \\ & = 10\left(1+(x-1)^{10}\right)^{-1}(x-1)^9 \\ & = \frac{10(x-1)^9}{1+(x-1)^{10}}. \end{aligned}\end{split}\]

Mỗi dòng của ví dụ này đã sử dụng các quy tắc sau:

Quy tắc dây chuyền và công thức đạo hàm của hàm logarit.
Quy tắc đạo hàm của tổng.
Đạo hàm của hằng số, quy tắc dây chuyền, và quy tắc đạo hàm của lũy thừa.
Quy tắc đạo hàm của tổng, đạo hàm của hàm tuyến tính, đạo hàm của hằng số.

Từ ví dụ trên, chúng ta có thể dễ dàng rút ra được hai điều:

Chúng ta có thể lấy đạo hàm của bất kỳ hàm số nào mà có thể diễn tả được bằng tổng, tích, hằng số, lũy thừa, hàm mũ, và hàm logarit bằng cách sử dụng những quy tắc trên một cách máy móc.
Quá trình dùng những quy tắc này để tính đạo hàm bằng tay có thể sẽ rất tẻ nhạt và dễ mắc lỗi.

Rất may là hai điều này gộp chung lại gợi ý cho chúng ta một hướng phát triển: đây chính là cơ hội lý tưởng để tự động hóa bằng máy tính! Thật vậy, kỹ thuật lan truyền ngược, mà chúng ta sẽ gặp lại sau ở mục này, là một cách hiện thực hóa ý tưởng này.

18.3.2.3. Xấp xỉ Tuyến tính¶

Thông thường khi làm việc với đạo hàm, sẽ rất hữu ích nếu chúng ta có thể diễn tả sự xấp xỉ ở trên theo phương diện hình học. Nói một cách cụ thể, phương trình này

(18.3.12)¶\[f(x+\epsilon) \approx f(x) + \epsilon \frac{df}{dx}(x),\]

xấp xỉ giá trị của \(f\) bằng một đường thẳng đi qua điểm \((x, f(x))\) và có độ dốc \(\frac{df}{dx}(x)\). Với cách hiểu này, ta nói rằng đạo hàm cho ta một xấp xỉ tuyến tính của hàm số \(f\), như minh họa dưới đây:

# Compute sin
xs = np.arange(-np.pi, np.pi, 0.01)
plots = [np.sin(xs)]
# Compute some linear approximations. Use d(sin(x)) / dx = cos(x)
for x0 in [-1.5, 0, 2]:
    plots.append(np.sin(x0) + (xs - x0) * np.cos(x0))
d2l.plot(xs, plots, 'x', 'f(x)', ylim=[-1.5, 1.5])

18.3.2.4. Đạo hàm Cấp cao¶

Bây giờ, hãy cùng làm một việc mà nhìn sơ qua thì có vẻ kỳ quặc. Bắt đầu bằng việc lấy một hàm số \(f\) và tính đạo hàm \(\frac{df}{dx}\). Nó sẽ cho chúng ta tốc độ thay đổi của \(f\) tại bất cứ điểm nào.

Tuy nhiên, vì bản thân đạo hàm \(\frac{df}{dx}\) cũng là một hàm số, không có gì ngăn cản chúng ta tiếp tục tính đạo hàm của \(\frac{df}{dx}\) để có \(\frac{d^2f}{dx^2} = \frac{df}{dx}\left(\frac{df}{dx}\right)\). Chúng ta sẽ gọi đây là đạo hàm cấp hai của \(f\). Hàm số này là tốc độ thay đổi của tốc độ thay đổi của \(f\), hay nói cách khác, nó thể hiện tốc độ thay đổi của \(f\) đang thay đổi như thế nào. Chúng ta có thể tiếp tục lấy đạo hàm như vậy thêm nhiều lần nữa để có được thứ gọi là đạo hàm cấp \(n\). Để ký hiệu được gọn gàng, chúng ta sẽ biểu thị đạo hàm cấp \(n\) như sau:

(18.3.13)¶\[f^{(n)}(x) = \frac{d^{n}f}{dx^{n}} = \left(\frac{d}{dx}\right)^{n} f.\]

Hãy tìm hiểu xem tại sao đây lại là một khái niệm hữu ích. Các hàm số \(f^{(2)}(x)\), \(f^{(1)}(x)\), và \(f(x)\) được biểu diễn trong các đồ thị dưới đây.

Đầu tiên, xét trường hợp đạo hàm bậc hai \(f^{(2)}(x)\) là một hằng số dương. Điều này nghĩa là độ dốc của đạo hàm bậc nhất là dương. Hệ quả là, đạo hàm bậc nhất \(f^{(1)}(x)\) có thể khởi đầu ở âm, bằng không tại một điểm nào đó, rồi cuối cùng tăng lên dương. Điều này cho chúng ta biết độ dốc của hàm \(f\) ban đầu và do đó, giá trị hàm \(f\) sẽ giảm xuống đến điểm nào đó rồi tăng lên. Nói cách khác, đồ thị hàm \(f\) là đường cong đi lên, có một cực tiểu như trong Fig. 18.3.1.

Fig. 18.3.1 Nếu giả định rằng đạo hàm bậc hai là một hằng số dương, thì đạo hàm bậc nhất đồng biến, nghĩa là bản thân hàm đó có một cực tiểu.¶

Thứ hai là, nếu đạo hàm bậc hai là một hằng số âm, nghĩa là đạo hàm bậc nhất nghịch biến. Vậy tức là đạo hàm bậc nhất có thể khời đầu là dương, bằng không ở điểm nào đó, rồi giảm xuống âm. Do vậy, giá trị hàm \(f\) tăng lên đến điểm nào đó rồi giảm xuống. Nói cách khác, đồ thị hàm \(f\) là đường cong đi xuống, có một cực đại như trong Fig. 18.3.2.

Fig. 18.3.2 Nếu giả định đạo hàm bậc hai là một hằng số âm, thì đạo hàm bậc nhất nghịch biến, nghĩa là hàm số có một cực đại.¶

Thứ ba là, nếu đạo hàm bậc hai luôn luôn bằng không, thì đạo hàm bậc nhất là hằng số! Nghĩa là hàm \(f\) tăng (hoặc giảm) với tốc độ cố định, và đồ thị \(f\) là một đường thẳng giống như trong Fig. 18.3.3.

Fig. 18.3.3 Nếu ta giả định đạo hàm bậc hai bằng không, thì đạo hàm bậc nhất là hằng số, nên đồ thị hàm này là một đường thẳng.¶

Tóm lại, đạo hàm bậc hai có thể được hiểu như một cách miêu tả đường cong của đồ thị hàm \(f\). Đạo hàm bậc hai dương thì đồ thị cong lên, đạo hàm bậc hai âm thì hàm \(f\) cong xuống, và nếu bằng không thì \(f\) là một đường thẳng.

Hãy thử tiến xa hơn một bước. Xét hàm \(g(x) = ax^{2}+ bx + c\). Ta có thể tính được

(18.3.14)¶\[\begin{split}\begin{aligned} \frac{dg}{dx}(x) & = 2ax + b \\ \frac{d^2g}{dx^2}(x) & = 2a. \end{aligned}\end{split}\]

Nếu đã có sẵn một hàm \(f(x)\), ta có thể tính đạo hàm cấp một và cấp hai của nó để tìm các giá trị \(a, b\), và \(c\) thỏa mãn hệ phương trình này. Cũng giống như ở mục trước ta đã thấy đạo hàm bậc một cho ra xấp xỉ tốt nhất bằng một đường thẳng, đạo hàm bậc hai cung cấp một xấp xỉ tốt nhất bằng một parabol. Hãy minh họa với trường hợp \(f(x) = \sin(x)\).

# Compute sin
xs = np.arange(-np.pi, np.pi, 0.01)
plots = [np.sin(xs)]
# Compute some quadratic approximations. Use d(sin(x)) / dx = cos(x)
for x0 in [-1.5, 0, 2]:
    plots.append(np.sin(x0) + (xs - x0) * np.cos(x0) -
                              (xs - x0)**2 * np.sin(x0) / 2)
d2l.plot(xs, plots, 'x', 'f(x)', ylim=[-1.5, 1.5])

Ta sẽ mở rộng ý tưởng này thành ý tưởng của chuỗi Taylor trong mục tiếp theo.

18.3.2.5. Chuỗi Taylor¶

Chuỗi Taylor cung cấp một phương pháp để xấp xỉ phương trình \(f(x)\) nếu ta đã biết trước giá trị của \(n\) cấp đạo hàm đầu tiên tại điểm \(x_0\): \(\left\{ f(x_0), f^{(1)}(x_0), f^{(2)}(x_0), \ldots, f^{(n)}(x_0) \right\}\). Ý tưởng là tìm một đa thức bậc \(n\) có các đạo hàm tại \(x_0\) khớp với các đạo hàm đã biết.

Ta đã thấy với trường hợp \(n=2\) ở chương trước và với một chút biến đổi đại số, ta có được

(18.3.15)¶\[f(x) \approx \frac{1}{2}\frac{d^2f}{dx^2}(x_0)(x-x_0)^{2}+ \frac{df}{dx}(x_0)(x-x_0) + f(x_0).\]

Như ta đã thấy ở trên, mẫu số \(2\) là để rút gọn thừa số \(2\) khi lấy đạo hàm bậc hai của \(x^2\), các đạo hàm bậc cao hơn đều bằng không. Cùng một cách lập luận cũng được áp dụng cho đạo hàm bậc một và phần giá trị \(f(x_0)\).

Nếu ta mở rộng cách lập luận này cho trường hợp \(n=3\), ta sẽ kết luận được

(18.3.16)¶\[f(x) \approx \frac{\frac{d^3f}{dx^3}(x_0)}{6}(x-x_0)^3 + \frac{\frac{d^2f}{dx^2}(x_0)}{2}(x-x_0)^{2}+ \frac{df}{dx}(x_0)(x-x_0) + f(x_0).\]

với \(6 = 3 \times 2 = 3!\) đến từ phần hằng số ta có được khi lấy đạo hàm bậc 3 của \(x^3\).

Hơn nữa, ta có thể lấy một đa thức bậc \(n\) bằng cách

(18.3.17)¶\[P_n(x) = \sum_{i = 0}^{n} \frac{f^{(i)}(x_0)}{i!}(x-x_0)^{i}.\]

với quy ước

(18.3.18)¶\[f^{(n)}(x) = \frac{d^{n}f}{dx^{n}} = \left(\frac{d}{dx}\right)^{n} f.\]

Quả thật, \(P_n(x)\) có thể được xem là đa thức bậc \(n\) xấp xỉ tốt nhất của hàm \(f(x)\).

Dù ta sẽ không tìm hiểu kỹ sai số của xấp xỉ này, ta cũng nên nhắc tới giới hạn vô cùng. Trong trường hợp này, các hàm khả vi vô hạn lần như \(\cos(x)\) hoặc \(e^{x}\) có thể được biểu diễn xấp xỉ bằng vô số các số hạng.

(18.3.19)¶\[f(x) = \sum_{n = 0}^\infty \frac{f^{(n)}(x_0)}{n!}(x-x_0)^{n}.\]

Lấy hàm \(f(x) = e^{x}\) làm ví dụ. Vì \(e^{x}\) là đạo hàm của chính nó, ta có \(f^{(n)}(x) = e^{x}\). Do đó, hàm \(e^{x}\) có thể được tái tạo bằng cách tính chuỗi Taylor tại \(x_0 = 0\):

(18.3.20)¶\[e^{x} = \sum_{n = 0}^\infty \frac{x^{n}}{n!} = 1 + x + \frac{x^2}{2} + \frac{x^3}{6} + \cdots.\]

Hãy cùng tìm hiểu cách lập trình và quan sát xem việc tăng bậc của xấp xỉ Taylor đưa ta đến gần hơn với hàm mong muốn \(e^x\) như thế nào.

# Compute the exponential function
xs = np.arange(0, 3, 0.01)
ys = np.exp(xs)
# Compute a few Taylor series approximations
P1 = 1 + xs
P2 = 1 + xs + xs**2 / 2
P5 = 1 + xs + xs**2 / 2 + xs**3 / 6 + xs**4 / 24 + xs**5 / 120
d2l.plot(xs, [ys, P1, P2, P5], 'x', 'f(x)', legend=[
    "Exponential", "Degree 1 Taylor Series", "Degree 2 Taylor Series",
    "Degree 5 Taylor Series"])

Chuỗi Taylor có hai ứng dụng chính:

Ứng dụng lý thuyết: Khi muốn tìm hiểu một hàm số quá phức tạp, ta thường dùng chuỗi Taylor để biến nó thành một đa thức để có thể làm việc trực tiếp.

Ứng dụng số học: Việc tính toán một số hàm như \(e^x\) hoặc \(\cos(x)\) không đơn giản đối với máy tính. Chúng có thể lưu trữ một bảng giá trị với độ chính xác nhất định (và thường thì chúng làm vậy), nhưng việc đó vẫn không giải quyết được những câu hỏi như “Chữ số thứ 1000 của \(\cos(1)\) là gì?”. Chuỗi Taylor thường có ích cho việc trả lời các câu hỏi như vậy.

18.3.3. Tóm tắt¶

Đạo hàm có thể được sử dụng để biểu diễn mức độ thay đổi của hàm số khi đầu vào thay đổi một lượng nhỏ.
Các phép lấy đạo hàm cơ bản có thể kết hợp với nhau theo các quy tắc đạo hàm để tính những đạo hàm phức tạp tùy ý.
Đạo hàm có thể được tính nhiều lần để lấy đạo hàm cấp hai hoặc các cấp cao hơn. Mỗi lần tăng cấp đạo hàm cho ta thông tin chi tiết hơn về hành vi của hàm số.
Bằng việc sử dụng thông tin từ đạo hàm của một điểm dữ liệu, ta có thể xấp xỉ các hàm khả vi vô hạn lần bằng các đa thức lấy từ chuỗi Taylor.

18.3.4. Bài tập¶

Đạo hàm của \(x^3-4x+1\) là gì?
Đạo hàm của \(\log(\frac{1}{x})\) là gì?
Đúng hay Sai: Nếu \(f'(x) = 0\) thì \(f\) có cực đại hoặc cực tiểu tại \(x\)?
Cực tiểu của \(f(x) = x\log(x)\) với \(x\ge0\) ở đâu (ở đây ta giả sử rằng \(f\) có giới hạn bằng \(0\) tại \(f(0)\))?

18.3.5. Thảo luận¶

Tiếng Anh: MXNet, Pytorch, Tensorflow
Tiếng Việt: Diễn đàn Machine Learning Cơ Bản

18.3.6. Những người thực hiện¶

Bản dịch trong trang này được thực hiện bởi:

Lê Khắc Hồng Phúc
Phạm Hồng Vinh
Vũ Hữu Tiệp
Nguyễn Lê Quang Nhật
Đoàn Võ Duy Thanh
Tạ H. Duy Nguyên
Mai Sơn Hải
Phạm Minh Đức
Nguyễn Văn Tâm
Nguyễn Văn Cường