18. Phụ lục: Toán học cho Học Sâu

Brent Werness (Amazon), Rachel Hu (Amazon), và các tác giả của cuốn sách này.

Một trong những điểm tuyệt vời nhất của học sâu hiện đại là nó có thể được hiểu và sử dụng mà không cần hiểu cặn kẽ nền tảng toán học đằng sau. Đây là một dấu hiệu thể hiện lĩnh vực này đang trưởng thành. Giống như hầu hết các nhà phát triển phần mềm không cần bận tâm đến lý thuyết hàm số khả tính, những người làm việc với học sâu cũng không cần bận tâm đến nền tảng lý thuyết của học hợp lý cực đại (maximum likelihood).

Tuy nhiên, chúng ta chưa thật sự gần đến mức đó.

Trên thực tế, bạn sẽ thi thoảng cần hiểu sự lựa chọn kiến trúc sẽ ảnh hưởng tới dòng gradient như thế nào, hoặc những giả thiết ngầm khi huấn luyện với một hàm mất mát cụ thể. Bạn có thể cần biết entropy đong đếm thứ gì trên thế giới, và nó có thể giúp bạn hiểu chính xác số lượng bit trên một ký tự có ý nghĩa như thế nào trong mô hình của bạn. Tất cả những điều này đòi hỏi những hiểu biết toán học sâu hơn.

Phần phụ lục này nhằm cung cấp cho bạn nền tảng toán học cần thiết để hiểu lý thuyết cốt lõi của học sâu hiện đại, nhưng đây không phải là toàn bộ kiến thức cần thiết. Chúng ta sẽ bắt đầu xem xét đại số tuyến tính sâu hơn. Chúng tôi phát triển ý nghĩa hình học của các đại lượng và toán tử đại số tuyến tính, việc này cho phép chúng ta minh họa hiệu ứng của nhiều phép biến đổi dữ liệu. Một thành phần chủ chốt là sự phát triển của các kiến thức nền tảng liên quan tới phân tích trị riêng.

Tiếp theo, chúng ta phát triển lý thuyết giải tích vi phân để có thể hiểu cặn kẽ tại sao gradient là hướng hạ dốc nhất, và tại sao lan truyền ngược có công thức như vậy. Giải tích tích phân được thảo luận tiếp sau đó ở mức cần thiết để hỗ trợ chủ đề tiếp theo – lý thuyết xác suất.

Các vấn đề gặp phải trên thực tế thường không chắc chắn, và bởi vậy chúng ta cần một ngôn ngữ để nói về những điều không chắc chắn. Chúng ta sẽ ôn tập lại lý thuyết biến ngẫu nhiên và những phân phối thường gặp nhất để có thể thảo luận các mô hình dưới góc nhìn xác suất. Việc này cung cấp nền tảng cho bộ phân loại Naive Bayes, một phương pháp phân loại dựa trên xác suất.

Liên quan mật thiết đến lý thuyết xác suất là lý thuyết thống kê. Trong khi thống kê là một mảng quá lớn để ôn tập trong một mục ngắn, chúng tôi sẽ giới thiệu các khái niệm cơ bản mà mọi người làm học máy cần biết, cụ thể như: đánh giá và so sánh các bộ ước lượng, thực hiện kiểm chứng thống kê, và xây dựng khoảng tin cậy.

Cuối cùng, chúng ta sẽ thảo luận chủ đề lý thuyết thông tin qua nghiên cứu toán học về lưu trữ và truyền tải thông tin. Phần này cung cấp ngôn ngữ cơ bản ở đó chúng ta thảo luận một cách định lượng lượng thông tin một mô hình hàm chứa.

Kết hợp lại, những kiến thức này định hình những khái niệm toán học cốt lõi cần thiết để bắt đầu đi tới con đường hiểu sâu về học sâu.

18.12. Những người thực hiện

Bản dịch trong trang này được thực hiện bởi:

  • Đoàn Võ Duy Thanh
  • Vũ Hữu Tiệp
  • Lê Khắc Hồng Phúc