9. Mạng Nơ-ron Hồi tiếp Hiện đại

Mặc dù đã biết về các kiến thức cơ bản của mạng nơ-ron hồi tiếp, chúng vẫn chưa đủ để ta giải quyết các bài toán học chuỗi hiện nay. Ví dụ như RNN có hiện tượng bất ổn số học khi tính gradient, do đó các mạng nơ-ron hồi tiếp có cổng được sử dụng phổ biến hơn nhiều trong thực tiễn. Chúng ta bắt đầu chương này bằng việc giới thiệu hai cấu trúc mạng phổ biến: nút hồi tiếp có cổng (gated recurrent unit - GRU) và bộ nhớ ngắn hạn dài (long short term memory - LSTM). Chúng cũng sẽ được áp dụng minh họa trong cùng bài toán mô hình hóa ngôn ngữ đã được giới thiệu ở Section 8.

Hơn nữa, chúng ta sẽ sửa đổi mạng nơ-ron hồi tiếp với một tầng ẩn đơn chiều. Ta cũng sẽ mô tả các kiến trúc mạng sâu và thảo luận về thiết kế hai chiều (bidirectional) gồm cả hồi tiếp xuôi và ngược. Chúng thường xuyên được sử dụng trong các mạng nơ-ron hồi tiếp hiện đại.

Trên thực tế, phần lớn các bài toán học chuỗi như nhận dạng giọng nói tự động, chuyển đổi văn bản thành giọng nói và dịch máy, đều có đầu vào và đầu ra là các chuỗi với chiều dài bất kì. Cuối cùng, ta sẽ lấy bài toán dịch máy làm ví dụ để giới thiệu kiến trúc mã hóa - giải mã (encoder-decoder) dựa trên mạng nơ-ron hồi tiếp cùng các kỹ thuật hiện đại để giải quyết bài toán học từ chuỗi sang chuỗi.

9.9. Những người thực hiện

Bản dịch trong trang này được thực hiện bởi:

  • Đoàn Võ Duy Thanh
  • Nguyễn Văn Cường
  • Phạm Minh Đức
  • Phạm Hồng Vinh
  • Lê Khắc Hồng Phúc