.. raw:: html .. _chap_nlp_pretrain: Xử lý Ngôn ngữ Tự nhiên: Tiền Huấn luyện ======================================== .. raw:: html Con người luôn có nhu cầu được giao tiếp. Chính từ nhu cầu cơ bản này mà một lượng lớn dữ liệu văn bản được tạo ra mỗi ngày. Với lượng dữ liệu văn bản đa dạng từ mạng xã hội, ứng dụng trò chuyện, email, đánh giá sản phẩm, tài liệu nghiên cứu và sách báo, việc giúp máy tính hiểu được những dữ liệu này trở nên quan trọng, nhằm đưa ra cách thức hỗ trợ hoặc quyết định dựa trên ngôn ngữ của con người. .. raw:: html Xử lý ngôn ngữ tự nhiên nghiên cứu sự tương tác bằng ngôn ngữ tự nhiên giữa máy tính và con người. Trong thực tế, việc sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên để xử lý và phân tích dữ liệu văn bản (ngôn ngữ tự nhiên của con người) rất phổ biến, chẳng hạn như các mô hình ngôn ngữ trong :numref:`sec_language_model` hay các mô hình dịch máy trong :numref:`sec_machine_translation`. .. raw:: html Để hiểu dữ liệu văn bản, ta có thể bắt đầu với cách biểu diễn loại dữ liệu này, chẳng hạn xem mỗi từ hay từ con như một token riêng lẻ. Trong chương này, biểu diễn của mỗi token có thể được tiền huấn luyện trên một kho ngữ liệu lớn, sử dụng các mô hình word2vec, GloVe, hay embedding cho từ con. Sau khi tiền huấn luyện, biểu diễn của mỗi token có thể là một vector. Tuy nhiên, biểu diễn này vẫn không đổi dù ngữ cảnh xung quanh bất kể là gì. Ví dụ, biểu diễn vector của từ “bank” là giống nhau trong câu “go to the bank to deposit some money” (ra *ngân hàng* để gửi tiền) và “go to the bank to sit down” (ra *bờ hồ* ngồi hóng mát). Do đó, nhiều mô hình tiền huấn luyện gần đây điều chỉnh biểu diễn của cùng một token với các ngữ cảnh khác nhau. Trong số đó có BERT, một mô hình sâu hơn rất nhiều dựa trên bộ mã hóa Transformer. Trong chương này, ta sẽ tập trung vào cách tiền huấn luyện các biểu diễn như vậy cho văn bản, như được mô tả trong :numref:`fig_nlp-map-pretrain`. .. raw:: html .. _fig_nlp-map-pretrain: .. figure:: ../img/nlp-map-pretrain.svg Các biểu diễn văn bản được tiền huấn luyện có thể được truyền vào các kiến trúc học sâu khác nhau cho các ứng dụng xử lý ngôn ngữ tự nhiên xuôi dòng khác nhau. Chương này tập trung vào cách tiền huấn luyện biểu diễn văn bản ngược dòng (*upstream*). .. raw:: html Như mô tả trong :numref:`fig_nlp-map-pretrain`, các biểu diễn văn bản được tiền huấn luyện có thể được truyền vào những kiến trúc học sâu cho các ứng dụng xử lý ngôn ngữ tự nhiên xuôi dòng khác nhau. Chúng tôi sẽ trình bày các phần này trong :numref:`chap_nlp_app`. .. toctree:: :maxdepth: 2 word2vec_vn approx-training_vn word-embedding-dataset_vn word2vec-pretraining_vn glove_vn subword-embedding_vn similarity-analogy_vn bert_vn bert-dataset_vn bert-pretraining_vn Những người thực hiện --------------------- Bản dịch trong trang này được thực hiện bởi: - Đoàn Võ Duy Thanh - Nguyễn Văn Quang - Phạm Hồng Vinh - Nguyễn Văn Cường *Lần cập nhật gần nhất: 12/09/2020. (Cập nhật lần cuối từ nội dung gốc: 02/04/2020)*