.. raw:: html
.. _chap_nlp_pretrain:
Xử lý Ngôn ngữ Tự nhiên: Tiền Huấn luyện
========================================
.. raw:: html
Con người luôn có nhu cầu được giao tiếp. Chính từ nhu cầu cơ bản này mà
một lượng lớn dữ liệu văn bản được tạo ra mỗi ngày. Với lượng dữ liệu
văn bản đa dạng từ mạng xã hội, ứng dụng trò chuyện, email, đánh giá sản
phẩm, tài liệu nghiên cứu và sách báo, việc giúp máy tính hiểu được
những dữ liệu này trở nên quan trọng, nhằm đưa ra cách thức hỗ trợ hoặc
quyết định dựa trên ngôn ngữ của con người.
.. raw:: html
Xử lý ngôn ngữ tự nhiên nghiên cứu sự tương tác bằng ngôn ngữ tự nhiên
giữa máy tính và con người. Trong thực tế, việc sử dụng các kỹ thuật xử
lý ngôn ngữ tự nhiên để xử lý và phân tích dữ liệu văn bản (ngôn ngữ tự
nhiên của con người) rất phổ biến, chẳng hạn như các mô hình ngôn ngữ
trong :numref:`sec_language_model` hay các mô hình dịch máy trong
:numref:`sec_machine_translation`.
.. raw:: html
Để hiểu dữ liệu văn bản, ta có thể bắt đầu với cách biểu diễn loại dữ
liệu này, chẳng hạn xem mỗi từ hay từ con như một token riêng lẻ. Trong
chương này, biểu diễn của mỗi token có thể được tiền huấn luyện trên một
kho ngữ liệu lớn, sử dụng các mô hình word2vec, GloVe, hay embedding cho
từ con. Sau khi tiền huấn luyện, biểu diễn của mỗi token có thể là một
vector. Tuy nhiên, biểu diễn này vẫn không đổi dù ngữ cảnh xung quanh
bất kể là gì. Ví dụ, biểu diễn vector của từ “bank” là giống nhau trong
câu “go to the bank to deposit some money” (ra *ngân hàng* để gửi tiền)
và “go to the bank to sit down” (ra *bờ hồ* ngồi hóng mát). Do đó, nhiều
mô hình tiền huấn luyện gần đây điều chỉnh biểu diễn của cùng một token
với các ngữ cảnh khác nhau. Trong số đó có BERT, một mô hình sâu hơn rất
nhiều dựa trên bộ mã hóa Transformer. Trong chương này, ta sẽ tập trung
vào cách tiền huấn luyện các biểu diễn như vậy cho văn bản, như được mô
tả trong :numref:`fig_nlp-map-pretrain`.
.. raw:: html
.. _fig_nlp-map-pretrain:
.. figure:: ../img/nlp-map-pretrain.svg
Các biểu diễn văn bản được tiền huấn luyện có thể được truyền vào các
kiến trúc học sâu khác nhau cho các ứng dụng xử lý ngôn ngữ tự nhiên
xuôi dòng khác nhau. Chương này tập trung vào cách tiền huấn luyện
biểu diễn văn bản ngược dòng (*upstream*).
.. raw:: html
Như mô tả trong :numref:`fig_nlp-map-pretrain`, các biểu diễn văn bản
được tiền huấn luyện có thể được truyền vào những kiến trúc học sâu cho
các ứng dụng xử lý ngôn ngữ tự nhiên xuôi dòng khác nhau. Chúng tôi sẽ
trình bày các phần này trong :numref:`chap_nlp_app`.
.. toctree::
:maxdepth: 2
word2vec_vn
approx-training_vn
word-embedding-dataset_vn
word2vec-pretraining_vn
glove_vn
subword-embedding_vn
similarity-analogy_vn
bert_vn
bert-dataset_vn
bert-pretraining_vn
Những người thực hiện
---------------------
Bản dịch trong trang này được thực hiện bởi:
- Đoàn Võ Duy Thanh
- Nguyễn Văn Quang
- Phạm Hồng Vinh
- Nguyễn Văn Cường
*Lần cập nhật gần nhất: 12/09/2020. (Cập nhật lần cuối từ nội dung gốc:
02/04/2020)*