Mơ hình đề xuất trong bài tốn phân loại văn bản- 123docz.net

Hình 3.1 trình bày chi tiết quá trình huấn luyện mơ hình và đánh giá. Trong đĩ, các thành phần cĩ nội dung nhƣ sau:

- Tiền xử lý: Tại bƣớc này, nhiều kỹ thuật tiền xử lý văn bản sẽ đƣợc áp

dụng để chuẩn hĩa văn bản đầu vào trƣớc khi rút trích các đặc trƣng của văn bản. Các bƣớc tiền xử lý cĩ thể kể đến nhƣ loại bỏ từ dừng (stop words), loại bỏ ký tự đặc biệt, loại bỏ dấu câu và tách từ...v.v.

- Rút trích đặc trƣng: Là bƣớc lựa chọn các đặc trƣng mang nhiều thơng

tin của mỗi loại nhãn khác nhau để phân biệt giữa các nhãn trong dữ liệu huấn luyện. Việc rút trích đặc trƣng cĩ vai trị quan trọng ảnh hƣởng đến chất lƣợng của bộ phân lớp.

- Biểu diễn đặc trƣng: Sau khi rút trích đặc trƣng từ văn bản, chúng ta sẽ

biểu diễn các đặc trƣng sử dụng mơ hình TF-IDF. Các đặc trƣng này sẽ đƣợc chuyển thành các vecto số và đƣa vào mơ hình học.

- Thuật tốn máy học: Dựa vào các đặc trƣng đƣợc rút trích sau khi

vector hĩa sẽ đƣa vào các mơ hình huấn luyện nhƣ SVM, Naive Bayes để học các đặc trƣng cho từng nhãn khác nhau và đƣa ra một phân lớp đã đƣợc học trên tập huấn luyện.

- Mơ hình phân lớp: Là mơ hình máy học sau khi huấn luyện trên tập dữ

3.2. Mơ hình học sâu

Kiến trúc mơ hình tổng quát đƣợc thử nghiệm trong đề tài này đƣợc nhĩm nghiên cứu trình bày ở Hình 3.2. Đây là một mơ hình kết hợp giữa hai mơ hình mạng hồi quy hai chiều là Bidirectional Long short-term memory và mơ hình mạng tích chập Convolutional Neural Network – viết tắt là BiLSTM-CNN.

Hình 3.2. Kiến trúc mơ hình kết hợp BiLSTM-CNN cho bài tốn tích ý kiến theo khía cạnh trên miền dữ liệu giáo dục

Mơ hình đƣợc mơ tả ở Hình 3.2 bao gồm các thành phần chính nhƣ sau: Lớp đầu vào (Input), lớp nhúng từ (Embedding), lớp mạng hồi quy LSTM hai chiều (BiLSTM), Lớp tích chập (Convolution), lớp gộp (Pooling), lớp phân loại (Fully connected) và lớp đầu ra (Output). Trong đĩ, chi tiết các thành phần chính đƣợc trình bày nhƣ sau:

+ Lớp đầu vào: Các phản hồi sau khi qua bƣớc tiền xử lý sẽ đƣợc biểu

diễn thành các véc tơ số với chiều dài cố định với chiều của vectơ cố định là bình luận dài nhất. Các bình luận khơng đủ độ dài sẽ đƣợc tự động thêm giá trị <PAD>.

+ Lớp nhúng từ: Mỗi từ vựng sẽ đƣợc chuyển thành một vectơ đại diện

thơng tin biểu diễn của chúng. Các cơng trình nghiên cứu trƣớc đây đã chứng minh việc sử dụng các bộ nhúng từ (pre-trained word embedding) đem lại hiệu quả tốt hơn so với việc khởi tạo các vector này một cách ngẫu nhiên. Chính vì thế, trong đề tài này, nhĩm nghiên cứu sử dụng bộ nhúng từ đã đƣợc huấn luyện sẵn dành1 cho tiếng Việt đƣợc huấn luyện trên miền dữ liệu tin tức để rút trích các vectơ từ vựng.

+ Lớp BiLSTM: Kế tiếp, nhĩm nghiên cứu sử dụng một mơ hình mạng

hồi quy LSTM hai chiều để khai thác thơng tin mối liên hệ của các từ vựng theo ngữ cảnh trƣớc và sau trong câu bình luận.

+ Lớp tích chập: Dựa trên các véc tơ biểu diễn từ lớp BiLSTM, nhĩm nghiên cứu sử dụng nhiều bộ lọc (filter) với các kích thƣớc khác nhau để rút trích các đặc trƣng cục bộ của bình luận. Cụ thể, kích thƣớc bộ lọc đƣợc sử dụng trong lớp này cĩ kích thƣớc là 2,3 và 4. Các giá trị này cho phép mơ hình rút trích ra các đặc trƣng cục bộ 2-gram, 3-gram và 4-gram.

+ Lớp gộp: Ở tầng kiến trúc này, nhĩm nghiên cứu sử dụng kỹ thuật Global Max Pooling cho mỗi lớp tích chập để rút trích ra các đặc trƣng quan trọng của bình luận để làm véc tơ biểu diễn cho tồn bộ đầu vào.

+ Lớp phân loại: Sau khi rút trích ra các đặc trƣng quan trọng biểu diễn

đầu vào, nhĩm nghiên cứu đƣa các đặc trƣng này qua lớp phân loại với hàm kích hoạt RELU để xác định xem nhãn khía cạnh và trạng thái cảm xúc tƣơng ứng đƣợc đề cập bình luận trong đầu vào.

+ Lớp đầu ra: Mỗi khía cạnh và trạng thái cảm xúc tƣơng ứng sẽ đƣợc biểu diễn thành một one-hot véc tơ cĩ độ dài là 4 phần tử đại diện cho các thơng tin: None, positive, neutral, negative. Nhĩm nghiên cứu sử dụng một bộ phân lớp với hàm kích hoạt softmax tƣơng ứng mỗi khía cạnh để tính tốn giá trị phân bố xác suất của từng nhãn phân loại.

∑ ∑ ̂ (3.4) Bộ dữ liệu ý kiến phản hồi sinh viên của nhĩm nghiên cứu là một bộ dữ liệu khơng chứa nhiều lỗi ngữ pháp, từ vựng. Tuy nhiên, để tăng độ chính xác cho mơ hình, nhĩm nghiên cứu vẫn tiến hành các bƣớc xử lý dữ liệu trƣớc khi huấn luyện. Các bƣớc tiền xử lý đƣợc trình bày nhƣ sau:

+ Bƣớc 1: Xĩa các thơng tin dƣ thừa trong bình luận nhƣ nhiều khoảng

trắng, dấu chấm câu hoặc các icon trong bình luận và áp dụng các biểu thức chính quy để thay thế các dữ liệu số thành ký từ “num”.

+ Bƣớc 2: Sau đĩ, nhĩm nghiên cứu sử dụng thƣ viện Pyvi2

để tách đầu vào thành các từ vựng bởi vì một từ vựng trong tiếng Việt đƣợc cấu tạo từ một hoặc nhiều âm tiết.

+ Bƣớc 3: Bƣớc cuối cùng là chuyển tất cả các từ vựng trong chuỗi đầu

vào thành chữ thƣờng để giảm kích thƣớc từ vựng trong bộ dữ liệu và nâng cao hiệu quả.

3.3. Mơ hình ngơn ngữ BERT

Trong đề tài này, nhĩm nghiên cứu sử dụng một mơ hình kiến trúc dựa trên mơ hình ngơn ngữ đƣợc đào tạo trƣớc (pretrained language model) BERT. Nhĩm nghiên cứu sử dụng kiến trúc BERT đƣợc cơng bố bởi nghiên cứu của Viện VinAI [6] cơng bố vào năm 2020. Mơ hình PhoBERT đƣợc tối ƣu hố sử dụng quá trình huấn luyện dựa trên quy trình RoBERTa và đƣợc huấn luyện trên 20GB dữ liệu văn bản tiếng Việt. Kết quả thí nghiệm đƣợc cơng bố trong bài báo của tác giả [6] đã chứng minh rằng việc tinh chỉnh trên mơ hình BERT đem lại kết quả tốt hơn so với các phƣơng pháp học sâu khác. Lý do là vì BERT cho phép chúng ta biểu diễn thơng tin vector của từ vựng theo ngữ cảnh tốt hơn so với các phƣơng pháp truyền thống trƣớc đây, cụ thể nhƣ là phƣơng pháp nhúng từ word2vec hay Glove. Do đĩ, trong đề tài này, nhĩm nghiên cứu tiến hành thử nghiệm đề xuất kiến trúc BERT kết hợp để áp dụng trong bài tốn phân tích ý kiến phản hồi của sinh viên. Mơ hình đƣợc trình bày nhƣ ở Hình 3.3.

Mơ hình đề xuất trong bài tốn phân loại văn bản

Quy trình xây dự bộ dữ liệu

Kiến trúc tinh chỉnh mơ hình BERT