Kiến trúc tinh chỉnh mơ hình BERT

Một phần của tài liệu Xây dựng phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lượng đào tạo ở phân hiệu trường đại học nội vụ hà nội tại thành phố hồ chí minh (Trang 55 - 64)

Chi tiết các thành phần chính của mơ hình PhoBERT đƣợc trình bày nhƣ sau:

+ Lớp đầu vào: Mỗi câu bình luận đầu vào của ngƣời dùng đã đƣợc tiền

xử lý với n từ vựng cĩ dạng nhƣ sau: = , , …, với là vị trí thứ i trong chuỗi đầu vào sẽ đƣợc tách thành các từ vựng và đƣợc biểu diễn thành các giá trị số dựa trên tập từ điển đã huấn luyện của mơ hình phoBERT[6]. Thêm vào đĩ, vị trí của từng mẫu từ cũng đƣợc lấy để làm đầu vào cho mơ hình BERT. Nhĩm nghiên cứu lựa chọn ý kiến phản hồi dài nhất trong tập huấn luyện là giá trị đồ dài đầu vào, đối với các câu cĩ độ dài ngắn hơn sẽ tự động đƣợc thêm giá trị <pad>.

+ Lớp mã hĩa: Bởi vì lý do tài nguyên huấn luyện mơ hình nên nhĩm

nghiên cứu quyết định lựa chọn sử dụng kiến trúc BERT cơ sở (BERT based) với 12 khối Transformer và 12 lớp chú ý (self - attention) để lấy đặc trƣng chuỗi đầu vào. Đầu ra của mơ hình sẽ là một lớp ẩn H = { , , …, } với độ dài bằng độ dài câu đầu vào, giá trị này thể hiện vector biểu diễn của từng từ vựng trong câu đầu vào. Thơng thƣờng, chúng ta sẽ rút trích vector biểu diễn của ký tự [CLS] ở trong câu để làm vector đặc trƣng biểu diễn cho tồn bộ chuỗi bình luận đầu vào.

+ Đầu ra: Dựa trên vector đại diện của câu bình luận đầu vào [CLS], đề

tài sử dụng một bộ phân lớp mạng trí tuệ nhân tạo với hàm kích hoạt softmax để tính tốn giá trị phân bố xác suất của các nhãn cảm xúc trong câu bình luận.

3.4. Các mơ hình so sánh

Trong đề tài này, nhĩm nghiên cứu cũng nghiên cứu và cài đặt các phƣơng pháp máy học truyền thống nhƣ Naive Bayes hay Neural Network kết hợp với các đặc trƣng thủ cơng nhƣ theo các tiếp cận của mơ hình SVM ở trên. Bên cạnh đĩ, nhĩm nghiên cứu cũng nghiên cứu các mơ hình học sâu nhƣ mạng hồi quy Long short-term Memory, mạng tích chập Convolution Neural Network trên bộ dữ liệu gán nhãn của nhĩm nghiên cứu. Chi tiết thơng số các mơ hình so sánh đƣợc nhĩm nghiên cứu trình bày nhƣ sau:

- Naive Bayes (NB): Đây cũng là một phƣơng pháp phân loại tốt cho dữ liệu văn bản, tuy nhiên bởi vì véc tơ biểu diễn cho các đặc trƣng cĩ xu hƣớng rời rạc, do đĩ nhĩm nghiên cứu sử dụng mơ hình Naive Bayes đa thức để cài đặt thí nghiệm.

- Neural Network (NN): Mạng nhân tạo với một lớp ẩn duy nhất với 128 node đƣợc sử dụng hàm kích hoạt ReLu, hàm tối ƣu hĩa Adam, giá trị α = 0,001 và tối đa 300 lần lặp.

- CNN: Mạng tích chập CNN [19] là một trong những mơ hình học sâu cĩ hiệu quả đối với các bài tốn phân loại văn bản. Chính vì thế, nhĩm nghiên cứu sử dụng mạng CNN nhƣ là một mơ hình so sánh chuẩn để đánh giá hiệu quả.

- LSTM: Tƣơng tự nhƣ mơ hình CNN thì mơ hình mạng hồi quy LSTM

cũng là mơ hình học sâu chuẩn, do đĩ nhĩm nghiên cứu cũng cài đặt mơ hình mạng hồi quy LSTM [18] với các thơng số chuẩn.

Đối với các mơ hình máy học truyền thống, nhĩm nghiên cứu sẽ tiến hành rút trích các đặc trƣng thủ cơng từ vựng và áp dụng kỹ thuật TF-IDF để biểu diễn các đặc trƣng văn bản thành các vectơ số để đƣa vào các mơ hình huấn luyện các bộ phân lớp.

3.5. Chi tiết cài đặt mơ hình

Đối với các mơ hình máy học truyền thống nhƣ SVM, Nạve Bayes hay mạng NN (Neural Network), nhĩm nghiên cứu sử dụng các thơng số mặc định đƣợc đề xuất bởi thƣ viện sklearn. Ngồi ra, nhĩm nghiên cứu áp dụng kỹ thuật Grid Search để lựa chọn ra các tham số mơ hình trên tập phát triển của bộ dữ liệu trên các mơ hình này để lựa chọn mơ hình cĩ tham số tốt nhất để thử nghiệm trên tập kiểm tra.

Đối với mơ hình kết hợp BiLSTM-CNN, nhĩm nghiên cứu sử dụng mơ hình mạng hồi quy 2 chiều LSTM với giá trị mỗi số chiều của chiều ẩn là 128 chiều. Số lƣợng bộ lọc trong mỗi lớp tích chập của nhĩm nghiên cứu cĩ 128 bộ lọc với kích thƣớc kernel tƣơng ứng 2,3,4 từ vựng với hàm kích hoạt ReLU. Giá trị tốc độ học của hàm tối ƣu Adam đƣợc chọn với giá trị 0,001. Giá trị batch size để huấn luyện mơ hình đƣợc gán là 32. Đối với mơ hình học sâu CNN thì nhĩm nghiên cứu sử dụng 3 bộ lọc tích chập khác nhau với kích thƣớc tƣơng tự nhƣ mơ hình kết hợp là 3 lớp tích chập với kernel là 2,3,4.

Cịn đối mơ hình LSTM thì số mỗi số chiều của chiều ẩn cĩ giá trị là 128. Cả hai mơ hình CNN và LSTM đều sử dụng một bộ nhúng từ word2vec3 đã huấn luyện trên tập dữ liệu các bài báo tin tức với số chiều của mỗi véc-tơ là 300 chiều.

Cịn đối với mơ hình BERT, nhĩm nghiên cứu sử dụng kiến trúc PhoBERT based đƣợc đề xuất bởi Viện trí tuệ nhân tạo VinAI [17]. Kiến trúc based bao gồm 12 lớp transformers, mỗi chiều vecto biểu diễn từ cĩ 768 chiều dữ liệu. Mơ hình đƣợc tinh chỉnh dựa trên hàm tối ƣu Adam với tốc độ học là 5e-5. Nhĩm nghiên cứu sử dụng mơ hình đƣợc tải trực tiếp từ Hugging Face. Số lƣợng epochs nhĩm nghiên cứu sử dụng là 10.

3

3.6. Kết quả thử nghiệm

3.6.1. Độ đo đánh giá

Để đánh giá hiệu quả của các phƣơng pháp, nhĩm nghiên cứu tiến hành các mơ hình thử nghiệm đề xuất và sử dụng ba độ đo là độ chính xác, độ phủ và chỉ số F1 giữa tập dự đốn và tập dữ liệu đƣợc gán nhãn. Các độ đo đƣợc tính bằng các cơng thức sau đây:

Độ đo độ chính xác precision (P) đƣợc tính theo cơng thức sau: | |

| | (3.5) Độ đo độ phủ Recall (R) đƣợc tính theo cơng thức sau:

| |

| | Độ đo F1-score (F1) đƣợc tính theo cơng thức sau:

Trong đĩ,

- S: là phân lớp đƣợc hệ thống dự đốn ra.

- G: là phân lớp đích (phân lớp đƣợc ngƣời dùng gán nhãn)

Để tính tốn độ đo trung bình của C phân lớp (i = 1, 2, 3,…C), nhĩm nghiên cứu áp dụng kỹ thuật Micro-averaging để tính tốn:

Độ đo Micro-averaging Precision (MaP) đƣợc tính theo cơng thức: ∑ | |

∑ | | (3.8)

Độ do Micro-averaging Recall (MaR) đƣợc tính theo cơng thức: ∑ | |

∑ | |

3.6.2. Kết quả thử nghiệm

Ở trong phần này, nhĩm nghiên cứu sẽ trình bày kết quả thử nghiệm và so sánh kết quả thử nghiệm giữa các mơ hình máy học truyền thống và mơ hình học sâu khác nhau trên bộ dữ liệu đã xây dựng. Bảng 3.1 và Bảng 3.2 trình bày kết quả thực nghiệm các mơ hình trên tập kiểm tra tƣơng ứng với hai bài tốn là: Phát hiện khía cạnh và Phát hiện khía cạnh cùng với trạng thái cảm xúc tƣơng ứng theo các độ đo nhƣ: độ chính xác, độ phủ và chỉ số F1.

Nhìn một cách tổng quan giữa hai bài tốn, chúng ta dễ dàng nhận thấy đối với ba phƣơng pháp máy học truyền thống nhƣ SVM, NB và NN thì mơ hình SVM hiệu quả hơn so với hai phƣơng pháp cịn lại. Kết quả này cho thấy rằng SVM vẫn là một mơ hình hiệu quả nhất trong các phƣơng pháp máy học cổ điển. Cịn đối với hai mơ hình học sâu là CNN và LSTM thì chúng ta thấy cĩ sự hiệu quả cao hơn liên quan đến chỉ số F1 là +0,61% và +1,27% của mơ hình CNN. Tuy nhiên sự chênh lệch này khơng đáng kể giữa hai mơ hình. Dựa vào kết quả chúng ta vẫn thấy đƣợc sự vƣợt trội của các mơ hình học sâu so với các mơ hình máy học truyền thống. Cụ thể mơ hình CNN cao hơn mơ hình SVM là +0,9% cho bài tốn phát hiện khía cạnh, và +3,48% cho bài tốn phát hiện khía cạnh và trạng thái cảm xúc.

Chúng ta cũng dễ dàng thấy đƣợc sự hiệu quả của phƣơng pháp kết hợp BiLSTM-CNN liên quan đến chỉ số F1, cụ thể đối với bài tốn phát hiện khía cạnh, đạt độ chính xác là 78,78%, độ phủ là 79,08%, cịn độ đo F1 là 78,93%. Cịn đối với bài tốn phát hiện khía cạnh và trạng thái cảm xúc tƣơng ứng, thì mơ hình này đạt kết quả độ chính xác là 73,64%, độ phủ là 73,93% và độ đo F1 là 73,78%. Mơ hình BiLSTM-CNN cao hơn mơ hình CNN lần lƣợt là +2,82% và + 1,26% tƣơng ứng cho hai bài tốn. Kết quả mơ hình kết hợp CNN và BiLSTM cao hơn hai mơ hình học sâu CNN và LSTM bởi vì nhĩm nghiên cứu sử dụng mơ hình BiLSTM để học biểu diễn theo ngữ cảnh hai chiều của câu đầu vào, sau đĩ

dùng kỹ thuật CNN để rút trích các đặc trƣng theo từng bộ lọc trên biểu diễn của BiLSTM. Điều này giúp mơ hình cĩ nhiều thơng tin và tăng độ hiệu quả hơn khi sử dụng hai mơ hình một cách riêng lẻ.

Cịn so sánh mơ hình ngữ BERT với các phƣơng pháp cịn lại thì chúng ta thấy rằng tinh chỉnh mơ hình đã huấn luyện phoBERT cho kết quả tốt hơn các phƣơng pháp học truyền thống và phƣơng pháp học sâu. Cụ thể so sánh BERT với phƣơng pháp học sâu cho kết quả tốt nhất là BiLSTM-CNN, chúng ta thấy rằng phƣơng pháp BERT đều cho kết quả tốt hơn nhiều trên các độ đo cho cả hai bài tốn. Cụ thể, BERT đạt kết quả độ chính xác là 82.68, độ phủ là 82.37 và độ đo F1 là 82.53 cho bài tốn phát hiện khía cạnh. Cịn đối với bài tốn phát hiện khía cạnh và trạng thái cảm xúc tƣơng ứng thì mơ hình BERT đạt kết quả 79.54 về độ chính xác, độ phủ là 79.24 và độ đo F1 là 79.39. Kết quả này so với mơ hình học sâu BiLSTM-CNN thì mơ hình BERT cho thấy sự hiệu quả vƣợt trội, nhất là đối với kết quả của bài tốn phân tích khía cạnh và trạng thái cảm xúc tƣơng ứng.

Ở đây, chúng ta thấy rằng kết quả của bài tốn phát hiện khía cạnh và trạng thái cảm xúc tƣơng ứng trên tập kiểm tra lúc nào cũng sẽ thấp hơn bài tốn phát hiện khía cạnh trên tập kiểm tra với mục tiêu của bài tốn thứ hai là xác định các khía cạnh và trạng thái cảm xúc tƣơng ứng, do đĩ khi tính tốn độ đo, chúng ta sẽ tính đúng một mẫu khi mơ hình vừa xác định chính xác cả hai nhãn khía cạnh và trạng thái cảm xúc

Bảng 3.1. Kết quả thực nghiệm các phƣơng pháp cho bài tốn phát hiện khía cạnh trên tập kiểm tra

Phƣơng pháp Độ chính xác (%) Độ phủ (%) Chỉ số F1 (%) NB 57,75 61,75 59,69 NN 68,70 75,37 71,88 SVM 68,41 83,51 75,21 LSTM 73,25 77,90 75,50 CNN 72,60 79,98 76,11

Phƣơng pháp Độ chính xác (%) Độ phủ (%) Chỉ số F1 (%)

BiLSTM-CNN 78,78 79,08 78,93

BERT 82,68 82,37 82,53

Nhìn vào Bảng 3.1, chúng ta thấy mơ hình BERT cĩ kết quả cao hơn mơ hình BiLSTM-CNN với độ chính xác cao hơn +3.9%, độ phủ cao hơn 3.29% và chỉ số F1 cao hơn 3.6% cho bài tốn phát hiện khía cạnh. Thậm chí rằng đối với bài tốn phát hiện khía cạnh và trạng thái cảm xúc thì mơ hình BERT cịn thể hiện sự hiệu quả vƣợt bậc so với mơ hình học sâu BiLSTM-CNN khi cĩ độ chính xác cao hơn + 5.9%, độ phủ cao hơn + 5.31% và độ đo F1 cao hơn + 5.61%.

Bảng 3. 2. Kết quả thí nghiệm các phƣơng pháp cho bài tốn phát hiện khía cạnh và trạng thái cảm xúc tƣơng ứng trên tập kiểm tra

Phƣơng pháp Độ chính xác (%) Độ phủ (%) Chỉ số F1 (%) NB 51,76 55,34 53,49 NN 61,18 67,12 64,01 SVM 62,80 76,66 69,04 LSTM 68,52 74,21 71,25 CNN 69,17 76,21 72,52 BiLSTM-CNN 73,64 73,93 73,78 BERT 79,54 79,24 79,39

Hình 3. 4. Kết quả chi tiết từng khía cạnh và trạng thái cảm xúc của mơ hình kết hợp BiLSTM-CNN trên tập kiểm tra

Hình 3.4 mơ tả kết quả chi tiết độ đo F1 của các khía cạnh trong tập dữ liệu kiểm tra của mơ hình BiLSTM-CNN bài tốn phát hiện khía cạnh và cảm xúc

0 10 20 30 40 50 60 70 80 90

#aspect1 #aspect2 #aspect3 #aspect4 #aspect5 #aspect6 #aspect7 #aspect8 #aspect9 #aspect10#aspect11

Độ đ o F 1 Danh sách các khía cạnh

tƣơng ứng. Nhìn vào Hình 3.1, chúng ta thấy đƣợc sự hiệu quả của mơ hình đối với các khí cạnh nhƣ “Hành vi”, "Kỹ năng giảng dạy”, “Cung cấp tài liệu” với độ đo F1 lần lƣợt là 84,10%, 78,99% và 73,68%. Trong khi đĩ, các khía cạnh nhƣ “Chương trình học”, “Nĩi chung”, “Kiến thức” với độ đo F1 lần lƣợt là 42,86%, 47,71% và 54,76%. Kết quả này cĩ thể giải thích bởi vì số lƣợng các khía cạnh này thƣờng là các khía cạnh cĩ số lƣợng ý kiến ít trong dữ liệu. Do đĩ, để nâng cao hiệu quả của các khía cạnh này, nhĩm nghiên cứu sẽ cố gắng bổ sung các dữ liệu bằng cách gán nhãn thêm hoặc áp dụng các phƣơng pháp tăng cƣờng dữ liệu. Do đĩ, các nghiên cứu trong tƣơng lai khi sử dụng bộ dữ liệu của nhĩm nghiên cứu cần tập trung chú ý các nâng cao hiệu quả các khía cạnh này để tăng hiệu quả tổng quan của tồn hệ thống.

Cịn đối với mơ hình BERT thì Hình 3.5 mơ tả kết quả chi tiết độ đo F1 của từng khía cạnh trong bộ dữ liệu kiểm tra. Nhìn vào Hình này, chúng ta thấy rằng, mơ hình BERT cho kết quả tốt trên các khía cạnh tƣơng ứng nhƣ mơ hình BiLSTM-CNN. Tuy nhiên, kết quả trên từng khía cạnh lại cao hơn mơ hình BiLSTM-CNN, điều này chứng tỏ rằng mơ hình BERT cho kết quả tốt hơn mơ hình học sâu trên hầu hết các khía cạnh. Tƣơng tự nhƣ kết quả trên, để nâng cao hiệu quả các khía cạnh chúng ta cần tăng cƣờng dữ liệu các khía cạnh ít dữ liệu để nâng cao hệ thống. 0 10 20 30 40 50 60 70 80 90 100

Hình 3.5. Kết quả chi tiết từng khía cạnh và trạng thái cảm xúc của mơ hình

3.7. Phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lƣợng đào tạo theo khía cạnh chất lƣợng đào tạo theo khía cạnh

3.7.1. Ngơn ngữ lập trình

Để thực hiện đề tài “Xây dựng phần mềm phân tích tự động ý kiến phản

hồi của sinh viên về chất lượng đào tạo ở Phân hiệu Trường Đại học Nội vụ Hà Nội tại Thành phố Hồ Chí Minh” nhĩm nghiên cứu đã viết phần mềm minh hoạ

cho nghiên cứu kiểu giao diện Web, ngơn ngữ giao diện Tiếng Việt, và đặt tên phần mềm là Vasf Soft. Nhĩm nghiên cứu đã sử dụng các cơng cụ, thƣ viện và ngơn ngữ lập trình nhƣ sau để:

Ngơn ngữ lập trình Python: Python cĩ cú pháp rất đơn giản, rõ ràng. Nĩ

dễ đọc và viết hơn rất nhiều khi so sánh với những ngơn ngữ lập trình khác nhƣ C++, Java, C#. Python làm cho việc lập trình trở nên thú vị, cho phép bạn tập trung vào những giải pháp chứ khơng phải cú pháp.

Ngơn ngữ lập trình C#: C# (hay C sharp) là một ngơn ngữ lập trình đơn

giản, đƣợc phát triển bởi đội ngũ kỹ sƣ của Microsoft vào năm 2000. C# là ngơn ngữ lập trình hiện đại, hƣớng đối tƣợng và đƣợc xây dựng trên nền tảng của hai ngơn ngữ mạnh nhất là C++ và Java. Do đĩ C# đƣợc miêu tả là ngơn ngữ cĩ sự cân bằng giữa C++, Visual Basic, Delphi và Java.Với sự hỗ trợ mạnh mẽ của .NET Framework giúp cho việc tạo một ứng dụng Windows Forms hay WPF (Windows Presentation Foundation) dễ dàng.

Thƣ viện máy học: Trong đề tài này, nhĩm nghiên cứu sử dụng hai thƣ viện máy học bao gồm là sklearn và tensorflow keras. Đây là các thƣ viện về máy học phổ biến nhất của Python vì nĩ viết sẵn các thuật tốn lằng nhằng phức tạp và các cơng nghệ phân tích dữ liệu. Nĩ cung cấp nhiều thuật tốn học tập cho phép hồi quy, phân cụm và phân loại.

Nền tảng cơng nghệ .Net Framework (ASP.NET, WCF), HTML5:

.Net là một nền tảng phát triển mã nguồn mở, đa nền tảng, miễn phí để xây dựng

Một phần của tài liệu Xây dựng phần mềm phân tích tự động ý kiến phản hồi của sinh viên về chất lượng đào tạo ở phân hiệu trường đại học nội vụ hà nội tại thành phố hồ chí minh (Trang 55 - 64)

Tải bản đầy đủ (PDF)

(79 trang)