Đặc biệt hệ thống giáo dục cũng vậy, thông qua trạng thái cảm xúc này của sinhviên giúp giảng viên nói riêng và các nhà nghiên cứu giáo dục nói chung có nhiềugóc nhìn bao quát và sâu sắc
TONG QUAN LUẬN VĂN 5c 12 1.1 Đặt vấn đề -c+scctttth ng re 12 1.2 Động lực nghiên cứu luận văn 5 5 + Series 13 1.3 Mục tiêu và phạm vi của luận văn - + + + + ++svessseesssers 13 1.4 Các cách thức nghiÊn CỨU - - - E321 1E 1E EESeEEseerseeeererereere 14 1.5 Ý nghĩa bài nghiên CỨU: 2-2 2 2S +E£Ek+EE+EE£EE£EEEEErEeEEerkerkrrkrrk 15 1.6 NOi dung 1Uan Van 2 13
Cùng với su phát triển của khoa học kỹ thuật mạnh mẽ như hiện nay đã mang lại nhiều ảnh hưởng cho nhiều khía cạnh của xã hội khác nhau Dưới tác động đó, lĩnh vực giáo dục cũng có những thay đôi đáng ké Cụ thé là trong những năm trở lại, những đột phá, giúp sinh viên lĩnh hội các kiến thức của nhân loại theo một phương thức dé dang hơn, thay đổi nâng cao các chương trình học, tăng cường chất lượng giáo dục đã đạt được những thành tựu đáng kê.
Dé đáp ứng được các yêu cầu của xã hội hiện nay, người học cần phải trau dồi trình độ học van, tay nghề chuyên môn của mình Do đó, việc học tập không ngừng phát triển kiến thức tổng quát cũng như sâu rộng trên lĩnh vực mà sinh viên quan tâm, học hỏi các kinh nghiệm thực tiễn cần được đưa lên hàng đầu Đồng thời chất lượng giảng dạy của giảng viên và người truyền đạt hướng dẫn kiến thức mới cũng được quan tâm không kém.
Vì thế trong các trường học hiện nay dé xác định được đúng chất lượng môn học, cần chú trọng đặc biệt quan tâm đến việc giảng dạy của giảng viên, cũng như các yêu tổ môi trường khác liên quan trực tiếp đến việc học như các thiết bị học tập cần thiết Do đó nhà trường thường tiễn hành khảo sát dé lay những bình luận phản hồi mang tính tích cực, tiêu cực, trung lập của sinh viên về sự hài lòng cho từng môn học vừa hoàn thành ví dụ: “Thay dạy rat nhiệt tình”, “Cô thường đi day trễ giờ, cung cấp tài liệu ít và chưa được cập nhật”, “Phòng học hơi tối”, Tuy nhiên thời gian, nhân sự và chi phí cho việc phân tích, xử lý những bình luận trên bằng phương pháp thủ công là quá lớn.
Như vậy, một câu hỏi được đưa ra liệu có một phương pháp nào có thê phân tích, xử lý những bình luận này một cách nhanh chóng và hiệu quả hay không? Vì nếu chúng ta tìm được phương pháp đó sẽ giúp cho các bộ phận, phòng ban có thé kiểm soát, đánh giá nhằm tăng cường chất lượng học tập, cũng như tim ra các van dé chính xác và kịp thời đưa ra các giải pháp phù hợp có tác dụng thiết thực cho việc cải tiến và nâng cao chất lượng giáo dục đối với từng môn học đã giảng dạy.
1.2 Động lực nghiên cứu luận văn
Ngày nay có vô số bài báo khoa học cũng như nhiều tạp chí đề cập tới kỹ thuật Deep Learning dé phân tích trạng thái cảm xúc của con người nhưng chủ yếu tập trung vào những lĩnh vực như y tế, thương mại, tuy nhiên, trên phạm vi giáo dục có rât ít ân phâm được công bô cho nội dung này.
Chính vì ý thức được mức độ quan trọng trong việc đánh giá chất lượng học tập, tôi đã thực hiện luận văn này và đây chính là lý do và động lực giúp cho luận văn ra đời Động lực chủ yếu của bài viết này xoay quanh việc áp dụng mô hình Deep Learning thích hợp nhằm để khảo sát mức độ hài lòng của người học cho từng môn học cụ thể đồng thời khảo sát chất lượng học tập của họ thông qua những phản hồi bình luận và tạo ra 1 app phù hợp dé phân tích ý kiến phản hồi hiệu quả linh hoạt và trực quan.
Ngoài ra công việc, hiện tại của tác giả cũng là giáo viên tại một trường Cao Đăng nên việc áp dụng các kiên thức và kinh nghiệm của luận văn vào công việc sau này cũng tạo nên sự thúc đây lớn đê hoàn thành nghiên cứu.
1.3 Mục tiêu và phạm vi của luận văn
Mục đích của luận văn này như sau: e Tìm hiểu những thuật toán Deep Learning trong lĩnh vực phân tích cảm xúc trước đó sau đó tiến hành trình bày một kỹ thuật phù hợp đề phân tích phản hồi bình luận sinh viên Kỹ thuật này sẽ phân loại dữ liệu theo Aspect khác nhau và xác định Sentiment cho từng Aspect đó, cái ma các phương pháp trước đây chưa khai thác triệt dé dit liệu có giá trị từ những đánh giá phản hồi chỉ tập trung đánh giá cảm xúc mà chưa phân loại theo khía cạnh. e Ap dụng ABSA tiến hành thiết kế mô hình thực nghiệm dựa trên bộ data đã thiết lập trước đó và cài đặt, kiểm tra tính độ chính xác mô hình. e Xây dựng App phân tích và hiển thị kết quả rõ ràng sinh động.
Nội dung bài viết chú trọng vào việc sử dụng tập data tiếng Việt đã thiệt lập được từ feedback đánh giá chất lượng học tập của người học Phân loại được các ý
13 kiến, đánh giá này đang thuộc các tiêu chí Aspect nào và phân tích trạng thái cảm xúc theo các tiêu chí Aspect đó.
1.4 Các cách thức nghiên cứu e Phương pháp thu gom dit liệu: o Tạo một form các câu hỏi (hay bảng câu hoi), va sinh viên tại trường tiễn hành đưa ra câu trả lời Sau đó tác giả thu thập dữ liệu thu được từ Form câu hỏi, tạo thành một bộ data nguồn dé tiễn hành viết nên luận văn này. e© Phương pháp nghiên cứu lý thuyết: o Tìm kiếm, tong kết các bài báo khoa học, tài liệu, luận văn ở lĩnh vực phân tích cảm xúc con người, mô hình học sâu CNN, RNN, LSTM pre- trained PhoBERT-base, Hơn thế nữa, bài viết cũng tiến hành tìm hiểu các kỹ thuật xử lý dữ liệu như xử lí các dữ liệu bi sai lỗi chính tả, tách các từ bị thiếu khoảng cách trong câu trả lời , xóa đi những kí tự dư thừa, vô nghĩa trong câu, o Tìm hiểu thêm các nội dung về ngôn ngữ lập trình Python dé xây dựng
App phù hop. e Phuong pháp thực nghiệm: o_ Xuyên suốt quá trình tìm hiểu lý thuyết, tìm ra các khó khăn trong nghiên cứu, dựa trên những kết quả của những nghiên cứu tương đồng, tôi đề xuất mô hình Deep Learning cho đề tài phân tích phản hồi bình luận sinh viên, sau đó chạy thử bộ dữ liệu thu thập trước đó trên mô hình này. e Phương pháp so sánh và đánh gia: o Để kiểm tra một mô hình thì có nhiều cách đánh giá khác nhau, tùy theo những vấn đề nghiên cứu khác nhau mà sẽ có các cách thức và kỹ thuật đánh giá phù hợp Trong luận văn này, tôi áp dụng cách phương pháp đánh giá mô hình nghiên cứu bằng Fl-score, Accuracy,
Giá trị khoa học: e_ Cung cấp thêm bộ dữ liệu thực nghiệm bằng Tiếng Việt. e Cung cấp thêm nghiên cứu về ABSA trong lĩnh vực giáo dục. e Đặt nên móng cho những nghiên cứu sau này có nội dung tương tự.
Giá trị thực tiễn: e Điều chỉnh lại phương pháp giảng dạy:
O Việc phân tích này giúp giảng viên nhận biết được cách thức truyền đạt hiện tại có hiệu quả hay chưa và những điều cần chú ý khi giảng dạy.
Từ đó mà giảng viên có thé đối mới lại hình thức giảng dạy tương xứng voi sinh viên. e Nâng cao cải thiện nội dung môn học:
O Thông qua kết quả nghiên cứu các phản hồi giúp cho việc đánh giá sự hấp dẫn và tính thích hợp của môn học đang được giảng dạy trên khía cạnh nội dung Sinh viên có thé trình bày cảm nhận của mình về độ phức tạp của bài học và tính thực tiễn của kiến thức.
Nhờ vào đó nhà trường có thê củng có, cải thiện nội dung môn học tăng sự thích thú cho môn học, đáp ứng những kỳ vọng của sinh viên mà môn học mang lại.
Theo kết quả phân tích phản hồi môn học giúp nhà trường hiểu rõ các yêu cầu, mong đợi và nguyện vọng của sinh viên đối với từng môn học được phân tích ý kiến phản hồi. e Đáp ứng nhu câu sinh viên:
CƠ SỞ LÝ LUẬN VA CÁC NGHIÊN CỨU TRƯỚC ĐÓ
Cơ sở lý luận .- HH TH TH Hà HH Hư HH nh ng 18 1 Natural Language PrOC€SSIT - 5 11+ vs ssksrsereree 18 2 Word Embedding . - - + + +31 vn ng Hư 19
Nhu cầu được giao tiếp là điều tất yếu trong xã hội ngày nay, do đó tạo ra một số lượng lớn nguồn dit liệu văn bản mỗi ngày Lượng thông tin này rất lớn không những từ mạng xã hội, các phương tiện truyền thông, các tài liệu nghiên cứu khoa học đến những đánh giá phản hồi hàng hóa tiêu dùng, Tuy nhiên nó chưa tận dụng hết giá trị tiềm năng, máy tính giúp con người có thê khai thác nhiều giá trị hơn từ những đữ liệu, vì vậy để việc hỗ trợ máy tính hiểu được những thông tin đó là rất cần thiết.
Xử lý ngôn ngữ tự nhiên (NLP) là một hướng phát triển vô cùng quan trọng của trí tuệ nhân tạo (Artificial Intelligence) Từ sự thịnh hành của giao tiếp người và máy cũng như sự tiến bộ vượt trội, các giải pháp đám mây là động lực thúc day các ứng dụng NLP ra đời NLP với nhiệm vụ tiếp nhận và phân tích một lượng lớn thông tin đê mô phỏng các tương tác giữa con người theo cách như con người.
Word Embedding là một phương thức hữu hiệu trong việc biéu diễn từ, mà theo đó mỗi từ sẽ được đại diện bằng một vector số chứa về ý nghĩa của từ ngữ đó Điều này cho phép việc xử lý từ vựng trở nên hiệu quả trên máy tính Có nhiều kỹ thuật Word Embedding đã được dé xuất như Word2vec, GloVe,
Tuy nhiên, những phương thức này đều cần tuân thủ hai điều kiện sau: e Mỗi từ chỉ có một biểu diễn duy nhất, có nghĩa là hai từ khác nhau sẽ được biểu diễn băng hai vector khác nhau. e_ Hai từ có ý nghĩa tương đương sẽ được biéu diễn bằng hai vector tương tự hoặc gần nhau trong không gian vector, có nghĩa là khoảng cách giữa chúng sẽ nhỏ.
Mã hóa one — hot (OH) được biéu diễn dưới dạng vector nhị phân.
Mỗi giá trị hạng mục được mã hóa băng một vector chỉ có một chiêu duy nhât băng có giá trị băng 1, còn các chiêu còn lại bang 0, vector nay còn được gọi là “ OH vector” Sô chiêu của OH vector băng sô từ.
Mã hoá one-hot là một phương pháp dé chuyền đồi từng từ ở một từ điển thành một vecto số, và nó dùng nhiều trong NLP va DL , thường dùng cho trường hop từ vựng có kích thước nhỏ Kỹ thuật này đảm bảo rằng mỗi từ khác nhau sẽ có một vectơ khác nhau Tuy nhiên, khi sử dụng one-hot vector cân chú ý các nội dung sau: e Khi làm việc với từ vựng lớn, kỹ thuật này dẫn đến các vectơ thừa với số chiêu lớn, và gân như tât cả các chiêu của vectơ có giá trị 0. e Ky thuật này không thé biểu diễn sự khác nhau về mặt ý nghĩa giữa các từ.
Hai vectơ one-hot bất kỳ luôn có khoảng cách.
Năm 2013, một nhóm các nhà nghiên cứu do Tomas Mikolov dẫn đầu đã công bố công khai mô hình Word2vec Đây là mô hình phé biến dùng dé biểu diễn từ thành những vector từ trong không gian vector với số chiều thấp hơn trong tập dataset.
Có 2 cách thức dé thiết lập mô hình trên: e Skip-gram: Thông qua các từ đích biết trước dự đoán những từ ngữ cảnh e Continuous Bags Words (CBOW): Dự đoán từ dich nếu biết trước những từ ngữ cảnh input projection output input projection output
Hình 2 2 Mô hình Skip-gram và CBOW
Machine Learning (ML) là một lĩnh vực của AI, trải qua các thời kỳ phát triển,
ML tập trung vào việc phát triển thuật toán và mô hình giúp máy tính có thể học từ data và tự động cải thiện hiệu suất trong trình giải quyết các nhiệm vụ được giao
Hình 2 3 Các thời điểm phát triển AI, ML, DL
Một số ứng dụng hiện tại của ML được dùng phô biến ngày nay như: e Đưa ra đề cử sản phẩm: o Các công ty như Amazon va Netflix sử dung ML dé phân tích dit liệu về hành vi mua hàng và xem phim của người dùng. o Dựa trên thông tin này, hệ thống ML đề xuất những nội dung phù hợp với sở thích cá nhân của người dùng, tăng trải nghiệm và tăng khả năng tiếp thị. e Dich máy: o Công nghệ dich máy sử dung ML dé tu động dich van ban từ một ngôn ngữ này sang ngôn ngữ khác. o Hệ thống ML học từ các bộ data đã được dịch trước đó và dùng các mô hình mục đích cho việc dự đoán và tạo ra các bản dịch chính xác. e Xe tự lái: o_ Các công ty /tập đoàn lớn trên thé giới như Waymo, Tesla, Ứng dụng
Machine Learning sử dụng trong việc phát triển các thuật toán để xe tự lái có thé nhận diện và phan ứng với môi trường xung quanh.
21 o Hệ thống ML dựa trên data huấn luyện có thể hiểu từ data cảm biến như radar, camera và lidar để tự động lái xe, nhận biết biển báo giao thông, dự đoán hành vi người lái khác và đưa ra quyết định an toàn
Phanh khẩn cdo Nhân dạng người di bộ Tránh dụng đệ
F we Redor ` Cảnh báo vạch kẻ -
Hình 2 4 Hình ảnh minh họa xe tự lái sử dụng hệ thống Machine Learning e Phân tích tín hiệu y tế: o Được dùng cho phân tích, chân đoán các tín hiệu y tế như hình ảnh chụp
X-quang, dữ ligu ECG hoặc dữ liệu gen. o_ Khả năng học từ thông tin y tế và cung cấp dự đoán những bệnh lý, hỗ trợ việc chân đoán và điều trị. e Nhận dạng giọng nói: o Được dùng chủ yếu trong các ứng dụng nhận dạng giọng nói như virtual assistant: Siri, Cortana, Alexa, Google Assistant, Bixby.
22 o Hệ thông học từ dữ liệu giọng nói và nhận diện và hiéu các lệnh và yêu câu từ người dùng.
“Hey Siri” “Hey Cortana” “Alexa” “OK Google” “Hi Bixby”
Bên cạnh đó, ML còn sử dụng trên đa dạng lĩnh vực khác ví dụ: Lĩnh vực quảng cáo, dự báo thời tiết, tài chính,
Dựa trên các cách thức xử lý vân đê giải khác nhau của từng bài toán khác nhau có thê chia Machine Learning thành bốn loại chính: e Học có giám sat (Supervised Learning) e Hoc không giám sat (Unsupervised Learning) e Hoc bán giám sát (Semi-supervised Learning) e Hoc tăng cường (Reinforcement Learning)
Supervised Unsupervised Semi-Supervised Reinforcement
Machine Learning Machine Learning Learning Learning
Hình 2 6 Bốn phương pháp chính của Machine Learning
Trong đó: e Học có giám sat (Supervised Learning): o Mô hình hoc từ một tập dữ liệu huấn luyện mà đã được gán nhãn trước, mỗi mẫu data trong tập huấn luyện sẽ có data đầu vào (input) và một
Output for future inputs iis ® Strawberry awbecry G Apple
DE XUẤT MÔ HINH DEEP LEARNING
Phương pháp xây dựng mô hình . 5xx seeeserrersesee 38 3.2 Phương pháp đánh giá mô hình 56 5 SE +kEserseesseese 39 CHƯƠNG 4: TIEN HANH THUC NGHIỆM VÀ ĐÁNH GIA
Trong luận văn nảy tôi đề xuất mô hình end-to-end với một kiến trúc theo cách tiếp cận đa nhiệm (Multi-task) dé có thé xử lý đồng thời hai tác vụ phát hiện Aspect và phân tích, dự đoán sentiment, ứng dụng mô hình PhoBERT phiên bản PhoBERT- base làm mô hình tham khảo cho bộ dữ liệu Tiếng Việt.
Theo như nghiên cứu của nhóm tác giả [3], mô hình đạt được hiệu suất tốt nhất khi ta ghép bốn lớp BERT cuối cùng lại với nhau Do đó tác giả đã dùng cách tiếp cận này cho kiên trúc mô hình của mình.
Các bước xây dựng mô hình cụ thê: e Dùng pre-trained PhoBERT-base e_ Nối 4 layer cuối cùng của BERT với nhau e Dé liệu input được chuyên đổi thành một vector thấp chiều, xI € R d, trong đó d là độ dài của vector e Đầu ra của mô hình là một list C one-hot vectors, trong đó C là sỐ lượng
Aspect trên tập dữ liệu Trong trường hợp này, C = 4 Mỗi vector gồm 4 thành phần tương ứng với 3 nhãn sentiment bao gồm Positive, Negative, Neutral và một nhãn None dé chỉ định câu input có thuộc một aspect nao đó dé gan nhãn hay không.
Feedback PROFESSIONALISM] 0 | 0 | 0 | 0 các trang thiết bị đều tốt ————
Aspect Convert to 4 one-hot vectors —ơ t FACILITY MATERIAL] 0 0 0 0
Sentiment OTHERS| 0 | o fo fo] positive L_—]
Hình 3 1 Minh họa 16 neurons (4 khía cạnh x 4 nhãn sentiment)
Các đặc trưng được đưa vào một fully connected layer được tạo ra bằng cách nối C dense layer tương ứng với C one-hot vectors Vậy cuối cùng ta có 1 dense layer gồm 16 neurons (4 khía cạnh x 4 nhãn sentiment)
#fenfon_mak ho ii MATERIAL input ids Ì)m=>r last_4 hidden_states tf_operators_getitem_1 | IS a Dent [-—~ concatenate | |
InputLayer ——— Concatenate Slicing OpLambda Dropout F——_ RcuwL tolen ype ids Danse
Hình 3 2 Kiến trúc mô hình phân loại
Hàm mat mát sử dụng :
3.2 Phuong pháp đánh gia mô hình
Sau thực nghiệm, chúng ta tiến hành đánh giá mô hình.
Tùy theo các yêu cầu của đề bài mà có thê áp dụng các phương pháp khác nhau.
Trong bài nghiên cứu này, dé mà đánh giá mô hình phân tích phản hồi bình luận sinh viên sử dụng học sâu Tác giả chọn các phương pháp đo lường thông dụng hiện nay: e D6 chính xác ( Accuracy score ). e Độ đo FI (Precision, Recall và F1 score).
CHƯƠNG 4: TIỀN HÀNH THỰC NGHIỆM VÀ ĐÁNH GIÁ
Trong phần tiếp theo của luận văn, tác giả thuật lại quy trình tiến hành thực nghiệm va đánh giá mô hình dé xuat.
Quá trình này lân lượt trải qua các thời điêm sau: e Giai đoạn 1: Xây dựng bộ dữ liệu: o Xây dựng bộ dữ liệu bắt đầu từ việc thu thập dữ liệu cần thiết tiếp theo thực hiện lọc trích xuất dữ liệu dạng chữ phù hợp dé làm input cho mô hình là giai đoạn vô cùng cần thiết vì nó tác động đến tính chính xác kết quả phân tích, dự đoán sau này. o_ Lọc data: Sau khi hoàn tất bộ dataset phù hợp tác giả tiến hành tiền xử lý dữ liệu dé làm sạch dữ liệu trước khi đưa vào mô hình điều này giúp loại bỏ các trường hợp không mong muốn như các lỗi về dấu câu, viết tắt, ngữ pháp, Giúp mô hình giảm thời gian huấn luyện và tăng hiệu suất. e Giai đoạn 2: Cài đặt mô hình: o_ Mô hình được tiến hành cài đặt trên môi trường huấn luyện mô hình:
Google Colab GPU T4 e Giai đoạn 3: Đánh gia mô hình: o Dựa vào kết quả thực nghiệm đánh giá mô hình qua các độ do phù hợp e Giai đoạn 4: Xây dung ứng dụng: o Xây dựng một ứng dụng giúp người dùng phân tích, xử ly data trực tiếp trên một câu bat kỳ hay trên một file tải lên và hién thị kết quả.
Quá trình thu thập data là giai đoạn quan trọng vì một bộ dữ liệu thực nghiệm phù hợp có thể tác động đến tính chính xác của kết quả phân tích.
Suốt quá trình tìm hiểu, như nhóm tác giả [4] đã trình bày, ngày nay không tìm thấy nhiều bộ thực nghiệm về feedback sinh viên, từ đó định hướng đầu tiên của tác
40 giả là xây dựng tập dữ liệu phù hợp cho việc nghiên cứu cũng như đóng góp một bộ dữ liệu thực nghiệm cho việc nghiên cứu trong tương lai.
Bộ dataset thực nghiệm được tác giả thu thập từ các dữ liệu phản hồi đánh giá của người học sau khi hoàn thành môn học tại các cơ sở giáo dục như Cao Đăng Kỹ
Sau đó tiến hành trích xuất các bình luận dang chữ (text) dé tiễn hành phân tích.
Tác giả sử dụng những bình luận phản hồi (feedback) dạng chữ (text) đã được trích xuất trong quá trình thu thập sau đó tiền hành gán nhãn theo bốn Aspects và ba trạng thái sentiment khác nhau thích hợp với mô hình giải quyết bài toán phân tích phản hôi bình luận sinh viên sử dụng học sâu đặt ra.
Việc chon bôn Aspects trong bài nghiên cứu vì: e Aspect “1” về những khía cạnh đánh giá chất lượng của tài liệu giảng day: o Đảm bảo chat lượng của việc học:
“+ Tai liệu là một công cụ đặc biệt cần thiết trong suốt quá trình học tập va sinh viên Vì nó cung cấp những kiến thức cần thiết dé sinh viên có thé theo kịp quá trình học tập trên lớp. s* Đánh giá chất lượng tài liệu góp phần bảo đảm nội dung học tập, truyền đạt là chính xác và đầy đủ, để đạt được mục đích của môn học. o Tạo điều kiện thuận lợi cho người học:
Cài đặt mô hiphe IN SR aecccc ccc eestscescsssessnsenesseees 48 4.3 Đánh giá kết quả thực nghiệm .ceccececcssessessessessessessesseseseesesseeseeseesees 49 4.4 Xây dựng Ứng dỤng - s11 v.v TH ng kg 57 4.4.1 Tô Huarltt ' ẤP K
Môi trường huan luyện mô hình: Google Colab GPU T4
Tham số đầu vào mô hình: e Input_ids: Một chuỗi các số nguyên đại diện cho các token trong văn bản đầu vào, mỗi token đều được gán một ID duy nhất. e Token_type_ids: Một chuỗi các số nguyên chỉ định ngữ cảnh của từng token. Đối với hai câu được nối lại với nhau, token_type_ids sé là 0 cho câu thứ nhất và 1 cho câu thứ hai Nếu chỉ có một câu, tat cả các token_type_ids sẽ là 0. e Attention mask: Một chuỗi các số nguyên chỉ định xem liệu một token có nên được mô hình chú ý đến hay không Giá trị 1 cho các token có ý nghĩa và 0 cho các token đặc biệt như padding, giúp mô hình tập trung vào các phần quan trọng của văn ban dau vào.
Batch size: 16 Độ dài tối đa của một input vector: 256 Đối với những vector có độ dài ngắn hơn 256, ta thêm các giá tri 1 vào vector cho đến khi độ dài của nó là 256.
Sử dụng kỹ thuật dừng sớm (Early Stopping): ngừng huấn luyện mô hình nếu mat mát trên tập validation không giảm sau 5 epoch liên tiếp.
Tinh chỉnh mô hình PhoBERT sử dụng thuật toán Adam và khởi tạo giá tri learning rate là le-5.
4.3 Đánh giá kết quả thực nghiệm
Tôi tiến hành đánh giá mô hình qua các độ đo đã giới thiệu trước đó sau khi chạy thực nghiệm mô hình. Đầu tiên đánh giá ở hai vấn đề phát hiện Aspect và Sentiment ứng với Aspect đó, sau đó là quá trình nhận xét kết quả tổng quát mô hình thông qua các biểu dé:
ASPECT DETECTION m Precision m Recall m F1-score m Accurary
Hình 4 4 Đánh giá thực nghiệm van dé phát hiện Aspect
Hình 4 5 Đánh giá thực nghiệm bài toán phát hiện Sentiment m Precision m Recall m F1-score m Accurary
ASPECT + SENTIMENT mPrecision mRecall mFi-score mAccurary
Hình 4 6 Đánh gia thực nghiệm bai toán Aspect va Sentiment
Bảng 4 3 Tổng quát kết quả đánh giá
Tiếp theo đánh giá chi tiếp theo từng Aspect trong bài toán phát hiện khía cạnh.
Hình 4 7 Kết quả đánh giá ASPECT FACILITY
ASPECT FACILITY mPrecision mRecall mF1-score
ASPECT MATERIAL mPrecision mRecall mF1-score
Hình 4 8 Kết quả đánh gia ASPECT MATERIAL
100.00% ‘ay 4 a 7 mPrecision mRecall mF1-score
Hinh 4 9 Két qua danh gia ASPECT PROFESSIONALISM
Hình 4 10 Kết quả đánh giá ASPECT OTHERS
Bang 4 4 Tổng quát đánh giá theo từng Aspect
Mô hình phân loại khía cạnh tốt nhất trên khía cạnh FACILITY với f1-score lên đến 89.19%
Tiếp theo đánh giá chỉ tiếp theo từng giá trị cảm xúc trong bài toán phát hiện
Hinh 4 11 Két qua danh gia sentiment positive
Hinh 4 13 Két qua danh gia sentiment neutral
Bang 4 5 Tổng quát đánh giá theo sentiment
Kết quả bài toán phân loại cảm xúc đạt độ chính xác trung bình 89.39% và f1- score là 68.51% Mô hình hoạt động tốt nhất với nhãn positive (f1-score 77.56%) và tệt nhất với nhãn neutral (f1-score 30%).
Bang 4 6 Tổng quát đánh gia chỉ tiết các Aspects theo Sentiment
Tổng hợp lại, bài toán phân tích phản hồi bình luận sinh viên sử dung Deep
Learning có độ chính xác trung bình là 89.39% và f1-score là 60.69% Nhìn chung, mô hình phân loại tốt nhất các feedback tiêu cực về cơ sở vật chất (FACILITY - negative) với fI-score 90.57% và các feedback khen ngợi sự chuyên nghiệp của giảng viên (PROFESSIONALISM - positive) với fI-score 86.96%.
Tác giả thiết lập và tạo một App đơn giản cho van đề nêu lên ban đầu bang cách dùng Streamlit.
Tác giả dùng ngôn ngữ Python dé viết lên ứng dụng này mục đích tạo điều kiện cho người dùng phân tích dữ liệu hiệu quả, dễ dàng, linh hoạt và trực quan hơn.
Hình 4 14 Sơ đồ giao diện ứng dụng thiết kế
Xem dant Xem kết quả phân tích câu ích ý kiến phản A Rcc hôi trực tiệp Biéu đô cột
Trên một file tải lên em - kết qua Biểu đồ tron phân tích file
Hình 4 15 Sơ đồ chức chức năng ứng dụng
4.4.2 Giao diện và chức năng ứng dụng
Phân giao diện ứng dụng gôm bôn trang và các chức năng:
58 e Trang giới thiệu (Introduce): Hién thi thông tin bài nghiên cứu x Deploy Ý
Analysis ĐẠI HỌC QUỐC GIA THÀNH PHO HỒ CHÍ MINH
Evaluate Gy TRUONG DAI HỌC CÔNG NGHỆ THONG TIN
PHAN TÍCH PHAN HỒI BÌNH LUẬN
SINH VIÊN SỬ DỤNG HỌC SÂU
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
GVHD: TS Đỗ Trọng Hợp HV: Trần Ngọc Khánh Vinh
Hình 4 16 Trang giới thiệu của ứng dụng e Trang thống kê (Statistics): Hiển thi thống kê dữ liệu nghiên cứu x Deploy 3
Introduce a ˆ ~ na na + me THONG KE DU LIEU PHAN TICH
PHAN BO CAC KHÍA CANH
Hình 4 17 Trang thống kê của ứng dụng
59 e Trang đánh giá (Evaluate): Hiển thị các kết quả đánh giá mô hình xây dựng để giải quyết bài toán. x introduce
Hình 4 18 Trang đánh gia mô hình của ứng dụng e Trang phân tích (Analysis): Hiển thị phân tích ý kiến phản hồi trực tiếp:
KẾT QUẢ ĐÁNH GIÁ MÔ HÌNH
Deploy ‡ o Phân tích một câu phan hồi bất kỳ: Nhận dữ liệu input một câu feedback và trả về kết quả sau khi đã phân tích
‘wavs Phan tích phan hồi binh luan
Trên một câu bất ky
Nhập bình luận của bạn:
Trên một file tải lên
Drag and drop file here Browse files
Hình 4 19 Trang phan tích — input một cau bat ky của ứng dụng x Deploy
‘oat Phan tich phan hoi binh luan
Trên một câu bat ky
Nhập bình luận của bạn: thay dạy nhiệt tình, hướng dẫn sinh viên từng chút một
Kết quả phân tích => PROFESSIONALISM, positive
Trên một file tải lên
B® Drag and drop file here imit 200MB per file - XLSX, CS\
Hình 4 20 Trang phân tích — output một câu bat kỳ của ứng dụng
61 o Phân tích một file dữ liệu tải lên:
+* Nhận input vào là một file chứa các phan hôi x Deploy 3 ntroduc ana Phân tích phan hôi bình luận aluate
Trên một câu bất kỳ
Nhập bình luận của bạn:
Trên một file tải lên
Di id drop file hị rag and drop file here
Limit 200MB per file + XLSX, CS
Hình 4 21 Trang phân tích — input một file tai lên của ứng dụng s$* Trong file phản hồi có thé chứa nhiều thông tin khác như thầy cô đứng lớp, tên lớp, tên môn, và các feedback của sinh viên Sau khi tải lên, người dùng có thé chọn cột chứa phản hồi dé tiến hành phân tích mà không cần xóa các cột không cần thiết trong file ban đầu.
* ++ Kết quả trả về dang bảng chứa các ý kiến phản hồi (feedback), các trạng thái cảm xúc (sentiments) theo khía cạnh (aspect) và một biểu đồ theo khía cạnh được chọn giúp cho người dùng dễ hình dung hơn về kết quả phân tích. s* Biểu đồ chúng ta có thé chọn hiền thị biểu đồ cột hay biểu đồ tròn.
* Mặt khác, người dùng cũng có thé tải về file kết quả đã phân tích dé lưu trữ.
Phần tích phan hồi bình luận
Trên một câu bất kỳ
Nhập bình luận của bạn:
Trên một file tải lên
B® Drag and drop file here
Limit 200MB per file ằ XLSX, CSV
Chọn cột chứa văn bản feedback
Dữ liệu đầu vào feedback
20 thầy hay di dạy trễ
21 thầy cung cấp đề cương chi tiết
22 nội dung rõ rằng 23 có thày giảng rất hay 24 hấp dân hài hước 25°) thầy rất thân thiện
28 cung cấp đây đủ tài liệu
29 bám sát nội dung bài học chỉ day nhiệt tình
Dữ liệu kết quả feedback
20 thay hay đi dạy trễ
21 thay cung cấp đề cương chỉtiết
28 cung cấp đầy đủ tài liệu
29 bám sát nội dung bài học chỉ day nhiệt tình.
Chọn biểu đồ. © BarChart © Pie Chart aspect
Browse files sentiment negative positive positive positive positive positive negative neutral positive positive
PROFESSIONALISM Hình 4 22 Trang phân tích — output! một file tai lên theo khía cạnh
Phan tích phan hồi bình luận
Trên một câu bất kỳ
Nhập bình luận của bạn:
Trên một file tải lên
Limit 200MB per file ằ XLSX, CSV
Chọn cột chứa văn bản feedback
Dữ liệu dau vào edback thầy hay di day tré thầy cung cấp đề cương chỉ tiết nội dung rõ rang
23 có thay giảng rất hay
28ˆ cung cấp đầy đủ tài liệu
29 bam sát nội dung bài học chi day nhiệt tình.
Dữ liệu kết quả thay hay đi dạy trẻ
21 thay cùng cấp đề cương chỉ tiết
23 có thay giảng rấthay hấp dân hài hước 25 thay rất thân thiện 26 máy lạnh quá lạnh không cổ
38 ˆ cung cấp đầy dù tài liệu bám sắt nội dung bài học chỉ đạy nhiệt tình
Sentiment Distribution for Aspect: PROFESSIONALISM positive
Browse files negative positive positive positive positive positive negative neutral positive positive negative
Hình 4 23 Trang phân tích — output2 một file tai lên theo khía cạnh
— Phần tích phản hồi bình luận
Trên một câu bất ky
Nhập bình luận của bạn:
Trên một file tải lên
Tải lên file roy Drag and drop file here
Limit 200MB per file + XLSX, CSV
Chọn cột chứa văn bản feedback
Dữ liệu dau vào feedback
20 thầy hay di dạy tre
21 thầy cung cấp đề cương chi tiết
23 có thay giảng rất hay
25 thầy rất thẫn thiện 36 máy lạnh quá lạnh
38 _ cung cấp đầy đủ tài liệu 29 bám sát nội dung bài học chi day nhiệt tinh
Browse files u kết quả feedback aspect sentiment
20 thầy hay di dạy trẻ PROFESSIONALISM negative
21 thầy cung cấp đề cương chi tiết MATERIAL positive
22 nội dung rõ ràng MATERIAL positive
33 có thay giảng rat hay PROFESSIONALISM positive
24 hấp dẫn hai hước PROFESSIONALISM positive
25 thầy rất thân thiện PROFESSIONALISM positive
26 máy lạnh quá lạnh FACILITY negative
28 | cung cấp đầy đủ tài liệu MATERIAL positive
29 bam sắt nội dung bài học chỉ dạy nhiệt tinh MATERIAL positive
Chon biếu đồ. © bái Chart
Sentiment Distribution for Aspect: MATERIAL
Hình 4 24 Trang phân tích — output1 một file tải lên theo khía cạnh MATERIAL
Phần tích phan hồi bình luận
Trên một câu bất kỳ
Nhập bình luận của bạn:
Trên một file tải lên
DOMB per file + XLSX, CSV
Chon cột chứa van ban feedback
PP feedback thay hay đi day trẻ thay cung cấp đề cương chi tiết nội dung rõ rằng, có thay giảng rất hay hấp dẫn hài hước thầy rất thân thiện. máy lạnh quá lạnh không cổ ung cấp đầy đủ tài liệu bám sắt nội dung bài học chỉ dạy nhiệt tình
Dữ liệu kết quả eedback thay hay di dạy trễ thay cung cấp để cương chỉ tiết nội dung rõ rang
6 thay giảng rất hay hấp dn hài hước thay rất thân thiện máy lạnh quá lạnh không có cung cấp day đủ tài liệu
St nội dung bài học chỉ day nhiệt tình.
Sentiment Distribution for Aspect: MATERIAL positive
Browse files negative positive positive positive positive positive negative neutral positive positive negative
Hình 4 25 Trang phân tích — output2 một file tải lên theo khía cạnh MATERIAL
CHUONG 5: KET LUẬN VA HƯỚNG PHÁT TRIEN TƯƠNG LAI
5.1 Kết luận Đi cùng với sự phát triên của xã hội, bài nghiên cứu đặt nên móng cho các vê vân đê nghiên cứu ở tương lai, bởi nó mang lại nhiêu ý nghĩa thực tiên quan trọng trên nhiều lĩnh vực như khác nhau như thương mại điện tử, y tế, giáo dục,
Trải qua thời gian thực hiện luận văn “ Phân Tích Phản Hồi Bình Luận Sinh
Viên Sử Dung Học Sâu - Student Feedback Analysis Using Deep Learning”, tác giả da thu duoc mét s6 két qua quan trong nhu: e Nắm được các thành tựu nghiên cứu dat được cùng với những thách thức khó khăn của bài toán “ Phân tích cảm xúc theo khía cạnh”. e Nam bắt được các tri thức và các nghiên cứu tương đồng đến bài nghiên cứu, làm nền tảng cho luận văn và giải đáp yêu cầu của đề tài. e© Thiết lập thành công bộ dữ liệu thực nghiệm chuẩn về feedback của sinh viên băng Tiếng Việt được chia sẻ tại đường dẫn: https://github.com/VinhTNK-
Dev/DATASETS-OF-STUDENT-FEEDBACK-IN-VIETNAMESE e Đề xuất mô hình Deep Learning cho việc phân tích phản hồi bình luận sinh viên sử dụng học sâu và đạt được những thành tựu tích cực: ©_ Trong nghiên cứu “ASPECT-BASED SENTIMENT ANALYSIS ON
STUDENT’S FEEDBACK IN VIETNAMESE” nhóm tác giả [4] trình bày phương pháp kết hợp BiLSTM-CNN đạt được kết quả với độ chính xác (Precision) 78,78% cho bài toán phát hiện khía cạnh, 73,64% cho bài toán phát hiện khía cạnh và trạng thái cảm xúc tương ứng. o Sau quá trình thực nghiệm trên mô hình PhoBERT đạt kết quả với độ chính xác (Precision) 89,31% trên bài toán phát hiện khía cạnh, 79,46% ở bài toán phát hiện khía cạnh và trạng thái cảm xúc tương ứng Kết quả này, cho thấy tính hiệu quả của mô hình PhoBERT trong luận văn. e Thiết lập một App giúp việc phân tích dữ liệu được dễ dàng, trực quan hơn.
Tuy nhiên, nghiên cứu van còn một vai vân đê chưa giải quyét được trong quá trình nghiên cứu thực hiện có hạn:
67 e_ Bộ dataset nguồn dùng cho việc huấn luyện có số lượng data còn ít, anh hưởng đến tính chính xác của mô hình còn chưa cao, dẫn đến việc phân tích khía cạnh và dự đoán cảm xúc ở khía cạnh còn hạn chế. e Tốc độ xử lý chưa được nhanh do chưa tối ưu được mã nguồn. e Chưa tiến hành các thực nghiệm so sánh với các phương pháp khác.
Ngoài ra, mô hình PhoBERT là một mô hình có kích thước lớn khi áp dụng vào bài toán phân tích cảm xúc, tiến hành huấn luyện trên bộ dữ liệu phản hồi sinh viên gap phải khó khăn trên các thiết bị hay nền tảng có tài nguyên hạn chế.
5.2 Hướng phát triển tương lai
Nhằm nâng cao hơn nữa tiến tới hoàn thiện bài toán “Phân Tích Phản Hồi Bình
Luận Sinh Viên Sử Dụng Học Sâu - Student Feedback Analysis Using Deep