Đề tài này tập trung vào việc áp dụng các phương pháp học máy đề tự động hóa và nâng cao hiệu quả của quá trình phân tích ý kiến người dùng.. Hướng tiếp cận mà chúng em quan tâm tới đó l
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỎ CHI MINH
KHOA CÔNG NGHỆ THÔNG TIN
Vì
DO AN CUOI Ki HOC MAY
DE TAI: PHAN TICH Y KIEN NGUOI DUNG BANG CAC
PHUONG PHAP HOC MAY
Người thực hiện TRẤN VĂN QUYEN - MSSV:21118981
LÊ NGUYÊN TRUNG VĨNH - MSSV:21026821
Lớp : 10050301
Khoá : 17
Người hướng dân: TS BÙI THANH HÙNG THANH PHO HO CHi MINH, NAM 2024
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỎ CHI MINH
KHOA CÔNG NGHỆ THÔNG TIN
Vì
DO AN CUOI Ki HOC MAY
DE TAI: PHAN TICH Y KIEN NGUOI DUNG BANG CAC
PHUONG PHAP HOC MAY
Người thực hiện: TRẢN VĂN QUYÉN- MSSV:21118981
LÊ NGUYÊN TRUNG VĨNH- MSSV:21026821
Lớp : 10050301
Khoá : 17
Người hướng dẫn: TS BÙI THANH HÙNG THÀNH PHỎ HÒ CHÍ MINH, NĂM 2024
Trang 3LOI CAM O'N
Chúng em xin được gửi lời cảm ơn chân thành đến thầy TS.Bùi Thanh Hùng vì
đã dành thời gian hướng dẫn và hỗ trợ trong quá trình hoàn thiện đỗ án cuối kì môn Hoc may Thầy đã giúp chúng em có được kiến thức cần thiết và kỹ năng cần có để
thực hiện đồ án một cách hiệu quả
Chúng em cảm thấy rất may mắn khi có thầy là người hướng dẫn, cùng với sự quan tâm, tận tình và những lời khuyên hữu ích của thầy, để chúng em có thể hoàn
thành đồ án tốt nhất có thẻ
Một lần nữa, chủng em xin chân thành cảm ơn thây vì sự giúp đỡ trong suốt quá trình học tập và hy vọng sẽ tiếp tục nhận được sự hỗ trợ và định hướng từ thầy trong tương lai
Trân trọng biết ơn thầy,
Trần Văn Quyên
Lê Nguyễn Trung Vinh
Trang 4_ ĐÔÁN ĐƯỢC HOÀN THÀNH
TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỎ CHÍ MINH
Tôi xin cam đoan đây là sản phâm đồ án của riêng chúng tôi và được sự hướng dẫn của TS Bùi Thanh Hùng Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phan tài liệu tham khảo
Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn góc
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm
về nội dung đồ án của mình Trường đại học Công nghiệp TP Hồ Chí Minh không
liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có)
TP Hồ Chí Minh ngày tháng năm
Tác giả
(ký tên và ghi rõ họ tên)
Trân Văn Quyến
Lê Nguyễn Trung Vinh
Trang 5PHAN DANH GIA CUA GIANG VIEN
Tp Hồ Chí Minh ngày tháng năm (kí và ghi ho tén)
Trang 6TOM TAT
Trong thời đại kỹ thuật số, lượng thông tin và ý kiến của người dùng được chia
sẻ trực tuyến ngày càng nhiều Việc phân tích và hiểu rõ những ý kiến này đóng vai trò
quan trọng trong việc cải thiện sản pham, dịch vụ và xây dựng chiến lược kinh doanh
Tuy nhiên, khối lượng dữ liệu không lỗ và sự đa đạng trong cách biêu đạt của người dùng tạo ra thách thức lớn cho việc phân tích
Đề tài này tập trung vào việc áp dụng các phương pháp học máy đề tự động hóa
và nâng cao hiệu quả của quá trình phân tích ý kiến người dùng Hướng tiếp cận mà chúng em quan tâm tới đó là phân loại ý kiến khách hàng, sử đụng các mô hình học máy như Logistie Regression, Multinomial Naive Bayes, Linear SVM va XGboost dé phân loại ý kiến người dùng thành hai nhóm tích cực và tiêu cực.Cách giải quyết vấn
đề gồm có các bước như lựa chọn bộ đữ liệu, tiền xử lý dữ liệu, xây dựng và huấn
luyện mô hình, phân tích và đánh giá kết quả
Qua quá trình nghiên cửu và thử nghiệm, chúng em đã đạt được một số kết quả quan trọng: Mô hình XGBoost và Linear Regression cho thấy hiệu suất phân loại ý kiến cao nhất với độ chính xác lần lượt là 89.57% và 89.03% Xu hướng ý kiến: Phân
cụm ý kiến giúp nhận điện các chủ dé pho biến như chất lượng sản pham, dich vu
khách hàng, va trải nghiệm người dùng Điều này giúp doanh nghiệp nắm bắt được các
vấn đề cốt lõi cần cải thiện Phân tích từ khóa cho thấy các từ như "7ovie", "8m",
"one", "like" xuất hiện với tần suất cao, phản ảnh các yếu tố mà người dùng quan tâm nhât
Những kết quả này chứng minh rằng việc áp dụng các phương pháp học máy vào phân tích ý kiến người dùng không chỉ nâng cao hiệu quả mà còn mang lại những thông tin chỉ tiết quý giá, hỗ trợ đắc lực cho quá trình ra quyết định của doanh nghiệp
Trang 7MUC LUC
LOI CAM ON
TOM TAT
MUC LUC
DANH MUC Ki HIEU VA CHU VIET TAT
DANH MUC CAC HINH VE
DANH MUC CAC BANG
Dé tai: PHAN TICH Y KIEN NGUOI DUNG BANG CAC PHUONG PHAP HỌC MÁ Y 1.1 Gidi thidu vé bai toate ccc esss ess eessecsressesstssetssresressretiesiietiissresiesetitstiissresiesetusisarersen
1.2 Phan tich yéu cau cla bai toate ccc ccccesseseeesseesressecsreteetetetetssresrersretietietiisissssetetiteisessnecaren
1.2.2 Các phương pháp giải quyết bài toán - 2 s9 211211121212212122 1210121222221 re
1.2.2.2 Tiền xử lý đữ liệu 5s s 122122211 1210212121221 1211 1212222121211 1.2.2.3 Xây đựng và huấn luyện mô hỉnh - 22 St 99E219251211211121121121212121212122 xe 1.2.2.4 Phân tích và đánh giá kết quả - 2 S221 212211211 112112111211212212121222 11a 1.2.2.5 Hạn chế -. 2:1: 21112221111211110221111211111021111211 11101010 10100 gu 1.2.3 Phương pháp đề xuất giải quyết bài toán 5à s21 21221121 221121212122122121 2222 ra I0 80 ii n1 0.88 - dddỶẲỶẢ 1.3.1 Mô hình tổng quát - 52222 2 E1 1121122111112 121212122121 1211212121221 212121222 se 1.3.2 Dac trung cha m6 hinh c0 i/NWỂE4ẳẳỶẳỶÝÝỶÝÁÝỶÝỶÝỶÝ
Trang 8TAI LIEU THAM KHAO
TỰ ĐÁNH GIÁ (Bài nhóm)
TỰ ĐÁNH GIÁ (Bài cá nhân)
Trang 9DANH MỤC Ki HIEU VA CHU VIET TAT CAC CHU VIET TAT
SVM : Support Vector Machine
SK-LEARN: Scikit-learm
TP: True Positive (s6 lượng dự đoán đúng cho lớp positive) TN: True Negative (số lượng dự đoán đúng cho lớp negative) FP: False Positive (số lượng dự đoán sai cho lớp positive) EN: False Negative (số lượng dự đoán sai cho lớp negative)
Trang 10DANH MỤC CÁC HÌNH VẼ
Hinh 1.1 : Cách tính Precision va Recall
Hình 1.2: So sánh Accurracy giữa các model
Hình 1.3: So sánh các chỉ số giữa các model
Trang 11Dé tai: PHAN TÍCH Y KIEN NGƯỜI DÙNG BẰNG CÁC PHƯƠNG PHÁP HỌC
MÁY
1.1 Giới thiệu về bài toán
Bài toán "Phân tích ý kiến người dùng băng phương pháp học máy” là một bài toán tÍ lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Mục tiêu chính của bài toán là phân loại các ý kiến,
đánh giá, bình luận của người dùng trên các nền táng trực tuyến thành các nhóm cảm xúc hoặc
đánh giá cụ thể như tích cực, tiêu cực Quá trình này bao gồm việc thu thập dữ liệu, tiền xử lý,
xây dựng và huấn luyện mô hình học máy, và cuối cùng là áp đụng mô hình để đự đoán và phân
tích các ý kiến mới
Y nghia cua bai toan nay rat rộng lớn va mang lai nhiều lợi ích thiết thực trong nhiều vực, đặc biệt là trong kinh doanh và địch vụ khách hàng Một số lợi ích chính có thể kế đến đó
là :
@ Cái thiện chất lượng sản phẩm/dịch vụ: Phân tích phản hồi tiêu cực giúp doanh
nghiệp nhận biết và khắc phục những điểm yếu trong sản phẩm hoặc dịch vụ của mình
Điều này dẫn đến việc nâng cao chất lượng sản phẩm và dịch vụ, từ đó tăng cường sự
hài lòng của khách hàng Ví dụ, một công ty có thé phát hiện ra rằng một tính năng cụ
thể trong sản phẩm của họ thường xuyên nhận được phản hồi tiêu cực, từ đó họ có thể
điều chỉnh hoặc nâng cấp tính năng đó để đáp ứng tốt hơn nhu cầu của người ding
@ Nâng cao trải nghiệm khách hàng: Hiểu rõ hơn về nhu cầu và mong muốn của khách
hàng giúp doanh nghiệp điều chỉnh các chiến lược dịch vụ và hỗ trợ để đáp ứng tốt hơn
kỳ vọng của họ Việc cải thiện trải nghiệm khách hàng không chỉ giúp duy trì khách
hàng hiện tại mà còn thu hút thêm khách hàng mới Chẳng hạn, một doanh nghiệp có thé
sử dụng phân tích ý kiến người dùng đề nhận điện những vấn để phô biến mà khách
hàng gặp phái khi sử dụng sản phẩm và từ đó cai thiện dịch vụ hỗ trợ khách hàng
@® Phát triển chiến lược marketing hiệu quả: Phân tích xu hưởng và cảm nhận của khách hàng từ dữ liệu phán hồi giúp xây dựng các chiến địch quảng cáo và marketing phù hợp
Điều này không chỉ giúp tối ưu hóa ngân sách marlceting mà còn tăng cường hiệu quá
Trang 12tích cực chủ yếu xoay quanh một yếu tố trong bộ phim,, doanh nghiệp có thể tập trung chiến dịch quảng cáo vào yếu tố này đề thu hút thêm khách hàng
Quản lý thương hiệu: Theo dõi và cải thiện hình ảnh thương hiệu dựa trên phán hồi thực tế từ người tiêu dùng, giúp đuy trì và nâng cao uy tín của thương hiệu trên thị trường Việc quản lý thương hiệu hiệu quả giúp doanh nghiệp xây dựng được một hình
ảnh tốt trong mắt công chúng và đối tác Ví đụ, nếu một thương hiệu liên tục nhận được
phán hỏi tích cực về địch vụ khách hàng xuất sắc, họ có thể sử dụng thông tin này trong
các chiến dịch PR để nâng cao hình ảnh thương hiệu
Tối ưu hóa quy trình kinh doanh: Phân tích ý kiến người đùng giúp doanh nghiệp
nhận biết các quy trình cần cái tiến Điều này dẫn đến việc tối ưu hóa các quy trình nội
bộ, từ đó giám chỉ phí và tăng hiệu quá hoạt động Chẳng hạn, nếu phản hỏi chỉ ra rằng quy trinh thanh toán trên trang web quá phức tạp và gây khó khăn cho người dùng, doanh nghiệp có thé tối ưu hóa quy trình này để cải thiện trải nghiệm khách hàng
Ra quyết định dựa trên dữ liệu: Phân tích ý kiến người dùng cung cấp thông tin chỉ tiết và có căn cứ cho việc ra quyết định Điều này giúp lãnh đạo doanh nghiệp đưa ra các
quyết định chiến lược dựa trên dữ liệu thực tế thay vì cảm tính Ví dụ, việc hiểu rõ
những yêu tố nào trong sản phâm được khách hàng ưa chuộng nhất có thể giúp doanh nghiệp quyết định nên đầu tư thêm vào các yếu tố đó hay phát triển những sản phẩm tương tự
Dự báo xu hướng: Bằng cách phân tích ý kiến người đùng, doanh nghiệp có thế nhận diện sớm các xu hướng mới nỗi trên thị trường Điều này cho phép doanh nghiệp nắm
bắt cơ hội và điều chỉnh chiến lược kịp thời dé duy tri tinh canh tranh Chang han, néu
phân tích cho thấy ngày càng nhiều khách hàng quan tâm đến các sản phẩm thân thiện với môi trường, doanh nghiệp có thê điều chỉnh chiến lược sản phẩm của mình để đáp ứng xu hướng này
Trang 131.2 Phân tích yêu cầu của bài toán
1.2.1 Yêu cầu của bài toán
Bài toán "Phân tích ý kiến người dùng bằng các phương pháp học máy" bao gỗ:
các bước: thu thập đữ liệu từ các nguồn đánh giá và bình luận, tiền xử lý dữ liệu
(làm sạch, chuẩn hóa, tokenization, stemming/lemmatization), biéu dién dé liéu dudi
dang vector số (TF-IDF, Word), lựa chọn và huấn luyện mô hình học máy (Logistic
Regression, SVM, Naive Bayes), đánh giá mô hình bằng các chỉ số (accuracy, recall,
precision, F 1-score), triển khai mô hình vào thực tế, và bao trì cải tiến mô hình đựa
trên đữ liệu mới Mục tiêu là tạo ra các biểu đồ báo cáo và insight dé hé tro quyét
dinh kinh doanh va cai thién san pham/dich vụ
1.2.2 Các phương pháp giải quyết bài toán
Phương pháp sử dụng: Mô hình hồi quy logistic (Logistic Regression)
"Sentiment Analysis Using Logistic Regression" - Tac gia: George B Aliman, 2022
1.2.2.1 Thu thập dữ liệu
- Bài báo thu thập đữ liệu từ Twitter Dược dán nhãn tích cực hoặc tiêu cực
1.2.2.2 Tiền xử lý dữ liệu
- Quá trình tiền xử lý đữ liệu bao gồm các bước sau:
+_ Loại bỏ ký tự đặc biệt: Tất cả các ký tự không phải là chữ cái hoặc sỐ (như dau
chấm câu, ký tự đặc biệt) đều bị loại bỏ
+ Chuyển đôi về chữ thường: Toàn bộ văn bản được chuyên về chữ thường đề giảm
thiểu sự phức tạp và tránh sự khác Loại bỏ từ đừng (stop words): Các từ đừng
(như "the", "is", "in") không mang nhiều ý biệt giữa các từ viết hoa và không viết
hoa
+ Xử lý lỗi chính tả: Sử dụng công cụ xử lý lỗi chính tả để sửa chữa các từ bị viết
sal
Trang 14+ Chuyên đổi văn bản thành dạng số hóa: Si dyng TF-IDF (Term Frequency- Inverse Document Frequency) dé chuyén d6i văn bản thành các đặc trưng số hóa
TR-IDF giúp xác định tầm quan trọng của một từ trong một văn bản cụ thể, so với tất cả các văn bản trong tập đữ liệu
1.2.2.3 Xây dựng và huấn luyện mô hình
- Chọn mô hình: Sử đụng mô hình hồi quy logistic (Logistic Regression) cho bài toán phân loại nhị phân này
- Chia dữ liệu: Dữ liệu được chia thành hai phần: 80% dùng đề huấn luyện và 20% dùng
đề kiểm tra
- Huấn luyện mô hình: Sử dụng tập dữ liệu huấn luyện để huấn luyện mô hình hồi quy logistic Quá trình này bao gồm việc tìm ra các trọng số toi uu dé mô hình có thể dự đoán chính xác nhất nhãn của các đánh giá
- Cross-validation: Áp dụng kỹ thuật k-fold cross-validation (k = 5) đề đánh giá và tối
ưu hóa hiệu suất của mô hình Cross-validation giúp đảm bảo rằng mô hình không bị overftting và có khả năng tổng quát tốt trên các tập đữ liệu chưa từng thấy
1.2.2.4 Phân tích và đánh giá kết quả
- Đánh giá mô hình: Đánh giá mô hình hồi quy logistic bằng các chỉ số như độ chính xác
(accuracy), độ nhạy (recall)
+ Độ chính xác: 81%
+ Độ nhạy: 85%
- So sánh với các mô hình khác: Mô hình hồi quy logistic được so sánh với các mô hình khác như SVM (Support Vector Machine) và Naive Bayes Kết quả cho thấy mô hình hồi quy logistic có hiệu suất tương đương hoặc tốt hơn trong một số trường hợp cụ thể 1.2.2.5 Hạn chế
- Đồ phức tạp ngữ cánh: Mô hình hồi quy logistic có thể gặp khó khăn khi xử lý các văn