Đề tài phân tích ý kiến người dùng bằng các phương pháp học máy

Đề tài này tập trung vào việc áp dụng các phương pháp học máy đề tự động hóa và nâng cao hiệu quả của quá trình phân tích ý kiến người dùng.. Hướng tiếp cận mà chúng em quan tâm tới đó l

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỎ CHI MINH

KHOA CÔNG NGHỆ THÔNG TIN

Vì

DO AN CUOI Ki HOC MAY

DE TAI: PHAN TICH Y KIEN NGUOI DUNG BANG CAC

PHUONG PHAP HOC MAY

Người thực hiện TRẤN VĂN QUYEN - MSSV:21118981

LÊ NGUYÊN TRUNG VĨNH - MSSV:21026821

Lớp : 10050301

Khoá : 17

Người hướng dân: TS BÙI THANH HÙNG THANH PHO HO CHi MINH, NAM 2024

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỎ CHI MINH

KHOA CÔNG NGHỆ THÔNG TIN

Vì

DO AN CUOI Ki HOC MAY

DE TAI: PHAN TICH Y KIEN NGUOI DUNG BANG CAC

PHUONG PHAP HOC MAY

Người thực hiện: TRẢN VĂN QUYÉN- MSSV:21118981

LÊ NGUYÊN TRUNG VĨNH- MSSV:21026821

Lớp : 10050301

Khoá : 17

Người hướng dẫn: TS BÙI THANH HÙNG THÀNH PHỎ HÒ CHÍ MINH, NĂM 2024

Trang 3

LOI CAM O'N

Chúng em xin được gửi lời cảm ơn chân thành đến thầy TS.Bùi Thanh Hùng vì

đã dành thời gian hướng dẫn và hỗ trợ trong quá trình hoàn thiện đỗ án cuối kì môn Hoc may Thầy đã giúp chúng em có được kiến thức cần thiết và kỹ năng cần có để

thực hiện đồ án một cách hiệu quả

Chúng em cảm thấy rất may mắn khi có thầy là người hướng dẫn, cùng với sự quan tâm, tận tình và những lời khuyên hữu ích của thầy, để chúng em có thể hoàn

thành đồ án tốt nhất có thẻ

Một lần nữa, chủng em xin chân thành cảm ơn thây vì sự giúp đỡ trong suốt quá trình học tập và hy vọng sẽ tiếp tục nhận được sự hỗ trợ và định hướng từ thầy trong tương lai

Trân trọng biết ơn thầy,

Trần Văn Quyên

Lê Nguyễn Trung Vinh

Trang 4

_ ĐÔÁN ĐƯỢC HOÀN THÀNH

TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP HỎ CHÍ MINH

Tôi xin cam đoan đây là sản phâm đồ án của riêng chúng tôi và được sự hướng dẫn của TS Bùi Thanh Hùng Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phan tài liệu tham khảo

Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn góc

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm

về nội dung đồ án của mình Trường đại học Công nghiệp TP Hồ Chí Minh không

liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện (nếu có)

TP Hồ Chí Minh ngày tháng năm

Tác giả

(ký tên và ghi rõ họ tên)

Trân Văn Quyến

Lê Nguyễn Trung Vinh

Trang 5

PHAN DANH GIA CUA GIANG VIEN

Tp Hồ Chí Minh ngày tháng năm (kí và ghi ho tén)

Trang 6

TOM TAT

Trong thời đại kỹ thuật số, lượng thông tin và ý kiến của người dùng được chia

sẻ trực tuyến ngày càng nhiều Việc phân tích và hiểu rõ những ý kiến này đóng vai trò

quan trọng trong việc cải thiện sản pham, dịch vụ và xây dựng chiến lược kinh doanh

Tuy nhiên, khối lượng dữ liệu không lỗ và sự đa đạng trong cách biêu đạt của người dùng tạo ra thách thức lớn cho việc phân tích

Đề tài này tập trung vào việc áp dụng các phương pháp học máy đề tự động hóa

và nâng cao hiệu quả của quá trình phân tích ý kiến người dùng Hướng tiếp cận mà chúng em quan tâm tới đó là phân loại ý kiến khách hàng, sử đụng các mô hình học máy như Logistie Regression, Multinomial Naive Bayes, Linear SVM va XGboost dé phân loại ý kiến người dùng thành hai nhóm tích cực và tiêu cực.Cách giải quyết vấn

đề gồm có các bước như lựa chọn bộ đữ liệu, tiền xử lý dữ liệu, xây dựng và huấn

luyện mô hình, phân tích và đánh giá kết quả

Qua quá trình nghiên cửu và thử nghiệm, chúng em đã đạt được một số kết quả quan trọng: Mô hình XGBoost và Linear Regression cho thấy hiệu suất phân loại ý kiến cao nhất với độ chính xác lần lượt là 89.57% và 89.03% Xu hướng ý kiến: Phân

cụm ý kiến giúp nhận điện các chủ dé pho biến như chất lượng sản pham, dich vu

khách hàng, va trải nghiệm người dùng Điều này giúp doanh nghiệp nắm bắt được các

vấn đề cốt lõi cần cải thiện Phân tích từ khóa cho thấy các từ như "7ovie", "8m",

"one", "like" xuất hiện với tần suất cao, phản ảnh các yếu tố mà người dùng quan tâm nhât

Những kết quả này chứng minh rằng việc áp dụng các phương pháp học máy vào phân tích ý kiến người dùng không chỉ nâng cao hiệu quả mà còn mang lại những thông tin chỉ tiết quý giá, hỗ trợ đắc lực cho quá trình ra quyết định của doanh nghiệp

Trang 7

MUC LUC

LOI CAM ON

TOM TAT

MUC LUC

DANH MUC Ki HIEU VA CHU VIET TAT

DANH MUC CAC HINH VE

DANH MUC CAC BANG

Dé tai: PHAN TICH Y KIEN NGUOI DUNG BANG CAC PHUONG PHAP HỌC MÁ Y 1.1 Gidi thidu vé bai toate ccc esss ess eessecsressesstssetssresressretiesiietiissresiesetitstiissresiesetusisarersen

1.2 Phan tich yéu cau cla bai toate ccc ccccesseseeesseesressecsreteetetetetssresrersretietietiisissssetetiteisessnecaren

1.2.2 Các phương pháp giải quyết bài toán - 2 s9 211211121212212122 1210121222221 re

1.2.2.2 Tiền xử lý đữ liệu 5s s 122122211 1210212121221 1211 1212222121211 1.2.2.3 Xây đựng và huấn luyện mô hỉnh - 22 St 99E219251211211121121121212121212122 xe 1.2.2.4 Phân tích và đánh giá kết quả - 2 S221 212211211 112112111211212212121222 11a 1.2.2.5 Hạn chế -. 2:1: 21112221111211110221111211111021111211 11101010 10100 gu 1.2.3 Phương pháp đề xuất giải quyết bài toán 5à s21 21221121 221121212122122121 2222 ra I0 80 ii n1 0.88 - dddỶẲỶẢ 1.3.1 Mô hình tổng quát - 52222 2 E1 1121122111112 121212122121 1211212121221 212121222 se 1.3.2 Dac trung cha m6 hinh c0 i/NWỂE4ẳẳỶẳỶÝÝỶÝÁÝỶÝỶÝỶÝ

Trang 8

TAI LIEU THAM KHAO

TỰ ĐÁNH GIÁ (Bài nhóm)

TỰ ĐÁNH GIÁ (Bài cá nhân)

Trang 9

DANH MỤC Ki HIEU VA CHU VIET TAT CAC CHU VIET TAT

SVM : Support Vector Machine

SK-LEARN: Scikit-learm

TP: True Positive (s6 lượng dự đoán đúng cho lớp positive) TN: True Negative (số lượng dự đoán đúng cho lớp negative) FP: False Positive (số lượng dự đoán sai cho lớp positive) EN: False Negative (số lượng dự đoán sai cho lớp negative)

Trang 10

DANH MỤC CÁC HÌNH VẼ

Hinh 1.1 : Cách tính Precision va Recall

Hình 1.2: So sánh Accurracy giữa các model

Hình 1.3: So sánh các chỉ số giữa các model

Trang 11

Dé tai: PHAN TÍCH Y KIEN NGƯỜI DÙNG BẰNG CÁC PHƯƠNG PHÁP HỌC

MÁY

1.1 Giới thiệu về bài toán

Bài toán "Phân tích ý kiến người dùng băng phương pháp học máy” là một bài toán tÍ lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Mục tiêu chính của bài toán là phân loại các ý kiến,

đánh giá, bình luận của người dùng trên các nền táng trực tuyến thành các nhóm cảm xúc hoặc

đánh giá cụ thể như tích cực, tiêu cực Quá trình này bao gồm việc thu thập dữ liệu, tiền xử lý,

xây dựng và huấn luyện mô hình học máy, và cuối cùng là áp đụng mô hình để đự đoán và phân

tích các ý kiến mới

Y nghia cua bai toan nay rat rộng lớn va mang lai nhiều lợi ích thiết thực trong nhiều vực, đặc biệt là trong kinh doanh và địch vụ khách hàng Một số lợi ích chính có thể kế đến đó

là :

@ Cái thiện chất lượng sản phẩm/dịch vụ: Phân tích phản hồi tiêu cực giúp doanh

nghiệp nhận biết và khắc phục những điểm yếu trong sản phẩm hoặc dịch vụ của mình

Điều này dẫn đến việc nâng cao chất lượng sản phẩm và dịch vụ, từ đó tăng cường sự

hài lòng của khách hàng Ví dụ, một công ty có thé phát hiện ra rằng một tính năng cụ

thể trong sản phẩm của họ thường xuyên nhận được phản hồi tiêu cực, từ đó họ có thể

điều chỉnh hoặc nâng cấp tính năng đó để đáp ứng tốt hơn nhu cầu của người ding

@ Nâng cao trải nghiệm khách hàng: Hiểu rõ hơn về nhu cầu và mong muốn của khách

hàng giúp doanh nghiệp điều chỉnh các chiến lược dịch vụ và hỗ trợ để đáp ứng tốt hơn

kỳ vọng của họ Việc cải thiện trải nghiệm khách hàng không chỉ giúp duy trì khách

hàng hiện tại mà còn thu hút thêm khách hàng mới Chẳng hạn, một doanh nghiệp có thé

sử dụng phân tích ý kiến người dùng đề nhận điện những vấn để phô biến mà khách

hàng gặp phái khi sử dụng sản phẩm và từ đó cai thiện dịch vụ hỗ trợ khách hàng

@® Phát triển chiến lược marketing hiệu quả: Phân tích xu hưởng và cảm nhận của khách hàng từ dữ liệu phán hồi giúp xây dựng các chiến địch quảng cáo và marketing phù hợp

Điều này không chỉ giúp tối ưu hóa ngân sách marlceting mà còn tăng cường hiệu quá

Trang 12

tích cực chủ yếu xoay quanh một yếu tố trong bộ phim,, doanh nghiệp có thể tập trung chiến dịch quảng cáo vào yếu tố này đề thu hút thêm khách hàng

Quản lý thương hiệu: Theo dõi và cải thiện hình ảnh thương hiệu dựa trên phán hồi thực tế từ người tiêu dùng, giúp đuy trì và nâng cao uy tín của thương hiệu trên thị trường Việc quản lý thương hiệu hiệu quả giúp doanh nghiệp xây dựng được một hình

ảnh tốt trong mắt công chúng và đối tác Ví đụ, nếu một thương hiệu liên tục nhận được

phán hỏi tích cực về địch vụ khách hàng xuất sắc, họ có thể sử dụng thông tin này trong

các chiến dịch PR để nâng cao hình ảnh thương hiệu

Tối ưu hóa quy trình kinh doanh: Phân tích ý kiến người đùng giúp doanh nghiệp

nhận biết các quy trình cần cái tiến Điều này dẫn đến việc tối ưu hóa các quy trình nội

bộ, từ đó giám chỉ phí và tăng hiệu quá hoạt động Chẳng hạn, nếu phản hỏi chỉ ra rằng quy trinh thanh toán trên trang web quá phức tạp và gây khó khăn cho người dùng, doanh nghiệp có thé tối ưu hóa quy trình này để cải thiện trải nghiệm khách hàng

Ra quyết định dựa trên dữ liệu: Phân tích ý kiến người dùng cung cấp thông tin chỉ tiết và có căn cứ cho việc ra quyết định Điều này giúp lãnh đạo doanh nghiệp đưa ra các

quyết định chiến lược dựa trên dữ liệu thực tế thay vì cảm tính Ví dụ, việc hiểu rõ

những yêu tố nào trong sản phâm được khách hàng ưa chuộng nhất có thể giúp doanh nghiệp quyết định nên đầu tư thêm vào các yếu tố đó hay phát triển những sản phẩm tương tự

Dự báo xu hướng: Bằng cách phân tích ý kiến người đùng, doanh nghiệp có thế nhận diện sớm các xu hướng mới nỗi trên thị trường Điều này cho phép doanh nghiệp nắm

bắt cơ hội và điều chỉnh chiến lược kịp thời dé duy tri tinh canh tranh Chang han, néu

phân tích cho thấy ngày càng nhiều khách hàng quan tâm đến các sản phẩm thân thiện với môi trường, doanh nghiệp có thê điều chỉnh chiến lược sản phẩm của mình để đáp ứng xu hướng này

Trang 13

1.2 Phân tích yêu cầu của bài toán

1.2.1 Yêu cầu của bài toán

Bài toán "Phân tích ý kiến người dùng bằng các phương pháp học máy" bao gỗ:

các bước: thu thập đữ liệu từ các nguồn đánh giá và bình luận, tiền xử lý dữ liệu

(làm sạch, chuẩn hóa, tokenization, stemming/lemmatization), biéu dién dé liéu dudi

dang vector số (TF-IDF, Word), lựa chọn và huấn luyện mô hình học máy (Logistic

Regression, SVM, Naive Bayes), đánh giá mô hình bằng các chỉ số (accuracy, recall,

precision, F 1-score), triển khai mô hình vào thực tế, và bao trì cải tiến mô hình đựa

trên đữ liệu mới Mục tiêu là tạo ra các biểu đồ báo cáo và insight dé hé tro quyét

dinh kinh doanh va cai thién san pham/dich vụ

1.2.2 Các phương pháp giải quyết bài toán

Phương pháp sử dụng: Mô hình hồi quy logistic (Logistic Regression)

"Sentiment Analysis Using Logistic Regression" - Tac gia: George B Aliman, 2022

1.2.2.1 Thu thập dữ liệu

- Bài báo thu thập đữ liệu từ Twitter Dược dán nhãn tích cực hoặc tiêu cực

1.2.2.2 Tiền xử lý dữ liệu

- Quá trình tiền xử lý đữ liệu bao gồm các bước sau:

+_ Loại bỏ ký tự đặc biệt: Tất cả các ký tự không phải là chữ cái hoặc sỐ (như dau

chấm câu, ký tự đặc biệt) đều bị loại bỏ

+ Chuyển đôi về chữ thường: Toàn bộ văn bản được chuyên về chữ thường đề giảm

thiểu sự phức tạp và tránh sự khác Loại bỏ từ đừng (stop words): Các từ đừng

(như "the", "is", "in") không mang nhiều ý biệt giữa các từ viết hoa và không viết

hoa

+ Xử lý lỗi chính tả: Sử dụng công cụ xử lý lỗi chính tả để sửa chữa các từ bị viết

sal

Trang 14

+ Chuyên đổi văn bản thành dạng số hóa: Si dyng TF-IDF (Term Frequency- Inverse Document Frequency) dé chuyén d6i văn bản thành các đặc trưng số hóa

TR-IDF giúp xác định tầm quan trọng của một từ trong một văn bản cụ thể, so với tất cả các văn bản trong tập đữ liệu

1.2.2.3 Xây dựng và huấn luyện mô hình

- Chọn mô hình: Sử đụng mô hình hồi quy logistic (Logistic Regression) cho bài toán phân loại nhị phân này

- Chia dữ liệu: Dữ liệu được chia thành hai phần: 80% dùng đề huấn luyện và 20% dùng

đề kiểm tra

- Huấn luyện mô hình: Sử dụng tập dữ liệu huấn luyện để huấn luyện mô hình hồi quy logistic Quá trình này bao gồm việc tìm ra các trọng số toi uu dé mô hình có thể dự đoán chính xác nhất nhãn của các đánh giá

- Cross-validation: Áp dụng kỹ thuật k-fold cross-validation (k = 5) đề đánh giá và tối

ưu hóa hiệu suất của mô hình Cross-validation giúp đảm bảo rằng mô hình không bị overftting và có khả năng tổng quát tốt trên các tập đữ liệu chưa từng thấy

1.2.2.4 Phân tích và đánh giá kết quả

- Đánh giá mô hình: Đánh giá mô hình hồi quy logistic bằng các chỉ số như độ chính xác

(accuracy), độ nhạy (recall)

+ Độ chính xác: 81%

+ Độ nhạy: 85%

- So sánh với các mô hình khác: Mô hình hồi quy logistic được so sánh với các mô hình khác như SVM (Support Vector Machine) và Naive Bayes Kết quả cho thấy mô hình hồi quy logistic có hiệu suất tương đương hoặc tốt hơn trong một số trường hợp cụ thể 1.2.2.5 Hạn chế

- Đồ phức tạp ngữ cánh: Mô hình hồi quy logistic có thể gặp khó khăn khi xử lý các văn

Tiêu đề	Phân Tích Ý Kiến Người Dùng Bằng Các Phương Pháp Học Máy
Tác giả	Trần Văn Quyên, Lê Nguyên Trung Vĩnh
Người hướng dẫn	TS. Bùi Thanh Hùng
Trường học	Trường Đại Học Công Nghiệp TP Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Đồ Án
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	29
Dung lượng	1,1 MB