TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI TP.HỒ CHÍ MINHVIỆN ĐÀO TẠO CHẤT LƯỢNG CAO ---oOo---TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG PHÂN TÍCH CẢM XÚC CỦA KHÁCH HÀNG VỚI CÁC BÌNH LUẬN ĐÁNH GIÁ PHIM DỰA VÀ
Trang 1TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI TP.HỒ CHÍ MINH
VIỆN ĐÀO TẠO CHẤT LƯỢNG CAO
-oOo -TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG
PHÂN TÍCH CẢM XÚC CỦA KHÁCH HÀNG VỚI CÁC BÌNH LUẬN ĐÁNH GIÁ PHIM DỰA VÀO PHƯƠNG PHÁP TIẾP CẬN CHO BÀI TOÁN
PHÂN LOẠI VĂN BẢN
Lớp: QC2405TT
Người thực hiện: VÕ PHƯƠNG NHI
NGUYỄN THỊ TRÀ MY TRƯƠNG NGỌC LINH NA NGUYỄN THỊ NHƯ MỸ NGUYỄN THỊ PHƯƠNG NHI
Trang 2MỤC LỤC
d) Phân tích cảm xúc có thể dự đoán yếu tố trending/viral cho phim? 6
Trang 3TÓM TẮT
Cảm xúc khách hàng từ bình luận đánh giá phim là việc sử dụng các công cụ và kỹ thuật của trí tuệ nhân tạo, đặc biệt là xử lý ngôn ngữ tự nhiên (NLP), để phân tích các bình luận
mà khán giả để lại về một bộ phim Mục tiêu của việc này là xác định cảm xúc chính mà khán giả thể hiện khi xem phim, có thể là tích cực (thích, yêu thích), tiêu cực (không thích, ghét) hoặc trung lập
Những người có thể bình luận đánh giá phim để giãi bày cảm xúc là những người đã xem
bộ phim đó và hợp với độ tuổi của họ, họ xem xong có quyền đánh giá một bộ phim qua cách nhìn riêng của họ và họ chính là khách hàng
Việc đánh giá này rất quan trọng vì:
● Hiểu rõ khán giả: Nhờ việc phân tích cảm xúc, các nhà làm phim, nhà sản xuất
có thể hiểu rõ hơn về những gì khán giả thích và không thích ở bộ phim của mình
Từ đó, họ có thể điều chỉnh các sản phẩm tiếp theo để đáp ứng nhu cầu của khán giả
● Đánh giá hiệu quả của phim: Phân tích cảm xúc giúp đánh giá một cách khách
quan về sự thành công của một bộ phim, từ đó đưa ra các quyết định kinh doanh phù hợp
● So sánh giữa các phim: Bằng cách so sánh cảm xúc của khán giả đối với các bộ
phim khác nhau, có thể rút ra những bài học kinh nghiệm cho việc sản xuất phim Việc nghiên cứu các chủ đề này có thể cung cấp cho chúng ta những thông tin có giá trị Việc phân tích quan điểm (Sentiment Analysis) trên các mạng xã hội đã trở thành một phương tiện mạnh mẽ để tìm hiểu ý kiến của người dùng và có nhiều ứng dụng Mặc dù đã có nhiều nghiên cứu phân tích quan điểm của khách hàng dựa trên dữ liệu youtube,…về các chủ đề cụ thể, nhưng nghiên cứu tổng thể về quan điểm của họ vẫn còn hạn chế
Do đó, trong nghiên cứu này, chúng tôi tập trung vào việc nghiên cứu và phân tích quan điểm tổng quan cảm xúc của khách hàng về các vấn đề quan trọng thông qua nội dung trên youtube
Kết quả của nghiên cứu này sẽ giúp hiểu sâu hơn về vai trò của việc cảm xúc của khách hàng về bộ phim nào đó trong giải quyết và thay đổi nhận thức về các vấn đề toàn cầu và đóng góp vào việc định hình chính sách và ứng dụng thực tiễn trong tương lai Bằng việc phân tích dữ liệu từ các nền tảng mạng xã hội, chúng ta có thể hiểu sâu hơn về những lợi ích và nhược điểm của điều này mang lại
Trang 41 GIỚI THIỆU
a) Phân tích cảm xúc là gì?
Phân tích cảm xúc của khách hàng qua các bình luận đánh giá phim là một ứng dụng quan trọng trong lĩnh vực trí tuệ nhân tạo, giúp các doanh nghiệp và nhà sản xuất phim hiểu rõ hơn về phản hồi từ khán giả Bằng cách sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) và học máy, chúng ta có thể tự động phân loại cảm xúc của người xem trong từng bình luận, đánh giá liệu phản hồi của họ là tích cực, tiêu cực hay trung lập.Khi áp dụng vào việc phân tích bình luận đánh giá phim, kỹ thuật này giúp chúng ta hiểu rõ hơn về:
● Cảm xúc chung của khán giả: Phim được yêu thích hay không? Có những điểm
nào được khán giả đánh giá cao?
● Những yếu tố tác động đến cảm xúc: Cốt truyện, diễn xuất, hình ảnh, âm thanh
yếu tố nào gây ấn tượng mạnh nhất?
● Các vấn đề mà khán giả quan tâm: Khán giả đang mong đợi gì ở một bộ phim?
Họ không hài lòng về điều gì?
b) Tại sao phân tích cảm xúc lại quan trọng?
● Đối với nhà sản xuất phim:
○ Đánh giá hiệu quả của phim: Giúp nhà sản xuất hiểu rõ phản ứng của
khán giả đối với sản phẩm của mình
○ Cải thiện sản phẩm: Nhận biết những điểm mạnh, điểm yếu để làm phim
hay hơn trong tương lai
Trang 5○ Phát triển chiến lược marketing: Xác định đối tượng khán giả mục tiêu
và tạo ra các chiến dịch marketing hiệu quả
● Đối với nền tảng xem phim:
○ Cải thiện trải nghiệm người dùng: Tùy chỉnh nội dung gợi ý dựa trên sở
thích của từng người
○ Quản lý nội dung: Xóa bỏ những bình luận tiêu cực, độc hại.
● Đối với khán giả:
○ Quyết định xem phim: Dựa vào đánh giá của những người đã xem để lựa
chọn phim phù hợp
○ Tham gia cộng đồng: Thảo luận, chia sẻ cảm xúc về bộ phim.
c) Quy trình phân tích cảm xúc
1 Thu thập dữ liệu: Tập hợp các bình luận đánh giá từ nhiều nguồn khác nhau như
các trang web phim, mạng xã hội
2 Tiền xử lý dữ liệu: Làm sạch dữ liệu, loại bỏ các từ thừa, biểu tượng cảm xúc,
chuyển đổi văn bản về dạng chuẩn
3 Phân loại cảm xúc: Sử dụng các thuật toán máy học để phân loại các bình luận
thành các nhóm cảm xúc: tích cực, tiêu cực, trung lập
4 Trích xuất các chủ đề: Xác định các chủ đề chính được nhắc đến trong các bình
luận
5 Phân tích sâu: Tìm hiểu các mối quan hệ giữa các chủ đề và cảm xúc.
d) Phân tích cảm xúc có thể dự đoán yếu tố trending/viral cho phim?
● Xác định cảm xúc gây viral:
+Cảm xúc mạnh mẽ: Nội dung kích thích cảm xúc mạnh mẽ như vui sướng, tức
giận, sợ hãi, ngạc nhiên thường có khả năng lan truyền nhanh hơn
+Cảm xúc tích cực: Nội dung mang tính tích cực, vui vẻ thường được chia sẻ
nhiều hơn
+Cảm xúc bất ngờ: Những yếu tố bất ngờ, gây sốc cũng có thể tạo ra hiệu ứng
lan truyền mạnh mẽ
● Dự đoán tương tác của người dùng:
+Dự đoán lượt chia sẻ: Dựa vào phân tích cảm xúc, chúng ta có thể dự đoán xem
một nội dung có khả năng được chia sẻ nhiều hay không
Trang 6+Dự đoán lượt bình luận: Phân tích cảm xúc giúp dự đoán mức độ tương tác của
người dùng với nội dung
● Phát hiện các xu hướng mới: Dự đoán những xu hướng mới trong
ngành công nghiệp điện ảnh
=> Các hệ thống phân tích cảm xúc tiên tiến có thể xem xét sự thay đổi cảm xúc theo thời gian để phát hiện sớm các xu hướng, giúp các nhà sản xuất điều chỉnh chiến lược quảng
bá để tăng cơ hội lan truyền và phổ biến phim
e) Kết luận
Phân tích cảm xúc là một công cụ hữu ích để hiểu rõ hơn về ý kiến của khán giả về một
bộ phim Thông qua việc phân tích các bình luận đánh giá, chúng ta có thể đưa ra những quyết định sáng suốt hơn trong việc sản xuất, phát hành và quảng bá phim Trong thực tế, nhiều công ty phim đã ứng dụng phương pháp này để dự đoán thành công của phim trước
và sau khi công chiếu, tối ưu hóa chiến lược marketing, và cung cấp dữ liệu quan trọng
để cải thiện chất lượng sản phẩm
Trang 72 PHƯƠNG PHÁP NGHIÊN CỨU
Để đảm bảo tính đáng tin cậy và độ chính xác của nghiên cứu, chúng tôi chọn phương pháp thu thập dữ liệu phù hợp và tin cậy để truy cập vào hệ thống dữ liệu của mạng xã hội Cụ thể, chúng tôi sử dụng code bằng ngôn ngữ Python được thực thi trên môi trường Google Colab Chúng tôi thực hiện tìm kiếm thông qua các bộ lọc bài đăng (#hashtags) hay các từ khoá (Keyword) cụ thể liên quan đến chủ đề nghiên cứu Việc này giúp chúng tôi có cái nhìn toàn diện về những cảm xúc của khách hàng với các bình luận đánh giá phim dựa vào phương pháp tiếp cận cho bài toán phân loại văn bản
Hình 1 Quá trình thu thập, xử lý và phân tích dữ liệu
Theo hình 1, sau khi thiết lập môi trường chúng tôi thực hiện việc thu thập dữ liệu
và chúng tôi tiếp tục thực hiện tiền xử lý dữ liệu để làm sạch dữ liệu, dữ liệu được lọc để loại bỏ những thông tin không liên quan hoặc trùng lặp chuyển đổi thành chữ thường để
thống nhất dữ liệu, sau đó chúng tôi áp dụng các thuật toán tiền xử lý như loại bỏ các từ không có ý nghĩa (stop words) để chuẩn bị dữ liệu cho việc phân tích sau này, trích xuất đặc trưng sử dụng các kỹ thuật như TF-IDF hoặc Word Embeddings Trong quá trình thu thập dữ liệu, chúng tôi tuân thủ nghiêm ngặt các quy định về quyền riêng tư Bất kỳ dữ liệu cá nhân nào không công khai hoặc yêu cầu không được thu thập đều được tôn trọng
và không được sử dụng trong nghiên cứu.
Hình 2: Thiết lập môi trường
-pandas: Để xử lý dữ liệu
Trang 8-numpy: Để thực hiện các phép toán số học.
-nltk: Để tiền xử lý văn bản (token hóa, loại bỏ stop words, )
-tensorflow và keras: Để xây dựng và huấn luyện mô hình học sâu
Hình 3: Thu thập dữ liệu
- Sử dụng các thư viện như Tweepy: Để truy xuất dữ liệu từ Twitter
- Xây dựng các truy vấn: Sử dụng các hashtag hoặc từ khóa liên quan đến phim (ví dụ:
#reviewphim, #dienanhVietNam, ) để tìm kiếm các tweet
- Lưu trữ dữ liệu: Lưu trữ dữ liệu vào một dataframe Pandas để tiện cho việc xử lý sau này
Trang 9Hình 4: Tiền xử lý dữ liệu
-Làm sạch dữ liệu: Loại bỏ các URL, dấu câu, emoji,
-Token hóa: Chia văn bản thành các từ riêng biệt
-Loại bỏ stop words: Loại bỏ các từ không mang nhiều ý nghĩa như "là", "cũng", -Chuyển đổi thành chữ thường: Để thống nhất dữ liệu
-Trích xuất đặc trưng: Sử dụng các kỹ thuật như TF-IDF hoặc Word Embeddings
Hình 5: Xây dựng mô hình
- Chia dữ liệu: Chia dữ liệu thành tập huấn luyện và tập kiểm tra
- Chọn mô hình: Có thể sử dụng các mô hình như Naive Bayes, SVM, hoặc các mạng neural như LSTM, BERT
Trang 10- Huấn luyện mô hình: Sử dụng tập huấn luyện để huấn luyện mô hình.
- Đánh giá mô hình: Sử dụng tập kiểm tra để đánh giá hiệu suất của mô hình
3 THỰC NGHIỆM VÀ KẾT QUẢ
Phân tích cảm xúc trong các bình luận đánh giá phim là một ứng dụng phổ biến của xử lý ngôn ngữ tự nhiên (NLP) Việc này giúp các nhà làm phim, nhà phân phối và các nền tảng xem phim hiểu rõ hơn về ý kiến của khán giả, từ đó đưa ra những quyết định kinh doanh hiệu quả hơn
Bảng 1: Bảng đánh giá và phân loại cảm xúc
a) Hàng 0:
- Review: "One of the other reviewers has mentioned that " (Đánh giá của một
người dùng về một nhận xét trước đó …)
- Sentiment: "positive" (Cảm xúc tích cực).
b) Hàng 1:
- Review: "A wonderful little production <br /><br />The " (Đây là một đánh giá
tích cực, có vẻ như đánh giá một bộ phim hoặc chương trình với cụm từ "a wonderful little production")
- Sentiment: "positive" (Cảm xúc tích cực).
c) Hàng 2:
- Review: "I thought this was a wonderful way to spend ti " (Người dùng nhận xét
tích cực, cho rằng đây là một cách tuyệt vời để dành thời gian)
- Sentiment: "positive" (Cảm xúc tích cực).
d) Hàng 3:
- Review: "Basically there's a family where a little boy " (Người dùng nhận xét
tiêu cực về một câu chuyện gia đình với chi tiết liên quan đến một cậu bé…)
- Sentiment: "negative" (Cảm xúc tiêu cực).
e) Hàng 4:
- Review: "Petter Mattei's 'Love in the Time of Money' is " (Người dùng đang
nhận xét về tác phẩm "Love in the Time of Money" của Petter Mattei với thái độ tích cực)
- Sentiment: "positive" (Cảm xúc tích cực).
Trang 11Bảng 2: Tổng quan dữ liệu đánh giá cảm xúc
Count (số lượng):
● review: 50,000 Có tổng cộng 50,000 đánh giá.
● sentiment: 50,000 Có tổng cộng 50,000 nhãn cảm xúc.
Unique (số lượng giá trị duy nhất):
● review: 49,582 Trong số 50,000 đánh giá, có 49,582 đánh giá là duy nhất (không
trùng lặp)
● sentiment: 2 Chỉ có 2 loại nhãn cảm xúc duy nhất: "positive" (tích cực) và
"negative" (tiêu cực)
Top (giá trị phổ biến nhất):
● review: "Loved today's show!!! It was a variety and not " (Đánh giá phổ biến
nhất là đoạn này)
● sentiment: "positive" (Cảm xúc phổ biến nhất là "positive").
Freq (tần suất của giá trị phổ biến nhất):
● review: 5 Đánh giá phổ biến nhất xuất hiện 5 lần trong tập dữ liệu.
● sentiment: 25,000 Nhãn "positive" xuất hiện 25,000 lần, cho thấy số lượng đánh
giá tích cực và tiêu cực bằng nhau (50% tích cực và 50% tiêu cực)
Trang 12Hình 1: Phân phối độ dài của các đánh giá
Hình 6: Phân tích đoạn mã Python tạo Word Cloud từ các đánh giá tích cực
Trang 13Hình 7: Phân tích đoạn mã Python tạo Word Cloud từ các đánh giá tiêu cực
Hình 8: Biểu đồ tần suất 20 từ thường gặp nhất trong các đánh giá tích cực.
Trang 14Hình 9: Biểu đồ tần suất 20 từ thường gặp nhất trong các đánh giá tiêu cực.
Hình 10: Độ dài trung bình của đánh giá theo cảm xúc
Trang 15Hình 11: So sánh độ dài đánh giá giữa đánh giá tích cực và tiêu cực
Tóm lại, phân tích cảm xúc trong các bình luận đánh giá phim là một lĩnh vực nghiên cứu đang phát triển mạnh mẽ Với sự phát triển của các thuật toán học máy và học sâu, việc xây dựng các hệ thống phân tích cảm xúc chính xác và hiệu quả ngày càng trở nên khả thi
4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
a) Kết luận
Tối ưu hóa trải nghiệm người dùng trên các nền tảng:
Phát hiện xu hướng thị hiếu khán giả theo thời gian:
Trong thời điểm ngành phim ảnh ngày càng phát triển như hiện tại thì phân tích cảm xúc của khách hàng qua các bình luận đánh giá phim bằng phương pháp phân loại văn bản là một hướng
đi có tính ứng dụng cao, đặc biệt trong ngành giải trí và dịch vụ khách hàng Từ kết quả của việc phân tích này giúp cho các nhà làm phim, nhà phát hành, và nhà quảng cáo nắm bắt cảm xúc thực sự của khán giả về bộ phim Điều này cho phép họ thấy được các yếu tố mà khán giả yêu thích, cũng như những yếu tố không đạt yêu cầu Thông qua đó họ sẽ cho ra những bộ phim ngày càng phù hợp và hấp dẫn với thị hiếu của người xem hơn Không chỉ vậy, việc xác định cảm xúc tích cực hay tiêu cực trong phản hồi của người xem, các đội ngũ marketing có thể điều chỉnh chiến lược quảng bá, nhấn mạnh những điểm mạnh mà khán giả đã bày tỏ sự yêu thích, đồng thời tránh những yếu tố bị đánh giá thấp Phân tích cảm xúc có thể là cơ sở để các nhà làm phim rút ra bài học và cải thiện chất lượng sản phẩm Ví dụ, nếu một bộ phim nhận nhiều phản hồi tích cực về mặt kỹ xảo nhưng lại có những phê bình tiêu cực về cốt truyện, thì trong các dự án tiếp
Trang 16theo, cốt truyện có thể được chú trọng nhiều hơn Phân tích này giúp các nền tảng chiếu phim (như Netflix, YouTube) tối ưu hóa đề xuất nội dung dựa trên phản hồi cảm xúc từ người dùng Khán giả có thể được gợi ý những bộ phim phù hợp với sở thích và cảm xúc của họ Khi có một lượng dữ liệu đủ lớn, việc phân tích cảm xúc sẽ giúp xác định được xu hướng thị hiếu khán giả theo thời gian Từ đó, các hãng phim có thể dự báo và đáp ứng các xu hướng mới một cách hiệu quả hơn Trong bài toán này, các kỹ thuật như học sâu (deep learning), xử lý ngôn ngữ tự nhiên (NLP) và học máy (machine learning) đều có thể được áp dụng và đã cho thấy nhiều kết quả khả quan Các mô hình như BERT, LSTM, hoặc các mạng CNN đã đạt hiệu suất tốt trong việc phân loại cảm xúc (tích cực, tiêu cực, hoặc trung tính) từ bình luận phim Dù là vậy nhưng phương pháp này vẫn chưa hoàn toàn hoàn thiện nên hiện tại chúng ta vẫn cần có các phương hướng phát triển hợp lý hơn
b) Hướng phát triển
Một số ví dụ cho các phương hướng phát triển dành cho phương pháp này chính là:
1 Tối ưu hóa mô hình: Sử dụng và thử nghiệm các mô hình tối ưu hơn, như
transformer mới, các phiên bản cải tiến của BERT như RoBERTa hoặc DistilBERT
để cải thiện độ chính xác và tốc độ phân loại
2 Cá nhân hóa phân tích cảm xúc: Phát triển hệ thống có khả năng nhận diện và
phân tích cảm xúc dựa trên sở thích và thói quen xem phim của từng người dùng, giúp tạo ra trải nghiệm cá nhân hóa tốt hơn
3 Đa ngôn ngữ: Với sự phổ biến của các nền tảng xem phim trên toàn cầu, hệ thống
phân tích cảm xúc có thể phát triển để hỗ trợ đa ngôn ngữ Điều này yêu cầu các
mô hình có khả năng xử lý dữ liệu ngôn ngữ đa dạng và phức tạp
4 Phân tích sâu hơn về chủ đề và bối cảnh: Thay vì chỉ phân tích cảm xúc chung,
hệ thống có thể đi sâu hơn vào từng yếu tố trong phim, như cốt truyện, diễn xuất, hiệu ứng hình ảnh, hoặc âm nhạc để đưa ra kết quả phân tích cụ thể hơn cho từng khía cạnh
5 Ứng dụng dữ liệu thời gian thực: Triển khai các hệ thống phân tích cảm xúc trên
dữ liệu thời gian thực để giúp các nền tảng phát hiện nhanh các xu hướng cảm xúc của người xem theo thời gian, từ đó điều chỉnh và cải thiện nội dung chiếu kịp thời
6 Học chuyển giao (Transfer Learning): Sử dụng các mô hình đã được huấn luyện
trên các tập dữ liệu lớn để giảm thiểu thời gian và chi phí huấn luyện, đồng thời cải thiện hiệu suất trên các dữ liệu bình luận phim đặc thù
Ngoài những cái ví dụ như trên thì còn có khá nhiều ví dụ khác Nhưng những điểm chung của các phương hướng phát triển này chính là giúp hệ thống phân tích cảm xúc trở nên chính xác hơn, phản ánh trung thực cảm nhận của khách hàng, từ đó góp phần thúc đẩy các chiến lược marketing và cải tiến nội dung phù hợp với thị hiếu của người xem