TRUONG DAI HỌC KINH TE QUOC DÂN KHOA THONG KE
CHUYEN DE THUC TAP TOT NGHIEP
DE TAI: PHAN TICH DANH GIA VA BINH LUAN CUA KHACH HANG DA MUA SAN PHAM AO PHONG NAM TREN SAN THUONG MAI DIEN TU’
ETSY BANG PHUONG PHAP KHAI THAC DU LIEU VAN BAN
Trang 2TRUONG DAI HỌC KINH TE QUOC DÂN KHOA THONG KE
CHUYEN DE THUC TAP TOT NGHIEP
DE TAI: PHAN TICH DANH GIAVA BINH LUAN CUA KHACH HANG DA MUA SAN PHAM AO PHONG NAM TREN SAN THUONG MAI DIEN TU’
ETSY BANG PHUONG PHAP KHAI THAC DU LIEU VAN BAN
Trang 3LỜI CAM ĐOAN
Em là Lê Quang Anh, mã sinh viên 11190181, khóa 61, trường Đại học Kinh
tế Quốc dân, được hướng dẫn bởi TS Nguyễn Thị Xuân Mai Em xin cam đoan rằng đề tài " Phân tích đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên sàn thương mại điện tử Etsy bằng phương pháp khai thác dữ liệu văn bản"
là kết qua của nghiên cứu độc lập dưới sự hướng dẫn của T.S Nguyễn Thị Xuân Mai
và không sao chép từ bất kỳ nguồn nào khác Tất cả các số liệu và kết quả được trình
bày trong báo cáo đều là trung thực.
Hà Nội, ngày tháng 04 năm 2023
Người cam đoan
Lê Quang Anh
Trang 4LOI CAM ON
Em xin bày tỏ long biết ơn đến Trường Đại học Kinh té Quốc dân và tập thể giảng viên tại Khoa Thống kê đã tạo điều kiện, hỗ trợ, giúp đỡ em trong suốt quá trình học tập và nghiên cứu Đặc biệt, em muốn gửi loi cảm ơn sâu sắc tới TS Nguyễn
Thị Xuân Mai, người đã tận tình hướng dẫn và có những đóng góp quý báu giúp em
hoàn thành chuyên đề thực tập này.
Em cũng xin cảm ơn gia đình, bạn bè và các thầy cô trong trường và khoa đã luôn ủng hộ, động viên và chia sẻ khó khăn, đồng thời cảm ơn các thầy cô đã luôn tận tình chỉ dạy và hỗ trợ em trong suốt quá trình học tập và nghiên cứu.
Em xin trân thành cảm on!
Hà Nội, ngày tháng 04 năm 2023
Sinh viên thực hiện
Lê Quang Anh
Trang 5MỤC LỤC
PHAN MỞ ĐẦU .-: 55222 tt th HH He |
1 Lý do chọn đề tài - 2-52-5222 221211211271 211211211 2111111 xe |
2 Mục tiêu nghiên cứu - c1 31 121191111111 11 8111811111 11 Hee 2 3 Đối tượng và phạm vi nghiên cứu -¿- 2¿+2++x++zxzzxerxeees 2 4 Phuong pháp nghiên CỨU - - G22 32332313 E*EEeEEEeeererrssrrsrrrrree 3 4.1 Phương pháp tông quan nghiên cứu -2 ¿©sz©s++:s++z+2 3
4.2 Phuong pháp thu thập dữ liệu 5 25 S25 *++csstrseererresereres 3
4.3 Phương pháp khai thác dữ liệu - 55 S25 * + svrssxseresrreses 31.1.2 Phân loại sàn thương mại điện tử 555 S5 Sssssseseersserssres 4
1.1.3 M6 hình kinh doanh - - 5c 2+ St SH ri, 5 1.1.4 Ưu điểm và thách thức của sàn thương mại điện tử 5
1.2 Đánh giá của khách hàng về các sản phẩm trên sàn thương mại điện
"1 7
1.2.1 Cac yếu tố được đánh giá của khách hàng - 7
1.2.2 Một số cách thức đánh giá của khách hàng trên sàn thương mại điện
"0 d5 8
1.3 Phuong pháp khai thác dữ liệu văn bản 5525 <S<css<cxssss+ 91.3.1 Khai niệm dữ liệu văn bản 5 5 S2 *+ssEerirrrrerrrrsrrrsree 9
1.3.2 Khai thác dữ liệu văn bản bằng phương pháp Latent Dirichlet
L0 v10): NI 10
1.4 Ứng dụng của LDA trong khai thác dữ liệu văn bản 18 CHƯƠNG 2: VẬN DỤNG PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU VĂN BẢN NGHIÊN CỨU ĐÁNH GIA CUA KHÁCH HANG ĐÃ MUA SAN PHAM AO PHONG NAM TREN SÀN THUONG MẠI ĐIỆN TU ETSY 20
Trang 62.2 Thu thập dữ liệu và tiền xử lý dữ liệu +2 22vzeecrrrrrre 21 2.2.1 Thu thập dữ liệu ¿-2¿©22+2E++EEC2EECEEEEEEEEEEEEEErkrrrkerrreee 21 2.2.2 Tiền xử lý dữ liệu - 5c 5<+2kcEkeEEE 2E errrkerre 22
2.3 Đặc điểm của mẫu nghiên cứu -2- 2© +£+E++£x+£xerxezxerrxerxerree 23
2.3.1 Thống kê mô tả - 2-5252 S SE 211211211215 1111 11111 xe 23 2.3.2 Tần suất từ trong đánh giá -:- 25s SE cEerkerkerkerkerkrree 25 2.3.3 Dam may tir ngữ - nh HH HH HH HH gà 26 2.4 Kết quả nghiên cứu ¿- 2 2 +E£SE£EEeEEEEESEEEE12E12171 712121 cre 28 2.5 Một số giải pháp đề xuất -2225c 5c22S 22x 222tr 35
KẾT LUẬN - 22-52 5< SE E2112E127121121121121121211 2111111111111 11x xerre 36 DANH MỤC TÀI LIEU THAM KHẢO -cccc++z222222222522ccerrrrrr 37
Trang 7DANH MỤC HÌNH VE
Hình 1-1: Khối lượng tính toán khi không sử dung LDA - 12
Hình 1-2: Khối lượng tính toán sau khi sử dung LDA -5-=5+ 12 Hình 1-3: Quá trình simh - - - - Q2 1 222111122 1n vn ng kg nen 14 Hình 1-4: Kết quả của mô hình LDA - 2-2 5 SS£££+E££E££Ee£xerxerszxez 17 Hình 2-1: Ví dụ về đánh giá sản phẩm áo phông nam - 5+21 Hình 2-2: Mã HTML của đánh giá ccceccceeeseeesscseeeseesseeesseseesseenseenes 22 Hình 2-3: Biểu đồ Histogram biểu diễn mật độ phân bố của giá bán 24
Hình 2-4: Đồ thị Histogram biểu diễn mật độ từ được sử dụng trong đánh giá ¬— 25
Hình 2-5: Đám mây từ ngữ đánh giá chung của khách hàng - 26
Hình 2-6: Đám mây từ ngữ đánh giá 4-5 sao của khách hàng - 27
Hình 2-7: Dam mây từ ngữ đánh giá 1-2 sao của khách hàng - 27
Hình 2-8: Chọn k tốt nhất đánh giá chung mô hình LDA 30
Hình 2-9: Chọn k tốt nhất đánh giá từ 4-5 sao mô hình LDA 31
Hình 2-10: Chọn k tốt nhất đánh giá từ 1-2 sao mô hình LDA 31
Hình 2-11: Bảng phân phối hệ số B hỗ trợ lựa chọn tên chủ đề (chung) 32
Hình 2-12: Bảng phân phối hệ số hỗ trợ lựa chọn tên chủ đề (4-5 sao) 33
Hình 2-13: Bảng phân phối hệ số hỗ trợ lựa chọn tên chủ đề (1-2 sao) 33
Trang 8DANH MỤC BẢNG
Bảng 2-1: Thông tin cơ bản về đánh giá của tất cả các sản phẩm áo phông nam
— 24
Bảng 2-2: Tần số và tần suất số sao của khách hàng đã đánh giá cho mỗi sản
phẩm áo phông naim 2-2 52+ 2+EE£EE£EE2EE2E1EE171121121171712 111121 xe 25
Bang 2-3: Tổng quan phân tích đánh giá của khách hàng - 28
Trang 9PHAN MỞ DAU
1 Ly do chon dé tai
Trong những năm trở lại đây, do sự phát triển lớn mạnh của công nghệ thông tin, bên cạnh đó là những bước chuyên biến về nhu cầu mua săm của người dân Việt Nam do ảnh hưởng của đại dịch Covid 19, mọi người đã dần quen thuộc với việc mua
sắm online thông qua các san thương mại điện tử như Shopee, Lazada, Tiki Nhưng
đối với các nước phát triển khác trên thế giới như Mỹ hay các nước Châu Âu, việc
mua sắm online qua các sàn thương mại điện tử có mặt từ khá sớm, có thé ké đến các
sản thương mại điện tử lớn như Amazon, Ebay, Alibaba
Việc mua sắm online trên các sàn thương mại điện tử mang lại rất nhiều những lợi ích về mặt thời gian, địa điểm và khách hàng có thêm nhiều những lựa chọn
về cùng một loại sản phẩm Nhưng do có quá nhiều sự lựa chọn, nên trong quá trình
quyết định mua hàng, khách hàng phải đối mặt với nhiều yếu tố khác nhau, trong đó, đánh giá của người tiêu dùng khác về sản phẩm đóng một vai trò rất quan trọng Việc đánh giá sản phẩm được xem là một nguồn tham khảo khách quan và đáng tin cậy, mang lại giá trị quan trọng cho quyết định mua hàng của khách hàng Hơn nữa, tác động của những đánh giá này lên hành vi và quyết định của khách hàng rất rõ ràng và có tính chất định hướng.
Đánh giá sản phẩm cũng giúp cho doanh nghiệp có thé năm được được chat lượng sản phẩm của mình và điều chỉnh một cách hợp lý Nói cách khác, đánh giá
của người tiêu dùng đã sử dụng sản phẩm, dịch vụ, không chỉ hỗ trợ cho khách hàng
ra quyết định mua hàng một cách dé dàng hơn, mà còn giúp cho doanh nghiệp, người bán hàng có thé hiểu được những yếu điểm của sản phẩm và đưa ra các điều chỉnh phù hợp đề nâng cao chất lượng sản phẩm và dịch vụ.
Việc tập trung phát triển chất lượng và dịch vụ sản phẩm cũng vô cùng quan trọng vì ngoài việc sẽ góp phần giúp tăng lượng khách hàng mới, còn có thể có thêm những khách hàng trung thành, họ sẽ mua sản phẩm nhiều lần, cũng như giới thiệu nó tới với bạn bè, gia đình, từ đó có thể mở rộng các tệp khách hàng khác nhau.
Do đó, việc phân tích các đánh giá và bình luận của khách hàng là vô cùng cần thiết trong quá trình kinh doanh của doanh nghiệp và người bán hàng Để có thê
làm được điều đó, có rất nhiều phương pháp, công cụ khác nhau được ra đời, nhưng
phô biến nhất là phương pháp khai thác dữ liệu văn bản Có một số nghiên cứu đã sử
Trang 10dụng phương pháp khai thác dữ liệu văn bản dé phân tích các đánh giá, bình luận của khách hàng đã mua sản phẩm áo phông nam trên các san thương mại điện tử Có thé
kế đến nghiên cứu của Donghyeon Lee và cộng sự (2017) đã phân tích cảm xúc của khách hàng đối với các sản phẩm áo phông nam trên Amazon.com Kết quả cho thay rằng khách hàng quan tâm đến chất lượng vải, độ bền và thiết kế của áo phông Nghiên
cứu này cung cấp thông tin hữu ích cho các nhà sản xuất và nhà bán lẻ về những yếu tố quan trọng trong việc thiết kế sản pham áo phông cho nam giới Tiếp đó, Hui-Chun Hsu và cộng sự (2016) đã sử dụng phương pháp khai thác dit liệu văn bản dé xác định những từ và cụm từ có ảnh hưởng đến doanh số bán hàng của sản phẩm áo phông nam trên Amazon.com Kết quả cho thấy rằng những từ như "chất lượng tốt", "giá cả
hợp lý" và "thiết kế đẹp" có ảnh hưởng tích cực đến doanh số bán hàng Cuối cùng,
Chih-Hsuan Huang (2016) đã phân tích ý kiến của khách hàng về các tính năng của sản phẩm áo phông trên các sàn thương mại điện tử Kết quả cho thấy răng khách hàng quan tâm đến chất lượng vải, độ bên, thoải mái khi mặc và mức độ phù hợp với giá tiền Mặc dù vậy, các nghiên cứu này không chỉ rõ ra được rằng những khách hàng đánh giá 4-5 sao và 1-2 sao sẽ thường nhắc tới những chủ đề gì.
Bên cạnh đó, các sàn thương mại điện tử lớn như Amazon, Ebay hay Alibaba
cũng đã được rất nhiều những bài nghiên cứu trước đó phân tích Vì vậy, bài nghiên cứu chọn một sàn thương mại điện tử có tuôi đời trẻ nhưng không kém phần tiềm năng, va Etsy là một sự lựa chon hấp dẫn.
Do vậy, đề tài: “Phân tích đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên sàn thương mại điện tử Etsy bằng phương pháp khai thác dữ liệu văn bản” sẽ sử dụng phương pháp LDA đề phân tích những đánh giá của khách hàng đã mua sản phẩm áo phông nam trên san thương mại điện tử Etsy thông qua các đánh giá 4-5 sao và 1-2 sao.
2 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu của đề tài là phân tích những đánh giá và bình luận của khách hàng nhằm tìm ra được những chủ đề mà khách hàng nhắc tới nhiều liên quan đến sản phẩm áo phông nam trên sàn thương mại điện tử Etsy Từ đó đề xuất các giải pháp cải thiện đối với sản phẩm áo phông nam trên sàn thương mại điện tử Etsy dựa trên kết quả phân tích và khai thác dữ liệu văn bản.
3 Đôi tượng và phạm vỉ nghiên cứu
- Đối tượng nghiên cứu: Đánh giá và bình luận của khách hang về sản pham
áo phông nam trên sàn thương mại điện tử Etsy.
2
Trang 11- Pham vi nghiên cứu:
e _ Pham vi không gian: Sàn thương mại điện tử Etsy.e _ Pham vi thời gian: Tháng 3 năm 2023.
° Phạm vi nội dung: Việc nghiên cứu thực hiện với kỹ thuật khai thác dữ
liệu văn bản, dựa trên những đánh giá và bình của khách hàng về sản phẩm áo phông nam thu được trên san.
4 Phương pháp nghiên cứu
4.1 Phương pháp tổng quan nghiên cứu
Tham khảo các bài nghiên cứu học thuật, bài báo và tổng quan của các bài nghiên cứu trong và ngoài nước, cơ sở lý thuyết cho các phương pháp áp dụng trong
4.2 Phương pháp thu thập dữ liệu
Dữ liệu cho chuyên dé này được thu thập từ trang web của Etsy, cụ thé là
ngách sản phâm áo phông dành cho nam giới “Men’s T-shirt”:
Chi những khách hang đã từng mua sản phẩm trên sàn thương mại điện tử Etsy mới có thể đăng đánh giá lên trang sản phẩm Do đó, các đánh giá có tính xác thực và khách quan.
4.3 Phương pháp khai thác dữ liệu
Nghiên cứu sử dụng phương pháp phân bổ Dirichlet tiềm ân (LDA - Latent
Dirichlet Allocation) là một kỹ thuật khai thác văn bản va là một trong những lớp mô
hình được sử dụng nhiều nhất trong bài toán phân loại chủ dé tiềm ấn Bên cạnh đó,
LDA còn được sử dụng dé khám phá các chủ dé hay được nhắc tới của khách hàng
dựa trên những đánh giá, bình luận LDA cung cấp một cách tiếp cận khách quan hơn dé phân tích các bài đánh giá bằng chữ vì các đặc điểm toán học của phương pháp
5 Kết cấu của dé tai
Ngoài lời mở đầu và kết luận, chuyên đề gồm 2 chương:
- CHUONG 1: Co sở ly thuyết và phương pháp khai thác đữ liệu van bản.
- CHUONG 2: Vận dung phương pháp khai thác dữ liệu văn ban nghiên cứu
đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên
sản thương mại điện tử Etsy.
Trang 12CHƯƠNG 1: CƠ SỞ LÝ THUYÉT VÀ PHƯƠNG PHÁP KHAI
THAC DU LIEU VAN BAN
1.1 Tổng quan về san thương mại điện tử
I1.I.1 Dinh nghĩa
Theo công ty cung cấp dịch vụ sàn thương mại điện tử Shopify, sàn thương
mại điện tử (electronic commerce platform hoặc e-commerce platform) là một nền
tảng trực tuyến cho phép các doanh nghiệp, nhà bán lẻ và người bán hàng cá nhân có thể quảng cáo, bán và giao dịch sản phẩm và dịch vụ với khách hàng trên internet San thương mại điện tử cung cấp một nền tang dé các doanh nghiệp và người bán hàng có thé tạo và quản lý cửa hàng trực tuyến của mình, đăng tai thông tin về sản phẩm, quản lý đơn hàng và thanh toán trực tuyến Bên cạnh đó, sản thương mại điện tử cũng cung cấp cho khách hàng một nơi đề tìm kiếm và mua các sản phẩm và dịch
vu trực tuyến.
1.1.2 Phan loại sàn thương mại điện tử
Theo công ty cung cấp dịch vụ sàn thương mại điện tử Shopify, sàn thương mại điện tử được phân thành bốn loại: B2C (từ doanh nghiệp đến khách hàng), B2B
(từ doanh nghiệp đến doanh nghiệp), C2B (từ khách hàng đến doanh nghiệp) và C2C (từ khách hàng đến khách hàng).
- B2C: Day là một trong những hình thức thương mại điện tử phô biến nhất, trong đó doanh nghiệp bán hàng cho người tiêu dùng trực tuyến Trong quá trình mua sắm trực tuyến, người tiêu dùng có thé dé dang so sánh giá cả và
đọc nhận xét của những người dùng khác trước khi quyết định mua hàng Đối
với doanh nghiệp, việc bán hàng trực tuyến giúp họ có thé hiểu rõ hơn về khách hàng của mình và tăng tính cá nhân hóa trong việc cung cấp sản phẩm
và dịch vụ.
- B2B: Thương mại điện tử B2B xảy ra khi một công ty ban sản pham cho một công ty khác trên mạng Những giao dịch này bao gồm mua sắm bán buôn, trong đó công ty mua hàng có kế hoạch bán lại với lợi nhuận, cũng như mua sam cho mục đích kinh doanh, chăng hạn như vật tư văn phòng và thiết bị.
- C2B: Khi người tiêu dùng cung cấp sản phẩm hoặc dich vu của ho cho các công ty mua hàng, thì đó được gọi là thương mại điện tử C2B Ví dụ như một
người viết blog có nhiều lượt theo dõi, bán quảng cáo trên blog của họ cho
các công ty quảng cáo Người viết blog này sử dụng sức ảnh hưởng của mình
4
Trang 13để quảng bá sản phẩm hoặc dịch vụ của các công ty và nhận được tiền hoa hồng trong quá trình đó.
- C2C: là loại thương mại điện tử mà các giao dịch được thực hiện giữa các cá
nhân Đây là một dang thương mại điện tử ngày càng phô biến với sự gia tăng
của các nền tảng trực tuyến như Facebook, Instagram và các trang web
thương mại điện tử như Tiki, Shopee Trong các giao dich C2C, các cá nhân
có thé mua bán các sản phẩm cũ hoặc mới, từ quần áo đến đồ gia dụng, hoặc thậm chí cả các dịch vụ như dịch vụ thiết kế web hoặc dịch vụ đóng gói.
1.1.3 Mô hình kinh doanh
Mô hình kinh doanh của sản thương mại điện tử là một nên tảng trực tuyến giúp kết nối các nhà cung cấp sản phẩm với khách hàng Các nhà cung cấp có thê đăng tải thông tin về sản phẩm của mình lên sàn thương mại điện tử và khách hàng có thê tìm kiêm và mua sản phâm trực tuyên thông qua nên tảng này.
San thương mại điện tử thường thu hẹp khoảng cách giữa nhà cung cấp va khách hàng băng cách cung cấp các dịch vụ và tiện ích như thanh toán trực tuyến,
giao hàng tận nhà, đổi trả hang hóa và hỗ trợ khách hàng.
Một trong những hình thức kinh doanh của sàn thương mại điện tử là thu phí
dịch vu tt các nhà cung cấp Ngoài ra, sản thương mại điện tử còn có thé kiếm tiền
từ việc bán quảng cáo hoặc hợp tác với các đôi tác dé tăng doanh sô bán hàng.
Tóm lại, mô hình kinh doanh của sàn thương mại điện tử đã thay đôi cách thức mua bán trực tuyến và tạo ra những cơ hội kinh doanh mới cho các doanh nghiệp 1.14 Uu điểm và thách thức của sàn thương mai điện tử
San thương mại điện tử đã thay đôi cách thức mua bán truyền thống và đang ngày càng trở nên phố biến, cho phép các doanh nghiệp và cá nhân bán hàng và mua sắm thông qua internet Tuy nhiên, bên cạnh những ưu điểm nổi trội, việc trở nên phổ biến cũng đem lại những thách thức.
Theo san thương mại điện tử Amazon, sàn thương mại điện tử có 10 ưu điểm
- Tiết kiệm chi phí: Các doanh nghiệp có thê tiết kiệm chi phí đáng ké bằng cách hoạt động trên nền tảng thương mại điện tử Chăng hạn, không cần phải thuê mặt bằng để mở cửa hàng và trang trí cửa hàng, không cần phải chỉ tiền
quảng cáo truyền thống như trên các phương tiện truyền thông như truyền
hình, radio, báo chí, tạp chi.
Trang 14Dé dàng tiếp cận với khách hàng: Các doanh nghiệp có thé tiếp cận với khách hàng trên toàn cầu thông qua Internet Bất ké vị trí địa lý của khách hang là
gi, họ đều có thé truy cập vào trang trên sàn thương mại điện tử của doanh
Tăng doanh số bán hang: San thương mại điện tử giúp doanh nghiệp tăng
doanh số bán hàng bằng cách giới thiệu sản phẩm và địch vụ của họ đến một lượng khách hàng tiềm năng rộng lớn hơn Ngoài ra, sàn thương mại điện tử cũng cung cấp nhiều cơ hội cho các doanh nghiệp để tăng doanh số bán hàng băng cách giảm giá, khuyến mãi và ưu đãi khác.
Tăng khả năng tương tác với khách hàng: Khách hàng có thé dé dàng tương
tác với doanh nghiệp thông qua các kênh như email, chat trực tuyến và các
mạng xã hội Điều này giúp tăng cơ hội cho doanh nghiệp dé xây dựng mối quan hệ tốt hơn với khách hàng.
Giảm thiểu sai sót trong quá trình bán hàng: Sàn thương mại điện tử giúp giảm thiểu sai sót trong quá trình bán hàng bằng cách tự động hóa quy trình
đặt hàng, thanh toán và giao hàng.
Dễ dàng quản lý kho hàng: Sàn thương mại điện tử giúp doanh nghiệp quản
lý kho hàng đễ dàng hơn bằng cách đặt mua hàng tồn kho từ các nhà sản xuất và nhà phân phối trực tuyến.
Tăng tính cạnh tranh: Các doanh nghiệp có thé tăng tính cạnh tranh bằng cách
tăng cường chất lượng sản phẩm, cải thiện chất lượng sản phẩm và cung cấp
dich vụ tốt hơn cho khách hàng San thương mại điện tử cũng cho phép các doanh nghiệp đo lường và theo dõi các hoạt động kinh doanh của mình mộtcách hiệu quả hơn.
Mở rộng thị trường: Sàn thương mại điện tử giúp các doanh nghiệp mở rộng
thị trường bằng cách tiếp cận với khách hàng ở các vùng đất mới và các quốc gia khác Điều này giúp các doanh nghiệp tăng trưởng và mở rộng phạm vi
hoạt động của mình.
Tiện lợi và linh hoạt: Sàn thương mại điện tử cung cấp cho khách hàng sự tiện lợi và linh hoạt khi mua sắm, họ có thé mua sắm bat cứ lúc nào và bất cứ nơi đâu thông qua các thiết bị di động và máy tính cá nhân.
Giảm thiểu thời gian và chi phí giao hàng: Sàn thương mại điện tử giúp giảm thiểu thời gian và chi phí giao hàng bằng cách tối ưu hóa quy trình giao hàng Các doanh nghiệp có thê sử dụng các dịch vụ vận chuyền hàng hóa trực tuyến dé vận chuyên hàng hóa đến khách hang của mình một cách nhanh chóng và hiệu quả hơn.
Trang 15Bên cạnh những ưu điểm, theo Suresh Kumar và cộng sự (2015), sản thương mại điện tử cũng đặt ra nhiều thách thức cho các doanh nghiệp và khách hàng Các
doanh nghiệp phải đối mặt với sự cạnh tranh khốc liệt từ hàng ngàn cửa hàng trực
tuyến khác Họ cần phải đầu tư thời gian, công sức và tiền bạc để phát triển chiến lược marketing, đảm bảo chất lượng sản phẩm và đáp ứng nhu cầu của khách hàng.
Đối với khách hàng, một số thách thức bao gồm việc đánh giá chất lượng sản phẩm dựa trên thông tin trên mạng, đảm bảo tinh bảo mật và an toàn cho các giao
dịch trực tuyến, cũng như phải đối mặt với các hạn chế về trải nghiệm mua săm trực
tuyến, chăng hạn như không được xem sản phẩm trực tiếp hoặc không có cơ hội
thương lượng giá cả.
Trong tong thé, san thương mại điện tử là một phần quan trong trong nền kinh tế kỹ thuật số hiện đại Nó đã thay đổi cách thức mua bán truyền thống và tạo ra
nhiều cơ hội cho các doanh nghiệp và khách hàng Tuy nhiên, nó cũng đặt ra nhiều thách thức và yêu cầu các doanh nghiệp và khách hàng phải thích nghi với môi trường
kinh doanh trực tuyến ngày càng cạnh tranh và phức tap.
1.2 Đánh giá của khách hàng về các sản phẩm trên sàn thương mại điện tử 1.2.1 Các yếu to được đánh giá của khách hàng
Đánh giá của khách hàng khi mua sản phẩm trên sàn thương mại điện tử có
thể bao gồm nhiều yếu tố khác nhau, bao gồm chất lượng sản phẩm, giá cả, dịch vụ
khách hàng và trải nghiệm mua sắm trực tuyến 1.2.1.1 Chất lượng sản phẩm
Đánh giá chất lượng sản phâm là một trong những yếu tố quan trọng nhất khi mua hàng trên san thương mại điện tử Khách hàng có thể đánh giá sản pham dựa trên
mô tả của sản phẩm, ảnh minh họa, kích cỡ, chất liệu và đánh giá của người dùng
khác Họ có thê đánh giá sản phẩm là tốt, trung bình hoặc kém chất lượng và chia sẻ kinh nghiệm của mình với cộng đồng người dùng.
1.2.1.2 Giá cả
Giá cả là một yếu tố quan trọng khác được đánh giá bởi khách hàng Họ có thé so sánh giá cả của sản phẩm với các sản phâm tương tự khác trên sàn thương mại
điện tử hoặc ở cửa hàng truyền thống Họ có thể đánh giá sản phẩm là dat, giá cả hợp
ly hoặc rẻ và chia sẻ với người dùng khác.1.2.1.3 Dịch vụ khách hàng
Trang 16Dich vụ khách hang là một yếu tố quan trọng khi mua hàng trực tuyến Khách hàng có thê đánh giá dịch vụ khách hàng dựa trên thời gian giao hàng, phản hồi của nha bán hàng, dich vụ hậu mãi, chính sách đổi trả, đóng gói sản phẩm và vận chuyền.
Họ có thé đánh giá dịch vụ khách hàng là tốt, trung bình hoặc kém va chia sẻ kinh
nghiệm của mình với những người khác.1.2.1.4 Trải nghiệm mua săm trực tuyên
Trải nghiệm mua sắm trực tuyến là một yếu tố quan trọng khác khi đánh giá sản phẩm trên sàn thương mại điện tử Khách hàng có thê đánh giá trải nghiệm mua săm trực tuyến dựa trên giao diện của trang web, tính năng tìm kiếm, thao tác đặt hàng, thanh toán và đăng nhập tài khoản.
1.2.1.5 Đánh gia khác
Khách hàng khi mua sản phẩm trên sàn thương mại điện tử có thể xem xét những đánh giá, bình luận của người dùng khác để có thêm thông tin đánh giá sản pham Những nhận xét này có thé giúp họ có quyết định mua sản phẩm chính xác
Tóm lại, đánh giá của khách hàng về sản phẩm trên sàn thương mại điện tử là một nguồn thông tin quan trọng giúp người dùng có thêm thông tin dé có thé đánh giá sản phẩm trước khi quyết định mua hàng Bên cạnh đó, nó cũng giúp các nhà sản xuất, nhà bán lẻ và sàn thương mại điện tử hiéu được nhu cầu của khách hàng, từ đó cải thiện sản phẩm, dịch vụ và trải nghiệm mua sắm dé đáp ứng yêu cầu của khách hàng tốt hơn.
12.2 Một số cách thức đánh giá của khách hàng trên sàn thương mại điện tử
Dé có thé hiện thực hoá các yếu tố được đánh giá về chất lượng sản phẩm và dịch vụ, khách hàng thường sử dụng các cách thức đánh giá khác nhau trên sàn thươngmại điện tử.
1.2.2.1 Đánh giá bằng số sao
Đây là phương thức đánh giá phô biến nhất trên các san thương mại điện tử, trong đó khách hàng đánh giá sản phâm bằng số sao từ 1 đến 5 hoặc 10 tùy vào nền tảng Số sao càng cao thì sản phẩm được đánh giá càng tốt.
1.2.2.2 Đánh giá bằng bình luận
Trang 17Khách hàng có thể để lại bình luận về sản phẩm mà họ đã mua, bao gồm những ấn tượng, nhận xét, hoặc lời khuyên cho những người khác muốn mua sảnphẩm đó.
1.2.2.3 Đánh giá bằng hình ảnh
Một số sàn thương mại điện tử cho phép khách hàng tải lên hình ảnh về sản
phẩm đã mua và gắn kèm bình luận hoặc đánh giá của minh.
1.2.2.4 Đánh giá chỉ tiết
Ngoài việc đánh giá tổng quan, khách hàng còn có thê đánh giá chỉ tiết về từng tính năng hoặc khía cạnh của sản phẩm.
Bên cạnh đó, việc kết hợp các cách thức đánh giá sản phẩm là hoàn toàn khả thi và có lợi, tùy thuộc vào mục đích và người sử dụng sẽ có sự lựa chọn phù hợp. Việc kết hợp nhiều cách thức đánh giá còn giúp cho khách hàng có được cái nhìn toàn
diện hơn về sản phâm và có thé giúp họ đưa ra quyết định mua hàng tốt hơn.
Tóm lại, đánh giá của khách hàng về các sản phẩm trên sàn thương mại điện tử đang trở thành một nguồn dit liệu quan trọng dé các doanh nghiệp đánh giá chất lượng sản phẩm và dịch vụ của mình Có thê thấy, đa phần các đánh giá sẽ được thể hiện dưới hình thức là một văn bản và dé có thé khai thác được thông tin từ các đánh giá này, vì vậy, phương pháp khai thác dữ liệu văn bản là cần thiết Trong phan tiếp theo, bài nghiên cứu sẽ đi vào chỉ tiết về các phương pháp khai thác đữ liệu văn bản dé trích xuất thông tin từ các đánh giá và bình luận của khách hàng trên sàn thương
mại điện tử.
1.3 Phương pháp khai thác dữ liệu văn bản1.3.1 Khái niệm dữ liệu văn ban
Theo Manning và cộng sự (2008), dữ liệu văn ban là các tài liệu hoặc đoạn
văn bản được viết hoặc ghi lại trong các tài liệu khác nhau, bao gồm sách, báo, tài liệu kỹ thuật, email, tin nhắn văn bản, văn bản web và nhiều loại khác Do đó, phương pháp thu thập dữ liệu văn bản có thé bao gồm thu thập trực tiếp từ các nguồn như
sách, báo, tài liệu kỹ thuật và trang web, hoặc từ các nguồn gián tiếp như email, tin nhắn văn bản và mạng xã hội Các phương pháp thu thập dữ liệu văn bản khác bao
gồm trích xuất từ các nguồn dit liệu tổng hợp như Wikipedia hoặc các kho dữ liệu của chính phủ, và thu thập đữ liệu định kỳ từ các nguồn như báo cáo tài chính hoặc
báo cáo hàng quý.
Trang 18Theo Alpaydin (2010), ưu điểm của dit liệu văn bản bao gồm tính phố biến và dễ dàng truy cập, do dữ liệu văn bản được sử dụng rộng rãi trong nhiều lĩnh vực
và có thé thu thập từ nhiều nguồn khác nhau Bên cạnh đó, dữ liệu văn bản cũng cho
phép phân tích nội dung và tìm kiếm thông tin nhanh chóng, đặc biệt là trong môi
trường số hóa Tuy nhiên, đữ liệu văn bản cũng có nhược điểm, đó là tính chủ quan
của ngôn ngữ và việc xử lý dữ liệu văn bản có thê rất phức tạp.
13.2 Khai thác dữ liệu văn bản bằng phương pháp Phân bố Dirichlet tiềm an
Có những phương pháp khai thác dữ liệu văn bản khác nhau như phương
pháp tần suất-nghịch đảo tần suất văn bản (Term Frequency-Inverse Document Frequency - TF-IDF), phân tích ngữ nghĩa tiềm an (Latent Semantic Analysis - LSA)
và phân tích ngữ nghĩa tiềm ẩn dựa trên xác suất (Probabilistic Latent Semantic Analysis - pLSA) Những phương pháp này đều được sử dụng rộng rãi trong lĩnh vực
khai thác dữ liệu văn bản và cung cấp các thông tin hữu ích về tần suất xuất hiện của
từ trong văn bản, câu trúc của văn bản và quan hệ giữa các từ.
Phương pháp TF-IDF đo lường tan số xuất hiện của từ trong một văn bản va đánh giá mức độ quan trọng của từ đó bằng cách tính toán trọng số của từ trong tài liệu đó Đây là phương pháp đơn giản và nhanh nhất trong các phương pháp khai thác dữ liệu văn bản, nhưng không xử lý được sự tương đồng ngữ nghĩa giữa các từ.
Phương pháp LSA phân tích ma trận không âm dé giảm chiều dữ liệu và tìm ra các khuôn mẫu 4n (latent patterns) trong dit liệu văn ban LSA giúp giảm chiều dữ liệu và tìm ra các khuôn mẫu ẩn trong dữ liệu văn bản, nhưng không hiệu quả khi xử
lý các văn bản dài và không xử lý được sự phức tạp trong các dit liệu văn ban.
Phương pháp pLSA phân tích ma trận không âm dựa trên mô hình xác suất
dé tìm ra các khuôn mẫu ân trong dit liệu văn bản pLSA cải thiện việc xử lý sự phức
tạp trong các dữ liệu văn bản so với LSA, nhưng cũng không xử lý được sự tương đồng ngữ nghĩa giữa các từ.
Những phương pháp đã nêu ở trên tuy được ứng dụng rộng rãi nhưng đều có nhược điểm riêng Phương pháp TF-IDF chỉ tập trung vào tần số xuất hiện của các từ
mà không xem xét về mối quan hệ giữa chúng trong văn bản Phương pháp LSA và pLSA lại có hạn chế khi xử lý những văn bản dài và phức tạp, cũng như không thể xác định được số lượng chủ đề một cách tự động Trong bối cảnh đó, phương pháp Phân bồ Dirichlet tiềm ấn (Latent Dirichlet Allocation - LDA) ra đời dé khắc phục những nhược điểm này và đưa ra kết quả tốt hơn trong khai thác đữ liệu văn bản.
10
Trang 191.3.2.1 Khái niệm và ưu nhược điểm của phương pháp Latent Dirichlet Allocation Như đã dé cập ở trên, LDA là phương pháp ra đời dé khắc phục những nhược
điểm của những phương pháp trước đó do có tính linh hoạt cao nhất và phô biến nhất
trong khai thác dữ liệu văn bản vì nó cho phép phát hiện các chủ đề khác nhau trong các tập văn bản và tính toán xác suất cho từng từ được sử dụng trong một chủ đề cụ thê.
Đầu tiên, LDA là một phương pháp khai thác văn bản dựa trên mô hình xác suất thống kê dé tìm ra các chủ đề tiềm ấn trong một tập hợp văn bản Day là một trong những phương pháp phô biến nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên và phân tích dữ liệu văn bản.
Model LDA là lớp mô hình sinh (generative model) cho phép xác định một
tợp hợp các chủ đề tưởng tượng (imaginary topics) mà mỗi chủ đề sẽ được biểu diễn bởi tập hợp các từ Mục tiêu của LDA là kết nối toàn bộ các văn bản sang các chủ đề tương ứng sao cho các từ trong mỗi một văn bản sẽ thể hiện những chủ đề tưởng
tượng ay.
Về ưu điểm, phương pháp LDA giúp giảm thiểu khối lượng tinh toán bằng cách tìm ra các chủ đề ấn trong tập dữ liệu văn bản một cách tự động, giúp người
dùng dé dàng phân tích, tóm tắt và hiểu được nội dung của dữ liệu Các ứng dụng của LDA rất đa dạng, từ phân tích dữ liệu văn bản, tóm tắt đữ liệu, phân loại văn bản, tìm kiếm thông tin đến phân tích dữ liệu xã hội.
Trong hình minh hoạ dưới, một ví dụ được đưa ra rằng giả sử có 2000 từ ngữ và có 1000 tài liệu Dé tìm ra các chủ dé theo cách cũ bằng cách nghiên cứu tan số
xuất hiện thông thường để tìm ra các văn bản có liên quan đến nhau vì dùng chung các tập hợp từ tương tự, do đó có thê tìm ra các chủ đề tương ứng Tuy nhiên để làm
như vậy thì phải cần nghiên cứu đến 2.000.000 cặp (=2000x1000) văn bản và từ ngữ tương ứng Điêu này tạo ra lượng công việc cân tính toán rât lớn.
11
Trang 20Hình 1-1: Khối lượng tính toán khi không sử dụng LDA
Nhưng với LDA, bằng cách tạo các chủ đề tiềm ẩn, khối lượng tính toán đã
được giải quyết Với các đoạn văn bản trên, ba chủ đề tiềm ấn đã được tạo như hình
dưới là Animals, Sports và Tech dé giảm số lượng cặp văn bản và cặp từ can xem xét Số lượng kết hợp mà chúng ta phải xem xét bây giờ chỉ là 9000 cặp (2000x3 +
10003) ít hơn nhiều so với kết qua ban đầu.
Trang 21Những chủ đề nay có tính ấn tức chúng là trừu tượng và không thé định nghĩa chính xác Mục đích chính của việc sử dụng các chủ đề tiềm ân làm trung gian là
giảm số lượng các kết nối giữa từ ngữ với các văn bản và do đó giảm chỉ phí tính toán Sau khi kết nối các từ với chủ đề mà chúng thuộc về, chúng sẽ tiếp tục được kết nối đến các văn bản thông qua các chủ đề tương ứng Dựa trên các loại chủ đề mà
mỗi văn bản chứa dé xác định phân bố xác suất của văn bản theo các từ ngữ chứa
trong nó.
Tuy nhiên, phương pháp LDA cũng tồn tại một số nhược điểm Đầu tiên,
phương pháp này dễ bị ảnh hưởng bởi độ dài của văn bản bởi dựa trên sự xuất hiện của các từ dé phân tích và xác định các chủ đề trong văn bản Tuy nhiên, độ dài của
văn bản có thê ảnh hưởng đến kết quả phân tích của LDA Nếu văn bản quá ngắn, có thể không đủ thông tin để xác định được các chủ đề và nếu văn bản quá dài, có thể dẫn đến một lượng lớn các từ không liên quan được đưa vào phân tích, gây ảnh hưởng tiêu cực đến độ chính xác của phương pháp.
Bên cạnh đó, LDA là một phương pháp không giám sát, điều này có nghĩa là
số lượng chủ đề cần xác định trước khi phân tích dữ liệu Tuy nhiên, việc xác định số
lượng chủ đề là một vấn đề khó khăn và phải dựa trên kiến thức chuyên môn hoặc thử và sai Nếu số lượng chủ đề được xác định không chính xác, kết quả phân tích của LDA có thê không chính xác.
Đề phân tích dữ liệu, LDA sử dụng một bộ từ điển chứa các từ trong tập dữ liệu Độ chính xác của phương pháp LDA phụ thuộc vào độ chính xác của bộ từ điển
được sử dụng Nếu bộ từ điển không đủ lớn hoặc không chính xác, kết quả phân tích
của LDA có thé bị ảnh hưởng tiêu cực.
Cuối cùng, Phương pháp này có thé làm việc với các tập dữ liệu lớn, tuy nhiên, điều này đòi hỏi thời gian tính toán lớn và tài nguyên tính toán Do đó có thé
làm giảm tính ứng dụng của phương pháp trong một số trường hợp 1.3.2.2 Lý thuyết về mô hình Latent Dirichlet Allocation
Mô hình LDA sẽ bắt đầu với một số định nghĩa và ký hiệu có liên quan:
Từ ngữ (word hoặc term): Là một thành phần cơ bản trong mô hình LDA, một từ được xác định bằng chỉ mục (index) có giá tri từ 1,2, ,V Từ ngữ thứ i được mã hóa one-hot đưới dang véc tơ w: € RY (phan tử thứ i bằng 1, phần tử còn lại bằng 0) mỗi từ trong từ điển được mã hoá thành một vector có độ dai bằng với sé lượng từ trong từ điển Các phần tử trong vector này đều bằng 0, trừ duy nhất phần tử ứng
với từ đó, được gan giá trị bằng 1).
13
Trang 22Văn ban (document): w = (Wi,w›, ,WN) đại diện cho một văn bản có N từ
ngữ tương ứng (các từ ngữ này được biểu diễn dưới dang vector).
Tập văn ban (corpus): D = W1,W2, ,;wm là tập của M văn ban
Chủ dé tiềm ẩn (latent topic): Day là những chủ đề an được xác định bởi phân bố của các từ trong văn bản và làm trung gian cho việc trình bay các văn bản
dựa trên chủ đề Số lượng chủ đề được xác định trước ký hiệu là K Các chủ đề tiềm an được xác định trong mô hình sẽ được xem là chủ dé cần tìm (nhắc đến trong đối
tượng nghiên cứu)
Mô hình LDA thuộc loại mô hình sinh xác suât Y tưởng cơ bản của mô hình
này là mỗi tài liệu được thể hiện bằng một hỗn hợp ngẫu nhiên của các chủ đề tiềm
ân, môi chủ đê được xác định bởi sự phân bô của các nhóm từ.
Quá trình sinh:
Nguồn: Phamdinhkhanh (2019)
Hình 1-3: Quá trình sinh
Trong đó:
e _ơ đại diện cho tham số phân phối tiên nghiệm Dirichlet cho chủ dé trong
văn bản Tham số này giúp điều chỉnh mức độ ảnh hưởng của chủ đề đến từng văn bản trong quá trình huấn luyện mô hình.
e _ B đại diện cho tham số phân phối tiên nghiệm Dirichlet cho chủ đề đối với mỗi từ ngữ Tham số này giúp điều chỉnh mức độ ảnh hưởng của từ
ngữ đến các chủ đề trong quá trình huấn luyện mô hình.
e 0; là phân phối của chủ đề đối với văn bản thứ i Tham số này thé hiện xác suat của từng chu đê trong văn ban 1.
14
Trang 23e @x là phân phối của từ ngữ đối với chủ đề thứ k Tham số này thê hiện
xác suất của từng từ trong chủ đề k.
e — z¡ là chủ đề của từ thứ j trong văn bản i Là một số nguyên có giá tri trong khoảng [1,K] Biến số này xác định chủ đề của từng từ trong mỗi
văn bản.
e _ wi là chỉ mục của từ thứ ¡ thuộc văn bản thứ j Giá trị là một số nguyên trong khoảng [1,V] Biến số này đại điện cho chỉ số của từ trong bộ từ
Đồ thị trên minh họa về quá trình sinh trong LDA, trong đó các quy trình lặp
đi lặp lại được biéu diễn bang các hình chữ nhật Kết quả là, LDA có hai quá trình
lặp đi lặp lại liên tục: việc chọn chủ đề và chọn từ Các tham số cho quá trình khởi tạo là œ và B Từ đó tính toán được phân phối hỗn hợp của chủ dé 0 và phân phối của
các từ theo chủ đề ọ.
Trong mô hình LDA ngoại trừ các từ ngữ wi; là quan sát được thì các biến còn lại đều là các yếu tố ân tạo ra từ mô hình từ các phân phối tiên nghiệm Quan trọng nhất là phân phối Dirichlet dùng dé mô hình hóa các chủ dé-tir (topic-word) Người phân tích mong muốn kết quả là phân phối của một chủ đề có hình dáng nhọn,
đuôi mỏng để xác suất tập trung lớn vào một điểm phục vụ việc suy luận ý nghĩ của chủ đề đó Số lượng chủ dé kí hiệu là K và g1, ,ox là các véc tơ V chiều lưu giá trị
của phân phối Dirichlet của chủ đề theo các từ.
Chúng ta cũng có thé coi rằng 0 và @ tương tự như các giá trị được tạo ra bang phân tích suy biến trong LSA Các dong và cột của 0 tương ứng với văn bản va
chủ đề Các dòng và cột của @ tương ứng với các chủ dé và các từ ngữ Dé suy luận và đảo ngược các chủ đề từ tập văn bản, chúng ta sẽ tạo một quy trình sinh tưởng
tượng trong đó các văn bản được tạo ra theo một cơ chế có thể suy luận từ quy trình này Quy trình đó như sau: “Phân phối xác suất của văn bản được tạo ra dưới dạng
trộn lẫn ngẫu nhiên các chủ đề, trong đó mỗi chủ đề được xác lập bởi phân phối trên
toàn bộ các từ" Cụ thé với bộ văn bản D gồm M văn bản, LDA giả định một quy
trình sinh như sau:
1 Mỗi một văn bản lựa chọn độ dài tương ứng là N bằng phân phối Poisson
với tham sô là Š.
2 Với tham số 0; chính là phân phối chủ dé của văn bản thứ i, lựa chon ơ sao cho @ bằng phân phối Dirichlet với tham số là œ phù hợp.
15