Chuyên đề thực tập tốt nghiệp: Phân tích đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên sàn thương mại điện tử Etsy bằng phương pháp khai thác dữ liệu văn bản

46 0 0
Chuyên đề thực tập tốt nghiệp: Phân tích đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên sàn thương mại điện tử Etsy bằng phương pháp khai thác dữ liệu văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

TRUONG DAI HỌC KINH TE QUOC DÂN KHOA THONG KE

CHUYEN DE THUC TAP TOT NGHIEP

DE TAI: PHAN TICH DANH GIA VA BINH LUAN CUA KHACH HANG DA MUA SAN PHAM AO PHONG NAM TREN SAN THUONG MAI DIEN TU’

ETSY BANG PHUONG PHAP KHAI THAC DU LIEU VAN BAN

Trang 2

TRUONG DAI HỌC KINH TE QUOC DÂN KHOA THONG KE

CHUYEN DE THUC TAP TOT NGHIEP

DE TAI: PHAN TICH DANH GIAVA BINH LUAN CUA KHACH HANG DA MUA SAN PHAM AO PHONG NAM TREN SAN THUONG MAI DIEN TU’

ETSY BANG PHUONG PHAP KHAI THAC DU LIEU VAN BAN

Trang 3

LỜI CAM ĐOAN

Em là Lê Quang Anh, mã sinh viên 11190181, khóa 61, trường Đại học Kinh

tế Quốc dân, được hướng dẫn bởi TS Nguyễn Thị Xuân Mai Em xin cam đoan rằng đề tài " Phân tích đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên sàn thương mại điện tử Etsy bằng phương pháp khai thác dữ liệu văn bản"

là kết qua của nghiên cứu độc lập dưới sự hướng dẫn của T.S Nguyễn Thị Xuân Mai

và không sao chép từ bất kỳ nguồn nào khác Tất cả các số liệu và kết quả được trình

bày trong báo cáo đều là trung thực.

Hà Nội, ngày tháng 04 năm 2023

Người cam đoan

Lê Quang Anh

Trang 4

LOI CAM ON

Em xin bày tỏ long biết ơn đến Trường Đại học Kinh té Quốc dân và tập thể giảng viên tại Khoa Thống kê đã tạo điều kiện, hỗ trợ, giúp đỡ em trong suốt quá trình học tập và nghiên cứu Đặc biệt, em muốn gửi loi cảm ơn sâu sắc tới TS Nguyễn

Thị Xuân Mai, người đã tận tình hướng dẫn và có những đóng góp quý báu giúp em

hoàn thành chuyên đề thực tập này.

Em cũng xin cảm ơn gia đình, bạn bè và các thầy cô trong trường và khoa đã luôn ủng hộ, động viên và chia sẻ khó khăn, đồng thời cảm ơn các thầy cô đã luôn tận tình chỉ dạy và hỗ trợ em trong suốt quá trình học tập và nghiên cứu.

Em xin trân thành cảm on!

Hà Nội, ngày tháng 04 năm 2023

Sinh viên thực hiện

Lê Quang Anh

Trang 5

MỤC LỤC

PHAN MỞ ĐẦU .-: 55222 tt th HH He |

1 Lý do chọn đề tài - 2-52-5222 221211211271 211211211 2111111 xe |

2 Mục tiêu nghiên cứu - c1 31 121191111111 11 8111811111 11 Hee 2 3 Đối tượng và phạm vi nghiên cứu -¿- 2¿+2++x++zxzzxerxeees 2 4 Phuong pháp nghiên CỨU - - G22 32332313 E*EEeEEEeeererrssrrsrrrrree 3 4.1 Phương pháp tông quan nghiên cứu -2 ¿©sz©s++:s++z+2 3

4.2 Phuong pháp thu thập dữ liệu 5 25 S25 *++csstrseererresereres 3

4.3 Phương pháp khai thác dữ liệu - 55 S25 * + svrssxseresrreses 31.1.2 Phân loại sàn thương mại điện tử 555 S5 Sssssseseersserssres 4

1.1.3 M6 hình kinh doanh - - 5c 2+ St SH ri, 5 1.1.4 Ưu điểm và thách thức của sàn thương mại điện tử 5

1.2 Đánh giá của khách hàng về các sản phẩm trên sàn thương mại điện

"1 7

1.2.1 Cac yếu tố được đánh giá của khách hàng - 7

1.2.2 Một số cách thức đánh giá của khách hàng trên sàn thương mại điện

"0 d5 8

1.3 Phuong pháp khai thác dữ liệu văn bản 5525 <S<css<cxssss+ 91.3.1 Khai niệm dữ liệu văn bản 5 5 S2 *+ssEerirrrrerrrrsrrrsree 9

1.3.2 Khai thác dữ liệu văn bản bằng phương pháp Latent Dirichlet

L0 v10): NI 10

1.4 Ứng dụng của LDA trong khai thác dữ liệu văn bản 18 CHƯƠNG 2: VẬN DỤNG PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU VĂN BẢN NGHIÊN CỨU ĐÁNH GIA CUA KHÁCH HANG ĐÃ MUA SAN PHAM AO PHONG NAM TREN SÀN THUONG MẠI ĐIỆN TU ETSY 20

Trang 6

2.2 Thu thập dữ liệu và tiền xử lý dữ liệu +2 22vzeecrrrrrre 21 2.2.1 Thu thập dữ liệu ¿-2¿©22+2E++EEC2EECEEEEEEEEEEEEEErkrrrkerrreee 21 2.2.2 Tiền xử lý dữ liệu - 5c 5<+2kcEkeEEE 2E errrkerre 22

2.3 Đặc điểm của mẫu nghiên cứu -2- 2© +£+E++£x+£xerxezxerrxerxerree 23

2.3.1 Thống kê mô tả - 2-5252 S SE 211211211215 1111 11111 xe 23 2.3.2 Tần suất từ trong đánh giá -:- 25s SE cEerkerkerkerkerkrree 25 2.3.3 Dam may tir ngữ - nh HH HH HH HH gà 26 2.4 Kết quả nghiên cứu ¿- 2 2 +E£SE£EEeEEEEESEEEE12E12171 712121 cre 28 2.5 Một số giải pháp đề xuất -2225c 5c22S 22x 222tr 35

KẾT LUẬN - 22-52 5< SE E2112E127121121121121121211 2111111111111 11x xerre 36 DANH MỤC TÀI LIEU THAM KHẢO -cccc++z222222222522ccerrrrrr 37

Trang 7

DANH MỤC HÌNH VE

Hình 1-1: Khối lượng tính toán khi không sử dung LDA - 12

Hình 1-2: Khối lượng tính toán sau khi sử dung LDA -5-=5+ 12 Hình 1-3: Quá trình simh - - - - Q2 1 222111122 1n vn ng kg nen 14 Hình 1-4: Kết quả của mô hình LDA - 2-2 5 SS£££+E££E££Ee£xerxerszxez 17 Hình 2-1: Ví dụ về đánh giá sản phẩm áo phông nam - 5+21 Hình 2-2: Mã HTML của đánh giá ccceccceeeseeesscseeeseesseeesseseesseenseenes 22 Hình 2-3: Biểu đồ Histogram biểu diễn mật độ phân bố của giá bán 24

Hình 2-4: Đồ thị Histogram biểu diễn mật độ từ được sử dụng trong đánh giá ¬— 25

Hình 2-5: Đám mây từ ngữ đánh giá chung của khách hàng - 26

Hình 2-6: Đám mây từ ngữ đánh giá 4-5 sao của khách hàng - 27

Hình 2-7: Dam mây từ ngữ đánh giá 1-2 sao của khách hàng - 27

Hình 2-8: Chọn k tốt nhất đánh giá chung mô hình LDA 30

Hình 2-9: Chọn k tốt nhất đánh giá từ 4-5 sao mô hình LDA 31

Hình 2-10: Chọn k tốt nhất đánh giá từ 1-2 sao mô hình LDA 31

Hình 2-11: Bảng phân phối hệ số B hỗ trợ lựa chọn tên chủ đề (chung) 32

Hình 2-12: Bảng phân phối hệ số hỗ trợ lựa chọn tên chủ đề (4-5 sao) 33

Hình 2-13: Bảng phân phối hệ số hỗ trợ lựa chọn tên chủ đề (1-2 sao) 33

Trang 8

DANH MỤC BẢNG

Bảng 2-1: Thông tin cơ bản về đánh giá của tất cả các sản phẩm áo phông nam

— 24

Bảng 2-2: Tần số và tần suất số sao của khách hàng đã đánh giá cho mỗi sản

phẩm áo phông naim 2-2 52+ 2+EE£EE£EE2EE2E1EE171121121171712 111121 xe 25

Bang 2-3: Tổng quan phân tích đánh giá của khách hàng - 28

Trang 9

PHAN MỞ DAU

1 Ly do chon dé tai

Trong những năm trở lại đây, do sự phát triển lớn mạnh của công nghệ thông tin, bên cạnh đó là những bước chuyên biến về nhu cầu mua săm của người dân Việt Nam do ảnh hưởng của đại dịch Covid 19, mọi người đã dần quen thuộc với việc mua

sắm online thông qua các san thương mại điện tử như Shopee, Lazada, Tiki Nhưng

đối với các nước phát triển khác trên thế giới như Mỹ hay các nước Châu Âu, việc

mua sắm online qua các sàn thương mại điện tử có mặt từ khá sớm, có thé ké đến các

sản thương mại điện tử lớn như Amazon, Ebay, Alibaba

Việc mua sắm online trên các sàn thương mại điện tử mang lại rất nhiều những lợi ích về mặt thời gian, địa điểm và khách hàng có thêm nhiều những lựa chọn

về cùng một loại sản phẩm Nhưng do có quá nhiều sự lựa chọn, nên trong quá trình

quyết định mua hàng, khách hàng phải đối mặt với nhiều yếu tố khác nhau, trong đó, đánh giá của người tiêu dùng khác về sản phẩm đóng một vai trò rất quan trọng Việc đánh giá sản phẩm được xem là một nguồn tham khảo khách quan và đáng tin cậy, mang lại giá trị quan trọng cho quyết định mua hàng của khách hàng Hơn nữa, tác động của những đánh giá này lên hành vi và quyết định của khách hàng rất rõ ràng và có tính chất định hướng.

Đánh giá sản phẩm cũng giúp cho doanh nghiệp có thé năm được được chat lượng sản phẩm của mình và điều chỉnh một cách hợp lý Nói cách khác, đánh giá

của người tiêu dùng đã sử dụng sản phẩm, dịch vụ, không chỉ hỗ trợ cho khách hàng

ra quyết định mua hàng một cách dé dàng hơn, mà còn giúp cho doanh nghiệp, người bán hàng có thé hiểu được những yếu điểm của sản phẩm và đưa ra các điều chỉnh phù hợp đề nâng cao chất lượng sản phẩm và dịch vụ.

Việc tập trung phát triển chất lượng và dịch vụ sản phẩm cũng vô cùng quan trọng vì ngoài việc sẽ góp phần giúp tăng lượng khách hàng mới, còn có thể có thêm những khách hàng trung thành, họ sẽ mua sản phẩm nhiều lần, cũng như giới thiệu nó tới với bạn bè, gia đình, từ đó có thể mở rộng các tệp khách hàng khác nhau.

Do đó, việc phân tích các đánh giá và bình luận của khách hàng là vô cùng cần thiết trong quá trình kinh doanh của doanh nghiệp và người bán hàng Để có thê

làm được điều đó, có rất nhiều phương pháp, công cụ khác nhau được ra đời, nhưng

phô biến nhất là phương pháp khai thác dữ liệu văn bản Có một số nghiên cứu đã sử

Trang 10

dụng phương pháp khai thác dữ liệu văn bản dé phân tích các đánh giá, bình luận của khách hàng đã mua sản phẩm áo phông nam trên các san thương mại điện tử Có thé

kế đến nghiên cứu của Donghyeon Lee và cộng sự (2017) đã phân tích cảm xúc của khách hàng đối với các sản phẩm áo phông nam trên Amazon.com Kết quả cho thay rằng khách hàng quan tâm đến chất lượng vải, độ bền và thiết kế của áo phông Nghiên

cứu này cung cấp thông tin hữu ích cho các nhà sản xuất và nhà bán lẻ về những yếu tố quan trọng trong việc thiết kế sản pham áo phông cho nam giới Tiếp đó, Hui-Chun Hsu và cộng sự (2016) đã sử dụng phương pháp khai thác dit liệu văn bản dé xác định những từ và cụm từ có ảnh hưởng đến doanh số bán hàng của sản phẩm áo phông nam trên Amazon.com Kết quả cho thấy rằng những từ như "chất lượng tốt", "giá cả

hợp lý" và "thiết kế đẹp" có ảnh hưởng tích cực đến doanh số bán hàng Cuối cùng,

Chih-Hsuan Huang (2016) đã phân tích ý kiến của khách hàng về các tính năng của sản phẩm áo phông trên các sàn thương mại điện tử Kết quả cho thấy răng khách hàng quan tâm đến chất lượng vải, độ bên, thoải mái khi mặc và mức độ phù hợp với giá tiền Mặc dù vậy, các nghiên cứu này không chỉ rõ ra được rằng những khách hàng đánh giá 4-5 sao và 1-2 sao sẽ thường nhắc tới những chủ đề gì.

Bên cạnh đó, các sàn thương mại điện tử lớn như Amazon, Ebay hay Alibaba

cũng đã được rất nhiều những bài nghiên cứu trước đó phân tích Vì vậy, bài nghiên cứu chọn một sàn thương mại điện tử có tuôi đời trẻ nhưng không kém phần tiềm năng, va Etsy là một sự lựa chon hấp dẫn.

Do vậy, đề tài: “Phân tích đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên sàn thương mại điện tử Etsy bằng phương pháp khai thác dữ liệu văn bản” sẽ sử dụng phương pháp LDA đề phân tích những đánh giá của khách hàng đã mua sản phẩm áo phông nam trên san thương mại điện tử Etsy thông qua các đánh giá 4-5 sao và 1-2 sao.

2 Mục tiêu nghiên cứu

Mục tiêu nghiên cứu của đề tài là phân tích những đánh giá và bình luận của khách hàng nhằm tìm ra được những chủ đề mà khách hàng nhắc tới nhiều liên quan đến sản phẩm áo phông nam trên sàn thương mại điện tử Etsy Từ đó đề xuất các giải pháp cải thiện đối với sản phẩm áo phông nam trên sàn thương mại điện tử Etsy dựa trên kết quả phân tích và khai thác dữ liệu văn bản.

3 Đôi tượng và phạm vỉ nghiên cứu

- Đối tượng nghiên cứu: Đánh giá và bình luận của khách hang về sản pham

áo phông nam trên sàn thương mại điện tử Etsy.

2

Trang 11

- Pham vi nghiên cứu:

e _ Pham vi không gian: Sàn thương mại điện tử Etsy.e _ Pham vi thời gian: Tháng 3 năm 2023.

° Phạm vi nội dung: Việc nghiên cứu thực hiện với kỹ thuật khai thác dữ

liệu văn bản, dựa trên những đánh giá và bình của khách hàng về sản phẩm áo phông nam thu được trên san.

4 Phương pháp nghiên cứu

4.1 Phương pháp tổng quan nghiên cứu

Tham khảo các bài nghiên cứu học thuật, bài báo và tổng quan của các bài nghiên cứu trong và ngoài nước, cơ sở lý thuyết cho các phương pháp áp dụng trong

4.2 Phương pháp thu thập dữ liệu

Dữ liệu cho chuyên dé này được thu thập từ trang web của Etsy, cụ thé là

ngách sản phâm áo phông dành cho nam giới “Men’s T-shirt”:

Chi những khách hang đã từng mua sản phẩm trên sàn thương mại điện tử Etsy mới có thể đăng đánh giá lên trang sản phẩm Do đó, các đánh giá có tính xác thực và khách quan.

4.3 Phương pháp khai thác dữ liệu

Nghiên cứu sử dụng phương pháp phân bổ Dirichlet tiềm ân (LDA - Latent

Dirichlet Allocation) là một kỹ thuật khai thác văn bản va là một trong những lớp mô

hình được sử dụng nhiều nhất trong bài toán phân loại chủ dé tiềm ấn Bên cạnh đó,

LDA còn được sử dụng dé khám phá các chủ dé hay được nhắc tới của khách hàng

dựa trên những đánh giá, bình luận LDA cung cấp một cách tiếp cận khách quan hơn dé phân tích các bài đánh giá bằng chữ vì các đặc điểm toán học của phương pháp

5 Kết cấu của dé tai

Ngoài lời mở đầu và kết luận, chuyên đề gồm 2 chương:

- CHUONG 1: Co sở ly thuyết và phương pháp khai thác đữ liệu van bản.

- CHUONG 2: Vận dung phương pháp khai thác dữ liệu văn ban nghiên cứu

đánh giá và bình luận của khách hàng đã mua sản phẩm áo phông nam trên

sản thương mại điện tử Etsy.

Trang 12

CHƯƠNG 1: CƠ SỞ LÝ THUYÉT VÀ PHƯƠNG PHÁP KHAI

THAC DU LIEU VAN BAN

1.1 Tổng quan về san thương mại điện tử

I1.I.1 Dinh nghĩa

Theo công ty cung cấp dịch vụ sàn thương mại điện tử Shopify, sàn thương

mại điện tử (electronic commerce platform hoặc e-commerce platform) là một nền

tảng trực tuyến cho phép các doanh nghiệp, nhà bán lẻ và người bán hàng cá nhân có thể quảng cáo, bán và giao dịch sản phẩm và dịch vụ với khách hàng trên internet San thương mại điện tử cung cấp một nền tang dé các doanh nghiệp và người bán hàng có thé tạo và quản lý cửa hàng trực tuyến của mình, đăng tai thông tin về sản phẩm, quản lý đơn hàng và thanh toán trực tuyến Bên cạnh đó, sản thương mại điện tử cũng cung cấp cho khách hàng một nơi đề tìm kiếm và mua các sản phẩm và dịch

vu trực tuyến.

1.1.2 Phan loại sàn thương mại điện tử

Theo công ty cung cấp dịch vụ sàn thương mại điện tử Shopify, sàn thương mại điện tử được phân thành bốn loại: B2C (từ doanh nghiệp đến khách hàng), B2B

(từ doanh nghiệp đến doanh nghiệp), C2B (từ khách hàng đến doanh nghiệp) và C2C (từ khách hàng đến khách hàng).

- B2C: Day là một trong những hình thức thương mại điện tử phô biến nhất, trong đó doanh nghiệp bán hàng cho người tiêu dùng trực tuyến Trong quá trình mua sắm trực tuyến, người tiêu dùng có thé dé dang so sánh giá cả và

đọc nhận xét của những người dùng khác trước khi quyết định mua hàng Đối

với doanh nghiệp, việc bán hàng trực tuyến giúp họ có thé hiểu rõ hơn về khách hàng của mình và tăng tính cá nhân hóa trong việc cung cấp sản phẩm

và dịch vụ.

- B2B: Thương mại điện tử B2B xảy ra khi một công ty ban sản pham cho một công ty khác trên mạng Những giao dịch này bao gồm mua sắm bán buôn, trong đó công ty mua hàng có kế hoạch bán lại với lợi nhuận, cũng như mua sam cho mục đích kinh doanh, chăng hạn như vật tư văn phòng và thiết bị.

- C2B: Khi người tiêu dùng cung cấp sản phẩm hoặc dich vu của ho cho các công ty mua hàng, thì đó được gọi là thương mại điện tử C2B Ví dụ như một

người viết blog có nhiều lượt theo dõi, bán quảng cáo trên blog của họ cho

các công ty quảng cáo Người viết blog này sử dụng sức ảnh hưởng của mình

4

Trang 13

để quảng bá sản phẩm hoặc dịch vụ của các công ty và nhận được tiền hoa hồng trong quá trình đó.

- C2C: là loại thương mại điện tử mà các giao dịch được thực hiện giữa các cá

nhân Đây là một dang thương mại điện tử ngày càng phô biến với sự gia tăng

của các nền tảng trực tuyến như Facebook, Instagram và các trang web

thương mại điện tử như Tiki, Shopee Trong các giao dich C2C, các cá nhân

có thé mua bán các sản phẩm cũ hoặc mới, từ quần áo đến đồ gia dụng, hoặc thậm chí cả các dịch vụ như dịch vụ thiết kế web hoặc dịch vụ đóng gói.

1.1.3 Mô hình kinh doanh

Mô hình kinh doanh của sản thương mại điện tử là một nên tảng trực tuyến giúp kết nối các nhà cung cấp sản phẩm với khách hàng Các nhà cung cấp có thê đăng tải thông tin về sản phẩm của mình lên sàn thương mại điện tử và khách hàng có thê tìm kiêm và mua sản phâm trực tuyên thông qua nên tảng này.

San thương mại điện tử thường thu hẹp khoảng cách giữa nhà cung cấp va khách hàng băng cách cung cấp các dịch vụ và tiện ích như thanh toán trực tuyến,

giao hàng tận nhà, đổi trả hang hóa và hỗ trợ khách hàng.

Một trong những hình thức kinh doanh của sàn thương mại điện tử là thu phí

dịch vu tt các nhà cung cấp Ngoài ra, sản thương mại điện tử còn có thé kiếm tiền

từ việc bán quảng cáo hoặc hợp tác với các đôi tác dé tăng doanh sô bán hàng.

Tóm lại, mô hình kinh doanh của sàn thương mại điện tử đã thay đôi cách thức mua bán trực tuyến và tạo ra những cơ hội kinh doanh mới cho các doanh nghiệp 1.14 Uu điểm và thách thức của sàn thương mai điện tử

San thương mại điện tử đã thay đôi cách thức mua bán truyền thống và đang ngày càng trở nên phố biến, cho phép các doanh nghiệp và cá nhân bán hàng và mua sắm thông qua internet Tuy nhiên, bên cạnh những ưu điểm nổi trội, việc trở nên phổ biến cũng đem lại những thách thức.

Theo san thương mại điện tử Amazon, sàn thương mại điện tử có 10 ưu điểm

- Tiết kiệm chi phí: Các doanh nghiệp có thê tiết kiệm chi phí đáng ké bằng cách hoạt động trên nền tảng thương mại điện tử Chăng hạn, không cần phải thuê mặt bằng để mở cửa hàng và trang trí cửa hàng, không cần phải chỉ tiền

quảng cáo truyền thống như trên các phương tiện truyền thông như truyền

hình, radio, báo chí, tạp chi.

Trang 14

Dé dàng tiếp cận với khách hàng: Các doanh nghiệp có thé tiếp cận với khách hàng trên toàn cầu thông qua Internet Bất ké vị trí địa lý của khách hang là

gi, họ đều có thé truy cập vào trang trên sàn thương mại điện tử của doanh

Tăng doanh số bán hang: San thương mại điện tử giúp doanh nghiệp tăng

doanh số bán hàng bằng cách giới thiệu sản phẩm và địch vụ của họ đến một lượng khách hàng tiềm năng rộng lớn hơn Ngoài ra, sàn thương mại điện tử cũng cung cấp nhiều cơ hội cho các doanh nghiệp để tăng doanh số bán hàng băng cách giảm giá, khuyến mãi và ưu đãi khác.

Tăng khả năng tương tác với khách hàng: Khách hàng có thé dé dàng tương

tác với doanh nghiệp thông qua các kênh như email, chat trực tuyến và các

mạng xã hội Điều này giúp tăng cơ hội cho doanh nghiệp dé xây dựng mối quan hệ tốt hơn với khách hàng.

Giảm thiểu sai sót trong quá trình bán hàng: Sàn thương mại điện tử giúp giảm thiểu sai sót trong quá trình bán hàng bằng cách tự động hóa quy trình

đặt hàng, thanh toán và giao hàng.

Dễ dàng quản lý kho hàng: Sàn thương mại điện tử giúp doanh nghiệp quản

lý kho hàng đễ dàng hơn bằng cách đặt mua hàng tồn kho từ các nhà sản xuất và nhà phân phối trực tuyến.

Tăng tính cạnh tranh: Các doanh nghiệp có thé tăng tính cạnh tranh bằng cách

tăng cường chất lượng sản phẩm, cải thiện chất lượng sản phẩm và cung cấp

dich vụ tốt hơn cho khách hàng San thương mại điện tử cũng cho phép các doanh nghiệp đo lường và theo dõi các hoạt động kinh doanh của mình mộtcách hiệu quả hơn.

Mở rộng thị trường: Sàn thương mại điện tử giúp các doanh nghiệp mở rộng

thị trường bằng cách tiếp cận với khách hàng ở các vùng đất mới và các quốc gia khác Điều này giúp các doanh nghiệp tăng trưởng và mở rộng phạm vi

hoạt động của mình.

Tiện lợi và linh hoạt: Sàn thương mại điện tử cung cấp cho khách hàng sự tiện lợi và linh hoạt khi mua sắm, họ có thé mua sắm bat cứ lúc nào và bất cứ nơi đâu thông qua các thiết bị di động và máy tính cá nhân.

Giảm thiểu thời gian và chi phí giao hàng: Sàn thương mại điện tử giúp giảm thiểu thời gian và chi phí giao hàng bằng cách tối ưu hóa quy trình giao hàng Các doanh nghiệp có thê sử dụng các dịch vụ vận chuyền hàng hóa trực tuyến dé vận chuyên hàng hóa đến khách hang của mình một cách nhanh chóng và hiệu quả hơn.

Trang 15

Bên cạnh những ưu điểm, theo Suresh Kumar và cộng sự (2015), sản thương mại điện tử cũng đặt ra nhiều thách thức cho các doanh nghiệp và khách hàng Các

doanh nghiệp phải đối mặt với sự cạnh tranh khốc liệt từ hàng ngàn cửa hàng trực

tuyến khác Họ cần phải đầu tư thời gian, công sức và tiền bạc để phát triển chiến lược marketing, đảm bảo chất lượng sản phẩm và đáp ứng nhu cầu của khách hàng.

Đối với khách hàng, một số thách thức bao gồm việc đánh giá chất lượng sản phẩm dựa trên thông tin trên mạng, đảm bảo tinh bảo mật và an toàn cho các giao

dịch trực tuyến, cũng như phải đối mặt với các hạn chế về trải nghiệm mua săm trực

tuyến, chăng hạn như không được xem sản phẩm trực tiếp hoặc không có cơ hội

thương lượng giá cả.

Trong tong thé, san thương mại điện tử là một phần quan trong trong nền kinh tế kỹ thuật số hiện đại Nó đã thay đổi cách thức mua bán truyền thống và tạo ra

nhiều cơ hội cho các doanh nghiệp và khách hàng Tuy nhiên, nó cũng đặt ra nhiều thách thức và yêu cầu các doanh nghiệp và khách hàng phải thích nghi với môi trường

kinh doanh trực tuyến ngày càng cạnh tranh và phức tap.

1.2 Đánh giá của khách hàng về các sản phẩm trên sàn thương mại điện tử 1.2.1 Các yếu to được đánh giá của khách hàng

Đánh giá của khách hàng khi mua sản phẩm trên sàn thương mại điện tử có

thể bao gồm nhiều yếu tố khác nhau, bao gồm chất lượng sản phẩm, giá cả, dịch vụ

khách hàng và trải nghiệm mua sắm trực tuyến 1.2.1.1 Chất lượng sản phẩm

Đánh giá chất lượng sản phâm là một trong những yếu tố quan trọng nhất khi mua hàng trên san thương mại điện tử Khách hàng có thể đánh giá sản pham dựa trên

mô tả của sản phẩm, ảnh minh họa, kích cỡ, chất liệu và đánh giá của người dùng

khác Họ có thê đánh giá sản phẩm là tốt, trung bình hoặc kém chất lượng và chia sẻ kinh nghiệm của mình với cộng đồng người dùng.

1.2.1.2 Giá cả

Giá cả là một yếu tố quan trọng khác được đánh giá bởi khách hàng Họ có thé so sánh giá cả của sản phẩm với các sản phâm tương tự khác trên sàn thương mại

điện tử hoặc ở cửa hàng truyền thống Họ có thể đánh giá sản phẩm là dat, giá cả hợp

ly hoặc rẻ và chia sẻ với người dùng khác.1.2.1.3 Dịch vụ khách hàng

Trang 16

Dich vụ khách hang là một yếu tố quan trọng khi mua hàng trực tuyến Khách hàng có thê đánh giá dịch vụ khách hàng dựa trên thời gian giao hàng, phản hồi của nha bán hàng, dich vụ hậu mãi, chính sách đổi trả, đóng gói sản phẩm và vận chuyền.

Họ có thé đánh giá dịch vụ khách hàng là tốt, trung bình hoặc kém va chia sẻ kinh

nghiệm của mình với những người khác.1.2.1.4 Trải nghiệm mua săm trực tuyên

Trải nghiệm mua sắm trực tuyến là một yếu tố quan trọng khác khi đánh giá sản phẩm trên sàn thương mại điện tử Khách hàng có thê đánh giá trải nghiệm mua săm trực tuyến dựa trên giao diện của trang web, tính năng tìm kiếm, thao tác đặt hàng, thanh toán và đăng nhập tài khoản.

1.2.1.5 Đánh gia khác

Khách hàng khi mua sản phẩm trên sàn thương mại điện tử có thể xem xét những đánh giá, bình luận của người dùng khác để có thêm thông tin đánh giá sản pham Những nhận xét này có thé giúp họ có quyết định mua sản phẩm chính xác

Tóm lại, đánh giá của khách hàng về sản phẩm trên sàn thương mại điện tử là một nguồn thông tin quan trọng giúp người dùng có thêm thông tin dé có thé đánh giá sản phẩm trước khi quyết định mua hàng Bên cạnh đó, nó cũng giúp các nhà sản xuất, nhà bán lẻ và sàn thương mại điện tử hiéu được nhu cầu của khách hàng, từ đó cải thiện sản phẩm, dịch vụ và trải nghiệm mua sắm dé đáp ứng yêu cầu của khách hàng tốt hơn.

12.2 Một số cách thức đánh giá của khách hàng trên sàn thương mại điện tử

Dé có thé hiện thực hoá các yếu tố được đánh giá về chất lượng sản phẩm và dịch vụ, khách hàng thường sử dụng các cách thức đánh giá khác nhau trên sàn thươngmại điện tử.

1.2.2.1 Đánh giá bằng số sao

Đây là phương thức đánh giá phô biến nhất trên các san thương mại điện tử, trong đó khách hàng đánh giá sản phâm bằng số sao từ 1 đến 5 hoặc 10 tùy vào nền tảng Số sao càng cao thì sản phẩm được đánh giá càng tốt.

1.2.2.2 Đánh giá bằng bình luận

Trang 17

Khách hàng có thể để lại bình luận về sản phẩm mà họ đã mua, bao gồm những ấn tượng, nhận xét, hoặc lời khuyên cho những người khác muốn mua sảnphẩm đó.

1.2.2.3 Đánh giá bằng hình ảnh

Một số sàn thương mại điện tử cho phép khách hàng tải lên hình ảnh về sản

phẩm đã mua và gắn kèm bình luận hoặc đánh giá của minh.

1.2.2.4 Đánh giá chỉ tiết

Ngoài việc đánh giá tổng quan, khách hàng còn có thê đánh giá chỉ tiết về từng tính năng hoặc khía cạnh của sản phẩm.

Bên cạnh đó, việc kết hợp các cách thức đánh giá sản phẩm là hoàn toàn khả thi và có lợi, tùy thuộc vào mục đích và người sử dụng sẽ có sự lựa chọn phù hợp. Việc kết hợp nhiều cách thức đánh giá còn giúp cho khách hàng có được cái nhìn toàn

diện hơn về sản phâm và có thé giúp họ đưa ra quyết định mua hàng tốt hơn.

Tóm lại, đánh giá của khách hàng về các sản phẩm trên sàn thương mại điện tử đang trở thành một nguồn dit liệu quan trọng dé các doanh nghiệp đánh giá chất lượng sản phẩm và dịch vụ của mình Có thê thấy, đa phần các đánh giá sẽ được thể hiện dưới hình thức là một văn bản và dé có thé khai thác được thông tin từ các đánh giá này, vì vậy, phương pháp khai thác dữ liệu văn bản là cần thiết Trong phan tiếp theo, bài nghiên cứu sẽ đi vào chỉ tiết về các phương pháp khai thác đữ liệu văn bản dé trích xuất thông tin từ các đánh giá và bình luận của khách hàng trên sàn thương

mại điện tử.

1.3 Phương pháp khai thác dữ liệu văn bản1.3.1 Khái niệm dữ liệu văn ban

Theo Manning và cộng sự (2008), dữ liệu văn ban là các tài liệu hoặc đoạn

văn bản được viết hoặc ghi lại trong các tài liệu khác nhau, bao gồm sách, báo, tài liệu kỹ thuật, email, tin nhắn văn bản, văn bản web và nhiều loại khác Do đó, phương pháp thu thập dữ liệu văn bản có thé bao gồm thu thập trực tiếp từ các nguồn như

sách, báo, tài liệu kỹ thuật và trang web, hoặc từ các nguồn gián tiếp như email, tin nhắn văn bản và mạng xã hội Các phương pháp thu thập dữ liệu văn bản khác bao

gồm trích xuất từ các nguồn dit liệu tổng hợp như Wikipedia hoặc các kho dữ liệu của chính phủ, và thu thập đữ liệu định kỳ từ các nguồn như báo cáo tài chính hoặc

báo cáo hàng quý.

Trang 18

Theo Alpaydin (2010), ưu điểm của dit liệu văn bản bao gồm tính phố biến và dễ dàng truy cập, do dữ liệu văn bản được sử dụng rộng rãi trong nhiều lĩnh vực

và có thé thu thập từ nhiều nguồn khác nhau Bên cạnh đó, dữ liệu văn bản cũng cho

phép phân tích nội dung và tìm kiếm thông tin nhanh chóng, đặc biệt là trong môi

trường số hóa Tuy nhiên, đữ liệu văn bản cũng có nhược điểm, đó là tính chủ quan

của ngôn ngữ và việc xử lý dữ liệu văn bản có thê rất phức tạp.

13.2 Khai thác dữ liệu văn bản bằng phương pháp Phân bố Dirichlet tiềm an

Có những phương pháp khai thác dữ liệu văn bản khác nhau như phương

pháp tần suất-nghịch đảo tần suất văn bản (Term Frequency-Inverse Document Frequency - TF-IDF), phân tích ngữ nghĩa tiềm an (Latent Semantic Analysis - LSA)

và phân tích ngữ nghĩa tiềm ẩn dựa trên xác suất (Probabilistic Latent Semantic Analysis - pLSA) Những phương pháp này đều được sử dụng rộng rãi trong lĩnh vực

khai thác dữ liệu văn bản và cung cấp các thông tin hữu ích về tần suất xuất hiện của

từ trong văn bản, câu trúc của văn bản và quan hệ giữa các từ.

Phương pháp TF-IDF đo lường tan số xuất hiện của từ trong một văn bản va đánh giá mức độ quan trọng của từ đó bằng cách tính toán trọng số của từ trong tài liệu đó Đây là phương pháp đơn giản và nhanh nhất trong các phương pháp khai thác dữ liệu văn bản, nhưng không xử lý được sự tương đồng ngữ nghĩa giữa các từ.

Phương pháp LSA phân tích ma trận không âm dé giảm chiều dữ liệu và tìm ra các khuôn mẫu 4n (latent patterns) trong dit liệu văn ban LSA giúp giảm chiều dữ liệu và tìm ra các khuôn mẫu ẩn trong dữ liệu văn bản, nhưng không hiệu quả khi xử

lý các văn bản dài và không xử lý được sự phức tạp trong các dit liệu văn ban.

Phương pháp pLSA phân tích ma trận không âm dựa trên mô hình xác suất

dé tìm ra các khuôn mẫu ân trong dit liệu văn bản pLSA cải thiện việc xử lý sự phức

tạp trong các dữ liệu văn bản so với LSA, nhưng cũng không xử lý được sự tương đồng ngữ nghĩa giữa các từ.

Những phương pháp đã nêu ở trên tuy được ứng dụng rộng rãi nhưng đều có nhược điểm riêng Phương pháp TF-IDF chỉ tập trung vào tần số xuất hiện của các từ

mà không xem xét về mối quan hệ giữa chúng trong văn bản Phương pháp LSA và pLSA lại có hạn chế khi xử lý những văn bản dài và phức tạp, cũng như không thể xác định được số lượng chủ đề một cách tự động Trong bối cảnh đó, phương pháp Phân bồ Dirichlet tiềm ấn (Latent Dirichlet Allocation - LDA) ra đời dé khắc phục những nhược điểm này và đưa ra kết quả tốt hơn trong khai thác đữ liệu văn bản.

10

Trang 19

1.3.2.1 Khái niệm và ưu nhược điểm của phương pháp Latent Dirichlet Allocation Như đã dé cập ở trên, LDA là phương pháp ra đời dé khắc phục những nhược

điểm của những phương pháp trước đó do có tính linh hoạt cao nhất và phô biến nhất

trong khai thác dữ liệu văn bản vì nó cho phép phát hiện các chủ đề khác nhau trong các tập văn bản và tính toán xác suất cho từng từ được sử dụng trong một chủ đề cụ thê.

Đầu tiên, LDA là một phương pháp khai thác văn bản dựa trên mô hình xác suất thống kê dé tìm ra các chủ đề tiềm ấn trong một tập hợp văn bản Day là một trong những phương pháp phô biến nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên và phân tích dữ liệu văn bản.

Model LDA là lớp mô hình sinh (generative model) cho phép xác định một

tợp hợp các chủ đề tưởng tượng (imaginary topics) mà mỗi chủ đề sẽ được biểu diễn bởi tập hợp các từ Mục tiêu của LDA là kết nối toàn bộ các văn bản sang các chủ đề tương ứng sao cho các từ trong mỗi một văn bản sẽ thể hiện những chủ đề tưởng

tượng ay.

Về ưu điểm, phương pháp LDA giúp giảm thiểu khối lượng tinh toán bằng cách tìm ra các chủ đề ấn trong tập dữ liệu văn bản một cách tự động, giúp người

dùng dé dàng phân tích, tóm tắt và hiểu được nội dung của dữ liệu Các ứng dụng của LDA rất đa dạng, từ phân tích dữ liệu văn bản, tóm tắt đữ liệu, phân loại văn bản, tìm kiếm thông tin đến phân tích dữ liệu xã hội.

Trong hình minh hoạ dưới, một ví dụ được đưa ra rằng giả sử có 2000 từ ngữ và có 1000 tài liệu Dé tìm ra các chủ dé theo cách cũ bằng cách nghiên cứu tan số

xuất hiện thông thường để tìm ra các văn bản có liên quan đến nhau vì dùng chung các tập hợp từ tương tự, do đó có thê tìm ra các chủ đề tương ứng Tuy nhiên để làm

như vậy thì phải cần nghiên cứu đến 2.000.000 cặp (=2000x1000) văn bản và từ ngữ tương ứng Điêu này tạo ra lượng công việc cân tính toán rât lớn.

11

Trang 20

Hình 1-1: Khối lượng tính toán khi không sử dụng LDA

Nhưng với LDA, bằng cách tạo các chủ đề tiềm ẩn, khối lượng tính toán đã

được giải quyết Với các đoạn văn bản trên, ba chủ đề tiềm ấn đã được tạo như hình

dưới là Animals, Sports và Tech dé giảm số lượng cặp văn bản và cặp từ can xem xét Số lượng kết hợp mà chúng ta phải xem xét bây giờ chỉ là 9000 cặp (2000x3 +

10003) ít hơn nhiều so với kết qua ban đầu.

Trang 21

Những chủ đề nay có tính ấn tức chúng là trừu tượng và không thé định nghĩa chính xác Mục đích chính của việc sử dụng các chủ đề tiềm ân làm trung gian là

giảm số lượng các kết nối giữa từ ngữ với các văn bản và do đó giảm chỉ phí tính toán Sau khi kết nối các từ với chủ đề mà chúng thuộc về, chúng sẽ tiếp tục được kết nối đến các văn bản thông qua các chủ đề tương ứng Dựa trên các loại chủ đề mà

mỗi văn bản chứa dé xác định phân bố xác suất của văn bản theo các từ ngữ chứa

trong nó.

Tuy nhiên, phương pháp LDA cũng tồn tại một số nhược điểm Đầu tiên,

phương pháp này dễ bị ảnh hưởng bởi độ dài của văn bản bởi dựa trên sự xuất hiện của các từ dé phân tích và xác định các chủ đề trong văn bản Tuy nhiên, độ dài của

văn bản có thê ảnh hưởng đến kết quả phân tích của LDA Nếu văn bản quá ngắn, có thể không đủ thông tin để xác định được các chủ đề và nếu văn bản quá dài, có thể dẫn đến một lượng lớn các từ không liên quan được đưa vào phân tích, gây ảnh hưởng tiêu cực đến độ chính xác của phương pháp.

Bên cạnh đó, LDA là một phương pháp không giám sát, điều này có nghĩa là

số lượng chủ đề cần xác định trước khi phân tích dữ liệu Tuy nhiên, việc xác định số

lượng chủ đề là một vấn đề khó khăn và phải dựa trên kiến thức chuyên môn hoặc thử và sai Nếu số lượng chủ đề được xác định không chính xác, kết quả phân tích của LDA có thê không chính xác.

Đề phân tích dữ liệu, LDA sử dụng một bộ từ điển chứa các từ trong tập dữ liệu Độ chính xác của phương pháp LDA phụ thuộc vào độ chính xác của bộ từ điển

được sử dụng Nếu bộ từ điển không đủ lớn hoặc không chính xác, kết quả phân tích

của LDA có thé bị ảnh hưởng tiêu cực.

Cuối cùng, Phương pháp này có thé làm việc với các tập dữ liệu lớn, tuy nhiên, điều này đòi hỏi thời gian tính toán lớn và tài nguyên tính toán Do đó có thé

làm giảm tính ứng dụng của phương pháp trong một số trường hợp 1.3.2.2 Lý thuyết về mô hình Latent Dirichlet Allocation

Mô hình LDA sẽ bắt đầu với một số định nghĩa và ký hiệu có liên quan:

Từ ngữ (word hoặc term): Là một thành phần cơ bản trong mô hình LDA, một từ được xác định bằng chỉ mục (index) có giá tri từ 1,2, ,V Từ ngữ thứ i được mã hóa one-hot đưới dang véc tơ w: € RY (phan tử thứ i bằng 1, phần tử còn lại bằng 0) mỗi từ trong từ điển được mã hoá thành một vector có độ dai bằng với sé lượng từ trong từ điển Các phần tử trong vector này đều bằng 0, trừ duy nhất phần tử ứng

với từ đó, được gan giá trị bằng 1).

13

Trang 22

Văn ban (document): w = (Wi,w›, ,WN) đại diện cho một văn bản có N từ

ngữ tương ứng (các từ ngữ này được biểu diễn dưới dang vector).

Tập văn ban (corpus): D = W1,W2, ,;wm là tập của M văn ban

Chủ dé tiềm ẩn (latent topic): Day là những chủ đề an được xác định bởi phân bố của các từ trong văn bản và làm trung gian cho việc trình bay các văn bản

dựa trên chủ đề Số lượng chủ đề được xác định trước ký hiệu là K Các chủ đề tiềm an được xác định trong mô hình sẽ được xem là chủ dé cần tìm (nhắc đến trong đối

tượng nghiên cứu)

Mô hình LDA thuộc loại mô hình sinh xác suât Y tưởng cơ bản của mô hình

này là mỗi tài liệu được thể hiện bằng một hỗn hợp ngẫu nhiên của các chủ đề tiềm

ân, môi chủ đê được xác định bởi sự phân bô của các nhóm từ.

Quá trình sinh:

Nguồn: Phamdinhkhanh (2019)

Hình 1-3: Quá trình sinh

Trong đó:

e _ơ đại diện cho tham số phân phối tiên nghiệm Dirichlet cho chủ dé trong

văn bản Tham số này giúp điều chỉnh mức độ ảnh hưởng của chủ đề đến từng văn bản trong quá trình huấn luyện mô hình.

e _ B đại diện cho tham số phân phối tiên nghiệm Dirichlet cho chủ đề đối với mỗi từ ngữ Tham số này giúp điều chỉnh mức độ ảnh hưởng của từ

ngữ đến các chủ đề trong quá trình huấn luyện mô hình.

e 0; là phân phối của chủ đề đối với văn bản thứ i Tham số này thé hiện xác suat của từng chu đê trong văn ban 1.

14

Trang 23

e @x là phân phối của từ ngữ đối với chủ đề thứ k Tham số này thê hiện

xác suất của từng từ trong chủ đề k.

e — z¡ là chủ đề của từ thứ j trong văn bản i Là một số nguyên có giá tri trong khoảng [1,K] Biến số này xác định chủ đề của từng từ trong mỗi

văn bản.

e _ wi là chỉ mục của từ thứ ¡ thuộc văn bản thứ j Giá trị là một số nguyên trong khoảng [1,V] Biến số này đại điện cho chỉ số của từ trong bộ từ

Đồ thị trên minh họa về quá trình sinh trong LDA, trong đó các quy trình lặp

đi lặp lại được biéu diễn bang các hình chữ nhật Kết quả là, LDA có hai quá trình

lặp đi lặp lại liên tục: việc chọn chủ đề và chọn từ Các tham số cho quá trình khởi tạo là œ và B Từ đó tính toán được phân phối hỗn hợp của chủ dé 0 và phân phối của

các từ theo chủ đề ọ.

Trong mô hình LDA ngoại trừ các từ ngữ wi; là quan sát được thì các biến còn lại đều là các yếu tố ân tạo ra từ mô hình từ các phân phối tiên nghiệm Quan trọng nhất là phân phối Dirichlet dùng dé mô hình hóa các chủ dé-tir (topic-word) Người phân tích mong muốn kết quả là phân phối của một chủ đề có hình dáng nhọn,

đuôi mỏng để xác suất tập trung lớn vào một điểm phục vụ việc suy luận ý nghĩ của chủ đề đó Số lượng chủ dé kí hiệu là K và g1, ,ox là các véc tơ V chiều lưu giá trị

của phân phối Dirichlet của chủ đề theo các từ.

Chúng ta cũng có thé coi rằng 0 và @ tương tự như các giá trị được tạo ra bang phân tích suy biến trong LSA Các dong và cột của 0 tương ứng với văn bản va

chủ đề Các dòng và cột của @ tương ứng với các chủ dé và các từ ngữ Dé suy luận và đảo ngược các chủ đề từ tập văn bản, chúng ta sẽ tạo một quy trình sinh tưởng

tượng trong đó các văn bản được tạo ra theo một cơ chế có thể suy luận từ quy trình này Quy trình đó như sau: “Phân phối xác suất của văn bản được tạo ra dưới dạng

trộn lẫn ngẫu nhiên các chủ đề, trong đó mỗi chủ đề được xác lập bởi phân phối trên

toàn bộ các từ" Cụ thé với bộ văn bản D gồm M văn bản, LDA giả định một quy

trình sinh như sau:

1 Mỗi một văn bản lựa chọn độ dài tương ứng là N bằng phân phối Poisson

với tham sô là Š.

2 Với tham số 0; chính là phân phối chủ dé của văn bản thứ i, lựa chon ơ sao cho @ bằng phân phối Dirichlet với tham số là œ phù hợp.

15

Ngày đăng: 09/04/2024, 17:30

Tài liệu cùng người dùng

Tài liệu liên quan