So sánh Accuracy và F1-score trên bộ dữ liệu Tiếng Việt

Một phần của tài liệu (Luận văn Đại học Thương mại) NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN (Trang 53 - 55)

Tổng hợp kết quả từ bộ dữ liệu chủ đề của đề tài thì thuật tốn MNB cho kết quả cao nhất, tiếp theo là các thuật toán cho kết quả xếp xỉ nhau là W2V và C4.5. Thuật toán

CNN T2V MNB NB SVM KNN C45 RF 20 30 40 50 60 70 80 Accuracy F1-score

C4.5 và thuật toán SVM lần lượt cho kết quả tốt trong bộ dữ liệu 20 NewsGroups nhưng lại không cho kết quả cao trong bộ dữ liệu chủ đề của đề tài. So sánh kết quả thực nghiệm giữa độ chính xác Accuracy và F1-score của các thuật tốn trên bộ ngữ liệu chủ đề của đề tài được minh họa trong Hình 4.8

Tổng hợp các kết quả từ bộ dữ liệu cảm xúc của đề tài cho thấy thuật toán MNB cho kết cao nhất, tiếp theo là thuật toán NB và thuật toán W2Vec. Tương tự như kết quả trên bộ dữ liệu chủ đề của đề tài, thuật toán C4.5 và SVM lần lượt cho kết quả tốt trong các bộ dữ liệu 20 NewsGroups và SemEval-2017 nhưng lại không cho kết quả cao trong bộ dữ liệu cảm xúc của đề tài. So sánh kết quả thực nghiệm giữa độ chính xác Accuracy và F1-score của các thuật toán trên bộ ngữ liệu cảm xúc của đề tài được minh họa trong Hình 4.8

Dựa trên kết quả phân tích này, nhóm nghiên cứu có sử dụng thuật tốn MNB để thực hiện một thực nghiệm nhỏ trong phân tích và phân nhóm khách hàng của một doanh nghiệp. Dựa trên thuật tốn phân nhóm để thực hiện và chia khách hàng thành 03 nhóm là khách hàng VIP, khách hàng thân thiết và khách hàng ít viếng thăm.

Bảng dữ liệu khách hàng gồm các cột: PRODUCT_CATE: Loại sản phẩm giao dịch; PROVINCE: tỉnh thành giao dịch; ORDER_COST: Giá sản phẩm; ORDER_DATE: Thời gian order; ORDER_ID: mã order và CUST_ID: ID của khách hàng

Đề tài dựa trên phân theo mơ hình RFM như sau:

Theo Wikipedia thì “RFM là một phương pháp được sử dụng để phân tích giá trị

khách hàng. Nó thường được sử dụng trong marketing cơ sở dữ liệu (kiểu như dựa vào dữ liệu về khách hàng để tiếp thị sản phẩm) và marketing trực tiếp và đã nhận được sự chú ý đặc biệt trong ngành bán lẻ và dịch vụ.”. RFM định lượng giá trị của một khách

hàng dựa trên 3 thơng tin chính:

Recency: Khoảng thời gian mua hàng gần đây nhất là bao lâu. Cho biết khách

hàng có đang thực sự hoạt động gần thời điểm đánh giá. Chỉ số này càng lớn càng cho thấy xu hướng rời bỏ của khách hàng càng cao. Đó là một cảnh báo cho doanh nghiệp nên thay đổi sản phẩm để đáp ứng thị hiếu khách hàng hoặc thay đổi chính sách để nâng cao chất lượng phục vụ.

Frequency: Tần suất mua hàng của khách hàng. Nếu khách hàng mua càng nhiều

đơn thì giá trị về doanh số mang lại cho công ty càng cao và tất nhiên giá trị của họ càng lớn. Tuy nhiên nếu chỉ xét dựa trên tần suất mua hàng thì cũng chưa đánh giá được đầy đủ mức độ tác động lên doanh thu bởi bên cạnh đó, giá trị đơn hàng cũng là yếu tố trực tiếp cho thấy khách hàng tiềm năng như thế nào.

Monetary: Là số tiền chi tiêu của khách hàng. Đây là yếu tố trực quan nhất ảnh

hưởng tới doanh số. Hay nói cách khác, doanh nghiệp quan tâm nhất là khách hàng đã dành bao nhiêu tiền để mua sắm sản phẩm của công ty? Monetary sẽ tác động trực tiếp tới doanh thu và bị tác động gián tiếp thông qua 2 yếu tố còn lại là Recency và Frequency.

Sau khi đã có đầu vào là 3 nhân tố trên. Có thể sử dụng học có giám sát hoặc phân loại, phân cụm trong các thuật toán đã nêu để nhóm các khách hàng có cùng mức độ vào một nhóm. Khách hàng VIP: rank từ 8-10; Khách hàng thông thường: rank từ 5- 7 và Khách hàng ít ghé thăm: rank < 5.

Sử dụng thuật toán học máy để phân cụm các khách hàng dựa vào input là 3 biến giá trị ranks của Recency, Frequency, Monetary.

Kết quả thực nghiệm với bộ dữ liệu gồm hơn 92.000 hóa đơn phân loại theo khách hàng được kết quả như sau:

Một phần của tài liệu (Luận văn Đại học Thương mại) NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN (Trang 53 - 55)