XÁC ĐỊNH ĐẶC TRƯNG KHÁCH HÀNG DỰA TRÊN TẬP THÔ

Dựa trên các thông tin về thuộc tính khách hàng, mô hình sử dụng phương thức phân lớp Bayes để phân loại dữ liệu các khách hàng trong quá khứ và dự đoán loại của khách hàng mới theo lý t

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

BÀI LUẬN CUỐI KHÓA

XÁC ĐỊNH ĐẶC TRƯNG KHÁCH HÀNG DỰA TRÊN

TẬP THÔ

Giảng viên hướng dẫn: PGS TS ĐỖ PHÚC

Học viên thực hiện: NGUYỄN HỮU VIỆT LONG

Mã số: CH1101101

Lớp: CAO HỌC KHÓA 06-2011

TP Hồ Chí Minh, tháng 11 năm 2012

Trang 3

MỞ ĐẦU

Nhận biết và thấu hiểu đặc trưng khách hàng từ lâu đã luôn là nhu cầu không thể thiếu của các nhà hoạt động kinh doanh Đặc trưng khách hàng (Customer Characteristics) như tuổi tác (age), thu nhập (income), nghề nghiệp (job), trình độ (education level)… ảnh hưởng không nhỏ tới quyết định mua hàng hoặc sử dụng dịch vụ Dự đoán các đặc trưng của khách hàng để đưa ra các chiến lược kinh doanh phù hợp trong hoàn cảnh thị trường có mức

độ rủi ro cao thường là điều không hề dễ dàng đối với doanh nghiệp

Nhà quản lý thường phải bỏ ra một chi phí khá lớn hàng năm để phân loại khách hàng phục vụ mục đích kinh doanh Kỹ thuật Minimize Expected Opportunity Loss là một trong các cách thông dụng mà nhà quản lý doanh nghiệp thường hay sử dụng để hoạch định các chính sách, chiến lược kinh doanh tối ưu, hạn chế rủi ro ở mức thấp

Sự phát triển mạnh mẽ của Công Nghệ Thông Tin và những lợi ích thấy rõ của nó đã thúc đẩy các doanh nghiệp không ngừng đầu tư áp dụng các thành tựu của Khoa học máy tính mà đặc biệt là Khai thác dữ liệu vào hoạt động sản xuất kinh doanh Kỹ thuật phân tích đặc trưng khách hàng cũng theo đó mà phát triển

Mục tiêu của đề tài là giới thiệu mô hình áp dụng một số giải pháp Khai thác dữ liệu nhằm tối ưu cách thức phân loại khách hàng Dựa trên các thông tin về thuộc tính khách hàng, mô hình sử dụng phương thức phân lớp Bayes để phân loại dữ liệu các khách hàng trong quá khứ và dự đoán loại của khách hàng mới theo lý thuyết Tập thô, đồng thời xác định các đặc trưng khách hàng quan trọng đối với quá trình phân tích Kỹ thuật Minimize Expected Opportunity Loss được cải tiến cho phù hợp hơn với mô hình Từ đó, đưa ra phương án tối ưu cho từng khách hàng, nâng cao lợi nhuận và giảm thiểu rủi ro cho doanh nghiệp

Bài luận được chia thành 4 chương và 3 phần phụ lục:

Chương 1: Giới thiệu hướng nghiên cứu phân tích đặc trưng khách hàng và trình bày

tổng quan về tình hình nghiên cứu hiện nay

Chương 2: Giới thiệu bài toán phân tích đặc trưng khách hàng và cơ sở lý thuyết

được sử dụng để giải quyết bài toán này

Trang 4

Chương 3: Trình bày mô hình phân tích đặc trưng G(m,n), các chứng minh lý thuyết

và kết quả thực nghiệm của mô hình này

Chương 4: Tóm tắt các kết quả đạt được, những điểm tích cực và một số vấn đề còn

tồn đọng Giới thiệu những hướng phát triển tiếp theo của mô hình phân tích đặc trưng G(m,n)

Phụ lục A: Tóm tắt mô hình phân tích đặc trưng của Paul E Green Mô hình nền tảng

của mô hình G(m,n)

Phụ lục B: Giới thiệu các lớp bài toán P và NP

Phục lục C: Chứng minh tính đúng đắn của chiến lược sử dụng tập hợp tối đại ngẫu

nhiên ưu tiên trong rút gọn thuộc tính

Bài luận cũng là tổng hợp kết quả của hai bài báo khoa học vừa được đăng tải năm

2012 trên những tạp chí khoa học quốc tế:

1 Thanh-Trung Nguyen, Viet-Long Huu Nguyen, and Phi-Khu Nguyen –

Identifying Customer Characteristics By Using Rough Set Theory With A New Algorithm And Posterior Probabilities – 2012 Fourth International Conference on

http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=6300580&contentType=Conference+Publications

2 Thanh-Trung Nguyen, Viet-Long Huu Nguyen and Phi-Khu Nguyen – A

Bit-Chain Based Algorithm for Problem of Attribute Reduction – Intelligent

Information and Database Systems, Lecture Notes in Computer Science, 2012 Link web: http://www.springerlink.com/content/e2811q8m0j1638hg/

Học viên viên thực hiện

Nguyễn Hữu Việt Long

Trang 5

MỤC LỤC

MỞ ĐẦU 1

MỤC LỤC 3

DANH MỤC 5

CHƯƠNG 1: TỔNG QUAN 10

1.1 XU HƯỚNG NGHIÊN CỨU ĐẶC TRƯNG KHÁCH HÀNG 10

1.1.1 Giới thiệu về Đặc trưng khách hàng 10

1.1.2 Các phương pháp phân tích đặc trưng khách hàng hiện nay 10

1.2 NỘI DUNG NGHIÊN CỨU 13

1.3 PHƯƠNG PHÁP NGHIÊN CỨU 14

CHƯƠNG 2: BÀI TOÁN PHÂN TÍCH ĐẶC TRƯNG 15

2.1 BÀI TOÁN 15

2.2 CƠ SỞ LÝ THUYẾT 16

2.2.1 Expected Opportunity Loss 16

2.2.1.1 Opportunity Loss 16

2.2.1.2 Minimize Expected Opportunity Loss 17

2.2.1.3 Ví dụ về Minimize EOL 17

2.2.2 Khai thác dữ liệu 18

2.2.2.1 Tổng quan về Khai thác dữ liệu 19

2.2.2.2 Công thức Bayes 21

2.2.2.3 Lý thuyết tập thô 23

Trang 6

CHƯƠNG 3: MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG 33

3.1 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG CỦA GREEN 33

3.2 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG G(M,N) 34

3.2.1 Bộ phận tiền xử lý dữ liệu 34

3.2.2 Bộ phận phân tích dữ liệu 38

3.2.3 Bộ phận khuyến nghị 41

3.2.4 Bộ phận xử lý các mẫu khách hàng không xác định 42

3.2.5 Kiểm chứng kết quả thu được 43

3.3 VÍ DỤ MINH HỌA 44

3.4 THỰC NGHIỆM 53

3.4.1 Dữ liệu thực nghiệm 53

3.4.2 Chương trình mô phỏng 55

3.5 KẾT QUẢ 60

CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61

4.1 KẾT LUẬN 61

4.2 HƯỚNG PHÁT TRIỂN 62

Phụ lục A: Mô hình phân tích đặc trưng Paul E Green 63

Phục lục B: Các lớp bài toán P và NP 69

Phụ lục C: Tập hợp tối đại ngẫu nhiên ưu tiên trong rút gọn thuộc tính 72

TÀI LIỆU THAM KHẢO 79

Trang 7

DANH MỤC

1 Thuật ngữ

Đặc trưng khách hàng 10

Opportunity Loss (OL) 16

Expected Opportunity Loss (EOL) 17

Minimize Expected Opportunity Loss 17

Khai thác dữ liệu 18

Công thức Bayes 21

Lý thuyết tập thô 23

Rút gọn thuộc tính 28

Bài toán NP-khó 29

Mô hình G(m,n) 34

Tập hợp tối đại ngẫu nhiên ưu tiên 38

Weighted Opportunity Loss (WOL) 43

Trang 8

2 Công thức

2.1 – Opportunity Loss 17

2.2 – Expected Opportunity Loss 17

2.3 – Công thức Bayes 21

2.4 – Xấp xỉ R-dưới của X 25

2.5 – Xấp xỉ R-trên của X 25

2.6 – Vùng R-biên của X 25

2.7 – Ma trận phân biệt của hệ quyết định 25

2.8 – Hàm phân biệt 26

2.9 – Giá trị Support 30

2.10 – Certainty factor 31

3.1 – Posterior Expected Opportunity Loss 41

3.2 – Expected Opportunity Loss 42

3.3 – Weighted Opportunity Loss 43

Trang 9

3 Bảng

2.1 – Bảng khảo sát lợi nhuận 18

2.2 – Bảng lợi nhuận tối ưu 18

2.3 – Ma trận chi phí: Opportunity Loss 18

2.4 – Một hệ quyết định trong “chuẩn đoán bệnh Cảm cúm” 24

2.5 – Ma trận phân biệt của hệ quyết định “Cảm cúm” 26

2.6 – Hệ quyết định rút gọn thuộc tính Đau cơ 27

2.7 – Hệ quyết định rút gọn thuộc tính Đau đầu 27

2.8 – Bảng chuẩn đoán kết quả Bệnh tật 30

3.1 – Bảng dữ liệu khách hàng 44

3.2 – Bảng ước lượng lợi nhuận 45

3.3 – Danh sách khách hàng cần xác định 45

3.4 – Các xác suất hậu nghiệm 46

3.5 – Các xác suất lề 46

3.6 – Ma trận chi phí Opportunity Loss 47

3.7 – Ma trận phân biệt 47

3.8 – Các vector khách hàng sau khi rút gọn thuộc tính 49

3.9 – Các mẫu khách hàng mục tiêu sau khi rút gọn thuộc tính 50

3.10 – Các xác suất của các mẫu khách hàng thường và ẩn 50

3.11 – Giá trị Posterior EOL của các mẫu khách hàng tập RH 51

3.12 – Kết quả lựa chọn phương án của các mẫu thuộc tập RH 51

3.13 – Giá trị EOL của các phương án đề xuất 51

3.14 – Kết quả phương án áp dụng cho các khách hàng 52

3.15 – Giá trị Weighted Opportunity Loss của các khách hàng tập RH 52

Trang 10

A.1 – Mẫu thuộc tính cho 3 đặc trưng khách hàng và các xác suất có điều kiện 63

A.2 – Bảng Opportunity Losses 64

A.3 – Các xác suất hậu nghiệm của khách hàng 65

A.4 – Các giá trị Critical Probability và Likelihood ratio 66

A.5 – Bảng Expected Opportunity Loss 66

C.1 – Một hệ quyết định “Chơi tennis” 76

C.2 – Ma trận phân biệt của hệ quyết định “Chơi tennis” 76

Trang 11

4 Hình ảnh

2.1 – Mô hình DFD bài toán phân tích đặc trưng khách hàng 15

2.2 – Các công đoạn trong khám phá tri thức 19

2.3 – Kiến trúc một hệ Khai thác dữ liệu 20

2.4 – Minh họa tập thô 24

3.1 – Kiến trúc mô hình G(m,n) 35

3.2 – Các đặc trưng của học viên 53

3.3 – Các loại khách hàng (học viên) 53

3.4 – Các phương án tư vấn đề xuất 54

3.5 – Giao diện của chương trình mô phỏng mô hình G(m,n) 55

3.6 – Một bộ thông số sinh dữ liệu ngẫu nhiên 56

3.7 – Dữ liệu thực nghiệm được nạp vào chương trình 58

3.8 – Cách nạp các vector khách hàng mục tiêu vào chương trình mô phỏng 59

3.9 – File lưu trữ một số mẫu khách hàng mục tiêu 59

A.1 – Đồ thị xu hướng của chỉ số EOL và mức chi phí tính toán 68

B.1 – Mô hình các lớp bài toán 70

C.1 – Đồ thị thời gian chạy của 2 giải thuật Johnson và chuỗi bit 78

Trang 12

CHƯƠNG 1: TỔNG QUAN

1.1 XU HƯỚNG NGHIÊN CỨU ĐẶC TRƯNG KHÁCH HÀNG

1.1.1 Giới thiệu về Đặc trưng khách hàng

Đặc trưng khách hàng (Customer Characteristics) là một trong các tiêu chí giúp xác định loại khách hàng và tiềm năng của khách hàng Các đặc trưng khách hàng có thể kể ra là tuổi tác (age), giới tính (gender), nghề nghiệp (job), thu nhập (income), trình độ học vấn (education level), tình trạng hôn nhân (marital status)…

Cùng với Category Characteristics và Customer Activities, đặc trưng khách hàng là nhân tố quan trọng ảnh hưởng tới tâm lý và quyết định chọn lựa sản phẩm của khách hàng [8][4] Nó cũng làm tác động tới giá trị nhận thức (perceived value) và niềm tin của khách hàng (customer loyalty) vào doanh nghiệp [6] Một số nhà nghiên cứu đã sử dụng các đặc trưng khách hàng nhằm dự đoán quyết định mua vé máy bay [9], mức độ tin tưởng của khách hàng vào các dịch vụ trực tuyến [5]…

Dựa vào một số thông tin mà doanh nghiệp có thể dễ dàng có được như các giá trị RFM (recency, frequency and monetary) và một số giá trị socio-demographics như: tuổi tác, địa chỉ khách hàng, người quản lý hoàn toàn có thể dự đoán khả năng tiêu dùng, kích thước túi tiền của khách hàng [7] Dữ liệu về thông tin, thuộc tính khách hàng có thể thu được từ nhiều nguồn như Internet, các cuộc khảo sát (surveys), các phản hồi của khách hàng (feedbacks)… và chúng thường tốn một số chi phí để tìm kiếm, thu thập [23]

Sự phát triển của Internet kéo theo sự ra đời của các hệ thống khuyến nghị Recommender System Các hệ thống khuyến nghị tích hợp tính năng thu thập thông tin khách hàng trực tuyến để phân tích, đánh giá và đưa ra các khuyến nghị mua hàng, sử dụng sản phẩm, dịch vụ phù hợp với khách hàng [14]

1.1.2 Các phương pháp phân tích đặc trưng khách hàng hiện nay

Các phương pháp phân tích đặc trưng khách hàng hiện nay đều phát triển dựa trên các

kỹ thuật của Xác suất thống kê và Khai thác dữ liệu Việc khảo sát bản chất và ảnh hưởng của từng loại thông tin khách hàng lên quyết định chọn mua hàng và sử dụng dịch vụ được quan tâm nghiên cứu nhiều [8][5][6] Generalized Binomial Model được giới thiệu để dự

Trang 13

đoán Size-of-Wallet, Share-of-Wallet và Potential-of-Wallet Qua đó, xác định được khả năng tiêu dùng của khách hàng [7]

Xác suất thống kê được xem như là một trong những nền tảng lý thuyết của Khai thác

dữ liệu nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống

kê còn tồn tại một số điểm yếu mà Khai thác dữ liệu đã khắc phục được: Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều các Cơ sở dữ liệu Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu… (nguồn http://vi.wikipedia.org/wiki/Data_mining)

Hầu hết các nghiên cứu về đặc trưng khách hàng đều nhằm mục tiêu đáp ứng được tốt nhất nhu cầu của khách hàng và nâng cao lợi nhuận Ý thức được tầm quan trọng của các hoạt động hướng khách hàng (customer orientation), ngày càng nhiều doanh nghiệp quan tâm hơn đến các ứng dụng quản trị quan hệ khách hàng (Customer Relationship Management – CRM) mà bài toán phân tích đặc trưng khách hàng là một cốt lõi không thể thiếu CRM là một phương pháp giúp tiếp cận và giao tiếp với khách hàng một cách có hệ thống và hiệu quả, quản lý các thông tin của khách hàng như thông tin về tài khoản, nhu cầu, liên lạc… nhằm phục vụ khách hàng tốt hơn Thông qua các kỹ thuật, công cụ máy tính, các thông tin khách hàng sẽ được lưu trữ và xử lý Doanh nghiệp có thể phân tích, hình thành danh sách khách hàng tiềm năng và lâu năm để đề ra những chiến lược chăm sóc khách hàng hợp lý Ngoài ra, doanh nghiệp còn có thể xử lý các vấn đề vướng mắc của khách hàng một cách nhanh chóng và hiệu quả Kỹ thuật thường được áp dụng trong các hệ thống CRM chính là Khai thác dữ liệu [21][7]

Khai thác dữ liệu (data mining) là một khái niệm phổ biến của ngành Khoa học máy tính Ra đời vào khoảng thập niên 60 của thế kỷ XX cùng với sự phát triển của máy tính, Trí tuệ nhân tạo và các mô hình cơ sở dữ liệu Khai thác dữ liệu được xem như là quá trình khai thác ra tri thức mới từ một lượng lớn dữ liệu [13] Khai thác dữ liệu hiện nay được áp dụng vào rất nhiều lĩnh vực và giúp cải thiện đáng kể hiệu suất tính toán phân tích dữ liệu Trong phân tích đặc trưng khách hàng, Khai thác dữ liệu cũng có nhiều đóng góp đáng kể Lý thuyết tập thô – một kỹ thuật trong Khai thác dữ liệu – được nhiều nhóm nghiên cứu sử dụng

để dự đoán phương án mà khách hàng chọn [4][9][10] Kỹ thuật Thuật giải di truyền còn cho phép nhận diện những khách hàng mới và đưa ra các khuyến nghị cho họ [14] Bên cạnh

đó, kỹ thuật phân lớp Bayes của Khai thác dữ liệu được xem là kỹ thuật đơn giản nhưng rất hiệu quả để xác định, phân tích đặc trưng khách hàng [23]

Trang 14

Các ứng dụng phân tích đặc trưng khách hàng tạo ra các dịch vụ hướng khách hàng

và nó cũng là cơ sở để các nhà quản lý xây dựng, phát triển các chiến lược kinh doanh phù hợp Tuy nhiên, phân loại khách hàng cũng chỉ đưa ra các thông tin tương đối, thậm chí là không chính xác về quyết định chọn mua sản phẩm, sử dụng dịch vụ của người tiêu dùng Không ai thực sự biết bộ não con người ra những quyết định như thế nào [4] Các quyết định dựa trên những thông tin về loại khách hàng thường sử dụng kỹ thuật xác suất mang mức độ rủi ro cao Trong những hoàn cảnh rủi ro, kỹ thuật Minimize Expected Opportunity Loss là một trong các cách thường được sử dụng Kỹ thuật này chọn ra phương án có phí tổn thấp nhất làm phương án tối ưu [3]

Minimize Expected Opportunity Loss cơ bản dựa vào bảng ma trận ước lượng chi phí

để dự đoán ra phương án có phí tổn thấp Ma trận chi phí được nhà phân tích thu thập từ thực tế thị trường, nó thể hiện sự tác động của phương án đề xuất lên từng loại khách hàng

Loại khách hàng (Customer types) được phân tích dựa trên các đặc trưng của khách hàng và thái độ của khách hàng trong giao thiệp với doanh nghiệp Tùy theo tiêu chí của doanh nghiệp mà có các loại khách hàng khác nhau Một số loại khách hàng có thể kể ra như: khách hàng thanh thiếu niên, khách hàng tiềm năng của sản phẩm X, khách hàng hứng thú với chiến lược Y của doanh nghiệp, khách hàng quan trọng … Hai khách hàng có cùng đặc trưng cũng có thể có quan niệm khác nhau về sản phẩm, dịch vụ của doanh nghiệp và có thể thuộc hai loại khách hàng khác nhau

Như đã nói ở trên, loại khách hàng chỉ phản ánh được phần nào quyết định chọn mua sản phẩm, dịch vụ của khách hàng Sử dụng trực tiếp các thông tin về thuộc tính khách hàng

để tìm kiếm phương án áp dụng tối ưu đã từng được nghiên cứu và thử nghiệm Kỹ thuật phân lớp Bayes được sử dụng làm phương pháp phân tích hậu nghiệm các dữ liệu khách hàng quá khứ khá hiệu quả [23]

Kỹ thuật phân lớp Bayes (Bayesian Classification) dựa trên Công thức Bayes để tính toán, phân loại sự phân bố của các xác suất hậu nghiệm (Posterior Distributions) [12] Xác suất hậu nghiệm giúp ta dự đoán khả năng xuất hiện của sự kiện khi một sự kiện khác đã xảy

ra Kỹ thuật Bayes là cách tiếp cận đơn giản nhất như vô cùng hiệu quả để phân lớp và xác định loại của khách hàng [23]

Bayes tiếp cận trực tiếp lên tập dữ liệu, giả định tính độc lập giữa các thông tin, đặc trưng khách hàng (trên thực tế, các đặc trưng khách hàng có thể có mối liên hệ qua lại với nhau) nên nó bộc lộ nhiều hạn chế trong phân tích dữ liệu Bên cạnh đó, chắc chắn là hầu hết các cơ sở dữ liệu sử dụng cho việc khai thác dữ liệu và phân tích đặc trưng khách hàng trong thực tế đều không hoàn thiện về dữ liệu do nhiễu, các giá trị không xác định hoặc lỗi do các

Trang 15

nhằm khắc phục ít nhiều những hạn chế của phân lớp Bayes, áp dụng vào giải quyết sự gần đúng và các trường hợp quyết định mang tính rủi ro cao

Tập thô (Rough set) được Zdzisław Pawlak, nhà toán học người Ba Lan, phát triển vào những năm đầu thập niên 1980s [22] Nó mở ra một cách tiếp cận dữ liệu mới khác với cách tiếp cận xác suất của phân lớp Bayes Tập thô cung cấp những giải thuật khá hiệu quả giúp tìm ra được những mẫu ẩn (hidden patterns) suy ra từ dữ liệu, đồng thời loại bỏ những thông tin không thật sự cần thiết, phát triển những thông tin quan trọng và xác định đặc trưng của dữ liệu Đây là một kỹ thuật rất hiệu quả trong Khai thác dữ liệu Tập thô cũng rất

dễ hiểu nên được rất nhiều nhà nghiên cứu hiện nay sử dụng Nhiều mô hình lý thuyết tập thô được áp dụng trong lựa chọn sản phẩm của khách hàng [4], trong việc dự đoán khả năng mua vé máy bay [9] hay trong dự đoán thị trường chứng khoán [10]…

1.2 NỘI DUNG NGHIÊN CỨU

Nắm được nhu cầu thiết yếu của việc phân tích đặc trưng khách hàng và xu hướng phát triển hiện nay, đề tài này tiếp tục đào sâu nghiên cứu với mong muốn tìm ra một mô hình phân tích đặc trưng khách hàng hiệu quả dựa trên những phương pháp phân tích đặc trưng truyền thống kết hợp với những phương pháp hiện đại

Để đáp ứng mục tiêu nghiên cứu đó, đề tài đề xuất một mô hình áp dụng Tập thô kết hợp với Công thức Bayes và kỹ thuật Minimize Expected Opportunity Loss để giải quyết bài toán tối ưu trong phân tích đặc trưng khách hàng Mô hình sẽ gồm các thành phần:

- Bộ phận tiền xử lý dữ liệu (Data Preprocessor Module): có nhiệm vụ chuẩn bị dữ liệu; chọn lọc, làm sạch, làm giàu và mã hóa dữ liệu cho phù hợp với mô hình

- Bộ phận phân tích dữ liệu (Data Analyzer Module): sử dụng Tập thô kết hợp với công thức Bayes để phân loại khách hàng và đưa ra các luật của dữ liệu

- Bộ phận khuyến nghị (Recommendation Module): áp dụng kỹ thuật Minimize Expected Opportunity Loss được cải tiến lại cho phù hợp với mô hình để tìm các phương án tối ưu cho các một số mẫu khách hàng

- Bộ phận xử lý mẫu không xác định (Unknown Patterns Processor Module): xác định phương án tối ưu cho các mẫu khách hàng không xác định được dựa trên dữ liệu bằng phương pháp Minimize Expected Opportunity Loss truyền thống

Cùng với đó, mô hình cũng cung cấp một phương thức kiểm chứng tính tối ưu của các phương án dựa trên giá trị Weighted Opportunity Loss

Trang 16

1.3 PHƯƠNG PHÁP NGHIÊN CỨU

Mô hình đề xuất được xây dựng dựa trên một mô hình phân tích đặc trưng có sẵn Kết hợp với việc sử dụng các kỹ thuật tiên tiến của Khai thác dữ liệu là lý thuyết tập thô và công thức Bayes, mô hình phân tích đặc trưng mới đã được kiểm chứng là hoàn chỉnh và hiệu quả

- Dữ liệu đầu ra là danh sách khách hàng và các phương án hiệu quả áp dụng cho khách hàng

Kết quả thực nghiệm cùng những chứng minh lý thuyết đã cho thấy tính chính xác và hiệu quả của mô hinh phân tích đặc trưng khách hàng mà nghiên cứu này mới đề xuất

Trang 17

CHƯƠNG 2: BÀI TOÁN PHÂN TÍCH ĐẶC TRƯNG

2.1 BÀI TOÁN

Một chủ doanh nghiệp đứng trước một bài toán ra quyết định Một loạt các phương án được đưa ra: chiến lược kinh doanh một sản phẩm mới, triển khai một loại hình dịch vụ mới, khuyến mãi sản phẩm…

Hình 2.1: Mô hình DFD bài toán phân tích đặc trưng khách hàng

Bảng khảo sát về lợi nhuận thu được của từng phương án khi áp dụng trên các loại khách hàng được thu thập và trình lên Mỗi phương án sẽ có một tác động khác nhau lên từng loại khách hàng Phương án phù hợp với khách hàng sẽ đem lại lợi nhuận cao Ngược

Customer DB

Some Target Attribute Pattern Vectors

Proposed solutions and Profit Matrix

Recommendations

Analyzing Customer Characteristics

Input

Output

Trang 18

lại, phương án không tốt sẽ gây thiệt hại cho doanh nghiệp, thậm chí làm mất lòng tin của khách hàng vào doanh nghiệp

Tập dữ liệu đặc trưng khách hàng của doanh nghiệp được lưu giữ làm cơ sở cho việc phân tích Các dữ liệu khách hàng có thể được lấy từ hoạt động kinh doanh của chính doanh nghiệp, từ Internet hoặc từ trao đổi, mua bán…

Vấn đề đặt ra là chủ doanh nghiệp sẽ làm cách nào để có thể tìm ra những chính sách, chiến lược tối ưu áp dụng cho khách hàng nhằm thỏa mãn được thị hiếu và nhu cầu của họ, đồng thời nâng cao lợi nhuận, giảm thiểu rủi ro thất bại cho doanh nghiệp

2.2 CƠ SỞ LÝ THUYẾT

Phân tích và xác định đặc trưng của khách hàng chính là một trong những cách hữu hiệu để lựa chọn ra được các phương án và giải pháp tối ưu nhằm đạt mục tiêu lợi nhuận của doanh nghiệp

Việc tìm kiếm chiến lược, ra các quyết định trong điều kiện chỉ biết được những thông tin tương đối trong quá khứ luôn chứa đựng mức độ rủi ro rất cao [3] Trong những hoàn cảnh như vậy, người ta thường sử dụng một số giá trị kỳ vọng để ước lượng rủi ro và

dự đoán lợi nhuận trước khi ra quyết định [3][15][24]:

- Expected monetary value (EMV): giá trị kỳ vọng lợi nhuận được tính bằng đơn vị tiền tệ

- Expected opportunity loss (EOL): giá trị kỳ vọng về mức thiệt hại

- Expected value of perfect information (EVPI): giá trị kỳ vọng của thông tin hoàn hảo

Trong đó, chỉ số EOL đã từng được sử dụng trong bài toán phân tích đặc trưng khách hàng và chứng tỏ được hiệu quả của mình [23]

2.2.1 Expected Opportunity Loss

2.2.1.1 Opportunity Loss

Opportunity Loss là giá trị phản ánh chi phí phải chịu khi lựa chọn thực hiện một phương án không phải tối ưu

Trang 19

Công thức tính giá trị Opportunity Loss:

là số lượng các phương án đề xuất

là số lượng các sự kiện có thể xảy ra trong thực tế

là ước lượng lợi nhuận áp dụng phương án khi sự kiện xảy ra là Đơn vị tính: đơn vị tiền tệ

Giá trị Opportunity Loss luôn lớn hơn hoặc bằng 0 Trường hợp max =

→ = 0tức là đã chọn được phương án tốt nhất trong các phương án với mức thiệt hại Opportunity Loss bằng 0

2.2.1.2 Minimize Expected Opportunity Loss

Giá trị Expected Opportunity Loss chính là mức kỳ vọng chi phí trung bình khi thực hiện một phương án

là xác suất xuất hiện của sự kiện

Giá trị EOL càng nhỏ chứng tỏ phương án đang xem xét có mức thiệt hại trung bình

do rủi ro thấp Phương án có giá trị EOL thấp nhất thường được chọn làm phương án tối ưu trong bài toán ra quyết định[23][3][15][24]

2.2.1.3 Ví dụ về Minimize EOL

Một doanh nghiệp kinh doanh thực phẩm muốn ra quyết định nên bán Nước giải khát hay Bánh mì xúc xích

Trang 20

Hành động (Ai) Sự kiện (Ej)

Thời tiết lạnh (E1) Thời tiết ấm (E2) Bán Nước giải khát (A1) I11=$50 I12=$100 Bán Bánh mì xúc xích (A2) I21=$200 I22=$125

Bảng 2.1: Bảng khảo sát lợi nhuận

Iij là lợi nhuận thực hiện hành động i khi sự kiện xảy ra là j

Dựa vào bảng khảo sát trên, ta có bảng lợi nhuận tối ưu như sau:

Thời tiết lạnh Thời tiết ấm Hành động tối ưu Bán Bánh mì xúc xích Bán Nước giải khát

Bảng 2.2: Bảng lợi nhuận tối ưu

Giá trị Opportunity Loss sẽ được tính như sau:

OLij = Lợi nhuận tối ưu của sự kiện Ei – Lợi nhuận thực của hành động Aj

Thời tiết lạnh (E1) Thời tiết ấm (E2) Bán Nước giải khát (A1) 100 – 50 = 50 200 – 200 = 0 Bán Bánh mì xúc xích (A2) 100 – 100 = 0 200 – 125 = 0

Bảng 2.3: Ma trận chi phí: Opportunity Loss

Giả sử xác suất xảy ra của hai sự kiện E1 và E2 là như nhau: p(E1) = p(E2) = 0.5 EOL1 = 50*0.5+0*0.5 = 25 (Bán Nước giải khát)

Trang 21

2.2.2.1 Tổng quan về Khai thác dữ liệu

Khai thác dữ liệu được xem như là quá trình khai thác ra tri thức mới từ một lượng lớn dữ liệu Thực ra, Khai thác dữ liệu chỉ là một công đoạn trong một tiến trình lớn hơn là Khám phá tri thức từ Cơ sở dữ liệu (Knowledge Discovery in Databases – KDD) Khám phá tri thức gồm nhiều công đoạn:

Hình 2.2: Các công đoạn trong khám phá tri thức

- Làm sạch dữ liệu (data cleaning): loại bỏ dữ liệu thừa, trùng lặp, mâu thuẫn; giới hạn vùng giá trị dữ liệu

- Tích hợp dữ liệu (data integration): làm giàu dữ liệu, kết hợp nhiều nguồn dữ liệu

- Chọn lọc dữ liệu (data selection): loại bỏ những thông tin, dữ liệu không phù hợp với công việc phân tích

- Biển đổi, mã hóa dữ liệu (data transformation): chuyển đổi kiểu dữ liệu thành những dạng phù hợp, thuận tiện để tiến hành các thuật toán khai thác dữ liệu

- Khai thác dữ liệu (data mining): là tiến trình cần thiết, sử dụng các giải pháp thông minh, trí tuệ nhân tạo để khai thác các mẫu dữ liệu

Trang 22

- Đánh giá mẫu (Pattern evaluation): xác định những mẫu được quan tâm biểu diễn tri thức theo một số độ đo (interesting measures)

- Biểu diễn tri thức (Knowledge Representaion): giải thích, hiển thị trực quan kết quả Khai thác dữ liệu đối với người dùng

Hình 2.3: Kiến trúc một hệ Khai thác dữ liệu

Khai thác dữ liệu là tiến trình quan trọng nhất trong KDD Một hệ Khai thác dữ liệu thông thường có các thành phần sau:

- Cơ sở dữ liệu (Database), Kho dữ liệu (Data Warehouse) hay một kho chứa thông tin:

là nguồn dữ liệu, thông tin sẽ được khai thác Trong những tình huống cụ thể, thành phần này là nguồn nhập (input) của các kỹ thuật tích hợp và làm sạch dữ liệu

- Database hay Data Warehouse server: chịu trách nhiệm chuẩn bị dữ liệu phù hợp với quá trình Khai thác dữ liệu

- Hệ Cơ sở tri thức (Knowledge base): chứa các tri thức miền (domain knowledge) được dùng để hướng dẫn quá trình tìm kiếm, đánh giá các mẫu kết quả tìm được Tri thức miền có thể là các hệ phân cấp khái niệm (concept hierarchies), niềm tin của người dùng (user beliefs), các ràng buộc (constraints) hay các ngưỡng giá trị (thresholds), siêu dữ liệu (metadata) …

Trang 23

- Bộ Khai thác dữ liệu (Data mining engine): chứa các khối chức năng thực hiện các tác vụ Khai thác dữ liệu

- Bộ phát triển mẫu (Pattern evaluation module): làm việc với các độ đo (và các ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy

là những mẫu được quan tâm bởi người sử dụng; có thể được tích hợp vào thành phần

Bộ Khai thác dữ liệu

- Giao diện người dùng (Graphical user interface): hỗ trợ sự tương tác giữa người sử dụng và hệ thống Khai thác dữ liệu:

o Người sử dụng có thể chỉ định câu truy vấn hay tác vụ Khai thác dữ liệu

o Người sử dụng có thể được cung cấp thông tin hỗ trợ việc tìm kiếm, thực hiện Khai thác dữ liệu sâu hơn thông qua các kết quả khai phá trung gian

o Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/kho dữ liệu, các cấu trúc dữ liệu; đánh giá các mẫu khai thác được; trực quan hóa các mẫu này ở các dạng khác nhau

Khai thác dữ liệu là sự tích hợp kỹ thuật của rất nhiều ngành như Công Nghệ Cơ sở

dữ liệu, Xác suất – Thống kê, Máy học, Tính toán hiệu năng cao, Nhận diện mẫu, Mạng neuron….[13] [25]

Hai kỹ thuật Khai thác dữ liệu chính được giới thiệu trong khóa luận này để giải quyết bài toán phân tích đặc trưng khách hàng là công thức Bayes và lý thuyết tập thô

2.2.2.2 Công thức Bayes

Công thức Bayes do Thomas Bayes (1702 – 1761) – một nhà toán học người Anh –

đề xuất Công thức Bayes tính toán sự phân bố của các xác suất hậu nghiệm (Posterior Probability) để từ đó, giúp dự đoán sự xuất hiện của một sự kiện Công thức Bayes được chính thức công bố vào năm 1763 sau khi cha đẻ của nó đã qua đời

Công thức Bayes [11][12]:

Trang 24

Các xác suất ( ) và ( | ) thường được biết trước khi thực hiện phép toán và được gọi là các xác suất tiên nghiệm (Prior Probabilities) Xác suất ( | )cho biết khả năng tham gia của sự kiện vào việc xảy ra biến cố ( | ) được gọi là xác suất hậu nghiệm (Posterior Probability)

Nói cách khác, xác suất hậu nghiệm giúp ta dự đoán khả năng xuất hiện của sự kiện khi một sự kiện đã xảy ra Kỹ thuật Bayes chính là cách tiếp cận đơn giản nhất nhưng

vô cùng hiệu quả trong việc phân lớp và khai thác dữ liệu

Xem xét một ví dụ sau:

Trong nhà máy có 4 phân xưởng Phân xưởng I sản xuất chiếm 1/3 tổng sản lượng của nhà máy; Phân xưởng II chiếm 1/4; Phân xưởng III chiếm 1/4; Phân xưởng IV chiếm 1/6

Tỷ lệ phế phẩm tương ứng với các phân xưởng là 0.15; 0.08; 0.05; 0.01

Tìm xác suất để lấy một sản phẩm của phân xưởng I biết nó là một phế phẩm

Gọi , , , là biến cố lấy đúng một sản phẩm của phân xưởng I, II, III, IV Gọi A là biến cố lấy được một phế phẩm

Trang 25

2.2.2.3 Lý thuyết tập thô

2.2.2.3.1 Lý thuyết tập hợp

Trong lý thuyết tập hợp truyền thống, các phần tử được xác định một cách rõ ràng là

có thuộc một tập hợp hay không Tuy nhiên, trong thực tế, nhiều khi việc xác định một phần

tử có thuộc một tập hợp hay không là một việc làm khá mơ hồ Ví dụ một tập hợp các “bức tranh đẹp” Rõ ràng, ta không thể phân lớp một cách chính xác là một bức tranh “đẹp” hay là

“không đẹp” Điều đó phụ thuộc vào quan điểm và thị hiếu của người xem Khái niệm “đẹp” trở nên khá mơ hồ và không thể biểu diễn được trên lý thuyết tập hợp truyền thống Hai lý thuyết được giới thiệu nhằm khắc phục vấn đề này là tập mờ và tập thô đã chứng tỏ được tính hiệu quả trong việc phân loại các dữ liệu không rõ ràng

Lý thuyết tập mờ do Lotfi Zadeh phát triển vào khoảng năm 1965 Tập mờ sử dụng khái niệm hàm mờ để thể hiện mức độ, tư cách thành viên của một phần tử trong một tập mờ

Bên cạnh tập mờ, thì tập thô cũng là một cách tiếp cận khác nhằm giải quyết bài toán

có dữ liệu mơ hồ, không chắc chắn Với nền tảng toán học vững chắc, cung cấp cho người dung những công cụ hữu ích để giải quyết những bài toán phân lớp dữ liệu, phát hiện luật…,

lý thuyết tập thô được rất nhiều nhóm khoa học trên thế giới quan tâm nghiên cứu Tập thô (Rough Set) do Zdzisław Pawlak, nhà toán học người Ba Lan, phát triển vào những năm đầu thập niên 1980s [22][25]

2.2.2.3.2 Hệ thông tin và hệ quyết định

Hệ thông tin là tập hợp dữ liệu được biểu diễn theo dạng bảng, trong đó mỗi dòng biểu diễn một trường hợp, một sự kiện, một khách hàng… hoặc đơn giản là một đối tượng Mỗi cột biểu diễn một thuộc tính và có thể đo đạc được với từng đối tượng

Hệ thông tin thường được ký hiệu là cặp (U, A) trong đó U là tập hữu hạn khác rỗng các đối tượng (tập phổ quát) và A là tập hữu hạn khác rỗng các thuộc tính

Một hệ thông tin có dạng (U; A⋃{d}), trong đó d∉A là thuộc tính quyết định và A là các thuộc tính điều kiện, gọi là hệ quyết định

Trang 26

Bệnh nhân Đau đầu Đau cơ Nhiệt độ Cảm cúm

Bảng 2.4: Một hệ quyết định trong “chuẩn đoán bệnh Cảm cúm”

Trong Bảng 2.4, U = {p1; p2; p3; p4; p5; p6}, A = {Đau đầu, Đau cơ, Nhiệt độ} và d

= Cảm cúm

2.2.2.3.3 Xấp xỉ tập hợp

Trong lý thuyết tập thô, để biểu diễn một tập hợp bằng tri thức được cho xác định bởi một tập thuộc tính, người ta định nghĩa hai phép xấp xỉ: xấp xỉ dưới (lower approximation)

và xấp xỉ trên (upper approximation)

Hình 2.4: Minh họa tập thô

Trang 27

Xét hệ thông tin IS = (U, A), với R ⊆ A và X ⊆ U:

- Xấp xỉ R-dưới của X (R-lower approximation of X): là tập hợp các đối tượng chắc chắn được phân lớp như là các thành viên của X theo tập thuộc tính R

- Nếu vùng biên khác rỗng ( ≠ ∅) thì tập X đang xét được gọi là tập Thô

2.2.2.3.4 Ma trận phân biệt và thuật toán quyết định

a Ma trận phân biệt (Discernibility Matrix)

Ma trận phân biệt là một khái niệm trong tập thô dùng để xác định và loại bỏ các thuộc tính thừa, không cần thiết (superfluous attributes) khi tính toán Với một hệ thông tin

có n đối tượng cần xem xét, ma trận phân biệt của hệ quyết định đó là một ma trận đối xứng

n x n:

= ( )

trong đó:

Đặc điểm chính của ma trận phân biệt là tính đối xứng và có đường chéo rỗng

= ∅

=

Trang 28

Dựa vào Bảng 2.4, ta có ma trận phân biệt sau:

p1 p2 p3 p4 c a, b, c

Bảng 2.5: Ma trận phân biệt của hệ quyết định “Cảm cúm”

Trong ma trận phân biệt này, a đại diện cho thuộc tính Đau đầu; b đại diện cho Đau cơ; c đại diện cho Nhiệt độ; ô trống là giá trị ∅ Do tính chất đối xứng của ma trận phân biệt nên bỏ qua không xét tới nửa trên của ma trận (đặt giá trị ∅ cho các ô này)

b Hàm phân biệt (Discernibility Function)

Ma trận phân biệt chỉ ra các thuộc tính khác nhau đối với từng cặp đối tượng khách hàng Dựa vào ma trận phân biệt, ta có thể xác định được các thuộc tính quan trọng và các thuộc tính không quan trọng bằng cách xây dựng hàm phân biệt

Hàm phân biệt chính là một hàm bool suy ra từ ma trận phân biệt Hàm phân biệt được tính theo công thức sau:

= ( ∨ ) ∧ ( ∨ ) Như vậy, {a,c} và {b,c} chính là hai rút gọn của Hệ quyết định “chuẩn đoán Cảm

cúm” trong Bảng 2.4

Trang 29

Một số định luật đại số bool được sử dụng để thu gọn hàm f [16]:

Bảng 2.6: Hệ quyết định rút gọn thuộc tính Đau cơ {a, c}

Bệnh nhân Đau cơ Nhiệt độ Cảm cúm

Trang 30

c Thuật toán quyết định (Decision Algorithm)

Hai rút gọn tìm được đều ra dạng thu gọn tối ưu của Hệ quyết định Bảng 2.4 Xem xét dạng rút gọn {a, c} và Bảng 2.6, có thể biểu diễn kết quả của Bảng 2.6 theo một dạng gọi

là thuật toán quyết định như sau:

p1: if (Đau đầu=không) and (Nhiệt độ=cao) then (Cảm cúm=có)

p2: if (Đau đầu=có) and (Nhiệt độ=cao) then (Cảm cúm=có)

p3: if (Đau đầu=có) and (Nhiệt độ=rất cao) then (Cảm cúm=có)

p4: if (Đau đầu=không) and (Nhiệt độ=bình thường) then (Cảm cúm=không)

p5: if (Đau đầu=có) and (Nhiệt độ=cao) then (Cảm cúm=không)

p6: if (Đau đầu=không) and (Nhiệt độ=rất cao) then (Cảm cúm=có)

Đây chính là các luật quyết định (decision rules) rút ra từ Hệ quyết định “chuẩn đoán Cảm cúm” Dựa vào nó, ta có thể dễ dàng xác định được một bệnh nhân có bị Cảm cúm hay không dựa vào các triệu chứng của bện nhân đó

Tập hợp các luật quyết định gọi là thuật toán quyết định (decision algorithm) Nó cho thấy quy luật tổng quát của tập dữ liệu đang sử dụng Các luật quyết định trong thuật toán quyết định là duy nhất và có biểu thức điều kiện luôn khác nhau

Ngoài việc rút gọn thuộc tính, bài toán trên lý thuyết tập thô còn có thể rút gọn các giá trị thuộc tính để làm tăng tính hiệu quả của thuật toán quyết định Nhưng việc rút gọn giá trị thuộc tính thường không đơn giản và đôi khi chi phí bỏ ra rút gọn giá trị của thuộc tính còn lớn hơn nhiều chi phí khi không xử lý rút gọn giá trị thuộc tính

2.2.2.3.5 Bài toán rút gọn thuộc tính trong lý thuyết tập thô

Một vấn đề then chốt trong nghiên cứu lý thuyết tập thô chính là rút gọn thuộc tính Khi xử lý với dữ liệu lớn, một hệ thống máy tính sẽ tốn thời gian rất lâu hoặc có thể bị treo, tắt, thiếu tài nguyên dẫn tới trì trệ toàn hệ thống Bên cạnh đó, việc thu thập thông tin về một

số thuộc tính thừa sẽ gây lãng phí, tốn nhiều thời gian, công sức Rút gọn thuộc tính, hay còn gọi là việc lựa chọn đặc trưng, loại bỏ những thuộc tính không thật sự cần thiết trong hệ thông tin và cải tiến hiệu quả của tiến trình phân tích dữ liệu Nhưng việc giải quyết bài toán

Trang 31

rút gọn thuộc tính là một vấn đề vô cùng khó khăn và thuộc lớp bài toán NP-khó (NP-hard problem)

NP (nondeterministic polynomial) là lớp các bài toán quyết định mà để xác định câu trả lời của nó chúng ta có thể đưa ra các bằng chứng ngắn gọn dễ kiểm tra

Ví dụ: Bài toán kiểm tra tính hợp số: “Có phải n là hợp số không?” là một bài toán lớp NP Để xác nhận câu trả lời ‘yes’ cho đầu vào n ta có thể đưa ra một ước số b (1<b<n) của n Để kiểm tra xem b có phải là ước số của n hay không ta có thể thực hiện phép chia n cho b sau thời gian đa thức Trong ví dụ này dễ thấy b là bằng chứng ngắn gọn (b<n) và dễ kiểm tra (có thuật toán thời gian tính đa thức để kiểm tra xem b có là ước số của n)

NP-khó là lớp bài toán không có thuật toán để giải nó theo thời gian đa thức mà chỉ

có những thuật toán giải trong thời gian hàm mũ [20] (xem thêm Phụ lục B)

Nhiều nghiên cứu hiện nay về lý thuyết tập thô đều tập trung vào giải quyết bài toán rút gọn thuộc tính này một cách có hiệu quả Kỹ thuật rút gọn sử dụng ma trận phân biệt (discernibility function) chính là kỹ thuật cơ bản nhất và được nhiều nhà nghiên cứu hiện nay sử dụng

Việc rút trích ra hàm phân biệt từ mà trận phân biệt và đơn giản hàm phân biệt để tìm

ra một tập rút gọn các thuộc tính của hệ quyết định là phương pháp phổ biến Nhưng rút gọn hàm phân biệt cũng là một bài toán dạng NP-khó

Bên cạnh việc rút gọn hàm phân biệt gặp không ít khó khăn, nhiều nhà nghiên cứu quan tâm đến việc biến đổi ma trận phân biệt thành những dạng đơn giản Với một ma trận đơn giản, ta có thể dễ dàng lấy được hàm phân biệt tối tiểu và tìm ra những thuộc tính quan trọng trong một hệ quyết định

Vấn đề chính của các phương pháp về ma trận phân biệt là chúng yêu cầu không gian

bộ nhớ quá lớn |U|x|U|, U là không gian hữu hạn khác rỗng các đối tượng Gần như là không thể áp dụng trực tiếp các phương pháp này trên các tập dữ liệu có chứa một lượng lớn đối tượng Người ta cũng nghiên cứu nhiều phương án thay thế nhằm tránh phải dùng ma trận phân biệt trong phân tích dữ liệu trên lý thuyết tập thô Hai cách tiếp cận không sử dụng ma trận phân biệt được nhiều nhà nghiên cứu sử dụng nhất là sử dụng sự phụ thuộc giữa các thuộc tính (dependency of attributes) và sử dụng các thuật toán tìm kiếm ngẫu nhiên

Trang 32

2.2.2.3.6 Tập thô và công thức Bayes

Những đối tượng nằm ở vùng biên của tập thô thường mang những giá trị không chắc chắn và cần có một phương pháp phân tích, thống kê để có thể xây dựng thuật toán quyết định phù hợp cho các đối tượng này Trong thống kê, công thức Bayes luôn chứng tỏ là công

cụ hữu hiệu để phân tích và dự đoán dữ liệu Việc áp dụng công thức Bayes vào lý thuyết tập thô, được cha đẻ Tập thô là Pawlak giới thiệu, đã giải quyết được một số vấn đề khó khăn còn tồn đọng và gia tăng mức độ chính xác của thuật toán quyết định [22]

Bảng 2.8: Bảng chuẩn đoán kết quả Bệnh tật

Giá trị Support thể hiện tần số xuất hiện của đối tượng x có giá trị thuộc tính điều kiện là A(x) và giá trị thuộc tính quyết định là D(x) trong tập dữ liệu

supp3(A,D) = supp3(<Bệnh=không, Tuổi=già, Giới tính=nam>,<Kiểm tra=–>) = 100: mẫu <Bệnh=không, Tuổi=già, Giới tính=nam, Kiểm tra=–> xuất hiện 100 lần trong bảng dữ liệu

supp4(A,D) = supp4(<Bệnh=có, Tuổi=già, Giới tính=nam>,<Kiểm tra=–>) = 40: mẫu

<Bệnh=có, Tuổi=già, Giới tính=nam, Kiểm tra=–> xuất hiện 40 lần trong bảng dữ liệu

Trang 33

supp5(A,D) = supp5(<Bệnh=không, Tuổi=trẻ, Giới tính=nữ>,<Kiểm tra=–>) = 220: mẫu <Bệnh=không, Tuổi=trẻ, Giới tính=nữ, Kiểm tra=–> xuất hiện 220 lần trong bảng dữ liệu

supp6(A,D) = supp6(<Bệnh=có, Tuổi=trung niên, Giới tính=nữ>,<Kiểm tra=–>) = 60: mẫu (<Bệnh=có, Tuổi=trung niên, Giới tính=nữ, Kiểm tra=–>) xuất hiện 60 lần trong bảng

dữ liệu

Giá trị Certainty factor của Bảng 2.8 thể hiện mức độ chắc chắn của luật quyết định

suy ra từ dữ liệu Thực chất, giá trị Certainty factor chính là xác suất hậu nghiệm suy ra từ công thức Bayes nhằm dự đoán khả năng xảy ra của thuộc tính quyết định D khi đối tượng

có giá trị thuộc tính là A(x)

|A(Bệnh=có, Tuổi=già, Giới tính=nam)| = supp1(A,D) + supp4(A,D) = 400 + 40 = 440

|A(Bệnh=có, Tuổi=trung niên, Giới tính=nữ)| = supp2(A,D) + supp6(A,D) = 80 + 60 =

140

|A(Bệnh=không, Tuổi=già, Giới tính=nam)| = supp3(A,D) = 100

|A(Bệnh=không, Tuổi=trẻ, Giới tính=nữ)| = supp5(A,D) = 220

Trang 34

Dựa vào các giá trị Bảng 2.8, có thể xây dựng các luật quyết định như sau:

if: (Bệnh=có) and (Tuổi=già) and (Giới tính=nam) then Kiểm tra= 91% +

9% −

if: (Bệnh=có) and (Tuổi=trung niên) and (Giới tính=nữ) then Kiểm tra= 57% +

43% −

if: (Bệnh=không) and (Tuổi=già) and (Giới tính=nam) then Kiểm tra=100% –

if: (Bệnh=không) and (Tuổi=trẻ) and (Giới tính=nữ) then Kiểm tra=100% –

Thuật toán quyết định này thể hiện mức độ chính xác của các luật để người dùng có thể hạn chế rủi ro mắc phải trong việc đưa ra các quyết định không chắc chắn

Trang 35

CHƯƠNG 3: MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG

3.1 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG CỦA GREEN

Để giải quyết bài toán ra quyết định phức tạp, Paul E Green – Giáo sư danh dự chuyên ngành marketing của Đại học Pennsylvania, Philadelphia –, trong một nghiên cứu của mình, đã xây dựng thành công một mô hình phân tích đặc trưng khách hàng đơn giản dựa trên lý thuyết phân lớp Bayes [23] Mô hình của ông áp dụng được trong tình huống có

2 phương án và 2 loại khách hàng cần xem xét (xem thêm Phụ lục A)

Tác giả dựa chủ yếu vào giá trị EOL để ước lượng rủi ro cho từng phương án áp dụng, kết hợp với việc sử dụng một số thông tin về thuộc tính khách hàng để gia tăng tính chính xác cho bài toán quyết định Kỹ thuật phân lớp Bayes được sử dụng như là công cụ hữu hiệu trong phân loại khách hàng Tuy khá đơn giản nhưng kết quả quá trình phân tích đặc trưng khách hàng của mô hình này lại tốt hơn nhiều so với kỹ thuật lựa chọn phương án dựa trên Minimize Expected Opportunity Loss Mô hình của Green cũng đã chứng tỏ được tính hiệu quả của việc sử dụng thêm các thông tin khách hàng vào bài toán phân tích đặc trưng

Mặc dù thu được hiệu quả tích cực nhưng mô hình G(2,2) (mô hình phân tích đặc trưng khách hàng với 2 phương án đề xuất và 2 loại khách hàng của Paul E Green) vẫn bộc

lộ một số hạn chế Các hệ số Critical Probability và Likelihood Ratio được tác giả giới thiệu nhằm giải quyết bài toán phân tích đặc trưng trong hoàn cảnh mô hình chỉ có 2 phương án đề xuất và 2 loại khách hàng Hai hệ số này hoàn toàn không thể áp dụng được trong việc phát triển mô hình lên nhiều loại khách hàng khác nhau và nhiều phương án đề xuất

Bên cạnh đó việc xác định số lượng thuộc tính tối ưu của nghiên cứu này cũng chưa thực sự tổng quát và tốt, một phần cũng vì nguyên nhân là các công cụ kỹ thuật hỗ trợ lúc bấy giờ chưa đáp ứng được đầy đủ nhu cầu tính toán, phân tích các bài toán phức tạp

Ngoài ra, việc chưa xác định được các loại khách hàng mới cũng là một thiếu sót của Green và mô hình G(2,2) Trong thực tế, các đặc trưng khách hàng nhiều và đa dạng, xác định và dự đoán thị hiếu của những khách hàng mới thường rất khó khăn nhưng vô cùng quan trọng, góp phần quyết định trong hoạt động marketing, mở rộng kinh doanh và nâng cao lợi nhuận cho doanh nghiệp

Khắc phục thành công những hạn chế của mô hình G(2,2) và áp dụng các kỹ thuật tiên tiến hiện nay vào mô hình sẽ góp phần giúp cho mô hình phân tích đặc trưng khách

Trang 36

hàng này cải thiện được đáng kể về mặt hiệu suất và cung cấp một công cụ tốt cho nhà quản

lý trong việc đưa ra các quyết định rủi ro cao

3.2 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG G(M,N)

Nghiên cứu đề xuất mô hình G(m,n) là một phát triển của mô hình phân tích đặc trưng khách hàng của Paul E Green Mô hình phát triển nhằm áp dụng cho bài toán ra quyết định có nhiều hơn 2 phương án lựa chọn và nhiều loại khách hàng Đồng thời, xác định số lượng thuộc tính tối ưu và đề xuất giải pháp xử lý đối với các khách hàng mới không có trong dữ liệu

Mô hình G(m,n) sẽ gồm 4 thành phần với những chức năng riêng biệt:

- Bộ phận tiền xử lý dữ liệu (Data Preprocessor Module)

- Bộ phận phân tích dữ liệu (Data Analyzer Module)

- Bộ phận khuyến nghị (Recommendation Module)

- Bộ phận xử lý mẫu không xác định (Unknown Patterns Processor Module)

3.2.1 Bộ phận tiền xử lý dữ liệu

Bộ phận tiền xử lý dữ liệu có vai trò chuẩn bị dữ liệu cho các bộ phận sau xử lý Nhiệm vụ cơ bản của bộ phận này là làm sạch dữ liệu, loại bỏ các dữ liệu lỗi, thừa và tổ chức lại dữ liệu cho phù hợp với đặc trưng của bài toán

a Dữ liệu đầu vào:

i Số lượng phương án đề xuất: m { } = 1,2, … ,

ii Số loại khách hàng: n { }, ( ) = 1,2, … ,

( ) = 1

Trang 37

Hình 3.1: Kiến trúc mô hình G(m,n)

Data Analyzer Module

Unknown Patterns Processor Module Recommendation Module

Data Preprocessor Module

Regular Patterns

Hidden Patterns

Unknown Patterns

The optimal number

of customer attributes

Trang 38

iii Dữ liệu khách hàng:

Mỗi khách hàng đại diện bởi một vector thuộc tính và mỗi vector thuộc một lớp khách hàng

= , , … , : = 1,2, … , ; = 1,2 … ,

A là số lượng thuộc tính (đặc trưng) của khách hàng

là số lượng bảng tin (record) trong dữ liệu; ≤ 2

= 0 : khách hàng không có thuộc tính a

= 1 : khách hàng có thuộc tính a

Hai vectors khách hàng giống nhau có thể là hai loại khách hàng khác nhau Hai vectors khách hàng khác nhau có thể là cùng một loại khách hàng Việc một khách hàng là loại khách hàng nào phụ thuộc vào quyết định chọn mua, sử dụng sản phẩm dịch vụ của khách hàng

iv Ma trận khảo sát lợi nhuận của từng phương án trên các loại khách hàng:

b Dữ liệu đầu ra:

Quá trình chuẩn bị, chọn lọc, làm sạch và tổ chức dữ liệu cho ra dữ liệu mới có thông tin phù hợp cho việc phân tích Thông tin đầu ra của bộ phận tiền xử lý dữ liệu có cấu trúc như sau:

i Danh sách m phương án

Trang 39

ii Danh sách và xác suất của n loại khách hàng

iii Bảng xác suất hậu nghiệm (Certainty Table):

Dựa vào bảng dữ liệu khách hàng và định lý Bayes, bộ phận tiền xử lý dữ liệu sẽ đưa

ra bảng các xác suất hậu nghiệm (posterior probabilities) hay còn gọi là các giá trị certainty factors trong lý thuyết Tập thô

Các xác suất hậu nghiệm cho thấy khả năng khách hàng thuộc loại là bao nhiêu

= 1

iv Bảng các xác suất lề (Marginal Probability):

Dựa vào bảng dữ liệu khách hàng, bộ phận tiền xử lý dữ liệu sẽ đưa ra bảng xác suất

lề (Marginal Probability)

Các xác suất lề không tham gia quá trình phân tích nhưng là cơ sở để kiểm chứng tính tối ưu của các phương án áp dụng lên khách hàng sau này

v Ma trận chi phí (Payoff Matrix):

Ma trận chi phí thể hiện giá trị Opportunity Loss của các phương án khi áp dụng lên các loại khách hàng Giá trị Opportunity Loss được tính theo công thức và dựa vào ma trận lợi nhuận ( , )

vi Danh sách các mẫu khách hàng cần xác định

Trang 40

3.2.2 Bộ phận phân tích dữ liệu

Bộ phận phân tích dữ liệu là bộ phận quan trọng nhất của mô hình G(m, n) Bộ phận này xác định những đặc trưng khách hàng quan trọng cho việc phân tích, đồng thời đưa ra các quy luật của dữ liệu phục vụ cho dự đoán loại khách hàng và phương án tối ưu áp dụng cho khách hàng Lý thuyết tập thô được áp dụng như là cơ sở toán học cho bộ phận phân tích

dữ liệu

a Xác định những đặc trưng khách hàng quan trọng

Việc xác định những đặc trưng (hay thuộc tính) khách hàng quan trọng chính là loại

bỏ các đặc trưng (hay thuộc tính) không quan trọng ra khỏi dữ liệu để cải thiện tốc độ tính toán và giảm thiểu chi phí thu thập Nói cách khác, bài toán xác định đặc trưng khách hàng quan trọng chính là bài toán rút gọn thuộc tính (attribute reduction) – vấn đề then chốt khi áp dụng lý thuyết tập thô

Có rất nhiều kỹ thuật rút gọn thuộc tính được nghiên cứu hiện nay Tuy nhiên các giải thuật đề xuất thường có độ phức tạp rất cao (thường ở mức NP-khó), gây khó khăn không nhỏ trong việc triển khai và áp dụng vào thực tế Trong một nghiên cứu gần đây [2], một kỹ thuật rút gọn thuộc tính dựa trên tập hợp tối đại ngẫu nhiên ưu tiên (maximal random prior set) đã được giới thiệu Nghiên cứu giới thiệu một không gian toán học dựa trên các chuỗi bit (mỗi bit đại diện cho 1 thuộc tính) Thuật toán rút gọn thuộc tính được trình bày có độ phức tạp ở mức tuyến tính và hoàn toàn phù hợp để triển khai vào các ứng dụng trong thực

tế

Sơ lược thuật toán dựa trên chuỗi bit (xem thêm Phụ lục C):

Ta có hàm phân biệt f suy ra từ ma trận phân biệt:

i Chuyển các mệnh đề logic (propositions) trong f thành một tập hợp S các chuỗi bit Khởi tạo tập tối đại ngẫu nhiên ưu tiên P rỗng

ii Phần tử đầu tiên trong S là một dạng tối đại ngẫu nhiên ưu tiên (maximal random prior form) Thêm phần tử này vào P

iii Dò phần tử tiếp theo trong S, phép toán giao giữa phần tử tiếp theo này và nhưng phần tử tồn tại trong P sẽ giúp tìm ra những dạng tối đại ngẫu nhiên ưu tiên mới Nếu dạng

mới không được sinh ra thì hiển nhiên, phần tử đang xét là một dạng tối đại ngẫu nhiên ưu

tiên Thêm phần tử này vào P

Định dạng
Số trang	82
Dung lượng	4,96 MB