Dựa trên các thông tin về thuộc tính khách hàng, mô hình sử dụng phương thức phân lớp Bayes để phân loại dữ liệu các khách hàng trong quá khứ và dự đoán loại của khách hàng mới theo lý t
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
BÀI LUẬN CUỐI KHÓA
XÁC ĐỊNH ĐẶC TRƯNG KHÁCH HÀNG DỰA TRÊN
TẬP THÔ
Giảng viên hướng dẫn: PGS TS ĐỖ PHÚC
Học viên thực hiện: NGUYỄN HỮU VIỆT LONG
Mã số: CH1101101
Lớp: CAO HỌC KHÓA 06-2011
TP Hồ Chí Minh, tháng 11 năm 2012
Trang 3MỞ ĐẦU
Nhận biết và thấu hiểu đặc trưng khách hàng từ lâu đã luôn là nhu cầu không thể thiếu của các nhà hoạt động kinh doanh Đặc trưng khách hàng (Customer Characteristics) như tuổi tác (age), thu nhập (income), nghề nghiệp (job), trình độ (education level)… ảnh hưởng không nhỏ tới quyết định mua hàng hoặc sử dụng dịch vụ Dự đoán các đặc trưng của khách hàng để đưa ra các chiến lược kinh doanh phù hợp trong hoàn cảnh thị trường có mức
độ rủi ro cao thường là điều không hề dễ dàng đối với doanh nghiệp
Nhà quản lý thường phải bỏ ra một chi phí khá lớn hàng năm để phân loại khách hàng phục vụ mục đích kinh doanh Kỹ thuật Minimize Expected Opportunity Loss là một trong các cách thông dụng mà nhà quản lý doanh nghiệp thường hay sử dụng để hoạch định các chính sách, chiến lược kinh doanh tối ưu, hạn chế rủi ro ở mức thấp
Sự phát triển mạnh mẽ của Công Nghệ Thông Tin và những lợi ích thấy rõ của nó đã thúc đẩy các doanh nghiệp không ngừng đầu tư áp dụng các thành tựu của Khoa học máy tính mà đặc biệt là Khai thác dữ liệu vào hoạt động sản xuất kinh doanh Kỹ thuật phân tích đặc trưng khách hàng cũng theo đó mà phát triển
Mục tiêu của đề tài là giới thiệu mô hình áp dụng một số giải pháp Khai thác dữ liệu nhằm tối ưu cách thức phân loại khách hàng Dựa trên các thông tin về thuộc tính khách hàng, mô hình sử dụng phương thức phân lớp Bayes để phân loại dữ liệu các khách hàng trong quá khứ và dự đoán loại của khách hàng mới theo lý thuyết Tập thô, đồng thời xác định các đặc trưng khách hàng quan trọng đối với quá trình phân tích Kỹ thuật Minimize Expected Opportunity Loss được cải tiến cho phù hợp hơn với mô hình Từ đó, đưa ra phương án tối ưu cho từng khách hàng, nâng cao lợi nhuận và giảm thiểu rủi ro cho doanh nghiệp
Bài luận được chia thành 4 chương và 3 phần phụ lục:
Chương 1: Giới thiệu hướng nghiên cứu phân tích đặc trưng khách hàng và trình bày
tổng quan về tình hình nghiên cứu hiện nay
Chương 2: Giới thiệu bài toán phân tích đặc trưng khách hàng và cơ sở lý thuyết
được sử dụng để giải quyết bài toán này
Trang 4Chương 3: Trình bày mô hình phân tích đặc trưng G(m,n), các chứng minh lý thuyết
và kết quả thực nghiệm của mô hình này
Chương 4: Tóm tắt các kết quả đạt được, những điểm tích cực và một số vấn đề còn
tồn đọng Giới thiệu những hướng phát triển tiếp theo của mô hình phân tích đặc trưng G(m,n)
Phụ lục A: Tóm tắt mô hình phân tích đặc trưng của Paul E Green Mô hình nền tảng
của mô hình G(m,n)
Phụ lục B: Giới thiệu các lớp bài toán P và NP
Phục lục C: Chứng minh tính đúng đắn của chiến lược sử dụng tập hợp tối đại ngẫu
nhiên ưu tiên trong rút gọn thuộc tính
Bài luận cũng là tổng hợp kết quả của hai bài báo khoa học vừa được đăng tải năm
2012 trên những tạp chí khoa học quốc tế:
1 Thanh-Trung Nguyen, Viet-Long Huu Nguyen, and Phi-Khu Nguyen –
Identifying Customer Characteristics By Using Rough Set Theory With A New Algorithm And Posterior Probabilities – 2012 Fourth International Conference on
http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=6300580&contentType=Conference+Publications
2 Thanh-Trung Nguyen, Viet-Long Huu Nguyen and Phi-Khu Nguyen – A
Bit-Chain Based Algorithm for Problem of Attribute Reduction – Intelligent
Information and Database Systems, Lecture Notes in Computer Science, 2012 Link web: http://www.springerlink.com/content/e2811q8m0j1638hg/
Học viên viên thực hiện
Nguyễn Hữu Việt Long
Trang 5MỤC LỤC
MỞ ĐẦU 1
MỤC LỤC 3
DANH MỤC 5
CHƯƠNG 1: TỔNG QUAN 10
1.1 XU HƯỚNG NGHIÊN CỨU ĐẶC TRƯNG KHÁCH HÀNG 10
1.1.1 Giới thiệu về Đặc trưng khách hàng 10
1.1.2 Các phương pháp phân tích đặc trưng khách hàng hiện nay 10
1.2 NỘI DUNG NGHIÊN CỨU 13
1.3 PHƯƠNG PHÁP NGHIÊN CỨU 14
CHƯƠNG 2: BÀI TOÁN PHÂN TÍCH ĐẶC TRƯNG 15
2.1 BÀI TOÁN 15
2.2 CƠ SỞ LÝ THUYẾT 16
2.2.1 Expected Opportunity Loss 16
2.2.1.1 Opportunity Loss 16
2.2.1.2 Minimize Expected Opportunity Loss 17
2.2.1.3 Ví dụ về Minimize EOL 17
2.2.2 Khai thác dữ liệu 18
2.2.2.1 Tổng quan về Khai thác dữ liệu 19
2.2.2.2 Công thức Bayes 21
2.2.2.3 Lý thuyết tập thô 23
Trang 6CHƯƠNG 3: MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG 33
3.1 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG CỦA GREEN 33
3.2 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG G(M,N) 34
3.2.1 Bộ phận tiền xử lý dữ liệu 34
3.2.2 Bộ phận phân tích dữ liệu 38
3.2.3 Bộ phận khuyến nghị 41
3.2.4 Bộ phận xử lý các mẫu khách hàng không xác định 42
3.2.5 Kiểm chứng kết quả thu được 43
3.3 VÍ DỤ MINH HỌA 44
3.4 THỰC NGHIỆM 53
3.4.1 Dữ liệu thực nghiệm 53
3.4.2 Chương trình mô phỏng 55
3.5 KẾT QUẢ 60
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 61
4.1 KẾT LUẬN 61
4.2 HƯỚNG PHÁT TRIỂN 62
Phụ lục A: Mô hình phân tích đặc trưng Paul E Green 63
Phục lục B: Các lớp bài toán P và NP 69
Phụ lục C: Tập hợp tối đại ngẫu nhiên ưu tiên trong rút gọn thuộc tính 72
TÀI LIỆU THAM KHẢO 79
Trang 7DANH MỤC
1 Thuật ngữ
Đặc trưng khách hàng 10
Opportunity Loss (OL) 16
Expected Opportunity Loss (EOL) 17
Minimize Expected Opportunity Loss 17
Khai thác dữ liệu 18
Công thức Bayes 21
Lý thuyết tập thô 23
Rút gọn thuộc tính 28
Bài toán NP-khó 29
Mô hình G(m,n) 34
Tập hợp tối đại ngẫu nhiên ưu tiên 38
Weighted Opportunity Loss (WOL) 43
Trang 82 Công thức
2.1 – Opportunity Loss 17
2.2 – Expected Opportunity Loss 17
2.3 – Công thức Bayes 21
2.4 – Xấp xỉ R-dưới của X 25
2.5 – Xấp xỉ R-trên của X 25
2.6 – Vùng R-biên của X 25
2.7 – Ma trận phân biệt của hệ quyết định 25
2.8 – Hàm phân biệt 26
2.9 – Giá trị Support 30
2.10 – Certainty factor 31
3.1 – Posterior Expected Opportunity Loss 41
3.2 – Expected Opportunity Loss 42
3.3 – Weighted Opportunity Loss 43
Trang 93 Bảng
2.1 – Bảng khảo sát lợi nhuận 18
2.2 – Bảng lợi nhuận tối ưu 18
2.3 – Ma trận chi phí: Opportunity Loss 18
2.4 – Một hệ quyết định trong “chuẩn đoán bệnh Cảm cúm” 24
2.5 – Ma trận phân biệt của hệ quyết định “Cảm cúm” 26
2.6 – Hệ quyết định rút gọn thuộc tính Đau cơ 27
2.7 – Hệ quyết định rút gọn thuộc tính Đau đầu 27
2.8 – Bảng chuẩn đoán kết quả Bệnh tật 30
3.1 – Bảng dữ liệu khách hàng 44
3.2 – Bảng ước lượng lợi nhuận 45
3.3 – Danh sách khách hàng cần xác định 45
3.4 – Các xác suất hậu nghiệm 46
3.5 – Các xác suất lề 46
3.6 – Ma trận chi phí Opportunity Loss 47
3.7 – Ma trận phân biệt 47
3.8 – Các vector khách hàng sau khi rút gọn thuộc tính 49
3.9 – Các mẫu khách hàng mục tiêu sau khi rút gọn thuộc tính 50
3.10 – Các xác suất của các mẫu khách hàng thường và ẩn 50
3.11 – Giá trị Posterior EOL của các mẫu khách hàng tập RH 51
3.12 – Kết quả lựa chọn phương án của các mẫu thuộc tập RH 51
3.13 – Giá trị EOL của các phương án đề xuất 51
3.14 – Kết quả phương án áp dụng cho các khách hàng 52
3.15 – Giá trị Weighted Opportunity Loss của các khách hàng tập RH 52
Trang 10A.1 – Mẫu thuộc tính cho 3 đặc trưng khách hàng và các xác suất có điều kiện 63
A.2 – Bảng Opportunity Losses 64
A.3 – Các xác suất hậu nghiệm của khách hàng 65
A.4 – Các giá trị Critical Probability và Likelihood ratio 66
A.5 – Bảng Expected Opportunity Loss 66
C.1 – Một hệ quyết định “Chơi tennis” 76
C.2 – Ma trận phân biệt của hệ quyết định “Chơi tennis” 76
Trang 114 Hình ảnh
2.1 – Mô hình DFD bài toán phân tích đặc trưng khách hàng 15
2.2 – Các công đoạn trong khám phá tri thức 19
2.3 – Kiến trúc một hệ Khai thác dữ liệu 20
2.4 – Minh họa tập thô 24
3.1 – Kiến trúc mô hình G(m,n) 35
3.2 – Các đặc trưng của học viên 53
3.3 – Các loại khách hàng (học viên) 53
3.4 – Các phương án tư vấn đề xuất 54
3.5 – Giao diện của chương trình mô phỏng mô hình G(m,n) 55
3.6 – Một bộ thông số sinh dữ liệu ngẫu nhiên 56
3.7 – Dữ liệu thực nghiệm được nạp vào chương trình 58
3.8 – Cách nạp các vector khách hàng mục tiêu vào chương trình mô phỏng 59
3.9 – File lưu trữ một số mẫu khách hàng mục tiêu 59
A.1 – Đồ thị xu hướng của chỉ số EOL và mức chi phí tính toán 68
B.1 – Mô hình các lớp bài toán 70
C.1 – Đồ thị thời gian chạy của 2 giải thuật Johnson và chuỗi bit 78
Trang 12CHƯƠNG 1: TỔNG QUAN
1.1 XU HƯỚNG NGHIÊN CỨU ĐẶC TRƯNG KHÁCH HÀNG
1.1.1 Giới thiệu về Đặc trưng khách hàng
Đặc trưng khách hàng (Customer Characteristics) là một trong các tiêu chí giúp xác định loại khách hàng và tiềm năng của khách hàng Các đặc trưng khách hàng có thể kể ra là tuổi tác (age), giới tính (gender), nghề nghiệp (job), thu nhập (income), trình độ học vấn (education level), tình trạng hôn nhân (marital status)…
Cùng với Category Characteristics và Customer Activities, đặc trưng khách hàng là nhân tố quan trọng ảnh hưởng tới tâm lý và quyết định chọn lựa sản phẩm của khách hàng [8][4] Nó cũng làm tác động tới giá trị nhận thức (perceived value) và niềm tin của khách hàng (customer loyalty) vào doanh nghiệp [6] Một số nhà nghiên cứu đã sử dụng các đặc trưng khách hàng nhằm dự đoán quyết định mua vé máy bay [9], mức độ tin tưởng của khách hàng vào các dịch vụ trực tuyến [5]…
Dựa vào một số thông tin mà doanh nghiệp có thể dễ dàng có được như các giá trị RFM (recency, frequency and monetary) và một số giá trị socio-demographics như: tuổi tác, địa chỉ khách hàng, người quản lý hoàn toàn có thể dự đoán khả năng tiêu dùng, kích thước túi tiền của khách hàng [7] Dữ liệu về thông tin, thuộc tính khách hàng có thể thu được từ nhiều nguồn như Internet, các cuộc khảo sát (surveys), các phản hồi của khách hàng (feedbacks)… và chúng thường tốn một số chi phí để tìm kiếm, thu thập [23]
Sự phát triển của Internet kéo theo sự ra đời của các hệ thống khuyến nghị Recommender System Các hệ thống khuyến nghị tích hợp tính năng thu thập thông tin khách hàng trực tuyến để phân tích, đánh giá và đưa ra các khuyến nghị mua hàng, sử dụng sản phẩm, dịch vụ phù hợp với khách hàng [14]
1.1.2 Các phương pháp phân tích đặc trưng khách hàng hiện nay
Các phương pháp phân tích đặc trưng khách hàng hiện nay đều phát triển dựa trên các
kỹ thuật của Xác suất thống kê và Khai thác dữ liệu Việc khảo sát bản chất và ảnh hưởng của từng loại thông tin khách hàng lên quyết định chọn mua hàng và sử dụng dịch vụ được quan tâm nghiên cứu nhiều [8][5][6] Generalized Binomial Model được giới thiệu để dự
Trang 13đoán Size-of-Wallet, Share-of-Wallet và Potential-of-Wallet Qua đó, xác định được khả năng tiêu dùng của khách hàng [7]
Xác suất thống kê được xem như là một trong những nền tảng lý thuyết của Khai thác
dữ liệu nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống
kê còn tồn tại một số điểm yếu mà Khai thác dữ liệu đã khắc phục được: Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều các Cơ sở dữ liệu Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử dụng tri thức sẵn có về lĩnh vực Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào và ở đâu… (nguồn http://vi.wikipedia.org/wiki/Data_mining)
Hầu hết các nghiên cứu về đặc trưng khách hàng đều nhằm mục tiêu đáp ứng được tốt nhất nhu cầu của khách hàng và nâng cao lợi nhuận Ý thức được tầm quan trọng của các hoạt động hướng khách hàng (customer orientation), ngày càng nhiều doanh nghiệp quan tâm hơn đến các ứng dụng quản trị quan hệ khách hàng (Customer Relationship Management – CRM) mà bài toán phân tích đặc trưng khách hàng là một cốt lõi không thể thiếu CRM là một phương pháp giúp tiếp cận và giao tiếp với khách hàng một cách có hệ thống và hiệu quả, quản lý các thông tin của khách hàng như thông tin về tài khoản, nhu cầu, liên lạc… nhằm phục vụ khách hàng tốt hơn Thông qua các kỹ thuật, công cụ máy tính, các thông tin khách hàng sẽ được lưu trữ và xử lý Doanh nghiệp có thể phân tích, hình thành danh sách khách hàng tiềm năng và lâu năm để đề ra những chiến lược chăm sóc khách hàng hợp lý Ngoài ra, doanh nghiệp còn có thể xử lý các vấn đề vướng mắc của khách hàng một cách nhanh chóng và hiệu quả Kỹ thuật thường được áp dụng trong các hệ thống CRM chính là Khai thác dữ liệu [21][7]
Khai thác dữ liệu (data mining) là một khái niệm phổ biến của ngành Khoa học máy tính Ra đời vào khoảng thập niên 60 của thế kỷ XX cùng với sự phát triển của máy tính, Trí tuệ nhân tạo và các mô hình cơ sở dữ liệu Khai thác dữ liệu được xem như là quá trình khai thác ra tri thức mới từ một lượng lớn dữ liệu [13] Khai thác dữ liệu hiện nay được áp dụng vào rất nhiều lĩnh vực và giúp cải thiện đáng kể hiệu suất tính toán phân tích dữ liệu Trong phân tích đặc trưng khách hàng, Khai thác dữ liệu cũng có nhiều đóng góp đáng kể Lý thuyết tập thô – một kỹ thuật trong Khai thác dữ liệu – được nhiều nhóm nghiên cứu sử dụng
để dự đoán phương án mà khách hàng chọn [4][9][10] Kỹ thuật Thuật giải di truyền còn cho phép nhận diện những khách hàng mới và đưa ra các khuyến nghị cho họ [14] Bên cạnh
đó, kỹ thuật phân lớp Bayes của Khai thác dữ liệu được xem là kỹ thuật đơn giản nhưng rất hiệu quả để xác định, phân tích đặc trưng khách hàng [23]
Trang 14Các ứng dụng phân tích đặc trưng khách hàng tạo ra các dịch vụ hướng khách hàng
và nó cũng là cơ sở để các nhà quản lý xây dựng, phát triển các chiến lược kinh doanh phù hợp Tuy nhiên, phân loại khách hàng cũng chỉ đưa ra các thông tin tương đối, thậm chí là không chính xác về quyết định chọn mua sản phẩm, sử dụng dịch vụ của người tiêu dùng Không ai thực sự biết bộ não con người ra những quyết định như thế nào [4] Các quyết định dựa trên những thông tin về loại khách hàng thường sử dụng kỹ thuật xác suất mang mức độ rủi ro cao Trong những hoàn cảnh rủi ro, kỹ thuật Minimize Expected Opportunity Loss là một trong các cách thường được sử dụng Kỹ thuật này chọn ra phương án có phí tổn thấp nhất làm phương án tối ưu [3]
Minimize Expected Opportunity Loss cơ bản dựa vào bảng ma trận ước lượng chi phí
để dự đoán ra phương án có phí tổn thấp Ma trận chi phí được nhà phân tích thu thập từ thực tế thị trường, nó thể hiện sự tác động của phương án đề xuất lên từng loại khách hàng
Loại khách hàng (Customer types) được phân tích dựa trên các đặc trưng của khách hàng và thái độ của khách hàng trong giao thiệp với doanh nghiệp Tùy theo tiêu chí của doanh nghiệp mà có các loại khách hàng khác nhau Một số loại khách hàng có thể kể ra như: khách hàng thanh thiếu niên, khách hàng tiềm năng của sản phẩm X, khách hàng hứng thú với chiến lược Y của doanh nghiệp, khách hàng quan trọng … Hai khách hàng có cùng đặc trưng cũng có thể có quan niệm khác nhau về sản phẩm, dịch vụ của doanh nghiệp và có thể thuộc hai loại khách hàng khác nhau
Như đã nói ở trên, loại khách hàng chỉ phản ánh được phần nào quyết định chọn mua sản phẩm, dịch vụ của khách hàng Sử dụng trực tiếp các thông tin về thuộc tính khách hàng
để tìm kiếm phương án áp dụng tối ưu đã từng được nghiên cứu và thử nghiệm Kỹ thuật phân lớp Bayes được sử dụng làm phương pháp phân tích hậu nghiệm các dữ liệu khách hàng quá khứ khá hiệu quả [23]
Kỹ thuật phân lớp Bayes (Bayesian Classification) dựa trên Công thức Bayes để tính toán, phân loại sự phân bố của các xác suất hậu nghiệm (Posterior Distributions) [12] Xác suất hậu nghiệm giúp ta dự đoán khả năng xuất hiện của sự kiện khi một sự kiện khác đã xảy
ra Kỹ thuật Bayes là cách tiếp cận đơn giản nhất như vô cùng hiệu quả để phân lớp và xác định loại của khách hàng [23]
Bayes tiếp cận trực tiếp lên tập dữ liệu, giả định tính độc lập giữa các thông tin, đặc trưng khách hàng (trên thực tế, các đặc trưng khách hàng có thể có mối liên hệ qua lại với nhau) nên nó bộc lộ nhiều hạn chế trong phân tích dữ liệu Bên cạnh đó, chắc chắn là hầu hết các cơ sở dữ liệu sử dụng cho việc khai thác dữ liệu và phân tích đặc trưng khách hàng trong thực tế đều không hoàn thiện về dữ liệu do nhiễu, các giá trị không xác định hoặc lỗi do các
Trang 15nhằm khắc phục ít nhiều những hạn chế của phân lớp Bayes, áp dụng vào giải quyết sự gần đúng và các trường hợp quyết định mang tính rủi ro cao
Tập thô (Rough set) được Zdzisław Pawlak, nhà toán học người Ba Lan, phát triển vào những năm đầu thập niên 1980s [22] Nó mở ra một cách tiếp cận dữ liệu mới khác với cách tiếp cận xác suất của phân lớp Bayes Tập thô cung cấp những giải thuật khá hiệu quả giúp tìm ra được những mẫu ẩn (hidden patterns) suy ra từ dữ liệu, đồng thời loại bỏ những thông tin không thật sự cần thiết, phát triển những thông tin quan trọng và xác định đặc trưng của dữ liệu Đây là một kỹ thuật rất hiệu quả trong Khai thác dữ liệu Tập thô cũng rất
dễ hiểu nên được rất nhiều nhà nghiên cứu hiện nay sử dụng Nhiều mô hình lý thuyết tập thô được áp dụng trong lựa chọn sản phẩm của khách hàng [4], trong việc dự đoán khả năng mua vé máy bay [9] hay trong dự đoán thị trường chứng khoán [10]…
1.2 NỘI DUNG NGHIÊN CỨU
Nắm được nhu cầu thiết yếu của việc phân tích đặc trưng khách hàng và xu hướng phát triển hiện nay, đề tài này tiếp tục đào sâu nghiên cứu với mong muốn tìm ra một mô hình phân tích đặc trưng khách hàng hiệu quả dựa trên những phương pháp phân tích đặc trưng truyền thống kết hợp với những phương pháp hiện đại
Để đáp ứng mục tiêu nghiên cứu đó, đề tài đề xuất một mô hình áp dụng Tập thô kết hợp với Công thức Bayes và kỹ thuật Minimize Expected Opportunity Loss để giải quyết bài toán tối ưu trong phân tích đặc trưng khách hàng Mô hình sẽ gồm các thành phần:
- Bộ phận tiền xử lý dữ liệu (Data Preprocessor Module): có nhiệm vụ chuẩn bị dữ liệu; chọn lọc, làm sạch, làm giàu và mã hóa dữ liệu cho phù hợp với mô hình
- Bộ phận phân tích dữ liệu (Data Analyzer Module): sử dụng Tập thô kết hợp với công thức Bayes để phân loại khách hàng và đưa ra các luật của dữ liệu
- Bộ phận khuyến nghị (Recommendation Module): áp dụng kỹ thuật Minimize Expected Opportunity Loss được cải tiến lại cho phù hợp với mô hình để tìm các phương án tối ưu cho các một số mẫu khách hàng
- Bộ phận xử lý mẫu không xác định (Unknown Patterns Processor Module): xác định phương án tối ưu cho các mẫu khách hàng không xác định được dựa trên dữ liệu bằng phương pháp Minimize Expected Opportunity Loss truyền thống
Cùng với đó, mô hình cũng cung cấp một phương thức kiểm chứng tính tối ưu của các phương án dựa trên giá trị Weighted Opportunity Loss
Trang 161.3 PHƯƠNG PHÁP NGHIÊN CỨU
Mô hình đề xuất được xây dựng dựa trên một mô hình phân tích đặc trưng có sẵn Kết hợp với việc sử dụng các kỹ thuật tiên tiến của Khai thác dữ liệu là lý thuyết tập thô và công thức Bayes, mô hình phân tích đặc trưng mới đã được kiểm chứng là hoàn chỉnh và hiệu quả
- Dữ liệu đầu ra là danh sách khách hàng và các phương án hiệu quả áp dụng cho khách hàng
Kết quả thực nghiệm cùng những chứng minh lý thuyết đã cho thấy tính chính xác và hiệu quả của mô hinh phân tích đặc trưng khách hàng mà nghiên cứu này mới đề xuất
Trang 17CHƯƠNG 2: BÀI TOÁN PHÂN TÍCH ĐẶC TRƯNG
2.1 BÀI TOÁN
Một chủ doanh nghiệp đứng trước một bài toán ra quyết định Một loạt các phương án được đưa ra: chiến lược kinh doanh một sản phẩm mới, triển khai một loại hình dịch vụ mới, khuyến mãi sản phẩm…
Hình 2.1: Mô hình DFD bài toán phân tích đặc trưng khách hàng
Bảng khảo sát về lợi nhuận thu được của từng phương án khi áp dụng trên các loại khách hàng được thu thập và trình lên Mỗi phương án sẽ có một tác động khác nhau lên từng loại khách hàng Phương án phù hợp với khách hàng sẽ đem lại lợi nhuận cao Ngược
Customer DB
Some Target Attribute Pattern Vectors
Proposed solutions and Profit Matrix
Recommendations
Analyzing Customer Characteristics
Input
Output
Trang 18lại, phương án không tốt sẽ gây thiệt hại cho doanh nghiệp, thậm chí làm mất lòng tin của khách hàng vào doanh nghiệp
Tập dữ liệu đặc trưng khách hàng của doanh nghiệp được lưu giữ làm cơ sở cho việc phân tích Các dữ liệu khách hàng có thể được lấy từ hoạt động kinh doanh của chính doanh nghiệp, từ Internet hoặc từ trao đổi, mua bán…
Vấn đề đặt ra là chủ doanh nghiệp sẽ làm cách nào để có thể tìm ra những chính sách, chiến lược tối ưu áp dụng cho khách hàng nhằm thỏa mãn được thị hiếu và nhu cầu của họ, đồng thời nâng cao lợi nhuận, giảm thiểu rủi ro thất bại cho doanh nghiệp
2.2 CƠ SỞ LÝ THUYẾT
Phân tích và xác định đặc trưng của khách hàng chính là một trong những cách hữu hiệu để lựa chọn ra được các phương án và giải pháp tối ưu nhằm đạt mục tiêu lợi nhuận của doanh nghiệp
Việc tìm kiếm chiến lược, ra các quyết định trong điều kiện chỉ biết được những thông tin tương đối trong quá khứ luôn chứa đựng mức độ rủi ro rất cao [3] Trong những hoàn cảnh như vậy, người ta thường sử dụng một số giá trị kỳ vọng để ước lượng rủi ro và
dự đoán lợi nhuận trước khi ra quyết định [3][15][24]:
- Expected monetary value (EMV): giá trị kỳ vọng lợi nhuận được tính bằng đơn vị tiền tệ
- Expected opportunity loss (EOL): giá trị kỳ vọng về mức thiệt hại
- Expected value of perfect information (EVPI): giá trị kỳ vọng của thông tin hoàn hảo
Trong đó, chỉ số EOL đã từng được sử dụng trong bài toán phân tích đặc trưng khách hàng và chứng tỏ được hiệu quả của mình [23]
2.2.1 Expected Opportunity Loss
2.2.1.1 Opportunity Loss
Opportunity Loss là giá trị phản ánh chi phí phải chịu khi lựa chọn thực hiện một phương án không phải tối ưu
Trang 19Công thức tính giá trị Opportunity Loss:
là số lượng các phương án đề xuất
là số lượng các sự kiện có thể xảy ra trong thực tế
là ước lượng lợi nhuận áp dụng phương án khi sự kiện xảy ra là Đơn vị tính: đơn vị tiền tệ
Giá trị Opportunity Loss luôn lớn hơn hoặc bằng 0 Trường hợp max =
→ = 0tức là đã chọn được phương án tốt nhất trong các phương án với mức thiệt hại Opportunity Loss bằng 0
2.2.1.2 Minimize Expected Opportunity Loss
Giá trị Expected Opportunity Loss chính là mức kỳ vọng chi phí trung bình khi thực hiện một phương án
là xác suất xuất hiện của sự kiện
Giá trị EOL càng nhỏ chứng tỏ phương án đang xem xét có mức thiệt hại trung bình
do rủi ro thấp Phương án có giá trị EOL thấp nhất thường được chọn làm phương án tối ưu trong bài toán ra quyết định[23][3][15][24]
2.2.1.3 Ví dụ về Minimize EOL
Một doanh nghiệp kinh doanh thực phẩm muốn ra quyết định nên bán Nước giải khát hay Bánh mì xúc xích
Trang 20Hành động (Ai) Sự kiện (Ej)
Thời tiết lạnh (E1) Thời tiết ấm (E2) Bán Nước giải khát (A1) I11=$50 I12=$100 Bán Bánh mì xúc xích (A2) I21=$200 I22=$125
Bảng 2.1: Bảng khảo sát lợi nhuận
Iij là lợi nhuận thực hiện hành động i khi sự kiện xảy ra là j
Dựa vào bảng khảo sát trên, ta có bảng lợi nhuận tối ưu như sau:
Thời tiết lạnh Thời tiết ấm Hành động tối ưu Bán Bánh mì xúc xích Bán Nước giải khát
Bảng 2.2: Bảng lợi nhuận tối ưu
Giá trị Opportunity Loss sẽ được tính như sau:
OLij = Lợi nhuận tối ưu của sự kiện Ei – Lợi nhuận thực của hành động Aj
Thời tiết lạnh (E1) Thời tiết ấm (E2) Bán Nước giải khát (A1) 100 – 50 = 50 200 – 200 = 0 Bán Bánh mì xúc xích (A2) 100 – 100 = 0 200 – 125 = 0
Bảng 2.3: Ma trận chi phí: Opportunity Loss
Giả sử xác suất xảy ra của hai sự kiện E1 và E2 là như nhau: p(E1) = p(E2) = 0.5 EOL1 = 50*0.5+0*0.5 = 25 (Bán Nước giải khát)
Trang 212.2.2.1 Tổng quan về Khai thác dữ liệu
Khai thác dữ liệu được xem như là quá trình khai thác ra tri thức mới từ một lượng lớn dữ liệu Thực ra, Khai thác dữ liệu chỉ là một công đoạn trong một tiến trình lớn hơn là Khám phá tri thức từ Cơ sở dữ liệu (Knowledge Discovery in Databases – KDD) Khám phá tri thức gồm nhiều công đoạn:
Hình 2.2: Các công đoạn trong khám phá tri thức
- Làm sạch dữ liệu (data cleaning): loại bỏ dữ liệu thừa, trùng lặp, mâu thuẫn; giới hạn vùng giá trị dữ liệu
- Tích hợp dữ liệu (data integration): làm giàu dữ liệu, kết hợp nhiều nguồn dữ liệu
- Chọn lọc dữ liệu (data selection): loại bỏ những thông tin, dữ liệu không phù hợp với công việc phân tích
- Biển đổi, mã hóa dữ liệu (data transformation): chuyển đổi kiểu dữ liệu thành những dạng phù hợp, thuận tiện để tiến hành các thuật toán khai thác dữ liệu
- Khai thác dữ liệu (data mining): là tiến trình cần thiết, sử dụng các giải pháp thông minh, trí tuệ nhân tạo để khai thác các mẫu dữ liệu
Trang 22- Đánh giá mẫu (Pattern evaluation): xác định những mẫu được quan tâm biểu diễn tri thức theo một số độ đo (interesting measures)
- Biểu diễn tri thức (Knowledge Representaion): giải thích, hiển thị trực quan kết quả Khai thác dữ liệu đối với người dùng
Hình 2.3: Kiến trúc một hệ Khai thác dữ liệu
Khai thác dữ liệu là tiến trình quan trọng nhất trong KDD Một hệ Khai thác dữ liệu thông thường có các thành phần sau:
- Cơ sở dữ liệu (Database), Kho dữ liệu (Data Warehouse) hay một kho chứa thông tin:
là nguồn dữ liệu, thông tin sẽ được khai thác Trong những tình huống cụ thể, thành phần này là nguồn nhập (input) của các kỹ thuật tích hợp và làm sạch dữ liệu
- Database hay Data Warehouse server: chịu trách nhiệm chuẩn bị dữ liệu phù hợp với quá trình Khai thác dữ liệu
- Hệ Cơ sở tri thức (Knowledge base): chứa các tri thức miền (domain knowledge) được dùng để hướng dẫn quá trình tìm kiếm, đánh giá các mẫu kết quả tìm được Tri thức miền có thể là các hệ phân cấp khái niệm (concept hierarchies), niềm tin của người dùng (user beliefs), các ràng buộc (constraints) hay các ngưỡng giá trị (thresholds), siêu dữ liệu (metadata) …
Trang 23- Bộ Khai thác dữ liệu (Data mining engine): chứa các khối chức năng thực hiện các tác vụ Khai thác dữ liệu
- Bộ phát triển mẫu (Pattern evaluation module): làm việc với các độ đo (và các ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy
là những mẫu được quan tâm bởi người sử dụng; có thể được tích hợp vào thành phần
Bộ Khai thác dữ liệu
- Giao diện người dùng (Graphical user interface): hỗ trợ sự tương tác giữa người sử dụng và hệ thống Khai thác dữ liệu:
o Người sử dụng có thể chỉ định câu truy vấn hay tác vụ Khai thác dữ liệu
o Người sử dụng có thể được cung cấp thông tin hỗ trợ việc tìm kiếm, thực hiện Khai thác dữ liệu sâu hơn thông qua các kết quả khai phá trung gian
o Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/kho dữ liệu, các cấu trúc dữ liệu; đánh giá các mẫu khai thác được; trực quan hóa các mẫu này ở các dạng khác nhau
Khai thác dữ liệu là sự tích hợp kỹ thuật của rất nhiều ngành như Công Nghệ Cơ sở
dữ liệu, Xác suất – Thống kê, Máy học, Tính toán hiệu năng cao, Nhận diện mẫu, Mạng neuron….[13] [25]
Hai kỹ thuật Khai thác dữ liệu chính được giới thiệu trong khóa luận này để giải quyết bài toán phân tích đặc trưng khách hàng là công thức Bayes và lý thuyết tập thô
2.2.2.2 Công thức Bayes
Công thức Bayes do Thomas Bayes (1702 – 1761) – một nhà toán học người Anh –
đề xuất Công thức Bayes tính toán sự phân bố của các xác suất hậu nghiệm (Posterior Probability) để từ đó, giúp dự đoán sự xuất hiện của một sự kiện Công thức Bayes được chính thức công bố vào năm 1763 sau khi cha đẻ của nó đã qua đời
Công thức Bayes [11][12]:
Trang 24Các xác suất ( ) và ( | ) thường được biết trước khi thực hiện phép toán và được gọi là các xác suất tiên nghiệm (Prior Probabilities) Xác suất ( | )cho biết khả năng tham gia của sự kiện vào việc xảy ra biến cố ( | ) được gọi là xác suất hậu nghiệm (Posterior Probability)
Nói cách khác, xác suất hậu nghiệm giúp ta dự đoán khả năng xuất hiện của sự kiện khi một sự kiện đã xảy ra Kỹ thuật Bayes chính là cách tiếp cận đơn giản nhất nhưng
vô cùng hiệu quả trong việc phân lớp và khai thác dữ liệu
Xem xét một ví dụ sau:
Trong nhà máy có 4 phân xưởng Phân xưởng I sản xuất chiếm 1/3 tổng sản lượng của nhà máy; Phân xưởng II chiếm 1/4; Phân xưởng III chiếm 1/4; Phân xưởng IV chiếm 1/6
Tỷ lệ phế phẩm tương ứng với các phân xưởng là 0.15; 0.08; 0.05; 0.01
Tìm xác suất để lấy một sản phẩm của phân xưởng I biết nó là một phế phẩm
Gọi , , , là biến cố lấy đúng một sản phẩm của phân xưởng I, II, III, IV Gọi A là biến cố lấy được một phế phẩm
Trang 252.2.2.3 Lý thuyết tập thô
2.2.2.3.1 Lý thuyết tập hợp
Trong lý thuyết tập hợp truyền thống, các phần tử được xác định một cách rõ ràng là
có thuộc một tập hợp hay không Tuy nhiên, trong thực tế, nhiều khi việc xác định một phần
tử có thuộc một tập hợp hay không là một việc làm khá mơ hồ Ví dụ một tập hợp các “bức tranh đẹp” Rõ ràng, ta không thể phân lớp một cách chính xác là một bức tranh “đẹp” hay là
“không đẹp” Điều đó phụ thuộc vào quan điểm và thị hiếu của người xem Khái niệm “đẹp” trở nên khá mơ hồ và không thể biểu diễn được trên lý thuyết tập hợp truyền thống Hai lý thuyết được giới thiệu nhằm khắc phục vấn đề này là tập mờ và tập thô đã chứng tỏ được tính hiệu quả trong việc phân loại các dữ liệu không rõ ràng
Lý thuyết tập mờ do Lotfi Zadeh phát triển vào khoảng năm 1965 Tập mờ sử dụng khái niệm hàm mờ để thể hiện mức độ, tư cách thành viên của một phần tử trong một tập mờ
Bên cạnh tập mờ, thì tập thô cũng là một cách tiếp cận khác nhằm giải quyết bài toán
có dữ liệu mơ hồ, không chắc chắn Với nền tảng toán học vững chắc, cung cấp cho người dung những công cụ hữu ích để giải quyết những bài toán phân lớp dữ liệu, phát hiện luật…,
lý thuyết tập thô được rất nhiều nhóm khoa học trên thế giới quan tâm nghiên cứu Tập thô (Rough Set) do Zdzisław Pawlak, nhà toán học người Ba Lan, phát triển vào những năm đầu thập niên 1980s [22][25]
2.2.2.3.2 Hệ thông tin và hệ quyết định
Hệ thông tin là tập hợp dữ liệu được biểu diễn theo dạng bảng, trong đó mỗi dòng biểu diễn một trường hợp, một sự kiện, một khách hàng… hoặc đơn giản là một đối tượng Mỗi cột biểu diễn một thuộc tính và có thể đo đạc được với từng đối tượng
Hệ thông tin thường được ký hiệu là cặp (U, A) trong đó U là tập hữu hạn khác rỗng các đối tượng (tập phổ quát) và A là tập hữu hạn khác rỗng các thuộc tính
Một hệ thông tin có dạng (U; A⋃{d}), trong đó d∉A là thuộc tính quyết định và A là các thuộc tính điều kiện, gọi là hệ quyết định
Trang 26Bệnh nhân Đau đầu Đau cơ Nhiệt độ Cảm cúm
Bảng 2.4: Một hệ quyết định trong “chuẩn đoán bệnh Cảm cúm”
Trong Bảng 2.4, U = {p1; p2; p3; p4; p5; p6}, A = {Đau đầu, Đau cơ, Nhiệt độ} và d
= Cảm cúm
2.2.2.3.3 Xấp xỉ tập hợp
Trong lý thuyết tập thô, để biểu diễn một tập hợp bằng tri thức được cho xác định bởi một tập thuộc tính, người ta định nghĩa hai phép xấp xỉ: xấp xỉ dưới (lower approximation)
và xấp xỉ trên (upper approximation)
Hình 2.4: Minh họa tập thô
Trang 27Xét hệ thông tin IS = (U, A), với R ⊆ A và X ⊆ U:
- Xấp xỉ R-dưới của X (R-lower approximation of X): là tập hợp các đối tượng chắc chắn được phân lớp như là các thành viên của X theo tập thuộc tính R
- Nếu vùng biên khác rỗng ( ≠ ∅) thì tập X đang xét được gọi là tập Thô
2.2.2.3.4 Ma trận phân biệt và thuật toán quyết định
a Ma trận phân biệt (Discernibility Matrix)
Ma trận phân biệt là một khái niệm trong tập thô dùng để xác định và loại bỏ các thuộc tính thừa, không cần thiết (superfluous attributes) khi tính toán Với một hệ thông tin
có n đối tượng cần xem xét, ma trận phân biệt của hệ quyết định đó là một ma trận đối xứng
n x n:
= ( )
trong đó:
Đặc điểm chính của ma trận phân biệt là tính đối xứng và có đường chéo rỗng
= ∅
=
Trang 28Dựa vào Bảng 2.4, ta có ma trận phân biệt sau:
p1 p2 p3 p4 c a, b, c
Bảng 2.5: Ma trận phân biệt của hệ quyết định “Cảm cúm”
Trong ma trận phân biệt này, a đại diện cho thuộc tính Đau đầu; b đại diện cho Đau cơ; c đại diện cho Nhiệt độ; ô trống là giá trị ∅ Do tính chất đối xứng của ma trận phân biệt nên bỏ qua không xét tới nửa trên của ma trận (đặt giá trị ∅ cho các ô này)
b Hàm phân biệt (Discernibility Function)
Ma trận phân biệt chỉ ra các thuộc tính khác nhau đối với từng cặp đối tượng khách hàng Dựa vào ma trận phân biệt, ta có thể xác định được các thuộc tính quan trọng và các thuộc tính không quan trọng bằng cách xây dựng hàm phân biệt
Hàm phân biệt chính là một hàm bool suy ra từ ma trận phân biệt Hàm phân biệt được tính theo công thức sau:
= ( ∨ ) ∧ ( ∨ ) Như vậy, {a,c} và {b,c} chính là hai rút gọn của Hệ quyết định “chuẩn đoán Cảm
cúm” trong Bảng 2.4
Trang 29Một số định luật đại số bool được sử dụng để thu gọn hàm f [16]:
Bảng 2.6: Hệ quyết định rút gọn thuộc tính Đau cơ {a, c}
Bệnh nhân Đau cơ Nhiệt độ Cảm cúm
Trang 30c Thuật toán quyết định (Decision Algorithm)
Hai rút gọn tìm được đều ra dạng thu gọn tối ưu của Hệ quyết định Bảng 2.4 Xem xét dạng rút gọn {a, c} và Bảng 2.6, có thể biểu diễn kết quả của Bảng 2.6 theo một dạng gọi
là thuật toán quyết định như sau:
p1: if (Đau đầu=không) and (Nhiệt độ=cao) then (Cảm cúm=có)
p2: if (Đau đầu=có) and (Nhiệt độ=cao) then (Cảm cúm=có)
p3: if (Đau đầu=có) and (Nhiệt độ=rất cao) then (Cảm cúm=có)
p4: if (Đau đầu=không) and (Nhiệt độ=bình thường) then (Cảm cúm=không)
p5: if (Đau đầu=có) and (Nhiệt độ=cao) then (Cảm cúm=không)
p6: if (Đau đầu=không) and (Nhiệt độ=rất cao) then (Cảm cúm=có)
Đây chính là các luật quyết định (decision rules) rút ra từ Hệ quyết định “chuẩn đoán Cảm cúm” Dựa vào nó, ta có thể dễ dàng xác định được một bệnh nhân có bị Cảm cúm hay không dựa vào các triệu chứng của bện nhân đó
Tập hợp các luật quyết định gọi là thuật toán quyết định (decision algorithm) Nó cho thấy quy luật tổng quát của tập dữ liệu đang sử dụng Các luật quyết định trong thuật toán quyết định là duy nhất và có biểu thức điều kiện luôn khác nhau
Ngoài việc rút gọn thuộc tính, bài toán trên lý thuyết tập thô còn có thể rút gọn các giá trị thuộc tính để làm tăng tính hiệu quả của thuật toán quyết định Nhưng việc rút gọn giá trị thuộc tính thường không đơn giản và đôi khi chi phí bỏ ra rút gọn giá trị của thuộc tính còn lớn hơn nhiều chi phí khi không xử lý rút gọn giá trị thuộc tính
2.2.2.3.5 Bài toán rút gọn thuộc tính trong lý thuyết tập thô
Một vấn đề then chốt trong nghiên cứu lý thuyết tập thô chính là rút gọn thuộc tính Khi xử lý với dữ liệu lớn, một hệ thống máy tính sẽ tốn thời gian rất lâu hoặc có thể bị treo, tắt, thiếu tài nguyên dẫn tới trì trệ toàn hệ thống Bên cạnh đó, việc thu thập thông tin về một
số thuộc tính thừa sẽ gây lãng phí, tốn nhiều thời gian, công sức Rút gọn thuộc tính, hay còn gọi là việc lựa chọn đặc trưng, loại bỏ những thuộc tính không thật sự cần thiết trong hệ thông tin và cải tiến hiệu quả của tiến trình phân tích dữ liệu Nhưng việc giải quyết bài toán
Trang 31rút gọn thuộc tính là một vấn đề vô cùng khó khăn và thuộc lớp bài toán NP-khó (NP-hard problem)
NP (nondeterministic polynomial) là lớp các bài toán quyết định mà để xác định câu trả lời của nó chúng ta có thể đưa ra các bằng chứng ngắn gọn dễ kiểm tra
Ví dụ: Bài toán kiểm tra tính hợp số: “Có phải n là hợp số không?” là một bài toán lớp NP Để xác nhận câu trả lời ‘yes’ cho đầu vào n ta có thể đưa ra một ước số b (1<b<n) của n Để kiểm tra xem b có phải là ước số của n hay không ta có thể thực hiện phép chia n cho b sau thời gian đa thức Trong ví dụ này dễ thấy b là bằng chứng ngắn gọn (b<n) và dễ kiểm tra (có thuật toán thời gian tính đa thức để kiểm tra xem b có là ước số của n)
NP-khó là lớp bài toán không có thuật toán để giải nó theo thời gian đa thức mà chỉ
có những thuật toán giải trong thời gian hàm mũ [20] (xem thêm Phụ lục B)
Nhiều nghiên cứu hiện nay về lý thuyết tập thô đều tập trung vào giải quyết bài toán rút gọn thuộc tính này một cách có hiệu quả Kỹ thuật rút gọn sử dụng ma trận phân biệt (discernibility function) chính là kỹ thuật cơ bản nhất và được nhiều nhà nghiên cứu hiện nay sử dụng
Việc rút trích ra hàm phân biệt từ mà trận phân biệt và đơn giản hàm phân biệt để tìm
ra một tập rút gọn các thuộc tính của hệ quyết định là phương pháp phổ biến Nhưng rút gọn hàm phân biệt cũng là một bài toán dạng NP-khó
Bên cạnh việc rút gọn hàm phân biệt gặp không ít khó khăn, nhiều nhà nghiên cứu quan tâm đến việc biến đổi ma trận phân biệt thành những dạng đơn giản Với một ma trận đơn giản, ta có thể dễ dàng lấy được hàm phân biệt tối tiểu và tìm ra những thuộc tính quan trọng trong một hệ quyết định
Vấn đề chính của các phương pháp về ma trận phân biệt là chúng yêu cầu không gian
bộ nhớ quá lớn |U|x|U|, U là không gian hữu hạn khác rỗng các đối tượng Gần như là không thể áp dụng trực tiếp các phương pháp này trên các tập dữ liệu có chứa một lượng lớn đối tượng Người ta cũng nghiên cứu nhiều phương án thay thế nhằm tránh phải dùng ma trận phân biệt trong phân tích dữ liệu trên lý thuyết tập thô Hai cách tiếp cận không sử dụng ma trận phân biệt được nhiều nhà nghiên cứu sử dụng nhất là sử dụng sự phụ thuộc giữa các thuộc tính (dependency of attributes) và sử dụng các thuật toán tìm kiếm ngẫu nhiên
Trang 322.2.2.3.6 Tập thô và công thức Bayes
Những đối tượng nằm ở vùng biên của tập thô thường mang những giá trị không chắc chắn và cần có một phương pháp phân tích, thống kê để có thể xây dựng thuật toán quyết định phù hợp cho các đối tượng này Trong thống kê, công thức Bayes luôn chứng tỏ là công
cụ hữu hiệu để phân tích và dự đoán dữ liệu Việc áp dụng công thức Bayes vào lý thuyết tập thô, được cha đẻ Tập thô là Pawlak giới thiệu, đã giải quyết được một số vấn đề khó khăn còn tồn đọng và gia tăng mức độ chính xác của thuật toán quyết định [22]
Bảng 2.8: Bảng chuẩn đoán kết quả Bệnh tật
Giá trị Support thể hiện tần số xuất hiện của đối tượng x có giá trị thuộc tính điều kiện là A(x) và giá trị thuộc tính quyết định là D(x) trong tập dữ liệu
supp3(A,D) = supp3(<Bệnh=không, Tuổi=già, Giới tính=nam>,<Kiểm tra=–>) = 100: mẫu <Bệnh=không, Tuổi=già, Giới tính=nam, Kiểm tra=–> xuất hiện 100 lần trong bảng dữ liệu
supp4(A,D) = supp4(<Bệnh=có, Tuổi=già, Giới tính=nam>,<Kiểm tra=–>) = 40: mẫu
<Bệnh=có, Tuổi=già, Giới tính=nam, Kiểm tra=–> xuất hiện 40 lần trong bảng dữ liệu
Trang 33supp5(A,D) = supp5(<Bệnh=không, Tuổi=trẻ, Giới tính=nữ>,<Kiểm tra=–>) = 220: mẫu <Bệnh=không, Tuổi=trẻ, Giới tính=nữ, Kiểm tra=–> xuất hiện 220 lần trong bảng dữ liệu
supp6(A,D) = supp6(<Bệnh=có, Tuổi=trung niên, Giới tính=nữ>,<Kiểm tra=–>) = 60: mẫu (<Bệnh=có, Tuổi=trung niên, Giới tính=nữ, Kiểm tra=–>) xuất hiện 60 lần trong bảng
dữ liệu
Giá trị Certainty factor của Bảng 2.8 thể hiện mức độ chắc chắn của luật quyết định
suy ra từ dữ liệu Thực chất, giá trị Certainty factor chính là xác suất hậu nghiệm suy ra từ công thức Bayes nhằm dự đoán khả năng xảy ra của thuộc tính quyết định D khi đối tượng
có giá trị thuộc tính là A(x)
|A(Bệnh=có, Tuổi=già, Giới tính=nam)| = supp1(A,D) + supp4(A,D) = 400 + 40 = 440
|A(Bệnh=có, Tuổi=trung niên, Giới tính=nữ)| = supp2(A,D) + supp6(A,D) = 80 + 60 =
140
|A(Bệnh=không, Tuổi=già, Giới tính=nam)| = supp3(A,D) = 100
|A(Bệnh=không, Tuổi=trẻ, Giới tính=nữ)| = supp5(A,D) = 220
Trang 34Dựa vào các giá trị Bảng 2.8, có thể xây dựng các luật quyết định như sau:
if: (Bệnh=có) and (Tuổi=già) and (Giới tính=nam) then Kiểm tra= 91% +
9% −
if: (Bệnh=có) and (Tuổi=trung niên) and (Giới tính=nữ) then Kiểm tra= 57% +
43% −
if: (Bệnh=không) and (Tuổi=già) and (Giới tính=nam) then Kiểm tra=100% –
if: (Bệnh=không) and (Tuổi=trẻ) and (Giới tính=nữ) then Kiểm tra=100% –
Thuật toán quyết định này thể hiện mức độ chính xác của các luật để người dùng có thể hạn chế rủi ro mắc phải trong việc đưa ra các quyết định không chắc chắn
Trang 35CHƯƠNG 3: MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG
3.1 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG CỦA GREEN
Để giải quyết bài toán ra quyết định phức tạp, Paul E Green – Giáo sư danh dự chuyên ngành marketing của Đại học Pennsylvania, Philadelphia –, trong một nghiên cứu của mình, đã xây dựng thành công một mô hình phân tích đặc trưng khách hàng đơn giản dựa trên lý thuyết phân lớp Bayes [23] Mô hình của ông áp dụng được trong tình huống có
2 phương án và 2 loại khách hàng cần xem xét (xem thêm Phụ lục A)
Tác giả dựa chủ yếu vào giá trị EOL để ước lượng rủi ro cho từng phương án áp dụng, kết hợp với việc sử dụng một số thông tin về thuộc tính khách hàng để gia tăng tính chính xác cho bài toán quyết định Kỹ thuật phân lớp Bayes được sử dụng như là công cụ hữu hiệu trong phân loại khách hàng Tuy khá đơn giản nhưng kết quả quá trình phân tích đặc trưng khách hàng của mô hình này lại tốt hơn nhiều so với kỹ thuật lựa chọn phương án dựa trên Minimize Expected Opportunity Loss Mô hình của Green cũng đã chứng tỏ được tính hiệu quả của việc sử dụng thêm các thông tin khách hàng vào bài toán phân tích đặc trưng
Mặc dù thu được hiệu quả tích cực nhưng mô hình G(2,2) (mô hình phân tích đặc trưng khách hàng với 2 phương án đề xuất và 2 loại khách hàng của Paul E Green) vẫn bộc
lộ một số hạn chế Các hệ số Critical Probability và Likelihood Ratio được tác giả giới thiệu nhằm giải quyết bài toán phân tích đặc trưng trong hoàn cảnh mô hình chỉ có 2 phương án đề xuất và 2 loại khách hàng Hai hệ số này hoàn toàn không thể áp dụng được trong việc phát triển mô hình lên nhiều loại khách hàng khác nhau và nhiều phương án đề xuất
Bên cạnh đó việc xác định số lượng thuộc tính tối ưu của nghiên cứu này cũng chưa thực sự tổng quát và tốt, một phần cũng vì nguyên nhân là các công cụ kỹ thuật hỗ trợ lúc bấy giờ chưa đáp ứng được đầy đủ nhu cầu tính toán, phân tích các bài toán phức tạp
Ngoài ra, việc chưa xác định được các loại khách hàng mới cũng là một thiếu sót của Green và mô hình G(2,2) Trong thực tế, các đặc trưng khách hàng nhiều và đa dạng, xác định và dự đoán thị hiếu của những khách hàng mới thường rất khó khăn nhưng vô cùng quan trọng, góp phần quyết định trong hoạt động marketing, mở rộng kinh doanh và nâng cao lợi nhuận cho doanh nghiệp
Khắc phục thành công những hạn chế của mô hình G(2,2) và áp dụng các kỹ thuật tiên tiến hiện nay vào mô hình sẽ góp phần giúp cho mô hình phân tích đặc trưng khách
Trang 36hàng này cải thiện được đáng kể về mặt hiệu suất và cung cấp một công cụ tốt cho nhà quản
lý trong việc đưa ra các quyết định rủi ro cao
3.2 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG G(M,N)
Nghiên cứu đề xuất mô hình G(m,n) là một phát triển của mô hình phân tích đặc trưng khách hàng của Paul E Green Mô hình phát triển nhằm áp dụng cho bài toán ra quyết định có nhiều hơn 2 phương án lựa chọn và nhiều loại khách hàng Đồng thời, xác định số lượng thuộc tính tối ưu và đề xuất giải pháp xử lý đối với các khách hàng mới không có trong dữ liệu
Mô hình G(m,n) sẽ gồm 4 thành phần với những chức năng riêng biệt:
- Bộ phận tiền xử lý dữ liệu (Data Preprocessor Module)
- Bộ phận phân tích dữ liệu (Data Analyzer Module)
- Bộ phận khuyến nghị (Recommendation Module)
- Bộ phận xử lý mẫu không xác định (Unknown Patterns Processor Module)
3.2.1 Bộ phận tiền xử lý dữ liệu
Bộ phận tiền xử lý dữ liệu có vai trò chuẩn bị dữ liệu cho các bộ phận sau xử lý Nhiệm vụ cơ bản của bộ phận này là làm sạch dữ liệu, loại bỏ các dữ liệu lỗi, thừa và tổ chức lại dữ liệu cho phù hợp với đặc trưng của bài toán
a Dữ liệu đầu vào:
i Số lượng phương án đề xuất: m { } = 1,2, … ,
ii Số loại khách hàng: n { }, ( ) = 1,2, … ,
( ) = 1
Trang 37Hình 3.1: Kiến trúc mô hình G(m,n)
Data Analyzer Module
Unknown Patterns Processor Module Recommendation Module
Data Preprocessor Module
Regular Patterns
Hidden Patterns
Unknown Patterns
The optimal number
of customer attributes
Trang 38iii Dữ liệu khách hàng:
Mỗi khách hàng đại diện bởi một vector thuộc tính và mỗi vector thuộc một lớp khách hàng
= , , … , : = 1,2, … , ; = 1,2 … ,
A là số lượng thuộc tính (đặc trưng) của khách hàng
là số lượng bảng tin (record) trong dữ liệu; ≤ 2
= 0 : khách hàng không có thuộc tính a
= 1 : khách hàng có thuộc tính a
Hai vectors khách hàng giống nhau có thể là hai loại khách hàng khác nhau Hai vectors khách hàng khác nhau có thể là cùng một loại khách hàng Việc một khách hàng là loại khách hàng nào phụ thuộc vào quyết định chọn mua, sử dụng sản phẩm dịch vụ của khách hàng
iv Ma trận khảo sát lợi nhuận của từng phương án trên các loại khách hàng:
b Dữ liệu đầu ra:
Quá trình chuẩn bị, chọn lọc, làm sạch và tổ chức dữ liệu cho ra dữ liệu mới có thông tin phù hợp cho việc phân tích Thông tin đầu ra của bộ phận tiền xử lý dữ liệu có cấu trúc như sau:
i Danh sách m phương án
Trang 39ii Danh sách và xác suất của n loại khách hàng
iii Bảng xác suất hậu nghiệm (Certainty Table):
Dựa vào bảng dữ liệu khách hàng và định lý Bayes, bộ phận tiền xử lý dữ liệu sẽ đưa
ra bảng các xác suất hậu nghiệm (posterior probabilities) hay còn gọi là các giá trị certainty factors trong lý thuyết Tập thô
Các xác suất hậu nghiệm cho thấy khả năng khách hàng thuộc loại là bao nhiêu
= 1
iv Bảng các xác suất lề (Marginal Probability):
Dựa vào bảng dữ liệu khách hàng, bộ phận tiền xử lý dữ liệu sẽ đưa ra bảng xác suất
lề (Marginal Probability)
Các xác suất lề không tham gia quá trình phân tích nhưng là cơ sở để kiểm chứng tính tối ưu của các phương án áp dụng lên khách hàng sau này
v Ma trận chi phí (Payoff Matrix):
Ma trận chi phí thể hiện giá trị Opportunity Loss của các phương án khi áp dụng lên các loại khách hàng Giá trị Opportunity Loss được tính theo công thức và dựa vào ma trận lợi nhuận ( , )
vi Danh sách các mẫu khách hàng cần xác định
Trang 403.2.2 Bộ phận phân tích dữ liệu
Bộ phận phân tích dữ liệu là bộ phận quan trọng nhất của mô hình G(m, n) Bộ phận này xác định những đặc trưng khách hàng quan trọng cho việc phân tích, đồng thời đưa ra các quy luật của dữ liệu phục vụ cho dự đoán loại khách hàng và phương án tối ưu áp dụng cho khách hàng Lý thuyết tập thô được áp dụng như là cơ sở toán học cho bộ phận phân tích
dữ liệu
a Xác định những đặc trưng khách hàng quan trọng
Việc xác định những đặc trưng (hay thuộc tính) khách hàng quan trọng chính là loại
bỏ các đặc trưng (hay thuộc tính) không quan trọng ra khỏi dữ liệu để cải thiện tốc độ tính toán và giảm thiểu chi phí thu thập Nói cách khác, bài toán xác định đặc trưng khách hàng quan trọng chính là bài toán rút gọn thuộc tính (attribute reduction) – vấn đề then chốt khi áp dụng lý thuyết tập thô
Có rất nhiều kỹ thuật rút gọn thuộc tính được nghiên cứu hiện nay Tuy nhiên các giải thuật đề xuất thường có độ phức tạp rất cao (thường ở mức NP-khó), gây khó khăn không nhỏ trong việc triển khai và áp dụng vào thực tế Trong một nghiên cứu gần đây [2], một kỹ thuật rút gọn thuộc tính dựa trên tập hợp tối đại ngẫu nhiên ưu tiên (maximal random prior set) đã được giới thiệu Nghiên cứu giới thiệu một không gian toán học dựa trên các chuỗi bit (mỗi bit đại diện cho 1 thuộc tính) Thuật toán rút gọn thuộc tính được trình bày có độ phức tạp ở mức tuyến tính và hoàn toàn phù hợp để triển khai vào các ứng dụng trong thực
tế
Sơ lược thuật toán dựa trên chuỗi bit (xem thêm Phụ lục C):
Ta có hàm phân biệt f suy ra từ ma trận phân biệt:
i Chuyển các mệnh đề logic (propositions) trong f thành một tập hợp S các chuỗi bit Khởi tạo tập tối đại ngẫu nhiên ưu tiên P rỗng
ii Phần tử đầu tiên trong S là một dạng tối đại ngẫu nhiên ưu tiên (maximal random prior form) Thêm phần tử này vào P
iii Dò phần tử tiếp theo trong S, phép toán giao giữa phần tử tiếp theo này và nhưng phần tử tồn tại trong P sẽ giúp tìm ra những dạng tối đại ngẫu nhiên ưu tiên mới Nếu dạng
mới không được sinh ra thì hiển nhiên, phần tử đang xét là một dạng tối đại ngẫu nhiên ưu
tiên Thêm phần tử này vào P