Giá trị Support thể hiện tần số xuất hiện của đối tượng x có giá trị thuộc tính điều kiện là A(x) và giá trị thuộc tính quyết định là D(x) trong tập dữ liệu.
( , ) = | ( )∩ ( )| (2.9)
supp1(A,D) = supp1(<Bệnh=có, Tuổi=già, Giới tính=nam>,<Kiểm tra=+>) = 400: mẫu <Bệnh=có, Tuổi=già, Giới tính=nam, Kiểm tra=+> xuất hiện 400 lần trong bảng dữ liệu.
supp2(A,D) = supp2(<Bệnh=có, Tuổi=trung niên, Giới tính=nữ>,<Kiểm tra=+>) = 80: mẫu <Bệnh=có, Tuổi=trung niên, Giới tính=nữ, Kiểm tra=+> xuất hiện 80 lần trong bảng dữ liệu.
supp3(A,D) = supp3(<Bệnh=không, Tuổi=già, Giới tính=nam>,<Kiểm tra=–>) = 100: mẫu <Bệnh=không, Tuổi=già, Giới tính=nam, Kiểm tra=–> xuất hiện 100 lần trong bảng dữ liệu.
supp4(A,D) = supp4(<Bệnh=có, Tuổi=già, Giới tính=nam>,<Kiểm tra=–>) = 40: mẫu <Bệnh=có, Tuổi=già, Giới tính=nam, Kiểm tra=–> xuất hiện 40 lần trong bảng dữ liệu.
Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 31 supp5(A,D) = supp5(<Bệnh=không, Tuổi=trẻ, Giới tính=nữ>,<Kiểm tra=–>) = 220: mẫu <Bệnh=không, Tuổi=trẻ, Giới tính=nữ, Kiểm tra=–> xuất hiện 220 lần trong bảng dữ liệu.
supp6(A,D) = supp6(<Bệnh=có, Tuổi=trung niên, Giới tính=nữ>,<Kiểm tra=–>) = 60: mẫu (<Bệnh=có, Tuổi=trung niên, Giới tính=nữ, Kiểm tra=–>) xuất hiện 60 lần trong bảng dữ liệu.
Giá trị Certainty factor của Bảng 2.8 thể hiện mức độ chắc chắn của luật quyết định suy ra từ dữ liệu. Thực chất, giá trị Certainty factor chính là xác suất hậu nghiệm suy ra từ
công thức Bayes nhằm dự đoán khả năng xảy ra của thuộc tính quyết định D khi đối tượng
có giá trị thuộc tính là A(x).
( , ) = ( | ) = ( , )
| ( )| (2.10)
|A(Bệnh=có, Tuổi=già, Giới tính=nam)| = supp1(A,D) + supp4(A,D) = 400 + 40 = 440 |A(Bệnh=có, Tuổi=trung niên, Giới tính=nữ)| = supp2(A,D) + supp6(A,D) = 80 + 60 = 140
|A(Bệnh=không, Tuổi=già, Giới tính=nam)| = supp3(A,D) = 100
|A(Bệnh=không, Tuổi=trẻ, Giới tính=nữ)| = supp5(A,D) = 220
( , ) = ( , ) | ( ệ ó, ổ à, ớ í )|= = 0.91 ( , ) = ( , ) | ( ệ ó, ổ ê , ớ í ữ)|= = 0.57 ( , ) = ( , ) | ( ệ ô , ổ à, ớ í )| = = 1 ( , ) = ( , ) | ( ệ ó, ổ à, ớ í )| = = 0.09 ( , ) = ( , ) | ( ệ ô , ổ ẻ, ớ í ữ)| = = 1 ( , ) = ( , ) | ( ệ ó, ổ ê , ớ í ữ)| = = 0.43
Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 32 Dựa vào các giá trị Bảng 2.8, có thể xây dựng các luật quyết định như sau:
if: (Bệnh=có) and (Tuổi=già) and (Giới tính=nam) then Kiểm tra= 91% + 9%−
if: (Bệnh=có) and (Tuổi=trung niên) and (Giới tính=nữ) then Kiểm tra= 57% + 43%−
if: (Bệnh=không) and (Tuổi=già) and (Giới tính=nam) then Kiểm tra=100% –
if: (Bệnh=không) and (Tuổi=trẻ) and (Giới tính=nữ) then Kiểm tra=100% –
Thuật toán quyết định này thể hiện mức độ chính xác của các luật để người dùng có thể hạn chế rủi ro mắc phải trong việc đưa ra các quyết định không chắc chắn.
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 33
CHƯƠNG 3: MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG
3.1 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG CỦA GREEN
Để giải quyết bài toán ra quyết định phức tạp, Paul E. Green – Giáo sư danh dự
chuyên ngành marketing của Đại học Pennsylvania, Philadelphia –, trong một nghiên cứu của mình, đã xây dựng thành công một mô hình phân tích đặc trưng khách hàng đơn giản dựa trên lý thuyết phân lớp Bayes [23]. Mô hình của ông áp dụng được trong tình huống có
2 phương án và 2 loại khách hàng cần xem xét. (xem thêm Phụ lục A)
Tác giả dựa chủ yếu vào giá trị EOL đểước lượng rủi ro cho từng phương án áp dụng, kết hợp với việc sử dụng một số thông tin về thuộc tính khách hàng để gia tăng tính chính
xác cho bài toán quyết định. Kỹ thuật phân lớp Bayes được sử dụng như là công cụ hữu hiệu trong phân loại khách hàng. Tuy khá đơn giản nhưng kết quả quá trình phân tích đặc trưng
khách hàng của mô hình này lại tốt hơn nhiều so với kỹ thuật lựa chọn phương án dựa trên Minimize Expected Opportunity Loss. Mô hình của Green cũng đã chứng tỏđược tính hiệu quả của việc sử dụng thêm các thông tin khách hàng vào bài toán phân tích đặc trưng.
Mặc dù thu được hiệu quả tích cực nhưng mô hình G(2,2) (mô hình phân tích đặc
trưng khách hàng với 2 phương án đề xuất và 2 loại khách hàng của Paul E. Green) vẫn bộc lộ một số hạn chế. Các hệ sốCritical Probability và Likelihood Ratio được tác giả giới thiệu nhằm giải quyết bài toán phân tích đặc trưng trong hoàn cảnh mô hình chỉ có 2 phương án đề
xuất và 2 loại khách hàng. Hai hệ số này hoàn toàn không thể áp dụng được trong việc phát triển mô hình lên nhiều loại khách hàng khác nhau và nhiều phương án đề xuất.
Bên cạnh đó việc xác định số lượng thuộc tính tối ưu của nghiên cứu này cũng chưa
thực sự tổng quát và tốt, một phần cũng vì nguyên nhân là các công cụ kỹ thuật hỗ trợ lúc bấy giờ chưa đáp ứng được đầy đủ nhu cầu tính toán, phân tích các bài toán phức tạp.
Ngoài ra, việc chưa xác định được các loại khách hàng mới cũng là một thiếu sót của Green và mô hình G(2,2). Trong thực tế, các đặc trưng khách hàng nhiều và đa dạng, xác
định và dự đoán thị hiếu của những khách hàng mới thường rất khó khăn nhưng vô cùng
quan trọng, góp phần quyết định trong hoạt động marketing, mở rộng kinh doanh và nâng cao lợi nhuận cho doanh nghiệp.
Khắc phục thành công những hạn chế của mô hình G(2,2) và áp dụng các kỹ thuật tiên tiến hiện nay vào mô hình sẽ góp phần giúp cho mô hình phân tích đặc trưng khách
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 34
hàng này cải thiện được đáng kể về mặt hiệu suất và cung cấp một công cụ tốt cho nhà quản lý trong việc đưa ra các quyết định rủi ro cao.
3.2 MÔ HÌNH PHÂN TÍCH ĐẶC TRƯNG G(M,N)
Nghiên cứu đề xuất mô hình G(m,n) là một phát triển của mô hình phân tích đặc
trưng khách hàng của Paul E. Green. Mô hình phát triển nhằm áp dụng cho bài toán ra quyết
định có nhiều hơn 2 phương án lựa chọn và nhiều loại khách hàng. Đồng thời, xác định số lượng thuộc tính tối ưu và đề xuất giải pháp xử lý đối với các khách hàng mới không có trong dữ liệu.
Mô hình G(m,n) sẽ gồm 4 thành phần với những chức năng riêng biệt: - Bộ phận tiền xử lý dữ liệu (Data Preprocessor Module)
- Bộ phận phân tích dữ liệu (Data Analyzer Module) - Bộ phận khuyến nghị (Recommendation Module)
- Bộ phận xử lý mẫu không xác định (Unknown Patterns Processor Module)
3.2.1 Bộ phận tiền xử lý dữ liệu
Bộ phận tiền xử lý dữ liệu có vai trò chuẩn bị dữ liệu cho các bộ phận sau xử lý. Nhiệm vụ cơ bản của bộ phận này là làm sạch dữ liệu, loại bỏ các dữ liệu lỗi, thừa và tổ
chức lại dữ liệu cho phù hợp với đặc trưng của bài toán. a. Dữ liệu đầu vào:
i. Sốlượng phương án đề xuất: m { } = 1,2, … ,
ii. Số loại khách hàng: n { }, ( ) = 1,2, … ,
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 35
Hình 3.1: Kiến trúc mô hình G(m,n)
Data Analyzer Module
Unknown Patterns Processor Module Recommendation Module
G (m, n)
Manager
Good Solutions and Recommendations Customer DB
Some Target Attribute Pattern Vectors Proposed solutions
and Profit Matrix
Data Preprocessor Module
Regular Patterns Hidden Patterns Unknown Patterns
The optimal number of customer attributes
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 36
iii. Dữ liệu khách hàng:
Mỗi khách hàng đại diện bởi một vector thuộc tính và mỗi vector thuộc một lớp khách hàng
= , , … , : = 1,2, … , ; = 1,2 … ,
A là sốlượng thuộc tính (đặc trưng) của khách hàng.
là sốlượng bảng tin (record) trong dữ liệu; ≤2 = 0 : khách hàng không có thuộc tính a
= 1 : khách hàng có thuộc tính a
Hai vectors khách hàng giống nhau có thể là hai loại khách hàng khác nhau. Hai vectors khách hàng khác nhau có thể là cùng một loại khách hàng. Việc một khách hàng là loại khách hàng nào phụ thuộc vào quyết định chọn mua, sử dụng sản phẩm dịch vụ của khách hàng.
iv. Ma trận khảo sát lợi nhuận của từng phương án trên các loại khách hàng:
( , ) = 1≤ ≤ ; 1≤ ≤
là ước lượng lợi nhuận khi thực hiện phương án trên loại khách hàng . Đơn vị tính: đơn vị tiền tệ.
v. Danh sách các mẫu khách hàng cần xác định phương án áp dụng tối ưu
= , , … , = 1,2, … , 2
b. Dữ liệu đầu ra:
Quá trình chuẩn bị, chọn lọc, làm sạch và tổ chức dữ liệu cho ra dữ liệu mới có thông tin phù hợp cho việc phân tích. Thông tin đầu ra của bộ phận tiền xử lý dữ liệu có cấu trúc
như sau:
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 37
ii. Danh sách và xác suất của n loại khách hàng iii. Bảng xác suất hậu nghiệm (Certainty Table):
Dựa vào bảng dữ liệu khách hàng và định lý Bayes, bộ phận tiền xử lý dữ liệu sẽđưa
ra bảng các xác suất hậu nghiệm (posterior probabilities) hay còn gọi là các giá trị certainty factors trong lý thuyết Tập thô.
= , , … , ; ; ; … ;
Các xác suất hậu nghiệm cho thấy khảnăng khách hàng thuộc loại là bao nhiêu.
= 1
iv. Bảng các xác suất lề (Marginal Probability):
Dựa vào bảng dữ liệu khách hàng, bộ phận tiền xử lý dữ liệu sẽđưa ra bảng xác suất lề (Marginal Probability)
= , , … , ; ( )
Các xác suất lề không tham gia quá trình phân tích nhưng là cơ sởđể kiểm chứng tính tối ưu của các phương án áp dụng lên khách hàng sau này.
v. Ma trận chi phí (Payoff Matrix):
Ma trận chi phí thể hiện giá trị Opportunity Loss của các phương án khi áp dụng lên các loại khách hàng. Giá trị Opportunity Loss được tính theo công thức và dựa vào ma trận lợi nhuận ( , )
( , ) = 1≤ ≤ ; 1 ≤ ≤
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 38
3.2.2 Bộ phận phân tích dữ liệu
Bộ phận phân tích dữ liệu là bộ phận quan trọng nhất của mô hình G(m, n). Bộ phận
này xác định những đặc trưng khách hàng quan trọng cho việc phân tích, đồng thời đưa ra
các quy luật của dữ liệu phục vụ cho dựđoán loại khách hàng và phương án tối ưu áp dụng cho khách hàng. Lý thuyết tập thô được áp dụng như là cơ sở toán học cho bộ phận phân tích dữ liệu.
a. Xác định những đặc trưng khách hàng quan trọng
Việc xác định những đặc trưng (hay thuộc tính) khách hàng quan trọng chính là loại bỏ các đặc trưng (hay thuộc tính) không quan trọng ra khỏi dữ liệu để cải thiện tốc độ tính toán và giảm thiểu chi phí thu thập. Nói cách khác, bài toán xác định đặc trưng khách hàng
quan trọng chính là bài toán rút gọn thuộc tính (attribute reduction) – vấn đề then chốt khi áp dụng lý thuyết tập thô.
Có rất nhiều kỹ thuật rút gọn thuộc tính được nghiên cứu hiện nay. Tuy nhiên các giải thuật đề xuất thường có độ phức tạp rất cao (thường ở mức NP-khó), gây khó khăn không
nhỏ trong việc triển khai và áp dụng vào thực tế. Trong một nghiên cứu gần đây [2], một kỹ
thuật rút gọn thuộc tính dựa trên tập hợp tối đại ngẫu nhiên ưu tiên (maximal random prior set) đã được giới thiệu. Nghiên cứu giới thiệu một không gian toán học dựa trên các chuỗi bit (mỗi bit đại diện cho 1 thuộc tính). Thuật toán rút gọn thuộc tính được trình bày có độ
phức tạp ở mức tuyến tính và hoàn toàn phù hợp để triển khai vào các ứng dụng trong thực tế.
Sơ lược thuật toán dựa trên chuỗi bit (xem thêm Phụ lục C): Ta có hàm phân biệt f suy ra từ ma trận phân biệt:
i. Chuyển các mệnh đề logic (propositions) trong f thành một tập hợp S các chuỗi bit. Khởi tạo tập tối đại ngẫu nhiên ưu tiên P rỗng.
ii. Phần tửđầu tiên trong S là một dạng tối đại ngẫu nhiên ưu tiên (maximal random prior form). Thêm phần tử này vào P.
iii. Dò phần tử tiếp theo trong S, phép toán giao giữa phần tử tiếp theo này và nhưng
phần tử tồn tại trong P sẽ giúp tìm ra những dạng tối đại ngẫu nhiên ưu tiên mới. Nếu dạng mới không được sinh ra thì hiển nhiên, phần tửđang xét là một dạng tối đại ngẫu nhiên ưu
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 39
iv. Nếu vẫn còn phần tử trong S chưa được dò kiểm tra, ta quay lại bước (iii). Nếu không, tiếp tục tới bước (v).
v. Chuyển các chuỗi bit (dạng tối đại ngẫu nhiên ưu tiên) trong P thành nhóm các thuộc tính. Nhóm các thuộc tính thu được chính là một rút gọn của hàm f.
b. Xây dựng bộ luật của dữ liệu
Sau khi loại bỏ các thuộc tính thừa, không quan trọng (superfluous attributes), các bảng xác suất sẽđược đơn giản hóa và có dạng:
= , , … , ; ; ; … ;
= , , … , ;
, , … , ( ≤ )
Mỗi đối tượng trong bảng xác suất thu gọn này sẽđược sử dụng để xây dựng thành một luật quyết định (decision rule) trong thuật toán quyết định (decision algorithm).
Các luật quyết định có dạng như sau:
…
ℎ ; ; … ;
Các mẫu khách hàng cần xem xét đưa ra quyết định sẽ dựa trên thuật toán quyết định. Thuật toán quyết định sẽcho xác định mẫu khách hàng hiện tại có các xác suất hậu nghiệm trên các loại khách hàng là bao nhiêu. Điều này chính là căn cứ để xác định phương án tối
ưu cho khách hàng.
Các xác suất lề không đóng vai trò trong quá trình phân tích nhưng là cơ sở để kiểm chứng tính tối ưu sau này.
c. Phân loại các mẫu khách hàng cần xác định phương án tối ưu
Do bản chất của tập dữ liệu là không đầy đủ nên tùy thuộc vào mức độ đa dạng của dữ liệu mà có được các luật quyết định và thuật toán quyết định với khảnăng bao quát tương ứng. Tuy nhiên, có thể sẽ có một số khách hàng không phù hợp với bất kỳ luật nào trong
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 40
thuật toán quyết định. Việc giảm số lượng thuộc tính trong tập dữ liệu khách hàng làm cho các luật quyết định có tính bao quát hơn, qua đó thuật toán quyết định sẽ có thể xác định
được một số mẫu khách hàng không có trong tập dữ liệu quá khứnhưng lại có những thuộc tính phù hợp với luật quyết định. Có thể chia các mẫu khách hàng cần xem xét và xác định giải pháp tối ưu thành ba loại chính:
i. Mẫu khách hàng thường (Regular Patterns): là các khách hàng có vector thuộc tính tồn tại trong tập dữ liệu khách hàng. Dễ dàng dựa vào thuật toán quyết định để chọn ra các xác suất hậu nghiệm cho các mẫu khách hàng loại này. Các xác suất hậu nghiệm sẽlà cơ sở xác định phương án tối ưu cho khách hàng.
ii. Mẫu khách hàng ẩn (Hidden Patterns): là các khách hàng không tồn tại trong tập dữ liệu khách hàng nhưng các giá trị thuộc tính của mẫu khách hàng này lại phù hợp với một luật trong thuật toán quyết định nên có thể suy luận dựa trên các luật quyết định. Luật quyết
định phù hợp sẽ giúp xác định được xác suất hậu nghiệm cho các mẫu khách hàng ẩn dễ
dàng.
iii. Mẫu khách hàng không xác định (Unknown Patterns): một số mẫu khách hàng lạ, không có trong tập dữ liệu khách hàng và các giá trị thuộc tính cũng không phù hợp với bất kỳ luật nào trong thuật toán quyết định. Đây là một loại khách hàng khá đặc biệt. Với dữ liệu hiện tại, hoàn toàn không đủ cở sở để suy luận phương án hay xác suất hậu nghiệm cho khách hàng loại này. Việc lựa chọn phương án tối ưu cho các mẫu khách hàng không xác
định cũng không thể giống với hai mẫu khách hàng thường và khách hàng ẩn. Tất nhiên, dự đoán phương án cho mẫu khách hàng loại này hàm chứa mức độ rủi ro rất cao.
Danh sách V các khách hàng cần xác định phương án tối ưu sẽ được xử lý và phân thành ba loại R (regular patterns), H (hidden patterns), K (Unknown Patterns)
= , , … , = 1,2, … , 2
= ∪ ∪
3.2.3 Bộ phận khuyến nghị
Bộ phận khuyến nghị là bộ phận tiếp nhận, phân tích và đưa ra các khuyến nghị,
phương án tối ưu cho các mẫu khách hàng (không phải tất cả). Bộ phận này tiếp nhận và xử
lý các mẫu khách hàng thường (regular patterns) và mẫu khách hàng ẩn (hidden patterns). Dựa trên các xác suất hậu nghiệm của các mẫu khách hàng rút ra từ thuật toán quyết định (decision algorithm), bộ phận khuyến nghị sẽxác định các phương án có chi phí thấp để áp dụng cho khách hàng.
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 41
Kết quả của Bộ phận phân tích dữ liệu đưa đến cho Bộ phận khuyến nghị các vector khách hàng cần xác định phương án tối ưu (trừ các mẫu khách hàng không xác định) và các xác suất tương ứng
Gọi = ∪
: < ; ; … ; >; < ( ) >
Chỉ số EOL (Expected Opportunity Loss) được tính toán dựa trên các xác suất tiên