Các xác suất lềđược tính theo công thức:
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 46 Vector ( ) 0.255 0.0875 0.135 0.1375 0.1 0.285 Bảng 3.5: Các xác suất lề
Dựa vào Bảng 3.2ước lượng lợi nhuận Profit (5, 3), tính ma trận chi phí như sau:
G(1,1) = OL11 = Profit(1, 1) – Profit(1, 1) = 1 – 1 = 0 G(2,1) = OL12 = Profit(1, 1) – Profit(2, 1) = 1 – (-1) = 2 G(3,1) = OL13 = Profit(1, 1) – Profit(3, 1) = 1 – (-6) = 7 G(4,1) = OL14 = Profit(1, 1) – Profit(4, 1) = 1 – (-2) = 3 G(5,1) = OL15 = Profit(1, 1) – Profit(5, 1) = 1 – (-4) = 5 G(1,2) = OL21 = Profit(3, 2) – Profit(1, 2) = 4 – (-1) = 5 G(2,2) = OL22 = Profit(3, 2) – Profit(1, 2) = 4 – 0 = 4 … G(5,3) 0 5 3 2 4 1 7 0 1 3 5 0 5 1 2
Bảng 3.6: Ma trận chi phí Opportunity Loss
Danh sách các khách hàng cần xác định phương án áp dụng tối ưu:Bảng 3.3
b. Phân tích dữ liệu:
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 47 M , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Bảng 3.7: Ma trận phân biệt Các ô trống trong ma trận thể hiện giá trị∅.
Hàm phân biệt suy ra từ ma trận phân biệt Bảng 3.7 có dạng như sau:
= ( ∨ ∨ )∧( ∨ ∨ ∨ ∨ )∧( ∨ ∨ ∨ ∨ ∨ ∨ ) ∧( ∨ ∨ ∨ )∧( ∨ ∨ ∨ )∧( ∨ ∨ ∨ ) ∧( ∨ ∨ ∨ )∧( ∨ ∨ ∨ ∨ )∧ ∧( ∨ ∨ ∨ ) ∧( ∨ ∨ ∨ ∨ )∧( ∨ ∨ )∧( ∨ ∨ ∨ ∨ ) ∧( ∨ ∨ )∧( ∨ ∨ ∨ ∨ ∨ ) ⬄ = ∧( ∨ ∨ )∧( ∨ ∨ ∨ )∧( ∨ ∨ ∨ ∨ ) ∧( ∨ ∨ ∨ )∧( ∨ ∨ )∧( ∨ ∨ )
Rút gọn hàm f bằng giải thuật dựa trên ý tưởng của Johnson: - Khởi tạo tập = ∅.
- Đếm sự xuất hiện của các thuộc tính trong f: : 4 lần; : 1 lần; : 2 lần; : 2 lần; : 4 lần; : 4 lần; : 2 lần; : 4 lần.
- Chọn ra một thuộc tính xuất hiện nhiều nhất trong f (4 lần): - = { }
- Loại bỏ các biểu thức có chứa trong f
= ∧( ∨ ∨ ∨ ∨ )∧( ∨ ∨ )
- Tiếp tục đếm sự xuất hiện của các thuộc tính còn lại trong hàm f mới: : 1 lần; : 1 lần; : 1 lần; : 1 lần; : 2 lần; : 1 lần; : 2 lần.
- Chọn ra một thuộc tính xuất hiện nhiều nhất trong f (2 lần): - = { ; }
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 48 =
- Tiếp tục đếm sự xuất hiện của các thuộc tính còn lại trong hàm f mới: : 0 lần; : 1 lần; : 0 lần; : 0 lần; : 0 lần; : 0 lần.
- Chọn ra một thuộc tính xuất hiện nhiều nhất trong f (1 lần): - = { ; ; } - Loại bỏ các biểu thức có chứa trong f = ∅ - Giải thuật kết thúc. Tập R thu được chính là một rút gọn của hàm f = ∧ ∧
Vậy, loại bỏ 5 thuộc tính không quan trọng. 3 thuộc tính quan trọng của quá trình
phân tích đặc trưng khách hàng là { , , } Vector Thuộc tính 1 1 0 1 0 0 0 1 1 0 0 1 1 0 1 0 0 0
Bảng 3.8: Các vector khách hàng sau khi rút gọn thuộc tính
Xây dựng thuật toán quyết định:
1: ( = 1)&( = 1)&( = 0) ℎ = 0.49020 0.44118 0.06863 = 0.255 2: ( = 1)&( = 0)&( = 0) ℎ = 0 0.71429 0.28571 = 0.0875
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 49 3: ( = 0)&( = 1)&( = 1) ℎ = 0.64815 0.18519 0.16667 = 0.135 4: ( = 0)&( = 0)&( = 1) ℎ = 0.52727 0.47273 0 = 0.1375 5: ( = 1)&( = 0)&( = 1) ℎ = 0 0 1 = 0.1 6: ( = 0)&( = 0)&( = 0) ℎ = 0.39474 0.33333 0.27193 = 0.285
Phân loại các mẫu vector khách hàng cần xác định phương án áp dụng tối ưu:
= { , , , , , , } Vector Thuộc tính 1 0 1 0 1 0 1 0 1 1 1 0 0 0 1 1 1 1 1 1 0
Bảng 3.9: Các mẫu khách hàng mục tiêu sau khi rút gọn thuộc tính
Mẫu thường (Regular Patterns): = { (= ), (= )}
Mẫu ẩn (Hidden Patterns): = { ( 5), ( 5), ( 1)}
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 50
= ∪ ∪
Dựa vào thuật toán quyết định, có thể xác định xác suất hậu nghiệm và xác suất lề
cho các mẫu khách hàng thường và khách hàng ẩn
= ∪ = { , , , , }
Các vector được suy ra từ cùng một luật được xem như là cùng loại
RH Xác suất hậu nghiệm (certainty factors) Xác suất lề
( ) , 0 0 1 0.1 , 0.49020 0.44118 0.06863 0.255 0.52727 0.47273 0 0.1375 Bảng 3.10: Các xác suất của các mẫu khách hàng thường và ẩn c. Khuyến nghị
Đối với các mẫu khách hàng thuộc tập RH, tính giá trị Posterior Expected Opportunity Loss cho từng mẫu khách hàng:
( ) ( ) ( ) ( ) ( )
, 3 1 1 0 2
, 2.41179 2.81375 3.50003 3.67650 3.02944 2.36365 2.94546 3.69089 3.94546 3.10908
Bảng 3.11: Giá trị Posterior EOL của các mẫu khách hàng tập RH
Dựa vào Bảng 3.11, lựa chọn phương án tốt cho các khách hàng trong tập RH:
Phương án
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 51
d. Xử lý mẫu khách hàng không xác định:
Tính các giá trị Expected Opportunity Loss của từng phương án:
Phương án ( ) 2.52750 2.47750 3.02500 2.99250 2.83250
Bảng 3.13: Giá trị EOL của các phương án đề xuất
Đối với các mẫu khách hàng thuộc tập K (khách hàng không xác định), ta chọn
phương án theo phương pháp Minimize Expected Opportunity Loss.
Vậy, phương án áp dụng cho các mẫu khách hàng tập K là
Kết luận, ta có được kết quảcác phương án tốt áp dụng cho các mẫu khách hàng:
Phương án
Bảng 3.14: Kết quảphương án áp dụng cho các khách hàng
e. Kiểm chứng mô hình G(m,n)
Do các mẫu khách hàng không xác định (trong tập K) được chỉ định phương án dựa trên kỹ thuật Minimize Expected Opportunity Loss nên bỏ quả không xét tới hiệu quả của
các phương án áp dụng cho các khách hàng loại này
Cần thiết kiểm tra các vector khách hàng thường và ẩn (trong tập RH)
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 52 , 0 0.10000 0
, 2.41179 0.25500 0.61501 2.36365 0.13750 0.32501
p = 0.4925 EOL = 0.94002
Bảng 3.15: Giá trị Weighted Opportunity Loss của các khách hàng tập RH
Các xác suất ( ) cho thấy khảnăng xuất hiện của vector trong tập dữ liệu. p = 1 ( ) = 2.47750
p = 0.4925 ∗ ( ) = 0.4925∗2.47750 = 1.955
EOL = 0.94002 < 1.955 của phương pháp Minimize Expected Opportunity Loss. Vậy, có thể khẳng định mô hình G(m, n) cho kết quả tốt hơn Minimize Expected Opportunity
Loss.
3.4 THỰC NGHIỆM
3.4.1 Dữ liệu thực nghiệm
Dữ liệu thực nghiệm của chương trình do anh Nguyễn Thành Trung của công ty Trách nhiệm hữu hạn tin học KEY cung cấp.
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 53
Hình 3.2:Các đặc trưng của học viên
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 54
Hình 3.4:Các phương án tư vấn đề xuất
Công ty Trách nhiệm hữu hạn tin học KEY. Website: www.key.com.vn. Địa chỉđăng
ký kinh doanh: số 409 Nguyễn Sơn, phường Phú Thạnh, quận Tân Phú, thành phố Hồ Chí Minh. Công ty thành lập năm 2003, có 3 chi nhánh, mỗi chi nhánh khoảng 50 nhân viên, hoạt động trong các lĩnh vực đào tạo, phần mềm, phần cứng máy tính.
Dữ liệu lấy từ thực tếvà được tiền xửlý để giải quyết bài toán xác định đặc trưng của các học viên tới công ty đăng ký khóa học để đưa ra phương án tư vấn việc lựa chọn khóa học phù hợp với từng học viên.
Dữ liệu thử nghiệm được lưu trữ trên file Microsoft Access 2003 (*.mdb) với dung
lượng khoảng 1 MB. Dữ liệu gồm 5 bảng: Attributes, Customer_Data, Profits, Solutions, Types. Mỗi bảng có cấu trúc và nội dung như sau:
Bảng Attributes. Cấu trúc 4 cột: ID, Name, Value 0, Value 1. Nội dung: lưu trữ thông tin chi tiết về38 đặc trưng học viên.
Bảng Customer_Data. Cấu trúc 1 cột: Characteristics. Nội dung: chứa 12189 bảng tin
(records) đại diện cho 12189 học viên. Mỗi bảng tin lưu trữ một chuỗi nhị phân có chiều dài
là 38 đại diện cho 38 đặc trưng (thuộc tính) của học viên.
Bảng Types. Cấu trúc 3 cột: ID, Name, Description. Nội dung: mô tả các loại khách hàng (học viên). Có 4 loại khách hàng: Khách hàng có tiềm năng lớn; Khách hàng có tiềm
năng trung bình; Khách hàng bình thường; Khách hàng ít tiềm năng
Bảng Solutions. Cấu trúc 3 cột: ID, Name, Description. Nội dung: mô tảcác phương án tư vấn. Có 6 phương án tư vấn được đề xuất: Tư vấn cho nhóm khách hàng đặt vấn đề
học phí lên hàng đầu; Tư vấn cho nhóm khách hàng đặt vấn đề trình độ giảng viên lên hàng
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 55
khách hàng đặt vấn đề về các dịch vụ cộng thêm lên hàng đầu; Tư vấn cho nhóm khách hàng
đặt vấn đề phương pháp giảng dạy và thời gian biểu lên hàng đầu; Tư vấn cho nhóm khách
hàng đặt vấn đềcơ hội việc làm sau khi hoàn tất khoá học lên hàng đầu.
Bảng Profits. Cấu trúc 3 cột: Solution, Type, Profit. Nội dung: mô tả ước lượng lợi nhuận của từng phương án khi áp dụng trên một loại khách hàng cụ thể. Đơn vị tính: trăm
nghìn đồng.
Do đặc điểm của nguồn dữ liệu cung cấp không phù hợp hoàn toàn với mục đích
nghiên cứu nên cần sử dụng một bộ công cụ sinh dữ liệu ngẫu nhiên. Để phù hợp với dữ liệu thực tế, dữ liệu ngẫu nhiên sẽđược phát sinh theo phân bố chuẩn (Normal Distribution).
3.4.2 Chương trình mô phỏng
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 56
Chương trình mô phỏng quá trình hoạt động của mô hình G(m, n) được cài đặt thử
nghiệm trên máy tính cá nhân có cấu hình:
- Hệđiều hành Windows XP Professional, Service Pack 3. - Bộ nhớ RAM 1GB.
- Bộ vi xử lý Intel(R) Core(TM) Duo CPU, T2450 @2.00GHz (2 CPUs) - Dung lượng đĩa cứng HDD 140GB.
Ngôn ngữ lập trình C#.NET trên Visual Studio 2008.
Chương trình sử dụng bộ thư viện Troschuetz.Random để phát sinh những dữ liệu còn thiếu theo các dạng phân phối phù hợp. Troschuetz.Random hoàn toàn miễn phí, được
đăng ký bản quyền GNU Lesser General Public License. Có thể tải toàn bộ mã nguồn và
chương trình mô phỏng quá trình phát sinh các dạng phân phối tại địa chỉ
http://www.codeproject.com/KB/recipes/Random.aspx hoặc
http://152.66.235.202/~tes/elte/!sav/terinformatika/taverzekelt_felvetelek_elemzese/ MathNet.Iridium-2007.3.8/Source/Library/Distributions/
Có 2 hình thức nạp dữ liệu cho chương trình: a. Nạp dữ liệu ngẫu nhiên:
Tất cảcác thông tin đều được phát sinh ngẫu nhiên theo yêu cầu người dùng.
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 57
Các thông số cho quá trình nạp dữ liệu ngẫu nhiên được đưa vào chương trình thông qua một file văn bản Text Document (*.txt). Cấu trúc file văn bản này như sau:
CUSTOMER TYPES
<số lượng loại khách hàng>
SOLUTIONS
<số lượng phương án đề xuất>
ATTRIBUTES
<số lượng đặc trưng (thuộc tính) khách hàng>
RECORDS
<số lượng bảng tin trong tập dữ liệu>
PROFITS Min
<ước lượng lợi nhuận nhỏ nhất>
Max
<ước lượng lợi nhuận lớn nhất>
b. Nạp dữ liệu từ dữ liệu thực nghiệm:
Dữ liệu thực nghiệm trên file MS Access (*.mdb) được đưa vào chương trình. Một số
phần thông tin thiếu sót trong bộ dữ liệu thực nghiệm sẽ được bổ sung đầy đủ bằng cách phát sinh dữ liệu ngẫu nhiên.
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 58
Hình 3.7: Dữ liệu thực nghiệm được nạp vào chương trình
Các mẫu khách hàng cần xác định mục tiêu thì được nạp thủ công trên giao diện
chương trình hoặc từ file văn bản Text Document (*.txt). Các mẫu khách hàng này cần có vector thuộc tính dài đúng bằng với vector thuộc tính của các khách hàng trong tập dữ liệu
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 59
Hình 3.8: Cách nạp các vector khách hàng mục tiêu vào chương trình mô phỏng.
Hình 3.9:File lưu trữ một số mẫu khách hàng mục tiêu
Đưa một vector trong Bảng Support vào Bảng Mục tiêu Đưa tất cả vector trong Bảng Support vào Bảng Mục tiêu Bảng Mục tiêu có thể
thêm, xóa, chỉnh sửa theo ý muốn của người dùng
Xóa một vector trong Bảng Mục tiêu
Nạp vector mục tiêu từ file
Khóa luận tốt nghiệp Cửnhân tài năng 02 – Khoa học máy tính Trang 60
3.5 KẾT QUẢ
Mô hình phân tích đặc trưng G(m,n) kế thừa kỹ thuật tính toán của Paul E. Green nên cũng cải thiện được chỉ số EOL so với phương pháp tính Minimize Expected Opportunity
Loss.
G(m,n) phát triển trên cơ sở mở rộng mô hình phân tích đặc trưng G(2,2) của Paul E. Green. Giờ đây, mô hình có thể áp dụng cho các bài toán có nhiều hơn 2 phương án và nhiều loại khách hàng khác nhau.
Bên cạnh đó, việc áp dụng kỹ thuật tập thô kết hợp với công thức Bayes đã khắc phục
được tình trạng khó khăn khi chương trình gặp một khách hàng hoàn toàn mới, góp phần vào việc tối ưu hóa bài toán lựa chọn phương án thích hợp cho từng loại khách hàng.
Đồng thời, việc tìm ra được các thuộc tính tối ưu, quan trọng với quá trình phân tích, giúp giảm thiểu chi phí thu thập thông tin không cần thiết nâng cao hiệu suất xử lý cho mô hình.
Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 61
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
4.1 KẾT LUẬN
Mô hình G(m,n) kế thừa ý tưởng của Paul E. Green kết hợp với việc sử dụng những
phương pháp hiên đại của Khai thác dữ liệu đã giải quyết một cách tương đối tốt bài toán
phân tích đặc trưng khách hàng. Kết quả của các chứng minh lý thuyết và thực nghiệm đã chỉ ra nhiều điểm tích cực của mô hình phân tích đặc trưng G(m,n):
- Xây dựng trên cơ sở mô hình của Green, nên mô hình G(m,n) cũng cải thiện được
đáng kể giá trị Expected Opportunity Loss. Các thông tin bổ sung về các thuộc
tính khách hàng được đưa vào trong quá trình phân tích, tuy phức tạp nhưng chúng đã làm giảm thiểu thiệt hại trong những quyết định mang tính rủi ro cao. - Việc áp dụng kỹ thuật phân lớp Bayes đã giải quyết được vấn đề khó khăn trong
phân loại khách hàng. Đó là áp dụng mô hình hiện tại trên nhiều đặc trưng khách hàng và nhiều phương án áp dụng.
- Lý thuyết tập thô cho thấy đây thực sự là một công cụ tốt trong việc dự đoán phương án áp dụng cho các vector khách hàng mới không có trong tập dữ liệu. - Lý thuyết tập thô cũng giúp xác định các thuộc tính quan trọng góp phần giảm
thiểu chi phí thu thập một sốthông tin khách hàng dư thừa, không cần thiết và xác
định quy luật cho tập dữ liệu.
Tuy nhiên, bên cạnh những nét tích cực, mô hình G(m,n) vẫn còn tồn đọng một số
vấn đề cần được khắc phục:
- Tập giá trị của các thuộc tính khách trong mô hình hiện tại chỉ là {0,1} không liên tục nên không thể phản ánh một cách đúng đắn nhất thực tế. Những thuộc tính khách hàng nhiều khi rất mơ hồ và không thể xác định một cách chính xác là
khách hàng đó có hay không có một thuộc tính.
- Áp dụng kỹ thuật Minimize Expected Opportunity Loss cho các mẫu khách hàng
không xác định (Unknown Patterns) thực sự chỉ là giải pháp tạm thời, không hiệu quả và mang tính rủi ro khá cao.
- Dữ liệu thực nghiệm chủ yếu là do sinh ngẫu nhiên, chưa bám sát đặc điểm, nhu cầu thực tế.
Khóa luận tốt nghiệp Cử nhân tài năng 02 – Khoa học máy tính Trang 62
4.2 HƯỚNG PHÁT TRIỂN
Đề tài đã giới thiệu một cách tiếp cận mới là áp dụng lý thuyết Tập thô và kỹ thuật Bayes của lĩnh vực Khoa học máy tính vào giải quyết vấn đề điển hình trong marketing là
phân tích đặc trưng khách hàng. Tuy còn gặp nhiều khó khăn, nhưng mô hình phân tích đặc
trưng khách hàng G(m,n) đã chứng minh được tính hiệu quả của mình, làm nền tảng bước
đầu cho việc phát triển mô hình:
- Trong tương lai, việc áp dụng lý thuyết tập mờ (fuzzy set) vào trong biểu diễn giá trị các thuộc tính sẽ có thể ít nhiều gia tăng tính chính xác của mô hình về sau. - Bài toán rút gọn thuộc tính luôn là bài toán nan giải trong lý thuyết tập thô. Tìm ra
phương pháp rút gọn thuộc tính hữu hiệu sẽ góp phần không nhỏ vào việc hoàn thiện mô hình G(m,n).
- Hiện tại, vẫn chưa có cách nào để tìm kiếm phương án tối ưu cho các mẫu khách