Hỗ trợ hệ chuyên gia cho khai phá luật kết hợp

1 LỜI CẢM ƠN Trƣớc hết, xin chân thành cảm ơn tới thầy cô giáo Trƣờng Đại học Sƣ phạm Hà Nội tận tâm giảng dạy, cung cấp cho kiến thức, phƣơng pháp nghiên cứu khóa học nhƣ trình thực luận văn Đặc biệt xin đƣợc bày tỏ lòng biết ơn sâu sắc đến thầy giáo hƣớng dẫn PGS.TS Lê Huy Thập, ngƣời tận tình hƣớng dẫn, giúp đỡ động viên để thực luận văn Xin cảm ơn gia đình, bạn bè đồng nghiệp tạo điều kiện giúp đỡ thời gian thực luận văn Mặc dù cố gắng nghiên cứu, tìm hiểu đề tài nhƣng tránh khỏi sai sót định, mong nhận đƣợc đóng góp chia sẻ quý thầy cô bạn bè Tôi xin chân thành cảm ơn Hà Nội, tháng 12 năm 2013 TÁC GIẢ LUẬN VĂN Hoàng Văn Lê \ LỜI CAM ĐOAN Tôi xin cam đoan toàn nội dung luận văn theo nội dung đề cƣơng Nội dung luận văn hƣớng dẫn tận tình PGS TS Lê Huy Thập thân tự sƣu tầm, tra cứu xếp cho phù hợp với nội dung yêu cầu Nội dung luận văn chƣa đƣợc công bố hay xuất dƣới hình thức nhƣ không đƣợc chép từ tài liệu có sẵn đảm bảo tính xác thực tiễn Tôi xin cam đoan giúp đỡ cho việc thực luận văn đƣợc cảm ơn Hà Nội, tháng 12 năm 2013 TÁC GIẢ LUẬN VĂN Hoàng Văn Lê MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG PHẦN MỞ ĐẦU CHƢƠNG TỔNG QUAN 10 1.1 KHAI PHÁ DỮ LIỆU 10 1.1.1 Định nghĩa khai phá liệu 10 1.1.2 Các ứng dụng khai phá liệu 10 1.1.3 Các bƣớc trình khai phá liệu 11 1.1.4 Nhiệm vụ khai phá liệu 13 1.1.5 Các phƣơng pháp khai phá liệu 15 1.1.6 Lợi cuả khai phá liêu so với phƣơng pháp khác 18 1.1.7 Lựa chọn phƣơng pháp 21 1.2 HỆ CHUYÊN GIA 22 1.2.1 Khái niệm Hệ chuyên gia 22 1.2.2 Kiến trúc tổng quát hệ chuyên gia 23 1.2.3 Các kĩ thuật thể tri thức 27 1.3 KẾT LUẬN CHƢƠNG 29 CHƢƠNG HỖ TRỢ HỆ CHUYÊN GIA TRONG KHAI LUẬT KẾT HỢP 30 2.1 PHƢƠNG PHÁP TÌM LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 30 2.1.1 Vài nét khai phá luật kết hợp 30 2.1.2 Luật kết hợp 30 2.1.3 Thuật toán Apriorid 33 2.1.4 Thuật toán AprioriTID 39 2.1.5 Thuật toán AprioriHybrid 43 2.1.6 Thuật toán K-Nearest Neighbors 44 2.1.7 Thuật toán K-Means 45 2.2 CÁC PHƢƠNG PHÁP SUY LUẬT KHÔNG CHẮC CHẮN TRONG HCG…………48 2.2.1 Tổng quan lý thuyết chắn 48 2.2.2 Cơ sở lý thuyết chắn 49 2.2.3 Nhân tố chắn dƣới khía cạnh xác suất 53 2.2.4 Lan truyền chắn 53 2.2.5 Phƣơng pháp suy luận không chắn Hệ chuyên gia 57 2.3 THỂ HIỆN ĐỘ CHẮC CHẮN CF TRONG SỰ KIỆN VÀ TRONG KHAI PHÁ LUẬT KẾT HỢP 61 2.3.1 Tập luật sau khai phá luật kết hợp 61 2.3.2 Thể độ chắn CF kiện luật khai phá kết hợp 61 2.4 KẾT LUẬT CHƢƠNG 62 CHƢƠNG ỨNG DỤNG HỖ TRỢ HCG TRONG KPDL TẠI SIÊU THỊ BÁN SÁCH 64 3.1 LẬP TRÌNH ỨNG DỤNG TẠI SIÊU THỊ BÁN SÁCH 64 3.1.1 Giới thiệu toán 64 3.1.2 Tóm tắt phân tích thiết kế hệ thống 64 3.2 CÁC GIAO DIỆN VÀ KẾT QUẢ CỦA CHƢƠNG TRÌNH 66 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ý nghĩa Ký hiệu, chữ viết tắt Candidate itemset Một itemset tập Ck đƣợc sử dụng để sinh large itemset Ck Tập candidate k-itemset giai đoạn thứ k Confidence Độ tin cậy luật kết hợp CSDL Cơ sở liệu HCG Hệ chuyên gia DM Data mining- Khai phá liệu Frequent/large itemset Một intemset có độ hỗ trợ (support)>= ngƣỡng độ hỗ trợ tối thiểu CF Certainty factor ID Indentifier Item Một phần tử Itemset Itemset Tập item k-itemset Một itemset có độ dài k Lk Tập large itemset giai đoạn thứ k TID Transaction Indentifier Transaction Giao dịch Classification Phân loại Candidate Dự tuyển DANH MỤC CÁC HÌNH VẼ Ý nghĩa Hình Trang Hình 1.1 Quy trình phát tri thức 12 Hình 1.2 Hoạt động hệ chuyên gia 23 Hình 1.3 Những thành phần hệ chuyên gia 24 Hình 1.4 Quan hệ máy suy diễn sở tri thức 25 Hình 1.5 Kiến trúc hệ chuyên gia theo J.Emine 26 Hình 1.6 Kiến trúc hệ chuyên gia theo C Ernest 26 Hình 2.1 Query Point phân lớp 47 Hình 2.2 Thiết kế xác định danh giới cụm ban đầu 48 Hình 2.3 Tính toán trọng tâm cụm 48 Hình 2.4 Phạm vi giá trị CF 53 Hình 3.1 Mô hình quan hệ thực thể 68 Hình 3.2 Sơ đồ giữ liệu quan hệ 69 Hình 3.3 Các giao dịch 70 Hình 3.4 Các giao dịch sở liệu 70 Hình 3.5 Thể độ hỗ trợ tối thiểu độ tin cậy tối thiểu 71 Hình 3.6 Thể độ hỗ trợ tối thiểu độ tin cậy tối thiểu khác 72 Hình 3.7 Thể độ chắn luật 72 Hình 3.8 Kết chƣơng trình 73 DANH MỤC CÁC BẢNG Ý nghĩa Bảng Trang Bảng 2.1 Các mặt hàng nhãn 38 Bảng 2.2 Các giao dịch 38 Bảng 2.3 Ứng viên C1 39 Bảng 2.4 Ứng viên L1 39 Bảng 2.5 Ứng viên C2 39 Bảng 2.6 Ứng viên C2 39 Bảng 2.7 Ứng viên C2 39 Bảng 2.8 Ứng viên L2 39 Bảng 2.9 Ứng viên C3 40 Bảng 2.10 Miêu tả giá trí CF 55 PHẦN MỞ ĐẦU Lý chọn đề tài Để tìm luật kết hợp khai phá liệu, dựa vào độ hỗ trợ Sup (Suport) độ tin cậy Conf (Confidence), nhƣng tham số phải đƣợc xác định qua kinh nghiệm hay qua phƣơng pháp chuyên gia Dù cách độ khả tín luật mức độ tham khảo Để tăng độ tin cậy vào luật tìm đƣợc dùng phƣơng pháp hỗ trợ thêm hệ chuyên gia Từng chuyên đề giới Việt Nam có quan tâm nghiên cứu, nhƣng kết hợp gữa hai chuyên đề theo cách nêu chƣa Chúng ta dùng phƣơng pháp bổ sung nhân tố chắn CF cho kiện, luật,… để tăng độ khả tín cho luật kết hợp nhận đƣợc phƣơng pháp khai phá luật kết hợp Mục đích nghiên cứu (Các kết cần đạt đƣợc) Dùng suy luận không chắn để hỗ trợ khai phá luật kết hợp Lập trình thể luật kết hợp có hỗ trợ phƣơng pháp suy luận không chắn siêu thị bán sách Nhiệm vụ nghiên cứu Nghiên cứu khai phá liệu có hỗ trợ hệ chuyên gia Đối tƣợng phạm vi nghiên cứu Khai phá liệu Hệ chuyên gia Giả thuyết khoa học Dùng hệ chuyên gia, Trí tuệ nhân tạo,… để hỗ trợ nâng cao mở rộng đề tài Phƣơng pháp nghiên cứu Phƣơng pháp tìm luật kết hợp khai phá liệu Các phƣơng pháp suy luận không chắn hệ chuyên gia Thể độ chắn CF kiện luật khai phá kết hợp Nội dung luận văn gồm chƣơng Chƣơng Tổng quan 1.1 Khai phá liệu 1.2 Hệ chuyên gia 1.3 Kết luận chƣơng Chƣơng Hỗ trợ hệ chuyên gia khai phá luật kết hợp 2.1 Phƣơng pháp tìm luật kết hợp khai phá liệu 2.2 Các phƣơng pháp suy luận không chắn hệ chuyên gia 2.3 Thể độ chắn CF kiện luật khai phá kết hợp 2.4 Kết luận Chƣơng Ứng dụng hỗ trợ hệ chuyên gia khai phá luật kết hợp siêu thị bán sách 3.1 Lập trình ứng dụng siêu thị bán sách 3.2 Các giao diện kết chƣơng trình ứng dụng 10 CHƢƠNG TỔNG QUAN 1.1 KHAI PHÁ DỮ LIỆU 1.1.1 Định nghĩa khai phá liệu Khai phá liệu đƣợc dùng để mô tả trình phát tri thức sở liệu Quá trình kết xuất tri thức tiềm ẩn từ liệu giúp cho việc dự báo kinh doanh, hoạt động sản xuất, Khai phá liệu làm giảm chi phí thời gian so với phƣơng pháp truyền thống trƣớc (ví dụ nhƣ phƣơng pháp thống kê) Sau định nghĩa mang tính mô tả nhiều tác giả khai phá liệu: Định nghĩa Ferruzza: “Khai phá liệu tập hợp phƣơng pháp đƣợc dùng tiến trình khám phá tri thức để khác biệt mối quan hệ mẫu chƣa biết bên liệu” Định nghĩa Parsaye: “Khai phá liệu trình trợ giúp định, tìm kiếm mẫu thông tin chƣa biết bất ngờ sở liệu lớn” Định nghĩa Fayyad: “Khai phá liệu trình không tầm thƣờng nhận mẫu liệu có giá trị, mới, hữu ích, tiềm hiểu đƣợc” 1.1.2 Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật toán, tính toán song song Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phƣơng pháp thống kê để mô hình hóa liệu phát mẫu Khai phá liệu có nhiều ứng dụng thực tế, ví dụ nhƣ: Bảo hiểm, tài thị trƣờng chứng khoán: phân tích tình hình tài dự báo giá loại cổ phiếu thị trƣờng chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận, Thống kê, phân tích liệu hỗ trợ định 57 Chẳng hạn IF E1 AND E2 OR E3 AND E4 THEN H CF = CF (luật) Ngƣời ta quản lý lan truyền luật loại cách tính luật AND luật OR, chẳng hạn luật có: CF(H) = max {min{CF(E1), CF(E2)}, {CF(E3), CF(E4)}}*CF(luật) Để tìm luật khai phá luật kết hợp dựa vào độ hỗ trợ Sup độ tin cậy Conf, nhƣng tham số phải đƣợc xác định qua kinh nghiệm hay qua phƣơng pháp chuyên gia Dù cách độ khả tín luật mức độ tham khảo Để tăng độ tin cậy vào luật tìm đƣợc dùng phƣơng pháp hỗ trợ thêm hệ chuyên gia 2.2.5 Phƣơng pháp suy luận không chắn Hệ chuyên gia Ta có hai loại thông tin không chắn: liệu ban đầu đƣợc cho không chắn, không đủ, không đáng tin cậy,… hai luật mà ta sử dụng để suy luận không hợp logic Có hai cách tiếp cận xử lý suy diễn không chắn Tiếp cận thứ tiếp cận thống kê, tiếp cận thứ hai suy luận theo logic mờ Trong phần này, cập đến tiếp cận thứ nhất, hƣớng tiếp cận trình bày hai phƣơng pháp: lý thuyết xác suất BAYES đại số chắn STANFORD 2.2.5.1 Suy luận BAYES a Xác suất hậu nghiệm (posterior probability) hay xác suất có điều kiện (conditional probability) Là xác suất kiện biết trƣớc hay nhiều kiện khác b Công thức Bayes Định lý Bayes nhà toán học Thomas Bayes đƣa Định lý cho phép tính xác suất p(H|E) giả thiết H có kiện E xảy 58 p( H E ) p( E H )* p( H ) p( E ) Trong đó: p(H) xác suất để giả thiết H p(H|E) xác suất để H E xảy p(E|H) xác suất để E H xảy p(E) xác suất xảy E Giả sử ta có thông tin sau: - 75% trƣờng hợp bệnh nhân mắc bệnh quai bị bị cúm - Cơ hội ngƣời bị bệnh quai bị 1/15000 - Cơ hội ngƣời bị cúm 1/1000 Hãy xác định xác suất điều kiện bệnh nhân mắc bệnh quai bị biết ngƣời không bị cúm Riêng p(E) đƣợc tính xác suất giả thiết H H không đúng, tức là: p(E) = p(E H) + p(E H) = p(E|H).p(H) + p(E| H)p( H) Khi thiết kế hệ chuyên gia, định lý Bayes đƣợc thể thông qua cấu trúc luật If E then H Định lý xác suất đƣợc sử dụng để cung cấp xác suất giả thuyết H có kiện E Định lý đƣợc sử dụng để quản lý luật suy diễn có dạng: IF X THEN E → IF E THEN H 2.2.5.2 Đại số chắn STANFORD MB(H | E): độ đo niềm tin vào khả giả thuyết H, có chứng E MD(H | E): độ đo hoài nghi vào khả giả thuyết H, có chứng E Giá trị độ đo rơi vào hai trƣờng hợp: < MB(H | E) < MD(H | E) = 0, hoặc: < MD(H | E) < MB(H | E) = 59 Hệ số chắn Stanford CF (H | E) = MB(H | E) – MD(H | E) Ta có hai vấn đề không chắn liệu luật Vì vậy, ta có loại hệ số CF hệ số chắn cho kiện (fact), hệ số chắn cho luật (rule) Để dễ phân biệt ta sử dụng ký hiệu CFf cho kiện CFr cho luật Các hệ số chắn Hệ số chắn dành cho kiện: Dữ kiện bao gồm liệu ban đầu, liệu suy luận đƣợc kết luận (giả thuyết): CFf(fact) ∈ [-1,1]: - CFf tiến thể tin tƣởng kiện mạnh - CFf tiến -1 thể tin tƣởng kiện không mạnh - CFf có giá trị xung quanh cho thấy tồn cớ cho việc ủng hộ hay chống lại kiện Vì vậy, lấy liệu suy luận độ xác thấp Do đó, ngƣời ta thƣờng đƣa giới hạn (threshold) nhằm tránh việc suy luận với thông tin không chắn nhƣ Nghĩa kiện có CF nhỏ giới hạn, ta không sử dụng trình suy luận Hệ số chắn dành cho luật: CFr(rule) ∈ [-1,1]: thể tin tƣởng chuyên gia vào độ tin cậy luật Quy tắc kết hợp CFf điều kiện: Thông thƣờng, luật thƣờng có tiền đề (vế trái) tạo thành từ kết nối and/or nhiều điều kiện (ĐK) Khi luật sinh đƣợc sử dụng, CF liên kết với điều kiện tiền đề đƣợc kết hợp với để tạo độ đo chắn cho toàn tiền đề (toàn vế trái luật) theo công thức sau: CF ( ĐK1 And ĐK2) = Min[CF(ĐK1), CF(ĐK2)] CF (ĐK1 Or ĐK2) = Max[CF(ĐK1), CF(ĐK2)] Ví dụ 2.4: CF (bệnh nhân bị sốt) = 0.9 CF(bệnh nhân bị hắc hơi) = 0.6 => CF(bệnh nhân bị sốt And bệnh nhân bị hắc hơi) = 0.6 => CF(bệnh nhân bị sốt Or bệnh nhân bị hắc hơi) = 0.9 60 Quy tắc tính CF cho kiện suy từ luật: Khi hệ thống sử dụng luật không chắn (nghĩa kèm theo hệ số CF) để suy kết luận (KL), hệ số CF tiền đề đƣợc truyền từ tiền đề sang kết luận thông qua luật theo quy tắc sau: CFf(KL) = CFr(luật) * CFf(ĐK) Ví dụ 2.5: CF(bệnh nhân bị sốt) = 0.8 CF(If bệnh nhân bị sốt Then bệnh nhân bị cúm) = 0.5 => CF(bệnh nhân bị cúm) = 0.4 Quy tắc kết hợp nhiều CF kết luận từ nhiều luật Khi có nhiều luật đƣa kết luận (vế phải) giống nhau, giá trị CF đạt đƣợc từ luật đƣợc kết hợp theo quy tắc sau: Nếu KL từ luật có giá trị CFf1(KL) Nếu KL từ luật có giá trị CFf2(KL) Thì: Ví dụ 2.6: CF(bệnh nhân bị sốt) = CF(bệnh nhân bị hắc hơi) = 0.8 CF(If bệnh nhân bị hắc Then bệnh nhân bị cúm) = 0.5 CF(If bệnh nhân bị sốt Then bệnh nhân bị cúm) = 0.6 => CF1(bệnh nhân bị cúm) = 0.4 => CF2(bệnh nhân bị cúm) = 0.6 => CF(bệnh nhân bị cúm) = 0.4 + 0.6 – 0.24 = 0.76 61 2.3 THỂ HIỆN ĐỘ CHẮC CHẮN CF TRONG SỰ KIỆN VÀ TRONG KHAI PHÁ LUẬT KẾT HỢP 2.3.1 Tập luật sau khai phá luật kết hợp Sau áp dụng thuật toán khai phá luật kết hợp thu đƣợc tập luật có dạng: L = {{Iterm} {Iterm}} Chẳng hạn B Ví dụ minh họa mục 2.3 Ta có tập luật: Ta có luật: B N; B D;N D N B; D B N, D; N B;D N B, D ; D B, N ; B, N D ; B, D D ; N, D B; 2.3.2 Thể độ chắn CF kiện luật khai phá kết hợp Trong tập phổ biến, chọn Iterm có minsup > với tỉ lệ phần trăm cho trƣớc Chẳng hạn với tập luật lấy minsup = 60 Các luật có độ hỗ trợ lớn giá trị ngƣỡng minsup độ tin cậy lớn giá trị ngƣỡng minconf cho trƣớc đƣợc gọi luật kết hợp tin cậy Cụ thể: Nếu có đồng thời sup(X→Y) ≥ minsup conf(X→Y) ≥ minconf X→Y đƣợc gọi luật kết hợp tin cậy Cách tính thông số sup conf nhƣ sau: - Độ hỗ trợ luật: tỷ lệ hay xác suất xuất X Y giao dịch Sup(X Y) Card(X Y) |D| - Độ tin cậy luật: tỷ lệ giao dịch có chứa X Y so với giao dịch có chứa X 62 Conf (X Y) Card(X Y) Card(X) Cho trƣớc hai giá trị số: , ta gọi minsup minconf tƣơng ứng Tập luật kết hợp thỏa sup(X→Y) ≥ minsup conf(X→Y) ≥ minconf X→Y đƣợc gọi luật kết hợp tin cậy ( , ) Theo lý thuyết chắn lấy CFE = CFF = để làm độ chắn cho kiện E (tức X) độ chắn cho luật F (tức X Y) tƣơng ứng Khi dùng thuật toán khai phá luật kết hợp, mặt tính toán hoàn toàn xác nhƣ thuật toán thể Nhƣng mặt định tính vấn đề cần xem xét nghiên cứu Để làm tăng số lƣợng luật tập luật giảm hoặc hai ngƣợc lại Tuy nhiên tăng, giảm để tập luật có ý nghĩa thực tiến chắn phải dựa vào ý kiến chuyên gia Vấn đề luật kết hợp (thay đổi cặp số ( , ) để đƣa luật theo lí thuyết chắn có nhiều lựa chọn đặc biệt đƣa vào nhớ tri thức hệ chuyên gia 2.4 KẾT LUẬT CHƢƠNG Chƣơng trình bày tìm kiếm luật kết hợp, phƣơng pháp suy luận không chắn, thể độ chắn kiên nhân vật Các toán phát luật kết hợp: Tìm tất tập mục mà có độ hỗ trợ lớn độ hỗ trợ tối thiểu ngƣời dùng xác định dùng tập mục phổ biến để sinh luật mong muốn Nội dung chƣơng đề cập đến vấn đề phát luật kết hợp hệ thông tin nhị phân Bản chất hệ thông tin nhị phân cung cấp phƣơng pháp liệt kê hiệu tập mục phổ biến, cách xác định “có” hay “không” mục i giao tác o Nhƣ tƣơng ứng với bit nhị phân Với kho liệu số lƣợng mục lớn giao tác Nếu có k mục ta cần phải xét đến 2k tập mục Điều khó thực thực tế Thay 63 xem xét kho liệu, ta tính toán bit Các bƣớc liệt kê dựa kết bƣớc trƣớc đó, điều tiết kiệm thời gian công sức nhiều Phân chia không gian tìm kiếm phƣơng pháp tách khoản mục tập liệu D thành tập đơn giản hơn, có độ hỗ trợ Mục đích để phân nhỏ không gian tìm kiếm khoản mục (bởi theo lý thuyết, tập D có k khoản mục không gian tập D 2k tập hợp) Phát luật kết hợp theo cách: đếm thuộc tính -thƣờng xuyên, liệt kê Ngoài ra, khai phá luật kết hợp dựa vào phân loại thuộc tính phân hoạch không gian tìm kiếm Bên cạnh nội dung chƣơng đề cập đến số thuật toán khai phá luật kết hợp nhƣ: Apriori, AprioriTID, AprioriHyrid, K-Nearest Neighbors (K- láng giềng) Thông qua số thuật toán, với ví dụ điển hình, tác giả làm rõ: độ phức tạp thuật toán tìm tập mục phổ biến NP khó Nhƣng thực tế CSDL thƣờng thƣa kỹ thuật tỉa đƣợc áp dụng thuật toán tìm tập mục phổ biến nên thời gian tìm frequent Itemset tuyến tính 64 CHƢƠNG ỨNG DỤNG HỖ TRỢ HỆ CHUYÊN GIA TRONG KHAI PHÁ DỮ LIỆU TẠI SIÊU THỊ BÁN SÁCH 3.1 LẬP TRÌNH ỨNG DỤNG TẠI SIÊU THỊ BÁN SÁCH 3.1.1 Giới thiệu toán Trong mục tiêu muốn giới thiệu việc triển khai, áp dụng kỹ thuật khai phá liệu vào xây dựng ứng dụng cụ thể, xin đƣợc tập trung vào chức tiêu biểu khai phá liệu luật kết hợp, đƣa độ chắn CF cho ứng dụng Chƣơng trình đƣợc viết VS.NET 2010 hệ quản trị CSDL MS SQL Server 2008 Sử dụng thuật toán Apiori Các form chƣơng trình đuợc thiết kế đơn giản, đầy đủ chức Để thực thi số công việc nhƣ tìm luật, thêm mã hàng, xóa tên hàng, nhập giao dịch mua hàng, đổi hàng, hủy bỏ mua hàng, xóa việc mua hàng Khi form để bạn tiến hành bƣớc Click vào giao dịch mua hàng bạn chọn nhiều giao dịch Còn việc chọn minsup minconf đƣợc thực form chƣơng trình 3.1.2 Tóm tắt phân tích thiết kế hệ thống Bài toán đƣợc lựa chọn theo cách tiếp cận hƣớng cấu trúc Thông thƣờng, việc phân tích thiết kế hệ thống ứng dụng nhƣ phải trải qua nhiều bƣớc Bao gồm: - Xác định mô hình tiến trình nghiệp vụ - Dựa vào thông tin nghiệp vụ hệ thống để phân tích xây dựng sơ đồ phân rã chức chi tiết từ xác định chức sở - Mô hình hóa liệu - Vẽ sơ đồ luồng liệu - Đƣa ma trận thực thể chức - Thiết kế mô hình liệu logic - Chọn hệ quản trị sở liệu 65 Tuy nhiên, tiêu điểm luận văn tập trung vào việc giới thiệu kỹ thuật khai phá luật kết hợp thể độ chắn luật nên áp dụng, triển khai kỹ thuật khai phá luật kết hợp vào ứng dụng cụ thể, thời gian phạm vi luận văn nên sâu vào trình bày nhiều thông tin cụ thể Tôi xin trình bày thông tin nhỏ gọn, phù hợp với mục tiêu đề tài thông tin liên quan đến chức khai phá luật kết hợp thể độ chán CF luật khai phá kết hợp Hình 3.1 Mô hình quan hệ thực thể Chƣơng trình tiến hành với số lƣợng ghi nhƣ sau: - Bảng ChuDe: có ghi liệu chủ đề - Bảng KhachHang: có ghi liệu khách hàng - Bảng Sach: có ghi sách - Bảng DonHang: có ghi đơn hàng - Bảng DonHangChiTiet: có ghi dòng hàng Sơ đồ liệu quan hệ 66 Hình 3.2 Sơ đồ liệu quan hệ 3.2 CÁC GIAO DIỆN VÀ KẾT QUẢ CỦA CHƢƠNG TRÌNH Hiển thị tất giao dịch có sở liệu Hình 3.3 Các giao dịch 67 Hình 3.4 Các giao dịch sở liệu - Tiến hành khai phá với độ hỗ trợ tối thiểu = 22% độ tin cậy tối thiểu = 90% Hình 3.5 Thể độ hỗ trợ tối thiểu độ tin cậy tối thiểu Thời gian chạy = 0.7 phút Luật thu đƣợc: Chứng khoán đầu tƣ Nhân vật học kinh doanh 94.17% 68 Có nghĩa: 94.17% giao dịch mua sách Chứng khoán đầu tƣ mua sách Nhân vật bào học kinh doanh Tƣơng tự: 96.52% giao dịch mua sách Nhân vật học kinh doanh mua sách Chứng khoán đầu tƣ 90.89% giao dịch mua sách Chứng khoán đầu tƣ mua sách Quản trị 96.59% giao dịch mua sách Quản trị mua sách Chứng khoán đầu tƣ 92.88% giao dịch mua sách Nhân vật học kinh doanh mua sách Quản trị Khai phá luật kết hợp với vài độ hỗ trợ tối thiểu độ tin cậy tối thiểu khác: - Với độ hỗ trợ tối thiểu = 18% độ tin cậy tối thiểu = 80%: Hình 3.6 Thể độ hỗ trợ tối thiểu độ tin cậy khác Thời gian chạy = 7.5 phút - Với độ hỗ trợ tối thiểu = 20% độ tin cậy tối thiểu = 70% 69 Hình 3.7 Thể độ chắn luật Thời gian chạy = 1.8 phút Qua luật thu đƣợc sau chạy chƣơng trình, dựa vào xếp sách có luật có độ chắn cao nằm cạnh vị trí đặt sách siêu thị trang web bán hàng Hoặc khách hàng chọn mua cuốc sách đó, ta gợi ý khách hang mua sách nên mua kèm theo Ví dụ 3.1: Khi khách hàng chọn mua sách Chứng khoán đầu tƣ, ta gợi ý khách hàng mua Nhân vật, học kinh doanh Quản trị Ngƣợc lại khách hàng chọn mua Quản trị ta gợi ý khách mua thêm Chứng khoán đầu tƣ, Nhân vật học kinh doanh Ta có luật sau: Hình 3.8 Kết chƣơng trình 70 KẾT LUẬN Kết đạt đƣợc luận văn Luận văn đề cập đến nội dung khai phá liệu hệ chuyên gia, phƣơng pháp hỗ trợ hệ chuyên gia khai phá liệu, thể độ chắn kiện luật kết hợp Ứng dụng khai phá liệu hệ chuyên gia kho liệu lớn có ích hoạt động sản xuất, kinh doanh trợ giúp cho việc hoạch định chiến lƣợc nhà quản lý nhƣ hỗ trợ định Những kết luận văn đạt đƣợc: Trình bày khái quát khai phá liệu hệ chuyên gia, bƣớc trình khai phá liệu, phƣơng pháp suy luật không chắn hệ chuyên gia Trình bày thuật toán khai phá liệu phát luật kết hợp nhƣ: Apriori, AprioriTID, AprioriHyrid, K-Nearest Neighbors (K- láng giềng), Cài đặt thử nghiệm hai thuật toán Apriori áp dụng vào toán “Khai phá liệu phát luật kết hợp sở liệu siêu thị sách” Hƣớng nghiên cứu Nghiên cứu sâu thuật toán khai phá liệu, tìm cách minh hoạ thuật toán tốt Tiếp tục hoàn thiện mở rộng chƣơng trình luận văn để áp dụng vào thực tế cách triệt để đảm bảo theo bƣớc trình khai phá liệu có ứng dụng kiến thức hệ chuyên gia hệ hỗ trợ định 71 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Thanh Thuỷ, Trí tuệ nhân tạo Các phƣơng pháp giải vấn đề kĩ thuật xử lí tri thức, NXB Giáo dục, 1996 [2] Lê Huy Thập, Giáo trình kỹ thuật lập trình, Tập 1, NXB Khoa học tự nhiên công nghệ, 10/2008 [3] Lê Huy Thập, Hê hỗ trợ định, Bài giảng Học viện công nghệ Bƣu viễn thông, 2006 [4] Lê Huy Thập, Hệ chuyên gia Bài giảng Đại Học Sƣ Phạm Học viện công nghệ Bƣu viễn thông, 2006 [5] Nguyễn Thị Diệu Thƣ (2000), Khai phá liệu kỹ thuật ứng dụng, luận văn thạc sĩ khoa học Công nghệ thông tin - Đại học Bách khoa Hà Nội [6] Đỗ Trung Tuấn, Trí tuệ nhân tạo NXB Giáo dục, 1998 [7] Nguyễn Trung Tuấn (2003), Kỹ thuật phát tri thức khai phá liệu, ứng dụng toán dự báo từ thông tin kinh tế - xã hội Tiếng Anh [8] R.Agrawal and R.Srikant (1998), “Mining quantitative association rules in large relationals tables” [9] R.Agrawal, R.Srikant (1994), “Fast Algorithms for Mining Association Rules”, In Proc of the 20th International Conference on Very Large Databases, Santiago, Chile [10] Rakesh Agrawal, John Shafer (1996), “Parallel mining of association rules: Design, implementation and experience”, Research Report RJ 10004, IBM Almaden Research Center, San Jose, California [11] D.L.Olson, Yanhong Li (2007), “Mining Fuzzy Weighted Association Rules”, Proceedings of the 40th Hawaii International Conference on System Sciences

Định dạng
Số trang	71
Dung lượng	1,87 MB