Kết luận cuối chƣơng - khai phá dữ liệu và phát hi- 123docz.net

Chƣơng này đã trình bày về khai pháluật kết hợp, phƣơng pháp phát hiện luật kết hợp và các thuật toán phát hiện luật kết hợp. Các bài toán trong phát hiện luật kết hợp: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do ngƣời dùng xác định và dùng các tập mục phổ biến để sinh ra các luật mong muốn.

Nội dung trong chƣơng này còn đề cập đến vấn đề phát hiện luật kết hợp trên hệ thông tin nhị phân. Bản chất của hệ thông tin nhị phân là cung cấp một phƣơng pháp liệt kê hiệu quả nhất các tập mục phổ biến, bằng cách xác định “có” hay “không” mục i ở trong giao tác o. Nhƣ vậy tƣơng ứng với các bit nhị phân. Với kho dữ liệu thì số lƣợng các mục là rất lớn trong các giao tác. Nếu có k mục thì ta cần phải xét đến 2k

tập mục con. Điều này là khó có thể thực hiện trong thực tế. Thay vì xem xét trên kho dữ liệu, ta tính toán trên các bit. Các bƣớc liệt kê tiếp theo dựa trên kết quả của bƣớc trƣớc đó, điều này sẽ tiết kiệm thời gian và công sức rất nhiều.

Phân chia không gian tìm kiếm là phƣơng pháp tách các khoản mục trong tập dữ liệu D thành các tập con đơn giản hơn, có cùng độ hỗ trợ. Mục đích để phân nhỏ không gian tìm kiếm các khoản mục (bởi theo lý thuyết, tập D có k khoản mục thì không gian các tập con của D sẽ là 2k

tập hợp). Phát hiện các luật kết hợp có thể theo cách: đếm các thuộc tính -thƣờng xuyên, liệt kê tuần tự. Ngoài ra, khai phá luật kết hợp có thể dựa vào sự phân loại thuộc tính hoặc phân hoạch các không gian tìm kiếm .

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

luật kết hợp nhƣ: AprioriTID, AprioriHyrid, K-Nearest Neighbors(K- láng giềng),K-Means.Thông qua một số thuật toán, với các ví dụ điển hình, tác giả đã làm rõ: mặc dù độ phức tạp của thuật toán tìm các tập mục phổ biến là NP khó. Nhƣng trong thực tế do các CSDL thƣờng rất thƣa và kỹ thuật tỉa đã đƣợc áp dụng trong các thuật toán tìm tập mục phổ biến nên thời gian tìm frequent Itemset chỉ là tuyến tính.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

CHƢƠNG 3. CHƢƠNG TRÌNH THỰC NGHIỆM 3.1 Giới thiệu bài toán

3.1.1 Mục tiêu

Trong mục tiêu muốn giới thiệu việc triển khai, áp dụng kỹ thuật khai phá dữ liệu vào xây dựng ứng dụng cụ thể, em xin đƣợc tập trung vào một chức năng tiêu biểu của khai phá dữ liệu bằng luật kết hợp, đó là: chức năng tìm ra xác suất các sách đƣợc bán cùng nhau.

3.1.2 Yêu cầu

Hệ thống phải phải đáp ứng các yêu cầu : Tìm ra xác suất các cuốn sách đƣợc bán cùng nhau từ CSDL bán hàng

3.2 Tóm tắt và phân tích và thiết kế hệ thống

Bài toán này đƣợc em lựa chọn theo cách tiếp cận là hƣớng cấu trúc. Thông thƣờng, việc phân tích và thiết kế hệ thống của một ứng dụng nhƣ này phải trải qua rất nhiều bƣớc. Bao gồm:

- Xác định mô hình tiến trình nghiệp vụ.

- Dựa vào các thông tin về các nghiệp vụ của hệ thống để phân tích và xây dựng sơ đồ phân rã chức năng chi tiết từ đó xác định các chức năng cơ sở.

- Mô hình hóa dữ liệu. - Vẽ sơ đồ luồng dữ liệu.

- Đƣa ra ma trận thực thể chức năng. - Thiết kế mô hình dữ liệu logic. - Chọn hệ quản trị cơ sở dữ liệu. - Tạo CSDL vật lý.

Tuy nhiên, do tiêu điểm chính của đồ án này là tập trung vào việc giới thiệu về kỹ thuật khai phá dữ liệu và cách áp dụng, triển khai kỹ thuật khai phá dữ liệu vào một ứng dụng cụ thể, do thời gian và phạm vi của một đồ án tốt nghiệp nên em không thể đi sâu vào trình bày nhiều thông tin và cụ thể nhƣ mong muốn. Thay vào đó, em xin đƣợc phép trình bày luôn mô hình quan hệ thực thể và CSDL vật lý (qua hệ quản trị CSDL MS SQL Server 2008).

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Hơn thế nữa, em chỉ xin trình bày những thông tin nhỏ gọn, phù hợp với mục tiêu của đề tài và những thông tin liên quan đến các chức năng khai phá dữ liệu.

Hình 3.1: Mô hình quan hệ thực thể đã đƣợc lƣợc bỏ và tóm gọn

3.3 CSDL vật lý với MS SQL Server 2008

Sơ đồ dữ liệu quan hệ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

3.4 CSDL của chƣơng trình

Hệ thống đƣợc viết trên công cụ VS.NET 2010 và hệ quản trị CSDL là MS SQL Server 2008.

Chƣơng trình đã tiến hành với số lƣợng bản ghi nhƣ sau: - Bảng ChuDe: 15 bản ghi dữ liệu chủ đề.

- Bảng KhachHang: 10391 bản ghi dữ liệu về khách hàng. - Bảng Sach: 101 bản ghi sách.

- Bảng DonHang: 10391 bản ghi đơn hàng.

- Bảng DonHangChiTiet: 213226 bản ghi các dòng hàng.

3.5 Một số chức năng và giao diện

Chƣơng trình chạy trên cấu hình máy : Chip core i7,RAM 4 GB,HDD 500GB. - Giao diện chính của chƣơng trình:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

- Tiến hành khai phá với độ hỗ trợ tối thiểu = 22% và độ tin cậy tối thiểu = 90% :

Thời gian chạy = 0.7 phút. Giải thích luật thu đƣợc:

Chứng khoán và đầu tƣ Nhân vật và bài học kinh doanh 94.17%

Có nghĩa: 94.17% giao dịch nếu mua sách Chứng khoán và đầu tƣ thì sẽ mua sách Nhân vật và bào học kinh doanh.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Tƣơng tự :

96.52% giao dịch nếu mua sách Nhân vật và bài học kinh doanh thì sẽ mua sách Chứng khoán và đầu tƣ.

90.89% giao dịch nếu mua sách Chứng khoán đầu tƣ thì sẽ mua sách Quản trị.

96.59% giao dịch nếu mua sách Quản trị thì sẽ mua sách Chứng khoán và đầu tƣ.

92.88% giao dịch nếu mua sách Nhân vật và bài học kinh doanh thì sẽ mua sách Quản trị

Khai phá với một vài độ hỗ trợ tối thiểu và độ tin cậy tối thiểu khác: - Với độ hỗ trợ tối thiểu = 18% và độ tin cậy tối thiểu = 80% :

Thời gian chạy = 7.5 phút

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Thời gian chạy = 1.8 phút

Qua các luật thu đƣợc sau khi chạy chƣơng trình, dựa vào đó có thể sắp xếp các cuốn sách có của luật có độ tin cậy cao nằm cạnh nhau trên trang web bán hàng của mình. Hoặc khi khách hàng chọn một cuốc sách nào đó, ta sẽ gợi ý những cuốn sách nên mua kèm theo.

Ví dụ:

Có các luật sau :

Khi khách hàng chọn mua sách Chứng khoán và đầu tƣ, ta có thể gợi ý khách hàng mua các cuốn Nhân vật và bài học kinh doanh và cuốn Quản trị. Ngƣợc lại khi khách hàng chọn mua cuốn Quản trị ta cũng gợi ý khách mua thêm các cuốn Chứng khoán đầu tƣ và cuốn Nhân vật và bài học kinh doanh.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

KẾT LUẬN 1. Kết quả đạt đƣợc trong luận văn

Luận văn đề cập đến các nội dung về kho dữ liệu, các đặc tính trong kho dữ liệu, sự khác biệt của kho dữ liệu với các CSDL tác nghiệp khác. Ứng dụng của lƣu trữ và khai phá tri thức trong kho dữ liệu là rất lớn và có ích trong mọi hoạt động sản xuất, kinh doanh và trợ giúp cho việc hoạch định chiến lƣợc của các nhà quản lý cũng nhƣ hỗ trợ ra quyết định.

Những kết quả chính của luận văn đạt đƣợc:

 Trình bày khái quát về kho dữ liệu và các kỹ thuật khai phá dữ liệu, các bƣớc của quá trình khai phá dữ liệu, nhiệm vụ và các phƣơng pháp để khai phá dữ liệu.

 Giới thiệu luật kết hợp, các phƣơng pháp và mô hình phát luật kết hợp.  Trình bày các thuật toán khai phá dữ liệu phát hiện luật kết hợp nhƣ:

AprioriTID, AprioriHyrid, K-Nearest Neighbors (K- láng giềng), K- Means, ...

 Cài đặt thử nghiệm hai thuật toán Apriori áp dụng vào bài toán “Khai phá dữ liệu và phát hiện luật kết hợp trong CSDL siêu thị sách”.

2. Hƣớng nghiên cứu tiếp theo

Nghiên cứu sâu các thuật toán khai phá dữ liệu, tìm cách minh hoạ thuật toán tốt hơn nữa. Tiếp tục hoàn thiện và mở rộng chƣơng trình trong luận văn này để có thể áp dụng vào thực tế một cách triệt để đảm bảo theo đúng các bƣớc trong quá trình khai phá dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

TÀI LIỆU THAM KHẢO

Tiếng Việt:

[1] Đoàn Văn Ban (2006), Lập trình hướng đối tượng bằng Java, NXB KHKT , Hà Nội .

[2] Nguyễn Bá Tƣờng (2005), Nhập môn cơ sở dữ liệu phân tán, NXB KHKT. [3] Vũ Đức Thi, Cơ sở dữ liệu: Kiến thức và thực hành, NXB Thống kê 1997. [4] Nguyễn Thanh Thuỷ (2001), Khai phá dữ liệu - Kỹ thuật và ứng dụng. Bài giảng trƣờng thu, Hệ mờ và ứng dụng, Hà Nội.

[5] Phan Đầu (2005), Khai phá dữ liệu bằng phương pháp luật kết hợp, luận văn thạc sĩ khoa học Công nghệ thông tin - Đại học Sƣ phạm Hà Nội.

[6] Nguyễn Thị Diệu Thƣ (2000), Khai phá dữ liệu kỹ thuật và ứng dụng, luận văn thạc sĩ khoa học Công nghệ thông tin - Đại học Bách khoa Hà Nội.

[7] Nguyễn Trung Tuấn (2003), Kỹ thuật phát hiện tri thức và khai phá dữ liệu, ứng dụng trong bài toán dự báo từ thông tin kinh tế - xã hội.

Tiếng Anh:

[8] Bao Ho Tu (1998), Introduction to Knowledge Discovery and Data mining, Institute of Information Technology National Center for Natural Science and Technology.

[9] Christopher Westphal - Teresa Blaxton (1998), Data Mining Solution, Wiley Computer Publishing.

[10] Jean-Marc Adamo (2001), Data Mining for Association Rule and Sequential Pattens, With 54 Illustrations. ISBN0-95048-6.

[11] John Wiley & Sons (2003), Data Mining: Concepts, Models, Methods, and Algorithms, by Mehmed Kantardzic, ISBN: 0471228524.