Khai thác luật kết hợp sử dụng oracle

64 426 0
Khai thác luật kết hợp sử dụng oracle

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học: PGS.TS VÕ ĐÌNH BẢY (Ghi rõ họ, tên, học hàm, chữ ký) Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày 31 tháng 05 năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) TT Họ tên Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn đƣợc sửa chữa (nếu có) Chủ tịch hội đồng đánh giá LV TRƢỜNG ĐH CÔNG NGHỆ TP HCM PHÒNG QLKH – ĐTSĐH CỘNG HÕA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP HCM, ngày 20 tháng 01 năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Tấn Danh Giới tính: Nam Ngày, tháng, năm sinh: 12/12/1973 Nơi sinh: Quảng Ngãi Chuyên ngành: Công Nghệ Thông Tin MSHV: 1241860001 I- Tên đề tài: - Khai thác luật kết hợp sử dụng Oracle II- Nhiệm vụ nội dung: - Nghiên cứu toán khai thác luật kết hợp - Nghiên cứu khai thác liệu Oracle - Dùng Oracle để khai thác luật kết hợp - Minh họa công cụ khai thác luật từ Oracle III- Ngày giao nhiệm vụ: 20/01/2016 IV- Ngày hoàn thành nhiệm vụ: 19/05/2016 V- Cán hƣớng dẫn: PGS TS Võ Đình Bảy CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) PGS.TS Võ Đình Bảy KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn đƣợc cảm ơn thông tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn (Ký ghi rõ họ tên) Nguyễn Tấn Danh ii LỜI CẢM ƠN Lời em xin bày tỏ lòng biết ơn sâu sắc đến thầy PGS.TS.Võ Đình Bảy, ngƣời tận tình hƣớng dẫn em bƣớc suốt trình thực đề tài này, nhờ động viên, bảo tận tình, truyền đạt kiến thức nhƣ tạo điều kiện tốt để em hoàn thành luận văn này.Thầy tạo cho em niềm đam mê nghiên cứu khoa học Em xin gửi lời cảm ơn đến quý Thầy Cô khoa Công Nghệ Thông Tin trƣờng Đại học Công nghệ Tp Hồ Chí Minh động viên hỗ trợ em nhiều kiến thức quý báu giúp em hoàn thành tốt luận văn Em cảm ơn quý Thầy, Cô nh chị làm việc Phòng Sau Đại học hỗ trợ em nhiều thủ tục văn bản, giấy tờ liên quan đến luận văn Xin cảm ơn gia đình, đồng nghiệp bạn bè động viên em suốt thời gian thực luận văn TP Hồ Chí Minh, ngày 20 tháng năm 2016 Học viên thực Luận văn Nguyễn Tấn Danh iii TÓM TẮT Đề tài nghiên cứu khai thác luật kết hợp sử dụng Oracle, nhằm tìm hiểu thuật toán khai thác liệu hệ quản trị sở liệu Oracle Oracle hệ quản trị sở liệu lớn có tính bảo mật cao, tích hợp đƣợc công cụ khai thác liệu vào hệ quản trị sở liệu Khi dùng công cụ khai thác đƣa đƣợc độ hỗ trợ độ tin cậy từ giúp khám phá đƣợc tri thức liệu lớn Lựa chọn công cụ Oracle Data Mining (ODM) Oracle để khai thác tri thức CSDL giao dịch Thực nghiệm khai thác luật kết hợp thể mối liên quan mặt hàng CSDL giao dịch Vì việc nghiên cứu khai thác luật kết hợp sử dụng Oracle có tính thực tiễn cao, dể dàng sử dụng áp dụng đƣợc vào thực tiễn Luận văn nghiên cứu khai thác liệu sử Oracle gồm kỹ thuật phân nhóm, phân lớp khai thác luật kết hợp, khai thác luật kết hợp sở liệu giao dịch sử dụng thuật toán priori phần nghiên cứu luận văn iv ABSTRACT Thesis researches topics using Oracle to mining association rules, in order to learn the algorithms in data mining management systems Oracle Database Oracle is the Database Administrator large high security, has integrated data mining tools into the management system database When using this tool will give operators a degree of support and reliability thereby helping us to discover the knowledge of this large data Selection tools Oracle Data Mining (ODM) for the exploitation of intellectual Oracle on database transactions Experimental mining association rules express the relationship between the items in the database transaction So the study of mining association rules using Oracle with practical, easy to use and practical implications to the right Thesis researches on data mining techniques include using Oracle clustering, classification and association rules mining, including mining association rules based on transaction data using Apriori algorithm is part of research the main thesis v MỤC LỤC LỜI C M ĐO N i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT iv D NH MỤC CÁC BẢNG vii D NH MỤC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT viii D NH MỤC CÁC HÌNH VẼ, ĐỒ THỊ, SƠ ĐỒ, HÌNH ẢNH ix CHƢƠNG 1: KHAI THÁC DỮ LIỆU 1.1 Tổng quan khai thác liệu 1.2 Quá trình khám phá tri thức 1.3 Dữ liệu 1.4 Khuôn dạng bảng liệu thuộc hai loại 1.5 Tiền xử lý liệu 1.6 Mô hình khai thác liệu 10 CHƢƠNG 2: CÁC THUẬT TOÁN KH I THÁC DỮ LIỆU TRONG ORACLE 12 2.1 Phân lớp (Classification) 12 2.2 Phân lớp - trình hai bƣớc 13 2.3 Phân lớp học định 14 2.4 Minh hoạ việc áp dụng phép đo tạo định: 16 2.5 Hồi qui 21 2.6 Thuật toán SVM cho Hồi qui 23 2.7 Phân nhóm 23 2.8 Kỹ thuật dựa tâm - Thuật toán K-mean 25 2.9 Khai thác luật kết hợp 26 2.10 Phân tích giỏ hang 26 vi 2.11 Thuật toán Apriori 28 2.12 Sinh Candidate Apriori 32 2.13 Hàm Subset 33 CHƢƠNG 3: KHAI THÁC LUẬT KẾT HỢP SỬ DỤNG ORC LE 35 3.1 Cơ sở liệu giao dịch 35 3.2 Lựa chọn công cụ khai thác 36 3.3 Oracle Data Mining (ODM) 37 3.4 DBMS_Data_Mining 39 3.5 Mục tiêu khai thác thông tin CSDL giao dịch 40 CHƢƠNG 4: THỰC NGHIỆM KH I THÁC LUẬT KẾT HỢP SỬ DỤNG OR CLE 42 4.1 Thực nghiệm sở liệu giao dịch 42 4.2 Xác định nội dung khai thác: 44 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 50 5.1 Kết luận 50 5.2 Hƣớng phát triển 51 TÀI LIỆU TH M KHẢO 52 vii DANH MỤC CÁC BẢNG Bảng 1.1: Khuôn dạng đơn bảng ghi đa bảng ghi Bảng 2.1: CSDL đơn giản gồm ví dụ huấn luyện 17 Bảng 2.2: Mô hình CSDL giao dịch đơn giản 27 Bảng 2.3: Bƣớc lặp thuật toán Apriori cho CSDL DB 29 Bảng 2.4: Lần lặp thứ thuật Apriori cho CSDL DB 30 Bảng 2.5: Lần lặp thứ thuật toán Apriori cho CSDL DB 30 viii DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Nghĩa Association Rules Các luật kết hợp Candidate itemset Một itemset tập Ck đƣợc sử dụng Ck Tập candidate k-itemset giai đoạn thứ k Confidence Độ tin cậy luật kết hợ CSDL Cơ sở liệu DM Data Mining – Khai thác liệu DW Data WareHouse – Kho liệu Frequent/large itemset Một itemset có độ hỗ trợ (support) ID Identifier Item Một phần tử itemset Itemset Tập item K-Itemset Một Itemset có độ dài k Lk Tập Large itemset giai đoạn thứ k ODM Oracle Data Mining – Công cụ khai thác liệu TID Unique Transaction Identifier Transaction Giao dịch SQL Ngôn ngữ truy vấn liệu SQL Developer Công cụ khai thác liệu Oracle 39 tập liệu Trích chọn đặc trƣng Mô hình trích chọn đặc Non-Negative Feature Extraction trƣng tạo tập liệu tối ƣu Factorization Matric làm sở cho mô hình 3.4 DBMS_Data_Mining Phƣơng pháp phát triển cho khai thác liệu dùng giao diện DBMS_DATA_MINING đƣợc chia thành hai pha Pha bao gồm việc phân tích thiết kế liệu ứng dụng, thực hai bƣớc sau: Phân tích toán, lựa chọn hàm khai thác thuật toán khai thác Phân tích liệu đƣợc dùng cho xây dựng mô hình khai thác (build data), kiểm thử mô hình dự đoán (test data), sử dụng liệu mô hình (scoring data) Pha thứ hai bao gồm việc phát triển ứng dụng khai thác dùng packages DBMS_DATA_MINING DBMS_DATA_MINING_TRANSFORM Chuẩn bị liệu xây dựng, kiểm thử, áp dụng (build, test, scoring data) dùng package DBMS_DATA_MINING_TRANSFORM công cụ third-party dùng trực tiếp scripts SQL PL/SQL mẫu phù hợp với hàm thuật toán lựa chọn Việc quan trọng ba tập liệu nêu phải đƣợc chuẩn bị theo cách giống để việc khai thác kết có ý nghĩa Chuẩn bị bảng thiết lập tham số thay cho thiết đặt ngầm định thuật toán, chức khai thác Bƣớc tuỳ chọn Xây dựng mô hình khai thác cho tập liệu huấn luyện cho 10 Với mô hình dự đoán (phân lớp hồi qui), kiểm thử mô hình cho tính xác đo hiệu Việc áp dụng mô hình liệu kiểm thử 10 40 Lấy dấu hiệu mô hình để xác định thuộc tính khai thác đƣợc dùng với mô hình áp dụng Thông tin giúp biết chắn liệu khai thác phù hợp với mô hình cho bƣớc tuỳ chọn 11 Áp dụng mô hình phân lớp, hồi qui, phân nhóm, mô hình trích chọn đặc trƣng với liệu để sinh dự đoán và/hoặc tổng kết mô tả mẫu liệu 12 Lấy chi tiết mô hình để hiểu đƣợc mô hình mô hình cho liệu mẫu cụ thể, bƣớc tuỳ chọn 13 Lặp lại bƣớc đến bƣớc 9, đến ta thu đƣợc kết vừa ý 3.5 Mục tiêu khai thác thông tin CSDL giao dịch Tại hầu hết đơn vị, tổ chức có áp dụng công nghệ thông tin vào quản lý nay, ứng dụng dừng lại mức độ ứng dụng tác nghiệp thông thƣờng với chức hỗ trợ đƣa thông tin vào kết xuất báo cáo đầu Những ứng dụng hỗ trợ cao cho phân tích, hỗ trợ định chƣa nhiều Tuy nhiên với xu hƣớng phát triển tại, chắn cần đến ứng dụng khai thác tri thức tiềm ẩn CSDL Hiện nay, ngành Siêu thị thực mạnh mẽ ứng dụng Công Nghệ Thông Tin cải tiến dịch vụ bán hàng, tăng doanh số, để cạnh tranh trƣớc đối thủ ngày nhảy vào lĩnh vực bán lẽ này:  Công tác tuyên truyền, hỗ trợ cung cấp dịch vụ phục vụ cho Khách hàng  Công tác khuyến mãi, hậu mãi, v.v Khai thác liệu tốt có tác dụng hỗ trợ công tác tuyên truyền hỗ trợ khách hàng: Phân tích liệu, tìm đƣợc kết giúp định hƣớng việc hỗ trợ, tuyên truyền, giúp xác định mặt hàng nên đầu tƣ chiến lƣợc, sếp hàng hóa để kích thích lòng tham khách hàng, đẩy mạnh cải tiến dịch vụ chăm sóc khách hàng Một vấn đề ngành bán lẽ, hạn chế phiền hà cho khách hàng lựa chọn hàng hóa, nhƣ toán Muốn vậy, cần phải có đánh giá, dự báo 41 Mặc dù chƣa có ứng dụng khai thác liệu nào, nhƣng qua số thông tin học hỏi từ siêu thị cung cấp báo cáo tài liên quan, để làm sở xem xét, phân tích, nhƣ bảng cân đối kế toán, Báo cáo kết hoạt động kinh doanh, Báo cáo lƣu chuyển tiền tệ trực tiếp/gián tiếp… Từ báo cáo này, kết hợp với số liệu từ siêu thị Ứng dụng dừng mức đƣa báo cáo liệt kê tiêu phân tích (phân tích tiêu cách riêng lẻ), dựa vào để nhà quản lý xem xét định Với tìm hiểu trên, thấy nhiều kiểu khai thác liệu áp dụng đƣợc để đáp ứng yêu cầu giúp nâng cao hiệu công tác bán hàng chăm sóc khách hàng ngành bán lẽ Tuy nhiên khuôn khổ Luận văn, chức khai thác đƣợc chọn để khai thác thử nghiệm CSDL siêu thị, là:  Khai thác luật kết hợp: Với mong muốn tri thức phát giúp ích cho việc tăng doing số bán hàng cải tiến dịch vụ chăm sóc khách hàng 42 CHƢƠNG 4: THỰC NGHIỆM KHAI THÁC LUẬT KẾT HỢP SỬ DỤNG ORACLE 4.1 Thực nghiệm sở liệu giao dịch CSDL giao dịch quản lý tất giao dịch khách hàng đến mua hàng Siêu thị Một giao dịch có nhiều mặt hàng Ví dụ với liệu thông tin mặt hàng bán chạy nhất, hay khách hàng mua sản phẩm hay kèm theo mua sản phẩm B quản lý biết nhƣng chƣa có đánh giá cụ thể.Công việc khai thác liệu nói chung tổng kết theo nhiệm vụ chính: Xác định mục tiêu lựa chọn liệu, Chuẩn bị liệu, Khai thác liệu, Phân tích kết quản trị tri thức Trong nhiệm vụ việc chuẩn bị liệu nhiều công sức Có thể thấy minh hoạ hình 3.1 Công sức dành cho viêc chuẩn bị liệu để khai thác CSDL tác nghiệp thực khó khăn nhiều so với thực liệu giả định Hình 4.1 Công sức cần cho giai đoạn khai thác liệu Sử dụng ODM để khai thác luật kết hợp gồm bƣớc chính: Chuẩn 43 bị liệu, xây dựng mô hình – bƣớc xác định frequent itemsets, lấy luật khai thác đƣợc Các bƣớc tiến hành thử nghiệm khai thác luật kết hợp CSDL giao dịch thực luận văn đƣợc tiến hành theo quy trình sau: Hình 4.2 Các bƣớc khai thác luật kết hợp CSDL giao dịch Khi đặt tham số cho mô hình khai thác luật kết hợp cao với liệu, kết không thu đƣợc luật Khi thực điều chỉnh tham số mô hình Trƣờng hợp thay đổi tham số không hiệu quả, phải xem xét lại từ bƣớc tiền xử lý liệu Trƣờng hợp không loại bỏ items phổ biến tập liệu dẫn đến kết khai thác không nhƣ mong muốn Hoặc xem xét lại cách xử lý với liệu thiếu Cũng phải xem xét lại liệu lựa chọn cho khai thác chƣa Thử nghiệm khai thác luật kết hợp đƣợc thực theo bƣớc nêu dƣới kết cuối Các mã lệnh tƣơng ứng đƣợc trình bày phần phụ lục 44 Nhƣ nêu mục 3.3, toán khai thác luật kết hợp phù hợp cho việc phát tri thức phục vụ cho công tác tuyên truyền, hỗ trợ cho nhà quản lý, dự báo, đƣa định kinh doanh hiệu để tăng doanh số bán hàng, dịch vụ chăm sóc khách hàng trƣớc cạnh tranh đối thủ Dƣới khai thác thử nghiệm phát mối liên hệ mặt hàng, đối tƣợng khách hàng mua sắm 4.2 Xác định nội dung khai thác: Nhằm xác định mặt hàng bán chạy nhất, nhƣ mặt hàng bán kèm theo, khách hàng mua sắm, dựa vào thông tin, nhu cầu tiêu dùng, sở thích… Dữ liệu CSDL giao dịch:  TRANS_ID  ITEM_ID Dữ liệu đầu vào Hình 4.3 CSDL giao dịch 45 Hình 4.4 Sơ đồ kết nối liệu trƣớc khai thác luật Hình 4.5 Các luật khai thác từ ODM (độ dài luật = 2) Hình 4.6 Kết phân lớp thuật toán mô hình tuyến tính tổng quát 46 Hình 4.7 Kết phân lớp thuật toán máy hỗ trợ véc tơ Hình 4.8 Kết phân lớp định Hình 4.9 Kết phân lớp thuật toán Navie bayes 47 Hình 4.10 Kết so sánh thuật toán phân lớp - Nhìn vào hình ta thấy thuật toán máy hỗ trợ véc tơ có độ 47.765, thuật toán Navie Bayes có độ tin cậy 48.873, thuật toán mô hình tuyến tính tổng quát có độ tin cậy 46.4227 Còn thuật toán định có độ tin cậy 59.5099 qua ta thấy thuật toán Cây định có độ tin cậy cao - Những luật khai thác đƣợc lƣu trữ bảng Out_put, đƣợc hiển thị qua xem trực tiếp công cụ Oracle SQL Developer Dữ liệu thực, giao dịch siêu thị Số giao dịch 11 11 11 11 12 12 12 12 13 13 13 13 14 14 14 14 15 15 15 Sản phẩm Sữa Đường Mắm Cafe Sữa Đường Cafe Muối Đường Mắm Cafe Muối Sữa Đường Mắm Cafe Đường Cafe Muối 48 Từ liệu thực đƣa vào, sử dụng công cụ khai thác luật Oracle ta đƣợc luật nhƣ hình sau Hình 4.11 Luật kết hợp khai thác đƣợc với độ hỗ trợ = 0.5 Để lấy liệu luật sử dụng cho ứng dụng thực tế, vào Data Miner tạo bảng Output từ công cụ khai thác liệu, sau ta kết nối biểu tƣợng khai thác luật kết hợp Tiếp theo click chuột phải vào bảng Output_6_4 chọn Run sau chay xong luật đƣợc lƣu vào bảng Output_6_4 Tiếp theo ta vào biểu tƣợng Connections -> Dmuser->Tables chọn bảng Output_6_4, kích chuột phải vào bảng Output_6_4 chọn Export, chọn đƣờng dẫn để lƣu Dữ liệu xuất đƣợc có dạng tệp có đuôi sql Ngoài ta xem trực công cụ Oracle SQL Developer cách dung lệnh SQL sau: Select * from Output_6_4 Khi có luật khai thác đƣợc áp dụng vào thực tiễn ứng dụng để khám phá tri thức 49 Hình 4.12 Hiển thị luật kết hợp CSDL thực Luật khai thác đƣợc mở dƣới dạng text Hình 4.13 Lƣu luật kết hợp khai thác đƣợc lƣu tệp 50 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 5.1 Kết luận Với nội dung Nghiên cứu áp dụng số kỹ thuật khai thác liệu sử dụng Oracle CSDL giao dịch, luận văn bƣớc khởi đầu tìm hiểu toán khai thác liệu, tìm hiểu vấn đề cần quan tâm khai thác liệu để từ đƣa vào áp dụng thực tế Trong khuôn khổ luận văn chƣa thể thử nghiệm khai thác, áp dụng nhiều kỹ thuật khai thác Luận văn dừng lại mức áp dụng chủ yếu khai thác luật kết hợp kỹ thuật phân lớp Mặc dù kết khai thác chƣa mang nhiều ý nghĩa thực tế nhƣng đem lại ý nghĩa ban đầu việc áp dụng kỹ thuật khai thác để phát tri thức từ CSDL Những kết mà luận văn đạt đƣợc: Tìm hiểu chức kỹ thuật khai thác liệu sử dụng Oracle Nắm đƣợc trƣờng hợp áp dụng Do điều kiện thời gian chƣa cho phép sâu nghiên cứu kỹ tất kỹ thuật khai thác liệu, luận văn tập trung tìm hiểu chi tiết chức khai thác luật kết hợp Nắm đƣợc thuật toán, công cụ Oracle để khai thác luật kết hợp, phân lớp, phân nhóm Áp dụng thử nghiệm sử dụng Oracle khai thác liệu Siêu thị Qua có đƣợc kinh nghiệm ban đầu khai thác tri thức liệu thực: Công việc chuẩn bị liệu công việc quan trọng nhiều thời gian Thƣờng liệu thực có vấn đề phải xử lý nhƣ liệu thiếu, chí CSDL thiểu hẳn thông tin quan trọng cần cho khai thác Việc kết hợp với chuyên gia phân tích quan trọng để xác định đƣợc thuộc tính dự báo nhƣ đƣa yêu cầu cần thiết thuộc tính đích xác định ngƣỡng giá trị quan trọng 51 5.2 Hƣớng phát triển Tìm hiểu, nghiên cứu rộng khai thác luật kết hợp sử dụng Oracle, tập luật kết hợp khai thác đƣợc lấy từ công cụ Oracle SQL Developer đƣợc trích lọc dễ nhìn, áp dụng vào đƣợc thực tiễn Thử nghiệm đánh giá kỹ thuật toán liệu lớn Khai thác liệu kho liệu với luật kết hợp đa chiều Các hƣớng hiệu chỉnh số liệu Tìm hiểu xem Oracle có công cụ hỗ trợ hiển thị kết dạng hình vẽ đồ hoạ, đồ thị hình trụ, hình biểu diễn dạng phần trăm luật kết hợp Sử dụng luật khai thác đƣợc từ Oracle áp dụng vào ứng dụng thực tế để khám phá tri thức liệu lớn 52 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Trƣơng Ngọc Châu, Phan Văn Dũng (2002), Nghiên cứu tính ứng dụng khai thác luật kết hợp Cơ sở liệu giao dịch, Trƣờng Đại Học Bách Khoa, Đại Học Đà Nẵng [2 ] Nguyễn n Nhân (2001), Khai thác liệu phát luật kết hợp Cơ sở liệu lớn, Luận văn thạc sĩ ngành Công nghệ Thông tin, Trƣờng đại học Bách khoa Hà Nội [3] Nguyễn Lƣơng Thục (2002), Một số phương pháp khai thác luật kết hợp cài đặt thử nghiệm, Luận văn thạc sĩ ngành Công nghệ Thông tin, Trƣờng đại học Bách khoa Hà Nội Tiếng Anh [4] A Savasere, E Omiecinski, S Navathe (2011), An Efficient, Algorithm for Mining Association Rules in Large Databases, College of Computing Georgia Institute of Technology - Atlanta [5] Wei-Yin Loh (2011), Classification and regression trees [6] Brian Pottle (2012), Oracle Database 11g:Data Mining Techniques Notes, Oracle [7] J Han, M Kamber (2010), Data mining: Concepts and Techniques, Morgan Kaufmann Publishers 53 [8] Jyothsna R Nayak and Diane J Cook (2012), Approximate Association Rule Mining, Department of Computer Science and Engineering, Arlington [9] M Kantardzic (2011), Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons [10] M.-S Chen, J Han, P.S Yu (2011), Data Mining: An Overview from Database Perspective, Natural Sciences and Engineering Research Council of Canada [11] Oracle (2013), Oracle Data Mining Concepts 11g Release (11.2), Oracle Corporation [12] Shraddha Masih, Sanjay Tanwani (2014), Data Mining Techniques in Parallel and Distributed Environment- A Comprehensive Survey, School of Computer Science & IT, DAVV, Indore, India [13] Rakesh Agrawal, Tomasz Imielinski, Arun Swami (2014), Mining Association Rules between Sets of Items in Large Databases, IBM Almaden Research Center [14] K Bhardwaj (2014), Database Management Ghasidas University Systems, Guru [...]... giám sát Chƣơng 3 – Khai thác luật kết hợp sử dụng Oracle Chƣơng 4 – Thực nghiệm khai thác luật kết hợp sử dụng Oracle. Bao gồm môi trƣờng thực nghiệm, cơ sở dữ liệu thực nghiêm, đánh giá các kết quả thu đƣợc Chƣơng 5: Trình bày các kết quả đạt đƣợc của luận văn, nhận xét ƣu khuyết điểm và hƣớng phát triển của đề tài 4 CHƢƠNG 1: KHAI THÁC DỮ LIỆU 1.1 Tổng quan khai thác dữ liệu Khai thác dữ liệu có nguồn... đích nghiên cứu một số phƣơng pháp khai thác dữ liệu và thử nghiệm khai thác trên CSDL giao dịch, luận văn đƣợc trình bày với các phần sau: Chƣơng 1 – Khai thác dữ liệu: Tìm hiểu các chức năng khai thác dữ liệu Chƣơng 2 – Một số thuật toán khai thác dữ liệu của Oracle Nghiên cứu khai thác luật kết hợp trên Oracle: Khai thác luật kết hợp - một kỹ thuật thông dụng trong học không giám sát Phân lớp bằng... đạc các mẫu khai thác đƣợc 5 Triển khai và tích hợp các mẫu khai thác vào thực tiễn 1.3 Dữ liệu Do có nhiều kiểu dữ liệu, các CSDL sử dụng trong các ứng dụng cũng khác nhau, nên ngƣời dùng luôn mong đợi một hệ thống khai thác dữ liệu có thể điều khiển đƣợc tất cả các loại dữ liệu Thực tế CSDL có sẵn thƣờng là CSDL quan hệ và hệ thống khai thác dữ liệu cũng thực hiện hiệu quả việc khai thác tri thức... 44 Hình 4.4 Sơ đồ kết nối trong Oracle trƣớc khi khai thác dữ liệu 45 Hình 4.5 Các luật khai thác từ ODM (độ dài luật = 2) 45 Hình 4.6 Kết quả phân lớp bằng mô hình tuyến tính 45 Hình 4.7 Kết quả phân lớp bằng máy hỗ trợ véc tơ 46 Hình 4.8 Kết quả phân lớp bằng cây quyết định 46 Hình 4.9 Kết quả phân lớp bằng Navie Bayes 46 Hình 4.10 So sánh kết quả giữa các thuật... 46 Hình 4.9 Kết quả phân lớp bằng Navie Bayes 46 Hình 4.10 So sánh kết quả giữa các thuật toán phân lớp 47 Hình 4.11 Kết quả luật kết hợp có độ hỗ trợ bằng 0.5 48 Hình 4.12 Hiển thị luật kết hợp của CSDL thực 49 Hình 4.13 Lƣu luật kết hợp khai thác đƣợc ra tệp 49 1 MỞ ĐẦU Thời đại phát triển mạnh của Internet, Intranet, Data Warehouse, cùng với sự phát triển nhanh về công... ra những đặc trƣng hữu dụng, giảm bớt các chiều hoặc các biến, biểu diễn lại các đại lƣợng bất biến - Lựa chọn chức năng khai thác dữ liệu: Tổng kết, phân lớp, Hồi qui, kết hợp, phân nhóm - Lựa chọn thuật toán khai thác - Thực hiện khai thác dữ liệu (Data Mining): Tìm kiếm các mẫu quan tâm - Đánh giá các mẫu và biểu diễn tri thức 6 Hình 1.1 Quá trình khám phá tri thức [7] 3 Áp dụng khám phá tri thức... hoạt động khai thác dữ liệu vào một trong hai loại sau: - Khai thác dự liệu dự báo: tạo ra mô hình của hệ thống đƣợc mô tả bởi tập dữ liệu cho trƣớc, hoặc - Khai thác dữ liệu mô tả: với việc tạo ra thông tin mới, không tầm thƣờng dựa trên tập dữ liệu có sẵn Một số chức năng khai thác dữ liệu chính nhƣ: - Mô tả khái niệm: Mô tả đặc điểm và phân biệt Tìm ra các đặc điểm khái quát hoá, tổng kết, các đặc... chứng minh chính thức [9] Có thể có định nghĩa về khai thác dữ liệu nhƣ sau: Khai thác dữ liệu là quá trình phát hiện các mô hình, các tổng kết khác nhau và các giá trị đƣợc lấy từ tập dữ liệu cho trƣớc [9] Hay, khai thác dữ liệu là sự thăm dò và phân tích lƣợng dữ liệu lớn để khám phá từ dữ liệu ra các mẫu hợp lệ, mới lạ, có ích và có thể hiểu đƣợc [14] Hợp lệ là các mẫu đảm bảo tính tổng quát, mới lạ... là khai thác dữ liệu (data mining) [9] Khai thác dữ liệu là sự tìm kiếm thông tin mới, có giá trị và không tầm thƣờng trong một khối lƣợng dữ liệu lớn Nó là sự phối hợp nỗ lực của con ngƣời và máy tính Các kết quả tốt nhất nhận đƣợc bằng việc cân bằng giữa tri thức của các chuyên gia con ngƣời trong việc mô tả các vấn đề và mục đích với khả năng tìm kiếm của máy tính 2 Hai mục đích chính của khai thác. .. định ban đầu và tập con các trƣờng hợp cho CSDL trong bảng 2.1 19 Hình 2.4 Cây quyết định cuối cùng cho CSDL T đã nêu trong bảng 2.1 20 Hình 2.5 Hồi qui tuyến tính 22 Hình 2.6 Gộp nhóm theo phƣơng pháp K-Means (điểm đánh dấu + là tâm) 26 Hình 4.1 Công sức cần cho mỗi giai đoạn khai thác dữ liệu 42 Hình 4.2 Các bƣớc khai thác luật kết hợp trên CSDLgiao dịch 43 Hình 4.3

Ngày đăng: 17/11/2016, 16:51

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan