1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM HIỂU KHAI PHÁ DỮ LIỆU-KHO DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU ORACLE

29 382 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 1,48 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU TÌM HIỂU KHAI PHÁ DỮ LIỆU-KHO DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU ORACLE Người thực hiện: Nguyễn Đạt Tiến Mã số: CH1102018 Giảng viên phụ trách: PGS.TS. Đỗ Phúc Hà Nội, tháng 11 năm 2012 MỤC LỤC BẢNG KÝ HIỆU CÁC TỪ VIẾT TẮT 5 LỜI MỞ ĐẦU 6 Tiềm năng phát sinh và thu thập dữ liệu trong vòng vài thập kỷ qua đã tăng một cách nhanh chóng. Xu hướng máy tính hóa các doanh nghiệp, các tổ chức, các giao dịch chính phủ cùng với sự phát triển của các công cụ thu thập dữ liệu như dử dụng mã vạch, máy quét văn bản, hình ảnh đến các thiết bị quan sát vệ tinh từ xa, sử dụng rộng rãi world wide web đã làm thế giới ngập trong hàng núi dữ liệu. Qua rất nhiều năm, dữ liệu đang bị chôn vùi vào lịch sử. Có thể nói chúng ta đang rất giàu thông tin nhưng vẫn nghèo thông tin bởi vì chưa có các công cụ phân tích tự động và hữu hiệu hỗ trợ con người nhận thức được dữ liệu. Lỗ hổng giữa dữ liệu và thông tin đã thúc đẩy sự phát triển công nghệ mới trợ giúp thông minh biến dữ liệu thành tri thức và thông tin có ích, đó là công cụ khai phá dữ liệu. Với công cụ này sẽ làm cho dữ liệu chết trở thành mỏ vàng tri thức. Việc khai phá và tìm kiếm tri thức tiềm tàng từ khối lượng dữ liệu khổng lồ đã có nhằm phục vụ cho những nhu cầu sử dụng thông tin cao hơn như trong các hệ chuyên gia hay hỗ trợ quyết định. Công đoạn khai phá tri thức được thực hiện qua các quá trình thu thập, tinh lọc dữ liệu để tìm các mẫu hình tri thức có ý nghĩa sử dụng rất nhiều kỹ thuật như học máy, nhận dạng, thống kê, phân loại, mạng nơ-ron (neural network), các giải thuật di truyền, quy nạp luật 6 CHƯƠNG I 8 PHÁT TRIỂN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 8 1.1.Tổng quan khai phá dữ liệu 8 1.2.Tiền xử lý dữ liệu cho khai phá 9 1.3.Các thể hiện, biểu diễn kết quả khai phá 10 1.4.Kiến trúc cơ bản hệ thống khai phá dữ liệu 10 CHƯƠNG II 11 CÁC CHỨC NĂNG CƠ BẢN KHAI PHÁ DỮ LIỆU 11 2.1.Khai phá luật kết hợp 11 2.2.Phân lớp 13 3 2.3.Khai phá dữ liệu với gộp nhóm 17 Khó khăn với các trọng số các độ đo 19 Nhạy cảm với các tham số ban đầu (Số lớp K) 19 CHƯƠNG III 20 CÔNG CỤ KHAI PHÁ DỮ LIỆU ODM 20 Oracle 9i Data mining (ODM) được nhúng trong CSDL Oracle 9i hỗ trợ người phát triển ứng dụng tích hợp khai phá dữ liệu với các ứng dụng CSDL trong môi trường Oracle 9i 20 3.1.Các thuật toán ODM khai phá dữ liệu 20 3.2.Các bước khai phá dữ liệu 21 3.3.Các thành phần của ODM 22 3.4.Thực hiện các bước khai phá dữ liệu trong ODM 22 CHƯƠNG IV 24 SỬ DỤNG ODM KHAI PHÁ DỮ LIỆU 24 4.1.Một số định hướng khai phá dữ liệu 24 4.2.Xây dựng các công cụ hỗ trợ 26 4.3.Tiến hành một số thử nghiệm khai phá dữ liệu 27 KẾT LUẬN 29 Trong khuôn khổ của tiểu luận chưa có điều kiện để nghiên cứu, tìm hiểu được đầy đủ các định hướng khi phá trên các dữ liệu thật và đưa ra kết quả cụ thể. Tiểu luận mới chỉ khai phá được một phần lý thuyết và tìm hiểu một số mô hình thuật toán khai phá tri thức trong các CSDL Oracle như khai phá luật kết hợp trong các giao dịch bán lẻ, sản phẩm BHNT, phân loại, gộp nhóm khách hàng. Các kết quả này chưa mang nhiều ý nghĩa thực tế, nhưng có thể đánh giá được về mặt thời gian và dự ổn định của các mô hình và thuật toán 29 Kết quả đạt được: 29 Và một số định hướng phát triển chính: 29 TÀI LIỆU THAM KHẢO 30 4 BẢNG KÝ HIỆU CÁC TỪ VIẾT TẮT Từ Tiếng Anh Tiếng Việt CSDL Database Cơ sở dữ liệu KDD Knowledge Data Discovery Phát hiện tri thức dữ liệu DM Data Mining Khai phá dữ liệu ODM Oracle Data Mining Công cụ khai phá dữ liệu DMS Data Mining Server Máy chủ khai phá dữ liệu 5 LỜI MỞ ĐẦU Tiềm năng phát sinh và thu thập dữ liệu trong vòng vài thập kỷ qua đã tăng một cách nhanh chóng. Xu hướng máy tính hóa các doanh nghiệp, các tổ chức, các giao dịch chính phủ cùng với sự phát triển của các công cụ thu thập dữ liệu như dử dụng mã vạch, máy quét văn bản, hình ảnh đến các thiết bị quan sát vệ tinh từ xa, sử dụng rộng rãi world wide web đã làm thế giới ngập trong hàng núi dữ liệu. Qua rất nhiều năm, dữ liệu đang bị chôn vùi vào lịch sử. Có thể nói chúng ta đang rất giàu thông tin nhưng vẫn nghèo thông tin bởi vì chưa có các công cụ phân tích tự động và hữu hiệu hỗ trợ con người nhận thức được dữ liệu. Lỗ hổng giữa dữ liệu và thông tin đã thúc đẩy sự phát triển công nghệ mới trợ giúp thông minh biến dữ liệu thành tri thức và thông tin có ích, đó là công cụ khai phá dữ liệu. Với công cụ này sẽ làm cho dữ liệu chết trở thành mỏ vàng tri thức. Việc khai phá và tìm kiếm tri thức tiềm tàng từ khối lượng dữ liệu khổng lồ đã có nhằm phục vụ cho những nhu cầu sử dụng thông tin cao hơn như trong các hệ chuyên gia hay hỗ trợ quyết định. Công đoạn khai phá tri thức được thực hiện qua các quá trình thu thập, tinh lọc dữ liệu để tìm các mẫu hình tri thức có ý nghĩa sử dụng rất nhiều kỹ thuật như học máy, nhận dạng, thống kê, phân loại, mạng nơ-ron (neural network), các giải thuật di truyền, quy nạp luật Tiểu luận này tập trung giới thiệu, đánh giá một số công nghệ, phương pháp cơ bản khai phá dữ liệu trong các cơ sở dữ liệu lớn và kho dữ liệu. Trên cơ sở đó, sử dụng và đánh giá được các công cụ hỗ trợ khai phá dữ liệu Oracle. Đó là nền tảng cơ bản hướng tới thử nghiệm khai phá dữ liệu trong một số kho dữ liệu thực với hy vọng thu nhận được các mô hình và quy luật có ý nghĩa và giá trị cao. Một động cơ thúc đẩy việc thử nghiệm khai phá dữ liệu là muốn xem xét, đánh giá việc xây dựng thiết kế của các hệ CSDL tác nghiệp và kho dữ liệu sao cho tích lũy những dữ liệu có tri thức cao. Tiểu luận bao gồm 4 chương: Chương I: Giới thiệu tổng quan các khái niệm cơ bản, xu hướng phát triển tất yếu các thách thức và các giải pháp của khai phá dữ liệu. Các bước tiến hành, các nhiệm vụ và các phương pháp được liệt kê trong chương này hỗ trợ các kiến thức cơ bản cho công cuộc khai phá tri thức từ CSDL và kho dữ liệu. 6 Chương II. Giới thiệu các chức năng, thuật toán của công cụ khai phá dữ liệu. Trên cơ sở đó so sánh đánh giá để gợi ý các lựa chọn hướng đi, công cụ và kỹ thuật khi tiến hành khai phá dữ liệu. Chương này nhằm mô tả một bức tranh tổng thể cách tiếp cận các phương pháp theo góc độ đơn giản hóa tối đa và tăng tính thực thi cho giải pháp khai phá dữ liệu. Nội dung chương này sẽ là cơ sở nền tảng kỹ thuật để cài đặt các công cụ và thực thi khai phá dữ liệu. Đó là các mô tả thuật toán, kỹ thuật cải thiện hiệu năng, đánh giá so sánh các nhiệm vụ khai phá dữ liệu như luật kết hợp, phân lớp, gộp nhóm với các thuật toán dựa trên các phương pháp xác suất, thống kê, mạng nơron Chương III: Giới thiệu và đánh giá cách sử dụng ODM-công cụ hỗ trợ khai phá dữ liệu của oracle được tích hợp trong hệ quản trị CSDL Oracle 9i. Một số nhiệm vụ và chức năng trong ODM đã được cải tiến từ các phương pháp cơ bản khai phá dữ liệu. ODM đã cung cấp giao diện lập trình ứng dụng như các đối tượng, packages cho phép thực hiện khai phá dữ liệu trong CSDL Oracle. Các giao diện API được viết và thực thi trên nền Java. Chương này cũng mô tả trình tự thực hiện các bước sử dụng ODM thực hiện khai phá dữ liệu. Chương IV; Trên cơ sở sử dụng công cụ ODM, xây dựng một số giao diện trợ giúp người dùng khai phá dữ liệu trên CSDL Oracle. Chương này cũng đề cập một số nhu cầu khai phá dữ liệu trên kho dữ liệu ngành bảo hiểm và thuế dựa trên một số tri thức nghiệp vụ khi tham gia xây dựng ứng dụng tác nghiệp cho các ngành này. Mô tả tiến hành thử nghiệm khai phá trên một số dữ liệu giả định và dữ liệu của các lĩnh vực bảo hiểm và thuế. Việc áp dụng có tính chất thử nghiệm theo khía cạnh kỹ thuật và hiểu biết nghiệp vụ tích lũy được trong quá trình triển khai ứng dụng. Tuy nhiên, để có được các kết quả thật sự có giá trị đòi hỏi cần có sự đầu tư, tham gia trực tiếp của chính các chuyên gia chuyên ngành Em xin chân thành cảm ơn Phó giáo sư-Tiến sĩ Đỗ Nhơn và các bạn cùng lớp đã có nhiều ý kiến quý báu giúp em hoàn thành tiểu luận này. 7 CHƯƠNG I PHÁT TRIỂN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1. Tổng quan khai phá dữ liệu 1. Khai phá dữ liệu là gì? - Các khái niệm dữ liệu, thông tin và tri thức. Quá trình tìm những thông tin có giá trị, những xu hướng phát triển và những yếu tố tác động lên chúng chính là quá trình phát hiện tri thức từ CSDL (Knowledge Discovery). Khai phá dữ liệu là một tập các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập dữ liệu rất lớn và phức tạp, tìm ra những mẫu tiềm ẩn trong tập dữ liệu đó. 2. Tiến trình phát triển – tại sao ? Khai phá dữ liệu được xem như là xu hướng tất yếu của ngành công nghệ thông tin với tiến trình phát triển : tạo lập, thu thập dữ liệu, quản trị dữ liệu (lưu trữ và truy cập), phân tích và hiểu biết dữ liệu. 3. Các chức năng khai phá dữ liệu a. Phân tích kết hợp Chức năng khai phá luật kết hợp nhằm phát hiện các luật kết hợp, chỉ ra các điều kiện một tập hợp dữ liệu xuất hiện cùng nhau. b. Phân lớp và dự báo Phân lớp là quá trình tìm một tập hợp các mô hình (hoặc các hàm mô tả phân biết các lớp dữ liệu và sử dụng mô hình để dự báo lớp cho các đối tượng mới. Hàm phân lớp là một ánh xạ từ một mẫu dữ liệu vào một trong các lớp đã biết. 8 c. Phân tích gộp nhóm Phân tích gộp nhóm là quá trình xác định lớp (chưa biết trước) cho các đối tượng theo thuộc tính của chúng. Các đối tượng được gộp nhóm sao cho các phần tử trong cùng nhóm là giống nhau nhất (theo một tiêu chuẩn nào đó), các phần tử khác nhóm giống nhau ít nhất. 4. Khai phá dữ liệu trên các loại dữ liệu nào ? Nêu đặc trưng và khả năng áp dụng khai phá dữ liệu trên các loại dữ liệu như CSDL quan hệ, kho dữ liệu, CSDL không gian, dữ liệu văn bản, website… Các CSDL quan hệ là một trong những kho chứa phổ biến, giàu thông tin nhất và là dạng dữ liệu chủ yếu để nghiên cứu khai phá dữ liệu. Kho dữ liệu là môi trường tốt nhất cho khai phá dữ liệu hoạt động hiệu quả. 5. Quá trình phá triển tri thức – KDD Bước 1 : Nhận thức lĩnh vực ứng dụng. Bước 2 : Tập hợp và tiền xử lý dữ liệu Bước 3 : Khai phá dữ liệu : Chọn mục đích: phân lớp, luật kết hợp, gộp nhóm… Chọn phương pháp: Mạng nơron, cây quyết định… Bước 4 : Hậu xử lý : Diễn giải tri thức khám phá được. 6. Các thách thức và giải pháp cơ bản Nêu một số thách thức và giải pháp khắc phục, với thách thức cơ bản là khối lượng lớn dữ liệu lớn và tận dụng các giải pháp xử lý song song. 1.2. Tiền xử lý dữ liệu cho khai phá 9 1.3. Các thể hiện, biểu diễn kết quả khai phá. Để việc khai phá dữ liệu có hiệu quả hệ thống DM phải cho khả năng thể hiện được các kết quả mẫu khai phá được theo nhiều dạng như : các luật, các bảng, các sơ đồ dạng bar, piece, cây quyết định… 1.4. Kiến trúc cơ bản hệ thống khai phá dữ liệu 10 CHƯƠNG II CÁC CHỨC NĂNG CƠ BẢN KHAI PHÁ DỮ LIỆU 2.1. Khai phá luật kết hợp 2.1.1 Các khái niệm luật kết hợp Cho I={i 1 ,i 2 , ,i m } là tập các item. D là tập các giao dịch, mỗi giao dịch T là một tập các item, có nghĩa T⊆I. Ta nói transaction T chứa X, một tập con của I nếu X⊆I. Một luật kết hợp có dạng X⇒Y với X⊂I, Y⊂I, X∩Y=∅ Luật X⇒Y có độ hỗ trợ (support) S nếu có s% transaction của D chứa X∪Y. S(X⇒Y)= P(X∪Y) (II.1.1) Luật X⇒Y có độ tin cậy (confidence) C-nếu có c% giao dịch trong D nếu chứa X cũng chữ Y. C(X⇒Y)= X YXS YXP ∪ = ( )|( (II.1.2) Các luật thỏa mãn ngưỡng hỗ trợ tối thiểu (minsup) và ngưỡng tin cậy tối thiểu (minconf) được gọi là các luật mạnh. Một tập các itim có k phần tử được gọi là k_itemset. Ví dụ tập {A,B,C] được gọi là tập 3_itemset. Một tập thường xuyên itemset là số các giao dịch chứa tập itemset. Tập itemset thỏa mãn minsup nếu tập thường xuyên itemset lớn hơn ích của minsu và tổng số các giao dịch. Nếu tập item thỏa mãn minsup thì xem như là frequent itemset (tập thường xuyên) Khai phá luật kết hợp là tiến trình gồm hai bước sau : 1) Tìm tất cả các frequent itemset : tập này có độ hỗ trợ ≥ minsup. 11 [...]... thuật cơ bản trong khai phá dữ liệu - Xây dựng các công cụ, giao diện dễ dùng trợ giúp chuyên gia tiến hành khai phá dữ liệu trên nền CSDL Oracle 9i và sử dụng môi trường phát triển ứng dụng của Oracle - Phân tích một số định hướng khai phá dữ liệu cho các lĩnh vực thuế và bảo hiểm - Tiến hành khai phá trên một số dữ liệu thử nghiệm Và một số định hướng phát triển chính: - Tìm hiểu, nghiên cứu khai. .. của database mà ODM thường trú - Xác định dữ liệu xây dựng mô hình, dữ liệu phải trong Oracle9 i - Làm sạch dữ liệu, lựa chọn dữ liệu - Xác định hàm khai phá - Xác định thuật toán sử dụng 3.4.2 Xây dựng mô hình - Kết nối tới DMS - Khởi tạo dữ liệu xây dựng mô hình - Khởi tạo chức năng khai phá Mining Function Settings - Xây dựng mô hình 22 3.4.3 Ghi điểm dữ liệu bằng mô hình - Các bước chính ghi điểm... loại kiểu dữ liệu khác nhau - Phát hiện nhóm tự động dễ áp dụng b) Nhược điểm của phát hiện nhóm tự động - Khó khăn với các trọng số các độ đo - Nhạy cảm với các tham số ban đầu (Số lớp K) 19 CHƯƠNG III CÔNG CỤ KHAI PHÁ DỮ LIỆU ODM Oracle 9i Data mining (ODM) được nhúng trong CSDL Oracle 9i hỗ trợ người phát triển ứng dụng tích hợp khai phá dữ liệu với các ứng dụng CSDL trong môi trường Oracle 9i ODM... thức về lý thuyết cơ bản của khai phá dữ liệu để có thể vận dụng vào thực tiễn chính xác hơn - Hoàn thiện các công cụ hỗ trợ chuyên gia khai phá dữ liệu - Thử nghiệm và đánh giá kỹ hơn các thuật toán trên số liệu thật - Khai phá dữ liệu trên kho dữ liệu với các luật kết hợp đa chiều, nhiều mức - Có sự hợp tác với các nhà chuyên môn Cung cấp và trợ giúp các nhà chuyên môn, vì bản thân số liệu là nguôn tài... mua_sf); b Kết quả khai phá luật kết hợp trên bảng mua_sf_tx 28 KẾT LUẬN Trong khuôn khổ của tiểu luận chưa có điều kiện để nghiên cứu, tìm hiểu được đầy đủ các định hướng khi phá trên các dữ liệu thật và đưa ra kết quả cụ thể Tiểu luận mới chỉ khai phá được một phần lý thuyết và tìm hiểu một số mô hình thuật toán khai phá tri thức trong các CSDL Oracle như khai phá luật kết hợp trong các giao dịch... định nghĩa ánh xạ và các công thức chuyển đổi hoặc làm sạch dữ liệu như chuyển dạng, chuẩn hóa mã, các công thức số học tính toán giữa các trường, các hàm xoay cột thành hàng…từ các dữ liệu nguồn vào các bảng dữ liệu Oracle b Chuyển đổi dữ liệu về dạng có thể khai phá được Chuyển từ dạng quan hệ sang dạng giao dịch c Rời rạc hóa dữ liệu - Rời dữ liệu vào là bảng có các giá trị theo tên hoặc giá trị số... khoảng BIN_ID; Kết quả dữ liệu có giá trị các trường Bin_Id hoặc Group_Id d Biểu diễn kết quả thành các dạng dễ hiểu - Dữ liệu dạng cây: Sử dụng query phân cấp thể hiện kết quả ra - Dữ liệu dạng cây ABN trên hai bảng quan hệ 4.2.2 Xây dựng các giao diện hỗ trợ khai phá dữ liệu Sử dụng Oracle Form 6i xây dựng các giao diện thực hiện: 26 4.3 Tiến hành một số thử nghiệm khai phá dữ liệu 4.3.1 Mô tả các... CHƯƠNG IV SỬ DỤNG ODM KHAI PHÁ DỮ LIỆU 4.1 Một số định hướng khai phá dữ liệu 4.1.1 Hệ thống CSDL ngành Thuế Các loại số liệu Mục đích phân tích và đối tượng sử dụng số liệu Một số định hướng phân tích khai phá: - Phân loại các ĐTNT theo các loại hình, mức độ kinh doanh - Phân lớp các khách hàng nợ thuế, dự báo ác ĐTNT nợ thuế, trốn thuế - Phát hiện các nghi vấn về doanh thu, tờ khai, thuế - Dự báo... số liệu là nguôn tài sản quý giá của từng ngành Chỉ có các chuyên gia trong ngành mới có thể được sử dụng và khai phá dữ liệu với các phân tích có ý nghĩa 29 TÀI LIỆU THAM KHẢO 1 TS Đỗ Phúc, Giáo trình Khai thác dữ liệu, NXB Đại học Quốc gia Tp Hồ Chí Minh, 2006 2 TS Đỗ Thanh Nghị, Khai phá dữ liệu , Trường Đại học Cần Thơ, 2008 3 Oracle, “Data Mining Application Developer’s Guide”, B28131-01, 2008... Mua_sf 27 Mô tả một số giao diện thử nghiệm khai phá dữ liệu cho các chức năng sau: 4.3.2 Phân lớp - Xây dựng mô hình ABN - Kiểm thử mô hình ABN - Áp dụng mô hình ABN - Áp dụng mô hình NB 4.3.3 Luật kết hợp - Dữ liệu dạng giao dịch - Dữ liệu quan hệ 4.3.4 Gộp nhóm - Xây dựng mô hình - Áp dụng mô hình gộp nhóm 4.3.5 Khai phá luật kết hợp trong CSDL Bảo Việt a Đưa dữ liệu từ các bảng NT_Khách, Hợp đồng, Sản . HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN KHAI PHÁ DỮ LIỆU VÀ KHO DỮ LIỆU TÌM HIỂU KHAI PHÁ DỮ LIỆU-KHO DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU ORACLE Người thực hiện: Nguyễn Đạt Tiến Mã số: CH1102018 . phương pháp cơ bản khai phá dữ liệu trong các cơ sở dữ liệu lớn và kho dữ liệu. Trên cơ sở đó, sử dụng và đánh giá được các công cụ hỗ trợ khai phá dữ liệu Oracle. Đó là nền tảng cơ bản hướng. Data Mining Khai phá dữ liệu ODM Oracle Data Mining Công cụ khai phá dữ liệu DMS Data Mining Server Máy chủ khai phá dữ liệu 5 LỜI MỞ ĐẦU Tiềm năng phát sinh và thu thập dữ liệu trong vòng vài

Ngày đăng: 09/04/2015, 21:33

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w