Một số thuật toán khai phá luật quyết định trên cơ sở dữ liệu di động

71 243 0
Một số thuật toán khai phá luật quyết định trên cơ sở dữ liệu di động

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU HƢƠNG MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN CƠ SỞ DỮ LIỆU ĐỘNG LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN Hà Nội - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THU HƢƠNG MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN CƠ SỞ DỮ LIỆU ĐỘNG Ngành: Công Nghệ Thông Tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: GS. TS. VŨ ĐỨC THI Hà Nội - 2014 1 LỜI CẢM ƠN Trƣớc khi trình bày nội dung chính của luận văn, tôi xin bày tỏ lòng biết ơn sâu sắc tới GS.TS Vũ Đức Thi – thầy giáo trực tiếp hƣớng dẫn và chỉ bảo tôi hoàn thành luận văn này. Tôi cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy, cô giáo trong khoa Công nghệ Thông tin -Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội đã dạy bảo tôi tận tình trong suốt quá trình học tập tại khoa. Tôi cũng xin chân thành cảm ơn Thầy giáo NCS. Nguyễn Thanh Tùng, các anh em đồng nghiệp và gia đình đã giúp đỡ, tạo điều kiện cho tôi trong quá trình thực hiện và hoàn thành luận văn này. Học viên Nguyễn Thị Thu Hƣơng 2 LỜI CAM ĐOAN Tôi xin cam đoan luận văn này hoàn toàn do tôi thực hiện, không sao chép của ai. Các đoạn trích dẫn lý thuyết, các thuật toán đƣợc trình bày trong luận đều đƣợc dẫn nguồn và có độ chính xác cao nhất trong phạm vi tìm hiểu của tôi. Hà Nội, ngày 29 tháng 10 năm 2014 Học Viên Nguyễn Thị Thu Hƣơng 3 MỤC LỤC LỜI CẢM ƠN 1 LỜI CAM ĐOAN 2 MỤC LỤC 3 DANH MỤC CÁC KÝ HIỆU 5 DANH MỤC CÁC BẢNG 6 DANH MỤC CÁC HÌNH 7 MỞ ĐẦU 8 CHƢƠNG 1. CÁC KHÁI NIỆM CƠ BẢN 10 1.1. Khai phá dữ liệu là gì 10 1.2. Các khái niệm cơ bản của tập thô 12 1.2.1. Tập hợp 12 1.2.2. Hệ thống thông tin 13 1.2.3. Quan hệ bất khả phân 14 1.2.4. Tập xấp xỉ trên và xấp xỉ dƣới 15 1.2.5. Bảng quyết định 17 1.2.6. Luật quyết định 18 1.3. Khai phá luật quyết định dựa trên tập thô 20 1.4. Kết luận chƣơng 1 20 CHƢƠNG 2. THUẬT TOÁN TIẾP CẬN GIA TĂNG ĐỂ KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN CƠ SỞ DỮ LIỆU CÓ GIÁ TRỊ THUỘC TÍNH THAY ĐỔI 21 2.1. Định nghĩa về việc thay đổi giá trị thuộc tính 21 2.2. Mô hình tiếp cận gia tăng và thuật toán 22 2.2.1. Mô hình bài toán và kiến thức cơ sở tiếp cận thuật toán khi giá trị thuộc tính thay đổi 22 2.2.2. Thuật toán tiếp cận gia tăng khi làm thô, làm mịn các giá trị thuộc tính 27 2.2.3. Đánh giá độ phức tạp theo thời gian của thuật toán 32 2.2.4. Ví dụ minh họa 34 2.3. Kết luận chƣơng 2 36 4 CHƢƠNG 3. THUẬT TOÁN TIẾP CẬN GIA TĂNG ĐỂ KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN CƠ SỞ DỮ LIỆU CÓ CÁC ĐỐI TƢỢNG THAY ĐỔI 37 3.1. Thuật toán tính toán gia tăng ma trận độ chính xác và độ phủ 37 3.1.1. Mô hình tiếp cận gia tăng 37 3.1.2. Các tình huống thực hiện mô hình 40 3.1.3. Thuật toán 42 3.1.4. Độ phức tạp tính toán 45 3.1.5. Ví dụ minh họa 47 3.2. Thuật toán tính toán gia tăng ma trận độ hỗ trợ 52 3.2.1. Cơ sở tiếp cận thuật toán 52 3.2.2. Các tình huống thực hiện mô hình 52 3.2.3. Thuật toán 54 3.2.4. Độ phức tạp tính toán 57 3.2.5. Ví dụ minh họa 58 3.3. Đánh giá hai thuật toán 61 3.4. Cài đặt thuật toán tính toán gia tăng ma trận độ hỗ trợ 64 3.5. Kết luận chƣơng 3 67 KẾT LUẬN 68 TÀI LIỆU THAM KHẢO 69 5 DANH MỤC CÁC KÝ HIỆU Ký hiệu Ý nghĩa U Tập các đối tƣợng  Tập các thuộc tính  Tập thuộc tính điều kiện  Tập thuộc tính quyết định  B là tập thuộc tính con của A IND(B) Quan hệ bất khả phân trên U theo B [] () Các lớp tƣơng của  trong mối quan hệ IND(B)  Tập xấp xỉ dƣới của X theo B  Tập xấp xỉ dƣới của X theo B  Tập biên của X trên U theo B   Phân lớp điều kiện thứ i   Phân lớp tƣơng đƣơng quyết định thứ j (  ,   ) Độ hỗ trợ của luật quyết định C i → D j (  ,   ) Độ chính xác của luật quyết định C i → D j (  ,   ) Độ phủ của luật quyết định C i → D j   (, );   +1 (, ) Ma trận độ hỗ trợ thời điểm t và t+1 của các luật C i → D j   (, );  +1 (, ) Ma trận độ chính xác thời điểm t và t+1 của các luật C i → D j   (, );  +1 (, ) Ma trận độ độ phủ thời điểm t và t+1 của các luật C i → D j α Ngƣỡng của độ chính xác γ Ngƣỡng của độ phủ 6 DANH MỤC CÁC BẢNG Bảng 1.1: Ví dụ về một bảng thông tin 14 Bảng 1.2: Nhóm các đối tƣợng có bộ giá trị giống nhau 15 Bảng 1.3: Ví dụ về một bảng quyết định 17 Bảng 1.4: Bảng tính độ phủ, độ chính xác 19 Bảng 2.1: Bảng quyết định cho ví dụ minh họa 34 Bảng 2.2: Bảng trích rút các luật quan tâm 36 Bảng 3.1: Bảng phân loại thu nhập đầu ngƣời trƣởng thành ở cụm dân cƣ 47 Bảng 3.2: Kết quả độ chính xác và độ phủ thời điểm t+1- Thuật toán của Liu 51 Bảng 3.3: Kết quả tính độ chính xác, độ phủ các luật bằng thuật toán gia tăng ma trận độ hỗ trợ 61 7 DANH MỤC CÁC HÌNH Hình 1.1: Quá trình khái phá tri thức trong cơ sở dữ liệu 10 Hình 1.2: Mô hình thể hiện tập xấp xỉ trên và xấp xỉ dƣới của X 16 Hình 3.1: Tiến trình thêm/ bớt đối tƣợng khỏi hệ thống 38 Hình 3.2: Màn hình nhập dữ liệu 65 Hình 3.3: Màn hình chọn cơ sở dữ liệu 65 Hình 3.4: Màn hình hiển thị dữ liệu của cơ sở dữ liệu 66 Hình 3.5: Màn hình bổ sung/loại bỏ đối tƣợng 66 Hình 3.6: Màn hình hiển thị kết quả 67 8 MỞ ĐẦU Trong những năm gần đây, công nghệ thông tin phát triển mạnh mẽ và đi sâu vào nhiều lĩnh vực trong cuộc sống. Công nghệ thông tin phát triển đi kèm với sự gia tăng không ngừng của cơ sở dữ liệu và nhu cầu sử dụng dữ liệu hiệu quả cũng trở nên ngày càng thiết yếu. Do đó, khai phá dữ liệu đã trở thành lĩnh vực phát triển mạnh với nhiều phƣơng pháp tiếp cận khác nhau. Thời gian đầu, phƣơng pháp tiếp cận quy nạp các luật dựa trên trên tập thô đƣợc sử dụng phổ biến với nhiều ứng dụng toàn diện để khai phá dữ liệu nhƣ dự báo tài chính, chuẩn đoán y tế Các ứng dụng này đã chứng tỏ rằng rằng hƣớng tiếp cận này là rất hữu ích cho việc khai phá kiến thức bằng các luật quyết định từ cơ sở dữ liệu ban đầu. Tuy nhiên, hƣớng nghiên cứu và các ứng dụng của khai phá tri thức chủ yếu tập trung trong các hệ thống thông tin tĩnh. Nghĩa là các đối tƣợng và các thuộc tính trong một hệ thống thông tin nhất định không đổi. Trong thực tế, các nguồn dữ liệu thực có đặc điểm động, phát triển lớn mạnh lên về cả thuộc tính và số lƣợng đối tƣợng với tốc độ nhanh chóng. Để duy trì hiệu quả kiến thức từ dữ liệu động, các nhà nghiên cứu đã đi theo hƣớng nghiên cứu tiếp cận gia tăng cho việc cập nhật tri thức. Hiện nay, phƣơng pháp cận gia tăng dựa trên tập thô đã và đang đƣợc nhận rất nhiều quan tâm. Theo [6], dữ liệu động chủ yếu tập trung vào hai trƣờng hợp: (1) Tập các đối tƣợng trong hệ thống thông tin thay đổi theo thời gian trong khi các tập thuộc tính vẫn không đổi. (2) Tập các thuộc tính trong hệ thống thông tin thay đổi theo thời gian trong khi tập đối tƣợng vẫn không đổi. Do dữ liệu luôn thay đổi, các phân lớp dữ liệu cũng thay đổi theo. Vì vậy, luận văn tập trung tìm hiểu và trình bày “ một số thuật toán khai phá luật quyết định trên sơ sở dữ liệu động” theo hƣớng tiếp cận gia tăng với kỹ thuật phân lớp dựa trên tập thô. Các luật quyết định có độ chính xác và độ phủ cao là những luật có thể cung cấp các tri thức quan trọng. Để khai phá các luật quyết định có ý nghĩa, ta cần đặt ra ngƣỡng của độ chính xác và độ phủ để khai phá đƣợc các tri thức quan tâm. Nội dung của luận văn tập trung vào hƣớng đã nêu trong trƣờng hợp (1) và (2). Trong đó, luận văn gồm 3 chƣơng. Chƣơng 1: Trình các kiến thức cơ bản về khai phá dữ liệu và các khái niệm cơ bản trong tập thô nhƣ khái niệm tập hợp, tập thô, tập mờ, hệ thống thông tin, các mỗi quan hệ, bảng quyết định và luật quyết định. Chƣơng 2: Trình bày về thuật toán khai phá luật quyết định trên bảng dữ liệu khi có giá trị thuộc tính thay đổi (làm thô, làm mịn) theo hƣớng tiếp cận gia tăng ma trận độ hỗ trợ. Trong chƣơng này, luận văn tập trung trình bày các mối quan hệ của các lớp khi thuộc tính của dữ liệu khi đƣợc làm thô, làm mịn, thuật toán và đánh giá độ phức tap tính toán theo thời gian của thuật toán. Chƣơng 3: Trình bày hai thuật toán khai phá luật quyết định trên bảng dữ liệu động khi có tập đối thƣợng thay đổi. Hai thuật toán này đều đƣợc xây dựng trên cùng một mô hình chỉ khác nhau về hƣớng tiếp cận. Thuật toán [...]... Khai phá dữ liệu đƣợc liên tƣởng tới quá trình chiết lọc hoặc khai phá tri thức từ số lƣợng lớn dữ liệu Khai phá dữ liệu là một bƣớc quan trọng của khám phá tri thức Khám phá tri thức là một quá trình bao gồm một chuỗi lặp đi lặp lại các bƣớc sau: 1 Lọc dữ liệu (loại bỏ tiếng ồn và dữ liệu không phù hợp) 2 Tích hợp dữ liệu (nơi nhiều nguồn dữ liệu có thể kết hợp đƣợc với nhau) 3 Lựa chọn dữ liệu (dữ liệu. .. không) và (đau cơ, có) và (nhiệt độ, cao) thì (bệnh cúm, có) Một tập các luật quyết định đƣợc gọi là một thuật toán quyết định Do đó với mỗi một bảng quyết định, chúng ta có thể kết hợp một thuật toán quyết định bao gồm tất cả các luật quyết định xảy ra trong bảng quyết định Hay nói cách khác một trình tự sẽ đƣợc gọi là một luật quyết định đƣợc tạo ra bởi đối tƣợng x (nằm trong bảng quyết đinh S) và... lớn dữ liệu và sự cần thiết để chuyển đổi dữ liệu đó thành thông tin hữu ích Nên khai thác dữ liệu ra đời và đƣợc xem nhƣ là một kết quả của sự tiến hóa tự nhiên của công nghệ thông tin Tiền xử lý Chuyển đổi dữ liệu Khai phá dữ liệu Trình bày tri thức Tri thức Lọc dữ liệu Tích hợp dữ liệu Dữ liệu tiền xử lý Dữ liệu đã chuyển đổi Các mẫu Hình 1.1: Quá trình khái phá tri thức trong cơ sở dữ liệu [3] Khai. .. luật quyết định Tập thô thƣờng đƣợc rời rạc hóa, rút gọn và đƣa ra các luật dựa trên tập dữ liệu huấn luyện hay các phân lớp trên tập dữ liệu mẫu ban đầu trong khai phá dữ liệu Nó giúp biễu di n và đƣa ra kết luận cho các tri thức không chắc chắn Khai phá luật quyết định dựa trên tập thô là một hƣớng nghiên cứu rất phố biến hiện nay Phƣơng pháp này thƣờng áp dụng kỹ thuật phân lớp của khai phá dữ liệu. ..9 một là thuật toán khai phá luật quyết định theo hƣớng tiếp cận gia tăng ma trận độ chính xác và ma trận độ phủ Thuật toán hai là thuật toán khai phá luật quyết định theo hƣớng tiếp cận gia tăng ma trận độ hỗ trợ Kết thúc là phần kết luận và đề xuất những vấn đề cần tiếp tục nghiên cứu 10 CHƢƠNG 1 CÁC KHÁI NIỆM CƠ BẢN 1.1 Khai phá dữ liệu là gì Khai phá dữ liệu đã thu hút rất nhiều... gia tăng và thuật toán Tiếp cận gia tăng là một phƣơng pháp phổ biến và đƣợc sử dụng nhiều trong khai phá dữ liệu Đây là một cách lƣu trữ tất cả dữ liệu và nó cũng cho phép tập huấn lại dữ liệu Trong khai phá dữ liệu học gia tăng thƣờng đƣợc áp dụng cho môi trƣờng dữ liệu luôn thay đổi Trong đó, phƣơng pháp tiếp cận gia tăng dựa trên kỹ thuật phân lớp là một phƣơng pháp hay dùng Nơi mà dữ liệu thay đổi... đoạn khai thác dữ liệu: Giai đoạn này đƣợc định nghĩa bởi việc sử dụng các thuật toán để trích rút các mẫu dữ liệu Một số các kỹ thuật đƣợc sử dụng trong giai đoạn này nhƣ mạng neural, tập thô, thuật toán di truyền, mô hình thống kê và xác suất Giai đoạn hậu xử lý: Giai đoạn này chế biến dữ liệu thu đƣợc từ quá trình khai thác dữ liệu Nó có khả năng xác nhận tính hữu ích của mẫu dữ liệu đƣợc khai phá. .. Còn 𝐴𝑐𝑐(𝐶 𝑖 , 𝐷 𝑖 ) = nếu 0 < 𝐴𝑐𝑐(𝐶 𝑖 , 𝐷𝑗 ) < 1 thì luật quyết định này sẽ thuộc luật quết định không chắc chắn  Độ phủ của luật quyết định: 19 𝐶𝑜𝑣 𝐶 𝑖 , 𝐷𝑗 = 𝐶 𝑖 ∩ 𝐷𝑗 |𝐷𝑗 | Nếu 𝐶 𝑖 → 𝐷𝑗 là một luật quyết định thì 𝐷𝑗 → 𝐶 𝑖 sẽ đƣợc một luật quyết định ngƣợc của nó Các luật quyết định ngƣợc đƣợc dùng để giải thích (các lý do) của một luật quyết định Từ vì dụ ở bảng 3 ta có: U/C={C1, C2, C3, C4, C5}... [4 ]Khai phá dữ liệu nhƣ là một thuật ngữ đƣợc sử cho các thiết lập cụ thể của sáu nhiệm vụ sau: Phân lớp dữ liệu, ƣớc lƣợng, dự báo, khai phá luật kết hợp, phân cụm, mô tả và trực quan Trong đó ba nhiệm vụ đầu tiên – phân lớp dữ liệu, ƣớc lƣợng, dự báo là tất cả các ví dụ về hƣớng khai thác dữ liệu hoặc học có giám sát Trong hƣớng khai thác dữ liệu này, mục tiêu là sử dụng dữ liệu có sẵn để xây dựng một. .. kiện và thuộc tính quyết định của bảng quyết định 𝛾 𝐶, 𝐷 = 1 thì bảng quyết định là nhất quán còn 𝛾 𝐶, 𝐷 ≠ 1 thì bảng quyết định là không nhất quán Ở bảng 3 ta có 𝛾 𝐶, 𝐷 = 4/6 vì vậy bảng 1.3 là bảng quyết định không nhất quán 1.2.6 Luật quyết định Luật quyết định là gì? [8] Luật quyết định thƣờng đƣợc ở dạng: Nếu (điều kiện thuộc tinh thỏa mãn) thì (đƣa ra quyết định phù hợp) Thí dụ luật 1 trong bảng . Bảng quyết định 17 1.2.6. Luật quyết định 18 1.3. Khai phá luật quyết định dựa trên tập thô 20 1.4. Kết luận chƣơng 1 20 CHƢƠNG 2. THUẬT TOÁN TIẾP CẬN GIA TĂNG ĐỂ KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN. Quá trình khái phá tri thức trong cơ sở dữ liệu [3] Khai phá dữ liệu đƣợc liên tƣởng tới quá trình chiết lọc hoặc khai phá tri thức từ số lƣợng lớn dữ liệu. Khai phá dữ liệu là một bƣớc quan. đổi. Do dữ liệu luôn thay đổi, các phân lớp dữ liệu cũng thay đổi theo. Vì vậy, luận văn tập trung tìm hiểu và trình bày “ một số thuật toán khai phá luật quyết định trên sơ sở dữ liệu động

Ngày đăng: 04/09/2015, 23:06

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan