Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)

69 121 0
Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)Khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương (Luận văn thạc sĩ)

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TRUYỀN THÔNG - TRẦN KHÁNH KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ SỬ DỤNG PHỦ TỐI THIỂU LỚP TƢƠNG ĐƢƠNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 TĨM TẮT LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn ii MỤC LỤC MỤC LỤC i DANH MỤC VIẾT TẮT VÀ KÍ HIÊU ̣ iii DANH MỤC CÁC BẢNG BIỂU iv DANH MỤC CÁC HÌNH VẼ v MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU KHAI PHÁ PHỤ THUỘC HÀM, PHỤ THUỘC HÀM XẤP XỈ 1.1 Khai phá liệu 1.1.1 Khám phá tri thức khai phá liệu 1.1.2 Kiến trúc hệ thống khai phá liệu 1.1.3 Quá trình khai phá liệu 1.1.4 Một số kỹ thuật khai phá liệu 1.1.5 Các sở liệu phục vụ cho khai phá liệu 12 1.1.6 Một số ứng dụng khai phá liệu 14 1.2 Khai phá phụ thuộc hàm phụ thuộc hàm xấp xỉ 15 1.2.1 Khai phá phụ thuộc hàm 15 1.2.2 Khai phá phụ thuộc hàm xấp xỉ 19 1.2.2.1 Định nghĩa phụ thuộc hàm xấp xỉ 20 1.2.2.2 Một số độ đo 21 CHƢƠNG THUẬT TOÁN KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ SỬ DỤNG PHỦ TỐI THIỂU LỚP TƢƠNG ĐƢƠNG 28 2.1 Lớp tƣơng đƣơng phủ tối thiểu 29 2.1.1 Sự phân hoạch 29 2.1.2 Phân hoạch mịn 31 2.1.3 Phủ tối thiểu 32 2.1.4 Phụ thuộc hàm xấp xỉ lớp tƣơng đƣơng 35 2.2 Thuật toán TANE sửa đổi 38 2.2.1 Thủ tục thuật toán TANE sửa đổi 38 2.2.2 Độ phức tạp thuật toán TANE sửa đổi 41 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn iii 2.3 Thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng 41 2.3.1 Mơ tả thuật tốn 41 2.3.2 Độ phức tạp thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng 44 2.3.3 Phân tích thử nghiệm, so sánh độ phức tạp thời gian 45 2.3.3.1 Phân tích thử nghiệm 45 2.3.3.2 So sánh độ phức tạp thời gian (theo [8]) 46 CHƢƠNG THỰC NGHIỆM KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ 48 3.1 Xây dựng chƣơng trình thực nghiệm 48 3.1.1 Giới thiệu toán 48 3.1.2 Dữ liệu thử nghiệm 48 3.1.3 Xây dựng chƣơng trình thực nghiệm 50 3.2 Thực nghiệm khai phá phụ thuộc hàm xấp xỉ 50 3.3 Kết thực nghiệm 51 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 PHỤ LỤC 55 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn iv DANH MỤC VIẾT TẮT KÍ HIỆU SỬ DỤNG TRONG LUẬN VĂN Ký hiệu Diễn giải R U  Quan ̣ tâ ̣p thuô ̣c tính U U   A1, , Am Tâ ̣p m thuô ̣c tính S = (U, F) Lƣơ ̣c đồ quan ̣ với U tập thuộc tính , F tập phụ thuộc hàm U LĐQH Lƣơ ̣c đồ quan ̣ CSDL Cơ sở liệu PTH Phụ thuộc hàm Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn v DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Ví dụ quan hệ 17 Bảng 1.2: Các thuật toán khai phá phụ thuộc hàm 19 Bảng 1.3 Bảng quan hệ ví dụ PTH xấp xỉ 21 Bảng 1.4: Bảng liệu quan hệ số 24 Bảng 1.5: Bảng quan hệ ví dụ 25 Bảng 1.6: Bảng quan hệ ví dụ phụ thuộc hàm điều kiện 27 Bảng 2.1: Bảng quan hệ vi dụ cho phân hoạch 30 Bảng 2.2: Bảng quan hệ ví dụ cho phân hoạch mịn 32 Bảng 2.3: Bảng quan hệ ví dụ cho phụ thuộc hàm xấp xỉ 36 Bảng 2.4: Thời gian thực cho hai thuật toán 45 Bảng 2.5: So sánh độ phức tạp thời gian dựa T(n) hai thuật toán 46 Bảng 3.1: Dữ liệu trích chọn để khai phá 49 Bảng 3.2: Bảng mã hóa thuộc tính 49 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn vi DANH MỤC CÁC HÌNH VẼ Hình 1.1 Q trình khám phá tri thức Hình 1.2 Kiến trúc hệ thống khai phá liệu Hình 1.3: Quá trình khai phá liệu Hình 1.4: Cây định Hình 1.5: Mẫu kết nhiệm vụ phân cụm liệu 10 Hình 1.6: Mẫu kết nhiệm vụ hồi quy 11 Hình 1.7: Các loại phụ thuộc liệu 16 Hình 1.8 : Kỹ thuật phát phụ thuộc hàm 18 Hình 2.1: Dàn cho thuộc tính (A, B, C, D, E) 38 Hình 3.1: Dữ liệu mã hóa chuẩn bị cho khai phá 50 Hình 3.2: Giao diện kết đƣợc khai phá phụ thuộc hàm xấp xỉ 51 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn MỞ ĐẦU Đặt vấn đề Trong năm gần đây, Công nghệ thông tin (CNTT) phát triển mạnh mẽ tác động đến mặt xã hội, thành tựu công nghệ lƣu trữ cho phép tạo nguồn liệu khổng lồ Việc khai thác nguồn liệu ngày cấp thiết, đặt thách thức lớn cho ngành CNTT, đặc biệt lĩnh vực khai phá liệu Với nguồn liệu lớn nhƣ việc tìm kiếm, phân tích, xử lý đƣa thơng tin cần thiết, phù hợp với thời gian yêu cầu điều không dễ dàng Các phƣơng pháp khai thác sở liệu truyền thống ngày không đáp ứng đƣợc nhu cầu thực tế Vì phƣơng pháp nghiên cứu, tiếp cận với công cụ cho phép phân tích, tổng hợp, khai phá tri thức từ liệu cách thông minh, hiệu đƣợc nhiều nhà khoa học quan tâm nghiên cứu Khái niệm phụ thuộc hàm đóng vai trò quan trọng lý thuyết sở liệu quan hệ Các phụ thuộc hàm hữu ích việc phân tích thiết kế sở liệu quan hệ nhƣ xác định khóa, xác định dạng chuẩn, vấn đề quán liệu Tuy nhiên thực tế có số giá trị liệu khơng xác số ngoại lệ làm cho phụ thuộc hàm không thỏa Sự phụ thuộc tuyệt đối dƣờng nhƣ nghiêm ngặt ta hình dung tới quan hệ có hàng nghìn bộ, có khoảng vài vi phạm phụ thuộc hàm Bỏ qua phụ thuộc hàm làm tính chất phụ thuộc vốn có thuộc tính Vì nhà nghiên cứu mở rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ theo cách thức, nghĩa đó, phụ thuộc hàm xấp xỉ (Approximate Functional Dependencies - AFDs) cho phép có số lƣợng lỗi định liệu phụ thuộc hàm Phụ thuộc hàm xấp xỉ đƣợc khai phá từ CSDL quan hệ biểu diễn mối Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn quan hệ có ý nghĩa, có nhiều ứng dụng khác nhƣ: Dự đốn giá trị thiếu thuộc tính bảng quan hệ cách sử dụng giá trị thuộc tính việc xác định tập hợp AFDs, tối ƣu hóa truy vấn, viết lại câu truy vấn, chuẩn hóa sở liệu hiệu suất tốt thiết kế lƣu trữ hiệu hơn,… Luận văn tìm hiểu phụ thuộc hàm xấp xỉ nghiên cứu thuật toán AFDMCEC, thuật tốn tìm phụ thuộc hàm xấp xỉ CSDL lớn dựa độ đo xấp xỉ Thuật toán sử dụng số khái niệm lý thuyết thiết kế CSDL quan hệ, đặc biệt khái niệm phủ tối thiểu lớp tƣơng đƣơng Đối tƣợng phạm vi nghiên cứu Luận văn tìm hiểu tổng quan khai phá liệu, sâu tìm hiểu khái niệm phụ thuộc hàm, phụ thuộc hàm xấp xỉ tính chất, độ đo lỗi phụ thuộc hàm xấp xỉ, từ nghiên cứu thuật tốn TANE sửa đổi thuật tốn AFDMCEC tìm phụ thuộc hàm xấp xỉ Hƣớng nghiên cứu đề tài - Tìm hiểu phụ thuộc hàm, phụ thuộc hàm xấp xỉ độ đo lỗi chúng - Nghiên cứu thuật toán khai phá phụ thuộc hàm xấp xỉ từ bảng quan hệ Phƣơng pháp nghiên cứu Phƣơng pháp nghiên cứu luận văn nghiên cứu lý thuyết kết hợp với đánh giá thực nghiệm, cụ thể là: Phân tích, tổng hợp kết nghiên cứu phụ thuộc hàm, phụ thuộc hàm xấp xỉ, … công bố báo khoa học, hội thảo chuyên ngành ngồi nƣớc Từ đó, trình bày làm rõ vấn đề khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn Ý nghĩa khoa học thực tiễn Phụ thuộc hàm đóng vai trò quan trọng lý thuyết CSDL quan hệ Tuy nhiên, thực tế có số giá trị liệu khơng xác số ngoại lệ đó, làm cho phụ thuộc hàm khơng thỏa mãn Sự phụ thuộc tuyệt đối dƣờng nhƣ nghiêm ngặt ta hình dung quan hệ có hàng nghìn bộ, có vài vi phạm phụ thuộc hàm Do vậy, mở rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ, cho phép có số lỗi định liệu, cần thiết có ý nghĩa mặt lý thuyết nhƣ thực tiễn Các phụ thuộc hàm xấp xỉ giúp thấy đƣợc mối quan hệ tiềm ẩn thuộc tính mà giúp ta thuận tiện việc phân tích liệu, đánh giá thơng tin Phát phụ thuộc hàm xấp xỉ CSDL vấn đề nghiên cứu hấp dẫn mục tiêu phát tri thức Tiếp cận phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng khai phá liệu hƣớng thú vị, hứa hẹn nhiều kết ứng dụng hiệu thực tiễn Cấu trúc luận văn: Luận văn đƣợc trình bày chƣơng: Chƣơng 1: Tổng quan khai phá liệu khai phá phụ thuộc hàm, phụ thuộc hàm xấp xỉ Chƣơng 2: Thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng Chƣơng 3: Thực nghiệm khai phá phụ thuộc hàm xấp xỉ Cuối kết luận luận văn tài liệu tham khảo Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU KHAI PHÁ PHỤ THUỘC HÀM, PHỤ THUỘC HÀM XẤP XỈ 1.1 Khai phá liệu 1.1.1 Khám phá tri thức khai phá liệu Khai phá liệu (KPDL) việc rút trích tri thức cách tự động hiệu từ khối liệu lớn Tri thức thƣờng dạng mẫu có tính chất khơng tầm thƣờng, khơng tƣờng minh (ẩn), chƣa đƣợc biết đến có tiềm mang lại lợi ích Có số nhà nghiên cứu gọi KPDL phát tri thức từ sở liệu (Knowledge Discovery in Database – KDD) Ở coi KPDL cốt lõi trình phát tri thức Quá trình phát tri thức gồm bƣớc: Bƣớc 1: Trích chọn liệu (data selection): Là bƣớc trích chọn tập liệu cần đƣợc khai phá từ tập liệu lớn (databases, data ware houses) Bƣớc 2: Tiền xử lý liệu (data preprocessing): Là bƣớc làm liệu (xử lý liệu không đầy đủ, liệu nhiễu, liệu không quán,…v.v), rút gọn liệu (sử dụng phƣơng pháp thu gọn liệu, histograms, lấy mẫu…v.v), rời rạc hóa liệu (dựa vào histograms, entropy, phân khoảng, v.v) Sau bƣớc này, liệu quán, đầy đủ, đƣợc rút gọn đƣợc rời rạc hóa Bƣớc 3: Biến đổi liệu (data transformation): Là bƣớc chuẩn hóa làm mịn liệu để đƣa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai thác bƣớc sau Bƣớc 4: Khai phá liệu (data mining): Đây bƣớc quan trọng tốn nhiều thời gian trình khám phá tri thức, áp dụng kỹ thuật khai phá (phần lớn kỹ thuật machine learning) để khai phá, trích chọn đƣợc mẫu (pattern) thông tin, mối liên hệ đặc biệt liệu Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn ... quan khai phá liệu khai phá phụ thuộc hàm, phụ thuộc hàm xấp xỉ Chƣơng 2: Thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng Chƣơng 3: Thực nghiệm khai phá phụ thuộc hàm. .. nghiên cứu phụ thuộc hàm, phụ thuộc hàm xấp xỉ, … công bố báo khoa học, hội thảo chun ngành ngồi nƣớc Từ đó, trình bày làm rõ vấn đề khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng... phá phụ thuộc hàm phụ thuộc hàm xấp xỉ 15 1.2.1 Khai phá phụ thuộc hàm 15 1.2.2 Khai phá phụ thuộc hàm xấp xỉ 19 1.2.2.1 Định nghĩa phụ thuộc hàm xấp xỉ 20 1.2.2.2 Một

Ngày đăng: 01/02/2018, 15:19

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan