1. Trang chủ
  2. » Tất cả

Tóm tắt luận văn thạc sĩ khoa học máy tính khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu và lớp tương đương

20 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 696,95 KB

Nội dung

i Số hóa bởi Trung tâm Học liệu – ĐHTN http //www ltc tnu edu vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN KHÁNH KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ SỬ DỤNG PHỦ TỐI THIỂU V[.]

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - TRẦN KHÁNH KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ SỬ DỤNG PHỦ TỐI THIỂU VÀ LỚP TƢƠNG ĐƢƠNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 TĨM TẮT LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN Thái Nguyên - 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn ii MỤC LỤC MỤC LỤC i DANH MỤC VIẾT TẮT VÀ KÍ HIÊU ̣ iii DANH MỤC CÁC BẢNG BIỂU iv DANH MỤC CÁC HÌNH VẼ v MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ PHỤ THUỘC HÀM, PHỤ THUỘC HÀM XẤP XỈ 1.1 Khai phá liệu 1.1.1 Khám phá tri thức khai phá liệu 1.1.2 Kiến trúc hệ thống khai phá liệu 1.1.3 Quá trình khai phá liệu 1.1.4 Một số kỹ thuật khai phá liệu 1.1.5 Các sở liệu phục vụ cho khai phá liệu 12 1.1.6 Một số ứng dụng khai phá liệu 14 1.2 Khai phá phụ thuộc hàm phụ thuộc hàm xấp xỉ 15 1.2.1 Khai phá phụ thuộc hàm 15 1.2.2 Khai phá phụ thuộc hàm xấp xỉ 19 1.2.2.1 Định nghĩa phụ thuộc hàm xấp xỉ 20 1.2.2.2 Một số độ đo 21 CHƢƠNG THUẬT TOÁN KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ SỬ DỤNG PHỦ TỐI THIỂU VÀ LỚP TƢƠNG ĐƢƠNG 28 2.1 Lớp tƣơng đƣơng phủ tối thiểu 29 2.1.1 Sự phân hoạch 29 2.1.2 Phân hoạch mịn 31 2.1.3 Phủ tối thiểu 32 2.1.4 Phụ thuộc hàm xấp xỉ lớp tƣơng đƣơng 35 2.2 Thuật toán TANE sửa đổi 38 2.2.1 Thủ tục thuật toán TANE sửa đổi 38 2.2.2 Độ phức tạp thuật toán TANE sửa đổi 41 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn iii 2.3 Thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng 41 2.3.1 Mơ tả thuật tốn 41 2.3.2 Độ phức tạp thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng 44 2.3.3 Phân tích thử nghiệm, so sánh độ phức tạp thời gian 45 2.3.3.1 Phân tích thử nghiệm 45 2.3.3.2 So sánh độ phức tạp thời gian (theo [8]) 46 CHƢƠNG THỰC NGHIỆM KHAI PHÁ PHỤ THUỘC HÀM XẤP XỈ 48 3.1 Xây dựng chƣơng trình thực nghiệm 48 3.1.1 Giới thiệu toán 48 3.1.2 Dữ liệu thử nghiệm 48 3.1.3 Xây dựng chƣơng trình thực nghiệm 50 3.2 Thực nghiệm khai phá phụ thuộc hàm xấp xỉ 50 3.3 Kết thực nghiệm 51 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 PHỤ LỤC 55 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn iv DANH MỤC VIẾT TẮT VÀ KÍ HIỆU SỬ DỤNG TRONG LUẬN VĂN Ký hiệu Diễn giải R U  Quan ̣ tâ ̣p thuô ̣c tính U U   A1, , Am Tâ ̣p m thuô ̣c tính S = (U, F) Lƣơ ̣c đồ quan ̣ với U tập thuộc tính , F tập phụ thuộc hàm U LĐQH Lƣơ ̣c đồ quan ̣ CSDL Cơ sở liệu PTH Phụ thuộc hàm Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn v DANH MỤC CÁC BẢNG BIỂU Bảng 1.1: Ví dụ quan hệ 17 Bảng 1.2: Các thuật toán khai phá phụ thuộc hàm 19 Bảng 1.3 Bảng quan hệ ví dụ PTH xấp xỉ 21 Bảng 1.4: Bảng liệu quan hệ số 24 Bảng 1.5: Bảng quan hệ ví dụ 25 Bảng 1.6: Bảng quan hệ ví dụ phụ thuộc hàm điều kiện 27 Bảng 2.1: Bảng quan hệ vi dụ cho phân hoạch 30 Bảng 2.2: Bảng quan hệ ví dụ cho phân hoạch mịn 32 Bảng 2.3: Bảng quan hệ ví dụ cho phụ thuộc hàm xấp xỉ 36 Bảng 2.4: Thời gian thực cho hai thuật toán 45 Bảng 2.5: So sánh độ phức tạp thời gian dựa T(n) hai thuật toán 46 Bảng 3.1: Dữ liệu trích chọn để khai phá 49 Bảng 3.2: Bảng mã hóa thuộc tính 49 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn vi DANH MỤC CÁC HÌNH VẼ Hình 1.1 Q trình khám phá tri thức Hình 1.2 Kiến trúc hệ thống khai phá liệu Hình 1.3: Quá trình khai phá liệu Hình 1.4: Cây định Hình 1.5: Mẫu kết nhiệm vụ phân cụm liệu 10 Hình 1.6: Mẫu kết nhiệm vụ hồi quy 11 Hình 1.7: Các loại phụ thuộc liệu 16 Hình 1.8 : Kỹ thuật phát phụ thuộc hàm 18 Hình 2.1: Dàn cho thuộc tính (A, B, C, D, E) 38 Hình 3.1: Dữ liệu mã hóa chuẩn bị cho khai phá 50 Hình 3.2: Giao diện kết đƣợc khai phá phụ thuộc hàm xấp xỉ 51 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn MỞ ĐẦU Đặt vấn đề Trong năm gần đây, Công nghệ thông tin (CNTT) phát triển mạnh mẽ tác động đến mặt xã hội, thành tựu công nghệ lƣu trữ cho phép tạo nguồn liệu khổng lồ Việc khai thác nguồn liệu ngày cấp thiết, đặt thách thức lớn cho ngành CNTT, đặc biệt lĩnh vực khai phá liệu Với nguồn liệu lớn nhƣ việc tìm kiếm, phân tích, xử lý đƣa thơng tin cần thiết, phù hợp với thời gian yêu cầu điều không dễ dàng Các phƣơng pháp khai thác sở liệu truyền thống ngày không đáp ứng đƣợc nhu cầu thực tế Vì phƣơng pháp nghiên cứu, tiếp cận với công cụ cho phép phân tích, tổng hợp, khai phá tri thức từ liệu cách thông minh, hiệu đƣợc nhiều nhà khoa học quan tâm nghiên cứu Khái niệm phụ thuộc hàm đóng vai trị quan trọng lý thuyết sở liệu quan hệ Các phụ thuộc hàm hữu ích việc phân tích thiết kế sở liệu quan hệ nhƣ xác định khóa, xác định dạng chuẩn, vấn đề quán liệu Tuy nhiên thực tế có số giá trị liệu khơng xác số ngoại lệ làm cho phụ thuộc hàm không thỏa Sự phụ thuộc tuyệt đối dƣờng nhƣ nghiêm ngặt ta hình dung tới quan hệ có hàng nghìn bộ, có khoảng vài vi phạm phụ thuộc hàm Bỏ qua phụ thuộc hàm làm tính chất phụ thuộc vốn có thuộc tính Vì nhà nghiên cứu mở rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ theo cách thức, nghĩa đó, phụ thuộc hàm xấp xỉ (Approximate Functional Dependencies - AFDs) cho phép có số lƣợng lỗi định liệu phụ thuộc hàm Phụ thuộc hàm xấp xỉ đƣợc khai phá từ CSDL quan hệ biểu diễn mối Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn quan hệ có ý nghĩa, có nhiều ứng dụng khác nhƣ: Dự đốn giá trị thiếu thuộc tính bảng quan hệ cách sử dụng giá trị thuộc tính việc xác định tập hợp AFDs, tối ƣu hóa truy vấn, viết lại câu truy vấn, chuẩn hóa sở liệu hiệu suất tốt thiết kế lƣu trữ hiệu hơn,… Luận văn tìm hiểu phụ thuộc hàm xấp xỉ nghiên cứu thuật toán AFDMCEC, thuật tốn tìm phụ thuộc hàm xấp xỉ CSDL lớn dựa độ đo xấp xỉ Thuật toán sử dụng số khái niệm lý thuyết thiết kế CSDL quan hệ, đặc biệt khái niệm phủ tối thiểu lớp tƣơng đƣơng Đối tƣợng phạm vi nghiên cứu Luận văn tìm hiểu tổng quan khai phá liệu, sâu tìm hiểu khái niệm phụ thuộc hàm, phụ thuộc hàm xấp xỉ tính chất, độ đo lỗi phụ thuộc hàm xấp xỉ, từ nghiên cứu thuật tốn TANE sửa đổi thuật tốn AFDMCEC tìm phụ thuộc hàm xấp xỉ Hƣớng nghiên cứu đề tài - Tìm hiểu phụ thuộc hàm, phụ thuộc hàm xấp xỉ độ đo lỗi chúng - Nghiên cứu thuật toán khai phá phụ thuộc hàm xấp xỉ từ bảng quan hệ Phƣơng pháp nghiên cứu Phƣơng pháp nghiên cứu luận văn nghiên cứu lý thuyết kết hợp với đánh giá thực nghiệm, cụ thể là: Phân tích, tổng hợp kết nghiên cứu phụ thuộc hàm, phụ thuộc hàm xấp xỉ, … công bố báo khoa học, hội thảo chuyên ngành ngồi nƣớc Từ đó, trình bày làm rõ vấn đề khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn Ý nghĩa khoa học thực tiễn Phụ thuộc hàm đóng vai trò quan trọng lý thuyết CSDL quan hệ Tuy nhiên, thực tế có số giá trị liệu khơng xác số ngoại lệ đó, làm cho phụ thuộc hàm khơng thỏa mãn Sự phụ thuộc tuyệt đối dƣờng nhƣ nghiêm ngặt ta hình dung quan hệ có hàng nghìn bộ, có vài vi phạm phụ thuộc hàm Do vậy, mở rộng khái niệm phụ thuộc hàm thành phụ thuộc hàm xấp xỉ, cho phép có số lỗi định liệu, cần thiết có ý nghĩa mặt lý thuyết nhƣ thực tiễn Các phụ thuộc hàm xấp xỉ giúp thấy đƣợc mối quan hệ tiềm ẩn thuộc tính mà cịn giúp ta thuận tiện việc phân tích liệu, đánh giá thơng tin Phát phụ thuộc hàm xấp xỉ CSDL vấn đề nghiên cứu hấp dẫn mục tiêu phát tri thức Tiếp cận phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng khai phá liệu hƣớng thú vị, hứa hẹn nhiều kết ứng dụng hiệu thực tiễn Cấu trúc luận văn: Luận văn đƣợc trình bày chƣơng: Chƣơng 1: Tổng quan khai phá liệu khai phá phụ thuộc hàm, phụ thuộc hàm xấp xỉ Chƣơng 2: Thuật toán khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng đƣơng Chƣơng 3: Thực nghiệm khai phá phụ thuộc hàm xấp xỉ Cuối kết luận luận văn tài liệu tham khảo Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KHAI PHÁ PHỤ THUỘC HÀM, PHỤ THUỘC HÀM XẤP XỈ 1.1 Khai phá liệu 1.1.1 Khám phá tri thức khai phá liệu Khai phá liệu (KPDL) việc rút trích tri thức cách tự động hiệu từ khối liệu lớn Tri thức thƣờng dạng mẫu có tính chất khơng tầm thƣờng, khơng tƣờng minh (ẩn), chƣa đƣợc biết đến có tiềm mang lại lợi ích Có số nhà nghiên cứu gọi KPDL phát tri thức từ sở liệu (Knowledge Discovery in Database – KDD) Ở coi KPDL cốt lõi trình phát tri thức Quá trình phát tri thức gồm bƣớc: Bƣớc 1: Trích chọn liệu (data selection): Là bƣớc trích chọn tập liệu cần đƣợc khai phá từ tập liệu lớn (databases, data ware houses) Bƣớc 2: Tiền xử lý liệu (data preprocessing): Là bƣớc làm liệu (xử lý liệu không đầy đủ, liệu nhiễu, liệu không quán,…v.v), rút gọn liệu (sử dụng phƣơng pháp thu gọn liệu, histograms, lấy mẫu…v.v), rời rạc hóa liệu (dựa vào histograms, entropy, phân khoảng, v.v) Sau bƣớc này, liệu quán, đầy đủ, đƣợc rút gọn đƣợc rời rạc hóa Bƣớc 3: Biến đổi liệu (data transformation): Là bƣớc chuẩn hóa làm mịn liệu để đƣa liệu dạng thuận lợi nhằm phục vụ cho kỹ thuật khai thác bƣớc sau Bƣớc 4: Khai phá liệu (data mining): Đây bƣớc quan trọng tốn nhiều thời gian trình khám phá tri thức, áp dụng kỹ thuật khai phá (phần lớn kỹ thuật machine learning) để khai phá, trích chọn đƣợc mẫu (pattern) thông tin, mối liên hệ đặc biệt liệu Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn Bƣớc 5: Đánh giá biểu diễn tri thức (knowledge representation & evaluation): Dùng kỹ thuật hiển thị liệu để trình bày mẫu thông tin (tri thức) mối liên hệ đặc biệt liệu đƣợc khai thác bƣớc biểu diễn theo dạng gần gũi với ngƣời sử dụng nhƣ đồ thị, cây, bảng biểu, luật,…v.v Đồng thời bƣớc đánh giá tri thức khám phá đƣợc theo tiêu chí định Trong giai đoạn khai phá liệu, cần tƣơng tác ngƣời dùng để điều chỉnh rút tri thức cần thiết Các tri thức nhận đƣợc đƣợc lƣu sử dụng lại Các Tri thức Các mẫu Dữ liệu Dữ liệu chọn 5.Đánh giá biểu diễn tri thức knowledge representation & evaluation 4.Khai phá liệu data mining Kho liệu 3.Biến đổi liệu data transformation Tiền xử lý liệu data preprocessing Trích chọn liệu data selection Hình 1.1 Quá trình khám phá tri thức Việc KPDL đƣợc tiến hành lƣợng lớn liệu có CSDL, kho liệu loại lƣu trữ thông tin khác Các mẫu đáng quan tâm đƣợc đƣa đến ngƣời dùng đƣợc lƣu trữ sở tri thức Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 1.1.2 Kiến trúc hệ thống khai phá liệu Kiến trúc hệ thống KPDL điển hình có thành phần phần nhƣ hình 1.2 - CSDL, kho liệu lƣu trữ thông tin khác (Databases, Data ware house,…): Đây hay tập CSDL, kho liệu, trang tính hay dạng lƣu trữ thơng tin khác Các kỹ thuật làm liệu tích hợp liệu đƣợc thực liệu (Graphical user interface) (Pattern evaluation) Giao diện đồ họa cho ngƣời dùng Đánh giá mẫu Cơ sở liệu (Data mining engine) Máy khai phá liệu (Knowledge-base) (Database or Warehouse Server Máy chủ CSDL hay ho liệu Làm sạch: Tích hợp liệu, lọc Cơ sở liệu Kho liệu Các lƣu trữ thông tin khác Hình 1.2 Kiến trúc hệ thống khai phá liệu - Máy chủ CSDL hay máy chủ kho liệu (Database or Warehouse Server): Máy chủ có trách nhiệm lấy liệu tích hợp dựa Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn yêu cầu khai phá ngƣời dùng - Cơ sở tri thức (Knowledge-base): Đây miền tri thức dùng để hƣớng dẫn việc tìm kiếm hay đánh giá độ quan trọng hình mẫu kết - Máy KPDL (Data mining engine): Một hệ thống KPDL cần phải có tập modun chức để thực cơng việc nhƣ: đặc trƣng hóa, kết hợp, phân lớp, phân cụm, phân tích tiến hóa - Modun đánh giá mẫu (Pattern evaluation): Bộ phận tƣơng tác với modun KPDL để duyệt tìm mẫu đáng đƣợc quan tâm Nó dùng ngƣỡng độ quan tâm để lọc mẫu khám phá đƣợc Cũng modun đánh giá mẫu đƣợc tích hợp vào modun khai phá, tùy theo cách cài đặt phƣơng pháp khai phá đƣợc dùng - Giao diện đồ họa ngƣời dùng (Graphical user interface): Bộ phận cho phép ngƣời dùng giao tiếp với hệ thống KPDL Ngồi ra, phận cịn cho phép ngƣời dùng xem lƣợc đồ CSDL, lƣợc đồ kho liệu (hay cấu trúc liệu), đánh giá mẫu hiển thị mẫu khuôn dạng khác 1.1.3 Quá trình khai phá liệu Quá trình khai phá liệu đƣợc thể mơ hình sau: Thống kê tóm tắt Xác định nhiệm vụ Xác định liệu liên quan Thu thập tiền xử lý DL Giải thuật khai phá DL Dữ liệu trực tiếp Hình 1.3: Quá trình khai phá liệu + Xác định nhiệm vụ: Xác định xác vấn đề cần giải Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn Mẫu + Xác định liệu liên quan dùng để xây dựng giải pháp + Thu thập liệu có liên quan xử lý chúng thành dạng cho giải thuật khai phá liệu hiểu đƣợc Ở gặp số vấn đề: liệu phải đƣợc nhiều (nếu đƣợc chiết suất vào tệp), quản lý tập tệp liệu, phải lặp lặp lại nhiều lần tồn q trình (nếu mơ hình liệu thay đổi v.v.) + Chọn thuật tốn khai phá liệu thích hợp thực việc khai phá liệu: nhằm tìm đƣợc mẫu (pattern) có ý nghĩa dƣới dạng biểu diễn tƣơng ứng với ý nghĩa 1.1.4 Một số kỹ thuật khai phá liệu Mục đích khai phá liệu chiết xuất tri thức có lợi cho kinh doanh hay cho nghiên cứu khoa học… Do đó, ta xem mục đích khai phá liệu mô tả kiện dự đoán Các mẫu khai phá liệu phát đƣợc nhằm vào mục đích Dự đốn liên quan đến việc sử dụng biến đối tƣợng (bản ghi) CSDL để chiết xuất mẫu, dự đoán đƣợc giá trị chƣa biết giá trị tƣơng lai biến đáng quan tâm Mô tả tập trung vào việc tìm kiếm mẫu mơ tả liệu mà ngƣời hiểu đƣợc Một số kỹ thuật khai phá liệu: Phân lớp liệu Khái niệm phân lớp liệu đƣợc Han Kamber đƣa năm 2000 Phân lớp liệu xây dựng mơ hình mà phân đối tƣợng thành lớp để dự đốn giá trị bị số thuộc tính liệu hay tiên đoán giá trị liệu xuất tƣơng lai Quá trình phân lớp liệu đƣợc thực qua hai bƣớc Bước thứ nhất: Dựa vào tập hợp liệu huấn luyện, xây dựng mơ hình mơ tả đặc trƣng lớp liệu khái niệm, q trình học có Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn giám sát, học theo mẫu đƣợc cung cấp trƣớc Bước thứ hai: Từ lớp liệu khái niệm đƣợc xác định trƣớc, dự đoán giá trị đối tƣợng quan tâm Một kỹ thuật phân lớp liệu đƣợc Han Kamber đƣa định Mỗi nút đại diện định dựa vào giá trị thuộc tính tƣơng ứng Kỹ thuật đƣợc nhiều tác giả nghiên cứu đƣa nhiều thuật tốn Một ví dụ tiêu biểu định: Hình 1.4: Cây định Trong hình 1.4 định cho lớp mua laptop, khách hàng mua hay không mua laptop Mỗi nút đại diện lớp mà đánh giá mua laptop Yes hay No Sau mơ hình đƣợc xây dựng, dự đốn việc mua laptop hay khơng dựa vào thuộc tính khách hàng tuổi nghề nghiệp Cây định ứng dụng rộng rãi nhiều hoạt động đời sống thực Phân nhóm liệu Phân nhóm kỹ thuật khai phá liệu tƣơng tự nhƣ phân lớp liệu Tuy nhiên, phân nhóm liệu q trình học khơng đƣợc giám sát, q trình nhóm đối tƣợng vào lớp tƣơng đƣơng, đến đối tƣợng nhóm tƣơng đƣơng nhau, chúng phải khác với đối tƣợng nhóm khác Trong phân lớp liệu, ghi thuộc lớp Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 10 phải xác định trƣớc, phân nhóm khơng xác định trƣớc Trong phân nhóm, đối tƣợng đƣợc nhóm lại dựa vào giống chúng Sự giống đối tƣợng đƣợc xác định chức giống Thông thƣờng giống định lƣợng nhƣ khoảng cách độ đo khác đƣợc xác định chuyên gia lĩnh vực Hình 1.5: Mẫu kết nhiệm vụ phân cụm liệu Đa số ứng dụng phân nhóm đƣợc sử dụng phân chia thị trƣờng Với phân nhóm khách hàng vào nhóm, doanh nghiệp cung cấp dịch vụ khác tới nhóm khách hàng cách thuận lợi Ví dụ, dựa vào chi tiêu, số tiền tài khoản việc rút tiền khách hàng, ngân hàng xếp khách hàng vào nhóm khác Với nhóm, ngân hàng cho vay khoản tiền tƣơng ứng cho việc mua nhà, mua xe,… Trong trƣờng hợp ngân hàng cung cấp dịch vụ tốt chắn tất khoản tiền cho vay thu hồi đƣợc Ta tham khảo khảo sát toàn diện kỹ thuật thuật tốn phân nhóm Hồi qui (Regression): Là việc học hàm ánh xạ từ tập liệu thành biến dự đốn có giá trị thực Nhiệm vụ hồi qui tƣơng tự nhƣ phân lớp, điểm khác chỗ thuộc tính để dự báo liên tục không rời rạc [6] Việc dự báo giá trị số thƣờng đƣợc làm phƣơng pháp thống kê cổ Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 11 điển chẳng hạn nhƣ hồi qui tuyến tính Tuy nhiên, phƣơng pháp mơ hình hóa đƣợc sử dụng Nợ đƣờng hồi quy tuyến tính + 0 + 0 + + Thu nhập + + 0 Hình 1.6: Mẫu kết nhiệm vụ hồi quy + + 0 + Ứng dụng hồi quy nhiều, ví dụ: dự đốn số lƣợng sinh vật phát quang thời khu rừng cách dị tìm vi sóng thiết bị cảm biến từ xa; dự đoán khả tử vong bệnh nhân biết kết xét nghiệm chẩn đoán; dự đoán nhu cầu tiêu thụ sản phẩm hàm chi tiêu quảng cáo… hình 1.6 mẫu kết hồi quy tuyến tính đơn giản, tổng số nợ đƣợc điều chỉnh cho phù hợp giống nhƣ hàm thu nhập tuyến tính Việc điều chỉnh khơng đáng kể tồn tƣơng quan yếu hai biến Tổng hợp (summarization): Là công việc liên quan đến phƣơng pháp tìm kiếm mơ tả đọng cho tập liệu Các kỹ thuật tổng hợp thƣờng đƣợc áp dụng việc phân tích liệu có tính thăm dị báo cáo tự động Mơ hình hóa phụ thuộc (dependency modeling): Là việc tìm kiếm mô tả phụ thuộc quan trọng biến Mơ hình phụ thuộc tồn hai mức: Mức cấu trúc mơ hình (thƣờng dƣới dạng đồ thị) xác định biến phụ thuộc cục vào biến khác; Mức định lƣợng mơ hình xác định mức độ phụ thuộc biến Những phụ thuộc thƣờng đƣợc biểu thị dƣới dạng luật Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 12 Quan hệ phụ thuộc biểu diễn dƣới dạng mạng tin cậy [6] Đó đồ thị có hƣớng khơng có dạng chu trình, nút biểu diễn thuộc tính trọng số liên kết phụ thuộc nút Phát thay đổi độ lệch (change and deviation dectection): Nhiệm vụ tập trung vào khám phá thay đổi có ý nghĩa liệu dựa vào giá trị chuẩn hay độ đo biết trƣớc, phát độ lệch đáng kể nội dung tập liệu nội dung mong đợi Hai mơ hình độ lệch thƣờng dùng lệch theo thời gian lệch theo nhóm Độ lệch theo thời gian thay đổi có nghĩa liệu theo thời gian Độ lệch theo nhóm khác liệu hai tập liệu, tính trƣờng hợp tập đối tƣợng thuộc tập kia, nghĩa xác định liệu nhóm đối tƣợng có khác đáng kể so với toàn đối tƣợng 1.1.5 Các sở liệu phục vụ cho khai phá liệu Dựa vào kiểu liệu mà kỹ thuật khai phá áp dụng, chia liệu thành loại khác Cơ sở liệu quan hệ Đến nay, hầu hết liệu đƣợc lƣu giữ dƣới dạng sở liệu quan hệ Cơ sở liệu quan hệ nguồn tài nguyên lớn chứa đối tƣợng mà cần khai phá Cơ sở liệu quan hệ có cấu trúc cao, liệu đƣợc mô tả tập thuộc tính lƣu bảng Khai phá liệu sở liệu quan hệ chủ yếu tập trung khai phá mẫu Ví dụ, sở liệu ngân hàng, ta tìm đƣợc khách hàng có mức chi tiêu cao, ta phân loại khách hàng dựa vào trình chi tiêu họ Cũng với việc phân tích mục tiêu khách hàng, cung cấp số thông tin khách hàng đến doanh nghiệp khác Giả sử khách hàng chi tháng 500 đô la cho thời trang, đƣợc phép, ngân hàng cung cấp thơng tin khách hàng cho cửa hàng thời Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 13 trang Cơ sở liệu giao tác Cơ sở liệu giao tác tập hợp ghi giao dịch, đa số trƣờng hợp chúng ghi liệu hoạt động doanh nghiệp, tổ chức Với tính phổ biến máy tính thƣơng mại điện tử, ngày có nhiều sở liệu giao tác Cơ sở liệu không gian Cơ sở liệu không gian bao gồm hai phần: Phần thứ liệu quan hệ hay giao tác, phần thứ hai thông tin định vị thơng tin địa lý Ví dụ, luật kết hợp sở liệu không gian mô tả mối quan hệ đặc trƣng sở liệu không gian Dạng luật kết hợp khơng gian có dạng X  Y, với X, Y tập hợp vị từ không gian Những thuật tốn khai phá luật kết hợp khơng gian tƣơng tự nhƣ khai phá luật kết hợp nhƣng thêm vị từ khơng gian Cơ sở liệu có yếu tố thời gian Giống nhƣ sở liệu không gian, sở liệu có yếu tố thời gian bao gồm hai phần: Phần thứ liệu quan hệ hay giao tác, phần thứ hai thông tin thời gian xuất liệu phần thứ Những luật kết hợp có yếu tố thời gian có nhiều thơng tin luật kết hợp Ví dụ, từ luật kết hợp {Bia}  {Thuốc lá}, với liệu có yếu tố thời gian có nhiều luật: Độ hỗ trợ luật {Bia}  {Thuốc lá} 20% từ đến 13 50% thời gian từ 19 tới 22 Rõ ràng rằng, ngƣời bán lẻ xác định chiến lƣợc để buôn bán tốt Hầu hết nghiên cứu lĩnh vực ngày hình thành hƣớng khai phá liệu gọi khai phá mẫu lặp liên tục, khai phá tập mục liệu thƣờng xuyên sở liệu thời gian Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 14 Cơ sở liệu đa phƣơng tiện Số lƣợng trang web bùng nổ giới, web có mặt khắp nơi, duyệt web nhu cầu tầng lớp xã hội Thông tin web phát triển với tốc độ cao, khai phá thông tin web (web mining) trở thành lĩnh vực nghiên cứu khai phá liệu, đƣợc nhà nghiên cứu đặc biệt quan tâm Khai phá liệu web thông thƣờng đƣợc chia thành ba phạm trù chính: Khai phá cách dùng web (web usage mining), khai phá cấu trúc web (web structure mining) khai phá nội dung web (web content mining) Khai phá cách dùng web tập trung vào việc khai phá thông tin ngƣời truy cập web Với thông tin ngƣời khai phá liệu cung cấp thơng tin hữu ích cho ngƣời dùng nhà kinh doanh 1.1.6 Một số ứng dụng khai phá liệu KPDL đƣợc vận dụng nhiều lĩnh vực khác nhằm khai thác nguồn liệu phong phú đƣợc lƣu trữ hệ thống thông tin Tuỳ theo chất lĩnh vực, việc vận dụng KPDL có cách tiếp cận khác KPDL đƣợc vận dụng có hiệu để giải tốn phức tạp ngành địi hỏi kỹ thuật cao nhƣ: tìm kiếm mỏ dầu từ ảnh viễn thám, xác định vùng gãy ảnh địa chất để dự đốn thiên tai, cảnh báo hỏng hóc hệ thống sản xuất Phân nhóm dự đốn kỹ thuật cần thiết cho việc quy hoạch phát triển hệ thống quản lý sản xuất thực tế nhƣ: dự đoán tái sử dụng điện cho công ty cung cấp điện, lƣu lƣợng viễn thông cho công ty điện thoại, mức độ tiêu thụ sản phẩm cho nhà sản xuất, giá trị sản phẩm thị trƣờng cho công ty tài hay phân nhóm khách hàng tiềm Ngồi KPDL đƣợc áp dụng việc giải vấn đề xã hội nhƣ: phát tội phạm hay tăng cƣờng an ninh xã hội mang lại hiệu Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn ... nghiên cứu phụ thuộc hàm, phụ thuộc hàm xấp xỉ, … công bố báo khoa học, hội thảo chun ngành ngồi nƣớc Từ đó, trình bày làm rõ vấn đề khai phá phụ thuộc hàm xấp xỉ sử dụng phủ tối thiểu lớp tƣơng... khai phá liệu 1.1.5 Các sở liệu phục vụ cho khai phá liệu 12 1.1.6 Một số ứng dụng khai phá liệu 14 1.2 Khai phá phụ thuộc hàm phụ thuộc hàm xấp xỉ 15 1.2.1 Khai phá phụ thuộc. .. dụng hiệu thực tiễn Cấu trúc luận văn: Luận văn đƣợc trình bày chƣơng: Chƣơng 1: Tổng quan khai phá liệu khai phá phụ thuộc hàm, phụ thuộc hàm xấp xỉ Chƣơng 2: Thuật toán khai phá phụ thuộc hàm

Ngày đăng: 01/03/2023, 19:29

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w