1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phát hiện luật bằng cách sử dụng siêu phằng tối ưu theo hướng tiếp cận thô

64 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 723,38 KB

Nội dung

Luận văn tốt nghiệp Phát luật cách sử dụng siêu phằng tối ưu theo hướng tiếp cận thô LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÓM TĂT KHOÁ LUẬN TỐT NGHIỆP Cùng với phát triển Công Nghệ Thông Tin ngày nay, khai phá tri thức sở dư liệu lớn lĩnh vực nhiều nhà nguyên cứu ứng dụng tin học đặc biệt quan tâm Việc nguyên cứu phương pháp tự động phát tri thức sở dư liệu máy tính tỏ thực hữu ích việc hỗ trợ định cho người Hiện nay, giới có nhiều thuật tốn khai phá tri thức cách phân lớp rời rạc liệu như: Sử dụng định, phương pháp thống kê, mạng nơ ron, thuật toán di truyền, Trong vài năm gần đây, lý thuyết tâp thô nhiều nhóm nguyên cứu hoạt động lĩnh vực tin học nói chung khai phá tri thức nói riêng nguyên cứu áp dụng thực tế Lý thuyết tập thơ xây dựng tảng tốn học vững giúp cung cấp cơng cụ hữu ích để giải toán phân lớp liệu khai phá luật, Với đặc tính xử lý liệu mơ hồ, không chắn tập thơ tỏ hữu ích việc giải toán thực tế Từ bảng liệu lớn với liệu dư thừa, khơng hồn hảo, liệu liên tục, hay liệu dạng ký hiệu lý thuyết tập thô cho phép khai phá tri thức từ khối liệu nhằm phát luật tiềm ẩn từ khối liệu Trong khố ln tốt nghiệp chúng tơi trình bày số phương pháp rời rạc hoá liệu theo hướng tiếp cận tập thơ Và xây dựng chương trình thử nghiệm: phát luật cách sử dụng siêu phẳng tối ưu theo hướng tiếp cân tập thơ Chương trình xây dựng để thử nghiệm liệu chứa thông tin 768 bệnh nhân bị bệnh tiểu đường cung cấp tổ chức “National Institute of Diabetes and Digestive and Kidney Diseases” Từ xây dựng hệ thống luật dựa định dùng để hỗ trợ việc khám bệnh bác sĩ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC MỤC LỤC .2 PHẦN MỞ ĐẦU .5 Chương TỔNG QUAN VỀ KHAI PHÁ TRI THỨC .8 1.1 Khai phá tri thức 1.1.1 Định nghĩa khai phá tri thức 1.1.2 Các giai đoạn trình khai phá tri thức .8 1.1.3 Khai phá liệu 10 1.2 Khai phá tri thức theo cách tiếp cận tập thô 12 1.2.1 Một số khái niệm 12 1.2.1.1 Khái niệm hệ thông tin 12 1.2.1.2 Khái niêm bảng định .13 1.2.1.3 Khái niệm quan hệ không phân biệt hệ thông tin 15 1.2.1.4 Khái niệm tập nhát cắt, nhát cắt bảng định 16 1.2.1.5 Tập thô không gian xấp xỉ 17 1.2.2 Khai phá tri thức theo cách tiếp cận tập thô 19 1.2.2.1 Sự rời rạc hố liệu theo cách tiếp cận tập thơ .19 1.2.2.2 Lựa chọn thuộc tính dựa tập thô 19 1.2.2.3 Khám phá luật bới bảng phân bố tổng quát dựa tập thô 20 1.2.2.4 Khám phá mẫu hệ thông tin 20 1.3 Kết luận 21 Chương KHAI PHÁ LUẬT KẾT HỢP 22 2.1 Khai phá luật kết hợp sở liệu 22 2.1.1 Bài toán xuất phát 22 2.1.2 Mơ hình hố tốn .22 2.1.3 Thuật toán khai phá luật kết hợp 25 2.1.3.1 Tập phổ biến .25 2.1.3.2 Khai phá luật dựa tập mục phổ biến .25 2.1.4 Kết luận .28 2.2 Sinh định từ hệ thông tin 29 2.2.1 Thuật toán học định 29 2.2.2 Một số phương pháp giải vấn đề rời rạc hoá .35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.2.2.1 Maximal Discernibility (MD) Heuristic 35 2.2.2.2 Sự rời rạc hoá định nghĩa siêu phẳng 36 2.2.2.3 Những tính chất phương thức MD 39 2.2.2.4 Xây dựng định không đối xứng .43 2.2.3 Kết luận .50 Chương CHƯƠNG TRÌNH THỬ NGHIỆM .51 3.1 Mô tả liệu 51 3.2 Xây dựng chương trình 53 3.3 Kết thử nghiệm 57 3.4 Nhận xét 61 KẾT LUẬN 62 Tài liêu tham khảo: 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CÁC KÝ HIỆU SỬ DỤNG TRONG LUẬN VĂN Ký hiệu Mô tả A Hệ thông tin hay bảng định A, B Tập thuộc tính hệ thơng tin D Tập thuộc tính định hệ thơng tin a Một thuộc tính điêu kiện hệ thơng tin Va Tập giá trị thuộc tính điều kiện a U Tập tất đối tượng ∅ Tập rỗng ⊆ Bị chứa ∈ Thuộc (phần tử thuộc tập hơp) ≥ Lớn ≤ Nhỏ ≠ Khác ∪, ∩ phép lấy giao hợp tập hợp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com PHẦN MỞ ĐẦU Trong vài năm gần đây, ngành cơng nghệ thơng tin tồn giới phát triển mạnh mẽ với tốc độ nhanh Song song với điều phải đối mặt với thách thức bùng nổ lượng thông tin Tuy nhiên, thực tế diễn phổ biến có lượng liệu lớn thơng tin mà thực có ít, hiểu biết thực lượng liệu mà có cịn hạn chế Xuất phát từ thực tế mà vài năm gần nhà nguyên cứu ứng dụng tin học phải nguyên cứu, tìm kiếm phương pháp để khai thác triệt để thơng tin có sở liệu Từ cuối năm thập kỷ 1980 khái niệm phát tri thức sở liệu lần nói đến, q trình phát tri thức tiềm ẩn, khơng biết trước hữu ích sở liệu lớn Khắc phục hạn chế mơ hình sở liệu truyền thống với công cụ truy vấn liệu khơng có khả tìm kiếm thông tin mới, thông tin tiềm ẩn sở liệu Khai phá tri thức sở liệu q trình tìm thơng tin mới, thơng tin hữu ích, tiềm ẩn sở liệu Quá trình phát tri thức gồm nhiều giai đoạn, giai đoạn khai phá liệu quan trọng Đây giai đoạn tìm thơng tin sở liệu Quá trình phát tri thức tiếp thu, sử dụng phát triển thành tựu nhiều lĩnh vực nguyên cứu ứng dụng tin học trước như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, thống kê, v.v Từ đầu năm 80 Z Pawlak đề xuất lý thuyết tập thô với sở toán học chắn Trong năm gần đây, lý thuyết tập thơ nhiều nhóm ngun cứu hoạt động lĩnh vực tin học nói chung khai phá tri thức sở liệu nói riêng nguyên cứu áp dụng thực tế [2,4,6,10,12] Lý thuyết tập thô ngày áp dụng rộng rãi lĩnh vực phát tri thức Nó tỏ hữu ích việc giải toán phân lớp liệu, phát luật đặc biệt hữu ích tốn phải xử lý liệu mơ hồ, không chắn Các mối quan hệ liệu mơ hình biểu diễn qua mối quan hệ “không phân biệt được”, tập liệu mơ hồ, không chắn biểu diễn thông qua tập xấp xỉ xấp xỉ Nhờ vào điều mà liệu phân tích xử lý cơng cụ tốn học Cụ thể lý thuyết tập thô liệu biểu diễn thông qua hệ thông tin hay bảng Từ thực tế, với bảng liệu lớn với liệu không hồn hảo, có liệu dư thừa, liệu liên tục hay biểu diễn dạng ký hiệu, lý thuyết tập thô cho phép khai phá tri thức sở liệu nhằm phát tri thức tiềm ẩn từ khối liệu “thơ” Tri thức tìm được thể dạng luật, mẫu Sau tìm quy luật chung để biểu diễn liệu, người ta tính tốn độ mạnh độ phụ thuộc thuộc tính hệ thơng tin LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Theo Skowron NingZong [2], cách tiếp cận tập thô để phân tích liệu có nhiều điểm lợi quan trọng sau: − Cho phép xử lý hiệu bảng liệu lớn, loại bỏ liệu dư thừa, liệu khơng hồn hảo, liệu liên tục − Hiệu việc tìm kiếm mẫu tiềm ẩn sở liệu − Sử dụng tri thức kinh nghiệm − Nhận mối quan hệ mà sử dụng phương pháp thống kê khác không phát − Sử dụng quan hệ thứ lỗi trình phát mẫu − Làm việc hiệu tập rút gọn − Cách giải thích rõ ràng dễ hiểu Với đặc điểm tập thơ chứng tỏ lý thuyết hiệu lĩnh vực khai phá liệu Trong khoa luận tốt nghiệp xin trình bày số ứng dụng lý thuyết tâp thô Việc phát tri thức thực cách phân lớp, rời rạc hoá liệu từ sinh luật, tri thức Phương pháp nguyên cứu chủ yếu khoá luận tốt nghiệp tìm hiểu phân tích nội dung báo công bố lĩnh vực khai phá tri thức năm gần Từ kiến thức thu xây dựng chương trình thử nghiệm mơ thuật tốn xây dựng định tối ưu cách sử dụng siêu phẳng tối ưu trình bày [9] Chương trình tiến hành khai phá tri thức cớ sở liệu lưu thông tin 678 bệnh nhân tiểu đường cung cấp tổ chức “National Institute of Diabetes and Digestive and Kidney Diseases” Từ sinh luật định hỗ trợ trình khám bệnh bệnh nhân Khố luận tốt nghiệp trình bày gôm phần: Phần mở đầu, chương phần kết luận Trong đó: Chương 1: Khóa luận trình bày kiến thức chung khai phá tri thức khai phá tri thức theo cách tiếp cận tập thơ Chương 2: Khóa luận trình bày chi tiết số thuật toán khai phá tri thức, chủ yếư khai phá luật sở liệu Trong đáng ý thuật tốn xây dựng định tối ưu cách sử dụng siêu phẳng tối ưu Chương 3: Khóa luận trình bày kết thử nghiệm toán khai phá luật định tối ưu trình bày chương áp dụng sở liệu bệnh nhân bị tiểu đường lấy từ mạng Qua đánh giá hiệu thuật tốn trình bày [9] Khóa luận hồn thành duới giúp đỡ Tiến Sĩ Hà Quang Thuỵ , Bộ môn hệ thông thông tin, Khoa Công Nghệ, ĐHQG Hà Nội Em xin bày tỏ lịng kính trọng biết ơn sâu sắc tới Thầy hướng dẫn, động viên tạo điều kiện cho em q trình làm khố luận tốt nghiệp Em xin chân thành cảm ơn Thầy Đỗ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Văng Thành, Văn phong phủ, người truyền thụ cho em kiến thức tảng sở để em hồn thành khố luận tơt nghiệp Em xin chân thành cảm ơn thầy cô giáo môn Các Hệ Thống Thơng Tin, nhóm “Seminar Data Mining and KDD” Cuối em xin chân thành cảm ơn tới người thân gia đình, bạn bè giúp đỡ động viên em nhiều trình nguyên cứu học tập LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương TỔNG QUAN VỀ KHAI PHÁ TRI THỨC 1.1 Khai phá tri thức Phát tri thức khái niệm đời vào năm cuối thập kỷ 80 trở thành lĩnh vực nguyên cứu rộng rãi toàn cầu Sự đời phát tri thức kết hợp kết nguyên cứu nhiều ngành khoa học khác lại với như: Quản trị sở liệu, học máy, thống kê v.v 1.1.1 Định nghĩa khai phá tri thức Khai phá tri thức (Khai phá tri thức-Knowledge Discovery in Databases) sở liệu trình phát tri thức tiềm ẩn, khơng biết trước, có ích trong sở liệu Thực chất q trình tìm kiếm thơng tin có sở liệu bị che giấu khối liệu Tri thức hiểu biểu thức ngơn ngữ diễn tả nhiều mối quan hệ thuộc tính liệu Các ngơn ngữ thường dùng để biểi diễn tri thức việc biểu diễn tri thức trình phát tri thức từ sở dư liệu khung (frames), đồ thị, luật, công thức logic mệnh đề logic tân từ cấp Việc khai phá tri thức thường áp dụng để giả loạt yều cầu phục vụ mục đích định Do nên trình phát tri thức mang tính chất hướng nhiệm vụ, khơng phải phát tri thức mà phát tri thức phục vụ tốt nhiệm vụ đề Vì vậy, trình phát tri thức hoạt động tương tác người sử dụng chun gia phân tích với cơng cụ tin học 1.1.2 Các giai đoạn trình khai phá tri thức Mục đích q trình khai phá tri thức: Từ sở liệu sống thực tế sau bước trình rút tri thức Các bước q trình lặp lặp lại nhiều lần mơ tả theo hình sau [4,8]: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Xác định định nghĩa vấn đề Thu nhập tiền xử lý liệu Khai phá liệu Giải thích kết đánh giá Sử dụng tri thức phát Hình Mơ hình mơ tả q trình khai phá tri thức Giai đoạn 1:Xác định định nghĩa vấn đề − Tìm hiểu lĩnh vực ứng dụng nhiệm vụ đề ra, xác định tri thức có mục tiêu người sử dụng − Tạo chọn lựa sở liệu Giai đoạn 2: Thu nhập tiền xử lý liệu − Xử lý làm liệu trước: Bỏ liệu tạp bao gồm lỗi dạng khơng bình thường Xử lý liệu bị mất, chuyển đổi liệu phù hợp − Rút gọn kích thước liệu nhận được: Nhận thuộc tính hữu ích cho q trình phát tri thức Giai đoạn 3: Khai phá liệu − Chọn nhiệm vụ khai phá liệu − Lựa chọn phương pháp khai phá liệu − Khai phá liệu để rút mẫu, mơ hình Giai đoạn 4:Giải thích kết đánh giá mẫu, mơ hình tìm giai đoạn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com (2),124 (8), 34 (d=1) (d=2) (d=2) Hình Cây định thành lập sau thực thuật toán từ định ta có luật sau: Nếu ((2)>124) (9)=2 Nếu ((2)

Ngày đăng: 01/11/2022, 19:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w