Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
226,25 KB
Nội dung
Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI ===SOHG3=== TRẦN THỊ PHƯƠNG LIÊN NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ VÀ ỨNG DỤNG LUẬN VĂN THẠC sĩ MÁY TÍNH Bộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI ===#T)tïïIoa=== TRẦN THỊ PHƯƠNG LIÊN NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GON THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ VÀ ỨNG DUNG a Chuyên ngành: Khoa Học Máy Tính Mã số: 60480101 LUẬN VĂN THẠC sĩ MÁY TÍNH Người hướng dẫn khoa học: TS Nguyễn Long Giang LỜI CÁM ƠN Trong thời gian qua để hoàn thành luận văn nhận đuợc giúp đỡ tận tình thầy hướng dẫn khoa học, thầy cô trường Đại học Su phạm Hà Nội Tôi xin chân thành cảm ơn thầy cô trường Đại học Su phạm Hà Nội tạo điều kiện học tập, nghiên cứu giúp đỡ nhiều trình làm luận văn Đặc biệt xin cảm ơn thầy TS.Nguyễn long Giang tận tình hướng dẫn, bảo suốt trình học tập, nghiên cứu đề tài giúp đỡ hoàn thành luận văn Vĩnh Phúc, ngày 21 tháng 11 năm 2015 Học viên Trần Thị Phương Liền LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu hướng dẫn khoa học TS Nguyễn Long Giang Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác Học viên Trần Thị Phương Liền MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN PHỤ LỤC I DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Tập thô dung sai Tolerance Rough Set Hệ thông tin Information System Hệ thông tin đầy đủ Complete Information System Hệ thông tin không đầy đủ Incomplete Information System Bảng định Decision Table Bảng định đầy đủ Complete Decision Table Bảng định không đầy đủ Incomplete Decision Table Quan hệ không phân biệt Indiscernibility Relation Quan hệ dung sai Tolerance Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Luật định Decision Rule Khoảng cách Distance DANH MỤC CÁC BẢNG V DANH MỤC CÁC HÌNH VẼ Hình 2.1 Móỉ' liên hệ tập rút gọn bảng định không đầy đủ 15 Hình 3.1 Ket rút gọn thuộc tính .42 Hình 3.2 Ket sinh luật định 43 MỞ ĐẦU Lý chọn đề tài Rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu trình khai phá liệu khám phá tri thức Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa liệu nhằm tìm thuộc tính cốt lõi Dựa vào tập thuộc tính cốt lõi tìm được, thuật toán khai phá liệu đạt hiệu cao Với lớp toán trích lọc luật bảng định, rút gọn thuộc tính trình tìm tập rút gọn (reduct) tập thuộc tính điều kiện mà bảo toàn thông tin phân lớp bảng định Dựa vào tập rút gọn, việc sinh luật định đạt hiệu cao Lý thuyết tập thô truyền thống Pawlak [11] xem công cụ hiệu để giải toán rút gọn thuộc tính sinh luật bảng định đầy đủ Tuy nhiên với toán thực tế, miền giá trị thuộc tính bảng định thường không đầy đủ giá trị Ví dụ lĩnh vực y tế, bác sỳ thu thập đầy đủ triệu trứng bệnh nhân để phục vụ chuẩn đoán bệnh Các bảng định gọi bảng định không đầy đủ (Incomplete Decision Table) Để giải toán rút gọn thuộc tính trích lọc luật bảng định không đầy đủ, công trình nghiên cứu Kryszkiewicz [5] thực mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai đề xuất mô hình tập thô dung sai nhằm rút gọn thuộc tính trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Dựa mô hình tập thô dung sai, số công trình công bố năm gần đề xuất số độ đo không chắn nhằm giải toán rút gọn thuộc tính trích lọc luật, đáng ý công trình [2], [3], [4], [6], [7], [8], [9], [10], Như trình bày trên, rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu trìĩứrìđiai phá liệu khám phá tri thức Do đó, việc nghiên cứu phương pháp rút gọn thuộc tính có ý nghĩa thực tiễn cao Hơn nữa, mô hình tập thô dung sai chứng minh công cụ hiệu để giải toán rút gọn thuộc tính, việc tiếp tục nghiên cứu nhằm tìm phương pháp mới, hiệu có ý nghĩa khoa học Do đó, chọn đề tài “Nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ ứng dụng” (2) V/?' [...]... Nhóm 3 không so sánh được với các phương pháp thuộc Nhóm 4 do tập rút gọn RD và tập rút gọn R không có mối quan hệ 2.2 Xây dựng phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách Trong phần 2.1, luận văn đã tổng kết các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính và luật quyết định trong bảng quyết định không đầy đủ, bao gồm: kết quả về phân nhóm các phương. .. nghiên cứu về các phương pháp rút gọn thuộc tính và trích lọc luật trong bảng quyết định không đầy đủ, bao gồm: tổng hợp và phân nhổm các phương pháp rút gọn thuộc tính dựa vào tập rút gọn; tổng hợp các kết quả nghiên cứu về luật quyết định và các độ đo đánh giá hiệu năng; tổng hợp các kết quả nghiên cứu về so sánh, đánh giá các phương pháp rút gọn thuộc tính Các kết quả này được công bố trong các công... đó phương pháp miền dương thuộc Nhóm 1 không phù hợp với các bảng quyết định không đầy đủ không nhất quán 3) Tập rút gọn R2, tập rút gọn /?3 và tập rút gọn R4 đều bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không đầy đủ không nhất quán Do đó, các phương pháp trong Nhóm 1, Nhóm 2, Nhóm 3 đều phù hợp với các bảng quyết định không đầy đủ không nhất quán 2) So sánh, đánh giá các phương pháp. .. định không đầy đủ Theo tiếp cận mô hình tập thô dung sai, cho đến nay đã có rất nhiều phương pháp rút gọn thuộc tính dựa trên các độ đo khác nhau đã được công bố [3, 7, 8, 14] Trong công trình [7, 8, 14], các tác giả đã tổngrkết khá đầy đủ các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ và các tập rút gọn tương ứng 2 Bảng 2.1 Các phương pháp rút gọn thuộc tính trong công trình... tôi rút ra kết luận 1) Tập rút gọn /?!, tập rút gọn R2, tập rút gọn /?3 và tập rút gọn /?4 đều bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không đầy đủ nhất quán Do đó, tất cả các phương pháp rút gọn thuộc tính đã trình bày ở bài báo này đều phù hợp với các bảng quyết định không đầy đủ nhất quán 2) Tập rút gọn R1 làm giảm độ chắc chắc của tập luật đối với bảng quyết định không đầy đủ không. .. không đầy đủ, các tác giả trong công trình [7] đã xây dựng công thức tính khoảng cách giữa hai phủ (sinh bởi hai tập thuộc tính) dựa vào độ đo Entropy Liang mở rộng, từ đó đề xuất phương pháp rút gọn thuộc tính trong hệ thông tin không đầy đủ và bảng quyết định không đầy đủ Tiếp tục hướng nghiên cứu về kỹ thuật sử dụng khoảng cách, trong phần này luận văn xây dựng phương pháp rút gọn thuộc tính trong bảng. .. tượng và phạm vi nghiên cửu - Đối tượng nghiên cứu: Các bảng quyết định không đầy đủ (thiếu giá trị) với kích thước trung bình và kích thước lớn trong lĩnh vực nghiên cứu và bảng quyết định đầy đủ - Phạm vi nghiên cứu: Nghiên cứu bài toán rút gọn thuộc tính trong bước tiền xử lý dữ liệu của quá trìnhTchai phá dữ liệu và khám phá tri thức 5 Phương pháp nghiên cửu - Nghiên cứu lý thuyết: Nghiên cứu cátrTcết... luật quyết định và các độ đo đánh giá hiệu năng trong bảng quyết định đầy đủ và không đầy đủ tôi cũng tổng hợp kết quả nghiên cứu về sự thay đổi các độ đo trên các tập rút gọn của các nhóm phương pháp, từ đó trình bày kết quả so sánh, đánh giá các phương pháp rút gọn thuộc tính dựa trên tiêu chuẩn chất lượng phân lớp của tập rút gọn 2.1.2 Luật quyết định và các độ đo đánh giá hiệu năng a) Luật quyết định. .. dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm: xây dựng độ đo khoảng cách; định nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên khoảng cách; xây dựng thuật toán heuristic tìm tập rút gọn; phân nhóm, đánh giá phương pháp với các phương pháp đã công bố 2 2.1 Rút gọn thuộc tính và trích lọc luật trong bảng quyết định không đầy đủ 2.1.1 Tổng kết, phân nhóm các phương pháp. .. khoảng cách từ tập thuộc tính điều kiện A đến thuộc tính quyết định {d} là đại lượng đối ngẫu với độ chắc chắn của bảng quyết định Nếu khoảng cách này càng lớn (thuộc tính điều kiện càng xa thuộc tính quyết định) thì độ chắc chắn của bảng quyết định càng nhỏ và ngược lại 2.2.2 Phương pháp rút gọn thuộc tính sử dụng khoảng cách Giống như các phương pháp rút gọn thuộc tính khác, để xây dựng phương pháp