Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
373,2 KB
Nội dung
1 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… VŨ VĂN ĐỊNH RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN TẬP THÔ DUNG SAI Chuyên ngành: Cơ sở toán học cho tin học Mã số: 62.46.01.10 TÓM TẮT NLUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI - 2016 Công trình hoàn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: GS.TS Vũ Đức Thi Người hướng dẫn khoa học 2: PGS.TS Ngô Quốc Tạo Phản biện 1: … Phản biện 2: … Phản biện 3: … Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 2016 Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Lý thuyết tập thô Pawlak đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu không đầy đủ, không chắn Trong toán thực tế, bảng định thường thiếu giá trị miền giá trị thuộc tính Trên bảng định không đầy đủ, Kryszkiewicz mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai đề xuất mô hình tập thô dung sai nhằm trích lọc luật trực tiếp không qua bước xử lý giá trị thiếu Các phương pháp rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận tập thô dung sai năm gần là: phương pháp dựa miền dương, phương pháp sử dụng hàm định suy rộng, phương pháp sử dụng lượng thông tin, phương pháp sử dụng metric, phương pháp sử dụng hàm phân bố (distribution reduct), phương pháp sử dụng hàm ấn định (assignment reduct), phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng ma trận dung sai Trên sở tổng kết nghiên cứu liên quan đến phương pháp rút gọn thuộc tính luận án đặt vấn đề cần nghiên cứu sau: Có thể nói tập rút gọn kết phương pháp rút gọn thuộc tính Trong bảng định quán, công bố tập rút gọn phương pháp dựa miền dương, tập rút gọn phương pháp sử dụng hàm định suy rộng, tập rút gọn sử dụng hàm phân bố, phương pháp sử dụng hàm ấn định, có định nghĩa độ đo tương đương Tuy nhiên bảng định không quán, tập rút gọn phương pháp khác theo tài liệu có mà tác giả biết chưa có nghiên cứu liên quan đến việc so sánh tập rút gọn làm sở để so sánh, đánh giá phương pháp rút gọn thuộc tính Việc so sánh, đánh giá phương pháp rút gọn thuộc tính thường dựa hai tiêu chuẩn: độ phức tạp thời gian thuật toán heuristic tìm tập rút gọn khả phân lớp tập rút gọn Từ việc tổng kết phương pháp rút gọn thuộc tính, tác giả thấy sử dụng đơn vị tính toán sở tập thô dung sai (lực lượng lớp dung sai) độ phức tạp thời gian thuật toán heuristic phương pháp gần (độ phức tạp thời gian đa thức) Do đó, việc so sánh, đánh giá phương pháp sử dụng tiêu chuẩn khả phân lớp (độ hỗ trợ tập luật) tập rút gọn Về mặt định tính, tập rút gọn bảo toàn khả phân lớp bảng định Về mặt định lượng, tập rút gọn bảo toàn độ chắn tập luật định Tập rút gọn phương pháp có độ hỗ trợ tập luật cao (luật định phủ nhiều đối tượng) có khả phân lớp cao Do đó, khả phân lớp tính độ hỗ trợ tập luật Các tác giả đưa độ chắn, độ quán độ hỗ trợ tập luật định bảng định không đầy đủ Tuy nhiên, tác giả chưa nghiên cứu thay đổi độ đo tập rút gọn phương pháp rút gọn thuộc tính, độ đo không đánh giá khả phân lớp tập rút gọn đòi hỏi phải có độ chắn, độ hỗ trợ để đánh giá khả phân lớp tập rút gọn, làm sở để so sánh, đánh giá phương pháp rút gọn thuộc tính Hướng nghiên cứu rút gọn thuộc tính đạt số kết định Tuy nhiên, việc nghiên cứu tìm kiếm phương pháp đòi hỏi nhiều nỗ lực nghiên cứu nhằm phong phú thêm phương pháp rút gọn thuộc tính Trên sở đó, lựa chọn phương pháp phù hợp để giải toán thực tiễn Mục tiêu nghiên cứu luận án 1) Trong bảng định quán, công bố tập rút gọn phương pháp tương đương Tuy nhiên bảng định không quán, tập rút gọn phương pháp khác theo tài liệu có mà tác giả biết chưa có nghiên cứu liên quan đến việc so sánh tập rút gọn để so sánh, đánh giá phương pháp rút gọn 2) Việc so sánh, đánh giá phương pháp rút gọn thuộc tính thường dựa hai tiêu chuẩn: độ phức tạp thời gian thuật toán heuristic tìm tập rút gọn khả phân lớp tập rút gọn Tác giả thấy sử dụng đơn vị tính toán sở tập thô dung sai độ phức tạp thời gian thuật toán heuristic phương pháp (độ phức tạp thời gian đa thức) Do đó, việc so sánh, đánh giá phương pháp sử dụng tiêu chuẩn khả phân lớp tập rút gọn(độ hỗ trợ tập luật) Về mặt định tính, tập rút gọn bảo toàn khả phân lớp bảng định Về mặt định lượng, tập rút gọn bảo toàn độ chắn tập luật định Tập rút gọn phương pháp có độ hỗ trợ tập luật cao có khả phân lớp cao Do đó, khả phân lớp tính độ hỗ trợ tập luật Trong nghiên cứu trước, tác giả đưa độ chắn, độ quán độ hỗ trợ tập luật định bảng định không đầy đủ Tuy nhiên, tác giả chưa nghiên cứu thay đổi độ đo tập rút gọn phương pháp rút gọn thuộc tính, độ đo không đánh giá khả phân lớp tập rút gọn đòi hỏi phải có độ chắn, độ hỗ trợ để đánh giá khả phân lớp tập rút gọn, làm sở để so sánh, đánh giá phương pháp rút gọn thuộc tính 3) Hướng nghiên cứu rút gọn thuộc tính đạt số kết định Tuy nhiên, việc nghiên cứu tìm kiếm phương pháp đòi hỏi nhiều nỗ lực nghiên cứu nhằm phong phú thêm phương pháp rút gọn thuộc tính Trên sở đó, lựa chọn phương pháp phù hợp để giải toán thực tiễn Các nội dung nghiên cứu luận án Chương trình bày khái niệm mô hình tập thô dung sai dựa quan hệ dung sai hệ thông tin không đầy đủ Chương trình bày hai kết Thứ kết phân nhóm phương pháp rút gọn thuộc tính dựa vào kết nghiên cứu mối liên hệ tập rút gọn Thứ hai đề xuất độ đo đánh giá hiệu tập luật định nghiên cứu thay đổi giá trị độ đo tập rút gọn nhằm so sánh, đánh giá nhóm phương pháp rút gọn thuộc tính tiêu chuẩn khả phân lớp tập rút gọn (độ hỗ trợ) Chương trình bày ba kết Thứ chọn tập tối tượng đại diện cho toán rút gọn thuộc tính nhằm giảm thiểu số đối tượng (dữ liệu), Thứ hai đề xuất phương pháp rút gọn thuộc tính sử dụng hàm quan hệ so sánh, thử nghiệm phương pháp với phương pháp có số liệu UCI Thứ ba đề xuất phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng so sánh, thử nghiệm phương pháp với phương pháp có số liệu UCI Chương CÁC KHÁI NIỆM CƠ BẢN Chương trình bày số khái niệm mô hình tập thô mở rộng dựa quan hệ dung sai, hệ thông tin không đầy đủ 1.1 Hệ thông tin không đầy đủ Hệ thông tin cặp IS U , A U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc tính Mỗi thuộc tính a A xác định ánh xạ: a : U Va với Va tập giá trị thuộc tính a A Với hệ thông tin IS U , A , tồn u U a A cho a u chứa giá trị thiếu (missing value) IS gọi hệ thông tin không đầy đủ, trái lại IS gọi hệ thông tin đầy đủ Ta biểu diễn giá trị thiếu ký hiệu ‘*’ hệ thông tin không đầy đủ IIS U , A 1.2 Mô hình tập thô dung sai Xét hệ thông tin không đầy đủ IIS U , A , với tập thuộc tính định nghĩa quan hệ nhị phân U sau: P A ta SIM P u , v U U a P, a u a v a u '*' a v '*' Quan hệ SIM P quan hệ tương đương chúng có tính phản xạ, đối xứng tính bắc cầu Do đó, SIM P quan hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity relation) U Ta có, SIM P aP SIM a 1.3 Bảng định không đầy đủ Bảng định hệ thông tin DS với tập thuộc tính A chia thành hai tập khác rỗng rời C D , gọi tập thuộc tính điều kiện tập thuộc tính định Tức DS U , C D với CD Xét bảng định DS U , C D với giả thiết u U , d D , d u đầy đủ giá trị, tồn u U c C cho c u thiếu giá trị DS gọi bảng định không đầy đủ, trái lại DS gọi bảng định đầy đủ Ta biểu diễn bảng định không đầy đủ IDS U , C D với d D, '*' Vd Không tính chất tổng quát, giả thiết D gồm thuộc tính định d 1.4 Tập rút gọn tập lõi Định nghĩa 1.2 Cho hệ thông tin không đầy đủ IIS U , A Ta nói thuộc tính a A không cần thiết (dispensable) A U / SIM A U / SIM A a ; ngược lại, a gọi cần thiết (indispensable) A Tập tất thuộc tính cần thiết A gọi tập lõi A Khi đó, thuộc tính cần thiết thuộc tính lõi Định nghĩa 1.3 Cho hệ thông tin không đầy đủ IIS U , A Tập thuộc tính R A tập rút gọn A U / SIM R U / SIM A với r R , U / SIM R r U / SIM A Hiển nhiên, A có nhiều tập rút gọn Khi đó, tập lõi A giao tất tập rút gọn A Kết luận chương Chương trình bày số khái niệm mô hình tập thô dung sai Kryszkiewicz đề xuất số khái niệm tập rút gọn tập lõi hệ thông tin không đầy đủ bảng định không đầy đủ Các khái niệm sử dụng chương chương luận án Chương PHÂN NHÓM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 2.1 Mở đầu Chương trình bày kết nghiên cứu sau đây: 1) Phân nhóm phương pháp rút gọn thuộc tính bảng định không đầy đủ dựa vào nghiên cứu mối liên hệ khái niệm tập rút gọn 2) Đánh giá phương pháp rút gọn thuộc tính dựa vào nghiên cứu thay đổi độ đo đánh giá hiệu tập luật định khái niệm tập rút gọn 2.2 Phân nhóm phương pháp rút gọn thuộc tính Tiêu chí phân nhóm là: phương pháp có tập rút gọn phân thành nhóm Các kết phần tác giả công bố tài liệu [1] 2.2.1 Các khái niệm tập rút gọn bảng định không đầy đủ Kryszkiewicz M cộng đư khái niệm tập rút gọn IDS dựa hàm định suy rộng ( R ), Zuqiang Meng cộng đưa khái niệm tập rút gọn dựa miền dương ( RP ), Huang B cộng đưa khái niệm tập rút gọn dựa lượng thông tin (information quantity)( RI ) Tác giả trước đưa khái niệm tập rút gọn dựa metric( RD ), Huasheng ZOU cộng đưa khái niệm tập rút gọn dựa ma trận phân biệt( RM ) Công trình trước tác giả đưa khái niệm tập rút gọn dựa ma trận dung sai( RTM ), ra, công trình khác, tác giả đưa khái niệm tập rút gọn phân bố (distribution reduct)( R ), tập rút gọn ấn định (assignment reduct)( R ) Kết nghiên cứu mối liên hệ khái niệm tập rút gọn sau: 1) Nếu bảng định quán, tác giả định nghĩa độ đo RP , R , R , R 2) Nếu bảng định không quán, Renpu Li cộng chứng minh R R định nghĩa độ đo Huasheng ZOU cộng chứng minh R RM định nghĩa độ đo 2.2.2 Mối liên hệ khái niệm tập rút gọn RD , RI , RTM IDS U , A d Mệnh đề 2.1 Cho bảng định không đầy đủ Khi d E K R , K R d d E K A , K A d I R d I A d và R A Mệnh đề 2.2 Cho bảng định không đầy đủ IDS U , A d , R A TM mi j ma trận dung sai IDS Khi nn d E K R , K R d d E K A , K A d R mi j với mi j 2.2.3 Mối liên hệ R RP Mệnh đề 2.3 Cho bảng định không đầy đủ IDS U , A d Nếu R u A u với u U POS R d POS A d 2.2.4 Mối liên hệ RD R A R Mệnh đề 2.4 Cho bảng định không đầy đủ IDS U , A d R A Nếu d E K R , K R d d E K A , K A d u U , R u A u 2.2.5 Mối liên hệ R R IDS U , A d Mệnh đề 2.5 Cho bảng định không đầy đủ Nếu u U , R u A u u U , R u A u 2.2.6 R A Phân nhóm phương pháp rút gọn thuộc tính Nếu bảng định quán, tập rút gọn RTM , R RP , R , R , RM , RD , RI , Nếu bảng định không quán, mối liên hệ tập rút gọn nhóm sau: RP R , R , RM R D , R I , RTM R Nếu R3 tập rút gọn thuộc Nhóm tồn tập rút gọn R2 thuộc Nhóm tập rút gọn R1 thuộc Nhóm cho R1 R2 R3 Nếu R4 tập rút gọn thuộc Nhóm tồn tập rút gọn R2 thuộc Nhóm tập rút gọn R1 thuộc Nhóm cho R1 R2 R4 2.3 Đánh giá phương pháp rút gọn thuộc tính Chúng đề xuất độ đo nghiên cứu thay đổi giá trị độ đo đề xuất tập rút gọn nhằm đánh giá phương pháp rút gọn thuộc tính Các kết phần tác giả công bố tài liệu [2] 2.3.1 Luật định độ đo đánh giá hiệu Yuhua Qian cộng sự, đưa độ chắn, độ quán độ hỗ trợ tập luật bảng định không đầy đủ dựa khái niệm khối đồng cực đại Điểm hạn chế lớn công trình tác giả chưa đánh giá thay đổi giá trị độ đo tập rút gọn 2.3.2 Đề xuất độ đo đánh giá hiệu tập luật định Cho bảng định không đầy đủ IDS U , A d với U u1, , un tập luật RULE Zij Zij : des S A ui des Y j với S A ui U / SIM A ,Y j U / d , i n, j m Độ chắn IDS định nghĩa IDS Độ quán n n i 1 N i Ni S A ui Y j S A ui j 1 Ni j 1 S A ui Y j S A ui n 1 IDS định nghĩa IDS Ký hiệu sai S A ui IDS định nghĩa n IDS n i 1 N i Độ hỗ trợ Ni n m S A ui Y j n i 1 j 1 n số luật định (số lớp định) sinh lớp dung Mệnh đề 2.6 Cho hai bảng định không đầy đủ IDS U , A d , IDS ' U , B d RULE Z ij Z ij : des S A ui des Y j với S A ui U / SIM A , Y j U / d , i n , j m IDS IDS ' Nếu B A IDS IDS ' , IDS IDS ' , 2.3.3 Nghiên cứu thay đổi giá trị độ đo đề xuất tập rút gọn Mệnh đề 2.7 Cho hai bảng định không đầy đủ IDS ' U , B d IDS U , A d a) Nếu IDS quán B tập rút gọn miền dương ( RP ) IDS ' IDS , IDS ' IDS , IDS ' IDS b) Nếu IDS không quán B tập rút gọn miền dương ( RP ) IDS ' IDS , IDS ' IDS , IDS ' IDS Như vậy, tập rút gọn miền dương ( RP ) làm giảm độ chắn, giảm độ quán tăng độ hỗ trợ tập luật bảng định không đầy đủ không quán Mệnh đề 2.8 Cho hai bảng định không đầy đủ IDS U , A d IDS ' U , B d Nếu B tập rút gọn dựa hàm định suy rộng ( R ) IDS ' IDS , IDS ' IDS , IDS ' IDS Như vậy, tập rút gọn dựa hàm định suy rộng ( R ) bảo toàn độ chắn, độ quán tăng độ hỗ trợ tập luật định Mệnh đề 2.9 Cho hai bảng định không đầy đủ IDS U , A d IDS ' U , B d Nếu B tập rút gọn dựa khoảng cách ( RD ) IDS ' IDS , IDS ' IDS , IDS ' IDS Mệnh đề 2.10 Cho hai bảng định không đầy đủ IDS U , A d IDS ' U , B d Nếu B tập rút gọn phân bố ( R ) IDS ' IDS , IDS ' IDS , IDS ' IDS 11 Giả sử RBest tập rút gọn tốt phương pháp thuộc Nhóm ( RBest tìm thuật toán heuristic sử dụng hàm định suy rộng, tập rút gọn ấn định hay ma trận phân biệt) Ta có hai trường hợp - Nếu RDBest nghĩa RBest tối thiểu Theo Mệnh đề 2.6, độ hỗ trợ tập luật dựa RBest cao RBest R ( RBest R ) độ hỗ trợ tập luật dựa RBest RDBest , , hay RDBest RBest có chất lượng phân lớp tốt RDBest - Nếu RBest khác R có chất lượng phân lớp tốt RBest có chất lượng phân lớp tốt Mặt khác, chất lượng phân lớp Do đó, RBest tốt Do đó, hai trường hợp RDBest RBest R RDBest RDBest nên R RBest tốt RDBest R chất lượng phân lớp có chất lượng phân lớp tốt Từ kết luận phương pháp thuộc Nhóm hiệu phương pháp thuộc Nhóm theo tiêu chuẩn đánh giá chất lượng phân lớp tập rút gọn Tương tự ta có phương pháp thuộc Nhóm hiệu phương pháp thuộc Nhóm theo tiêu chuẩn đánh giá chất lượng phân lớp tập rút gọn Các phương pháp thuộc Nhóm không so sánh với phương pháp thuộc Nhóm tập rút gọn RD tập rút gọn R mối quan hệ 2.4 Kết luận chương Chương luận án thực nội dung nghiên cứu sau: (1) Phân nhóm phương pháp rút gọn thuộc tính bảng định không đầy đủ không quán dựa vào kết nghiên cứu mối liên hệ khái niệm tập rút gọn, mối liên hệ tập rút gọn nhóm phương pháp Dựa tập rút gọn, phương pháp phân thành bốn nhóm: Nhóm (Tập rút gọn miền dương RP ), Nhóm (tập rút gọn dựa hàm định suy rộng gọn dựa ma trận phân biệt thông tin RI , RM ), R , tập rút gọn ấn định R , tập rút Nhóm (tập rút gọn dựa lượng tập rút gọn dựa ma trận dung sai RTM , tập rút gọn dựa 12 khoảng cách RD ), Nhóm (Tập rút gọn phân bố R ) Kết công bố công trình [1] (2) Đề xuất độ đo đánh giá hiệu tập luật định (độ chắn, độ quán, độ hỗ trợ) Nghiên cứu thay đổi giá trị độ đo đề xuất tập rút gọn bốn nhóm phương pháp Trên sở đó, lựa chọn đánh giá phương pháp rút gọn thuộc tính dựa tiêu chuẩn chất lượng phân lớp tập rút gọn Kết công bố công trình [2] Chương ĐỀ XUẤT CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 3.1 Mở đầu Trong chương này, trước hết giải toán rút gọn liệu đề xuất phương pháp chọn tập đối tượng đại diện Sau đó, đề xuất phương pháp sử dụng lượng thông tin mở rộng phương pháp sử dụng hàm quan hệ Chúng chứng minh phương pháp thuộc Nhóm (theo phân nhóm phương pháp trình bày Chương 2) 3.2 Chọn tập đối tượng đại diện cho toán rút gọn thuộc tính 3.2.1 Chọn tập đối tượng đại diện cho hệ thông tin không đầy đủ Thuật toán 3.1 Chọn tập đối tượng đại diện hệ thông tin không đầy đủ Đầu vào: Hệ thông tin không đầy đủ IIS U , A với U u1, , un , A a1 , , a m Đầu ra: Hệ thông tin không đầy đủ đại diện IIS P U P , A với U P U Bước 1: Đặt U P ; Bước 2: Với A, i m , tính U / ai u a u U với u a v U i i Sai u Sai v m Bước 3: Tính U / A u A / u U với u A u a u a u a m Giả sử U / A X , , X k X i ui , , ui với i k Bước 4: Với X i U / A, , i k , đặt U P : U P ui ; Bước 5: Return IIS P U P , A ; l i 1 i 13 3.2.2 Chọn tập đối tượng đại diện cho bảng định không đầy đủ Thuật toán 3.2 Chọn tập đối tượng đại diện bảng định không đầy đủ Đầu vào: Bảng định không đầy đủ IDS U , A d với U u1 , , un , A a1 , , a m Đầu ra: Bảng định không đầy đủ đại diện IDS p U p , A d với UP U Bước 1: Đặt U P ; Bước 2: Với A, i m , tính U / ai u a u U với u a v U i i Sai u Sai v m Bước 3: Tính U / A u A / u U với u A u a u a u a m i 1 i Giả sử U / A X , , X k ; Bước 4: Với X i U / A, , i k , thực lặp bước 4.1 4.2 sau: Bước 4.1 Tính X i / d u d u X i với u d v X i d u d v Giả sử Y j u j , , u j với j l Bước 4.2 Với Y j X i / d , j l , đặt U P : U P u j ; Bước 5: Return IDS p U p , A d ; X i / d Y1 , , Yl o 3.3 Phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng 3.3.1 Độ đo lượng thông tin mở rộng Cho hệ thông tin đầy đủ U / P P1 , , Pk IS U , A , với phân hoạch sinh tập thuộc tính U u1 , , u n , P A thông tin mở rộng P tập đối tượng U, ký hiệu tổng khoảng cách Jaccard trung bình tập U EI P,U 3.3.2 Khi đó, lượng EI P, U , tính Pi sau: U Pi k Pi k 1 1 k i 1 U Pi k i 1 U k (3.1) Xây dựng lượng thông tin mở rộng có điều kiện Cho bảng định không đầy đủ P A giả sử ta có U / SIM P S p u i u i U , i n IDS U , A d U u1 , , u n với phủ U Khi đó, ta xây 14 dựng lượng thông tin mở rộng có điều kiện (conditional extended information quantity) tập thuộc tính P thuộc tính d , ký hiệu , trung bình cộng lượng thông tin mở rộng thành phần CEI P d thuộc tính d tập đối tượng EI d , S P ui kiP với k ip S p u i , EI d , S P ui số lớp tương đương phân hoạch Giả sử S p u i /d Khi ta có: CEI P d n n n EI d , S u P i n i 1 n i 1 k Pi n i 1 k Pi Cho bảng định không đầy đủ IDS U , A d (3.2) U u1 , , u n , với ta có U / SIM P S p u i u i U , i n phủ U ta xây dựng P A lượng thông tin mở rộng có điều kiện tập thuộc tính P thuộc tính định d , ký hiệu CEI P d , trung bình cộng lượng thông tin mở rộng thành phần thuộc tính d tập đối tượng EI d , S P ui phân hoạch CEI P d 3.3.3 Giả sử S p u i /d EI d , S P ui kiP với k ip S p u i , số lớp tương đương Khi ta có: n n n EI d , S u P i n n i 1 k Pi n i 1 k Pi i 1 (3.2) Rút gọn thuộc tính sử dụng lượng thông tin mở rộng có điều kiện Định nghĩa 3.1 Cho bảng định không đầy đủ thuộc tính R A Nếu IDS U , A d tập 1) CEI R d CEI A d 2) r R, CEI R r d CEI A d R tập rút gọn A dựa lượng thông tin mở rộng có điều kiện 15 Định nghĩa 3.2 Cho bảng định không đầy đủ IDS U , A d , B A b A B Độ quan trọng thuộc tính b tập thuộc tính B định nghĩa bởi: SIGB b CEI B d CEI B b d Thuật toán 3.3 (Thuật toán EIQBAR) Thuật toán heuristic tìm tập rút gọn sử dụng lượng thông tin mở rộng có điều kiện Đầu vào: Bảng định không đầy đủ IDS U , A d Đầu ra: Một tập rút gọn R R ; Tính lượng thông tin mở rộng có điều kiện CEI R d CEI A d ; // Thêm vào R thuộc tính có độ quan trọng lớn While CEI R d CEI A d Begin For a A R Chọn R R a m ; Tính tính cho am A R ; SIGR a CEI R d CEI R a d SIG R a m MaxSIG R a ; a A R ; CEI R d End; //Loại bỏ thuộc tính dư thừa R có 10 For each a R 11 Begin 12 Tính CEI R a d ; 13 14 15 If then CEI R a d CEI R d End; Return R R a ; R; Xét vòng lặp While từ dòng lệnh đến 9, để tính SIGR a ta cần phải tính phải tính CEI R a d CEI R d tính bước trước, nghĩa cần phải tính S R a u i phân hoạch cộng [9], độ phức tạp để tính tính S R a u i S R a u i /d với , độ phức tạp để tính phân hoạch S OU Theo Zhang ui U R a S R u i u i /d với ui U 16 Do đó, độ phức tạp thời gian để tính tất SIG a dòng lệnh OU R số là: A A 1 1 * U với A A * A / * U O A U số thuộc tính điều kiện U 2 số đối tượng Độ phức tạp thời gian để chọn thuộc tính có độ quan trọng lớn dòng lệnh số là: A A 1 A * A 1 / O A Do đó, độ phức tạp thời gian vòng Tương tự, độ phức tạp vòng lặp For từ dòng lệnh số 10 đến 14 O A U Vì vậy, độ phức tạp thời gian Thuật toán EIQBAR O A U lặp While O A U 2 3.3.4 2 Thử nghiệm đánh giá kết Chúng chọn thuật toán MBAR tìm tập rút gọn bảng định không đầy đủ sử dụng metric để so sánh với thuật toán sử dụng lượng thông tin mở rộng đề xuất (Thuật toán EIQBAR) thời gian thực kết thực Bảng 3.4 Kết thực thuật toán MBAR Thuật toán EIQBAR STT Bộ số liệu U Thuật toán Thuật toán MBAR EIQBAR C R t R t Hepatitis.data 155 19 1.296 1.29 Lung-cancer.data 32 56 0.171 0.17 Automobile.data 205 25 1.687 1.68 Anneal.data 798 38 179 178 Congressional Voting Records 435 16 15 16.7 15 16.73 Credit Approval 690 15 15.7 15.68 17 Bảng 3.5 Tập rút gọn thuật toán MBAR Thuật toán EIQBAR Tập rút gọn Tập rút gọn Thuật toán MBAR Thuật toán EIQBAR STT Tập liệu Hepatitis.data {1, 2, 4, 17} {1, 2, 17} Lung-cancer.data {3, 4, 9, 43} {3, 4, 9, 43} Automobile.data {1, 8, 9, 13, 14, 20, 21, 24} {1, 4, 13, 14, 20, 21} Anneal.data {1, 3, 4, 5, 8, 9, 33, 34, 35} {1, 3, 4, 5, 8, 9, 34} Congressional {1, 2, 3, 4, 5, 7, 8, 9, 10, 11, {1, 2, 3, 4, 5, 7, 8, 9, Voting Records 12, 13, 14, 15, 16} 10, 11, 12, 13, 14, 15, 16} Credit Approval {1, 2, 3, 4, 5, 6, 8} {1, 3, 4, 5, 8} Kết thực hai thuật toán tập rút gọn tính toán giá trị độ chắn , độ quán , độ hỗ trợ mô tả Bảng 3.6 sau đây: Bảng 3.6 Kết tính toán độ chắn, độ quán độ hỗ trợ tập rút gọn S T T Thuật toán EIQBAR Bộ số liệu U C R Thuật toán MBAR R Hepatitis.data 155 19 0.909 0.819 0.504 0.909 0.819 0.415 Lung-cancer.data 32 56 1 Automobile.data 205 25 0.915 0.781 0.624 0.915 0.781 0.518 Anneal.data 798 38 0.852 0.755 0.503 0.852 0.755 0.426 Congressional Voting Records 435 16 15 Credit Approval 690 15 1 0.814 0.616 15 0.884 0.802 0.615 1 0.814 0.616 0.884 0.802 0.487 18 Hình 3.1 biễu diễn thay đổi độ hỗ trợ hai tập rút gọn hai thuật toán EIQBAR MBAR 0.900 0.800 0.700 0.600 0.500 0.400 0.300 0.200 Thuật toán EIQBAR Thuật toán MBAR 0.100 ro va l re di t C in g C V ot A R ea l.d nn A pp ec or ds at a at a ut om ob ile d at a A ng -c an ce r.d Lu H ep at iti s.d at a 0.000 Hình 3.1 Sự thay đổi độ hỗ trợ hai tập rút gọn thuật toán EIQBAR, MBAR 1) Kết thử nghiệm từ Bảng 3.4 Bảng 3.5 cho thấy: Trên số liệu Lung-cancer.data, Congressional Voting Records, tập rút gọn thu Thuật toán EIQBAR Thuật toán MBAR Tuy nhiên, với số liệu lại, tập rút gọn thu Thuật toán EIQBAR tối thiểu tập rút gọn thu Thuật toán MBAR Điều phù hợp với kết nghiên cứu lý thuyết Thời gian thực Thuật toán EIQBAR Thuật toán MBAR tương đương 2) Kết thử nghiệm từ Bảng 3.6 Hình 3.1 cho thấy: Độ chắn , độ quán hai tập rút gọn thu hai thuật toán EIQBAR MBAR liệu thử nghiệm 19 Độ hỗ trợ tập rút gọn thu Thuật toán EIQBAR cao độ hỗ trợ tập rút gọn thu Thuật toán MBAR Phần tiếp theo, trình bày phương pháp rút gọn thuộc tính sử dụng hàm quan hệ xây dựng ma trận quan hệ Phương pháp đề xuất thuộc Nhóm 3.4 Phương pháp rút gọn thuộc tính sử dụng hàm quan hệ Trong phần xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng hàm quan hệ Các kết phần tác giả công bố công bố [4] 3.4.1 Ma trận quan hệ hàm quan hệ Định nghĩa 3.3 Cho bảng định không đầy đủ R A U n Ma trận quan hệ IDS IDS U , A d tập thuộc R, với ký hiệu , ma trận vuông cấp n, phần tử có giá trị 1, M R mijR nxn định nghĩa sau: d u j R u i (1) mijR (2) mijR d u j R u i Định nghĩa 3.4 Cho hai ma trận "" Y y Hai quan hệ " " X xijR R ij mxn mxn định nghĩa sau: (1) X Y xijR y ijR , i 1, 2, , m , j 1, 2, , n (2) X Y xijR y ijR , i 1, 2, , m , j 1, 2, , n Định nghĩa 3.5 Cho hệ định không đầy đủ ma trận quan hệ M R mijR nxn hàm quan hệ IDS R , ký hiệu n n DIS R mijR i 1 j 1 IDS IDS U , A d , tập thuộc tính DIS R với R R A Khi đó, , định nghĩa sau: với i n, j n 20 3.4.2 Rút gọn thuộc tính sử dụng hàm quan hệ Định nghĩa 3.6 Cho bảng định không đầy đủ R A IDS U , A d Nếu thỏa mãn: (1) DIS R DIS ( A) (2) R ' R , DIS R ' DIS ( A) R gọi tập rút gọn IDS dựa hàm quan hệ Ta thấy tập rút gọn sử dụng hàm quan hệ tương đương với tập rút gọn sử dựa hàm định suy rộng Do đó, phương pháp rút gọn thuộc tính sử dụng hàm quan hệ thuộc Nhóm Định nghĩa 3.7 Cho bảng định không đầy đủ IDS U , A d , R A a A R Độ quan trọng thuộc tính a tập thuộc tính định nghĩa SIG Rout a DIS R a DIS R Định nghĩa 3.8 Cho hệ định không đầy đủ aR IDS U , A d , R A Độ quan trọng thuộc tính a tập thuộc tính nghĩa SIG Rin a DIS R DIS R a R R định Từ ta có SIGRout a SIGRin a Do đó, SIGRout a SIGRin a tính lượng thay đổi hàm quan hệ thêm thuộc tính a vào R loại bỏ a khỏi R SIGRout a , SIGRin a lớn lượng thay đổi lớn, hay thuộc tính a quan trọng ngược lại Thuật toán 3.4.(RBAR) Thuật toán heuristic tìm tập rút gọn tốt sử dụng hàm quan hệ Đầu vào: Bảng định không đầy đủ IDS U , A d Đầu ra: Một tập rút gọn R R ; // Thêm dần vào R thuộc tính có độ quan trọng lớn nhất; 2.While DIS R DIS ( A) 3.Begin For each a A R tính SIGRout a DIS R a DIS R ; SIG Rout a ; Chọn a m A R cho SIGRout a m aMax A R 21 R R am ; 7.End; //Loại bỏ thuộc tính dư thừa R có; 8.For each a R If DIS R a DIS R then R R a ; 10 Return R ; Giả sử k số thuộc tính điều kiện n số đối tượng Dễ thấy độ phức tạp để tính M A O kn , độ phức tạp tính DIS A O kn Xét vòng lặp While từ dòng lệnh đến dòng lệnh 7, độ phức tạp để tính tất SIGR a k k 1 1 * kn k * k 1 / * kn O k 3n Độ phức tạp thời gian để chọn thuộc tính có độ quan trọng lớn k k 1 k * k 1 / O k Do đó, độ phức tạp vòng lặp While O k 3n Tương tự, độ phức tạp vòng lặp For O k 2n Vì vậy, độ phức tạp Thuật toán GDMBAR O k 3n 3.4.3 Thử nghiệm đánh giá kết Bảng 3.5 Kết thực thuật toán MBAR, Thuật toán EIQBAR Thuật toán RBAR STT Bộ số liệu U Thuật toán Thuật toán Thuật toán MBAR EIQBAR RBAR C R t R t R t Hepatitis.data 155 19 1.296 1.29 1.56 Lung-cancer.data 32 56 0.171 0.17 0.98 Automobile.data 205 25 1.687 1.68 1.92 Anneal.data 798 38 179 178 196 Congressional 435 16 15 16.7 15 16.73 15 18.45 690 15 15.7 15.68 17.02 Voting Records Credit Approval 22 Bảng 3.6 Tập rút gọn thuật toán MBAR, Thuật toán EIQBAR Thuật toán RBAR STT Tập liệu Tập rút gọn Tập rút gọn Tập rút gọn MBAR EIQBAR RBAR Hepatitis.data {1, 2, 4, 17} {1, 2, 17} {1, 2, 17} Lung-cancer.data {3, 4, 9, 43} {3, 4, 9, 43} {3, 4, 9, 43} Automobile.data {1, 8, 9, 13, 14, 20, {1, 4, 13, 14, 20, {1, 4, 13, 14, 20, 21, 24} Anneal.data 21} {1, 3, 4, 5, 8, 9, 33, {1, 3, 4, 5, 8, 9, {1, 3, 4, 5, 8, 9, 34, 35} 21} 34} 34} Congressional {1, 2, 3, 4, 5, 7, 8, 9, {1, 2, 3, 4, 5, 7, 8, {1, 2, 3, 4, 5, 7, 8, Voting Records 10, 11, 12, 13, 14, 9, 10, 11, 12, 13, 9, 10, 11, 12, 13, Credit Approval 15, 16} 14, 15, 16} 14, 15, 16} {1, 2, 3, 4, 5, 6, 8} {1, 3, 4, 5, 8} {1, 3, 4, 5, 8} Kết thử nghiệm cho thấy: Trên liệu, tập rút gọn thu Thuật toán EIQBAR Thuật toán RBAR Điều phù hợp với nghiên cứu lý thuyết, phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng (Thuật toán EIQBAR) phương pháp rút gọn thuộc tính sử dụng hàm quan hệ (Thuật toán RBAR) thuộc Nhóm Trên số liệu quán Lung-cancer.data, Congressional Voting Records, tập rút gọn thu Thuật toán RBAR Thuật toán MBAR Tuy nhiên, với số liệu lại, tập rút gọn thu 23 Thuật toán RBAR tối thiểu tập rút gọn thu Thuật toán MBAR Điều phù hợp với kết nghiên cứu lý thuyết Thời gian thực Thuật toán EIQBAR Thuật toán MBAR tương đương Tuy nhiên, thời gian thực Thuật toán RBAR lớn thời gian thực Thuật toán EIQBAR Bởi vì, độ phức tạp thời gian Thuật toán RBAR cao so với Thuật toán EIQBAR Sở dĩ cao Thuật toán EIQBAR sử dụng công thức cải tiến tính S R a u i với ui U S R u i tính bước trước [17] Còn Thuật toán 3.4 tính ma trận phân biệt mở rộng trực tiếp từ lớp dung sai S R u i với ui U 3.5 Kết luận chương Chương luận án thực nội dung nghiên cứu sau: (1) Theo hướng tiếp cận rút gọn liệu, chương đề xuất kỹ thuật chọn tập đối tượng đại diện cho toán rút gọn thuộc tính hệ thông tin không đầy đủ bảng định không đầy đủ nhằm giảm thiểu thời gian thực thuật toán tìm tập rút gọn bảng định có dung lượng liệu lớn Kết công bố công trình [3] (2) Đề xuất phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng chứng minh phương pháp đề xuất thuộc Nhóm (trong phân nhóm phương pháp rút gọn thuộc tính trình bày Chương 2) Kết công bố công trình [5] (3) Đề xuất phương pháp rút gọn thuộc tính sử dụng hàm quan hệ chứng minh phương pháp đề xuất thuộc Nhóm (trong phân nhóm phương pháp rút gọn thuộc tính trình bày Chương 2) Kết công bố công trình [4] Các kết nghiên cứu góp phần làm phong phú thêm hướng nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ 24 KẾT LUẬN 1) Những kết luận án: Luận án tập trung giải toán rút gọn thuộc tính bảng định không đầy đủ bước tiền xử lý liệu với kết sau: (1) Phân nhóm phương pháp rút gọn thuộc tính nguyên tắc: phương pháp có định nghĩa độ đo tương đương phân vào nhóm Luận án phương pháp rút gọn thuộc tính phân thành bốn nhóm: Nhóm 1, Nhóm 2, Nhóm 3, Nhóm Luận án nghiên cứu mối liên hệ tập rút gọn nhóm phương pháp Kết công bố công trình [1] (2) Đề xuất độ đo đánh giá hiệu tập luật Nghiên cứu thay đổi giá trị độ đo đề xuất tập rút gọn Trên sở đó, lựa chọn đánh giá phương pháp rút gọn thuộc tính nhóm dựa tiêu chuẩn khả phân lớp tập rút gọn Kết công bố công trình [2] (3) Theo hướng tiếp cận rút gọn liệu, luận án đề xuất kỹ thuật chọn tập đối tượng đại diện cho toán rút gọn thuộc tính, nhằm giảm thiểu thời gian thực thuật toán tìm tập rút gọn bảng định có dung lượng liệu lớn Kết công bố công trình [3] (4) Đề xuất phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng Chứng minh phương pháp đề xuất sử dụng lượng thông tin mở rộng thuộc Nhóm Kết công bố công trình [5] (5) Đề xuất phương pháp rút gọn thuộc tính sử dụng hàm quan hệ Chứng minh phương pháp đề xuất sử dụng hàm quan hệ thuộc Nhóm Kết công bố công trình [4] 2) Hướng phát triển luận án: Tiếp tục nghiên cứu giải toán rút gọn thuộc tính trường hợp bổ sung loại bỏ tập đối tượng, tập thuộc tính theo hướng tiếp cận tính toán gia tăng nhiều độ đo khác nhằm tìm kiếm phương pháp hiệu 25 DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ CT1 Nguyen Long Giang, Vu Van Dinh, Relationships Among the Concepts of Reduct in Incomplete Decision Tables, Frontiers in Artificial Intelligence and Applications (FAIA), Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, 2013, pp 417-426 CT2 Nguyễn Long Giang, Vũ Văn Định, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn bảng định không đầy đủ, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu ứng dụng CNTT - FAIR6, Huế, 20-21/06/2013, Tr 394-402 CT3 Nguyễn Long Giang, Vũ Văn Định, “Chọn tập đối tượng đại diện cho toán rút gọn thuộc tính hệ thông tin không đầy đủ”, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VII - Nghiên cứu ứng dụng CNTT - FAIR7, Thái Nguyên, 20-21/06/2014, Tr 51-59 CT4 Vu Van Dinh, Nguyen Long Giang, Duc Thi Vu, Generalized Discernibility Function based Attribute Reduction in Incomplete Decision Systems, Serdica Journal of Computing (2013), Institute of Mathematics and Informatics, Bulgarian Academy of Sciences, No 4, 2013, pp 375-388 CT5 Vũ Văn Định, Vũ Đức Thi, Ngô Quốc Tạo, Nguyễn Long Giang, “Phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng khoảng cách phân hoạch”, Chuyên san công trình nghiên cứu, phát triển ứng dụng CNTT-TT, Tạp chí Công nghệ thông tin &Truyền thông (Accepted) [...]... các tập rút gọn 2.3.5 Lựa chọn, đánh giá các phương pháp rút gọn thuộc tính 1) Lựa chọn nhóm phương pháp phù hợp 1) Tập rút gọn RP , tập rút gọn R , tập rút gọn RD và tập rút gọn R đều bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không đầy đủ nhất quán 2) Tập rút gọn RP làm giảm độ chắc chắc của tập luật đối với bảng quyết định không đầy đủ không nhất quán 3) Tập rút gọn R , tập rút gọn. .. liên hệ giữa các tập rút gọn của các nhóm phương pháp Dựa trên tập rút gọn, các phương pháp được phân thành bốn nhóm: Nhóm 1 (Tập rút gọn miền dương RP ), Nhóm 2 (tập rút gọn dựa trên hàm quyết định suy rộng gọn dựa trên ma trận phân biệt thông tin RI , RM ), R , tập rút gọn ấn định R , tập rút Nhóm 3 (tập rút gọn dựa trên lượng tập rút gọn dựa trên ma trận dung sai RTM , tập rút gọn dựa trên 12 khoảng... của tập rút gọn Các phương pháp thuộc Nhóm 3 không so sánh được với các phương pháp thuộc Nhóm 4 do tập rút gọn RD và tập rút gọn R không có mối quan hệ 2.4 Kết luận chương 2 Chương 2 luận án đã thực hiện các nội dung nghiên cứu sau: (1) Phân nhóm các phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ không nhất quán dựa vào kết quả nghiên cứu mối liên hệ giữa các khái niệm tập rút gọn, ... tương đương với tập rút gọn sử dựa trên hàm quyết định suy rộng Do đó, phương pháp rút gọn thuộc tính sử dụng hàm quan hệ thuộc Nhóm 2 Định nghĩa 3.7 Cho bảng quyết định không đầy đủ IDS U , A d , R A và a A R Độ quan trọng của thuộc tính a đối với tập thuộc tính được định nghĩa bởi SIG Rout a DIS R a DIS R Định nghĩa 3.8 Cho hệ quyết định không đầy đủ aR IDS U ,... trong hệ thông tin không đầy đủ và bảng quyết định không đầy đủ nhằm giảm thiểu thời gian thực hiện các thuật toán tìm tập rút gọn trên các bảng quyết định có dung lượng dữ liệu lớn Kết quả này được công bố trong công trình [3] (2) Đề xuất phương pháp rút gọn thuộc tính sử dụng lượng thông tin mở rộng và chứng minh phương pháp đề xuất thuộc Nhóm 2 (trong phân nhóm các phương pháp rút gọn thuộc tính được... Chọn tập đối tượng đại diện cho bảng quyết định không đầy đủ Thuật toán 3.2 Chọn tập đối tượng đại diện của bảng quyết định không đầy đủ Đầu vào: Bảng quyết định không đầy đủ IDS U , A d với U u1 , , un , A a1 , , a m Đầu ra: Bảng quyết định không đầy đủ đại diện IDS p U p , A d với UP U Bước 1: Đặt U P ; Bước 2: Với mỗi ai A, i 1 m , tính U / ai u a u... Pi i 1 (3.2) Rút gọn thuộc tính sử dụng lượng thông tin mở rộng có điều kiện Định nghĩa 3.1 Cho bảng quyết định không đầy đủ thuộc tính R A Nếu IDS U , A d và tập 1) CEI R d CEI A d 2) r R, CEI R r d CEI A d thì R là một tập rút gọn của A dựa trên lượng thông tin mở rộng có điều kiện 15 Định nghĩa 3.2 Cho bảng quyết định không đầy đủ IDS U ,... này đều thuộc Nhóm 2 (theo phân nhóm phương pháp đã trình bày ở Chương 2) 3.2 Chọn tập đối tượng đại diện cho bài toán rút gọn thuộc tính 3.2.1 Chọn tập đối tượng đại diện cho hệ thông tin không đầy đủ Thuật toán 3.1 Chọn tập đối tượng đại diện của hệ thông tin không đầy đủ Đầu vào: Hệ thông tin không đầy đủ IIS U , A với U u1, , un , A a1 , , a m Đầu ra: Hệ thông tin không đầy đủ đại... không nhất quán 3) Tập rút gọn R , tập rút gọn RD và tập rút gọn R đều bảo toàn độ chắc chắn của tập luật đối với bảng quyết định không đầy đủ không nhất quán 2) Đánh giá các phương pháp Với bảng quyết định không đầy đủ nhất quán, các tập rút gọn tốt nhất của bốn nhóm phương pháp là như nhau nên chúng có chất lượng phân lớp như nhau Với bảng quyết định không nhất quán, chúng tôi đánh giá ba nhóm phương... Văn Định, Nghiên cứu sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn của bảng quyết định không đầy đủ, Kỷ yếu Hội nghị khoa học Công nghệ Quốc gia lần thứ VI - Nghiên cứu cơ bản và ứng dụng CNTT - FAIR6, Huế, 20-21/06/2013, Tr 394-402 CT3 Nguyễn Long Giang, Vũ Văn Định, “Chọn tập đối tượng đại diện cho bài toán rút gọn thuộc tính trong hệ thông tin không đầy đủ ,