Phát triển một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận filter wrapper (developing the filter wrapper attribute reduction methods in incomplete decision tables) TT

27 18 0
Phát triển một số phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ theo tiếp cận filter wrapper  (developing the filter wrapper attribute reduction methods in incomplete decision tables) TT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN BÁ QUẢNG PHÁT TRIỂN MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ THEO TIẾP CẬN FILTER-WRAPPER Chuyên ngành: Cơ sở toán học cho tin học Mã số: 46 01 10 TÓM TẮT LUẬN ÁN TIẾN SĨ TỐN HỌC HÀ NỘI - 2021 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI VIỆN KHOA HỌC VÀ CƠNG NGHỆ QUÂN SỰ Người hướng dẫn khoa học: PGS.TS Nguyễn Long Giang TS Ngô Trọng Mại Phản biện 1: PGS TS Phạm Thanh Giang Viện Hàn lâm Khoa học Công nghệ Việt Nam Phản biện 2: PGS TS Ngô Thành Long Học viện Kỹ thuật quân Phản biện 3: TS Nguyễn Doãn Cường Viện Khoa học Công nghệ quân Luận án bảo vệ Hội đồng đánh giá luận án tiến sĩ cấp Viện, họp Viện Khoa học Công nghệ quân vào hồi giờ, ngày Có thể tìm hiểu luận án tại: - Thư viện Viện Khoa học Công nghệ quân - Thư viện Quốc gia Việt Nam tháng năm 202 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ Nguyen Ba Quang, Nguyen Long Giang, Dang Thi Oanh “A Distance based Incremental Filter-Wrapper Algorithm for Fingding Reduct in Incomplete Decision Tables”, Vietnam Journal of Science and Technology - Vietnam Academy of Science and Technology, Vol 57, No 4, 2019, pp 499-512 Nguyễn Bá Quảng, Nguyễn Long Giang, Trần Thanh Đại, Nguyễn Ngọc Cương, “Phương pháp Filter-Wrapper rút gọn thuộc tính bảng định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần thứ XXII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thơng, Thái Bình, 28-29/06/2019, Tr 246-252 Nguyễn Bá Quảng, Nguyễn Long Giang, Nguyễn Thị Lan Hương, Nguyễn Ngọc Cương, “Phương pháp gia tăng rút gọn thuộc tính bảng định không đầy đủ sử dụng khoảng cách”, Kỷ yếu Hội thảo quốc gia lần thứ XXII: Một số vấn đề chọn lọc Công nghệ thông tin truyền thơng, Thái Bình, 28-29/06/2019, Tr 253-259 Phạm Minh Ngọc Hà, Nguyễn Long Giang, Nguyễn Văn Thiện, Nguyễn Bá Quảng, “Về thuật tốn gia tăng tìm tập rút gọn bảng định không đầy đủ”, Chuyên san cơng trình nghiên cứu phát triển CNTT&TT, Tạp chí Cơng nghệ thông tin truyền thông - Bộ TT&TT, Tập 2019, Số 1, Tháng 9, Tr 11-18 Nguyễn Bá Quảng, Nguyễn Long Giang, “Về thuật tốn gia tăng tìm tập rút gọn bảng định không đầy đủ trường hợp bổ sung tập thuộc tính”, Tạp chí Nghiên cứu KH&CN Quân sự, Số 63, 10-2019, Tr 171-183 MỞ ĐẦU Lý thuyết tập thô (Rough set) Pawlak đề xuất xem công cụ hiệu giải tốn rút gọn thuộc tính bảng định đầy đủ Trong toán thực tế, bảng định thường thiếu giá trị miền giá trị thuộc tính, gọi bảng định khơng đầy đủ Để giải tốn rút gọn thuộc tính trực tiếp bảng định khơng đầy đủ mà không qua bước tiền xử lý giá trị thiếu, Kryszkiewicz mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai xây dựng mơ hình tập thơ dung sai (tolerance rough set) Các nghiên cứu liên quan đến rút gọn thuộc tính bảng định khơng đầy đủ theo tiếp cận tập thô dung sai tập trung vào phương pháp như: phương pháp sử dụng miền dương mở rộng, phương pháp sử dụng ma trận phân biệt, hàm phân biệt mở rộng, phương pháp sử dụng entropy thông tin mở rộng, phương pháp sử dụng độ đo lượng thông tin, phương pháp sử dụng khoảng cách số phương pháp sử dụng độ đo khác quan hệ không phân biệt mở rộng, độ bao phủ thuộc tính Tuy nhiên, giống phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, hầu hết phương pháp rút gọn thuộc tính theo tiếp cận tập thơ dung sai phương pháp lọc (filter), nghĩa độ xác mơ hình phân lớp đánh giá sau tìm tập rút gọn Tập rút gọn thu thỏa mãn điều kiện bảo tồn độ đo mà khơng bảo đảm có độ xác phân lớp cao Do đó, tập rút gọn phương pháp filter chưa tối ưu số lượng thuộc tính độ xác phân lớp Với mục tiêu tối ưu số lượng thuộc tính tập rút gọn nâng cao độ xác phân lớp so với phương pháp filter công bố, động lực nghiên cứu thứ luận án nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ theo hướng tiếp cận kết hợp filter-wrapper Ngày nay, bảng định thường có kích thước lớn thay đổi, cập nhật Việc áp dụng thuật tốn tìm tập rút gọn theo tiếp cận tập thơ truyền thống mơ hình tập thô mở rộng gặp nhiều thách thức Trường hợp bảng định bị thay đổi, thuật toán tính lại tập rút gọn tồn bảng định sau thay đổi phí thời gian tính tốn tăng lên đáng kể Trường hợp bảng định có kích có thước lớn, việc thực thuật tốn tồn bảng định gặp khó khăn thời gian thực Vì vậy, nhà nghiên cứu đề xuất hướng tiếp cận tính tốn gia tăng tìm tập rút gọn Các thuật tốn gia tăng có khả giảm thiểu thời gian thực có khả thực bảng định kích thước lớn giải pháp chia nhỏ bảng định thành phần Theo tiếp cận tập thô dung sai, năm gần nghiên cứu liên quan đến thuật tốn gia tăng tìm tập rút gọn bảng định không đầy đủ sôi động phong phú Các nghiên cứu liên quan chủ yếu tập trung vào trường hợp bổ sung, loại bỏ tập đối tượng Ngồi ra, có cơng bố giải toán trường hợp bổ sung, loại bỏ tập thuộc tính; tập đối tượng thay đổi giá trị; tập thuộc tính thay đổi giá trị Các thuật tốn gia tăng tìm tập rút gọn theo tiếp cận tập thơ dung sai nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật tốn nêu theo hướng tiếp cận filter truyền thống Gần đây, có tác giả cơng trình đề xuất thuật tốn gia tăng tìm tập rút gọn theo tiếp cận kết hợp filter-wrapper Tuy nhiên, thuật toán gia tăng tìm tập rút gọn bảng định đầy đủ theo tiếp cận tập thô mờ trường hợp bổ sung tập đối tượng Vì vậy, động lực nghiên cứu thứ hai luận án nghiên cứu thuật tốn gia tăng tìm tập rút gọn bảng định không đầy đủ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn cải thiện độ xác phân lớp so với thuật tốn cơng bố Mục tiêu luận án tập trung nghiên cứu hai nội dung Thứ đề xuất thuật tốn filter-wrapper tìm tập rút gọn bảng định khơng đầy đủ theo tiếp cận tập thô dung sai nhằm giảm thiểu số lượng thuộc tính tập rút gọn cải thiện độ xác mơ hình phân lớp Thứ hai đề xuất thuật toán gia tăng filter-wrapper tìm tập rút gọn bảng định khơng đầy đủ thay đổi theo tiếp cận tập thô dung sai nhằm giảm thiểu số lượng thuộc tính tập rút gọn cải thiện độ xác so với thuật toán gia tăng khác Với mục tiêu đặt ra, luận án đạt hai kết sau: 1) Xây dựng khoảng cách đề xuất thuật tốn theo tiếp cận kết hợp filterwrapper IDS_FW_DAR tìm tập rút gọn bảng định không đầy đủ sử dụng khoảng cách Kết thử nghiệm số liệu mẫu từ kho liệu UCI cho thấy, thuật thoán filter-wrapper IDS_FW_DAR giảm thiểu đáng kể số lượng thuộc tính tập rút gọn cải thiện độ xác mơ hình phân lớp so với thuật tốn filter khác 2) Xây dựng cơng thức gia tăng tính khoảng cách đề xuất 04 thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định khơng đầy đủ: (1) Thuật tốn gia tăng filter-wrapper IDS_IFW_AO tìm tập rút gọn trường hợp bổ sung tập đối tượng; (2) Thuật tốn filter-wrapper IDS_IFW_DO tìm tập rút gọn trường hợp loại bỏ tập đối tượng; (3) Thuật tốn gia tăng filter-wrapper IDS_IFW_AA tìm tập rút gọn trường hợp bổ sung tập thuộc tính (4) Thuật tốn gia tăng filter-wrapper IDS_IFW_DA tìm tập rút gọn trường hợp loại bỏ tập thuộc tính Bố cục luận án: Chương trình bày khái niệm lý thuyết tập thô truyền thống, mô hình tập thơ dung sai, tổng quan tiếp cận filter-wrapper rút gọn thuộc tính nghiên cứu liên quan Trên sở đó, luận án phân tích vấn đề tồn nêu rõ mục tiêu nghiên cứu với tóm tắt kết đạt Chương trình bày kết nghiên cứu xây dựng độ đo khoảng cách đề xuất thuật tốn gia tăng filter-wrapper IDS_FW_DAR tìm tập rút gọn bảng định không đầy đủ Chương đề xuất bốn thuật toán gia tăng filter-wrapper: (1) Thuật tốn IDS_IFW_AO tìm tập rút gọn trường hợp bổ sung tập đối tượng; (2) Thuật tốn IDS_IFW_DO tìm tập rút gọn trường hợp loại bỏ tập đối tượng; (3) Thuật tốn IDS_IFW_AA tìm tập rút gọn trường hợp bổ sung tập thuộc tính; (4) Thuật tốn IDS_IFW_DA tìm tập rút gọn trường hợp loại bỏ tập thuộc tính Cuối cùng, phần kết luận nêu đóng góp luận án, hướng phát triển vấn đề quan tâm tác giả Chương TỔNG QUAN 1.2 Hệ thông tin không đầy đủ mơ hình tập thơ dung sai 1.2.1 Hệ thơng tin không đầy đủ Hệ thông tin cặp IS  U , A U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc tính Với hệ thơng tin IS  U , A , tồn u U a  A cho a  u  chứa giá trị thiếu (missing value) IS gọi hệ thông tin không đầy đủ, trái lại IS gọi hệ thông tin đầy đủ Ta biểu diễn giá trị thiếu ký hiệu ‘*’ hệ thông tin không đầy đủ IIS  U , A  1.2.2 Mơ hình tập thô dung sai Xét hệ thông tin không đầy đủ IIS  U , A  , với tập thuộc tính P, P  A ta định nghĩa quan hệ nhị phân U sau: SIM  P    u, v  U U a  P, a  u   a  v   a u   '*'  a  v   '*' Quan hệ SIM  P  quan hệ dung sai (tolerance relation) chúng có tính phản xạ, đối xứng khơng có tính bắc cầu Dễ thấy SIM  P   aP SIM a Gọi S P  u  tập v U  u, v   SIM  P  S P  u  tập lớn đối tượng khơng có khả phân biệt với u tập thuộc tính P dựa quan hệ dung sai, gọi lớp dung sai hay hạt thông tin Ký hiệu tập tất lớp dung sai sinh quan hệ SIM(P) U U / SIM  P  , lớp dung sai U / SIM  P  phân hoạch U mà hình thành phủ U chúng giao uU S P  u   U Cho tập đối tượng X , dựa quan hệ dung sai tập P-xấp xỉ P-xấp xỉ X hệ thông tin không đầy đủ, ký hiệu PX PX , xác định: PX  u U S P u   X   u  X S P u   X  , PX  u U S P  u   X    S P u  u U  Với tập xấp xỉ nêu trên, ta gọi P-miền biên X tập BN P  X   PX  PX , Pmiền X tập U  PX Trong trường hợp BN P  X    X gọi tập xác (exact set), ngược lại X gọi tập thô dung sai (tolerance rough set) 1.2.3 Bảng định không đầy đủ Xét bảng định DS  U , C  D  , tồn u U c  C cho c  u  thiếu giá trị DS gọi bảng định không đầy đủ, trái lại DS gọi bảng định đầy đủ Ta biểu diễn bảng định không đầy đủ IDS  U , C  D  với d  D,'*' Vd Khơng tính chất tổng quát, giả thiết D gồm thuộc tính định d  Cho bảng định không đầy đủ IDS  U , C  d  Với P  C , u U ,  P (u)  d  v  v  S P (u) gọi hàm định suy rộng đối tượng u tập thuộc tính P Nếu | C (u) | với u U IDS quán, trái lại IDS không quán Với bảng định không đầy đủ IDS, miền dương C d  POSC (d )  {CX | X  U / {d }} , IDS quán POSC (d )  U 1.2.4 Ma trận dung sai Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  P  C Khi đó, ma trận dung sai quan hệ dung sai SIM  P  , ký hiệu M  P    pij  nn , định nghĩa sau:  p11 p M ( P )   21    pn p12 p22 pn p1n  p2 n     pnn  pij giá trị quan hệ dung sai hai đối tượng ui u j tập thuộc tính P, pij  u j  SP  ui  pij  u j  SP  ui  với i, j  n Với việc biểu diễn quan hệ dung sai SIM  P  ma trận dung sai M  P  , ta có u iU , SP  ui   u j U pij  1 n SP  ui    pij Với P, Q  C, u U ta có j 1 S P Q  u   S P  u   SQ  u  Giả sử M  P    pij  , M Q    qij  hai ma trận dung nn nn sai SIM  P  , SIM Q  , ma trận dung sai tập thuộc tính S  P  Q M ( S )  M  P  Q    sij  nn với sij  pij qij 1.3 Tổng quan rút gọn thuộc tính theo tiếp cận tập thô dung sai 1.3.1 Tổng quan rút gọn thuộc tính Rút gọn thuộc tính tốn quan trọng bước tiền xử lý liệu với mục tiêu loại bỏ thuộc tính dư thừa, khơng liên quan nhằm tăng tính hiệu thuật tốn khai phá liệu: Gia tăng tốc độ, cải thiện chất lượng tính dễ hiểu kết thu Các kỹ thuật rút gọn thuộc tính thường phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) biến đổi thuộc tính (Attribute transformation) Trong luận án này, nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung rút gọn thuộc tính 1.3.2 Tiếp cận filter, wrapper rút gọn thuộc tính Hiện có hai cách tiếp cận tốn rút gọn thuộc tính: filter (lọc) wrapper (đóng gói) Tiếp cận filter thực việc rút gọn thuộc tính độc lập với thuật khai phá liệu sử dụng sau Đến nay, phần lớn phương pháp rút gọn thuộc tính dựa lý thuyết tập thô mở rộng theo hướng tiếp cận Tiếp cận wrapper tiến hành việc lựa chọn cách áp dụng thuật khai phá, độ xác kết lấy làm tiêu chuẩn để lựa chọn tập thuộc tính Tiếp cận filter có ưu điểm thời gian tính tốn nhanh, nhược điểm không sử dụng sử dụng thông tin nhãn lớp liệu nên độ xác khơng cao Filter Tập thuộc tính Tập rút gọn Thuật tốn học Wrapper Tập thuộc tính Tập thuộc tính Tạo lập tập Thuật toán học Tập rút gọn Đánh giá Hình 1.2 Cách tiếp cận filter wrapper rút gọn thuộc tính 1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai 1.4.1.1 Các nghiên cứu liên quan Cho đến nay, nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp bảng định khơng đầy đủ theo tiếp cận tập thô dung sai tập trung vào phương pháp như: phương pháp sử dụng miền dương mở rộng, phương pháp sử dụng ma trận phân biệt, hàm phân biệt mở rộng, phương pháp sử dụng entropy thông tin mở rộng, phương pháp sử dụng độ đo lượng thông tin, phương pháp sử dụng khoảng cách số phương pháp sử dụng độ đo khác quan hệ không phân biệt mở rộng, độ bao phủ thuộc tính 1.4.1.2 Các vấn đề cịn tồn Giống phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, hầu hết phương pháp rút gọn thuộc tính theo tiếp cận tập thơ dung sai trình bày phương pháp lọc (filter), nghĩa độ xác mơ hình phân lớp đánh giá sau tìm tập rút gọn Tập rút gọn thu thỏa mãn điều kiện bảo tồn độ đo mà khơng bảo đảm có độ xác phân lớp cao Do đó, tập rút gọn phương pháp filter chưa tối ưu số lượng thuộc tính độ xác phân lớp 1.4.1.3 Hướng nghiên cứu thứ luận án Với mục tiêu tối ưu số lượng thuộc tính tập rút gọn nâng cao độ xác phân lớp so với phương pháp filter công bố, hướng nghiên cứu thứ luận án nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ theo hướng tiếp cận kết hợp filter-wrapper 1.4.2 Phương pháp gia tăng rút gọn thuộc tính bảng định khơng đầy đủ theo tiếp cận tập thô dung sai 1.4.2.2 Các nghiên cứu liên quan Theo tiếp cận tập thô dung sai, năm gần nghiên cứu liên quan đến thuật tốn gia tăng tìm tập rút gọn bảng định không đầy đủ thay đổi sôi động phong phú Các nghiên cứu liên quan chủ yếu tập trung vào trường hợp bổ sung, loại bỏ tập đối tượng Ngồi ra, có cơng bố giải toán trường hợp bổ sung, loại bỏ tập thuộc tính; giải tốn trường hợp tập đối tượng thay đổi giá trị; giải toán trường hợp tập thuộc tính thay đổi giá trị 1.4.2.3 Các vấn đề cịn tồn Các thuật tốn gia tăng tìm tập rút gọn theo tiếp cận tập thơ dung sai nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật toán nêu theo hướng tiếp cận filter truyền thống Gần đây, tác giả cơng trình đề xuất thuật tốn gia tăng tìm tập rút gọn theo tiếp cận kết hợp filter-wrapper Tuy nhiên, thuật tốn gia tăng tìm tập rút gọn bảng định đầy đủ theo tiếp cận tập thô mờ trường hợp bổ sung tập đối tượng 1.4.2.4 Hướng nghiên cứu thứ hai luận án Hướng nghiên cứu thứ hai luận án nghiên cứu thuật tốn gia tăng tìm tập rút gọn bảng định không đầy đủ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn cải thiện độ xác phân lớp so với thuật tốn cơng bố Chương THUẬT TỐN FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ Trong chương này, luận án đề xuất thuật tốn tìm tập rút gọn bảng định không đầy đủ theo hướng tiếp cận kết hợp filter-wrapper sử dụng độ đo khoảng cách Các kết chương cơng bố cơng trình 2, phần “Danh mục cơng trình khoa học cơng bố” 2.1 Xây dựng độ đo khoảng cách bảng định không đầy đủ Mệnh đề 2.2 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  U / SIM  P  , U / SIM Q  hai phủ sinh P, Q  C Khi D  P, Q    n  SP  ui   SQ  ui   SP  ui   SQ ui  n i 1  khoảng cách hai phủ U / SIM  P  U / SIM Q  , gọi tắt khoảng cách hai tập thuộc tính P Q Mệnh đề 2.3 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  M C   cij  , M nn d   d  ij nn tương ứng ma trận dung sai C d Khi đó, khoảng cách hai tập thuộc tính sau: D  C , C  d    C C  d  xác định  n n n S u  S u  S u        cij  cij dij   C i C i d i n2  n i 1 i 1 j 1 2.2.1 Xây dựng thuật tốn filter tìm tập rút gọn bảng định không đầy đủ Ý tưởng thuật toán xuất phát từ tập rỗng B :  , bổ sung vào tập B thuộc tính có độ quan trọng lớn tìm tập rút gọn Thuật tốn IDS_F_DAR (Filter - Distance based Attribute Reduction in Incomplete Decision Tables): Thuật tốn filter tìm tập rút gọn xấp xỉ sử dụng khoảng cách Đầu vào: Bảng định không đầy đủ IDS  U , C  d  Đầu ra: Một tập rút gọn B IDS Đặt B :  ; S B  u   U với u U ; Tính ma trận dung sai M  B  , M  C  , M d  , khoảng cách D  B, B  d  , D  C , C  d  ; // Bổ sung thuộc tính có độ quan trọng lớn vào B While D  B, B  d   D  C , C  d  Begin Với a  C  B tính SIGB  a   D  B, B  d   D  B  a, B  a  d  ; Chọn am  C  B cho SIGB  am   aMax SIGB  a  ; C  B B : B  am  ; Tính ma trận dung sai M  B  , khoảng cách D  B, B  d  ; End; // Loại bỏ thuộc tính dư thừa B có 10 Với a  B 11 Begin 12 Tính D  B  a,B  a  d  ; If D  B  a,B  a  d   D C , C  d  then B : B  a ; 13 14 End; 15 Return B; Độ phức tạp thuật toán IDS_F_DAR O C * U   2.2.2 Đề xuất thuật tốn filter-wrapper tìm tập rút gọn bảng định không đầy đủ Xét bảng định không đầy đủ IDS  U , C  d  với C  a1 , a2 , , am  Đặt   D  C , C  d  Thuật toán theo tiếp cận lọc (filter) IDS_F_DAR xuất phát từ tập rỗng B   , bổ sung vào B thuộc tính , , có độ quan trọng lớn tìm tập rút gọn, nghĩa bảo toàn khoảng cách D  B, B  d    với B  ai1 , ai2 , , ait Độ xác mơ hình phân lớp tính B sau thực thuật toán IDS_F_DAR Mặt khác, ta có D ai ,ai , d   D ai , , ai , , d    D  B, B  d    1 2 Với ngưỡng    cho trước, đặt Bk  ai , ,  thỏa mãn D  Bk , Bk  d          k   a  sử dụng để xây , , a  chưa tốt D Bk  aik 1 , Bk  aik 1  d    Khi đó, Bk Bk  aik 1 , , ait dựng phân lớp, độ xác phân lớp Bk i i Bk Trong trường hợp Bk có độ xác phân lớp tốt chọn làm tập rút gọn, số lượng thuộc tính Bk hơn, khả khái qt hóa hiệu thực thuật toán phân lớp cao Do đó, đề xuất hướng tiếp cận kết hợp filterwrapper (lọc-đóng gói) tìm tập rút gọn ngưỡng  có độ xác phân lớp cao Thuật toán IDS_FW_DAR (Filter-Wrapper Distance based Attribute Reduction in Incomplete Decision Tables): Thuật tốn filter-wrapper tìm tập rút gọn sử dụng khoảng cách Đầu vào: Bảng định không đầy đủ IDS  U , C  d  k 1 t Đầu ra: Tập rút gọn Bbest có độ xác phân lớp cao Đặt B :  ; T :  ; S B  u   U với u U ; Tính ma trận dung sai M  B  , M  C  , M d  , khoảng cách D  B, B  d  , D  C , C  d  ; // Giai đoạn filter, tìm ứng viên cho tập rút gọn While D  B, B  d   D  C , C  d  Begin Với a  C  B tính SIGB  a   D  B, B  d   D  B  a, B  a  d  10 06 số liệu Audiology, Soybean-large, Congressional Voting Records, Arrhythmia, Anneal, Advertisements xấp xỉ 04 liệu lại Số lượng thuộc tính tập rút gọn thuật tốn filter-wrapper IDS_FW_DAR nhỏ nhiều so với hai thuật toán filter NEW-R IDS_F_DAR Do đó, hiệu tập luật định thu IDS_FW_DAR cao NEW-R IDS_F_DAR 2.3 Kết luận Trong Chương 2, luận án xây dựng thuật tốn IDS_F_DAR tìm tập rút gọn bảng định không đầy đủ theo tiếp cận filter truyền thống thuật toán theo tiếp cận kết hợp filter-wrapper IDS_FW_DAR nhằm nhằm giảm thiểu số thuộc tính tập rút gọn nâng cao độ xác mơ hình phân lớp Kết thử nghiệm số liệu mẫu từ kho liệu UCI cho thấy, thuật toán filter-wrapper IDS_FW_DAR đề xuất giảm thiểu đáng kể số lượng thuộc tính tập rút gọn so với thuật toán filter IDS_F_DAR NEW-R Hơn nữa, thuật toán IDS_FW_DAR trì nâng cao độ xác phân lớp so với thuật toán filter IDS_F_DAR NEWR Tuy nhiên, thuật tốn IDS_FW_DAR thêm chi phí thời gian tính tốn phân lớp Chương CÁC THUẬT TỐN GIA TĂNG FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH THAY ĐỔI Trong chương này, trước hết luận án trình bày cơng thức gia tăng tính độ đo khoảng cách (được đề xuất chương 2) trường hợp bổ sung, loại bỏ tập đối tượng bổ sung, loại bỏ tập thuộc tính Dựa cơng thức tính tốn gia tăng khoảng cách xây dựng, luận án trình bày 04 thuật tốn gia tăng tìm tập rút gọn bảng định không đầy đủ theo tiếp cận kết hợp filter-wrapper Kết thử nghiệm liệu mẫu từ kho liệu UCI cho thấy, thuật tốn gia tăng IDS_IFW_AO, IDS_IFW_AA có số lượng tập rút gọn nhỏ đáng kể so với thuật toán filter khác đề xuất Hơn nữa, tập rút gọn thuật toán gia tăng IDS_IFW_AO, IDS_IFW_AA cải thiện độ xác phân lớp so với thuật toán filter khác Kết nghiên cứu chương cơng bố cơng trình số 1, 3, 4, 5, phần “Danh mục cơng trình khoa học cơng bố” 3.1 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn bổ sung, loại bỏ tập đối tượng 3.1.1 Công thức cập nhật khoảng cách bổ sung tập đối tượng 3.1.1.1 Công thức cập nhật khoảng cách bổ sung đối tượng Mệnh đề 3.1 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  Giá sử đối tượng u bổ sung vào U đặt MU u (C )  ci,j   n 1 n 1 MU u(d )  di,j n1n1 tương ứng ma trận dung sai C {d} với   SC  u   u j U cn 1, j  Khi đó, cơng thức tính gia tăng khoảng cách phân hoạch mờ là: 11 2  n 1   n  DU u  C , C  d    D C , C  d  c  cn 1,i d n 1,i        U    n 1,i  n 1  n  1  i 1  3.1.1.2 Công thức cập nhật khoảng cách bổ sung tập đối tượng Mệnh đề 3.2 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  Giả sử tập đối tượng gồm s phần tử U  un 1 , un  , , un  s  bổ sung vào U với s  , đặt MU U (C )  ci,j ns ns  MU U (d )  di,j ns ns  tương ứng ma trận dung sai C D Khi đó, cơng thức tính gia tăng khoảng cách sau: ns i  n  DU U  C , C  d    D C , C  d  c  ci , j d i , j       U    i, j ns  n  s  i n 1 j 1 3.1.2 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng Mệnh đề 3.3 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  , B  C tập rút gọn dựa khoảng cách Giả sử tập đối tượng gồm s phần tử U  un 1 , un 2 , , un  s  bổ sung vào U với s  Khi ta có: Nếu SB  uni   Sd   uni  với i  s B tập rút gọn IDS1  U  U , C  d  Dựa Mệnh đề 3.3, thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định không đầy đủ sử dụng khoảng cách bổ sung tập đối tượng U sau: Thuật toán IDS_IFW_AO (Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Add Objects) Đầu vào: 1) Bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  , tập rút gọn B  C , ma trận dung sai MU ( B)  bi , j  nn , MU (C )  ci , j  nn , MU (d )  di , j  nn 2) Tập đối tượng bổ sung U  un 1 , un 2 , , un  s  Đầu ra: Tập rút gọn Bbest IDS1  U  U , C  d  Bước 1: Khởi tạo T :  // Chứa ứng viên tập rút gọn Tính ma trận dung sai tập đối tượng U  U MU U ( B)  bi , j   n s  n s  , MU U (d )  di , j   n s  n s  Bước 2: Kiểm tra tập đối tượng bổ sung Đặt X : U For i  to s If SB uni   Sd uni  then X : X  un i  ; If X   then Return B // Tập rút gọn không thay đổi Đặt U : X ; s : U ; //Gán lại tập đối tượng Bước 3: Thực thuật tốn tìm tập rút gọn 12 Tính khoảng cách ban đầu DU  B, B  d  ; DU  C , C  d  Tính khoảng cách cơng thức gia tăng DU U  B, B  d  ; DU U  C , C  d  ; // Giai đoạn filter, tìm ứng viên cho tập rút gọn 10 While DU U  B, B  d   DU U C , C  d  11 Begin 12 For each a  C  B 13 Begin 14 Tính DU U  B  a, B  a  d  công thức gia tăng; 15 16 17 Tính SIGB  a   DU U  B, B  d   DU U  B  a, B  a  d  End; Chọn a  C  B cho SIGB  am   aMax SIGB  a  ; C  B 18 B : B  am  ; 19 T : T  B ; 20 End; // Giai đoạn Wrapper,tìm tập rút gọn có độ xác phân lớp cao 21 Đặt t : T //t số phần tử T, T chứa chuỗi thuộc tính chọn, nghĩa T  B  ai , B  ai , , , B  ai , , ,  ; 1 2 t 22 Đặt T1 : B  ai ; T2 : B  ai , ; ; Tt : B  ai , , ,  23 For j = to t 24 Begin 25 Tính độ xác phân lớp T j phân lớp sử dụng phương pháp 10-fold; 26 End 27 Bbest : T jo với T jo có độ xác phân lớp lớn Return Bbest ; Độ phức tạp thuật toán IDS_IFW_AO O  C  B  * U *  U  U   O   C  B  * T   2 t  3.1.3 Công thức cập nhật khoảng cách loại bỏ tập đối tượng 3.1.3.1 Công thức cập nhật khoảng cách loại bỏ đối tượng Mệnh đề 3.4 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  MU (C )  ci,j  nn , MU (d )  di,j nn tương ứng ma trận dung sai C d Giá sử đối tượng uk U bị loại bỏ khỏi U Khi đó, cơng thức cập nhật khoảng cách sau: n  n  DU uk   C , C  d    D C , C  d  c  ck ,i d k ,i      U   k ,i  n 1  n  1 i 1 13 3.1.3.2 Công thức cập nhật khoảng cách loại bỏ tập đối tượng Mệnh đề 3.5 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  MU (C )  ci,j  nn , MU (d )  di,j nn tương ứng ma trận dung sai C d Giả sử tập đối tượng gồm s phần tử U  uk , uk 1 , , uk  s 1 bị loại khỏi U , s  n Khi đó, cơng thức cập nhật khoảng cách phân hoạch mờ sau: k  s 1 i 1  k  s1 n   n  với   c  c d  ci , j  ci , j di , j   DU U C, C  d    D C , C  d        i, j i, j   U     i, j ns i k 1 j k  n  s   ik j1  3.1.4 Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn loại bỏ tập đối tượng Mệnh đề 3.6 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  B  C tập rút gọn dựa khoảng cách Giả sử tập đối tượng gồm s phần tử U  uk , uk 1 , , uk  s 1 bị loại khỏi U , s  n , Khi ta có: Nếu SB  ui   Sd   ui  với i  k  k  s  1 B tập rút gọn IDS1  U  U , C  d  Dựa Mệnh đề 3.6, thuật tốn gia tăng filter-wrapper tìm tập rút gọn có độ xác phân lớp tốt sử dụng khoảng cách loại bỏ tập đối tượng U thực sau: Thuật toán IDS_IFW_DO (Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Delete Objects) Đầu vào: 1) Bảng định IDS  U , C  d  với U  u1 , u2 , , un  , tập rút gọn B  C 2) Các ma trận dung sai: MU ( B)  bi, j nn , MU (C)  ci , j nn , MU (d )  di , j nn 3) Tập đối tượng loại bỏ U  uk 1 , uk 2 , , uk  s 1 gồm s đối tượng với s  n Đầu ra: Tập rút gọn Bbest DS1  U  U , C  d  có độ xác phân lớp tốt T :  // Chứa ứng viên tập rút gọn Đặt X : U For i  to s  If SB  uk i   Sd   uk i  then X : X  xk i  If X   then Return B // Tập rút gọn không thay đổi Đặt U : X ; s  U ; //Gán lại tập đối tượng Tính độ đo khoảng cách ban đầu: DU  B, B  d  ; DU  C , C  d  Tính khoảng cách Mệnh đề 5.2 loại U : DU U  B, B  d  ; DU U  C , C  d  ; // Giai đoạn filter, tìm ứng viên cho tập rút gọn While DU U  B, B  d   DU U C , C  d  10 Begin 11 For each a  B 12 Begin 14 13 14 15 16 Tính DU U   B  a ,  B  a  d  công thức gia tăng; Tính SIGBa  a  : DU U   B  a ,  B  a  d   DU U  B, B  d  End; Chọn am  B cho SIGB  am   Min SIGBa  a  ; aB 17 B : B  am  ; 18 T : T  B; 19 End; // Giai đoạn Wrapper,tìm tập rút gọn có độ xác phân lớp cao 20 Đặt t : T //t số phần tử T, T chứa chuỗi thuộc tính chọn, nghĩa T  B  ai , B  ai , , , B  ai , , ,  ; 1 2 t 21 Đặt T1 : B  ai ; T2 : B  ai , ; ; Tt : B  ai , , ,  22 For j = to t 23 Begin 24 Tính độ xác phân lớp T j phân lớp sử dụng 10-fold; 25 End 26 Bbest : T jo với T jo có độ xác phân lớp cao Return Bbest ; 1  t  Độ phức tạp thuật toán IDS_IFW_DO O B * U * U  O  B * T  3.1.5 Thực nghiệm đánh giá thuật toán 3.1.5.1 Mục tiêu thử nghiệm (1) Đánh giá tính hiệu thuật toán gia tăng filter-wrapper IDS_IFW_AO với thuật toán không gia tăng IDS_FW_DAR thời gian thực (2) Đánh giá tính hiệu thuật tốn gia tăng filter-wrapper IDS_IFW_AO với thuật toán gia tăng filter IARM-I số lượng thuộc tính tập rút gọn độ xác mơ hình phân lớp 3.1.5.2 Dữ liệu, phương pháp, công cụ môi trường thực nghiệm Bảng 3.3 mô tả tập liệu thử nghiệm từ kho liệu UCI Mỗi tập liệu chia thành hai phần xấp xỉ nhau: tập liệu ban đầu (cột Bảng 3.1) ký hiệu U , tập liệu gia tăng (cột Bảng 3.3) Tập liệu gia tăng chia thành phần nhau, ký hiệu tương ứng U1,U2 ,U3,U4 ,U5 Bảng 3.3 Bộ liệu thử nghiệm thuật toán IDS_IFW_AO STT Tập liệu Audiology Soybean-large Congressional Voting Records Arrhythmia Anneal Advertisements 226 307 435 Số đối tượng tập liệu ban đầu 111 152 215 Số đối tượng tập liệu gia tăng 115 155 220 452 798 3279 227 398 1639 225 400 1640 Số đối tượng Số thuộc tính điều kiện Số lớp định 69 35 16 24 2 279 38 1558 16 15 Công cụ thực thử nghiệm Matlab R2016a Môi trường thử nghiệm máy tính PC với cấu hình Intel(R) Core(TM) i3-2120 CPU, 3.3 GHz GB nhớ Ta sử dụng phân lớp C4.5 để tính độ xác phân lớp giai đoạn wrapper thuật toán filter-wrapper 3.1.5.3 Kết so sánh thời gian thực thuật toán gia tăng filter-wrapper IDS_IFW_AO với thuật toán filter-wrapper IDS_FW_DAR Bảng 3.4 Thời gian thực thuật toán IDS_IFW_AO IDS_FW_DAR (s) STT Tập liệu Audiology Soybean-large Congressional Voting Records Arrhythmia Anneal Tập liệu ban đầu, gia tăng U0 Số đối tượng ban đầu, gia tăng 111 U1 23 134 0.61 6.69 7.46 U2 23 157 0.35 7.04 8.05 U3 23 180 0.64 7.68 8.94 U4 23 203 0.34 8.02 10.82 U5 23 226 0.44 8.46 11.96 U0 152 152 3.04 3.04 3.04 U1 31 183 0.64 3.68 4.18 U2 31 214 0.34 4.02 5.26 U3 31 245 0.73 4.75 6.04 U4 31 276 0.43 5.18 7.08 U5 31 307 0.68 5.86 7.84 U0 215 215 5.86 5.86 5.86 U1 44 259 0.56 6.42 6.95 U2 44 303 0.61 7.03 8.04 U3 44 347 0.53 7.56 9.12 U4 44 391 0.47 8.03 10.05 U5 44 435 0.55 8.58 10.94 U0 227 227 35.48 35.48 35.48 U1 45 272 1.58 37.06 41.06 U2 45 317 3.12 40.18 58.64 U3 45 362 2.50 42.68 72.18 U4 45 407 1.36 44.04 84.60 U5 45 452 2.14 46.18 91.22 U0 398 398 7.48 7.48 7.48 U1 80 478 0.58 8.06 9.12 U2 80 558 0.81 8.95 10.35 U3 80 638 0.53 9.48 12.06 U4 80 718 0.77 10.25 14.67 U5 80 798 0.80 11.05 17.08 Tổng số đối tượng IDS_IFW_AO 111 Thời gian 6.08 Tổng thời gian 6.08 IDS_FW _DAR Thời gian 6.08 16 Advertisements U0 1639 1639 96.74 96.74 96.74 U1 328 1967 5.69 102.43 114.36 U2 328 2295 6.13 108.56 148.78 U3 328 2623 5.70 114.26 216.56 U4 328 2951 3.86 118.12 284.68 U5 328 3279 4.74 122.86 310.50 Kết thử nghiệm Bảng 3.4 cho thấy, thời gian thực thuật toán IDS_IFW_AO nhỏ thuật toán IDS_FW_DAR tất tập liệu Do đó, thuật toán gia tăng đặc biệt hiệu tập liệu kích thước lớn 3.1.5.5 Kết so sánh số lượng thuộc tính tập rút gọn độ xác phân lớp thuật tốn gia tăng filter-wrapper IDS_IFW_AO với thuật toán gia tăng filter IARM-I Bảng 3.6 Số lượng thuộc tính tập rút gọn độ xác IDS_IFW_AO IARM-I STT Tập liệu Audiology Soybean-large Congressional Voting Records Arrhythmia Tập liệu ban đầu, gia tăng U0 Số đối tượng ban đầu, gia tăng 111 U1 23 134 U2 23 157 U3 23 U4 Tổng số đối tượng IDS_IFW_AO Độ R xác 76.18 IARM-I Độ xác 74.29 76.18 75.12 81.26 12 78.26 180 81.26 12 78.26 23 203 78.84 14 78.17 U5 23 226 78.84 15 76.64 U0 152 152 96.12 95.46 U1 31 183 96.12 95.46 U2 31 214 96.72 95.04 U3 31 245 95.18 95.04 U4 31 276 95.18 10 94.19 U5 31 307 94.58 11 94.28 U0 215 215 92.48 91.17 U1 44 259 92.76 10 91.45 U2 44 303 94.48 14 92.28 U3 44 347 94.48 14 92.28 U4 44 391 94.12 16 92.06 U5 44 435 94.12 17 92.88 U0 227 227 70.08 14 69.16 U1 45 272 72.45 17 72.05 U2 45 317 72.45 17 72.05 U3 45 362 74.18 21 73.23 U4 45 407 74.18 21 73.23 U5 45 452 76.04 24 73.08 111 R 17 Anneal Advertisements U0 398 398 84.18 84.06 U1 80 478 89.06 84.06 U2 80 558 89.06 84.06 U3 80 638 91.28 88.48 U4 80 718 91.28 88.48 U5 80 798 91.28 10 90.06 U0 1639 1639 12 93.01 23 92.16 U1 328 1967 14 91.18 28 90.48 U2 328 2295 14 91.18 28 90.48 U3 328 2623 17 91.65 32 91.17 U4 328 2951 18 92.82 36 92.06 U5 328 3279 19 92.90 45 92.46 Bảng 3.6 cho thấy, độ xác phân lớp IDS_IFW_AO cao IARM-I Hơn nữa, số thuộc tính tập rút gọn thuật tốn IDS_IFW_AO nhỏ nhiều hai thuật tốn IARM-I Do đó, thời gian thực tính khái qt hóa tập luật phân lớp tập rút gọn IDS_IFW_AO tốt so với IARM-I 3.1.5.6 Kết so sánh thời gian thực thuật toán gia tăng filter-wrapper IDS_IFW_AO với thuật toán gia tăng IARM-I Bảng 3.7 Thời gian thực thuật toán IDS_IFW_AO IARM-I (s) STT Tập liệu Audiology Soybean-large Congressional Voting Records Tập liệu ban đầu, gia tăng U0 Số đối tượng ban đầu, gia tăng 111 U1 23 134 0.61 6.69 0.51 6.33 U2 23 157 0.35 7.04 0.26 6.59 U3 23 180 0.64 7.68 0.42 7.01 U4 23 203 0.34 8.02 0.28 7.29 U5 23 226 0.44 8.46 0.35 7.64 U0 152 152 3.04 3.04 2.86 2.86 U1 31 183 0.64 3.68 0.42 3.28 U2 31 214 0.34 4.02 0.22 3.52 U3 31 245 0.73 4.75 0.54 4.06 U4 31 276 0.43 5.18 0.34 4.40 U5 31 307 0.68 5.86 0.40 4.80 U0 215 215 5.86 5.86 5.03 5.03 U1 44 259 0.56 6.42 0.39 5.42 U2 44 303 0.61 7.03 0.46 5.88 U3 44 347 0.53 7.56 0.37 6.25 IDS_IFW_AO IARM-I Tổng thời Thời gian gian Tổng số đối tượng Thời gian Tổng thời gian 111 6.08 6.08 5.82 5.82 18 Arrhythmia Anneal Advertisements U4 44 391 0.47 8.03 0.31 6.56 U5 44 435 0.55 8.58 0.32 6.88 U0 227 227 35.48 35.48 28.72 28.72 U1 45 272 1.58 37.06 1.42 30.14 U2 45 317 3.12 40.18 2.26 32.40 U3 45 362 2.50 42.68 2.03 34.43 U4 45 407 1.36 44.04 1.15 35.58 U5 45 452 2.14 46.18 1.84 37.42 U0 398 398 7.48 7.48 6.05 6.05 U1 80 478 0.58 8.06 0.38 6.43 U2 80 558 0.81 8.95 0.63 7.06 U3 80 638 0.53 9.48 0.34 7.40 U4 80 718 0.77 10.25 0.56 7.96 U5 80 798 0.80 11.05 0.59 8.55 U0 1639 1639 96.74 96.74 82.05 82.05 U1 328 1967 5.69 102.43 4.84 86.89 U2 328 2295 6.13 108.56 5.18 92.07 U3 328 2623 5.70 114.26 4.26 96.33 U4 328 2951 3.86 118.12 2.54 98.87 U5 328 3279 4.74 122.86 2.98 101.85 Kết thử nghiệm Bảng 3.7 cho thấy, thời gian thực thuật toán IDS_IFW_AO lớn thuật toán IARM-I tất tập liệu, nguyên nhân thuật tốn filter-wrapper IDS_IFW_AO thêm chi phí thời gian thực phân lớp giai đoạn wrapper Như vậy, thuật toán IDS_IFW_AO hiệu IARMI độ xác phân lớp số lượng thuộc tính tập rút gọn, nhiên IDS_IFW_AO có thời gian thực cao IARM-I 3.2 Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung, loại bỏ tập thuộc tính 3.2.1 Cơng thức cập nhật khoảng cách bổ sung tập thuộc tính Mệnh đề 3.7 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  Giá sử tập thuộc tính điều kiện B bổ sung vào C với B  C   Đặt M ( B)  bij nn ma trận dung sai B Khi ta có: 1) Nếu bij  với i=1 n, j=1 n (hay K ( B )  K   ) K ( B )  K   ) D  C  B, C  B  d   D  C , C  d  2) Nếu bij  0, i  j với i=1 n, j=1 n (hay D  C  B, C  B  d   3) Trường hợp lại, D C  B, C  B  d   n n  bij  cij  cij d ij  n i 1 j 1 19 3.2.2 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn bổ sung tập thuộc tính Mệnh đề 3.8 Cho bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  R  C tập rút gọn dựa khoảng cách Giá sử tập thuộc tính điều kiện B bổ sung vào C với B  C   Đặt M ( B)  bij nn ma trận dung sai B Khi đó, bij  với i=1 n, j=1 n R tập rút gọn IDS1  U , C  B  d  Dựa Mệnh đề 3.8, thuật toán gia tăng filter-wrapper tìm tập rút gọn bảng định khơng đầy đủ sử dụng khoảng cách bổ sung tập thuộc tính B sau: Thuật tốn IDS_IFW_AA (Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Add Attributes) Đầu vào: 1) Bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  , tập rút gọn R  C , ma trận dung sai M (C )  cij  cách D  C , C  d  ; 2) Tập thuộc tính bổ sung B với B  C   ; Đầu ra: Tập rút gọn R1 IDS1  U , C  B  d  Bước 1: Khởi tạo T :  ; // Chứa ứng viên tập rút gọn Tính ma trận dung sai M ( B)  bij nn ; nn , MU (d )  dij  nn , khoảng Bước 2: Kiểm tra tập thuộc tính bổ sung If bij  với i, j  1 n  then Return R ; Bước 3: Thực thuật tốn tìm tập rút gọn // Giai đoạn filter, tìm ứng viên cho tập rút gọn xuất phát từ tập R While D  R, R  d   D C  B, C  B  d  Begin For each a  B Begin Tính D  R  a, R  a  d  công thức cập nhật khoảng cách Mệnh đề 3.7; Tính SIGR  a   D  R, R  d   D  R  a, R  a  d  ; 10 End; 11 Chọn a  B cho SIGR  am   Max SIGR  a  ; aB 12 R : R  am  ; 13 T : T  R ; 14 End; // Giai đoạn Wrapper,tìm tập rút gọn có độ xác phân lớp cao 15 Đặt t : T //t số phần tử T, T chứa chuỗi thuộc tính chọn, nghĩa T  R  ai , R  ai , , , R  ai , , ,  ; 1 2 t 20 16 Đặt T1 : R  ai ; T2 : R  ai , ; ; Tt : R  ai , , ,  17 For j = to t 18 Begin 19 Tính độ xác phân lớp T j phân lớp sử dụng phương pháp 10-fold; 20 End 21 R1 : T jo với T jo có độ xác phân lớp lớn 22 Return R1 ;  2 Độ phức tạp thuật toán IDS_IFW_AA O B U t   O  B *T  3.2.3 Công thức cập nhật khoảng cách loại bỏ tập thuộc tính Mệnh đề 3.9 Cho bảng định khơng đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  Giá sử tập thuộc tính điều kiện B loại bỏ khỏi C với B  C và M ( A)  aij nn tương ứng A  C  B tập thuộc tính cịn lại Đặt M ( B)  bij  nn ma trận dung sai B A Khi đó, D  A, A  d   n n   aij  aij d ij  với n i 1 j 1 phần tử aij ma trận M ( A) tính sau: 1) Nếu cij  aij  với i=1 n, j=1 n 2) Nếu cij  bij  aij  với i=1 n, j=1 n 3) Nếu cij  bij  aij  u j  S A  ui  aij  u j  S A  ui  với i=1 n, j=1 n 3.2.4 Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn loại bỏ tập thuộc tính Dựa Mệnh đề 3.9, thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định không đầy đủ sử dụng khoảng cách loại bỏ tập thuộc tính B sau: Thuật toán IDS_IFW_DA (Incremental Filter-Wrapper Algorithm for Distance based Attribute Reduction in Incomplete Decision Tables when Delete Attributes) Đầu vào: 1) Bảng định không đầy đủ IDS  U , C  d  với U  u1 , u2 , , un  , tập rút gọn R  C , ma trận dung sai M (C )  cij nn , MU (d )  dij nn , khoảng cách D  C , C  d  ; 2) Tập thuộc tính B loại bỏ khỏi C với B  C ; Đầu ra: Tập rút gọn R1 IDS1  U ,C  B  d  Phương pháp: 1) Trường hợp 1: Tập thuộc tính bị loại bỏ B khơng thuộc tập rút gọn (các thuộc tính dư thừa), tập rút gọn không thay đổi Nếu B  C  R Retturn (R); 2) Trường hợp 2: Tập thuộc tính bị loại bỏ B chứa tập rút gọn R, thực lại thuật tốn filter-wrapper IDS_FW_DAR Chương tìm tập rút gọn Nếu R  B thực thuật toán IDS_FW_DAR; 21 3) Trường hợp 3: Trường hợp lại B  R   , thực bước thuật tốn tìm tập rút gọn Bước 1: Khởi tạo Đặt A : C  B; T :  ; // Chứa ứng viên tập rút gọn Tính ma trận dung sai M ( B)  bij nn , tính ma trận dung sai M ( A)  aij nn công thức Mệnh đề 3.9 Đặt R : R  B; //Xét thuộc tính tập rút gọn Bước 2: Thực thuật tốn tìm tập rút gọn // Giai đoạn filter, tìm ứng viên cho tập rút gọn xuất phát từ tập R While D  R, R  d   D  A, A  d  Begin For each a  R Begin Tính khoảng cách D  R  a,R  a  d  cơng thức Mệnh đề 3.9; Tính   SIGR  a   D R  a,R  a  d   D  R, R  d  10 End; 11 Chọn am  R cho SIGR  am   Min SIGR  a  ; aR 12 R : R  am  ; 13 T : T  R ; 14 End; // Giai đoạn Wrapper,tìm tập rút gọn có độ xác phân lớp cao 15 Đặt t : T //t số phần tử T, T chứa chuỗi thuộc tính chọn,   nghĩa T  R  ai1 , R  ai1 , ai2 , , R  ai1 , , ait  ; 16 Đặt T1  R  ai1 , T2  R  ai1 , ai2 , , Tt  R  ai1 , , ait  17 For j = to t 18 Begin 19 Tính độ xác phân lớp T j phân lớp sử dụng phương pháp 10-fold; 20 End 21 R1 : T jo với T jo có độ xác phân lớp lớn 22 Return R1 ;   Độ phức tạp thuật toán IDS_IFW_DA O R  B * U  O  R  B * T  2 3.2.5 Thực nghiệm đánh giá thuật toán 1) Mục tiêu thử nghiệm Đánh giá tính hiệu thuật tốn gia tăng filter-wrapper IDS_IFW_AA đề xuất với thuật toán gia tăng filter UARA số lượng thuộc tính tập rút gọn độ xác mơ hình phân lớp 22 2) Dữ liệu thử nghiệm Việc thực nghiệm thực 06 tập liệu mẫu lấy từ kho liệu UCI mô tả Bảng 3.10 Mỗi tập thuộc tính điều kiện chia ngẫu nhiên thành hai phần: tập thuộc tính ban đầu (cột Bảng 3.10) ký hiệu C0, tập thuộc tính gia tăng (cột Bảng 3.10) Tập thuộc tính gia tăng chia ngẫu nhiên thành phần nhau, ký hiệu tương ứng C1, C2, C3, C4, C5 Bảng 3.10 Bộ liệu thực nghiệm thuật toán IDS_IFW_AA S T T Số đối tượng Tập liệu Audiology Soybean -large Cong Voting Records Arrhythmia Anneal Advers 226 307 435 452 798 3279 Số thuộc tính điều kiện 69 35 16 279 38 1558 Số thuộc tính ban đầu 34 20 139 18 778 Số thuộc tính gia tăng 35 15 10 140 20 780 Số lớp định 24 2 16 3) Công cụ, môi trường thử nghiệm Công cụ thực thử nghiệm Matlab R2016a Môi trường thử nghiệm máy tính PC với cấu hình Intel(R) Core(TM) i3-2120 CPU, 3.3 GHz GB nhớ Ta sử dụng phân lớp C4.5 để tính độ xác phân lớp hai thuật tốn 4) Kết thử nghiệm Bảng 3.11 Số lượng thuộc tính tập rút gọn độ xác IDS_IFW_AA UARA STT Tập liệu Audiology Tập thuộc tính C0 C1 C2 C3 C4 C5 Soybean – large C0 C1 C2 C3 C4 C5 Cong Voting Records C0 C1 C2 C3 C4 C5 Arrhythmia C0 C1 C2 C3 C4 Số thuộc tính 34 7 7 20 3 3 2 2 139 28 28 28 28 Tổng số thuộc tính 34 41 48 55 62 69 20 23 26 29 32 35 10 12 14 16 139 167 195 223 251 IDS_IFW_AA Độ R xác 64.26 68.19 68.19 72.36 78.26 78.26 82.34 82.34 86.92 86.92 90.27 92.85 81.36 86.24 89.18 89.18 91.15 94.06 62.14 69.27 70.48 70.48 71.37 R 10 12 14 15 8 10 11 12 11 12 14 16 17 24 UARA Độ xác 62.18 65.17 69.26 72.35 74.18 78.02 81.16 81.16 82.08 85.14 90.26 92.18 81.04 85.52 89.18 89.18 90.29 93.68 62.86 68.15 69.84 69.84 70.92 23 C5 Anneal C0 C1 C2 C3 C4 C5 Advers C0 C1 C2 C3 C4 C5 28 18 4 4 778 156 156 156 156 156 279 18 22 26 30 34 38 778 934 1090 1246 1402 1558 10 4 12 15 19 20 21 76.24 68.24 72.46 72.46 79.88 86.13 91.28 71.18 76.64 79.14 86.18 89.24 92.85 25 7 10 15 22 29 35 38 44 75.68 68.24 71.62 71.62 76.85 85.19 90.84 70.68 72.85 78.94 83.17 86.26 91.46 Kết Bảng 3.11 cho thấy, độ xác phân lớp IDS_IFW_AA cao UARA chút tất tập liệu Hơn nữa, số thuộc tính tập rút gọn IDS_IFW_AA nhỏ nhiều UARA Do đó, thời gian thực tính khái qt hóa tập luật phân lớp tập rút gọn IDS_IFW_AA tốt so với UARA Bảng 3.12 Thời gian thực thuật toán IDS_IFW_AA UARA (s) STT Tập liệu Audiology C0 C1 C2 C3 C4 C5 C0 C1 C2 C3 C4 C5 Arrhythmia C0 C1 C2 C3 C4 C5 Anneal 195 223 251 279 18 3.24 3.69 2.07 2.12 6.84 30.96 34.65 36.72 38.84 6.84 2.33 2.89 2.06 1.16 5.19 28 28 28 28 18 C5 5.36 5.84 6.29 6.81 7.25 7.84 2.84 2.98 3.19 3.35 3.68 3.96 4.12 4.66 4.98 5.61 6.12 6.84 24.68 27.72 34 7 7 20 3 3 2 2 139 28 C4 Cong Voting Records 5.36 0.48 0.45 0.52 0.44 0.59 2.84 0.14 0.21 0.16 0.33 0.28 4.12 0.54 0.32 0.63 0.51 0.72 24.68 3.04 C0 C3 34 41 48 55 62 69 20 23 26 29 32 35 10 12 14 16 139 167 Tổng số thuộc tính C1 Soybean –large Tổng thời gian Số thuộc tính C2 Thời gian UARA Tổng Thời thời gian gian 4.28 4.28 0.39 4.67 0.41 5.08 0.38 5.46 0.39 5.85 0.34 6.19 2.18 2.18 0.36 2.54 0.22 2.76 0.15 2.91 0.21 3.12 0.16 3.28 3.08 3.08 0.54 3.62 0.43 4.05 0.54 4.59 0.53 5.12 0.56 5.68 20.78 20.78 2.06 22.84 Tập thuộc tính C0 IFWA_ IDS _AA 25.17 28.06 30.12 31.28 5.19 24 C1 C2 C3 C4 C5 Advers C0 C1 C2 C3 C4 C5 4 4 778 156 156 156 156 156 22 26 30 34 38 778 934 1090 1246 1402 1558 0.48 0.43 0.44 0.45 0.42 77.24 6.51 6.09 6.13 5.26 5.55 7.32 7.75 8.19 8.64 9.06 77.24 83.75 89.84 95.97 101.23 106.78 0.55 0.55 0.53 0.36 0.24 68.35 4.54 5.35 4.94 4.58 4.52 5.74 6.29 6.82 7.18 7.42 68.35 72.89 78.24 83.18 87.76 92.28 Kết Bảng 3.12 cho thấy, thời gian thực IDS_IFW_AA cao UARA tất tập liệu, nguyên nhân IDS_IFW_AA thêm chi phí thời gian thực phân lớp giai đoạn wrapper, nhược điểm chung thuật toán theo tiếp cận filter-wrapper KẾT LUẬN 1) Những kết luận án: Luận án nghiên cứu hướng tiếp cận kết hợp filter-wrapper tìm tập rút gọn bảng định không đầy đủ nhằm giảm thiểu số lượng thuộc tính tập rút gọn, từ giảm thiểu độ phức tạp mơ hình phân lớp Kết luận án bao gồm: Xây dựng độ đo khoảng cách đề xuất thuật tốn theo tiếp cận kết hợp filter-wrapper IDS_FW_DAR tìm tập rút gọn bảng định không đầy đủ sử dụng độ đo khoảng cách Xây dựng công thức gia tăng tính khoảng cách đề xuất 04 thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định không đầy đủ trường hợp bảng định bổ sung, loại bỏ tập đối tượng tập thuộc tính (các thuật tốn IDS_IFW_AO, IDS_IFW_DO, IDS_IFW_AA, IDS_IFW_DA) Cài đặt, thử nghiệm, so sánh, đánh giá thuật toán đề xuất với thuật toán khác công bố tập liệu mẫu từ kho liệu UCI [118] 2) Hướng phát triển luận án: Triển khai thuật toán đề xuất vào việc giải lớp toán thực tiễn, đặc biệt tốn có liệu với số thuộc tính lớn (high dimention data) lĩnh vực khác liệu gen tin sinh học… Tiếp tục nghiên cứu, đề xuất thuật toán gia tăng filter-wrapper hiệu nhằm giảm thiểu thời gian thực dựa mơ hình tập thơ mở rộng khác phù hợp với lớp toán thực tiễn ... phủ thuộc tính Tuy nhiên, giống phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống, hầu hết phương pháp rút gọn thuộc tính theo tiếp cận tập thô dung sai phương pháp lọc (filter) ,... chọn thuộc tính, gọi chung rút gọn thuộc tính 1.3.2 Tiếp cận filter, wrapper rút gọn thuộc tính Hiện có hai cách tiếp cận tốn rút gọn thuộc tính: filter (lọc) wrapper (đóng gói) Tiếp cận filter thực... TỐN FILTER- WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ Trong chương này, luận án đề xuất thuật tốn tìm tập rút gọn bảng định không đầy đủ theo hướng tiếp cận kết hợp filter- wrapper

Ngày đăng: 25/03/2021, 05:37

Tài liệu cùng người dùng

Tài liệu liên quan