Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 MỘT ĐỘ ĐO MỚI ĐO ĐỘ PHỤ THUỘC THUỘC TÍNH Nguyễn Minh Huy 1, Đỗ Sĩ Trường 2, Nguyễn Huy Đức 3, Nguyễn Thanh Tùng Trường Đại học Thủ đô Hà nội Trường Đại học Lạc Hồng Trường Cao đẳng Sư phạm Trung ương nguyenminhhuy86@gmail.com,truongds@gmail.com,ducnghuy@yahoo.com, nttung@lhu.edu.vn TÓM TẮT-Trong báo này, chúng tơi trình bày phương pháp xây dựng độ đo mới, gọi độ phụ thuộc Gamma, đo độ phụ thuộc tập thuộc tính phạm trù (categorical attributes) hệ thông tin Độ đo xây dựng dựa khái niệm entropy bù (complementary entropy) Jiye Liang cộng đề xuất Với hai tập thuộc tính X Y, độ đo gán cho chúng số thực thuộc khoảng đóng [0,1] phản ánh mức độ phụ thuộc Y vào X Giá trị độ đo tồn phụ thuộc hàm → Và thế, giá trị gần phụ thuộc Y vào X hệ thông tin gần phụ thuộc hàm → Các tính chất độ đo phụ thuộc đề xuất mối liên hệ với phụ thuộc hàm nghiên cứu Các tính chất cho thấy xem mở rộng khái niệm phụ thuộc hàm, độ phụ thuộc Gamma sử dụng độ đo phụ thuộc hàm xấp xỉ Từ khóa- Entropy bù, Độ phụ thuộc thuộc tính Gamma, Phụ thuộc hàm, Khai phá liệu I MỞ ĐẦU Trong sở liệu, tập thuộc tính phụ thuộc hàm vào tập thuộc tính giá trị thuộc tính xác định giá trị thuộc tính Trong năm gần đây, vấn đề khai phá phụ thuộc thuộc tính (các biến) sở liệu trở thành đề tài thu hút quan tâm nhiều nhà nghiên cứu Mục tiêu khai phá phụ thuộc thuộc tính nhằm phát mối quan hệ thuộc tính sở liệu Các phụ thuộc thuộc tính phát sử dụng vào việc thực nhiệm vụ khác khai phá liệu lựa chọn thuộc tính (đặc trưng) nhận dạng, phân lớp liệu, khai phá luật kết hợp, rời rạc hóa liệu, … [10, 17, 23] Để phát hiệu phụ thuộc thuộc tính việc xây dựng độ đo (các hàm) cho phép đánh giá mức độ phụ thuộc điều quan trọng Trong năm qua, nhiều độ đo đề xuất phát triển nhằm đo đạc mức độ phụ thuộc thuộc tính Hệ số tương quan Pearson [9] độ đo kinh điển, xây dựng nhằm đánh giá mức độ tương quan tuyến tính biến số ngẫu nhiên Dễ thấy, có số hạn chế sử dụng hệ số Thứ nhất, hệ số tương quan phản ánh phụ thuộc tuyến tính, thực tế, mối quan hệ biến thường tuyến tính Thứ hai, hệ số tương quan khơng cho phép đo đạc mức độ quan hệ tập biến với tập biến khác Như biết, giải vấn đề lựa chọn thuộc tính, ta thường phải tính tốn mối quan hệ thuộc tính ứng viên tập thuộc tính lựa chọn Hơn nữa, hệ số tương quan Pearson trở nên khơng hiệu phải tính tốn độ phụ thuộc thuộc tính phạm trù (như quốc tịch, màu sắc,…) Để giải vấn đề nêu trên, nhà nghiên cứu đề xuất nhiều độ đo Chẳng hạn, độ đo dựa vào thông tin tương hỗ [2], độ đo độ quán lựa chọn thuộc tính [6], Chi lựa chọn thuộc tính rời rạc hóa [17], Relief ReliefF để ước lượng thuộc tính [22], độ đo độ phụ thuộc riêng phần lý thuyết tập thô [20, 18, 19, 11] Trong lý thuyết tập thô, dựa quan hệ bất khả phân biệt, Pawlak đề xuất mơ hình tốn học, gọi độ phụ thuộc riêng phần γ để tính mức độ phụ thuộc tập thuộc tính vào tập thuộc tính khác [18] Các tính chất đại số mơ hình nhiều nhà nghiên cứu bàn luận [20, 18, 11, 7, 8, 6], Khi liệu chứa giá trị phạm trù, độ phụ thuộc riêng phần γ thường sử dụng vào việc tính tốn tập thuộc tính rút gọn, giải tốn lựa chọn thuộc tính [11, 19, 23] Tuy nhiên, [8] Düntsch Gediga mơ hình Pawlak khơng hồn chỉnh (inadequate) cho việc tính tốn độ phụ thuộc Vấn đề gặp phải là, số trường hợp, thuộc tính có phụ thuộc vào thuộc tính khác mức độ mơ hình Pawlak lại cho độ phụ thuộc γ Chi tiết vấn đề tham khảo tài liệu [8, 24] Trong năm qua, số mơ hình tính tốn độ phụ thuộc kiểu Pawlak đề xuất Bhatt Gopal [3] đề xuất mơ hình độ phụ thuộc dựa vào xấp xỉ tập thơ mờ Mơ hình mở rộng mơ hình Pawlak áp dụng cho liệu giá trị thực, nhiên chất giống mơ hình Pawlak, gặp phải vấn đề vừa nêu Trong [4] Chen cộng đề nghị mơ hình dựa tập thơ mờ, độ phụ thuộc tính tốn theo quan hệ T-tương tự mờ Tuy nhiên, mô hình trở thành mơ hình giống mơ hình Pawlak quan hệ T-tương tự mờ quan hệ tương tự rõ Và thế, mơ hình Chen cộng gặp phải vấn đề mô hình Pawlak Trong [13] Hu cộng trình bày mơ hình tập thơ dựa khoảng cách hàm phụ thuộc giống Pawlak Trong [21] Sakai Okuma đề xuất mơ hình tính tốn độ phụ thuộc bảng định khơng quán (có chứa giá trị tập hợp giá trị khoảng) Thuật tốn địi hỏi hai giá trị ngưỡng mà chúng không nạp vào cách đắn cho độ phụ thuộc sai lệch Việc xác định ngưỡng cho không bàn [21] Ziarko [25,26] đề xuất mơ hình phụ thuộc thuộc tính, gọi hàm k-phụ thuộc, dựa vào xác suất Mơ hình địi hỏi tập đích để xấp xỉ tập thơ độ phụ thuộc Nguyễn Minh Huy, Đỗ Sĩ Trường, Nguyễn Huy Đức, Nguyễn Thanh Tùng 388 tính dựa vào tập đích chọn Thế nhưng, việc xác định tập đích khơng bàn tới [25,26] Gần đây, Yamaguchi [24] đề xuất mơ hình tính tốn độ phụ thuộc cách xét đến độ hiệu liệu Dựa vào ma trận khả phân biệt định, mơ hình xem xét số lần thuộc tính điều kiện sử dụng để xác định giá trị thuộc tính định Mặc dù số mơ hình phụ thuộc đề xuất vừa trình bày đây, vấn đề nêu [8] chưa giải cách triệt để Trong báo này, chúng tơi trình bày phương pháp xây dựng độ đo mới, gọi độ phụ thuộc Gamma, đo độ phụ thuộc tập thuộc tính phạm trù (categorical attributes) hệ thông tin Độ đo xây dựng dựa khái niệm entropy bù (complementary entropy) Jiye Liang cộng đề xuất [14, 15] Với hai tập thuộc tính , độ đo gán cho chúng số thực thuộc khoảng đóng [0,1] phản ánh mức độ phụ thuộc vào Giá trị độ đo tồn phụ thuộc hàm → quan hệ Và thế, giá trị gần phụ thuộc vào quan hệ gần phụ thuộc hàm → Các tính chất độ đo phụ thuộc đề xuất mối liên hệ với phụ thuộc hàm nghiên cứu Các tính chất cho thấy xem phụ thuộc Gamma mở rộng khái niệm phụ thuộc hàm, độ phụ thuộc Gamma sử dụng độ đo phụ thuộc hàm xấp xỉ Nội dung phần lại báo sau Mục II trình bày vắn tắt số kiến thức liên quan; mục III đưa định nghĩa độ phụ thuộc Gamma nghiên cứu tính chất nó; mục IV trình bày mối liên hệ phụ thuộc Gamma phụ thuộc hàm; mục V phần kết luận nêu hướng nghiên cứu Cuối báo danh sách tài liệu tham khảo II MỘT SỐ KIẾN THỨC LIÊN QUAN Nếu khơng nói khác, tất tập hợp xét đến phần lại báo hữu hạn A Phân hoạch tập hợp hữu hạn Cho tập hợp khác rỗng đối tượng Một phân hoạch họ khác rỗng tập thỏa mãn ∑ ∩ ∅ với Mỗi tập gọi khối hay lớp ,…, π Dưới ký hiệu họ tất phân hoạch PART( ) , Trên họ phân hoạch tập hợp định nghĩa quan hệ thứ tự phận sau: cho , ∈ PART( ), ta nói mịn viết khối B tồn khối C cho ⊆ ; nói cách khác, khối C thuộc hợp số khối thuộc Người ta chứng minh rằng, quan hệ riêng phần sinh dàn PART( ), nghĩa với hai phân hoạch , ∈ PART( ) tồn phân , phân hoạch thô thỏa mãn , hoạch mịn cho B Khái niệm entropy bù Lý thuyết tập thô Z Pawlak đề xuất vào năm đầu thập niên 80 kỷ XX công cụ cho việc xử lý liệu không chắn, không đầy đủ Trong lý thuyết tập thô, bảng liệu gồm cột ứng với thuộc tính phạm trù, hàng ứng với đối tượng (bộ liệu) gọi hệ thống thông tin Nếu gọi tập tất đối tượng, tập tất thuộc tính hệ thơng tin thường ký hiệu đôi , Để đo đạc không chắn tính mờ lý thuyết tập thơ, [14,15] Jiye Liang cộng đưa khái niệm entropy bù (Complementary entropy) phân hoạch sau Cho , ∈ PART , giả sử ,…, Định nghĩa (Entropy bù) [14,15] Entropy bù phân hoạch | | số phần tử tập hợp Dễ thấy, , ,…, , đại lượng | | , | || | phần bù viết lại sau: | | | | | | | | in 1 | | | | Định nghĩa (Entropy bù có điều kiện) [14,15] Entropy bù có điều kiện Vì ∩ | | | ∩ định nghĩa , | ∩ | | | | biết viết lại sau: định nghĩa bởi: MỘT ĐỘ ĐO MỚI ĐO ĐỘ PHỤ THUỘC THUỘC TÍNH | | | 389 | | ∩ ∩ | | Định nghĩa (Entropy bù đồng thời) [14] Entropy bù đồng thời , Từ định nghĩa, suy ∧ , ∩ | | phân hoạch Rõ ràng Và đặt , ∧ ∩ | | ∩ 1, … , ∧ , , ; ta có: định nghĩa bởi: | | ∩ 1, … , , ∧ Định nghĩa (Entropy bù tương hỗ) [14] Entropy bù tương hỗ Dễ thấy ; ∩ | | ; có tính đối xứng ∩ ∩ ∅ định nghĩa bởi: ∩ | | | ; | Cũng Shannon entropy [27], entropy bù E có tính chất sau Mệnh đề (Giá trị nhỏ nhất, lớn nhất) [1,14] Với ∈ PART , ta có 1⁄| | Giá trị nhỏ , giá trị lớn 1⁄| | đạt đạt ∈ Mệnh đề (Tính đơn điệu) [1,14] Cho , a) Nếu b) Nếu ∈ PART chưa suy Chú ý rằng, nói chung có Mệnh đề [1] Cho , Mệnh đề [1] Cho , ∈ PART Ta có ∈ PART Ta có | , ; ; | , Mệnh đề (Giá trị nhỏ nhất, lớn entropy bù có điều kiện) Với , | Chứng minh Hiển nhiên ta có Thế Vì | | | , 1 | | ; 1⁄| | Theo Mệnh đề 3, , ∧ Mặt khác, theo Mệnh đề 1, Suy | 0⟺ , theo Mệnh đề 2, ta có ∧ Vậy, | ; | ⟺ ∧ ∧ , ⟺ ∧ ⟺ and | | ta có ∈ PART Nguyễn Minh Huy, Đỗ Sĩ Trường, Nguyễn Huy Đức, Nguyễn Thanh Tùng 390 | Dấu “=” xảy , ⟺ | | ∧ 1 | | Mệnh đề (Giá trị nhỏ nhất, lớn entropy bù đồng thời) Cho , max , Chứng minh Vế trái max , suy từ Mệnh đề Định nghĩa 4.□ ∈ PART , Khi suy từ Mệnh đề 1, Vế phải , , III ĐỘ ĐO ĐỘ PHỤ THUỘC GAMMA A Định nghĩa độ phụ thuộc Gamma Cho hệ thống thông tin , , tập tất đối tượng, tập tất thuộc tính Các tập thuộc tính có mối liên kết tự nhiên với phân hoạch : tập thuộc tính tạo phân hoạch , hai đối tượng thuộc vào khối chúng có giá trị tập thuộc tính Dưới đây, tiện, ta viết hợp tập thuộc tính, chẳng hạn sinh tập thuộc tính Phân hoạch phân hoạch tập hàng bảng thu Chú ý sở liệu quan hệ, cách sử dụng tùy chọn group by SQL Cho hai tập thuộc tính , ⊆ Giả sử phân hoạch sinh và , , … , Khi đó, phân hoạch sinh , ,…, ∧ ∩ 1, … , | ; 1, … , , ∩ ∅ Định nghĩa Cho hai tập thuộc tính , ⊆ Giả sử phân hoạch sinh và , , … , Ta gọi độ phụ thuộc vào đại lượng Γ , xác định sau: , ,…, Γ , | | | | 1 Ví dụ: Xét bảng định cho Bảng 1 | | | | | | ∩ Bảng Bảng định Düntsch [8] x Ở đây, ta có: | | Γ , 1 , 8, , | | | | , , , | | , c1 c2 0 1 1 0 2 2 , , Chú ý rằng, tính theo mơ hình Pawlak, ta có d 0 0 1 1 , ∩ , , 11 14 , (xem [8]) , , , , MỘT ĐỘ ĐO MỚI ĐO ĐỘ PHỤ THUỘC THUỘC TÍNH 391 B Các tính chất Mệnh đề (Giá trị nhỏ nhất, lớn độ phụ thuộc Gamma) | Chứng minh Theo Mệnh đề 6: Suy ra, Γ , 1 khi Mệnh đề (Quy tắc phản xạ) Nếu ⊆ Chứng minh Nếu ⊆ ⊆ Mệnh đề Cho ba tập thuộc tính , , Γ , ⊆ Ta có Γ Chứng minh □ , , Γ , 0 khi và .□ (Mệnh đề 3) | (Mệnh đề 3) | | Suy ra, Γ , | | | | , Γ | | | | | 1 Mệnh đề 10 (Quy tắc hợp phải) Cho ba tập thuộc tính , , … , Khi đó, , ,…, Γ , Γ Chứng minh Theo Định nghĩa 2, ta có | | | | | | 1 , ∩ ∙ ∩ ∙ | | | | 1 | | ∩ ∪ ∩ ∩ ∩ Mệnh đề 11 (Quy tắc xích) Γ | , Γ , ∩ | | | | 1 Γ Chứng minh Áp dụng liên tiếp Mệnh đề 3: , Γ | , ∩ |∙ ∩ ∩ | 1 ,…, ∩ ∩ , ∩ ∩ | , Γ ⊆ Giả sử | | ∩ | | | | | | | ∩ ∩ | | | | , ∩ ∩ | , , | | ∩ | | | Γ 1 | | Do , | | | | Γ , | ; ; Γ , Vậy theo Mệnh đề 7, Γ Γ | | | | | ∩ , Nguyễn Minh Huy, Đỗ Sĩ Trường, Nguyễn Huy Đức, Nguyễn Thanh Tùng 392 | | Suy ra, Γ , Mệnh đề 12 Γ Γ Γ , Γ , Γ Γ Γ , Γ | | | | | , , Chứng minh | | | | 1 Γ | , Γ , (Mệnh đề 11) , Γ Vậy, Max Γ Γ , , Γ ,Γ , , Γ , Γ Γ Γ , , , , Γ , Γ , , , Γ | | | | 1 1 1 Γ , Γ Γ , Γ , , Γ , (Quy tắc gia tăng, Mệnh đề 14) , | | | | | 1 | | | | | | | | 1 □ | | | | | Mệnh đề 3 Mệnh đề 6 | | | | Mệnh đề 16 (Quy tắc hợp toàn phần) Γ Chứng minh , □ | | | | 1 ,Γ (Mệnh đề 12) □ Chứng minh Ta có: , (Quy tắc hợp phải, Mệnh đề 10) , (Mệnh đề 9) Mệnh đề 15 (Quy tắc bắc cầu) Γ Γ Chứng minh Ta có: , | , Mệnh đề 14 (Quy tắc gia tăng) Γ Γ | | | | | | Chứng minh Theo Mệnh đề 12: , , Mệnh đề 13 (Quy tắc hợp trái) Max Γ Γ | | | | 1 □ , | | , Mệnh đề 3 Γ , Γ , MỘT ĐỘ ĐO MỚI ĐO ĐỘ PHỤ THUỘC THUỘC TÍNH Γ , Γ , Γ Vì Γ , , Γ Γ , Γ (Quy tắc gia tăng, Mệnh đề 14) , (Quy tắc bắc cầu, Mệnh đề 15) □ , Γ , Chứng minh , Γ , , Γ Γ Γ (Quy tắc bắc cầu, Mệnh đề 15) , (Quy tắc phản xạ, Mệnh đề 8), ta có Γ Mệnh đề 18 (Quy tắc giả bắc cầu) Γ Γ Γ , ⊆ Chứng minh Γ , Γ Mệnh đề 17 (Quy tắc tách) Nếu 393 , , , , Γ Γ , Γ □ , (Quy tắc gia tăng, Mệnh đề 14) , (Quy tắc bắc cầu, Mệnh đề 15) □ IV MỐI LIÊN HỆ GIỮA PHỤ THUỘC GAMMA VÀ PHỤ THUỘC HÀM Một quan hệ xác định tập thuộc tính xem hệ thông tin , Tuy nhiên, khái niệm hệ thống thông tin tổng quát hơn, đối tượng xem phần tử thay giá trị gồm | | thành phần [20] Các phụ thuộc hàm nghiên cứu kỹ nhiều tài liệu Cho quan hệ xác định tập thuộc tính Với hai tập thuộc tính , ⊆ , ta nói Y phụ thuộc hàm vào X , viết → , giá trị X cho ta giá trị Y Có thể thấy phụ thuộc Gamma nghiên cứu mở rộng phụ thuộc hàm A Mối liên hệ Mệnh đề 19 Cho hai tập thuộc tính , Chứng minh Giả sử phân hoạch → ⊆ thỏa mãn Γ sinh , , ,…, , , ,…, ⇒ : Nếu → với giá trị xi ∈ dom ( X ) có tương ứng giá trị y j ∈ dom(Y ) Suy ra, Tức với khối ∈ tồn khối ∈ thỏa mãn ⊆ Do đó, | | ∩ Khi đó, Suy ⇐ : Nếu Γ | , | | | | Γ | , | | | | Suy ra, | | | | ∩ ∩ với 1,2, … , Điều xảy khối ⊆ Tức có phụ thuộc hàm → □ B Các tiên đề Armstrong | ∈ | | | | tồn khối ∈ thỏa mãn Các tiên đề Armstrong quan trọng lý thuyết phụ thuộc hàm chúng cung cấp sở cho hệ thống suy diễn phụ thuộc Thông thường tiên đề Armstrong bao gồm quy Quy tắc sau [5] Quy tắc phản xạ: Nếu Y ⊆ X X → Y Quy tắc tăng trưởng: Nếu X → Y XZ → YZ Quy tắc bắc cầu: Nếu X → Y Y → Z X → Z Mệnh đề 20 Các tiên đề Armstrong suy trực tiếp từ bất đẳng thức phụ thuộc Gamma 394 Nguyễn Minh Huy, Đỗ Sĩ Trường, Nguyễn Huy Đức, Nguyễn Thanh Tùng Chứng minh Tính phản xạ: Theo Mệnh đề 4, ⊆ Γ , Lại theo Mệnh đề 19, từ Γ → Quy tắc tăng trưởng: Nếu → theo Mệnh đề 15 ta có Γ , Do Γ , Γ , đề 10), suy Γ , (vì Γ , 1) Lại áp dụng Mệnh đề 19, suy → Γ , (theo Mệnh đề 19) Vì Γ , Quy tắc bắc cầu: Nếu → → Γ , Γ , (theo Mệnh đề 11), suy Γ , Do → (theo Mệnh đề 19) □ V KẾT LUẬN , suy (theo Mệnh Γ , Phụ thuộc tập thuộc tính sở liệu dạng tri thức hữu ích tiềm ẩn Để phát hiệu phụ thuộc việc xây dựng độ đo (các hàm) cho phép đánh giá mức độ phụ thuộc điều quan trọng Trong báo cáo này, chúng tơi trình bày phương pháp xây dựng độ đo mới, gọi độ phụ thuộc Gamma, đo độ phụ thuộc tập thuộc tính phạm trù hệ thông tin Độ đo xây dựng dựa khái niệm entropy bù (complementary entropy) Jiye Liang cộng đề xuất Với hai tập thuộc tính , độ đo gán cho chúng số thực thuộc khoảng đóng [0,1] phản ánh mức độ phụ thuộc vào Giá trị độ đo tồn phụ thuộc hàm → quan hệ Và thế, giá trị gần phụ thuộc vào quan hệ gần phụ thuộc hàm → Các tính chất độ đo phụ thuộc đề xuất mối liên hệ với phụ thuộc hàm nghiên cứu Các tính chất cho thấy xem mở rộng khái niệm phụ thuộc hàm, độ phụ thuộc Gamma sử dụng độ đo phụ thuộc hàm xấp xỉ Dựa kết nghiên cứu độ đo độ phụ thuộc Gamma, thời gian tới, chúng tơi nghiên cứu thuật tốn khai phá phụ thuộc Gamma với ngưỡng phụ thuộc cho trước; tiến hành thử nghiệm sử dụng độ đo Gamma thay cho information gain thuật toán xây dựng định C4.5 VI TÀI LIỆU THAM KHẢO [1] Nguyễn Thanh Tùng, Về metric họ phân hoạch tập hợp hữu hạn Tạp chí Tin học Điều khiển học, Vol 26, Nr 1, pp 75-87, 2010 [2] Battiti, R., Using mutual information for Selecting features in supervised neural net learning IEEE Transactions on Neural Networks, 5, pp 537–550, 1994 [3] R B Bhatt, M Gopal, On the extension of functional dependency degree from crisp to fuzzy partitions, Pattern Recognition Letters 27,pp 487–491, 2006 [4] D Chen, W Yang, F Li, Measures of general fuzzy rough sets on a probabilistic space, Information Sciences 178, pp 3177–3187, 2008 [5] E F Codd, A relational model of data for large shared data banks, Communications of the ACM 13,pp 377–387, 1970 [6] Dash, M., & Liu, H., Consistency-based search in feature selection Artificial Intelligence, 151(1–2), pp 155–176, 2003 [7] I Düntsch, G Gediga, Algebraic aspects of attribute dependencies, Fundamenta Informaticae 29, pp 119–133, 1997 [8] I Düntsch, G Gediga, Statistical evaluation of rough set dependency analysis, International Journal of Human– Computer Studies 46, pp 589–604, 1997 [9] Hall, M A., Correlation-based feature selection for discrete and numeric class machine learning In Proceedings 17th international conference on machine learning, pp 359–366, 2000 [10] Han J., and Kamber M., Data Mining: Concepts and Techniques, Morgan Kanufmann, 2012 [11] Hu, X H., & Cercone, N Learning in relational databases: A rough set approach Computational Intelligence, 12(2), pp 323–338, 1995 [12] Hu, Q H., Xie, Z X., & Yu, D R., Hybrid attribute reduction based on a novel fuzzy-rough model and information granulation Pattern Recognition, 40(12), pp 3509–3521, 2007 [13] Q Hu, D Yu, J Liu, C Wu, Neighborhood rough set based heterogeneous feature subset selection, Information Sciences, 2008, doi:10.1016/j.ins.2008.05.024 [14] J Liang, K S Chin, Chuangyin Dang, Richard C M Yam, A new method for measuring uncertainty and fuzziness in rough set theory International Journal of General Systems, Vol 31 (4), pp 331-342, 2002 [15] Jiye Liang, Uncertainty and Feature Selection in Rough Set Theory In J T Yao et al (Eds): RSKT 2011, LNCS 6954, pp 8–15, 2011 [16] Kivinen, J., Mannila, H., “Approximate inference of functional dependencies from relations”, Theoretical Computer Science 149(1),pp 129-149, 1997 [17] Liu, H., & Setiono, R., Feature selection via discretization of numeric attributes.IEEE Transactions on Knowledge and Data Engineering, 9(4), pp 642–645 MỘT ĐỘ ĐO MỚI ĐO ĐỘ PHỤ THUỘC THUỘC TÍNH 395 [18] M Novotny, Z Pawlak, Partial dependency of attributes, Bulletin of the Polish Academy of Sciences Mathematics 36,pp 453–458, 1988 [19] Z Pawlak, Rough Sets: Theoretical Aspects of Reasoning About Data, Kluwer Academic Publishers, 1991 [20] Z Pawlak, C Rauszer, Dependency of attributes in information systems, Bulletin of the Polish Academy of Sciences Mathematics 33,pp 551–559, 1985 [21] H Sakai, A Okuma, An algorithm for checking dependencies of attributes in a table with non-deterministic information: a rough sets based approach, in: R Mizoguchi, J Slaney (Eds.), Proceedings of Sixth Pacific Rim International Conference on Artificial Intelligence, PRICAI2000, LNAI1886, pp 219-229, 2000 [22] Sikonja, M R., & Kononenko, I., Theoretical and empirical analysis of ReliefF and RReliefF Machine Learning, 53, pp 23–69, 2003 [23] R W Swiniarski, A Skowron, Rough set methods in feature selection and recognition, Pattern Recognition Letters 24, pp 833–849, 2003 [24] D Yamaguchi, Attribute dependency functions considering data efficiency International Journal of Approximate Reasoning, 51, pp 89-98, 2009 [25] W Ziarko, Dependencies in structures of decision tables, in Krzyszkievicz et al (Eds.), Proceeding of the International Conference on Rough Sets and Emerging Intelligent Systems paradigms, RSEISP’07, Warsaw, Poland, LNAI4585, pp 113-121, 2007 [26] W Ziarko, Probabilistic approach to Rough sets, International Journal of Approximate Reasoning, 49, 2008, pp 272-284, 2008 [27] Dalkilic, M M., Robertson, E L “Information dependencies”, In: Proceedings of ACM PODS, 245-253, 2000 A NEW MEASURE FOR MEASURING ATTRIBUTE DEPENDENCIES Nguyen Minh Huy, Đo Si Truong, Nguyen Huy Duc, Nguyen Thanh Tung ABSTRACT - In this paper, we propose a new dependency measure, called Gamma, to measure dependency degree between two given sets of categorical attributes in an information system The proposed measure is based on the concept of complementary entropy introduced by Jiye Liang et al For two sets of attributes X and Y, this measure maps them to a real number in the closed interval [0;1] describing the dependency degree of Y on X The mapped number equal to if and only if there exists functional dependency X → Y Hence, the smaller the number to which X and Y are mapped, the “closer” X → Y is to being a functional dependency in the information system The properties of the proposed measure and its relationship with functional dependency have also been investigated These properties show that we can consider Gamma dependency as an extension of the concept of functional dependency, and it can be used as an approximation measure for functional dependencies ... Các tính chất độ đo phụ thuộc đề xuất mối liên hệ với phụ thuộc hàm nghiên cứu Các tính chất cho thấy xem phụ thuộc Gamma mở rộng khái niệm phụ thuộc hàm, độ phụ thuộc Gamma sử dụng độ đo phụ thuộc. .. hàm → Các tính chất độ đo phụ thuộc đề xuất mối liên hệ với phụ thuộc hàm nghiên cứu Các tính chất cho thấy xem mở rộng khái niệm phụ thuộc hàm, độ phụ thuộc Gamma sử dụng độ đo phụ thuộc hàm... tập thuộc tính , độ đo gán cho chúng số thực thuộc khoảng đóng [0,1] phản ánh mức độ phụ thuộc vào Giá trị độ đo tồn phụ thuộc hàm → quan hệ Và thế, giá trị gần phụ thuộc vào quan hệ gần phụ thuộc