Luận văn Thạc sĩ ngành Công nghệ thông tin: Phân cụm thô của dữ liệu tuần tự với kết cấu nội dung được chia thành 3 phần nội dung gửi tới các bạn nhưng chuyên đề sau: Tổng quan về phân cụm dữ liệu; lý thuyết tập thô; áp dụng thuật toán phân cụm thô vào bài toán phân cụm người dùng trên Web. Mời các bạn cùng tìm đọc toàn văn luận văn Thạc sĩ ngành Công nghệ thông tin này.
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VI VĂN SƠN PHÂN CỤM THÔ CỦA DỮ LIỆU TUẦN TỰ Ngành:Hệ thống thông tin Chuyênngành: Hệ thống thơng tin Mã số: 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS Hoàng Xuân Huấn MỞ ĐẦU Phân cụm liệu kỹ thuật quan trọng cơng nghệ tri thức, ứng dụng rộng rãi đa dạng ngành khoa học sinh học, tâm lý học, y học, ngành marketing, thị giác máy tính, điều kiển học v.v Phân cụm liệu tổ chức liệu cách nhóm đối tượng có độ tương đồng cao vào cụm, đối tượng thuộc cụm khác có độ tương đồng thấp so với đối tượng cụm Tùy theo đặc điểm cấu trúc tập liệu mục đích sử dụng, có phương pháp giải khác như: Phân cụm dựa vào hàm mục tiêu, phân cụm phân cấp, phân cụm dựa vào mật độ phân cụm dựa vào lưới Lý thuyết tập thô (Rough Set Theory) Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 ứng dụng ngày rộng rãi lĩnh vực khoa học máy tính Lý thuyết tập thô phát triển tảng tốn học vững chắc, cung cấp cơng cụ hữu ích để giải tốn phân tích liệu, phát luật, nhận dạng Theo quan điểm lý thuyết tập thô, tập thô liên kết với tập “rõ” xấp xỉ xấp xỉ Xấp xỉ bao gồm đối tượng chắn thuộc, xấp xỉ chứa tất đối tượng có khả thuộc tập Các tập xấp xỉ sở để rút kết luận(tri thức) từ sở liệu Do luận văn dựa lý thuyết tập thô cụ thể xấp xỉ tập thơ thuật tốn phân cụm thơ đề xuất áp dụng phân cụm liệu Cấu trúc luận văn chia làm ba chương sau: Chương Tổng quan phân cụm liệu Giới thiệu phân cụm liệu phương pháp phân cụm Chương Lý thuyết tập thơ Trình bày tổng quan lý thuyết tập thô bao gồm hệ thông tin, bảng định, tính khơng phân biệt xấp xỉ tập hợp Chương Áp dụng thuật tốn phân cụm thơ vào toán phân cụm người dùng Web Dựa lý thuyết tập thơ áp dụng thuật tốn phân cụm thô phân cụm người dùng Web( chuyển hướng Web người dùng) 3 CHƯƠNG I TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu Phân cụm liệu kỹ thuật khai phá liệu nhằm tìm kiếm, phát cụm, cácmẫu liệu tự nhiên, tiềm ẩn, quan trọng tập liệu lớn từ cung cấpthơng tin, tri thức hữu ích cho việc định Ở mức nhất, người ta đưa định nghĩa phân cụm liệu (PCDL) sau: “Phân cụm liệu kỹ thuật khai phá liệu (Data mining), nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định.” Quá trình PCDL trình phân chia tập liệu ban đầu thành cụm liệu phần tử cụm “tương tự” phần tử cụm khác “kém tương tự” Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định theo phương pháp phân cụm Hình 1.1 Mơ vấn đề phân cụm liệu Với tập liệu, q trình phân cụm cho nhiều kết khác tùy thuộc vào tiêu chí cụ thể sử dụng để phân cụm Các bước trình phân cụm thể hình 1.1 tóm tắt sau: - Lựa chọn đặc trưng (Feature selection) Lựa chọn thuật toán phân cụm (clustering algorithm selection) Đánh giá kết phân cụm (validation of results) Giải thích kết (interpretation of results) Hình 1.2 Các bước trình phân cụm liệu 1.2 Thế phân cụm tốt Một phương pháp phân cụm tốt sinh cụm có chất lượng cao, đó: - Mức độ tương tự đối tượng cụm cao - Mức độ tương tự đối tượng nằm cụm khác thấp Hình 1.3 Tiêu chuẩn phân cụm Các yêu cầu phân cụm khai phá liệu: Việc xây dựng lựa chọn thuật toán phân cụm bước then chốt cho việc giải vấn đề phân cụm, lựa chọn phụ thuộc vào đặc tính liệu cần phân cụm, mục đích ứng dụng thực tế xác định độ ưu tiên chất lượng cụm hay tốc độ thực thuật toán, Hầu hết nghiên cứu phát triển thuật toán PCDL nhằm thỏa mãn yêu cầu sau: - Có khả mở rộng - Thích nghi với kiểu liệu khác - Khám phá cụm với hình dạng - Tối thiểu lượng tri thức cần cho xác định tham số vào - Khả thích nghi với liệu nhiễu - Ít nhạy cảm với tham số đầu vào - Có khả phân cụm với liều có số chiều cao - Dễ hiểu, cài đặt khả thi 1.3 Các ứng dụng phân cụm liệu Phân cụm liệu cơng cụ ứng dụng nhiều lĩnh vực Một số ứng dụng phân cụm như: Xử lý liệu lớn, Tạo giả thuyết, Kiểm định giả thuyết, Thương mại, Sinh học, Phân tích liệu khơng gian, Khai phá Web (Web mining) 1.4 Các kiểu liệu độ đo tương tự Trong phần ta phân tích kiểu liệu thường sử dụng PCDL Trong PCDL, đối tượng liệu cần phân tích có thẻ người, nhà cửa, tiền lương, thực thể,… 1.4.1 Cấu trúc liệu Các thuật toán gom cụm hầu hết sử dụng hai cấu trúc liệu điển hình sau: Ma trận liệu (hay cấu trúc đối tượng theo biến):Biểu diễn n đối tượng p biến (hay gọi phép đo thuộc tính ) đối tượng, có dạng ma trận n hàng p cột Trong đó, hàng biểu diễn đối tượng, phần tử hàng giá trị thuộc tính tương ứng đối tượng x11 xi1 xn1 x1 f xif xnf x1 p xip xnp (1.1) Ma trận phi tương tự (cấu trúc đối tượng theo đối tượng): Lưu trữ khoảng cách tất cặp đối tượng Biểu thị ma trận n hàng n cột Trong đó, d(i,j) khoảng cách hay độ khác biệt đối tượng i đối tượng j d(i,j) số không âm, d(i,j) gần tới hai đối tượng i j có độ tương đồng cao hay chúng “gần” nhau, d(i,j) lớn nghĩa hai đối tượng i j có độ tương đồng thấp hay chúng “xa” Do d(i,j) = d(j,i) d(i,i)=0 nên ta biểu diễn ma trận phi tương tự sau: d (2,1) d (3,1) d (3,2) d (n,1) d (n,2) 0 (1.2) Ma trận liệu thường gọi ma trận kiểu ( two-mode matrix), ma trận phi tương tự gọi ma trận kiểu (one-mode matrix) Phần lớn thuật toán phân cụm thường sử dụng cấu trúc ma trận phi tương tự Do đó, liệu cần phân cụm tổ chức dạng ma trận liệu cần biến đổi dạng ma trận phi tương tự trước tiến hành phân cụm 1.4.2 Các kiểu liệu Cho sở liệu D chứa n đối tượng không gian k chiều; x, y, z đối tượng thuộc D: x = (𝑥1 , 𝑥2 , … , 𝑥𝑘 ); y = (𝑦1 , 𝑦2 , … , 𝑦𝑘 ); z = (𝑧1 , 𝑧2 , … , 𝑧𝑘 ) Trong đó: 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 (i = k) đặc trưng thuộc tính tương ứng đối tượng x, y, z Do đó, khái niệm “các kiểu liệu” “các kiểu thuộc tính liệu” xem tương đương 6 1.4.2.1 Phân loại kiểu liệu dựa kích thước miền Kích thước miền Liên tục Rời rạc Nhị phân Hình 1.4 Phân loại kiểu liệu dựa kích thước miền Thuộc tính liên tục (Continuous Attribute): Nếu miền giá trị vơ hạn khơng đếm được, nghĩa hai giá trị tồn vô số giá trị khác Thí dụ thuộc tính màu, nhiệt độ cường độ âm thanh, Thuộc tính rời rạc (Discrette Attribute): Nếu miền giá trị tập hữu hạn đếm Thí dụ: loại tơ thuộc tính rời rạc với tập giá trị là: {xe tải, xe khách, xe con, taxi} hay số serial sách, số thành viên lớp,… Thuộc tính nhị phân (Binary Attribute): Là trường hợp đặc biệt thuộc tính rời rạc mà miền giá trị có hai phần tử diễn tả như: Yes/ No Nam/ Nữ, 1.4.2.2 Phân loại kiểu liệu dựa hệ đo Hệ đo Định danh Có thứ tự Khoảng Tỉ lệ Hình 1.5 Phân loại kiểu liệu dựa hệ đo Giả sử ta có hai đối tượng x, y thuộc tính xi, yi tương ứng với thuộc tính thứ i chúng Chúng ta có lớp kiểu liệu sau: Thuộc tính định danh(Nominal): dạng thuộc tính khái qt hố thuộc tính nhị phân, miền giá trị rời rạc khơng phân biệt thứ tự có nhiều hai phần tử Nếu x y hai đối tượng thuộc tính xác định 𝑥 𝑦 𝑥 = 𝑦 Thí dụ thuộc tính nơi sinh Thuộc tính có thứ tự (Ordinal): thuộc tính định danh có thêm tính thứ tự, chúng không định lượng Nếu x y hai thuộc tính thứ tự ta xác định 𝑥 𝑦 𝑥 = 𝑦 𝑥 > 𝑦 𝑥 < 𝑦 Thí dụ thuộc tính huy chương vận động viên thể thao Thuộc tính khoảng (Interval): Dùng để đo giá trị theo xấp xỉ tuyến tính Với thuộc tính khoảng, xác định thuộc tính đứng trước đứng sau thuộc tính khác với khoảng Nếu 𝑥 i >𝑦i ta nói 𝑥 cách 𝑦 khoảng |𝑥 i – 𝑦i | tương ứng với thuộc tính thứ i Một thí dụ thuộc tính khoảng thuộc tính số serialcủa đầu sách thư viện thuộc tính số kênh truyền hình 7 Thuộc tính tỉ lệ (Ratio): thuộc tính khoảng xác định cách tương đối so với điểm mốc, thí dụ thuộc tính chiều cao cân nặng lấy điểm làm mốc 1.4.3 Độ đo tương tự Sự khác biệt hay tương tự hai đối tượng xác định qua hàm khoảng cách chúng, khoảng cách 𝑑(𝑥, 𝑦) 𝑥 𝑦 cho mêtric thỏa mãn tính chất sau: Tính xác định dương: 𝑑(𝑥, 𝑦) ≥ 0, ∀𝑥; 𝑦, (1.3a) 𝑑(𝑥, 𝑦) = 𝑘ℎ𝑖 𝑣à 𝑐ℎỉ 𝑘ℎ𝑖 𝑥 = 𝑦 (1.3b) 𝑑(𝑥, 𝑦) = 𝑑(𝑦, 𝑥), ∀ 𝑥; 𝑦 (1.3c) 𝑑(𝑥, 𝑦) ≤ 𝑑(𝑥, 𝑧) + 𝑑(𝑧, 𝑦), ∀ 𝑥; 𝑦; 𝑧 (1.3d) Tính giao hốn: Bất đẳng thức tam giác: Nếu không gian đặc trưng khơng gian số học d-chiều mêtric có tính chất: 𝑑(𝑎𝑥, 𝑦) = |𝑎|𝑑(𝑥, 𝑦) (1.3e) Sau phép đo độ tương tự áp dụng kiểu liệu khác nhau: 1.4.3.1 Thuộc tính nhị phân Để tìm độ đo, trước hết người ta xây dựng bảng sau : Bảng 1.1 Bảng giá trị tham số Đối tượng x Đối tượng y Trong : y:1 y:0 Tổng x:1 + x:0 + Tổng + + = + + + , đối tượng x, y mà tất thuộc tính tính nhị phân biểu thị Bảng cho ta thông tin sau : - - tổng số giá trị thuộc tính có giá trị x y; - tổng số giá trị thuộc tính có giá trị x y; - tổng số giá trị thuộc tính có giá trị x y tổng số thuộc tính có giá trị hai đối tượng x, y; Khi độ đo tương tự đo sau: Hệ số đối sánh đơn giản: d ( x, y ) chúng đối xứng có trọng số Hệ số Jacard: d ( x, y ) , hai đối tượng x y có vai trò nhau, nghĩa , ý tham số bỏ qua số đối sánh – Công thức tính sử dụng trường hợp mà trọng số thuộc tính có giá trị đối tượng liệu có cao nhiều so với thuộc tính có giá trị 0, thuộc tính nhị phân không đối xứng 1.5 Các phương pháp thuật tốn phân cụm liệu Có nhiều thuật toán phân cụm dựa cách tiếp cận khác tính giống đối tượng (tính tương đồng) cụm phân làm loại chính: - Phương pháp phân cấp (Hierarchical Data Clustering); - Phương pháp phân hoạch (Partition Based Data Clustering); - Phương pháp dựa mật độ (Density Based Data Clustering); - Phương pháp dựa lưới (Grid Based Data Clustering) Trong đó, hai phương pháp phân cấp phân hoạch thơng dụng 1.5.1 Phương pháp phân cấp Q trình thực phân cụm theo phương pháp mô tả đồ thị có cấu trúc cây, gọi phương pháp phân cụm Trong đó, tập liệu xếp thành cấu trúc có dạng hình gọi phân cụm Cây xây dựng nhờ kỹ thuật đệ quy theo hai phương pháp tổng quát: phương pháp lên (bottom up) phương pháp xuống (top down) Các thuật toán theo phương pháp lên gọi thuật tốn trộn Ban đầu, người ta khởi tạo đối tượng làm cụm dùng thủ tục đệ quy để trộn hai cụm gần với bước để có kết chia cụm Thủ tục đệ quy kết thúc ta có tập tồn liệu Các thuật toán phân biệt với tiêu chuẩn đánh giá hai cụm gần dựa khoảng cách cụm chọn trước Quy tắc để chọn cụm trộn gọi quy tắc liên kết Q trình thực thuật tốn biểu diễn thành định phân liệu thành cụm người dùng định Người dùng dựa để nhận kết phân cụm Cụ thể, với cách tính khoảng cách để chọn cặp cụm trộn với cho trước, thuật toán trộn bao gồm bước sau: Khởi tạo phần tử làm cụm 𝑐𝑖 = {𝑥𝑖 }, c = n Khi c ≠ thực lặp: 2.1 Chọn hai cụm gần 𝑐𝑖 𝑐𝑗 theo quy tắc chọn 2.2 Trộn 𝑐𝑖 𝑐𝑗 thành 𝑐𝑖𝑗 = {𝑐𝑖 ∪ 𝑐𝑗 } // c-1 cụm 2.3 c ← c-1 Phương pháp xuống gọi phương pháp tách, thực theo trình tự ngược với phương pháp trộn Trong bước người ta chọn cụm để tách thành cụm theo quy tắc đánh giá tách cụm cho trước Phương pháp phức tạp lâu phương pháp lên thường áp dụng người ta có thêm thơng tin phân bố cụm để có phương pháp tách phù hợp Bước Bước Bước Bước Bước Chiều từ lên a ab b abcde c cde d de e Hình 1.6 Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên” Các quy tắc liên kết: Kết phân cụm thuật toán phụ thuộc vào mêtric dùng để tính khoảng cách đối tượng Kết phân cụm phân cấp phụ thuộc quy tắc liên kết hay cách tính khoảng cách (hoặc giả khoảng cách) hai cụm 𝑐𝑖 𝑐𝑗 để tìm trộn hai cụm có khoảng cách nhỏ bước Với metric không gian đặc trưng xác định chuẩn ‖ ‖ có, sau số quy tắc liên kết thông dụng a) Liên kết đơn Ký hiệu NN (Nearest Neighbour) Trong quy tắc này, khoảng cách hai cụm xác định nhờ khoảng cách nhỏ hai mẫu (đối tượng) tương ứng với hai cụm: 𝑑(𝑐𝑖 , 𝑐𝑗 ) = 𝑚𝑖𝑛{‖𝑥 − 𝑦‖: 𝑥 ∈ 𝑐𝑖 , 𝑥 ∈ 𝑐𝑖 } (1.8a) b) Liên kết đầy Ký hiệu FN (Furthest Neighbour) Trong quy tắc này, khoảng cách hai cụm xác định nhờ khoảng cách lớn hai mẫu tương ứng với hai cụm: 𝑑(𝑐𝑖 , 𝑐𝑗 ) = 𝑚𝑎𝑥{‖𝑥 − 𝑦‖: 𝑥 ∈ 𝑐𝑖 , 𝑦 ∈ 𝑐𝑗 } (1.8b) c) Liên kết trung bình nhóm Ký hiệu UPGMA (Un-Weighted Pair-Group Method using Arithmetic averages) Như tên gọi nó, khoảng cách 𝑑(𝑐𝑖 , 𝑐𝑗 ) trung bình khoảng cách cặp đối tượng thuộc hai cụm tương ứng: 𝑑(𝑐𝑖 , 𝑐𝑗 ) = 𝑛 𝑛 ∑𝑥∈𝑐𝑖 ∑𝑥∈𝑐𝑗‖𝑥 − 𝑦‖ 𝑖 𝑗 Trong đó:𝑛𝑖 𝑛𝑗 số phần tử cụm 𝑐𝑖 , 𝑐𝑗 tương ứng d) Liên kết trung bình phạm vi nhóm (1.8c) 10 Ký hiệu UWGMA (un-weighted within-group method using arithmetic averages) Trong quy tắc này, khoảng cách 𝑑(𝑐𝑖 , 𝑐𝑗 ) trung bình khoảng cách đối tượng nhóm sau trộn hai nhóm: 𝑑(𝑐𝑖 , 𝑐𝑗 ) = 𝐶(𝑛 ∑𝑥,𝑦∈𝑐𝑖∪𝑐𝑗‖𝑥 𝑖+ 𝑛𝑗 ,2) − 𝑦‖ (1.8d) e) Phương pháp Ward Trong phương pháp này, khoảng cách hai cụm trung bình bình phương khoảng cách tới tâm phạm vi cụm: 𝑑(𝑐𝑖 , 𝑐𝑗 ) = 𝑛 𝑖+ 𝑛𝑗 ∑𝑥,𝑦∈𝑐𝑖∪𝑐𝑗‖𝑥 − 𝑚‖2 (1.8e) Trong đó: m tâm cụm trộn 1.5.2 Phương pháp phân hoạch Trong phương pháp phân hoạch, với số lượng cụm định, người ta phân đối tượng liệu vào cụm, sau thực lặp trình điều chỉnh để cực tiểu hàm mục tiêu chọn Thơng dụng thuật tốn k-mean biến thể Trong thuật tốn này, số lượng cụm k thường xác định trước đặt dạng tham số Với tập liệu D gồm n đối tượng không gian d chiều, đối tượng phân thành k cụm cho tổng bình phương độ lệch mẫu tới tâm nhỏ Sau thuật tốn k-means, thuật tốn điển hình phương pháp Thuật toán k-means Thuật toán k-means (MacQueue, 1967) chia tập liệu D cho trước thành k cụm {𝑐1 , 𝑐2 , … , 𝑐𝑘 }, cho tổng bình phương khoảng cách đối tượng liệu tới tâm cụm chứa đạt cực tiểu Như vậy, hàm mục tiêu thuật toán là: 𝐸 = ∑𝑘𝑖=1 ∑𝑥∈𝑐𝑖‖𝑥 − 𝑣𝑖 ‖2 (1.9) Trong đó: 𝑣𝑖 tâm cụm 𝑐𝑖 tương ứng Thuật toán thực sau: Bước 0: Xác định trước số lượng cụm k điều kiện dừng; Bước 1: Khởi tạo ngẫu nhiên k điểm {𝑣𝑖 }𝑘𝑖=1 làm tâm cụm; Bước 2: Lặp điều kiện dừng chưa thỏa mãn: 2.1 Phân hoạch D thành k cụm cách gán đối tượng vào cụm mà gần tâm nhất; 2.2 Tính lại tâm theo đối tượng phân hoạch bước 2.1 Điều kiện dừng thuật toán thường chọn từ điều kiện sau: - Số lần lặp t = 𝑡𝑚𝑎𝑥 , 𝑡𝑚𝑎𝑥 số cho trước; - Giá trị hàm E nhỏ ngưỡng (đảm bảo chất lượng cụm đủ tốt, hay chạy đủ số vòng lặp cần thiết); - Tới cụm khơng đổi Khi tập liệu khơng q lớn người ta dùng điều kiện dừng 11 Nếu tập liệu D gồm n mẫu số lần lặp bước t độ phức tạp thuật tốn O(tnk) nên thích hợp tập D gồm lượng liệu lớn 1.5.3 Phương pháp dựa mật độ Thuật toán dựa vào mật độ thuật toán DBSCAN (Ester et al, 1996), thuật toán xem xét mật độ theo lân cận đối tượng, số lượng đối tượng khoảng cách 𝜀 đối tượng lớn ngưỡng MinPts đối tượng xem nằm cụm Bởi cụm tìm phụ thuộc vào tham số 𝜀 MinPts, nên thuật toán DBSCAN cần dựa vào người sử dụng để lựa chọn tập tham số tốt Để tránh vấn đề này, năm 1999 Ankerst đề xuất phương pháp xếp cụm gọi OPTICS (Ordering Point To Identify the Clustering Structure) OPTICS tính tốn việc xếp cụm có tham số để phân cụm tự động Nhược điểm thuật tốn theo hướng có độ phức tạp lớn nên không dùng cho khối lượng liệu lớn Thuật toán DBSCAN giúp ta hiểu cách tiếp cận Thuật toán DBSCAN (Density – Based Spatial Clustering of Applications with Noise) Thuật toan DBSCAN nhóm vùng có mật độ đủ cao vào cụm thác triển dựa đối tượng lõi để có cụm với hình dạng tự nhiên tập khơng gian đặc trưng Thuật tốn u cầu xác định trước hai tham số đầu vào 𝜀 Minpts Phân cụm liệu theo thuật toán DBSCAN áp dụng luật sau đây: - Các đối tượng nằm hình cầu bán kính 𝜀 (𝜀–lân cận) đối tượng gọi 𝜀–láng giềng đối tượng Đối tượng có Minpts đối tượng khác 𝜀–láng giềng gọi đối tượng nhân - Một đối tượng nằm cụm nằm 𝜀–lân cận đối tượng nhân thuộc cụm - Một đối tượng lõi o 𝜀–láng giềng đối tượng nhân p o thuộc cụm với p - Hai cụm có giao khác rỗng nhập thành cụm - Một đối tượng không nhân r không 𝜀–láng giềng đối tượng nhân xem phần tử ngoại lai đối tượng nhiễu Để lập nên cụm, DBSCAN kiểm tra 𝜀–láng giềng đối tượng sở liệu Nếu 𝜀– láng giềng điểm p chứa nhiều Minpts, cụm với p đối tượng nhân tạo Các cụm mở rộng nhờ liên kết cụm tạo nên cụm chứa Những phần tử ngoại lai khơng phân cụm, cần thiết sau phân cụm cụm hình thành đối tượng nhân, ta phát triển thành cụm có hình dạng phong phú 1.5.4 Phương pháp dựa lưới Thuật toán STING (A STatistical Information Grid approach) STING W Wang cộng (1997) đề xuất, phương pháp tổ chức miền khơng gian chứa liệu thành lưới hình hộp đa mức để phân tích cụm theo thống kê phân cấp ô Ban đầu ta chia miền liệu thành hình chữ nhật (hoặc hình hộp khơng gian có số chiều cao) với chiều dài cạnh mức Việc phân tích thơng tin dựa đặc điểm thống kê tập liệu ô như: - Count: số đối tượng ơ; - M: vectơ trung bình liệu ô; 12 - S: độ lệch chuẩn giá trị thuộc tính ơ; - Min: giá trị cực tiểu thuộc tính ơ; - Max: giá trị cực đại thuộc tính ô; - Distribution: kiểu phân phối giá trị thuộc tính Việc phân tích giúp ta định có chia xét mức mịn không đủ để phân cụm ô kết hợp với cụm ô liền kề Cách phân chia ô tạo cấu trúc phân cấp: ô mức cao phân chia thành số ô mức thấp bước Hình 1.9 mơ tả mức lưới liên tiếp cấu trúc STING, ô mức phân thành bốn ô mức Các tham số thống kê mức cao chưa xác định tính tốn từ tham số ô mức thấp Kiểu phân bố mức cao tính tốn dựa kiểu phân bố tương ứng mức thấp Nếu phân bố mức thấp khơng cho biết phân bố mức cao phân bố ô mức cao không xác định (được đặt none) Hình 1.9 Ba tầng liên tiếp cấu trúc STING 13 Chương II LÝ THUYẾT TẬP THÔ 2.1 Giới Thiệu Ngay từ xuất hiện, lý thuyết tập thô Zdzisaw Pawlak khởi xướng vào năm đầu thập niên tám mươi kỷ hai mươi thu hút quan tâm nhiều nhà nghiên cứu thực nghiệm toàn giới Khả ứng dụng nhiều lĩnh vực khác cho thấy vai trò quan trọng lý thuyết việc nghiên cứu ứng dụng công nghệ thông tin thời đại Lý thuyết tập thơ xem xét theo hai phương diện mơ hình thực hành Theo phương diện mơ hình, lý thuyết tập thơ cho cách tiếp cận cho tính mơ hồ Các khái niệm mơ hồ đặc trưng "miền biên" chứa tất phần tử mà gộp vào miền đối tượng quan sát phần bù miền Lý thuyết tập thô nghiên cứu phát triển nhằm hiểu tốt ý tưởng tính mơ hồ Nó xét đến vài ý tưởng Gottfried Leibniz (tính khơng phân biệt được), George Boole (các phương pháp suy luận), Jan Lukasiewicz (các logic đa trị) Thomas Bayes (suy luận quy nạp) Về phương diện thực hành, lý thuyết tập thô ý tưởng tảng cho trí tuệ nhân tạo khoa học nhận thức, đặc biệt cho học máy, phát tri thức, phân tích định, suy luận quy nạp nhận dạng mẫu Nó quan trọng cho nghiên cứu hệ trợ giúp định khai phá liệu Thực tế tiếp cận lý thuyết tập thô cách tiếp cận cho việc phân tích liệu Mục đích phân tích tập thô đưa tập xấp xỉ để biểu diễn đối tượng phân lớp cách chắn cách dùng tri thức có sẵn Theo cách tiếp cận lý thuyết tập thô, tập thô liên kết với hai tập "rõ" xấp xỉ xấp xỉ Xấp xỉ bao gồm đối tượng chắn thuộc, xấp xỉ chứa tất đối tượng có khả thuộc tập Các tập xấp xỉ sở để đưa kết luận từ liệu 2.2 Các khái niệm 2.2.1 Hệ thống thơng tin Một tập liệu biểu diễn dạng bảng, dòng biểu diễn thơng tin ứng với đối tượng, cột biểu diễn thuộc tính đo đối tượng Bảng gọi hệ thống thông tin Hệ thống thông tin cặp 𝐼𝑆 = (𝑈, 𝐴), với 𝑈 tập hữu hạn, khác rỗng, gọi tập vũ trụ đối tượng 𝐴 tập hữu hạn khác rỗng thuộc tính Với 𝑚ỗ𝑖 𝑢 ∈ 𝑈 𝑎 ∈ 𝐴, ta ký hiệu u(a) giá trị đối tượng u thuộc tính a Nếu gọi Va tập tất gía trị thuộc tính a, 𝑢(𝑎) ∈ 𝑉𝑎 với 𝑢 ∈ 𝑈 Bây giờ, 𝐵 = {𝑏1, 𝑏2,· · · , 𝑏𝑘} ⊆ 𝐴 tập thuộc tính ta ký hiệu giá trị u(bi) u(B) Như vậy, u v hai đối tượng, ta viết 𝑢(𝐵) = 𝑣(𝐵) 𝑢(𝑏𝑖) = 𝑣(𝑏𝑖), với 𝑖 = 1, · · · , 𝑘 Ví dụ 2.2.1: Một hệ thống thơng tin bao gồm đối tượng U={u1, u2, u3, u4, u5, u6, u7, u8}, tập thuộc tính A={Color, Size}, miền giá trị cho thuộc tính IColor = {Green, Yellow, Red}, ISize = {Small, Medium, Big} 14 Bảng 2.1 Hệ Thống Thông Tin Color Size u1 Green Big u2 Green Small u3 Yellow Medium u4 Red Medium u5 Yellow Medium u6 Green Big u7 Red Small u8 Red Small 2.2.2 Bảng định (Decision Table) Để biểu diễn liệu thực tế, có thuộc tính định, xét trường hợp đặc biệt hệ thông tin gọi bảng định định nghĩa sau Định nghĩa 1.2 Bảng định hệ thống thông tin có dạng 𝐷𝑇 = (𝑈, 𝐴 ∪ {𝑑}) Trong đó: 𝑑 ∉ 𝐴 thuộc tính phân biệt, gọi gọi thuộc tính định Các thành phần 𝐴 gọi thuộc tính điều kiện Ví dụ 2.2.2: Bảng sau bảng định, Bảng có đối tượng bảng 1, có thêm thuộc tính định (Shape) Trong tốn phân lớp thuộc tính định lớp đối tượng cần xếp lớp Trong ví dụ thuộc tính định Shape có giá trị Circle, square Triangle Bảng 2.2 Ví dụ bảng định Color Size Shape[D] u1 Green Big Circle u2 Green Small Circle u3 Yellow Medium Square u4 Red Medium Square u5 Yellow Medium Triangle u6 Green Big Circle u7 Red Small Triangle u8 Red Small Triangle Chúng ta giả sử tập giá trị giá trị định d tương đương với tập {1, , r(d)} số nguyên dương từ đến r(d), tập gọi phạm vi thuộc tính định d Lớp định thứ k (ký hiệu Ck) tâp đối tượng thoả mãn: 𝐶k ={u ∈ 𝑈: 𝑑(u)=k} Trong 1≤ k ≤r(𝑑) Khi giá trị định 𝑑 chia tập đối tượng thành r(𝑑) lớp định:{𝐶1, , 𝐶r(𝑑)} Trong trường hợp tổng qt có nhiều thuộc tính định, dó bảng định có dạng 𝐷𝑇 = (𝑈, 𝐶 ∪ 𝐷), đó: 15 𝐴=𝐶 ∪ 𝐷 𝐶: gọi tập thuộc tính điều kiện 𝐷: gọi tập thuộc tính định 2.2.3 Quan hệ không phân biệt Một đặc điểm lý thuyết tập thô dùng để lưu giữ xử lý liệu không phân biệt Trong hệ thông tin theo định nghĩa có đối tượng không phân biệt Trước tiên ta nhắc lại định nghĩa quan hệ tương đương sau: Định nghĩa 1.5 Một quan hệ hai (quan hệ nhị phân) 𝑅 ⊆ 𝑈 𝑥 𝑈 U quan hệ tương đương có tính chất: - Phản xạ: Mọi đối tượng quan hệ với - Đối xứng: Nếu 𝑥𝑅𝑦 𝑦𝑅𝑥 - Bắc cầu: Nếu 𝑥𝑅𝑦 𝑦𝑅𝑧 𝑥𝑅𝑧 Quan hệ tương đương 𝑅 chia tập đối tượng U thành lớp tương đương Lớp tương đương phần tử 𝑥 ∈ 𝑈, ký hiệu [𝑥]𝑅 chứa tất đối tượng 𝑦 mà 𝑥𝑅𝑦 Bây bắt đầu định nghĩa quan hệ tương đương hệ thống thông tin Quan hệ sau sử dụng để biểu diễn thông tin không phân biệt Định nghĩa 1.6 [4] cho tập thuộc tính B ⊂ A hệ thống thông tin (U,A) Quan hệ B – không phân biệt (Ký hiệu INDA(B)), định nghĩa sau: INDA(B) = {(x,x’) ∈ U2 | ⋁a ∈ B,a(x)=a(x’)} Khi INDA(B) quan hệ không phân biệt B ký hiệu [x]B Hai đối tượng x, x’ mà (x,x’) ∈ INDA(B) gọi không phân biệt thuộc tính B Khi xét hệ thống thông tin xác định ta viết IND(B) thay cho INDA(B) Ví dụ 2.2.3:Tập thuộc tính B = {Color, Size} bảng phân hoạch đối tượng thành lớp tương đương sau: IND(B) = {(u1,u6),(u2),(u3,u5),(u4),(u7,u8)} Nhận xét: Ta thấy, đối tượng u1 u6 lớp tương đương nên chúng phân biệt với tập thuộc tính {Color, Size} 2.2.4 Các khái niệm xấp xỉ tập thô 2.2.4.1 Xấp xỉ dưới, xấp xỉ Định nghĩa 1.7 [4] cho bảng định 𝐷𝑇 = (𝑈, 𝐶 ∪ 𝐷) tập thuộc tính 𝐵 ⊂ 𝐶, 𝑋 ⊆ 𝑈 Xấp xỉ tập 𝑋 tương ứng với 𝐵, Ký hiệu theo thứ tự 𝐵𝑋 𝐵𝑋 định nghĩa sau: 𝐵𝑋 = {𝑥 ∈ 𝑈: [𝑥]𝐵 ⊂ 𝑋}, 16 𝐵𝑋 = {𝑥 ∈ 𝑈: [𝑥]𝐵 ∩ 𝑋 ≠ ∅} Tập hợp 𝐵𝑋 tập đối tượng 𝑈 mà sử dụng thuộc tính 𝐵 ta biết chắn chúng phần tử 𝑋 Tập hợp 𝐵𝑋 tập đối tượng 𝑈 mà sử dụng thuộc tính 𝐵 ta nói chúng phần tử 𝑋 2.2.4.2 Miền biên, miền 𝐵 – biên tập 𝑋, ký hiệu 𝐵𝑁𝐵(𝑋), định nghĩa 𝐵𝑁𝐵(𝑋) = 𝐵𝑋 \ 𝐵𝑋 𝐵𝑁𝐵(𝑋) chứa đối tượng mà sử dụng thuộc tính B ta khơng thể xác định chúng có thuộc 𝑋 hay khơng 𝐵 – tập 𝑋, ký hiệu 𝑁𝐸𝐺 B(𝑋) định nghĩa 𝑁𝐸𝐺 B(𝑋) = 𝑈 \ 𝐵𝑋 𝑁𝐸𝐺 B(𝑋) chứa đối thượng mà sử dụng thuộc tính 𝐵 ta biết chắn khơng thuộc 𝑋 Hình sau trình bày mơ tả tập xấp xỉ miền Hình 2.1 Mơ tả tập xấp xỉ miền 2.2.4.3 Một số tính chất tập hợp xấp xỉ 𝐵(𝑋) ⊆ 𝑋 ⊆ 𝐵(𝑋) 𝐵(∅) = 𝐵(∅) = ∅, 𝐵(𝑈) = 𝐵(𝑈) = 𝑈 𝐵(𝑋 ∪ 𝑌) = 𝐵(𝑋) ∪ 𝐵(𝑌) 𝐵(𝑋 ∩ 𝑌) = 𝐵(𝑋) ∩ 𝐵(𝑌) Nếu 𝑋 ⊆ 𝑌 𝐵(𝑋) ⊆ 𝐵(𝑌), 𝐵(𝑋) ⊆ 𝐵(𝑌) 𝐵(𝑋 ∪ 𝑌) ⊇ 𝐵(𝑋) ∪ 𝐵(𝑌) 7.𝐵(𝑋 ∩ 𝑌) ⊆ 𝐵(𝑋) ∩ 𝐵(𝑌) 𝐵(𝑈\𝑋) = 𝑈\𝐵(𝑋) 𝐵(𝑈\𝑋) = 𝑈 \𝐵(𝑋) 10 𝐵(𝐵(𝑋)) = 𝐵(𝐵(𝑋)) = 𝐵(𝑋)) 11 𝐵(𝐵(𝑋)) = 𝐵(𝐵(𝑋)) = 𝐵(𝑋)) Người ta phân tập thô thành loại: 17 - 𝑋 xác định thô thực theo 𝐵 𝐵(𝑋) ≠ ∅ 𝐵(𝑋) ≠ 𝑈 - 𝑋 không xác định bên theo 𝐵 𝐵(X) = ∅ 𝐵(𝑋) ≠ 𝑈 - 𝑋 khơng xác định bên ngồi theo 𝐵 𝐵(𝑋) ≠ ∅ 𝐵(𝑋) = 𝑈 - 𝑋 không xác định thực theo 𝐵 𝐵(𝑋) = ∅ 𝐵(𝑋) = 𝑈 2.2.4.4 Độ đo liên quan biên xấp xỉ | 𝐵(X)| Tập thô số hóa sau: 𝛼 B(𝑋) = | 𝐵(X)|, 𝛼 B(𝑋) gọi độ đo liên quan biên xấp xỉ 𝑋, với |𝑋| biểu diễn lực lượng 𝑋 ≠ ∅ Có hể thấy ≤ 𝛼B(𝑋) ≤ Nếu 𝛼 B(𝑋) = 𝑋 hoàn toàn 𝐵, ngược lại 𝛼 B(𝑋) < 𝑋 thơ 𝐵 2.3 Rút gọn thuộc tính hệ thống thơng tin Thơng tin hệ thống dư thừa, dư thừa xảy : Trường hợp 1: Các đối tượng giống theo tập thuộc tính quan tâm lặp lại nhiều lần Trường hợp 2: Một số thuộc tính bỏ mà thông tin quan tâm bảng định cung cấp không bị mát Với trường hợp 1: khái niệm lớp tương đương cho ta tiếp cận tinh giảm thông tin cần lưu trữ hệ thông tin Ta cần sử dụng đối tượng để đại diện cho lớp tương đương Với trường hợp 2: Chỉ giữ lại thuộc tính bảo tồn quan hệ bất khả phân biệt, bảo toàn khả xấp xỉ tập hợp hệ thơng tin Q trình rút gọn hệ thống thơng tin mà tập thuộc tính hệ thống thông tin rút gọn độc lập khơng thuộc tính bị loại bỏ mà không làm thông tin từ hệ thống, kết biết đến tập rút gọn Nếu thuộc tính từ tập 𝐵 ⊆ 𝐴 trì mối quan hệ khơng phân biệt 𝐼𝑁𝐷(𝐴) thuộc tính 𝐴\𝐵 khơng cần thiết Các tập rút gọn tập tối thiểu, nghĩa khơng chứa thuộc tính khơng cần thiết Do việc rút gọn có khả phân loại đối tượng mà khơng làm thay đổi hình thức việc diễn tả tri thức Thuộc tính cần thiết không cần thiết Xét bảng định 𝐷𝑇 = (𝑈, 𝐶 ∪ 𝐷) Thuộc tính 𝑐 ∈ 𝐶 gọi không cần thiết 𝐷𝑇 𝑃𝑂𝑆c(𝐷) = 𝑃𝑂𝑆(c-{c})(𝐷) Ngược lại ta nói c cần thiết 𝐷𝑇 với Tập 𝑃𝑂𝑆C(𝐷) gọi 𝐶- miền khẳng định 𝐷 Rõ ràng thuộc tính khơng cần thiết không làm tăng hay giảm khả phân loại có khơng có mặt thuộc tính 𝐶 Khi loại khỏi 𝐶 số thuộc tính bỏ ta tập rút gọn C Ta nói bảng định 𝐷𝑇 = (𝑈, 𝐶 ∪ 𝐷) độc lập tất thuộc tính 𝑐 ∈ 𝐶 cần thiết 𝐷𝑇 Rút gọn lõi: Tập thuộc tính 𝑅 ⊆ 𝐶 gọi rút gọn 𝐶 𝐷𝑇’ = (𝑈, 𝑅 ∪ 𝐷) độc lập 𝑃𝑂𝑆R(𝐷) = 𝑃𝑂𝑆C(𝐷) 18 Một tập rút gọn tập thuộc tính trì đặc tính tập liệu gốc, thuộc tính không thuộc tập rút gọn không cần thiết phân loại phần tử tập vũ trụ Tập tất thuộc tính cần thiết 𝐷𝑇 kí hiệu: 𝐶𝑂𝑅𝐸(𝐶) Khi đó, 𝐶𝑂𝑅𝐸(𝐶) = ∩ 𝑅𝐸𝐷(𝐶) với 𝑅𝐸𝐷(𝐶): Là tập tất rút gọn 𝐶 2.4 Ma trận phân biệt hàm phân biệt Phần cung cấp khái niệm rút gọn thuộc tính hệ thơng tin, nhiên chúng chưa thực rõ nét trực quan Trong phần thấy chất rút gọn tập thuộc tính sở để hiểu thuật toán rút gọn hệ thông tin Xét hệ thống thông tin 𝑨 = (𝑈, 𝐴) Ma trận phân biệt 𝑨 ký hiệu 𝑀(𝑨) ma trận đối xứng n x n với phần tử cij cho sau: Với ≤ j ≤ i ≤ n xi, yj thuộc A – vùng khẳng định D cij tập tất thuộc tính điều kiện mà phân loại xi, xj thành lớp khác Hàm phân biệt ƒA cho hệ thống thông tin A hàm kiểu Boolean m biến logic a1*,…, am* (tương ứng với thuộc tính a1,…,am) xác định sau: với cij = {a*| a ∈ cij} ƒA(a1*,…, am*) = ∧{∨ c*ij| 1≤ j ≤ i≤ n, cij ≠ ∅ } với ∨cij = ⊥(false) cij ≠ ∅ ; ∨cij= T(true) cij = 𝜆 2.5 Hàm Thành Viên Thô Trong lý thuyết tập hợp cổ điển, thành viên thuộc tập hợp không Hàm thành viên (hàm thuộc) hàm đặc trưng tập hợp nhận hai giá trị Trong tập thô, ý tưởng hàm thành viên khác, hàm thành viên thơ xác định mức độ giao liên quan tập 𝑋 lớp tương đương [x]B chứa x, định nghĩa sau: 𝜇𝑋𝐵 :U → [0,1] xác định 𝜇𝑋𝐵 (x) = Một số tính chất hàm thành viên thơ: 𝜇𝑋𝐵 (x) = ⟺ x ∈ 𝐵(𝑋) 𝜇𝑋𝐵 (x) = ⟺ x ∈ U - 𝐵(𝑋)