BAO CAO TOM TAT_THU(^_^) docx

Phạm Thị Thu Thuật toán phân cụm liệu mờ MỤC LỤC MỤC LỤC .1 CHƯƠNG TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm chung .2 1.2 Các kiểu liệu độ đo tương tự 1.3 Một số ứng dụng phân cụm liệu 1.4 Một số kỹ thuật tiếp cận phân cụm liệu .6 CHƯƠNG LÝ THUYẾT TẬP MỜ 2.1 Tập mờ 2.2 Số mờ 2.3 Quan hệ mờ .10 CHƯƠNG MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU 11 - PHÂN CỤM DỮ LIỆU MỜ 11 3.1 Thuật toán k-means 11 3.2 Thuật toán k-tâm .12 3.2.1 Các khái niệm thuật toán sở cho thuật toán K-tâm 12 3.2.2 Thuật toán K-tâm: .14 3.3 Thuật toán phân cụm liệu mờ FCM (Fuzzy C-means) .14 3.3.1 Xây dựng hàm tiêu chuẩn 15 3.3.2 Thuật toán 16 3.3.3 Đánh giá .17 CHƯƠNG 4: BÀI TOÁN ỨNG DỤNG 18 4.1 Bài toán .18 4.2 Chương trình ứng dụng .20 Giao diện chương trình : 21 KẾT LUẬN 24 TÀI LIỆU THAM KHẢO 25 Trang Phạm Thị Thu Thuật toán phân cụm liệu mờ CHƯƠNG TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm chung Khai phá liệu (Datamining) q trình trích xuất thơng tin có giá trị tiềm ẩn bên tập liệu lớn lưu trữ sở liệu, kho liệu Người ta định nghĩa: "Phân cụm liệu kỹ thuật DATA MINING, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho việc định" Như , PCDL trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" (Similar) với phần tử cụm khác "phi tương tự" (Dissimilar) với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định 1.2 Các kiểu liệu độ đo tương tự a Phân loại kiểu liệu Cho CSDL D chứa n đối tượng không gian k chiều x,y,z đối tượng thuộc D : x = (x1,x2, ,xk ); y = (y1,y2, ,yk ); z = (z1,z2, ,zk ), xi, yi, zi với i = 1, k đặc trưng thuộc tính tương ứng đối tượng x,y,z Sau kiểu liệu: Phân loại kiểu liệu dựa kích thước miền • Thuộc tính liên tục (Continuous Attribute) : miền giá trị vơ hạn khơng đếm • Thuộc tính rời rạc (DiscretteAttribute) : Nếu miền giá trị tập hữu hạn, đếm • Lớp thuộc tính nhị phân: trường hợp đặc biệt thuộc tính rời rạc mà miền giá trị có phần tử diễn tả : Yes / No Nam/Nữ, False/true,… Trang Phạm Thị Thu Thuật toán phân cụm liệu mờ Phân loại kiểu liệu dựa hệ đo Giả sử có hai đối tượng x, y thuộc tính x i, yi tương ứng với thuộc tính thứ i chúng Chúng ta có lớp kiểu liệu sau : • Thuộc tính định danh (nominal Scale): dạng thuộc tính khái qt hố thuộc tính nhị phân, miền giá trị rời rạc không phân biệt thứ tự có nhiều hai phần tử - nghĩa x y hai đối tượng thuộc tính xác định x ≠ y x = y • Thuộc tính có thứ tự (Ordinal Scale) : thuộc tính định danh có thêm tính thứ tự, chúng khơng định lượng Nếu x y hai thuộc tính thứ tự ta xác định x ≠ y x = y x > y x yi ta nói x cách y khoảng x i – yi tương ứng với thuộc tính thứ i • Thuộc tính tỉ lệ (Ratio Scale) : thuộc tính khoảng xác định cách tương đối so với điểm mốc, thí dụ thuộc tính chiều cao cân nặng lấy điểm làm mốc Trong thuộc tính liệu trình bày trên, thuộc tính định danh thuộc tính có thứ tự gọi chung thuộc tính hạng mục (Categorical), thuộc tính khoảng thuộc tính tỉ lệ gọi thuộc tính số (Numeric) b Độ đo tương tự phi tương tự Để phân cụm, người ta phải tìm cách thích hợp để xác định "khoảng cách" đối tượng, phép đo tương tự liệu Đây hàm để đo giống cặp đối tượng liệu, thông thường hàm để tính độ tương tự (Similar) tính độ phi tương tự (Dissimilar) đối tượng liệu Tất độ đo xác định không đo gian metric Một không gian metric tập có xác định "khoảng cách" cặp phần tử, với tính chất thơng thường khoảng cách hình học Nghĩa là, tập X (các phần tử đối tượng bất kỳ) đối Trang Phạm Thị Thu Thuật toán phân cụm liệu mờ tượng liệu CSDL D đề cập gọi không gian metric nếu:  Với cặp phần tử x,y thuộc X có xác định, theo quy tắc đó, số thực δ(x,y), gọi khoảng cách x y  Quy tắc nói thoả mãn hệ tính chất sau : (i) δ(x,y) > x ≠ y ; (ii) δ(x, y)=0 x =y; (iii) δ(x,y) = δ(y,x) với x,y; (iv) δ(x,y) ≤ δ(x,z)+δ(z,y) Hàm δ(x,y) gọi metric không gian Các phần tử X gọi điểm khơng gian Thuộc tính khoảng : Sau chuẩn hoá, độ đo phi tương tự hai đối tượng liệu x, y xác định metric khoảng cách sau : 1/ q n q  Khoảng cách Minskowski : d ( x, y ) = ( ∑ | x i − y i| ) i =1 , q số tự nhiên dương  Khoảng cách Euclide : d ( x, y ) = n ∑ ( x i − y i) , trường hợp đặc biệt i =1 khoảng cách Minskowski trường hợp q=2 n  Khoảng cách Manhattan : d ( x, y ) = ∑ | xi − i =1 y |, i trường hợp đặc biệt khoảng cách Minskowski trường hợp q=1  Khoảng cách cực đại : d ( x, y ) = Maxi =1 | xi − yi | , trường hợp n khoảng cách Minskowski trường hợp q-> ∞ Thuộc tính nhị phân : • α tổng số thuộc tính có giá trị x,y • β tổng số thuộc tính có giá trị x y • γ tổng số thuộc tính có giá trị x y • δ tổng số thuộc tính có giá trị x y • τ= α+γ+β+δ Trang Phạm Thị Thu Thuật toán phân cụm liệu mờ Các phép đo độ tương tương đồng liệu thuộc tính nhị phân định nghĩa sau : Hệ số đối sánh đơn giản : d ( x, y ) = α +δ , hai đối tượng x y có vai trị τ nhau, nghĩa chúng đối xứng có trọng số Hệ số Jacard : d ( x, y ) = α , (bỏ qua số đối sánh 0-0) Công thức α + β +γ tính sử dụng trường hợp mà trọng số thuộc tính có giá trị đối tượng liệu có cao nhiều so với thuộc tính có giá trị 0, thuộc tính nhị phân khơng đối xứng Thuộc tính định danh : Độ đo phi tương tự hai đối tượng x y định nghĩa sau: d ( x, y ) = p−m , m số thuộc tính đối sánh tương ứng trùng nhau, p p tổng số thuộc tính Thuộc tính có thứ tự : Giả sử i thuộc tính thứ tự có Mi giá trị (Mi kích thước miền giá trị) : Các trạng thái Mi thứ tự sau : [1…M i], thay giá trị thuộc tính giá trị loại r i, với ri ∈{1…Mi} Mỗi thuộc tính có thứ tự có miền giá trị khác nhau, chuyển đổi chúng miền giá trị [0,1] cách thực phép biến đổi ( j) sau cho thuộc tính : r z = M ( j) i i i −1 −1 Sử dụng cơng thức tính độ phi tương tự thuộc tính khoảng giá trị z ( j) i , độ phi tương tự thuộc tính có thứ tự Thuộc tính tỉ lệ : Có nhiều cách khác để tính độ tương tự thuộc tính tỉ lệ Một số sử dụng cơng thức tính logarit cho thuộc tính Hoặc loại bỏ đơn vị đo thuộc tính liệu cách chuẩn hố chúng, gán trọng số cho thuộc tính giá trị trung bình, độ lệch chuẩn.Với thuộc Trang Phạm Thị Thu Thuật tốn phân cụm liệu mờ tính liệu gán trọng số tương ứng wi (1 ≤ i ≤ k ) , độ tương đồng liệu xác định sau : d ( x, y ) = n ∑ w ( x i − y i) i =1 i 1.3 Một số ứng dụng phân cụm liệu Phân cụm liệu có nhiều ứng dụng nhiều lĩnh vực khác Ví dụ:  Thương mại : Giúp thương nhân khám phá nhóm khách hàng quan trọng để đưa mục tiêu tiếp thị  Sinh học : Xác định loại sinh vật, phân loại Gen với chức tương đồng thu cấu trúc mẫu  Lập quy hoạch thị : Nhận dạng nhóm nhà theo kiểu vị trí địa lý, …nhằm cung cấp thông tin cho quy hoạch đô thị  Nghiên cứu trái đất : Theo dõi tâm động đất nhằm cung cấp thông tin cho nhận dạng vùng nguy hiểm 1.4 Một số kỹ thuật tiếp cận phân cụm liệu  Phân cụm phân hoạch: Phương pháp phân cụm phân hoạch nhằm phân tập liệu có n phần tử cho trước thành k nhóm liệu cho: phần tử liệu thuộc nhóm liệu nhóm liệu có tối thiểu phần tử liệu Một số thuật toán phân cụm phân hoạch điển hình: k-means, PAM, CLARA, CLARANS,…  Phân cụm liệu phân cấp: Phân cụm phân cấp xếp tập liệu cho thành cấu trúc có dạng hình cây, phân cấp xây dựng theo kỹ thuật đệ quy  Phân cụm liệu dựa lưới: Kỹ thuật phân cụm dựa mật độ khơng thích hợp với liệu nhiều chiều, để giải cho đòi hỏi này, người ta dử dụng phương pháp phân cụm dựa lưới Đây phương pháp dựa cấu trúc liệu lưới để PCDL, phương pháp chủ yếu tập trung áp dụng cho lớp liệu khơng gian Thí dụ Trang Phạm Thị Thu Thuật toán phân cụm liệu mờ liệu biểu diễn dạng cấu trúc hình học đối tượng không gian với quan hệ, thuộc tính, hoạt động chúng Một số thuật toán PCDL dựa cấu trúc lưới điển hình là: STING, WAVECluster, CLIQUE,…  Phân cụm liệu dựa mật độ: Phương pháp nhóm đối tượng theo hàm mật độ xác định Mật độ định nghĩa số đối tượng lân cận đối tượng liệu theo ngưỡng Trong cách tiếp cận này, cụm liệu xác định tiếp tục phát triển thêm đối tượng liệu miễn số đối tượng lân cận đối tượng phải lớn ngưỡng xác định trước Phương pháp phân cụm dựa vào mật độ đối tượng để xác định cụm liệu phát cụm liệu với hình thù Tuy vậy, việc xác định tham số mật độ thuật tốn khó khăn, tham số lại có tác động lớn đến kết phân cụm liệu Trang Phạm Thị Thu Thuật toán phân cụm liệu mờ CHƯƠNG LÝ THUYẾT TẬP MỜ 2.1 Tập mờ Định nghĩa: Tập mờ tập hợp mà phần tử gán thêm giá trị thực µ(x) Є [0,1] để độ phụ thuộc vào tập cho Độ phụ thuộc lớn phần tử thuộc tập lớn Khi độ phụ thuộc phần tử khơng hồn tồn thuộc tập cho Ngược lại với độ phụ thuộc phần tử thuộc tập hợp với xác suất 100% A tập mờ không gian X A xác định hàm: µA : X → [0,1] µA hàm thuộc µA(x) độ thuộc x vào tập mờ A Ví dụ: T tập người có tuổi 20 Mỗi người có hai khả năng: thuộc T khơng Tuy nhiên xét A tập người trẻ Trong trường hợp khơng có ranh giới rõ ràng để khẳng định người có thuộc A hay khơng Ranh giới mờ Ta nói người thuộc tập A theo mức độ Chẳng hạn ta cho người 35 tuổi thuộc tập A với độ thuộc 60 % hay 0.6 Còn người 50 tuổi thuộc A với độ thuộc 30% hay 0.3 Như A tập mờ µ trẻ : X → [0,1] hàm thuộc A Có thể ký hiệu A = {( µA(x), x ): x Є X} Việc µA(x) có giá trị khoảng [0,1] điều khác biệt tập rõ tập mờ Ở tập rõ hàm thuộc có hai giá trị : +µA(x) = x Є A +µA(x) ≠ x ∉ A 2.2 Số mờ Tập mờ M tập số thực R1 số thực mờ : 1) M chuẩn hóa tức có điểm x’ cho µM (x’) = 2) Ứng với α Є R1 tập mức {x: µM (x) ≥ α} đoạn đóng R1 Trang Phạm Thị Thu Thuật toán phân cụm liệu mờ Có dạng số mờ bản:  Số mờ hình Singleton: µM (x) Hình 2.1a Số mờ Singleton  Số mờ hình tam giác: M(a, b, c) x µM (x) x ≤ a µM (x) = x –a / x - b a ≤ x ≤ b c – x / c –b b ≤ x ≤ c c ≤ x a b c x Hình 2.1b Số mờ tam giác  Số mờ hình thang: M(a, b, c, d) µM (x) x ≤ a µM (x) = x –a / x - b a ≤ x ≤ b 1 b ≤ x ≤ c 0 d ≤ x a b c d Hình 2.1c Số mờ hình thang Trang x Phạm Thị Thu Thuật toán phân cụm liệu mờ 2.3 Quan hệ mờ • Khái niệm quan hệ mờ Định nghĩa 1: Cho hai không gian X,Y R quan hệ mờ X x Y R tập mờ X x Y tức có hàm thuộc: µR : X x Y → [0,1] µR ( x,y ) = R(x,y) độ thuộc (membership degree) x, y vào quan hệ Định nghĩa 2: Quan hệ mờ tập mờ: Cho tập mờ A với µ A(x) X Tập mờ B với µ B(x) Y Quan hệ mờ tập mờ A B quan hệ mờ R X x Y thỏa mãn điều kiện: µR (x,y) ≤ µA(x), ∀ y Є Y µR (x,y) ≤ µB (x), ∀ x Є X Các phép toán: (R1 ∩ R2) (x, y) = max {R1(x, y), R2 (x, y)} (R1  R2) (x, y) = {R1(x, y), R2 (x, y)} R -1 (x, y) = R (y, x) Rc (x, y) = − R (x, y) • Phép hợp thành (composition) Cho R quan hệ mờ X x Y R quan hệ mờ Y x Z Hợp thành R1o R2 R1, R2 quan hệ mờ X x Z a) Hợp thành max-min xác định bởi: µR1  R2(x, z) = maxy {min (µR1 (x, y), µR2 (y, z)}, ∀(x, z) Є X x Z b) Hợp thành max-prod cho : µR1  R2(x, z) = maxy {µR1 (x, y) µR2 (y, z)} với (x, z) Є X x Z c) Hợp thành max-* cho toán tử ∗: [0,1] → [0,1] µR1o R2 (x, z) = maxy {µR (x,y) ∗ µR2 (y,z)} ∀ (x, z) Є X x Z Trang 10 Phạm Thị Thu Thuật toán phân cụm liệu mờ CHƯƠNG MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU - PHÂN CỤM DỮ LIỆU MỜ 3.1 Thuật toán k-means Thuật toán phân hoạch K-means MacQeen đề xuất lĩnh vực thống kê năm 1967, mục đích thuật tốn k-means sinh k cụm liệu {C1, C2, …,Ck} từ tập liệu chứa n đối tượng không gian d chiều X i k = (xi1, xi2, …, xid) ( i = 1, n ), cho hàm tiêu chuẩn : E = ∑ ∑ x∈ i =1 Ci D ( x − mi ) đạt giá trị tối thiểu Trong : m i trọng tâm cụm Ci, D khoảng cách hai đối tượng ( khoảng cách Euclide) Trọng tâm cụm véc tơ, giá trị phần tử trung bình cộng thành phần tương ứng đối tượng vectơ liệu cụm xét Tham số đầu vào thuật toán số cụm k, tham số đầu thuật toán trọng tâm cụm liệu Thuật toán k-means bao gồm bước hình sau: InPut : Số cụm k trọng tâm cụm {mj}kj=1 ; OutPut : Các cụm Ci ( i = 1, k ) hàm tiêu chuẩn E đạt giá trị tối thiểu; Bước 1: Khởi tạo : Chọn k trọng tâm {mj}kj=1 ban đầu không gian R d (d số chiều liệu) Việc lựa chọn ngẫu nhiên theo kinh nghiệm Bước : Tính tốn khoảng cách : Đối với điểm Xi (1

Định dạng
Số trang	25
Dung lượng	792,5 KB