1. Trang chủ
  2. » Thể loại khác

PHƯƠNG PHÁP PHÂN CỤM VÀ ỨNG DỤNG. LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

20 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  Nguyễn Trung Sơn PHƢƠNG PHÁP PHÂN CỤM VÀ ỨNG DỤNG Chuyên ngành : Mã số : KHOA HỌC MÁY TÍNH 60.48.01 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS VŨ ĐỨC THI Thái Nguyên – 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN  Nguyễn Trung Sơn PHƢƠNG PHÁP PHÂN CỤM VÀ ỨNG DỤNG Chuyên ngành : Mã số : KHOA HỌC MÁY TÍNH 60.48.01 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS VŨ ĐỨC THI Thái Nguyên – 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn -2- MỤC LỤC TRANG LỜI CẢM ƠN LỜI MỞ ĐẦU CHƢƠNG I : TỔNG QUAN THUYẾT VỀ PHÂN CỤM DỮ LIỆU Phân cụm liệu 1.1 Định nghĩa phân cụm liệu 1.2 Một số ví dụ phân cụm liệu Một số kiểu liệu 10 2.1 Dữ liệu Categorical 10 2.2 Dữ liệu nhị phân 13 2.3 Dữ liệu giao dịch 14 2.4 Dữ liệu Symbolic 15 2.5 Chuỗi thời gian(Time Series) 16 Phép Biến đổi Chuẩn hóa liệu 16 3.1 Phép chuẩn hóa liệu 17 3.2 Biến đổi liệu 21 3.2.1 Phân tích thành phần 21 3.2.2 SVD 23 3.2.3 Phép biến đổi Karhunen-Loève 24 CHƢƠNG II CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU 28 Thuật toán phân cụm liệu dựa vào phân cụm phân cấp 28 1.1 Thuật toán BIRCH 28 1.2 Thuật toán CURE 30 1.3 Thuật toán ANGNES 32 1.4 Thuật toán DIANA 33 1.5 Thuật toán ROCK 33 1.6 Thuật toán Chameleon 34 -3- Thuật toán phân cụm liệu mờ 35 2.1 Thuật toán FCM 36 2.2 Thuật toán εFCM 37 Thuật toán phân cụm liệu dựa vào cụm trung tâm 37 3.1 Thuật toán K – MEANS 37 3.2 Thuật toán PAM 41 3.3 Thuật toán CLARA 42 3.4 Thuật toán CLARANS 44 Thuật tốn phân cụm liệu dựa vào tìm kiếm 46 4.1 Thuật toán di truyền (GAS) 46 4.2 J- Means 48 Thuật toán phân cụm liệu dựa vào lƣới 49 5.1 STING 49 5.2 Thuật toán CLIQUE 51 5.3 Thuật toán WaveCluster 52 Thuật toán phân cụm liệu dựa vào mật độ 53 6.1 Thuật toán DBSCAN 53 6.2 Thuật toán OPTICS 57 6.3 Thuật toán DENCLUDE 58 Thuật toán phân cụm liệu dựa mẫu 60 7.1 Thuật toán EM 60 7.2 Thuật toán COBWEB 61 CHƢƠNG III :ỨNG DỤNG CỦA PHÂN CỤM DỮ LIỆU 62 Phân đoạn ảnh 62 1.1 Định nghĩa Phân đoạn ảnh 63 1.2 Phân đoạn ảnh dựa vào phân cụm liệu 65 Nhận dạng đối tƣợng ký tự 71 2.1 Nhận dạng đối tượng 71 -4- 2.2 Nhận dạng ký tự 75 Truy hồi thông tin 76 3.1 Biểu diễn mẫu 78 3.2 Phép đo tương tự 79 3.3 Một giải thuật cho phân cụm liệu sách 80 Khai phá liệu 81 4.1 Khai phá liệu Phương pháp tiếp cận 82 4.2 Khai phá liệu có cấu trúc lớn 83 4.3 Khai phá liệu Cơ sở liệu địa chất 84 4.4 Tóm tắt 86 KẾT LUẬN ,HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 90 PHỤ LỤC 91 TÀI LIỆU THAM KHẢO 99 -5LỜI CẢM ƠN Em xin chân thành cảm ơn PGS TS Vũ Đức Thi tận tình hướng dẫn khoa học, giúp đỡ em hoàn thành tốt luận văn tốt nghiệp Em xin gửi lời cảm ơn tới thầy, cô giáo dạy dỗ, truyền đạt kiến thức cho em suốt trình học tập nghiên cứu HỌC VIÊN NGUYỄN TRUNG SƠN -6LỜI MỞ ĐẦU Trong năm gần đây, phát triển mạnh mẽ CNTT làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách chóng mặt Bên cạnh đó, việc tin học hóa cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Hàng triệu CSDL sử dụng hoạt động sản xuất, kinh doanh, quản lý , có nhiều CSDL cực lớn cỡ Gigabyte, chí Terabyte Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật cơng cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thời CNTT giới nói chung Việt Nam nói riêng Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: marketing, tài chính, ngân hàng bảo hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu lợi ích to lớn Các kỹ thuật khai phá liệu thường chia thành nhóm chính: - Kỹ thuật khai phá liệu mơ tả: có nhiệm vụ mơ tả tính chất đặc tính chung liệu CSDL có - Kỹ thuật khai phá liệu dự đốn: có nhiệm vụ đưa dự đoán dựa vào suy diễn liệu thời Bản luận văn trình bày số vấn đề Phân cụm liệu, kỹ thuật để Khai phá liệu Đây hướng nghiên cứu có triển vọng sơ lược việc hiểu khai thác CSDL khổng lồ, khám phá thơng tin hữu ích ẩn liệu; hiểu ý nghĩa thực tế liệu Luận văn đƣợc trình bày chƣơng phần phụ lục : Chương : Trình bày tổng quan lý thuyết Phân cụm liệu, kiểu liệu, Phép biến đổi chuẩn hóa liệu Chương : Giới thiệu, phân tích, đánh giá thuật toán dùng để phân cụm liệu Chương : Trình bày số ứng dụng tiêu biểu phân cụm liệu Kết luận : Tóm tắt vấn đề tìm hiểu luận văn vấn đề liên quan luận văn, đưa phương hướng nghiên cứu -7- CHƢƠNG I : TỔNG QUAN LÝ THUYẾT VỀ PHÂN CỤM DỮ LIỆU Phân cụm liệu 1.1 Định nghĩa phân cụm liệu Phân cụm liệu(Data Clustering) hay phân cụm, gọi phân tích cụm, phân tích phân đoạn, phân tích phân loại, q trình nhóm tập đối tượng thực thể hay trừu tượng thành lớp đối tượng tương tự Một cụm tập hợp đối tượng liệu mà phần tử tương tự cụm phi tương tự với đối tượng cụm khác Một cụm đối tượng liệu xem nhóm nhiều ứng dụng 1.2 Một số ví dụ phân cụm liệu 1.2.1 Phân cụm liệu phục vụ cho biểu diễn liệu gene Phân cụm phân tích sử dụng thường xuyên biểu diễn liệu gene (Yeung et al., 2003; Eisen at al., 1998) Dữ liệu biểu diễn gene tâp hợp phép đo lấy từ DNA microarray (còn gọi DNA chip hay gene chip) thủy tinh nhựa có gắn đoạn DNA thành hàng siêu nhỏ Các nhà nghiên cứu sử dụng chip để sàng lọc mẫu sinh học nhằm kiểm tra có mặt hàng loạt trình tự lúc Các đoạn DNA gắn chip gọi probe (mẫu dò) Trên điểm chip có hàng ngàn phân tử probe với trình tự giống Một tập hợp liệu biểu diễn gene biểu diễn thành ma trận giá trị thực :  x11   x 21 D   x  n1 x12  x1d   x 22  x d  ,      x n  x nd  Trong : - n số lượng gen - d số lượng mẫu hay điều kiện thử - xij thước đo biểu diễn mức gen i mẫu j -8- Bởi biểu ma trận gốc chứa nhiễu, giá trị sai lệch, hệ thống biến thể, tiền xử lý đòi hỏi cần thiết trước thực phân cụm Khai phá liệu Phân loại Ước lượng Dự đoán Khai phá liệu trực tiếp Khai phá liệu gián tiếp Phân cụm Luật kết hợp Diễn giải trực quan hóa Hình Tác vụ Khai phá liệu Dữ liệu biểu diễn gen phân cụm theo hai cách Cách thứ nhóm các mẫu gen giống nhau, ví dụ gom dòng ma trận D Cách khác nhóm mẫu khác hồ sơ tương ứng, ví dụ gom cột ma trận D 1.2.2 Phân cụm liệu phục sức khỏe tâm lý Phân cụm liệu áp dụng nhiều lĩnh vực sức khỏe tâm lý, bao gồm việc thúc đẩy trì sức khỏe, cải thiện cho hệ thống chăm sóc sức khỏe, cơng tác phịng chống bệnh tật người khuyết tật (Clatworthy et al., 2005) Trong phát triển hệ thống chăm sóc sức khỏe, phân cụm liệu sử dụng để xác định nhóm người dân mà hưởng lợi từ dịch vụ cụ thể (Hodges Wotring, 2000) Trong thúc đẩy y tế, nhóm phân tích sử dụng để lựa chọn nhắm mục tiêu vào nhóm có khả đem lại lợi ích cho sức khỏe cụ thể từ chiến dịch quảng bá tạo điều kiện thuận lợi cho phát triển quảng cáo Ngoài ra, phân cụm liệu -9được sử dụng để xác định nhóm dân cư bị rủi ro phát triển y tế điều kiện người có nguy nghèo 1.2.3 Phân cụm liệu hoạt đông nghiên cứu thị trường Trong nghiên cứu thị trường, phân cụm liệu sử dụng để phân đoạn thị trường xác định mục tiêu thị trường (Chrisoppher, 1969; Saunders, 1980, Frank and Green, 1968) Trong phân đoạn thị trường, phân cụm liệu thường dùng để phân chia thị trường thành cụm mang ý nghĩa, chẳng han chia đối tượng nam giới từ 21-30 tuổi nam giới 51 tuổi, đối tượng nam giới 51 tuổi thường khơng có khuynh hướng mua sản phẩm 1.2.4 Phân cụm liệu hoạt động Phân đoạn ảnh Phân đoạn ảnh việc phân tích mức xám hay mầu ảnh thành lát đồng (Comaniciu and Meer, 2002) Trong phân đoạn ảnh, phân cụm liệu thường sử dụng để phát biên đối tượng ảnh Phân cụm liệu công cụ thiết yếu khai phá liệu, khai phá liệu trình khám phá phân tích khối lượng lớn liệu để lấy thơng tin hữu ích (Berry and Linoff, 2000) Phân cụm liệu vấn đề nhận dạng mẫu (pattern recognition) Hình 1.1 đưa danh sách giản lược tác vụ đa dạng khai phá liệu chứng tỏ vai trò phân cụm liệu khai phá liệu Nhìn chung, Thơng tin hữu dụng khám phá từ khối lượng lớn liệu thông qua phương tiện tự động hay bán tự động (Berry and Linoff, 2000) Trong khai phá liệu gián tiếp, khơng có biến chọn biến đích, mục tiêu để khám phá vài mối quan hệ tất biến Trong khai phá liệu gián tiếp vài biến lại chọn biến đích Phân cụm liệu khai phá liệu gián tiếp, khai phá liệu, ta khơng đảm bảo chắn xác cụm liệu mà tìm kiếm, đóng vai trị việc hình thành cụm liệu đó, làm Vấn đề phân cụm liệu quan tâm cách rộng rãi, chưa có định nghĩa đồng phân cụm liệu khơng đến thống nhất.(Estivill-Castro,2002; Dubes, 1987; Fraley and Raftery, 1998) Nói cách đại khái : Phân cụm liệu, có nghĩa ta -10cho tập liệu phương pháp tương tự, nhóm liệu lại chẳng hạn điểm liệu nhóm giống điểm liệu nhóm khác khơng đồng dạng Rõ ràng vấn đề bắt gặp nhiều ứng dụng, chẳng hạn khai phá văn bản, biểu diễn gen, phân loại khách hàng, xử lý ảnh… Một số kiểu liệu Thuật toán phân cụm liệu có nhiều liên kết với loại liệu Vì vậy, hiểu biết quy mơ, bình thường hố, gần quan trọng việc giải thích kết thuật tốn phân cụm liệu Kiểu liệu nói đến mức độ lượng tử hóa liệu (Jain Dubes, 1988; Anderberg, 1973) - thuộc tính gõ nhị phân, rời rạc, liên tục thuộc tính nhị phân có xác hai giá trị, sai Thuộc tính rời rạc có số hữu hạn giá trị có thể, loại nhị phân trường hợp đặc biệt loại rời rạc (xem hình 2) Dữ liệu quy mô, mà tầm quan trọng tương đối số, vấn đề quan trọng phân cụm liệu Vậy liệu chia thành quy mơ định lượng quy mơ định tính quy mơ định lượng bao gồm quy mô danh nghĩa quy mô giới hạn; quy mơ định tính bao gồm quy mơ khoảng quy mơ khoảng tỷ lệ (hình 3) kiểu liệu xem xét phần 2.1 Dữ liệu Categorical Thuộc tính Categorical gọi thuộc tính danh nghĩa, thuộc tính đơn giản sử dụng tên, chẳng hạn thương hiệu xe tên chi nhánh ngân hàng Chúng ta xem xét liệu tập hợp với số hữu hạn điểm liệu, thuộc tính danh nghĩa điểm liệu tập liệu có số hữu hạn giá trị; vậy, loại danh nghĩa trường hợp đặc biệt kiểu rời rạc -11- Kiểu liệu Rời rạc Liên tục Danh nghĩa Nhị phân Đối xứng Bất đối xứng Hình Biểu đồ dạng liệu Quy mô liệu Định lượng Danh nghĩa Định tính Giới hạn Tỷ lệ Khoảng Hình Biểu đồ quy mơ liệu Trong phần này, giới thiệu bảng biểu tượng bảng tần số ký hiệu số liệu Categorical Bảng Mẫu ví dụ tập liệu Categorical Bản ghi Giá trị x1 (A, A, A, A, B, B) x2 (A, A, A, A, C, D) x3 (A, A, A, A, D, C) x4 (B, B, C, C, D, C) x5 (B, B, D, D, C, D) Cho D  x1 , x  , x n  tập liệu tuyệt khoảng cách n, mô tả d thuộc tính Categorical v1, v2,…vd Đặt DOM(vj) thuộc -12miền thuộc tính vj Trong tập liệu Categorical cho bảng 2.1, ví dụ miền v1 v4 DOM(v1) = {A, B} DOM(v4) ={A, C, D}, tách biệt Cho  tập liệu  Categorical D, giả sử DOM v j   A j1 , A j ,  , A jn j với j = 1, 2, … ,d Gọi Ajl  l  n j trạng thái thuộc tính Categorical vj cho tập liệu D Một bảng Ts tập liệu định nghĩa Ts = (s1, s2, … , sd),  (2.1) Nơi sj (1  l  d ) vecto định nghĩa s j  A j1 , A j ,, A jn j  T Vì có nhiều trạng thái giá trị (hoặc) cho biến, bảng biểu tượng tập liệu thường khơng Ví dụ, liệu bảng 1, hai bảng Bảng bảng biểu tượng Bảng tần số tính theo bảng biểu tượng xác kích thước bảng biểu tượng Đặt C cụm Sau đó, bảng tần số Tf (C) cụm C định nghĩa Tf C    f1 C , f C , , f d C , (2.2) Nơi f j C  vecto định nghĩa   T f C   f j1 C , f j C ,, f jn j C  , T (2.3) Bảng Một bảng biểu tượng liệu bảng AA A A B B   B B C C C C    D D D D   Bảng : Bảng biểu tượng liệu bảng  AB D A B C     B AC C C B   A D D D   Nơi fjr(C) (1  j  d ,1  r  n j ) số điểm liệu cụm C mà giá trị Ajr mảng thứ j, v.v f jr C   x  C : x j  A jr , (2.4) -13Nơi xj giá trị phận j x Đối với bảng biểu tượng cho trước liệu, bảng tần số cụm lên đến bảng biểu tượng Ví dụ, liệu bảng 2.1, cho C cụm, C = (x1, x2, x3) Sau đó, sử dụng biểu tượng trình bày bảng bảng tần số tương ứng cho nhóm C cho bảng 2.4 Nhưng sử dụng bảng biểu tượng trình bày Bảng 2.3, sau bảng tần số cho nhóm C cho bảng 2.5 Để có liệu Categorical D, thấy Tf(D) bảng tính tốn tần số sở liệu toàn thiết lập Giả sử D phân vùng không chồng chéo vào k cụm C1, C2, , Ck Sau có k f jr D    f jr Ci  i 1 (2.5) Với tất r = 1, 2, … , nj j = 1, 2, …d 2.2 Dữ liệu nhị phân Một thuộc tính nhị phân thuộc tính có hai giá trị xác có thể, chẳng hạn "Đúng" hay "Sai" Lưu ý biến nhị phân chia thành hai loại: biến nhị phân Đối xứng biến nhị phân bất đối xứng Trong biến nhị phân đối xứng, hai giá trị có quan trọng khơng Một ví dụ "nam-nữ" Biến nhị phân đối xứng biến danh nghĩa Trong biến không đối xứng, giá trị mang tầm quan trọng biến khác Ví dụ, "có" viết tắt diện thuộc tính định "không" nghĩa vắng mặt thuộc tính định Một vecto nhị phân x với kích thước d định nghĩa (x1, x2,…, xd)(Zhang and Srihari 2003), nơi xi  0,11  i  d  giá trị thành phần j x Vecto khối nhị phân I kích thước d vecto nhị phân với giá trị nhập vào Việc bổ xung vecto nhị phân x định nghĩa xI x , nơi I đơn vị vecto nhị phân có kích thước x Xét hai vecto nhị phân x y không gian d, cho S ij x, y  i, j  0,1 biểu thị số lần xuất i x j y tương ứng, ví dụ Sij x, y   k : xk  i yk  j , k  1,2,, d  (2.6) -14Sau đó, rõ ràng có đẳng thức sau : d S11 x, y   x y   xi yi , i 1 _ _ (2.7a) d S00 x, y   x y   1  xi 1  yi , (2.7b) i 1 d _ S01 x, y   x y   1  xi  yi , (2.7c) i 1 _ d S10 x, y   x y   xi 1  yi , i 1 (2.7d) Ta có : d  S 00  x, y   S 01  x, y   S10  x, y   S11  x, y  (2.8) Bảng 4: Bảng tính tốn tần số từ bảng biểu tượng bảng  3 311    0 011  011   Bảng5: Bảng tính tốn tần số từ bảng biểu tượng bảng  0 311    011  011   2.3 Dữ liệu giao dịch Cho tập hợp phần tử I = (I1, I2, , Im), giao dịch tập hợp I (Yang et al, 2002b.; Wang et al, 1999a.; Xiao Dunham, 2001) Một tập liệu giao dịch tập hợp giao dịch, ví dụ D  t i : t i  I , i  1,2,  n Giao dịch đại diện vector nhị phân, mục biểu thị có hay khơng có mục tương ứng Ví dụ, đại diện cho giao dịch ti véc tơ nhị phân (bi1, bi2, , bim.), nơi bij = IJ ∈ ti bij = Ij  ti Từ điểm này, liệu giao dịch -15một trường hợp đặc biệt liệu nhị phân Ví dụ phổ biến liệu giao dịch thị trường liệu giỏ hàng Trong thị trường thiết lập liệu giỏ hàng, giao dịch có chứa tập hợp tập tổng số mặt hàng mà mua Ví dụ, sau hai giao dịch: (táo, bánh), (táo, ăn, trứng, cá,) Nói chung, nhiều giao dịch thực mục thưa thớt phân phối Ví dụ, khách hàng mua số mặt hàng từ cửa hàng với hàng nghìn mặt hàng Như Wang et al (1999a), cho giao dịch thực mục thưa thớt phân phối, cặp tương tự không cần thiết, không đủ để đánh giá xem cụm giao dịch tương tự 2.4 Dữ liệu Symbolic Dữ liệu Categorical liệu nhị phân loại liệu cổ điển, liệu symbolic phần mở rộng kiểu liệu cổ điển Trong liệu thông thường, đối tượng coi cá nhân (lần đầu đối tượng tự) (Malerba et al, 2001.), tập liệu symbolic , đối tượng nhiều "thống nhất" có nghĩa mối quan hệ Như vậy, liệu symbolic nhiều đồng nhóm cá nhân (thứ hai đối tượng tự) (Malerba et al, 2001.) Malerba et al (2001) xác định liệu symbolic thiết lập để lớp nhóm cá nhân mô tả số thiết lập giá trị biến phương thức Biến A gọi giá trị thiết lập đóng vai trị giá trị thiết lập miền Một biến phương thức thiết lập giá trị biến với biện pháp phân phối (tần số, xác suất, trọng lượng) kết hợp với đối tượng Gowda Diday (1992) tóm tắt khác biệt liệu symbolic liệu thông thường sau: • Tất đối tượng liệu symbolic khơng định nghĩa biến tương tự • Mỗi biến nhiều giá trị chí khoảng giá trị • Các biến liệu symbolic phức tạp giá trị bao gồm nhiều đối tượng -16• Các mơ tả đối tượng tượng trưng phụ thuộc vào mối quan hệ đối tượng khác • Các giá trị biến cho thấy tần suất xuất hiện, khả tương đối, mức độ quan trọng giá trị, vv Dữ liệu Symbolic tổng hợp từ liệu khác thường lý riêng tư Trong số liệu điều tra dân số, ví dụ, liệu tạo sẵn dạng tổng hợp để đảm bảo nhà phân tích liệu khơng thể xác định cá nhân hay doanh nghiệp thành lập 2.5 Chuỗi thời gian(Time Series) Chuỗi thời gian hình thức đơn giản liệu tạm thời Chính xác, chuỗi thời gian chuỗi số thực đại diện cho phép đo biến thực tế khoảng thời gian (Gunopulos Das, 2000) Ví dụ, giá cổ phiếu phong trào, nhiệt độ điểm đó, khối lượng bán hàng theo thời gian tất đo chuỗi thời gian Một chuỗi thời gian rời rạc biến xác định tập hữu hạn điểm thời gian Nhiều chuỗi thời gian gặp phải phân tích cụm thời gian rời rạc Khi biến định nghĩa tất điểm thời gian, sau chuỗi thời gian liên tục Nói chung, chuỗi thời gian coi hỗn hợp bốn thành phần sau (Kendall Ord, 1990): Một xu hướng, ví dụ., phong trào lâu dài; Biến động xu hướng đặn hơn; Một thành phần theo mùa; Một hiệu ứng dư ngẫu nhiên Phép biến đổi chuẩn hóa liệu Trong nhiều ứng dụng phân cụm liệu, liệu thô, đo đạc thực tế, không sử dụng trực tiếp, trừ mơ hình xác suất cho hệ khn mẫu có sẵn (Jain Dubes, 1988) Việc chuẩn bị cho việc phân cụm liệu yêu cầu số loại chuyển đổi, chẳng hạn biến đổi chuẩn hóa liệu Một số phương pháp biến đổi liệu thường sử dụng để phân cụm liệu thảo luận phần Một số phương pháp chuẩn hố liệu trình bày Phần 4.1 -17Để thuận tiện cho D*  x1* , x2* ,, xn*  biểu thị tập liệu thơ d-chiều Từ ma trận liệu ma trân n x d cho x , x ,, x  * * T n *  x11*  * x   21    x*  n1 x12* * x22  xn*  x1*d    x2*d     *   xnd  (4.1) 3.1 Phép chuẩn hóa liệu Chuẩn hố làm cho liệu giảm kích thước Nó có ích để xác định tiêu chuẩn hố số Sau chuẩn hóa, tất kiến thức vị trí quy mơ liệu gốc bị Nó cần thiết để chuẩn hóa biến trường hợp biện pháp không giống nhau, chẳng hạn khoảng cách Euclide, nhạy cảm với khác biệt độ lớn quy mô biến đầu vào (Milligan Cooper, 1988) Các phương pháp tiếp cận chuẩn hoá biến chất hai loại: Chuẩn hóa tồn cục chuẩn hố cụm Chuẩn hóa hóa tồn cục làm chuẩn biến tất yếu tố tập liệu Trong vòng-cụm tiêu chuẩn hố dùng để tiêu chuẩn hóa xảy cụm biến ngày Một số hình thức tiêu chuẩn hố sử dụng chuẩn hóa tồn cục chuẩn hóa phạm vi tốt, số hình thức chuẩn hố sử dụng chuẩn hố tồn cục Khơng thể trực tiếp chuẩn hóa biến cụm phân cụm, cụm khơng biết trước chuẩn hóa Để khắc phục khó khăn này, khác phương pháp phải thực Tổng thể Klett (1972) đề xuất cách tiếp cận lặp cụm thu dựa số ước lượng tổng thể sau sử dụng cụm để giúp xác định biến bên nhóm chênh lệch chuẩn hố phân cụm thứ hai Để chuẩn hóa liệu thơ đưa phương trình (4,1), ta trừ thước đo vị trí phân chia biện pháp quy mơ cho biến Đó là, xij  xij*  L j Mj (4.2) -18nơi xij biểu thị giá trị chuẩn hóa, L j vị trí đo, M j quy mơ đo Chúng tơi có phương pháp tiêu chuẩn hố khác cách chọn khác LJ MJ phương trình (4,2) Một số phương pháp chuẩn hố tiếng trung bình, tiêu chuẩn độ lệch, phạm vi, Huber dự toán, dự toán biweight Tukey's, Andrew ước tính sóng Bảng 4,1 cho số hình thức tiêu chuẩn hoá, nơi x *j , R *j  *j , có nghĩa là, phạm vi, độ lệch chuẩn biến thứ j, tương ứng, nghĩa n x   xij* n i 1 * j R*j  max xij*  xij* , 1i  n 1i  n (4.3a) (4.3b)  n * 2  *j   ( xij  x *j )2    n  i 1  (4.3c) Bây thảo luận số chi tiết hình thức chung tiêu chuẩn hố thuộc tính z-score hình thức tiêu chuẩn hoá sử dụng để chuyển biến thể bình thường để tạo điểm chuẩn Cho tập hợp liệu thô D*, Z-score công thức chuẩn định nghĩa   xij  Z1 x  * ij xij*  x *j  *j (4.4) Nơi x *j ,  *j có nghĩa mẫu độ lệch chuẩn thuộc tính thứ j, tương ứng Biến đổi có ý nghĩa phương sai số Vị trí quy mơ thơng tin biến gốc bị Chuyển đổi trình bày (Jain Dubes, 1988, trang 24) Một điều quan trọng hạn chế chuẩn hóa Z1 phải áp dụng tiêu chuẩn toàn cầu khơng phạm vi-cụm tiêu chuẩn hố (Milligan Cooper, 1988) Trong thực tế, xem xét trường hợp hai cụm tách tồn liệu Nếu mẫu có vị trí hai cụm trung tâm, sau vịng-cụm chuẩn chuẩn hóa mẫu nằm cụm trung tâm không vectơ Bất kỳ thuật tốn clustering nhóm hai số khơng vectơ với nhau, có nghĩa hai nguyên mẫu -19sẽ được nhóm cho cluster Điều tạo kết phân nhóm gây hiểu nhầm Bảng 4.1 Một vài phép chuẩn hóa liệu, nơi x *j , R *j  *j định nghĩa biểu thức 4.3 Tên Lj Lj z-score x *j  *j USTD  *j Maxium max xij* Mean x *j 1 i  n x *n 1 n lẻ Median j  1 *  xn  x*n   n chẵn  j 2 2j  Sum n x * ij i 1 xij* Range 1i  n R *j Chuẩn hóa USTD (Độ lệch chuẩn trọng khơng xác) tương tự chuẩn hoá điểm z-score định nghĩa   xij  Z xij*  xij*  *j (4.5) Nơi  *j định nghĩa biểu thức (4.3c) Biến đổi Z2 có phương sai Kể từ có điểm số khơng trung tâm cách trừ có nghĩa là, thơng tin vị trí điểm cịn Như vậy, chuẩn hóa Z2 khơng phải chịu vấn đề thông tin Cụm centroids Phương pháp chuẩn hố thứ ba trình bày Milligan Cooper (1988) sử dụng điểm tối đa biến:   xij  Z x * ij xij* max xij* 1i  n (4.6)

Ngày đăng: 30/08/2022, 03:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w