1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm đa mục tiêu mờ cho dữ liệu định danh

27 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,86 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THANH TÂM PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60480104 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội - 2016 MỤC LỤC LỜI CẢM ƠN Error! Bookmark not defined LỜI CAM ĐOAN Error! Bookmark not defined MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƯƠNG NỀN TẢNG LÝ THUYẾT 1.1 Phân cụm liệu gì? 1.2 Các khái niệm cần thiết tiếp cận phân cụm liệu 11 1.2.1 Cấu trúc liệu 11 1.2.2 Các kiểu liệu 12 1.2.3 Độ đo tương tự phi tương tự 13 1.3 Phân cụm liệu mờ 16 1.3.1 Tổng quan tập mờ 16 1.3.2 Phân cụm rõ phân cụm mờ 19 1.4 Tối ưu đa mục tiêu [1] .24 1.4.1 Bài toán tối ưu tổng quát 24 1.4.2 Tối ưu đơn mục tiêu 24 1.4.3 Tối ưu đa mục tiêu Error! Bookmark not defined 1.4.4 Chọn phương án toán đơn mục tiêu toán đa mục tiêuError! Bookmark not defined 1.5 Giải thuật di truyền sử dụng để tối ưu hóa đa mục tiêu Error! Bookmark not defined 1.5.1 Giới thiệu Error! Bookmark not defined 1.5.2 Các quy luật Error! Bookmark not defined CHƯƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH Error! Bookmark not defined 2.1 Giới thiệu Error! Bookmark not defined 2.2 Thuật toán phân cụm mờ cho liệu định danh [4] Error! Bookmark not defined 2.3 Tối ưu hóa đa mục tiêu giải thuật tối ưu hóa đa mục tiêu Error! Bookmark not defined 2.3.1 Tối ưu hóa đa mục tiêu .Error! Bookmark not defined 2.3.2 Việc sử dụng giải thuật di truyền giải toán tối ưu đa mục tiêuError! Bookmark not defined 2.4 Phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyềnError! Bookmark not defined 2.4.1 Thuật toán NSGA-II Error! Bookmark not defined 2.4.2 Biểu diễn nhiễm sắc thể Error! Bookmark not defined 2.4.3 Khởi tạo quần thể Error! Bookmark not defined 2.4.4 Tính tốn giá trị hàm mục tiêu .Error! Bookmark not defined 2.4.5 Thủ tục xếp khơng vượt trội tính tốn khoảng cách mật độ Error! Bookmark not defined 2.4.6 Chọn lọc, lai ghép đột biến Error! Bookmark not defined 2.4.7 Chọn phương án từ tập không vượt trộiError! Bookmark not defined CHƯƠNG THỬ NGHIỆM Error! Bookmark not defined 3.1 Giới thiệu Error! Bookmark not defined 3.2 Chương trình Error! Bookmark not defined 3.3 Dữ liệu thử nghiệm Error! Bookmark not defined 3.3.1 Cơ sở liệu Soybean Error! Bookmark not defined 3.3.2 Cơ sở liệu SPECT heart Error! Bookmark not defined 3.3.3 Cơ sở liệu Hayes – Roth Error! Bookmark not defined 3.4 Phương pháp biểu diễn liệu Error! Bookmark not defined 3.5 Độ đo hiệu suất Error! Bookmark not defined 3.6 Thủ tục thực nghiệm Error! Bookmark not defined 3.7 Các thông số đầu vào Error! Bookmark not defined 3.8 Kết thử nghiệm Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 25 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Từ cụm từ Từ viết tắt Từ Tiếng Anh Cơ sở liệu CSDL DataBase Thuật toán HAC HAC Hierarchical agglomerative clustering Thuật toán BIRCH BIRCH Balanced Interative Reducing and Clustering using Hierarchies Thuật toán PAM PAM Partition Around Mediods Thuật toán STING STING A STatistical Information Grid approach Giải thuật di truyền GA Genetic Algorithms Nhiễm sắc thể NST Chromosomes Thuật toán C-Mean mờ FCM Fuzzy C-Means Thuật toán NSGA-II NSGA-II Non-dominated Sorting Genetic Algorithm-II DANH MỤC CÁC BẢNG Bảng 1.1 Bảng giá trị tham số 14 Bảng 1.2 Giá trị hàm liên thuộc tập liệu hình cánh bướm sử dụng thuật toán k-means c-means mờ 23 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ phân cụm liệu Hình 1.2 Tiêu chí để phân cụm 10 Hình 1.3 Hình minh họa cho tập chiều cao người 17 Hình 1.4 Ví dụ minh họa tập mờ “Thấp”, “Trung bình”, “Cao” 18 Hình 1.5 Tập liệu hình cánh bướm 21 Hình 1.6 Kết phân cụm rõ với tập liệu hình cánh bướm 22 Hình 1.7 Hai cụm mờ tập liệu hình cánh bướm 23 Hình 1.8 Minh họa cho bánh xe xổ số với quần thể gồm cá thể Error! Bookmark not defined Hình 3.1 Phân cụm thực tế của liệu Soybean sử dụng biểu diễn VAT Error! Bookmark not defined Hình 3.2 Kết phân cụm thực nghiệm lại phương pháp [4] liệu Soybean Error! Bookmark not defined Hình 3.3 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở liệu đậu tương Điểm đánh dấu hình trịn màu xanh phương án lựa chọn cuối Error! Bookmark not defined Hình 3.4 Cơ sở liệu SPECT heart với cấu trúc cụm thực tế.Error! Bookmark not defined Hình 3.5 Kết phân cụm thực nghiệm liệu SPECT heart Error! Bookmark not defined Hình 3.6 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở SPECT heart.Error! Bookmark not defined Hình 3.7 Cơ sở liệu Hayes-Roth với cấu trúc cụm thực tế Error! Bookmark not defined Hình 3.8 Kết phân cụm thực nghiệm liệu Hayes-Roth Error! Bookmark not defined Hình 3.9 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở Hayes-Roth .Error! Bookmark not defined LỜI NÓI ĐẦU Bước sang kỷ hai mươi mốt, giới chứng kiến bùng nổ công nghệ thông tin Ngày nay, vật dụng thiếu phần đông người điện thoại thơng minh, máy tính bảng Có thể thấy với phát triển cơng nghệ phần cứng, phần mềm dung lượng liệu số người dùng tạo vấn đề đáng ý Bên cạnh tất lĩnh vực đời sống xã hội tin học hóa tạo nên lượng liệu khổng lồ Từ thấy nhu cầu cấp thiết phải có cơng cụ kĩ thuật để chuyển khối liệu khổng lồ thành tri thức có ích Do đó, lĩnh vực Khai phá liệu đời đáp ứng tính thời ngành Cơng nghệ thơng tin khơng Việt Nam mà tồn giới Lĩnh vực khai phá liệu phát tri thức sở liệu lĩnh vực rộng lớn, hút nhà nghiên cứu Các cơng trình nghiên cứu từ nhiều chun ngành khác học máy, thu nhận mẫu, sở liệu (CSDL), thống kê, trí tuệ nhân tạo, thu nhận tri thức hệ chuyên gia, hướng đến mục tiêu thống trích lọc “tri thức” từ liệu kho chứa khổng lồ [2] Và nhiều người hiểu khai phá liệu thuật ngữ khác - phát tri thức sở liệu (Knowlegde Discovery in Databases – KDD) - Tuy nhiên, thực tế cho thấy khai phá liệu bước phát tri thức từ sở liệu Ngay từ xuất hiện, khai phá liệu trở thành hướng nghiên cứu có tiềm lĩnh vực học máy sở tri thức Một toán khai phá liệu điển hình phân cụm liệu (Data clustering) Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng.Trong nhiều trường hợp, phân cụm cịn gọi học máy khơng giám sát (unsupervised learning) Trong thực tế, liệu ln có tính nhập nhằng, ranh giới cụm đơi khơng rõ ràng, phương pháp phân cụm rõ làm việc không hiệu không mô tả cấu trúc tự nhiên tập liệu Do đó, lý thuyết tập mờ áp dụng nhằm làm cho việc phân cụm liệu tốt từ xây dựng nên phương pháp phân cụm liệu mờ (gọi tắt phân cụm mờ) [fuzzy clustering] Tuy nhiên, phương pháp phân cụm mờ áp dụng cho liệu Bởi giá trị thuộc tính liệu định danh khơng có thứ tự khơng áp dụng độ đo khoảng cách Euclide để tìm khoảng cách hai véc tơ đặc trưng liệu định danh Vì phải sử dụng phương pháp khác cho liệu K-mode mờ, K -medoid mờ, giải thuật di truyền, … Hiện nay, lý thuyết tốn học tối ưu hóa đa mục tiêu ngày sử dụng rộng rãi sống khoa học, ví dụ cá nhân, tổ chức, phương pháp, kỹ thuật,… có lúc phải định việc lựa chọn phương án tối ưu để giải vấn đề Tùy thuộc vào tình cụ thể mà phương án đưa giải hay nhiều vấn đề lúc Khi phải nghiên cứu, phân tích, trích chọn thơng tin nhằm mục đích cuối đưa giải pháp để giải vấn đề Tối ưu hóa đa mục tiêu việc tìm phương án tốt theo nghĩa định để đạt nhiều mục tiêu lúc phương án gọi phương án lý tưởng Trong toán tối ưu đa mục tiêu, việc có hay khơng có phương án lý tưởng việc mà cần phải quan tâm, xem xét tốn mục tiêu thường xung đột với nên việc cố gắng làm tăng giá trị cực đại hay cực tiểu mục tiêu dẫn đến làm giảm giá trị cực đại cực tiểu mục tiêu khác Do cách tốt tìm phương án nhằm thỏa mãn tất yêu cầu đa mục tiêu mức độ chấp nhận phương án mà tìm gọi phương án thỏa hiệp hàm mục tiêu Hiện có nhiều định nghĩa khác đề cập đến phương án hay nghiệm tối ưu Các định nghĩa thường có tương quan định với thường biểu diễn qua định lý, mệnh đề tính chất tối ưu Pareto [7] Nhờ vào ưu điểm hiệu thực tế mà tối ưu hóa đa mục tiêu mang lại, trở thành lý thuyết toán học ứng dụng rộng rãi nhiều lĩnh vực khoa học như: công nghệ, tài chính, hàng khơng, kinh tế,… Bố cục luận văn chia làm chương sau: CHƯƠNG Nền tảng lý thuyết Chương trình bày tổng quan phân cụm liệu: khái niệm ý nghĩa việc phân cụm Để hiểu rõ phân cụm đa mục tiêu nội dung từ khái niệm đến khác phân cụm mục tiêu phân cụm đa mục tiêu Đồng thời đề cập phân tích phân cụm rõ phân cụm mờ, giải thuật GA sử dụng để tối ưu hóa cụm Error! Reference source not found.Phân cụm đa mục tiêu mờ cho liệu định danh Chương trình bày nội dung luận văn Chương trình bày phương pháp phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyền Error! Reference source not found.Thử nghiệm Chương tập trung trình bày kết thực nghiệm phương pháp trình bày Error! Reference source not found.Thuật tốn cài đặt thử nghiệm liệu, từ rút số bình luận, nhận xét kết luận Cuối cùng, phần Kết luận trình bày tóm tắt kết đạt luận văn đề xuất hướng nghiên cứu tương lai NỀN TẢNG LÝ THUYẾT Phân cụm liệu gì? Phân cụm việc làm tự nhiên, hiểu tương tự việc người ta phân động, thực vật thành loài, họ… khác (hay nhóm có số đặc điểm đặc điểm lại khác với loài động, thực vật khác), hay lớp học người ta phân nhóm học sinh học tốt, học khá, học kém, … Phân cụm sử dụng rộng rãi nhiều lĩnh vực (hay toán) nghiên cứu thị trường, nhận dạng mẫu, phân tích liệu, xử lý ảnh, … Ví dụ lĩnh vực kinh doanh, phân cụm giúp phân khách hàng thành nhóm khác đồng thời cho biết đặc trưng nhóm người dùng này, từ cơng ty có sách khác dành cho nhóm khách hàng Vậy phân cụm liệu gì? “Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng Phân cụm tốn mơ tả hướng tới việc nhận biết tập hữu hạn cụm lớp để mô tả liệu Các cụm (lớp) cá thể tách rời toàn phần (tạo nên phân hoạch cho tập liệu) trình bày đẹp phân lớp có thứ bậc chồng lên (giao nhau)” [2] Do đó, trình phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu để cho phần tử cụm “tương tự” phần tử cụm khác “kém tương tự” Việc xác định số cụm liệu thực xác định trước theo kinh nghiệm xác định tự động theo phương pháp phân cụm Hình 0.1 Ví dụ phân cụm liệu Các kiểu liệu Cho CSDL D có chứa n đối tượng khơng gian k chiều, x, y, z đối tượng thuộc D: x=(x1, x2,…,xk); y=(y1, y2,…,yk); z=(z1, z2,…,zk).Trong đó: 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 (i = k) đặc trưng thuộc tính tương ứng đối tượng x, y, z Có hai đặc trưng để phân loại kiểu liệu kích thước miền hệ đo [13]: Kiểu liệu dựa kích thước miền - Thuộc tính liên tục (Continuous Attribute): miền giá trị vô hạn, không đếm được, nghĩa hai giá trị có tồn vơ số giá trị khác, ví dụ thuộc tính màu sắc, cường độ âm thanh, - Thuộc tính rời rạc (Discrete Attribute): miền giá trị tập hữu hạn, đếm được, ví dụ lớp học thuộc tính rời rạc với tập giá trị là: {lớp 1, lớp 2, lớp 3, lớp 4, lớp 5} - Thuộc tính nhị phân (Binary Attribute): coi trường hợp đặc biệt thuộc tính rời rạc miền giá trị có hai phần tử biểu diễn, ví dụ như: Yes/ No True/ False, Kiểu liệu dựa hệ đo - Thuộc tính định danh (Nominal Scale): dạng thuộc tính khái qt hố thuộc tính nhị phân, miền giá trị rời rạc không phân biệt thứ tự có nhiều hai phần tử, tức cho x y hai đối tượng thuộc tính xác định x  y x = y Ví dụ thuộc tính màu tóc, màu da - Thuộc tính có thứ tự (Ordinal Scale): thuộc tính định danh có thêm tính thứ tự, chúng khơng định lượng, tức cho x y hai thuộc tính thứ tự ta xác định x  y x = y x > y x yi ta nói x cách y khoảng xi – yi tương ứng với thuộc tính thứ i Một ví dụ thuộc tính khoảng thuộc tính số serial đầu mã thẻ điện thoại Thuộc tính thường dùng để đo giá trị theo xấp xỉ tuyến tính - Thuộc tính tỉ lệ (Ratio Scale): thuộc tính khoảng xác định cách tương đối so với điểm mốc, ví dụ thuộc tính chiều cao/ cân nặng lấy điểm làm mốc Trong thuộc tính liệu nhắc đến phía trên, thuộc tính định danh (Categorical Scale) thuật ngữ dùng để gọi chung cho thuộc tính định danh thuộc tính có thứ tự, cịn thuật ngữ thuộc tính số (Numeric Scale) dùng để gọi chung cho thuộc tính khoảng thuộc tính tỉ lệ Độ đo tương tự phi tương tự Người ta phải tìm cách thích hợp để xác định “khoảng cách” đối tượng (hay phép đo tương tự liệu) để thực việc phân cụm Đó hàm để đo giống cặp đối tượng liệu đối tượng liệu thường hàm để tính độ tương tự (similar) để tính độ phi tương tự (dissimilar) Khơng gian metric Một khơng gian metric tập mà thực việc xác định “khoảng cách” cặp phần tử, với tính chất thơng thường khoảng cách hình học Tức là, tập X (các phần tử X đối tượng bất kỳ) đối tượng liệu CSDL D đề cập gọi không gian metric nếu: Với cặp phần tử x, y thuộc X có xác định, theo quy tắc đó, số thực δ(x,y), gọi khoảng cách x y - Quy tắc nói thoả mãn hệ tính chất sau : (i) δ(x,y) > x ≠ y; (ii) δ(x, y)=0 x =y; (iii) δ(x,y) = δ(y,x) với x,y; (iv) δ(x,y) ≤δ(x,z)+δ(z,y) Hàm δ(x,y) gọi metric khơng gian, phần tử X gọi điểm khơng gian - Thuộc tính khoảng cách Sau chuẩn hoá, độ đo phi tương tự hai đối tượng liệu x, y xác định metric khoảng cách sau: 𝑛 𝑖=1 Khoảng cách Minskowski: 𝑑 𝑥, 𝑦 = 𝑥𝑖 − 𝑦𝑖 𝑟 𝑟 ,q≥1 (1.1) Ba khoảng cách phổ biến sử dụng khoảng cách Minskowski định nghĩa: - Khoảng cách Euclide: 𝑑 𝑥, 𝑦 = 𝑛 𝑖=1 𝑥𝑖 − 𝑦𝑖 2 , (q = 2) , (q = 1) (1.2) (1.3) 𝑛 - Khoảng cách cực đại: 𝑑 𝑥, 𝑦 = 𝑀𝑎𝑥𝑖=1 𝑥𝑖 − 𝑦𝑖 , (q → ∞) (1.4) - Khoảng cách Manhattan: 𝑑 𝑥, 𝑦 = 𝑛 𝑖=1 𝑥𝑖 − 𝑦𝑖 Trong khoảng cách Euclide chuẩn khoảng cách dùng phổ biến chuẩn theo khoảng cách Minskowski Thuộc tính nhị phân Xây dựng Bảng 0.1 sử dụng để tìm độ đo: Bảng 0.1 Bảng giá trị tham số Đối tượng x Đối tượng y y:1 y:0 Tổng x:1   + x:0    + Tổng  +  +  Với Bảng 0.1 ta có thơng tin sau: -  tổng số thuộc tính có giá trị hai đối tượng x,y; -  tổng số giá trị thuộc tính có giá trị x y; -  tổng số giá trị thuộc tính có giá trị x y; -  tổng số giá trị thuộc tính có giá trị x y Trong đó:  =  +  +  +  Khi độ đo tương tự đo sau:   , thấy hai đối tượng x y có vai trị  nhau, tức chúng đối xứng có trọng số Hệ số đối sánh đơn giản: d ( x, y)  Hệ số Jacard: d ( x, y)   , (tham số bỏ qua số đối sánh – 0) Công     thức tính sử dụng trường hợp mà trọng số thuộc tính có giá trị đối tượng liệu có cao nhiều so với thuộc tính có giá trị 0, thuộc tính nhị phân khơng đối xứng Thuộc tính định danh Độ đo phi tương tự hai đối tượng x y định nghĩa sau: d ( x, y )  pm p (1.5) Trong đó: p tổng số thuộc tính, m số thuộc tính đối sánh tương ứng trùng Thuộc tính có thứ tự Phép đo độ phi tương tự đối tượng liệu với thuộc tính thứ tự thực sau: giả sử i thuộc tính thứ tự có Mi giá trị (Mi kích thước miền giá trị) Các trạng thái Mi thứ tự: [1…Mi] thay giá trị thuộc tính giá trị loại ri, với ri∈{1 Mi} Mỗi thuộc tính có thứ tự có miền giá trị khác nhau, chuyển đổi chúng miền giá trị [0,1] cách thực phép biến đổi sau cho thuộc tính: ( j) r z  M ( j) i i 1 1 i (1.6) Sử dụng cơng thức tính độ phi tương tự thuộc tính khoảng giá trị (𝑗 ) 𝑧𝑖 , độ phi tương tự thuộc tính có thứ tự Thuộc tính tỷ lệ Có nhiều cách khác để tính độ tương tự thuộc tính tỉ lệ Một sử dụng cơng thức tính logarit cho thuộc tính loại bỏ đơn vị đo thuộc tính liệu cách chuẩn hoá chúng gán trọng số cho thuộc tính giá trị trung bình, độ lệch chuẩn Độ tương đồng liệu với thuộc tính liệu gán trọng số tương ứng wi (1

Ngày đăng: 16/03/2021, 12:20

w