1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân cụm đa mục tiêu mờ cho dữ liệu định danh

29 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 167,94 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THANH TÂM PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội - 2016 MỤC LỤC LỜI CẢM ƠN Error! Bookmark not defined LỜI CAM ĐOAN Error! Bookmark not defined MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƯƠNG NỀN TẢNG LÝ THUYẾT 1.1 Phân cụm liệu gì? 1.2 Các khái niệm cần thiết tiếp cận phân cụm liệu 11 1.2.1 Cấu trúc liệu 11 1.2.2 Các kiểu liệu 12 1.2.3 Độ đo tương tự phi tương tự 13 1.3 Phân cụm liệu mờ 16 1.3.1 Tổng quan tập mờ 16 1.3.2 Phân cụm rõ phân cụm mờ 19 1.4 Tối ưu đa mục tiêu [1] 24 1.4.1 Bài toán tối ưu tổng quát 24 1.4.2 Tối ưu đơn mục tiêu 24 1.4.3 Tối ưu đa mục tiêu Error! Bookmark not defined 1.4.4 Chọn phương án toán đơn mục tiêu toán đa mục tiêuError! Bookmark not defined 1.5 Giải thuật di truyền sử dụng để tối ưu hóa đa mục tiêu Error! Bookmark not defined 1.5.1 Giới thiệu Error! Bookmark not defined 1.5.2 Các quy luật Error! Bookmark not defined CHƯƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH Error! Bookmark not defined 2.1 Giới thiệu Error! Bookmark not defined 2.2 Thuật toán phân cụm mờ cho liệu định danh [4] Error! Bookmark not defined 2.3 Tối ưu hóa đa mục tiêu giải thuật tối ưu hóa đa mục tiêu Error! Bookmark not defined 2.3.1 Tối ưu hóa đa mục tiêu Error! Bookmark not defined 2.3.2 Việc sử dụng giải thuật di truyền giải toán tối ưu đa mục tiêuError! Bookmark not defined 2.4 Phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyềnError! Bookmark not defined 2.4.1 Thuật toán NSGA-II Error! Bookmark not defined 2.4.2 Biểu diễn nhiễm sắc thể Error! Bookmark not defined 2.4.3 Khởi tạo quần thể Error! Bookmark not defined 2.4.4 Tính tốn giá trị hàm mục tiêu .Error! Bookmark not defined 2.4.5 Thủ tục xếp khơng vượt trội tính toán khoảng cách mật độ Error! Bookmark not defined 2.4.6 Chọn lọc, lai ghép đột biến .Error! Bookmark not defined 2.4.7 Chọn phương án từ tập không vượt trộiError! Bookmark not defined CHƯƠNG THỬ NGHIỆM Error! Bookmark not defined 3.1 Giới thiệu Error! Bookmark not defined 3.2 Chương trình Error! Bookmark not defined 3.3 Dữ liệu thử nghiệm Error! Bookmark not defined 3.3.1 Cơ sở liệu Soybean Error! Bookmark not defined 3.3.2 Cơ sở liệu SPECT heart Error! Bookmark not defined 3.3.3 Cơ sở liệu Hayes – Roth Error! Bookmark not defined 3.4 Phương pháp biểu diễn liệu Error! Bookmark not defined 3.5 Độ đo hiệu suất Error! Bookmark not defined 3.6 Thủ tục thực nghiệm Error! Bookmark not defined 3.7 Các thông số đầu vào Error! Bookmark not defined 3.8 Kết thử nghiệm Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 25 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Từ cụm từ Cơ sở liệu Thuật toán HAC Thuật toán BIRCH Thuật toán PAM Thuật toán STING Giải thuật di truyền Nhiễm sắc thể Thuật toán C-Mean mờ Thuật toán NSGA-II DANH MỤC CÁC BẢNG Bảng 1.1 Bảng giá trị tham số 14 Bảng 1.2 Giá trị hàm liên thuộc tập liệu hình cánh bướm sử dụng thuật tốn k-means c-means mờ 23 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ phân cụm liệu Hình 1.2 Tiêu chí để phân cụm 10 Hình 1.3 Hình minh họa cho tập chiều cao người 17 Hình 1.4 Ví dụ minh họa tập mờ “Thấp”, “Trung bình”, “Cao” .18 Hình 1.5 Tập liệu hình cánh bướm 21 Hình 1.6 Kết phân cụm rõ với tập liệu hình cánh bướm 22 Hình 1.7 Hai cụm mờ tập liệu hình cánh bướm 23 Hình 1.8 Minh họa cho bánh xe xổ số với quần thể gồm cá thể Error! Bookmark not defined Hình 3.1 Phân cụm thực tế của liệu Soybean sử dụng biểu diễn VAT Error! Bookmark not defined Hình 3.2 Kết phân cụm thực nghiệm lại phương pháp [4] liệu Soybean Error! Bookmark not defined Hình 3.3 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở liệu đậu tương Điểm đánh dấu hình trịn màu xanh phương án lựa chọn cuối Error! Bookmark not defined Hình 3.4 Cơ sở liệu SPECT heart với cấu trúc cụm thực tế.Error! Bookmark not defined Hình 3.5 Kết phân cụm thực nghiệm liệu SPECT heart Error! Bookmark not defined Hình 3.6 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở SPECT heart.Error! Bookmark not defined Hình 3.7 Cơ sở liệu Hayes-Roth với cấu trúc cụm thực tế Error! Bookmark not defined Hình 3.8 Kết phân cụm thực nghiệm liệu Hayes-Roth .Error! Bookmark not defined Hình 3.9 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở Hayes-Roth Error! Bookmark not defined LỜI NÓI ĐẦU Bước sang kỷ hai mươi mốt, giới chứng kiến bùng nổ công nghệ thông tin Ngày nay, vật dụng thiếu phần đông người điện thoại thông minh, máy tính bảng Có thể thấy với phát triển cơng nghệ phần cứng, phần mềm dung lượng liệu số người dùng tạo vấn đề đáng ý Bên cạnh tất lĩnh vực đời sống xã hội tin học hóa tạo nên lượng liệu khổng lồ Từ thấy nhu cầu cấp thiết phải có cơng cụ kĩ thuật để chuyển khối liệu khổng lồ thành tri thức có ích Do đó, lĩnh vực Khai phá liệu đời đáp ứng tính thời ngành Cơng nghệ thông tin không Việt Nam mà toàn giới Lĩnh vực khai phá liệu phát tri thức sở liệu lĩnh vực rộng lớn, hút nhà nghiên cứu Các cơng trình nghiên cứu từ nhiều chun ngành khác học máy, thu nhận mẫu, sở liệu (CSDL), thống kê, trí tuệ nhân tạo, thu nhận tri thức hệ chuyên gia, hướng đến mục tiêu thống trích lọc “tri thức” từ liệu kho chứa khổng lồ [2] Và nhiều người hiểu khai phá liệu thuật ngữ khác - phát tri thức sở liệu (Knowlegde Discovery in Databases – KDD) - Tuy nhiên, thực tế cho thấy khai phá liệu bước phát tri thức từ sở liệu Ngay từ xuất hiện, khai phá liệu trở thành hướng nghiên cứu có tiềm lĩnh vực học máy sở tri thức Một toán khai phá liệu điển hình phân cụm liệu (Data clustering) Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng.Trong nhiều trường hợp, phân cụm cịn gọi học máy khơng giám sát (unsupervised learning) Trong thực tế, liệu có tính nhập nhằng, ranh giới cụm đơi khơng rõ ràng, phương pháp phân cụm rõ làm việc không hiệu không mô tả cấu trúc tự nhiên tập liệu Do đó, lý thuyết tập mờ áp dụng nhằm làm cho việc phân cụm liệu tốt từ xây dựng nên phương pháp phân cụm liệu mờ (gọi tắt phân cụm mờ) [fuzzy clustering] Tuy nhiên, phương pháp phân cụm mờ áp dụng cho liệu Bởi giá trị thuộc tính liệu định danh khơng có thứ tự khơng áp dụng độ đo khoảng cách Euclide để tìm khoảng cách hai véc tơ đặc trưng liệu định danh Vì phải sử dụng phương pháp khác cho liệu K-mode mờ, K -medoid mờ, giải thuật di truyền, … Hiện nay, lý thuyết tốn học tối ưu hóa đa mục tiêu ngày sử dụng rộng rãi sống khoa học, ví dụ cá nhân, tổ chức, phương pháp, kỹ thuật,… có lúc phải định việc lựa chọn phương án tối ưu để giải vấn đề Tùy thuộc vào tình cụ thể mà phương án đưa giải hay nhiều vấn đề lúc Khi phải nghiên cứu, phân tích, trích chọn thơng tin nhằm mục đích cuối đưa giải pháp để giải vấn đề Tối ưu hóa đa mục tiêu việc tìm phương án tốt theo nghĩa định để đạt nhiều mục tiêu lúc phương án gọi phương án lý tưởng Trong toán tối ưu đa mục tiêu, việc có hay khơng có phương án lý tưởng việc mà cần phải quan tâm, xem xét tốn mục tiêu thường xung đột với nên việc cố gắng làm tăng giá trị cực đại hay cực tiểu mục tiêu dẫn đến làm giảm giá trị cực đại cực tiểu mục tiêu khác Do cách tốt tìm phương án nhằm thỏa mãn tất yêu cầu đa mục tiêu mức độ chấp nhận phương án mà tìm gọi phương án thỏa hiệp hàm mục tiêu Hiện có nhiều định nghĩa khác đề cập đến phương án hay nghiệm tối ưu Các định nghĩa thường có tương quan định với thường biểu diễn qua định lý, mệnh đề tính chất tối ưu Pareto [7] Nhờ vào ưu điểm hiệu thực tế mà tối ưu hóa đa mục tiêu mang lại, trở thành lý thuyết toán học ứng dụng rộng rãi nhiều lĩnh vực khoa học như: công nghệ, tài chính, hàng khơng, kinh tế,… Bố cục luận văn chia làm chương sau: CHƯƠNG Nền tảng lý thuyết Chương trình bày tổng quan phân cụm liệu: khái niệm ý nghĩa việc phân cụm Để hiểu rõ phân cụm đa mục tiêu nội dung từ khái niệm đến khác phân cụm mục tiêu phân cụm đa mục tiêu Đồng thời đề cập phân tích phân cụm rõ phân cụm mờ, giải thuật GA sử dụng để tối ưu hóa cụm Error! Reference source not found.Phân cụm đa mục tiêu mờ cho liệu định danh Chương trình bày nội dung luận văn Chương trình bày phương pháp phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyền Error! Reference source not found.Thử nghiệm Chương tập trung trình bày kết thực nghiệm phương pháp trình bày Error! Reference source not found.Thuật tốn cài đặt thử nghiệm liệu, từ rút số bình luận, nhận xét kết luận Cuối cùng, phần Kết luận trình bày tóm tắt kết đạt luận văn đề xuất hướng nghiên cứu tương lai NỀN TẢNG LÝ THUYẾT Phân cụm liệu gì? Phân cụm việc làm tự nhiên, hiểu tương tự việc người ta phân động, thực vật thành lồi, họ… khác (hay nhóm có số đặc điểm đặc điểm lại khác với loài động, thực vật khác), hay lớp học người ta phân nhóm học sinh học tốt, học khá, học kém, … Phân cụm sử dụng rộng rãi nhiều lĩnh vực (hay toán) nghiên cứu thị trường, nhận dạng mẫu, phân tích liệu, xử lý ảnh, … Ví dụ lĩnh vực kinh doanh, phân cụm giúp phân khách hàng thành nhóm khác đồng thời cho biết đặc trưng nhóm người dùng này, từ cơng ty có sách khác dành cho nhóm khách hàng Vậy phân cụm liệu gì? “Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng Phân cụm tốn mơ tả hướng tới việc nhận biết tập hữu hạn cụm lớp để mô tả liệu Các cụm (lớp) cá thể tách rời toàn phần (tạo nên phân hoạch cho tập liệu) trình bày đẹp phân lớp có thứ bậc chồng lên (giao nhau)” [2] Do đó, q trình phân cụm liệu q trình phân chia tập liệu ban đầu thành cụm liệu để cho phần tử cụm “tương tự” phần tử cụm khác “kém tương tự” Việc xác định số cụm liệu thực xác định trước theo kinh nghiệm xác định tự động theo phương pháp phân cụm Hình 0.1 Ví dụ phân cụm liệu thuộc tính khoảng thuộc tính số serial đầu mã thẻ điện thoại Thuộc tính thường dùng để đo giá trị theo xấp xỉ tuyến tính - Thuộc tính tỉ lệ (Ratio Scale): thuộc tính khoảng xác định cách tương đối so với điểm mốc, ví dụ thuộc tính chiều cao/ cân nặng lấy điểm làm mốc Trong thuộc tính liệu nhắc đến phía trên, thuộc tính định danh (Categorical Scale) thuật ngữ dùng để gọi chung cho thuộc tính định danh thuộc tính có thứ tự, cịn thuật ngữ thuộc tính số (Numeric Scale) dùng để gọi chung cho thuộc tính khoảng thuộc tính tỉ lệ Độ đo tương tự phi tương tự Người ta phải tìm cách thích hợp để xác định “khoảng cách” đối tượng (hay phép đo tương tự liệu) để thực việc phân cụm Đó hàm để đo giống cặp đối tượng liệu đối tượng liệu thường hàm để tính độ tương tự (similar) để tính độ phi tương tự (dissimilar) Không gian metric Một không gian metric tập mà thực việc xác định “khoảng cách” cặp phần tử, với tính chất thơng thường khoảng cách hình học Tức là, tập X (các phần tử X đối tượng bất kỳ) đối tượng liệu CSDL D đề cập gọi không gian metric nếu: Với cặp phần tử x, y thuộc X có xác định, theo quy tắc đó, số thực δ(x,y), gọi khoảng cách x y Quy tắc nói thoả mãn hệ tính chất sau : (i) δ(x,y) > x ≠ y; (ii) δ(x, y)=0 x =y; (iii) δ(x,y) = δ(y,x) với x,y; (iv) δ(x,y) ≤δ(x,z)+δ(z,y) Hàm δ(x,y) gọi metric khơng gian, phần tử X gọi điểm không gian Thuộc tính khoảng cách Sau chuẩn hố, độ đo phi tương tự hai đối tượng liệu x, y xác định metric khoảng cách sau: Khoảng cách Minskowski: , = Ba khoảng cách phổ biến sử dụng khoảng cách Minskowski định nghĩa: - Khoảng cách Euclide:, = - Khoảng cách Manhattan: - Khoảng cách cực đại: , Trong khoảng cách Euclide chuẩn khoảng cách dùng phổ biến chuẩn theo khoảng cách Minskowski Thuộc tính nhị phân Xây dựng Bảng 0.1 sử dụng để tìm độ đo: Đối tượng x Bảng 0.1 Bảng giá trị tham số Với Bảng 0.1 ta có thơng tin sau: -  tổng số thuộc tính có giá trị hai đối tượng x,y; -  tổng số giá trị thuộc tính có giá trị x y; -  tổng số giá trị thuộc tính có giá trị x y; -  tổng số giá trị thuộc tính có giá trị x y Trong đó:  = + +  + Khi độ đo tương tự đo sau: Hệ số đối sánh đơn giản: d (x, y)  nhau, tức chúng đối xứng có trọng số Hệ số Jacard: d (x, y)  thức tính sử dụng trường hợp mà trọng số thuộc tính có giá trị đối tượng liệu có cao nhiều so với thuộc tính có giá trị 0, thuộc tính nhị phân khơng đối xứng Thuộc tính định danh Độ đo phi tương tự hai đối tượng x y định nghĩa sau: d (x, y)  Trong đó: p tổng số thuộc tính, m số thuộc tính đối sánh tương ứng trùng Thuộc tính có thứ tự Phép đo độ phi tương tự đối tượng liệu với thuộc tính thứ tự thực sau: giả sử i thuộc tính thứ tự có Mi giá trị (Mi kích thước miền giá trị) Các trạng thái Mi thứ tự: [1…Mi] thay giá trị thuộc tính giá trị loại ri, với ri∈{1 Mi} Mỗi thuộc tính có thứ tự có miền giá trị khác nhau, chuyển đổi chúng miền giá trị [0,1] cách thực phép biến đổi sau cho thuộc tính: zi( j )  Sử dụng cơng thức tính độ phi tương tự thuộc tính khoảng giá trị ( ), độ phi tương tự thuộc tính có thứ tự Thuộc tính tỷ lệ Có nhiều cách khác để tính độ tương tự thuộc tính tỉ lệ Một sử dụng cơng thức tính logarit cho thuộc tính loại bỏ đơn vị đo thuộc tính liệu cách chuẩn hoá chúng gán trọng số cho thuộc tính giá trị trung bình, độ lệch chuẩn Độ tương đồng liệu với thuộc tính liệu gán trọng số tương ứng wi (1

Ngày đăng: 11/11/2020, 22:13

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w