Tóm tắt Luận văn Thạc sĩ Công nghệ thông tin: Phương pháp phân cụm dựa trên tập thô và giải thuật di truyền

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	30
Dung lượng	0,97 MB

Nội dung

Luận văn trình bày khảo cứu một cách hệ thống của bài báo các kiến thức về phân cụm dữ liệu rõ, thô theo hướng KMeans và ứng dụng giải thuật di truyền để phân cụm dữ liệu thô. Trên cơ sở đó xây dựng chương trình thực nghiệm trên một số bộ dữ liệu, kết quả cho thấy ưu điểm của phương pháp mới.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG HUYỀN TRANG PHƢƠNG PHÁP PHÂN CỤM DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN Chuyên ngành: Hệ thống thơng tin Mã số: 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ Hà Nội - 2016 MỞ ĐẦU Phân cụm liệu nghiên cứu quan trọng khai thác liệu áp dụng cho đa lĩnh vực [7,8] Mục tiêu phân cụm liệu để phân loại đối tượng khơng có nhãn thành nhiều cụm mà đối tượng thuộc cụm tương tự khác cụm khác Phân cụm liệu chia làm hai loại phân cụm cứng/rõ phân cụm mềm [12,15] Một kỹ thuật sử dụng phổ biến phân cụm liệu thuật toán K-Means, thuộc phân cụm rõ, với hội tụ nhanh chóng khả tìm kiếm địa phương mạnh mẽ Trong trình phân cụm K-Means truyền thống, đối tượng liệu thu cụm định Tuy nhiên, thực tế đối tượng thường khơng có ranh giới rõ ràng Để tăng hiệu kết xác cho phân cụm việc sử dụng lý thuyết tập thô tiếp cận hỗ trợ phân cụm K-Meansđược đề xuất Mặc dù giải thuật K-Means thơ có khả tìm kiếm địa phương mạnh mẽ lại dễ rơi vào cực trị địa phương Một biện pháp khắc phục hạn chế kết hợp với giải thuật di truyền thuật toán dựa nguyên tắc tiến hóa sinh học, có lượng lớn số song song tiềm ẩn thực khơng gian tìm kiếm lớn cung cấp giải pháp tối ưu hóa tồn cầu giúp tránh tối ưu địa phương Luận văn trình bày khảo cứu cách hệ thống báo [6] kiến thức phân cụm liệu rõ, thô theo hướng KMeans ứng dụng giải thuật di truyền để phân cụm liệu thơ Trên sở xây dựng chương trình thực nghiệm số liệu, kết cho thấy ưu điểm phương pháp Cấu trúc luận văn gồm chương : Chương I Phân cụm liệu số vấn đề liên quan Chương II Phân cụm dựa tập thơ thuật tốn di truyền Chương III Cài đặt phân tích thí nghiệm CHƢƠNG I PHÂN CỤM DỮ LIỆU VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN 1.1 Giới thiệu phân cụm liệu Khai phá liệu tuộc trình khám phá tri thức Về chất giai đoạn tìm thơng tin mới, tiềm ẩn có sở liệu chủ yếu phục vụ cho mô tả dự đoán Phân cụm liệu kỹ thuật khai phá liệu với mục đích khám phá cấu trúc mẫu liệu để thành lập nhóm liệu từ tập liệu lớn, cho phép phân tích nghiên cứu cho cụm liệu nhằm khám phá tìm kiếm thơng tin tiềm ẩn, hữu ích 1.1.1 Khái niệm mục đích phân cụm liệu Bài tốn phân cụm liệu nhánh ứng dụng lĩnh vực học không giám sát, mà liệu mô tả tốn khơng dán nhãn Trong trường hợp này, thuật tốn tìm cách phân cụm liệu thành nhóm có đặc điểm tương tự nhau, đồng thời đặc tính nhóm lại phải khác biệt tốt Số cụm liệu xác định trước theo kinh nghiệm tự động xác định theo thuật tốn Hình 1.1 Quy trình phân cụm Độ tương tự xác định dựa giá trị thuộc tính mô tả đối tượng Thông thường, phép đo khoảng cách thường sử dụng để đánh giá độ tương tự hay phi tương tự Vấn đề phân cụm minh hoạ hình 1,2: Hình 1.2 Mơ phân cụm liệu Ứng dụng phân cụm liệu: Được áp dụng nhiều lĩnh vực như: Kinh doanh; Sinh học; Thư viện; Bảo hiểm; www… 1.1.2 Phƣơng pháp phân cụm liệu Phân cụm liệu chia làm hai loại phân cụm liệu cứng phân cụm liệu mềm:  Phân cụm liệu cứng (hay phân cụm rõ) phương pháp gán đối tượng vào cụm xác định rõ ranh giới cụm Một số thuật toán: Thuật toán KMeans, Thuật toán K-Medoids  Phân cụm liệu mềm (hay phân cụm mờ) phương pháp cho phép đối tượng thuộc nhiều cụm liệu có mơ hồ mờ ranh giới cụm: Thuật tốn Fuzzy C-mean… Hình 1.3 Mơ tả phân cụm cứng/rõ phân cụm mềm/mờ Tùy theo đặc điểm tính tương đồng đối tượng tốn xét, có nhiều cách tiếp cận cho thuật toán phân cụm Các kỹ thuật gồm: - Phân cụm phân cấp (Hierarchical Data Clustering) - Phân cụm phân hoạch (Partition Based Data Clustering) - Phân cụm dựa mật độ (Density Based Data Clustering) - Phân cụm dựa lưới (Grid Based Data Clustering) 1.1.3 Phân cụm với giải thuật K-Means Thuật toán K-Means (MacQueen, 1967)[2] thuật tốn học khơng giám sát đơn giản để giải vấn đề phân cụm liệu tiếng, với số cụm xác định trước k cụm Thuộc nhóm phân cụm liệu cứng/rõ, ý tưởng để xác định k trọng tâm cho k cụm, trọng tâm cho cụm Những trọng tâm nên đặt vị trí thích hợp vị trí khác gây kết khác Vì vậy, lựa chọn tốt đặt chúng nhiều tốt cách xa Bước với điểm thuộc tập liệu cho trước liên kết với trọng tâm gần Giả sử thiết lập tập đối tượng X={x1,x2,…xn} k trọng tâm cụm C={C1,C2,…Ck}; lấy w1,w2,…wk k cụm Công thức C  j Nj x với j=1, 2, …, jk Nj số xw j lượng cụm thứ j Xác định hàm mục tiêu sau: k E    d ( x, ci ) ci tâm cụm wi tương ứng i 1 xw i Với d(x,ci)= x  ci khoảng cách Euclide từ điểm đối tượng cụm đến trung tâm cụm Thuật toán K-Means: Quá trình phân cụm K-Means biểu diễn hình 1.4 Đầu vào: k: số cụmX: tập liệu chứa n đối tượng Đầu ra: tập hợp k cụm Bƣớc Xác định số lượng cụm k điều kiện dừng Bƣớc Khởi tạo ngẫu nhiên k trọng tâm cụm Bƣớc Gom đối tượng vào cụm mà gần tâm Bƣớc Tính lại tâm theo đối tượng phân hoạch bước Lặp điều kiện dừng thỏa mãn Điều kiện dừng thường chọn điều kiện sau: • Số lần lăp t=Tmax Tmax số cho trước • |Et – Et-1|

Ngày đăng: 17/01/2020, 05:11

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Nguyễn Văn Chức, “Ứng dụng lý thuyết tập thô trong khai phá dữ liệu”, tại bis.net.vn năm 2013

Sách, tạp chí

Tiêu đề:	“Ứng dụng lý thuyết tập thô trong khai phá dữ liệu”

[2] Hoàng Xuân Huấn (2012), “Giáo trình Nhận dạng mẫu”, Trường Đại học công nghệ – Đại Học Quốc Gia Hà Nội

Sách, tạp chí

Tiêu đề:	Giáo trình Nhận dạng mẫu”
Tác giả:	Hoàng Xuân Huấn
Năm:	2012

[3] Nguyễn Đức Thuần, “Lý thuyết tập thô trong khai phá dữ liệu”, trong Tập san tin học Quản lý, tập 02, số 2, 2012, 25-32

Sách, tạp chí

Tiêu đề:	Lý thuyết tập thô trong khai phá dữ liệu

[4] Vũ thị Anh Trâm, “Sử dụng phương pháp xây dựng đặc trưng dựa trên di truyền để toám tắt dữ liệu”, luận văn ths năm 2012, ĐH Công nghệ- ĐHQGHN.II. TÀI LIỆU TIẾNG ANH

Sách, tạp chí

Tiêu đề:	Sử dụng phương pháp xây dựng đặc trưng dựa trên di truyền để toám tắt dữ liệu”

[5] Bashar Al-Shboul, and Sung-Hyon Myaeng,“Initializing K- Means using Genetic Algorithms”, in World Academy of Science, Engineering and Technology 54 2009

Sách, tạp chí

Tiêu đề:	Initializing K-Means using Genetic Algorithms

[6] Jianyong Chen and Changsheng Zhang “Efficient Clustering Method Based on Rough Set and Genetic Algorithm”in College of Physics and Electronic Information Engineering, Wenzhou University, Wenzhou, 325035, China; Procedia Engineering 15 (2011) 1498 – 1503

Sách, tạp chí

Tiêu đề:	Efficient Clustering Method Based on Rough Set and Genetic Algorithm

[7] Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques[M]. US Kaufmann Publishers, Inc, 2001: p.223-262

Sách, tạp chí

Tiêu đề:	Concepts and Techniques

[8] Grabmeier J, Rudolph A. Techniques of cluster algorithms in data mining[J]. Data Mining and Knowledge Discovery, 2005,6(4):303-360

Sách, tạp chí

Tiêu đề:	Data Mining and Knowledge Discovery

[9] Guoyin Wang, Yiyu Yao, Hong Yu. “A Survey on Rough Set Theory and Applications[J]”, Chinese Journal of Computers,2009. 32(7):1229-1246

Sách, tạp chí

Tiêu đề:	A Survey on Rough Set Theory and Applications"[J]

[10] Kevin E. Voges , and Nigel K. Ll. Pope, “Rough Clustering Using an Evolutionary Algorithm”

Sách, tạp chí

Tiêu đề:	Rough Clustering Using an Evolutionary Algorithm

[11] Parvesh Kumar and Siri Krishan Wasan, “Comparative Study of K-Means , Pam and Rough K-Means Algorithms Using Cancer Datasets”, in 2009 International Symposium on

Sách, tạp chí

Tiêu đề:	“Comparative Study of K-Means , Pam and Rough K-Means Algorithms Using Cancer Datasets”

[12] Pawan Lingras, “Interval Set Clustering of Web Users with Rough K-Means [J]”. Journal of Intelligent Information System,2004, 23: 15-16

Sách, tạp chí

Tiêu đề:	Interval Set Clustering of Web Users with Rough K-Means [J]

[13] Pawan Lingras and Georg Peter, “Applying Rough Set Concepts to Clustering”

Sách, tạp chí

Tiêu đề:	Applying Rough Set Concepts to Clustering

[14] Pawlak Z. “Rough set theory and its application to data analysis[J]”. Cybernetics and Systems, 1998, 9: 661-668

Sách, tạp chí

Tiêu đề:	Rough set theory and its application to data analysis[J]”

[15] Ting Lin, Haixiang Guo, Kejun Zhu, Siwei Gao. “An Improved Genetic K-Means Algorithm for Optimal Clustering[J]”.Mathematic in Practice and Theory, 2007, 37(8):104-111

Sách, tạp chí

Tiêu đề:	An Improved Genetic K-Means Algorithm for Optimal Clustering[J"]