Bài giảng cung cấp cho người học các kiến thức: Phân cụm dữ liệu. Hi vọng đây sẽ là một tài liệu hữu ích dành cho các bạn sinh viên đang theo học môn dùng làm tài liệu học tập và nghiên cứu.
TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG MÔN HỌC KHAI PHÁ DỮ LIỆU CHƯƠNG 4: PHÂN CỤM DỮ LIỆU Giảng viên: ThS Nguyễn Vương Thịnh Bộ mơn: Hải Phịng, 2013 Hệ thống thơng tin Thông tin giảng viên Họ tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Website cá nhân http://scholar.vimaru.edu.vn/thinhnv Thông tin học phần Tên học phần Khai phá liệu Tên tiếng Anh Data Mining Mã học phần 17409 Số tín 03 tín Số tiết lý thuyết 39 tiết (13 tuần x 03 tiết/tuần) Số tiết thực hành 10 tiết (05 tuần x 02 tiết/tuần) Bộ môn phụ trách Hệ thống thông tin PHƯƠNG PHÁP HỌC TẬP, NGHIÊN CỨU Nghe giảng, thảo luận, trao đổi với giảng viên lớp Tự nghiên cứu tài liệu làm tập nhà PHƯƠNG PHÁP ĐÁNH GIÁ SV phải tham dự 75% thời gian Có 02 kiểm tra viết học phần (X = X = (L1 + L2)/2) Thi kết thúc học phần hình thức trắc nghiệm khách quan máy tính (Z = 0.5X + 0.5Y) Tài liệu tham khảo Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, Elsevier Inc, 2006 Ian H Witten, Eibe Frank, Data Mining – Practical Machine Learning Tools and Techniques (the second edition), Elsevier Inc, 2005 (sử dụng kèm với công cụ Weka) Elmasri, Navathe, Somayajulu, Gupta, Fundamentals of Database Systems (the 4 Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giáo trình Khai phá liệu Web, NXB Giáo dục, 2009 th Edition), Pearson Education Inc, 2004 Công cụ phần mềm hỗ trợ Phần mềm Weka phát triển nhóm nghiên cứu trường Đại học Waikato (New Zealand) từ năm 1999 Có thể download địa chỉ: http://www.cs.waikato.ac.nz/ml/weka/downloading.html CHƯƠNG 4: PHÂN CỤM DỮ LIỆU 4.1 KHÁI NIỆM VỀ PHÂN CỤM DỮ LIỆU 4.2 ĐỘ ĐO SỬ DỤNG TRONG PHÂN CỤM 4.3 PHÂN CỤM DỮ LIỆU VỚI GIẢI THUẬT K-MEANS (Phân cụm từ xuống) 4.4 PHÂN CỤM DỮ LIỆU VỚI GIẢI THUẬT HAC (Phân cụm từ lên) 4.5 SO SÁNH GIẢI THUẬT K-MEANS VÀ HAC 4.6 PHÂN CỤM DỮ LIỆU VỚI PHẦN MỀM WEKA 4.1 KHÁI NIỆM VỀ PHÂN CỤM DỮ LIỆU 4.1.1 Phân cụm liệu (clustering) gì? Phân cụm liệu trình phân chia đối tượng liệu (bản ghi) vào nhóm (cụm) cho đối tượng thuộc cụm có đặc điểm “tương tự” (“gần” nhau) đối tượng thuộc cụm khác có đặc điểm “khác” (“xa” nhau) Đại lượng xác định “tương tự” “khác” đối tượng? Khác với phân lớp, phân cụm xem trình học khơng có giám sát (unsupervised learning) Dữ liệu phân vào cụm mà khơng cần có tập mẫu học (training sample) 4.1.2 Ứng dụng phân cụm liệu Phân cụm liệu ứng dụng nhiều lĩnh vực: Nghiên cứu thị trường (Marketing): Xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng lớn, phân loại dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụ công ty để giúp cơng ty có chiến lược kinh doanh hiệu Sinh học (Biology): Phân nhóm động vật thực vật dựa vào thuộc tính chúng Quản lý thư viện (Libraries): Theo dõi độc giả, sách, dự đoán nhu cầu độc giả… Tài chính, Bảo hiểm (Finance and Insurance): Phân nhóm đối tượng sử dụng bảo hiểm dịch vụ tài chính, dự đốn xu hướng (trend) khách hàng, phát gian lận tài (identifying frauds) Khai phá web (Web Mining): Phân loại tài liệu (document classification), phân loại người dùng web (clustering weblog), … 4.2 ĐỘ ĐO SỬ DỤNG TRONG PHÂN CỤM • • Để xác định tính chất tương đồng đối tượng liệu, người ta thường sử dụng khái niệm “khoảng cách” (distance) Hai đối tượng có “khoảng cách” nhỏ “tương tự” (giống) có “khoảng cách” lớn “khác” Xét hai đối tượng liệu (bản ghi) ri rj , đối tượng có n thuộc tính: ri = ( xi1 , xi , , xin ) rj = ( x j1 , x j , , x jn ) Khoảng cách Euclid (Euclidean Distance): d (ri , rj ) = ( xi1 − x j1 ) + ( xi − x j ) + + ( xin − x jn ) Khoảng cách Manhattan (Manhattan Distance): d (ri , rj ) = xi1 − x j1 + xi − x j + + xin − x jn 10 Ví dụ: Cho tập liệu gồm đối tượng với 02 thuộc tính X 1, X2 sau: X2 r X1 X2 1 r3 2 3 r4 r1 r5 r2 X1 Áp dụng giải thuật HAC phân chia tập liệu thành 02 cụm Biết khoảng cách 02 đối tượng đo độ đo Manhattan khoảng cách 02 cụm sử dụng độ đo single-link 33 X2 4 3 r3 2 r4 r5 r1 r2 X1 {1,2} {1,2} {3,4} {3,4} {1,2} Ghép {3,4} với {5} thu 02 cụm {1,2} 34 {3,4,5} {1,2} 3 Đã đạt số lượng cụm cần thiết Kết thúc thuật toán X2 {1, 2} r3 2 r4 r5 r1 {3, 4} r2 {3, 4, 5} 35 X1 4.5 SO SÁNH GIẢI THUẬT K-MEANS VÀ HAC GIẢI THUẬT HAC Độ phức tạp thuật toán GiẢI THUẬT K-MEANS Độ phức tạp thuật toán Độ phức tạp thuật toán O(N ) N số đối tượng phân cụm Ưu, nhược điểm Ưu điểm: Độ phức tạp thuật tốn O(NkT) N số đối tượng phân cụm, k số cụm T số vịng lặp q trình phân cụm Thường T, k