BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION

62 9 0
BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU_Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BÁO CÁO MÔN HỌC PHÂN TÍCH SỐ LIỆU Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION Giới thiệu 1.1 Khái niệm và mục tiêu của phân cụm 1.1.1 Khái niệm Phân cụm dữ liệu là gì? Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thành các nhóm dữ liệu với trong đó các đối tượng tương tự như nhau. Trong mỗi nhóm, một số chi tiết có thể không quan tâm đến để đổi lấy dữ liệu đơn giản hóa. Hay ta có thể hiểu “Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự nhau theo một tính chất nào đó, những đối tượng không tương tự tính chất sẽ ở nhóm khác.” Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ Hiểu đơn giản: Phân cụm là gom các đối tượng dữ liệu: + Tương tự với 1 đối tượng khác trong cùng cụm + Không tương tự với các đối tượng trong các cụm

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO MƠN HỌC PHÂN TÍCH SỐ LIỆU Đề tài: CLUSTERING, DISTANCE METHODS, AND ORDINATION GV hướng dẫn: Th.s Lê Xuân Lý Nhóm sinh viên thực hiện: Nhóm Đào Thị Thu Hà 20185444 Chu Thị Vy 20196009 Đỗ Thị Trang 20195999 Hoàng Tú Linh 20185463 Nguyễn Tuấn Anh 20185431 Phạm Vân Anh 20185432 Nguyễn Minh Đức 20185442 Nguyễn Thị Ngọc Huyền 20173533 Lê Hữu Đức Long 20185464 10 Nông Văn Toản 20185485 HÀ NỘI, THÁNG NĂM 2022 Bảng phân cơng đánh giá Nhóm chúng em thực báo cáo môn học theo quy cách: thành viên nhóm hồn thành phần nội dung báo cáo(bao gồm tất cơng đoạn: tìm hiểu lý thuyết, gõ slide, gõ báo cáo, thuyết trình) Cụ thể phần nội dung chia bảng phân công đây: STT Họ tên MSSV Công việc Đánh giá Điểm đánh giá Đào Thị Thu Hà 20185444 Chương 7; Tổng hợp báo cáo Tốt 1.5 Hoàng Tú Linh 20185463 Chương 3; Tổng hợp Slide Tốt 1.5 Đỗ Thị Trang 20195999 Chương 1- Chương Tốt 1.5 Chu Thị Vy 20196009 Chương 1- Chương 2; Lời mở đầu Tốt 1.5 Nguyễn Tuấn Anh 20185431 Lập trình ví dụ Chương Tốt 1.5 Phạm Vân Anh 20185432 Chương Tốt 1.5 Nguyễn Minh Đức 20185442 Lập trình ví dụ Chương Tốt 1.5 Nguyễn Thị Ngọc Huyền 20173533 Chương Tốt 1.5 Lê Hữu Đức Long 20185464 Chương Tốt 1.5 10 Nơng Văn Toản 20185485 Lập trình ví dụ Chương Tốt 1.5 Trang | Mục lục Lời nói đầu Giới thiệu 1.1 Khái niệm mục tiêu phân cụm 1.1.1 Khái niệm 1.1.2 Mục tiêu phân cụm 1.2 Các ứng dụng phân cụm 1.3 Các yêu cầu phân cụm Khoảng cách hệ số tương tự hai đối tượng 2.1 Tương tự bất tương tự 2.2 Khoảng cách 2.3 Ví dụ 11 2.4 Sự tương đồng thước đo liên kết cho cặp biến 16 Phương pháp phân cụm theo thứ bậc 19 3.1 Giới thiệu 19 3.2 Phương pháp kết hợp cụm thứ bậc 20 3.2.1 Thuật toán chung 21 3.2.2 Phân cụm theo liên kết đơn 21 3.2.3 Phân cụm theo liên kết hoàn chỉnh 24 3.2.4 Phân cụm theo liên kết trung bình 26 3.2.5 Ward’s method 28 3.2.6 Đánh giá thuật toán kết hợp cụm thứ bậc 29 3.3 Nhận xét 29 3.4 Lập trình R 29 Phương pháp phân cụm không theo thứ bậc 34 4.1 Phương pháp K-MEAN 34 4.2 Phần phân tích Excel 37 Trang | Nhóm Phân tích số liệu Phân cụm dựa mơ hình thống kê 40 5.1 Phân cụm dựa mơ hình thống kê 40 5.2 Phân tích R 41 Chia tỷ lệ đa chiều 47 6.1 Tổng quan chia tỉ lệ đa chiều 47 6.2 Khi sử dụng MDS 48 6.3 Thuật toán 48 6.4 Phân tích Excel 50 6.5 Kết luận 52 Phân tích tương ứng 53 7.1 Giới thiệu 53 7.2 Khai triển toán học phân tích tương ứng 53 7.3 Sự quán tính 57 7.4 Lập trình R 58 Tài liệu tham khảo 61 Trang Lời nói đầu Phân tích số liệu trình kiểm tra, làm , chuyển đổi mơ hình hóa số liệu với mục tiêu khám phá thơng tin hữu ích, đưa kết luận hỗ trợ việc định Phân tích số liệu có nhiều khía cạnh cách tiếp cận, bao gồm kỹ thuật đa dạng nhiều tên gọi khác sử dụng lĩnh vực kinh doanh, khoa học khoa học xã hội khác Trong môn học này, sử dụng nhiều phương pháp để phân tích,và nhóm chúng em tập chung vấn đề phân cụm (Clustering) Phân cụm liệu tốn gom nhóm đối tượng liệu vào thánh cụm (cluster) cho đối tượng cụm có tương đồng theo tiêu chí đó, q trính tìm kiếm để phân cụm liệu, mẫu liệu từ tập Cơ sở liệu lớn Phương pháp phân cụm ứng dụn g nhiều lĩnh vực khác đời sống: Trí tuệ nhân tạo, Học máy, Xử lý hình ảnh, Sinh học, Trong phạm vi báo cáo này, chúng em chủ yếu trình bày số phươn pháp phân cụm khác nhau, đưa thuật toán phân cụm vào việc giải số toán thực tế để nhẵm hiểu rõ phương thức thực cách thức áp dụng phương pháp phân cụm vào thực tế Nhóm chúng em tìm hiểu phân cơng cơng việc Trong q trình tìm hiểu có gặp vài khó khăn mặt kiến thức song chúng em nỗ lực để hoàn thành tốt Đây báo cáo chúng em tổng hợp lại kiến thức tìm hiểu thực hành Trong báo cáo không tránh khỏi sai sót, em mong có sơ xuất xin thầy cho chúng em biết để chúng em rút kinh nghiệm Nhóm chúng em gồm 10 thành viên xin chân thành cảm ơn thầy Lê Xuân Lý hướng dẫn chúng em môn học để chúng em có kiến thức định cho thân Một lần chúng em xin cảm ơn thầy! Trang | Chương Giới thiệu 1.1 1.1.1 Khái niệm mục tiêu phân cụm Khái niệm Phân cụm liệu gì? Phân cụm liệu phân chia sở liệu lớn thành nhóm liệu với đối tượng tương tự Trong nhóm, số chi tiết khơng quan tâm đến để đổi lấy liệu đơn giản hóa Hay ta hiểu “Phân cụm liệu trình tổ chức đối tượng thành nhóm mà đối tượng nhóm tương tự theo tính chất đó, đối tượng khơng tương tự tính chất nhóm khác.” Khơng giống phân lớp liệu, phân cụm liệu khơng địi hỏi phải định nghĩa trước mẫu liệu huấn luyện Vì thế, coi phân cụm liệu cách học quan sát, phân lớp liệu học ví dụ Hiểu đơn giản: Phân cụm gom đối tượng liệu: + Tương tự với đối tượng khác cụm + Không tương tự với đối tượng cụm - Ví dụ: Trong trường hợp này, dễ dàng xác định cụm dựa vào liệu cho; tiêu chí “tương tự” để phân cụm trường hợp khoảng cách : hai nhiều đối tượng thuộc nhóm chúng “đóng gói” theo khoảng cách định Điều gọi phân cụm dựa Trang | Nhóm Phân tích số liệu khoảng cách Một kiểu khác phân cụm liệu phân cụm liệu dựa vào khái niệm: hai hay nhiều đối tượng thuộc nhóm có định nghĩa khái niệm chung cho tất đối tượng 1.1.2 Mục tiêu phân cụm Mục tiêu phân cụm liệu để xác định nhóm nội bên liệu khơng có nhãn.Chia đối tượng thành cụm “thuần nhất” phân biệt với nhau, tức nhóm đối tượng thỏa mãn điều sau: Độ tương tự đối tượng nhóm cao (tiêu chuẩn liên kết chặt) Các đối tượng nhóm khác phân biệt (tiêu chuẩn tách rời) −→ Cần độ đo đánh giá độ tương tự hay độ khác biệt gọi hệ số tương tự Một vấn đề thường gặp phân cụm hầu hết liệu cần cho phân cụm có chứa liệu nhiễu q trình thu thập thiếu xác thiếu đầy đủ −→ Vì cần phải xây dựng chiến lược cho bước tiền xử lí liệu nhằm khắc phục loại bỏ nhiễu trước chuyển sang giai đoạn phân tích cụm liệu Ngồi ra, dị tìm đối tượng ngoại lai hướng nghiên cứu quan trọng phân cụm, chức xác định nhóm nhỏ đối tượng liệu khác thường so với liệu sở liệu, tức đối tượng liệu không tuân theo hành vi mô hình liệu nhằm tránh ảnh hưởng chúng tới q trình kết phân cụm Ví dụ : Loại bỏ biến nhiễu: 1.2 Các ứng dụng phân cụm Kỹ thuật phân cụm ứng dụng rộng rãi nhiều lĩnh vực đời sống số lĩnh vực cụ thể: • Thương mại: tìm kiếm nhóm khách hàng quan trọng dựa vào thuộc tính đặc trưng tương đồng đặc tả họ ghi mua bán sở liệu Trang Nhóm Phân tích số liệu • Sinh học: phân loại động, thực vật qua chức gen tương đồng chúng; • Thư viện : phân loại cụm sách có nội dung ý nghĩa tương đồng để cung cấp cho độc giả, đặt hàng với nhà cung cấp; • Bảo hiểm : nhận dạng nhóm tham gia bảo hiểm có chi phí u cầu bồi thường trung bình cao, xác định gian lận bảo hiểm thơng qua mẫu cá biệt; • Quy hoạch thị : nhận dạng nhóm nhà theo kiểu, vị trí địa lí, giá trị nhằm cung cấp thơng tin cho quy hoạch thị • Nghiên cứu địa chấn : phân cụm để theo dõi tâm động đất nhằm cung cấp thông tin cho việc nhận dạng vùng nguy hiểm; 1.3 Các yêu cầu phân cụm Sau yêu cầu thuật tốn phân cụm: • Có khả thay đổi quy mơ: Một sở liệu chứa hàng trăm tới hàng triệu đối tượng Việc phân cụm với tập liệu lớn làm ảnh hưởng tới kết • Khả thích nghi với kiểu thuộc tính khác nhau: kiểu số, kiểu nhị phân, kiểu tường minh (định danh - khơng thứ tự) • Khả thích nghi với liệu nhiễu: Một số thuật toán phân cụm nhạy cảm với liệu dẫn đến chất lượng phân cụm thấp • Ít nhạy cảm với thứ tự liệu vào: Với tập liệu, đưa với thứ tự khác với thuật tốn sinh cụm khác • Số chiều lớn • Phân cụm ràng buộc: nhiều ứng dụng thực tế cần thực phân cụm loại ràng buộc khác • Dễ hiểu dễ sử dụng: Người sử dụng chờ đợi kết phân cụm dễ hiểu, dễ lý giải dễ sử dụng Trang Chương Khoảng cách hệ số tương tự hai đối tượng 2.1 Tương tự bất tương tự Khơng có định nghĩa tương tự bất tương tự đối tượng liệu Định nghĩa tương tự bất tương tự đối tượng phụ thuộc vào • Loại liệu khảo sát • Loại tương tự cần thiế.t Tương tự bất tương tự đối tượng thường biểu diễn qua độ đo khoảng cách d(x,y) Lý tưởng, độ đo khoảng cách phải thỏa mãn điểu kiện sau: d(x,y) khoảng cách đối tượng x y, thể khác biệt đối tượng x, y, tính tùy thuộc vào kiểu biến/thuộc tính: d(x,y) >=0 d(x,y) = x=y d(x,y) = d(y,x) d(x,z) di2 k2 > > diM kM (6.2) Nghĩa là, thứ tự giảm dần khoảng cách q chiều tương tự với thứ tự tăng dần điểm tương đồng lúc đầu Miễn thứ tự (6.2) giữ nguyên, độ lớn khoảng cách không quan trọng Đối với giá trị cho trước q, khơng tìm cấu hình điểm có khoảng cách theo cặp đơn điệu liên quan đến điểm tương đồng lúc đầu Kruskal [19] đề xuất thước đo Trang 48 Nhóm Phân tích số liệu mức độ mà biểu diễn hình học thiếu phù hợp Phép đo này, Stress, định nghĩa 1/2 X X ⌢(q) (q)    (dik − d ik )2  X i

Ngày đăng: 14/06/2023, 13:49

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan