Bài toán phân cụm dữ liệu xây dựng mô hình phân cụm dữ liệu

40 1 0
Bài toán phân cụm dữ liệu xây dựng mô hình phân cụm dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 2 NỘI DUNG➢Bài toán phân cụm dữ liệu• Giới thiệu phân cụm dữ liệu• Các ứng dụng phân cụm dữ liệu trong kinh tế➢Một số phương pháp phân cụm• Hierarchical clustering: Agnes, Diana• P

XÂY DỰNG MÔ HÌNH PHÂN CỤM DỮ LIỆU Giảng viên: TS Võ Thành Đức Khoa Công nghệ thông tin kinh doanh Đại học Kinh tế TP HCM NỘI DUNG ➢ Bài toán phân cụm dữ liệu • Giới thiệu phân cụm dữ liệu • Các ứng dụng phân cụm dữ liệu trong kinh tế ➢ Một số phương pháp phân cụm • Hierarchical clustering: Agnes, Diana • Partitioning clustering: K-means,Fuzzy C-means ➢ Đánh giá mô hình phân cụm • Đánh giá ngoài (external validation) • Đánh giá nội bộ ((internal validation) • Đánh giá tương đối (relative validation) ➢ Minh họa bằng công cụ Orange TS VÕ THÀNH ĐỨC Khái niệm: Giới thiệu phân cụm dữ liệu ➢ Phân cụm là một ứng dụng khác của khái niệm cơ bản về sự tương đồng Ý tưởng cơ bản là chúng ta muốn tìm các nhóm đối tượng, trong đó các đối tượng trong mỗi nhóm tương tự nhau, nhưng các đối tượng trong các nhóm khác nhau thì không quá giống nhau ➢ Sự tương đồng tạo cơ sở cho nhiều phương pháp khoa học dữ liệu và các giải pháp cho các vấn đề kinh doanh Nếu hai đối tượng (con người, công ty, sản phẩm…) giống nhau về mặt nào đó thì chúng cũng thường có chung những đặc điểm khác ➢ Khác với mô hình phân lớp, loại mô hình dự đoán có giám sát liên quan đến việc khám phá các mẫu để dự đoán giá trị của một biến mục tiêu cụ thể, mô hình phân cụm là mô hình dự đoán không giám sát Có nghĩa là nó không tập trung vào một biến mục tiêu Thay vào đó, nó tìm kiếm các loại quy tắc khác trong tập hợp dữ liệu Do đó, dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn (không có biến mục tiêu) TS VÕ THÀNH ĐỨC Đặc điểm: Giới thiệu phân cụm dữ liệu ➢ Nhiệm vụ chính là đo đạc để tìm ra sự khác biệt giữa các đối tượng dữ liệu ➢ Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) ➢ Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao: • Độ tương đồng bên trong cụm cao • Độ tương tự giữa các cụm thấp (khác biệt cao) ➢ Là công cụ phân cụm dữ liệu độc lập ➢ Là giai đoạn tiền xử lý cho các thuật toán khác Mô hình quá trình phân cụm dữ liệu TS VÕ THÀNH ĐỨC Giới thiệu phân cụm dữ liệu • Độ đo phân cụm: được sử dụng làm tiêu chí nhằm tính toán sự tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trình gom cụm • Một số độ đo phân cụm: • Euclid: 2 2 2 𝑑1,𝐴 − 𝑑1,𝐵 + 𝑑2,𝐴 − 𝑑2,𝐵 + ⋯ + 𝑑𝑛,𝐴 − 𝑑𝑛,𝐵 Khoảng cách Ơ-clít (Euclide) Trong đó: một đối tượng được mô tả bởi n đặc điểm, n kích Thuộc tính Người A Người B thước (d1, d2,…, dn) 40 Tuổi 23 10 • Cosin Số năm ở địa chỉ hiện tại 2 1 Tình trạng cư trú (1 = Chủ sở hữu, 2 = 2 • Minkowski: thuê, 3 = khác) Khoảng cách Euclide của người A và B là: d (A, B) = (23 - 40)2 + (2-10)2 + (2 - 1)2 ≈ 18,8 TS VÕ THÀNH ĐỨC LÁNG GIỀNG GẦN NHẤT VÀ MÔ HÌNH DỰ ĐOÁN • Láng giềng gần nhất: Những trường hợp có khoảng cách nhỏ nhất tính từ trường hợp được xem xét được gọi là những láng giềng gần nhất • Một ví dụ về phân lớp theo láng giềng gần nhất: KH Tuổi Thu SL thẻ Phản Khoảng cách với David nhập TD hồi ? 0 A 37 50 2 Có 35 − 37 2 + 35 − 50 2 + 3 − 2 2 = 15,16 3 Không 22 − 37 2 + 50 − 50 2 + 2 − 2 2 = 15 B 35 35 Không 63 − 37 2 + 200 − 50 2 + 1 − 2 2 = 152,23 2 59 − 37 2 + 170 − 50 2 + 1 − 2 2 = 122 C 22 50 Không 25 − 37 2 + 40 − 50 2 + 4 − 2 2 = 15,74 Phân loại láng giềng gần nhất Điểm 1 Có được phân loại được đánh dấu “?” sẽ D 63 200 được phân loại + vì phần lớn điểm lân 1 cận gần nhất của nó là + E 59 170 4 * Vấn đề đặt ra: F 25 40 - Tại sao lại có 3 láng giềng? Dự đoán A sẽ phản hồi đề nghị hay không? Hoặc dự đoán A có thu nhập là bao nhiêu? Không có câu trả lời đơn giản cho việc nên sử dụng bao • Ước tính xác suất nhiêu hàng xóm Số lẻ là thuận tiện cho việc phân loại Nếu chúng ta cho điểm lớp Có, sao cho Có = 1 và Không = 0, chúng ta có thể tính phiếu bầu cho đa số, thuật trung bình các điểm này thành điểm số 2/3 cho khách hàng A toán này viết tắt là k-NN • Hồi quy Tính lại khoảng cách nhưng không đưa biến Thu nhập vào Giả sử A có ba hàng xóm B, C, F (35, 50, 40) Dự đoán thu nhập cho A là 40 hay 42 (Giá trị trung bình là 41,6) TS VÕ THÀNH ĐỨC Các nhiệm vụ kinh doanh liên quan lý luận về sự tương tự ➢ Trực tiếp truy suất ra những thứ tương tự từ dữ liệu - IBM muốn tìm những công ty tương tự như những khách hàng kinh doanh tốt nhất của mình, để nhân viên bán hàng xem họ là những khách hàng tiềm năng - Các nhà quảng cáo thường muốn phân phát quảng cáo trực tuyến cho những người tiêu dùng tương tự như những khách hàng tốt hiện tại của họ ➢ Tương tự có thể được sử dụng để phân lớp và hồi quy (ví dụ trước) ➢ Chúng ta có thể muốn nhóm các mặt hàng tương tự lại với nhau thành các cụm, - Chẳng hạn như để xem liệu về cơ bản khách hàng của chúng ta có chứa các nhóm khách hàng giống nhau hay không và các nhóm này có điểm chung gì ➢ Các nhà bán lẻ hiện đại như Amazon và Netflix sử dụng tính tương tự để cung cấp các đề xuất về sản phẩm tương tự hoặc/từ những người tương tự - Sự tương tự được áp dụng với những câu như “Những người thích X cũng thích Y” hoặc “Những khách hàng có lịch sử duyệt web của bạn cũng đã xem xét…” ➢ Lập luận từ các trường hợp tương tự tất nhiên mở rộng đối với các lĩnh vực như y học và luật - Bác sĩ có thể giải thích về một trường hợp khó mới bằng cách nhớ lại một trường hợp tương tự (được điều trị cá nhân hoặc được ghi lại trong nhật ký) và chẩn đoán của nó - Một luật sư thường lập luận các vụ án bằng cách viện dẫn các án lệ, đó là các vụ án lịch sử tương tự mà các trường hợp trước đó đã được xét xử và đưa vào sổ sách pháp luật - Lĩnh vực Trí tuệ nhân tạo đã có lịch sử lâu đời trong việc xây dựng các hệ thống giúp các bác sĩ và luật sư có thể suy luận dựa trên các tình huống như vậy TS VÕ THÀNH ĐỨC Các ứng dụng phân cụm trong kinh tế ➢Dự báo khách hàng tiềm năng ➢Phân tích xu hướng hành vi khách hàng ➢Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp ➢Phân tích đặc tính sản phẩm dịch vụ ➢Đánh giá kết quả hoạt động kinh doanh ➢Phân tích hành vi người dùng mạng xã hội TS VÕ THÀNH ĐỨC Các ứng dụng phân lớp dữ liệu trong kinh tế ➢ Tài chính ngân hàng • Dự báo giá chứng khoán • Xếp hạng tín dụng cá nhân và tổ chức • Đánh giá rủi ro tài chính ➢ Sales & Marketing • Dự báo doanh thu • Dự báo khách hàng trung thành ➢ Kinh tế học • Dự báo khủng hoảng kinh tế • Dự báo cung cầu TS VÕ THÀNH ĐỨC Phân loại một số phương pháp phân cụm chính TS VÕ THÀNH ĐỨC

Ngày đăng: 23/03/2024, 14:59

Tài liệu cùng người dùng

Tài liệu liên quan