Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 44 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
44
Dung lượng
3,18 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG & TIN HỌC ——————– * ——————— TIỂU LUẬN CUỐI KÌ MƠN KHAI PHÁ DỮ LIỆU TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Mục lục Lời mở đầu Thăm dò giảm chiều liệu 1.1 Lấy mẫu liệu 1.2 Hiện thị liệu 1.3 Dữ liệu bẩn 13 1.4 Phân tích cụm 14 Bài toán phân lớp 21 2.1 Tổng quan toán phân loại 22 2.2 Thang đánh giá kiểm thử toán phân loại 24 2.3 Phân loại liệu 26 2.4 Một số kỹ thuật phân lớp 28 2.4.1 K láng giềng gần 28 2.4.2 Phân tích phân biệt 30 2.4.3 Hồi quy Logistic 34 Luật kết hợp mơ hình nhân 37 3.1 Luật kết hợp 37 3.2 Mơ hình nhân 40 Tài liệu tham khảo 43 Lời mở đầu Khai phá liệu lĩnh vực phân tích kinh doanh phát triển nhanh chóng, tập trung vào việc hiểu rõ đặc điểm mơ hình biến sở liệu lớn nhiều cơng cụ thống kê phân tích Nhiều công cụ phát triển nhằm giải vấn đề, trực quan hóa liệu, tổng hợp liệu, PivotTable, phân tích tương quan, hồi quy kỹ thuật khác, sử dụng rộng rãi khai phá liệu Tuy nhiên, lượng liệu tăng theo cấp số nhân, nhiều phương pháp thống kê phân tích khác phát triển để xác định mối quan hệ biến tập liệu lớn hiểu mẫu ẩn mà chúng chứa Trong báo cáo này, em giới thiệu số phương pháp phổ biến sử dụng phần mềm XLMiner để triển khai chúng môi trường bảng tính Nhiều quy trình khai phá liệu địi hỏi kiến thức thống kê nâng cao để hiểu lý thuyết khơng liên quan Do đó, em tập trung vào ứng dụng đơn giản hiểu mục đích ứng dụng kỹ thuật nguyên tắc lý thuyết chúng Khai phá liệu coi phần phân tích mơ tả phần Trong phân tích mơ tả, cơng cụ khai phá liệu giúp nhà phân tích xác định mẫu liệu Ví dụ, biểu đồ Excel PivotTable cơng cụ hữu ích để mô tả mẫu liệu phân tích; nhiên, họ u cầu can thiệp thủ cơng Các mơ hình phân tích hồi quy dự báo giúp dự đoán mối quan hệ giá trị tương lai biến quan tâm Như số nhà nghiên cứu quan sát, ranh giới dự đốn mơ tả khơng sắc nét (một số mơ hình dự đốn mơ tả, mức độ hiểu ngược lại) Trong hầu hết ứng dụng kinh doanh, mục đích mơ tả phân tích để giúp nhà quản lý dự đoán tương lai đưa định tốt ảnh hưởng đến hiệu suất tương lai, thường nói khai phá liệu chủ yếu phương pháp phân tích dự đốn Một số cách tiếp cận phổ biến khai phá liệu bao gồm: Thăm dò giảm chiều liệu: Điều thường liên quan đến việc xác định nhóm yếu tố nhóm tương tự Cách tiếp cận thường sử dụng để hiểu khác biệt khách hàng phân chia họ thành nhóm đồng Ví dụ, cửa hàng bách hóa Macy, xác định bốn lối sống khách hàng mình: Cameron Kinda, người ăn mặc truyền thống, cổ điển, người khơng có nhiều rủi ro thích chất lượng; Cơn sốt Julie, vụng trộm có điều kiện sắc sảo cổ điển; Một khách hàng đương đại yêu thích mẻ cửa hàng theo thương hiệu; Alex Alex, khách hàng thời trang muốn sản phẩm tuyệt vời (họ có phiên nam) Phân khúc hữu ích hoạt động thiết kế tiếp thị để nhắm mục tiêu sản phẩm tốt Những kỹ thuật sử dụng để xác định đặc điểm nhân viên thành công cải thiện hoạt động tuyển dụng tuyển dụng Phân lớp: Phân lớp q trình phân tích liệu để dự đoán cách phân loại yếu tố liệu Một ví dụ phân loại lọc thư rác ứng dụng email khách Bằng cách kiểm tra đặc điểm văn tin nhắn (tiêu đề chủ đề, từ khóa, v.v.), tin nhắn phân loại rác hay không Các phương pháp phân loại giúp dự đốn liệu giao dịch thẻ tín dụng gian lận hay khơng, liệu người nộp đơn vay có rủi ro cao hay người tiêu dùng trả lời quảng cáo Luật kết hợp: luật kết hợp q trình phân tích sở liệu để xác định mối liên hệ tự nhiên biến tạo quy tắc cho tiếp thị mục tiêu mua đề xuất Ví dụ: Netflix sử dụng liên kết để hiểu loại phim khách hàng thích cung cấp đề xuất dựa liệu Amazon.com đưa khuyến nghị dựa giao dịch mua trước Thẻ khách hàng thân thiết siêu mẫu thu thập liệu khách hàng Thói quen mua hàng in phiếu giảm giá điểm mua hàng dựa mua Mơ hình nhân quả: Mơ hình ngun nhân kết q trình mơ hình phân tích phát triển để mô tả mối quan hệ số liệu thúc đẩy hiệu kinh doanh, ví dụ lợi nhuận, hài lòng khách hàng hài lịng nhân viên Hiểu trình điều khiển hiệu suất đưa định tốt để cải thiện hiệu suất Ví dụ, nhóm kiểm sốt Johnson Controls, Inc., xem xét mối quan hệ mức độ thỏa mãn tỷ lệ gia hạn hợp đồng Họ phát 91% gia hạn hợp đồng đến từ khách hàng hài lòng hài lịng, khách hàng khơng hài lịng có tỷ lệ đào thải cao nhiều Mơ hình họ dự đoán mức tăng phần trăm điểm hài lòng chung trị giá 13 triệu đô la gia hạn hợp đồng dịch vụ hàng năm Do đó, họ xác định định cải thiện hài lòng khách hàng Phân tích hồi quy tương quan cơng cụ để mơ hình hóa ngun nhân kết Chương Thăm dò giảm chiều liệu Một số kỹ thuật khai phá liệu liên quan đến việc khám phá liệu giảm liệu Google - nghĩa chia liệu lớn thành nhóm phân đoạn dễ quản lý để cung cấp nhìn sâu sắc em thấy nhiều kỹ thuật trước sách để khám phá liệu giảm liệu Ví dụ: biểu đồ, phân phối tần suất biểu đồ thống kê tóm tắt cung cấp thông tin đặc điểm liệu Các bảng Pivot, đặc biệt, hữu ích việc khám phá liệu từ quan điểm khác để giảm liệu XLMiner cung cấp nhiều công cụ kỹ thuật để khám phá liệu bao gồm mở rộng khái niệm công cụ mà nghiên cứu tài liệu liên quan Chúng tìm thấy nhóm "Data Analysis" dải băng XLMiner, hiển thị Hình 10.1 Hình 1.1: Các chức module Data Analysis 1.1 Lấy mẫu liệu Khi xử lý tập liệu lớn liệu lớn mạng, tốn thời gian để xử lý tất liệu Thay vào đó, em phải sử dụng mẫu XLMiner lấy mẫu từ bảng tính Excel từ sở liệu Microsoft Access Hình 1.2 cho thấy phần liệu rủi ro tín dụng tệp Excel liệu sở, bao gồm 425 hồ sơ Từ nhóm Phân tích liệu ruy-băng XLMiner, bấm vào nút Mẫu chọn Mẫu từ Bảng tính Đảm bảo phạm vi Dữ liệu xác bao gồm tiêu đề Chọn tất biến khung cửa sổ bên trái Hình 1.2: Bộ liệu kiểm thử chức lấy mẫu Chọn options Steve phần Tùy chọn lấy mẫu; trường hợp này, em chọn 20 mẫu (không thay trừ chọn hộp Mẫu thay thế, điều tránh trùng lặp) cách lấy mẫu ngẫu nhiên đơn giản Bằng cách nhập giá trị vào hộp Đặt hạt giống, nhận kết tương tự vào lúc khác cho mục đích kiểm sốt; mẫu ngẫu nhiên khác chọn Hình 0.3 cho thấy hộp thoại hồn thành Hình 1.4 hiển thị kết Hình 1.3: Tùy chỉnh chức lấy mẫu Hình 1.4: Kết thị lấy mẫu 1.2 Hiện thị liệu XLMiner cung cấp nhiều biểu đồ để trực quan hóa liệu Chúng ta thấy nhiều số này, chẳng hạn biểu đồ thanh, đường biểu đồ phân tán biểu đồ Tuy nhiên, XLMiner có khả tạo ô vuông, biểu đồ tọa độ song song, biểu đồ ma trận phân tán biểu đồ biến Chúng tìm thấy từ nút Khám phá nhóm Phân tích liệu Em xây dựng boxplot cho số tháng làm việc cho giá trị tình trạng nhân từ Dữ liệu Rủi ro Tín dụng Đầu tiên, chọn Trình hướng dẫn biểu đồ từ nút Khám phá nhóm Phân tích liệu tab XLMiner Chọn Boxplot; hộp thoại thứ hai, chọn Tháng sử dụng làm biến để 10 ... Nhiều công cụ phát triển nhằm giải vấn đề, trực quan hóa liệu, tổng hợp liệu, PivotTable, phân tích tương quan, hồi quy kỹ thuật khác, sử dụng rộng rãi khai phá liệu Tuy nhiên, lượng liệu tăng theo... hồi quy tương quan cơng cụ để mơ hình hóa ngun nhân kết Chương Thăm dò giảm chiều liệu Một số kỹ thuật khai phá liệu liên quan đến việc khám phá liệu giảm liệu Google - nghĩa chia liệu lớn thành... tương lai, thường nói khai phá liệu chủ yếu phương pháp phân tích dự đốn Một số cách tiếp cận phổ biến khai phá liệu bao gồm: Thăm dò giảm chiều liệu: Điều thường liên quan đến việc xác định