Kết quả phân tích Sử dụng ma trận nhầm lẫn- 123docz.net

Chương 3 Bài báo “KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM

3.8.7 Kết quả phân tích Sử dụng ma trận nhầm lẫn

Thực hiện mô hình cá nhân của phương pháp học có giám sát thường được đánh giá bằng cách sử dụng ma trận nhầm lẫn. Mục tiêu, thông thường, là để tăng số lượng các dự đoán chính xác (Nhạy cảm) trong khi duy trì dự đoán không chính xác hoặc tỷ lệ báo động giả (đặc) ở một mức chấp nhận được. Hai mục tiêu, nhận được càng nhiều các lĩnh vực mục tiêu dự đoán một cách chính xác so với giữ tỷ lệ báo động sai thấp, có xu hướng tỉ lệ nghịch. Một ví dụ đơn giản có thể minh họa điểm này: để bắt tất cả các gian lận trong một tập dữ liệu, một trong những cần chỉ gọi tuyên bố gian lận chăm sóc sức khỏe, trong khi để tránh bất kỳ báo động sai ta chỉ cần gọi tất cả các tuyên bố không gian lận.

Các câu hỏi kinh doanh thường định nghĩa tỷ lệ báo động giả là chấp nhận được so với những gì số lượng gian lận (hoặc mục tiêu khác) cần phải bị bắt.

Bảng 3 hiển thị cách bố trí của một ma trận nhầm lẫn. Ma trận nhầm lẫn so sánh thực tế giá trị của gian lận (hàng) so với mô hình dự báo gian lận (cột). Nếu mô hình dự đoán gian lận hoàn toàn, tất cả các quan sát trong ma trận nhầm lẫn sẽ cư trú trong hai ô được tô đậm có nhãn "đúng sa thải" và "đúng Hits." Nói chung, mục tiêu là tối đa hóa dự đoán chính xác trong khi quản lý sự gia tăng báo động sai.

Mô hình dự đoán Mô hình dự đoán Không gian lận Mô hình dự đoán Gian lận Giá trị của Gia n lận Thực tế Giao dịch Không gian lận Sa thải đúng SaiBáo động Thực tế Giao dịch Gian lận Sai

Sa thải Chính xácSố lượt truy cập

Bảng 3: Giao diện của một ma trận nhầm lẫn

Khi dự đoán các vấn đề phân loại, mỗi bản ghi nhận được một số điểm dựa trên khả năng rằng dòng đại diện cho một số giá trị mục tiêu. Vì khả năng là một xác suất, nó

Với 0.10 ngưỡng, hồ sơ có 10 phần trăm hoặc cơ hội cao hơn là gian lận được dự đoán là gian lận. Ngưỡng 10 phần trăm dự báo báo động sai hơn, trong khi 50 phần trăm ngưỡng dự đoán hơn sa thải sai. Một sơ đồ phân loại chính xác cho phép

đánh giá của ma trận nhầm lẫn về một loạt các ngưỡng.

Hình 5: Cây 5 Confusion Matrix ở mức 10% Ngưỡng

Hình 7 hiển thị một biểu đồ tỷ lệ phân loại chính xác cho cây 5. Âm mưu này cho thấy sự cân bằng giữa độ nhạy và độ đặc hiệu cho phép các nhà phân tích để xác định một cắt thích hợp đánh giá cho khả năng một hồ sơ cụ thể là gian lận. Trong ví dụ này, đường cong cho Mục tiêu của cả hai Cấp minh họa rằng ngưỡng có thể khác nhau trở lên của 20 phần trăm mà không ảnh hưởng đáng kể kết quả.

Hình 7: Cây 5 Sơ đồ phân loại đúng

Bảng thống kê 4 hiển thị cho cây quyết định 4 và 5. Trong trường hợp này, cả hai cây sản xuất khá giống kết quả, tách đầu tiên trên giới tính sau đó các đầu vào khác trong đơn đặt hàng khác nhau. Vì các tùy chọn lựa chọn sau khi chia ban đầu, cây 4 đã tập

Bảng 4: Bảng của cây thống kê

Các kỹ thuật hình tượng hóa có trong SAS Enterprise Miner cũng rất hữu ích khi phân tích cây. Ví dụ, sơ đồ vòng cây cung cấp quan điểm toàn diện của cây quyết định. Hình 8

hiển thị một biểu đồ vòng cây cho cây 4. Các trung tâm của vòng tròn đại diện cho các nút cây đầu bao gồm tất cả các dữ liệu. Vòng đầu tiên đại diện cho sự chia rẽ cây đầu tiên, trong trường hợp này về giới.

Vòng tiếp theo tương ứng với cấp độ tiếp theo trong cây. Màu sắc được gán cho chương trình tỷ lệ dòng gian lận phân loại chính xác trong mỗi nút của cây. Cung sáng màu tương ứng với ít gian lận, phần tối để gian lận hơn.

Hình 8: Cây vòng cung Sơ đồ cây quyết định 4

Bằng cách sử dụng chẩn đoán có sẵn trong phần mềm cho phép các nhà phân tích để điều tra một cách nhanh chóng phần tối hơn của sơ đồ và để tạo ra một tập hợp các cây có hiển thị quy tắc cần thiết để tạo ra các tập dữ liệu liên quan. Hình 9 hiển thị các quy tắc cho cây quyết định 4.

Hình 9: Một tập hợp con của Quy định về Tree 4

Một quy tắc ví dụ từ Hình 9 quy định rằng 14 phần trăm của các hồ sơ gian lận có thể

mô tả như sau: • nam

• từ bốn loại người cụ thể của loại tập tin A • khoản tiền nhận được từ $ 19,567 và $ 44,500 • một trong ba "máy tính" giá trị trạng thái.

Bắt nguồn từ những quy tắc hình 9 là đơn giản; Tuy nhiên, lưu ý rằng thanh toán Số tiền này được giải quyết hai lần trong mô hình. Lựa chọn mô hình cho cây 4 quy định rằng chỉ có một điểm phân chia có thể được định nghĩa trên một đầu vào ở mỗi cấp của cây. Thiết lập thuật toán này thường gây ra cây quyết định để tạo ra chia rẽ trên một đầu vào duy nhất ở nhiều cấp độ trong cây làm cho quy tắc khó hiểu.

Sau một bộ tương tự như các bước cho cây 5 cho phép so sánh hai cây ở hơn mức độ hạt.Hình 10 hiển thị các vòng cây cho cây quyết định 5 mà bốn điểm phân chia cho mỗi đầu vào đã được cho phép trong mỗi cấp độ của cây. Cho phép tự do hơn các thuật toán trong tách đầu vào dẫn đến một cây có ít mức độ mà các địa chỉ nhiều hơn các dữ liệu – trong đặc biệt là cả nam và nữ. Nhìn lướt qua các vòng cây có thể đề nghị là 5 cây hơn phức tạp hơn so với cây 4. Tuy nhiên, mỗi đầu vào xuất hiện ở chỉ có một mức trong cây, làm cho quy tắc dễ hiểu hơn.

Hình 10: Cây nhẫn Sơ đồ cây quyết định 5

Cây quyết định 5 được hiển thị đồ họa trong Hình 11 là một tập hợp các phần chia nhỏ (quyết định).

Hình 11: Quy định cho cây 5

Một quy tắc ví dụ trong hình 11 xác định rằng 9,8 phần trăm của các hồ sơ gian lận có thể mô tả như sau:

• nam

• từ hai loại người cụ thể hoặc 'mất tích' thể loại • tình trạng thanh toán U

• nhận được thanh toán từ $ 11,567 và $ 40,851.