TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC Báo Cáo Khai Phá Dữ Liệu Đề Tài Phân Tích Và Quyết Định Một Mô Hình Như Thế Nào Là Tốt Giảng viên hướng dẫn TS Lê Chí Ngọc Lớp Hệ thống th[.]
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC Báo Cáo Khai Phá Dữ Liệu Đề Tài: Phân Tích Và Quyết Định Một Mơ Hình Như Thế Nào Là Tốt Giảng viên hướng dẫn: TS Lê Chí Ngọc Lớp: Hệ thống thơng tin quản lý K61 HÀ NỘI – 2020 Mục Lục Mở đầu Đánh giá phân loại Chỉ số độ xác dùng đánh giá mơ hình nhược điểm The Confusion Matrix .5 Các vấn đề lớp không cân .6 Những vấn đê không đồng lợi ích chi phí 10 Tổng qt khía cạnh ngồi phân loại .10 Khung phân tích chính: Giá trị mong đợi 11 Sử dụng giá trị mong đợi để phân loại khung sử dụng 12 Sử dụng giá trị mong đợi để đánh giá phân loại khung 14 Error rates 16 Chi phí lợi ích 17 Đánh giá hiệu suất ý nghĩa đầu tư vào liệu .23 Tổng quan 26 Mở đầu Khái niệm: Là việc xem xét cách kĩ lưỡng kết trả trình phân tích liệu (data science); Dùng giá trị dự báo làm khung đánh giá mơ hình; Cân nhắc độ phù hợp mơ hình Kỹ thuật bản: Đưa số liệu đánh giá khác nhiều khía cạnh theo nhiều cách tiếp cận; Ước tính chi phí lợi ích mơ hình; Tính tốn dự báo lợi nhuận tạo phương pháp để so sánh Quay trở lại với chương 5: Với tư cách người quản lý MegaTelco, bạn muốn đánh giá xem mơ hình mà cơng ty tơi đưa có tốt khơng Nó thiên bên đó, làm để bạn biết điều đó? Để tăng độ xác data science cho ứng dụng nhà nghiên cứu data science bên liên quan phải chắn rẳng họ biết muốn thơng qua việc khai thác liệu Điều thường xuyên bị bỏ qua Cả thân người nghiên cứu khoa học liệu người làm việc với họ thường tránh né dù nhận liên quan kết từ khai thác liệu Điều thể báo cáo thống kê mà không hiểu rõ lý thống kê việc tìm cách thức thống kê có ý nghĩa Chúng ta nên cẩn thận với trích thường khơng thể đo lường Điều mục tiêu tối thượng, ví dụ hệ thống không đầy đủ q tốn để thu thập liệu xác hay khó để đánh giá kết việc khai thác liệu Vì vậy, kết luận cần phải xây dựng nhiều kết đo lường cho thực muốn Tuy nhiên điều quan trọng phải suy cẩn thận thực muốn tính tốn Nếu phải chọn kết khác nên phân tích kết cách cẩn thận dư liệu Tuy nhiên có trở ngại lớn việc chọn mơ hình hợp lý ứng dụng khác Do khơng thể đưa cách thức, phương pháp hay số liệu đánh giá cách xác cho loại ứng dụng cụ thể Tuy nhiên có vấn đề chủ đề phổ biến khác đánh giá, khuôn khổ kỹ thuật để giải đa số yếu tố Chúng ta làm việc thông qua tập hợp khung số liệu cho nhiệm vụ phân loại trình bày chương tính tốn điểm số mơ hình Ví dụ đặt hàng cho người tiêu dùng theo đề nghị họ tùy thuộc vào khả họ,sau ước tính xác suất lớp học trình bày chương sau Các kỹ thuật cụ thể nên xem ví dụ minh họa cho khái niệm chung tư sâu nhu cầu ứng dụng May mắn thay, kỹ thuật cụ thể làmáp dụng rộng rãi Chúng mô tả khuôn khổ chung để suy nghĩ đánh giá, sử dụng giá trị mong đợi, bao gồm nhiều ứng dụng Chúng ta trình bày chương sau, sử dụng cơng cụ tổ chức cho tư phân tích liệu nói chung Đánh giá phân loại Hãy nhớ lại mơ hình phân loại lấy ví dụ mà khơng biết lớp dự đốn lớp Hãy xem xét phân loại nhị phân, mà hai lớp thường gọi Positive Negative Vậy làm đánh giá mô tốt thực tế? Trong Chương 5, thảo luận cách đánh giá, nên sử dụng kiểm tra thiết lập để đánh giá hiệu suất tổng quát mô hình Nhưng nên đo hiệu suất khái quát nào? Ngoài lề: Bad Positive Harmless Negative Khi thảo luận trình phân loại, thường coi kết không mong đợi hay bất thường ví dụ Positive, kết bình thường tốt Negative Thoạt nghe điều kỳ lạ với bạn coi định nghĩa tích cực tiêu cực Chúng ta lấy ví dụ để làm rõ câu trên: Một trường hợp gian lận xem xét Positve trường hợp hợp pháp coi Negative, điều giải thích trường hợp gian lận trường hợp đáng ý có biểu bất thường có giá trị phân tích liệu gọi Positive cịn ngược lại với trường hợp bình thường kết trả không gian lận hay tốt coi Negative Thật coi quy ước nên hiểu cách sử dụng Thuật ngữ sử dụng nhiều lĩnh vực khác bao gồm máy học khai thác liệu, sử dụng suốt Cuốn sách Một ví dụ khác lĩnh vực y tế: Xét nghiệm y tế (được cơi loại phân loại) thực mẫu sinh học để cố gắng phát bệnh bất thường cách kiểm tra khía cạnh định mẫu Nếu xét nghiệm cho kết Positive có nghĩa có mắc bệnh xuất tình bất thường; xét nghiệm Negative coi khơng có dấu hiệu bệnh thường khơng cần điều trị Tương tự, máy phát gian lận thấy bất thường hoạt động tài khoản khách hàng định cần báo động, gọi tích cực Mặt khác, kết trả Negative (đồng nghĩa với việc tài khoản có hoạt động hợp pháp) trường hợp có lợi cho nhà quản lý tài khoản từ góc độ phát gian lận, chúng khơng đáng ý Có lợi để trì cách thức định nghĩa chung xác định lại ý nghĩa tích cực tiêu cực cho tên miền giới thiệu Bạn nghĩ phân loại sàng lọc công đồng bao gồm chủ yếu người tiêu cực (những yếu tố định nghĩa Negative) Các trường hợp khơng quan tâm đến việc tìm kiếm số lượng nhỏ kết trả Positive Theo quy ước, lớp Positive thường hiếm, lớp Negative Hậu số lượng lỗi thực Negative (lỗi false Positive) chiếm ưu thế, chi phí lỗi thực ví dụ Positive (lỗi false negative) cao Chỉ số độ xác dùng đánh giá mơ hình nhược điểm Cho đến thời điểm này, quy ước với số số đơn giản, chẳng hạn tỷ lệ lỗi phân loại độ xác sử dụng để đo hiệu suất mơ hình Độ xác mơ hình phân loại số sử dụng phổ biến dễ đo Nhưng thực tế, thường đơn giản để áp dụng vào kỹ thuật khai thác liệu lĩnh vực tài kinh doanh Phần thảo luận số độ xác số lựa chọn thay Thuật ngữ độ xác mơ hình phân loại, đơi sử dụng khơng thức có nghĩa thước đo chung hiệu suất phân loại Ở chúng tơi bảo lưu độ xác cho kỹ thuật cụ thể có nghĩa tỷ lệ định xác: Điều tương đương với 1-error rate Độ xác số đánh giá phổ biến thường sử dụng nghiên cứu khai thác liệu làm giảm hiệu suất phân loại xuống số dễ dàng để đo lường Thật khơng may, đơn giản có số nhược điểm (được đề cập Provost, Fawcett, & Kohavi, 1998) Để hiểu vấn đề này, cần cách để phân tách đếm loại định sai khác thực mô hình phân loại Đối với điều này, chúng tơi sử dụng Matrix Confusion (Ma trận nhầm lẫn ) The Confusion Matrix Để đánh giá phân loại, điều quan trọng phải hiểu khái niệm lớp nhầm lẫn ma trận nhầm lẫn, thể dạng mộ bảng thông số Một ma trận nhầm lẫn cho vấn đề liên quan đến n lớp ma trận n × n với cột gắn nhãn lớp thực tế hàng dán nhãn với lớp dự đoán Mỗi ví dụ kiểm tra tập hợp có nhãn lớp thực tế lớp dự đốn trình phân loại (dự đốn lớp), số sau tính tốn viết vào ô ma trận tương ứng Để cho cho đơn giản giải vấn đề có hai lớp với ma trận nhầm lẫn × Một ma trận nhầm lẫn phân tách định đưa phân loại, làm rõ lớp bị nhầm lẫn cho lớp khác Theo cách này, loại lỗi khác xử lý riêng Hãy phân biệt lớp thật lớp dự đốn theo mơ hình cách sử dụng ký hiệu khác Chúng ta xem xét vấn đề có hai lớp, biểu thị lớp thực p(ositive) n(egative) lớp dự đốn mơ hình (the predicted classes) Y (es) N (o) (nghĩa là: mơ hình nói Yes tức positive, hay No tức negative Bảng 7-1 Bố cục ma trận nhầm lẫn × hiển thị tên dự đốn (đường chéo chính) dự đốn sai (ngoài đường chéo) Trong ma trận nhầm lẫn, đường chéo chứa số lượng định xác Các lỗi trình phân loại false positives (trường hợp negative phân loại positive) false negative (positive phân loại negative) Các vấn đề lớp khơng cân Như ví dụ cách cần suy nghĩ cẩn thận đánh giá mơ hình, xem xét vấn đề phân loại lớp hay mơ tả chiếm số lượng so với lớp cịn lại Đây tình phổ biến ứng dụng, phân loại thường sử dụng để sàng lọc thông qua liệu với tỷ lệ liệu bình thường thực thể khơng quan tâm có số lượng lớn để tìm thấy số lượng nhỏ thực thể khác thường; Lấy ví dụ việc tìm kiếm khách hàng gian lận, kiểm tra dây chuyền lắp ráp cho phận bị lỗi, đáp ứng đề nghị người dùng Bởi thực thể bất thường hay lớp positive chiếm tỷ lệ nhỏ liệu nói chung, phân bố lớp khơng cân bị lệch hướng (Ezawa, Singh, & Norton, 1996; Fawcett & Provost, 1996; Japkowicz & Stephen, 2002) Thật không may, phân phối lớp trở nên sai lệch hơn, đánh giá dựa độ xác khơng cịn phù hợp Hãy xem xét miền lớp xuất theo tỷ lệ 999: Một quy tắc đơn giản, luôn chọn lớp phổ biến nhất, cho độ xác 99,9% Điều có lẽ khơng thỏa đáng giải pháp tìm dù có độ xác cao lại khơng có ý nghĩa thực tiễn Độ lệch liệu 1: 100 phổ biến phát gian lận độ lệch lớn 1: 106 trình bày phân loại ứng dụng học tập khác (Clearwater & Stern, 1991; Attenberg & Provost, 2010) Chương đề cập đến tỷ lệ sở lớp, tương ứng với mức độ phân loại thực cách cần chọn lớp cho trường hợp Với độ lệch tên miền tỷ lệ sở cho lớp đa số cao, đó, báo cáo có độ xác 99% gần khơng có tác dụng mà mong muốn Ngay độ lệch khơng q lớn, miền có lớp phổ biến độ xác sai lệch Xem xét lần ví dụ di động đề cập đến ban đầu Coi bạn người quản lý MegaTelCo nhà phân tích, tơi báo cáo mơ hình phân tích chúng tơi tạo độ xác 80% Đồng nghiệp tơi báo cáo mơ hình tạo độ xác 37% Liệu kết luận đồng nghiệp tơi có mơ hình tơi Bạn nói, chúng tơi cần thêm thơng tin mơ hình Và bạn có quyền làm (và tham gia vào tư phân tích liệu) Chúng ta cần gì? Xem xét dòng thảo luận tiểu mục này, bạn nói: đúng! cần biết tỷ lệ pha trộn liệu mà xem xét Giả xử bạn biết liệu này, tỷ lệ rời sở khoảng 10% tháng Hãy lấy ví dụ xem xét để tìm khác hàng có biểu gian lận, có tỷ lệ lớp P/N 1: Vì vậy, đơn giản phân tất người vào lớp negative, đạt độ xác tỷ lệ sở 90%! Tìm hiểu sâu hơn, bạn phát đồng nghiệp đánh giá hai liệu khác Điều không gây ngạc nhiên khơng phối hợp nỗ lực phân tích liệu Của tơi đồng nghiệp tính tốn độ xác mẫu đại diện từ dân số, tạo liệu cân giả tạo để đào tạo thử nghiệm (cả hai phổ biến thực hành) Bây mơ hình đồng nghiệp tơi tệ, đạt 90% độ xác, nhận 37% Tuy nhiên, cô áp dụng mô hình vào liệu cân tơi thiết lập, thấy độ xác 80% Bây thật khó hiểu Điểm mấu chốt độ xác đơn giản điều sai lầm cần đo lường Trong thừa nhận ví dụ giả định, mơ hình đồng nghiệp tơi (gọi Mơ hình A) đạt độ xác 80% mẫu cân bằng cách xác định xác tất ví dụ tích cực có 30% ví dụ tiêu cực Mơ hình tơi (Model B) thực điều này, ngược lại, cách xác định xác tất ví dụ tiêu cực có 30% số ví dụ tích cực Hãy xem xét hai mơ hình cẩn thận hơn, sử dụng ma trận nhầm lẫn khái niệm dụng cụ Trong quần thể 1.000 khách hàng, ma trận nhầm lẫn sau Hãy nhớ lại mơ hình dự đốn lớp ký hiệu Y N Bảng 7-2 Ma trận nhầm lẫn A Bảng 7-3 Ma trận nhầm lẫn B Hình 7-1 minh họa phân loại dân số cân dân số đại diện Như đề cập, hai mơ hình phân loại xác 80% số dư dân số, ma trận nhầm lẫn số cho thấy họ hoạt động khác Phân loại A thường dự đoán sai khách hàng rời họ không, phân loại B gây nhiều lỗi ngược lại dự đoán khách hàng không khuấy đảo thực tế họ Khi áp dụng cho dân số ban đầu, không cân khách hàng, mơ hình A xác giảm xuống cịn 37% mơ hình Bùi tăng lên 93% Đây thay đổi lớn Vậy mơ hình tốt hơn? Hình 7-1 Hai mơ hình phân phối A B, tạo số lỗi liệu sử dụng cho traing (trên) số lỗi khác kiểm tra lại liệu gốc (dưới) Mơ hình tơi (B) tốt A B dường có lợi ích lớn liệu mà quan tâm với tỷ lệ P N 1: Nhưng chúng tơi nói chắn vấn đề khác với độ xác: chúng tơi cách nhiều quan tâm đến lỗi khác định xác Vấn đề chủ đề phần Những vấn đê khơng đồng lợi ích chi phí Một vấn đề khác với độ xác phân loại đơn giản số liệu khơng phân biệt sai dương tính giả sai âm Bằng cách đếm chúng nhau, làm cho giả định ngầm hai lỗi quan trọng Với giới thực tên miền xảy Đây thường loại lỗi khác với chi phí khác phân loại có hậu mức độ nghiêm trọng khác Hãy xem xét lĩnh vực chẩn đoán y tế bệnh nhân thơng báo sai bị ung thư anh khơng có Đây lỗi tích cực sai Kết bệnh nhân làm thêm xét nghiệm sinh thiết, cuối không xác nhận ban đầu chẩn đốn ung thư Lỗi tốn kém, bất tiện căng thẳng cho bệnh nhân, khơng đe dọa đến tính mạng So sánh điều với lỗi ngược lại: bệnh nhân bị ung thư nói sai khơng bị Đây âm tính giả Loại lỗi thứ hai có nghĩa người bị ung thư khơng phát sớm, mà có hậu nghiêm trọng nhiều Hai lỗi khác nhau, nên tính riêng, nên có chi phí khác Quay trở lại ví dụ di động chúng tơi, xem xét chi phí trả lại cho khách hàng khuyến khích khuyến khích mà dẫn đến khởi hành (một lỗi dương tính giả) So sánh với chi phí khách hàng khơng có ưu đãi đưa (âm tính giả) Bất chi phí bạn định cho loại, không chúng nhau; lỗi nên tính riêng Thật vậy, thật khó để tưởng tượng miền mà người định an tồn khác với việc làm cho dương tính giả hay lỗi âm tính giả Tốt nhất, nên ước tính chi phí lợi ích định mà phân loại đưa Sau tổng hợp, điều tạo ước tính lợi nhuận dự kiến (lợi ích dự kiến chi phí dự kiến) cho phân loại người tiêu dùng khơng phản hồi sao? Chúng tơi gửi thư tài liệu tiếp thị, phát sinh chi phí $ tương đương lợi ích - $ Bây chúng tơi sẵn sàng nói xác liệu chúng tơi có muốn nhắm mục tiêu người tiêu dùng hay khơng: chúng tơi có mong đợi khơng để tạo lợi nhuận? Về mặt kỹ thuật, giá trị kỳ vọng (lợi nhuận) việc nhắm mục tiêu lớn số khơng? Về mặt tốn học, là: Sắp xếp lại chút phương trình cho quy tắc định Nhắm mục tiêu đến khách hàng định x nếu: Với giá trị mẫu này, nên nhắm mục tiêu người tiêu dùng miễn ước tính xác suất trả lời lớn 1% Điều cho thấy cách tính giá trị dự kiến diễn tả cách sử dụng mơ hình Làm cho điều rõ ràng giúp tổ chức xây dựng phân tích vấn đề Chúng trở lại đến điều Chương 11 Bây giờ, để di chuyển sang ứng dụng quan trọng khác khung giá trị dự kiến, để tổ chức phân tích xem liệu mơ hình có trích từ liệu tốt Sử dụng giá trị mong đợi để đánh giá phân loại khung Tại thời điểm này, muốn chuyển trọng tâm từ định cá nhân sang sưu tập định Cụ thể, cần đánh giá tập hợp định đưa mơ hình áp dụng cho tập hợp ví dụ Việc đánh cần thiết để so sánh mơ hình khác Ví dụ: mơ hình hướng liệu chúng tơi có hoạt động tốt so với mơ hình mơ hình thủ cơng đề xuất nhóm tiếp thị? Cây phân loại có hoạt động khơng tốt mơ hình phân biệt tuyến tính cho vấn đề cụ thể? Làm mơ hình làm tốt đáng kể so với mơ hình sở, ví dụ người tiêu dùng chọn ngẫu nhiên nhắm mục tiêu? Có khả mơ hình đưa số định tốt so với mơ hình khác mơ hình Điều chúng tơi quan tâm là, tổng hợp, mơ hình làm tốt nào: giá trị kì vọng Hình 7-2 Một sơ đồ tính toán giá trị dự kiến Và Σ đề cập đến phép nhân tổng phép tính giá trị dự kiến Chúng ta sử dụng khung giá trị dự kiến vừa mô tả để xác định định tốt cho mơ hình cụ thể sau sử dụng giá trị mong đợi theo cách khác để so sánh mơ hình Nếu tính tốn lợi nhuận dự kiến cho mơ hình tổng hợp, oi phương trình 71 tương ứng với kết hợp có lớp mà dự đốn, lớp học thực tế Chúng muốn tổng hợp tất trường hợp khác có thể: tổng thể, định nhắm mục tiêu người tiêu dùng, xác suất mà họ phản hồi gì? Cái xác suất mà họ khơng làm? Điều không nhắm mục tiêu người tiêu dùng, họ trả lời chưa? May mắn thay, bạn nhớ lại, chúng tơi có số lượng cần thiết để tính tốn tất điểm ma trận nhầm lẫn Mỗi oi tương ứng với ma trận hỗn loạn Ví dụ, xác suất liên quan đến cụ thể kết hợp người tiêu dùng dự đoán khuấy đảo thực không khuấy động? điều ước tính số lượng người tiêu dùng thử nghiệm rơi vào nhầm lẫn ô ma trận (Y, n), chia cho tổng số người tiêu dùng đặt thử nghiệm Hãy để Lốc qua tồn tính toán lợi nhuận dự kiến cấp độ tổng hợp (mơ hình), q trình tính tốn xác suất Hình 72 cho thấy sơ đồ tính tốn giá trị dự kiến bối cảnh cảm ứng đánh giá mơ hình Tại bên trái sơ đồ, phần đào tạo liệu lấy làm đầu vào cảm ứng thuật tốn, tạo mơ hình mà đánh giá Mơ hình áp dụng cho phần giữ (kiểm tra) liệu tính cho ô khác nhầm lẫn ma trận đo Hãy xem xét ví dụ cụ thể ma trận nhầm lẫn phân loại Bảng 7-4 Bảng 7-4 Một ma trận nhầm lẫn mẫu có số lượng Error rates Khi tính tốn giá trị dự kiến cho vấn đề kinh doanh, nhà phân tích thường phải đối mặt với câu hỏi: xác suất thực đến từ đâu? Khi đánh giá mơ hình liệu thử nghiệm, câu trả lời đơn giản: xác suất (có lỗi định) ước tính từ nàng tiên ma trận nhầm lẫn cách tính tốn tỷ lệ sai sót định xác Mỗi ô ma trận nhầm lẫn chứa đếm số lượng định tương ứng với kết hợp tương ứng (dự đốn, thực tế), mà chúng tơi biểu thị dạng đếm (h, a) (chúng sử dụng h cho giả thuyết p sử dụng) Để tính giá trị dự kiến, chúng tơi giảm số theo tỷ lệ xác suất ước tính, p (h,a) Chúng tơi làm điều cách chia số cho tổng số trường hợp: Dưới tính tốn tỷ lệ cho thống kê thô ma trận nhầm lẫn Các tỷ lệ ước tính xác suất mà chúng tơi sử dụng giá trị dự kiến tính tốn phương trình 7-1 Chi phí lợi ích Để tính tốn lợi nhuận dự kiến (nhớ lại phương trình 7-1), cần chi phí lợi ích giá trị với cặp định Chúng tạo thành mục ma trận lợi ích chi phí với kích thước (hàng cột) ma trận nhầm lẫn Tuy nhiên, ma trận lợi ích chi phí định, cặp (dự đốn, thực tế), chi phí lợi ích đưa định (xem Hình 7-3) Phân loại (dương tính thật phủ định) tương ứng với lợi ích b (Y, p) b (N, n) Phân loại khơng xác định (dương tính giả âm tính giả) tương ứng với lợi ích điểm B, b (Y, n) b (N, p), tương ứng, thực chi phí (lợi ích tiêu cực) thường gọi rõ ràng chi phí c (Y, n) c (N, p) Hình 7-3 Một ma trận lợi ích chi phí Mặc dù xác suất ước tính từ liệu, chi phí lợi ích thường khơng thể Chúng thường phụ thuộc vào thơng tin bên ngồi cung cấp thơng qua phân tích kết định bối cảnh vấn đề kinh doanh cụ thể Thật vậy, định chi phí lợi ích nhiều thời gian suy nghĩ Trong nhiều trường hợp họ định xác mà phạm vi gần Chương trở lại giải làm giá trị khơng biết xác Ví dụ: vấn đề khó khăn chúng tơi, thực đáng giá để giữ chân khách hàng? Giá trị phụ thuộc vào việc sử dụng điện thoại di động tương lai thay đổi nhiều khách hàng Có thể liệu khách hàng sử dụng trước hữu ích ước tính Trong nhiều trường hợp, chi phí lợi ích ước tính trung bình sử dụng thay chi phí cụ thể cá nhân lợi ích, để đơn giản cho việc xây dựng tính tốn vấn đề Vì vậy, chúng tơi bỏ qua tính tốn chi phí / lợi ích cụ thể khách hàng cho phần cịn lại ví dụ chúng tơi, trở lại Chương 11 Vì vậy, để trở lại với ví dụ tiếp thị mục tiêu Các chi phí lợi ích gì? Chúng tơi biểu thị tất giá trị dạng lợi ích, với chi phí lợi ích âm, chức chúng tơi định b (dự đốn, thực tế) Để đơn giản, tất số biểu thị đô la Một kết dương tính giả xảy phân loại người tiêu dùng người phản ứng có khả nhắm vào ấy, khơng trả lời Chúng tơi nói chi phí chuẩn bị gửi tài liệu tiếp thị chi phí cố định $ người tiêu dùng Lợi ích trường hợp âm: b (Y, n) = Một tiêu cực sai người tiêu dùng dự đốn khơng có khả phản hồi (vì khơng cung cấp sản phẩm), mua cung cấp Trong trường hợp này, không tiền chi tiêu khơng thu gì, b (N, p) = Một tích cực thực người tiêu dùng cung cấp sản phẩm mua Lợi ích trường hợp lợi nhuận từ doanh thu ($ 200) trừ chi phí liên quan đến sản phẩm (100 $) chi phí gửi thư (1 $), b (Y, p) = 99 Một tiêu cực thực người tiêu dùng không cung cấp thỏa thuận người khơng có mua nó cung cấp Lợi ích trường hợp khơng (khơng có lợi nhuận khơng có chi phí), b (N, n) = Các ước tính lợi ích chi phí tóm tắt ma trận lợi ích chi phí × 2, Hình 7-4 Lưu ý hàng cột giống ma trận nhầm lẫn chúng tơi, xác chúng tơi cần để tính tốn giá trị dự kiến chung cho mơ hình phân loại Hình 7-4 Một ma trận lợi ích chi phí cho ví dụ tiếp thị mục tiêu Đưa ma trận chi phí lợi ích, chúng nhân lên theo tế bào so với ma trận xác suất, sau tổng hợp thành giá trị cuối đại diện cho tổng lợi nhuận dự kiến Kết là: Sử dụng phương trình này, tính tốn so sánh lợi nhuận dự kiến cho nhiều mơ hình chiến lược nhắm mục tiêu khác Tất cần để tính tốn nhầm lẫn ma trận tập hợp trường hợp thử nghiệm để tạo ma trận lợi ích chi phí Phương trình đủ để so sánh phân loại, để Lôi tiếp tục theo đường xa chút, phép tính thay phương trình thường sử dụng thực tế Khung nhìn thay liên quan chặt chẽ với số kỹ thuật sử dụng để trực quan hóa phân loại hiệu suất (xem Chương 8) Hơn nữa, cách kiểm tra công thức thay thấy xác làm để đối phó với vấn đề so sánh mơ hình mà giới thiệu phần đầu chương, nơi nhà phân tích báo cáo số liệu thống kê hiệu suất dân số đại diện (nhưng không cân bằng) dân số khác sử dụng dân số cân Một cách phổ biến để thể lợi nhuận dự kiến yếu tố xác suất nhìn thấy lớp, thường gọi lớp trưởng Các lớp trưởng, p (p) p (n), định khả nhìn thấy trường hợp tích cực tiêu cực, tương ứng Bao toán cho phép tách rời ảnh hưởng cân giai cấp khỏi tiền đề sức mạnh trị mơ hình, thảo luận chi tiết Chương Một quy tắc xác suất là: Điều nói xác suất hai kiện khác xảy xác suất số chúng xảy nhân với xác suất xảy biết điều xảy Sử dụng quy tắc này, chúng tơi thể lại lợi nhuận dự kiến là: Bao gồm linh mục lớp p (y) p (n), có phương trình cuối cùng: Phương trình 7-2 Phương trình lợi nhuận dự kiến với linh mục p (p) p (n) bao gồm Từ mớ hỗn độn này, lưu ý có thành phần (phần đầu tiên) tương ứng đến lợi nhuận dự kiến từ ví dụ tích cực lợi nhuận khác (thứ hai) sponding cho lợi nhuận dự kiến từ ví dụ tiêu cực Mỗi có trọng số xác suất mà thấy loại ví dụ Vì vậy, ví dụ tích cực hiếm, đóng góp họ vào lợi nhuận dự kiến chung tương ứng nhỏ Trong công thức thay thế, đại lượng p (Y | p), p (Y | n), v.v tương ứng trực tiếp với tỷ lệ dương thực sự, tỷ lệ dương tính giả, v.v., tính trực tiếp từ ma trận nhầm lẫn (xem Sid Sidebar: Các số liệu đánh giá khác trang 203) ... khơng tốt mơ hình phân biệt tuyến tính cho vấn đề cụ thể? Làm mơ hình làm tốt đáng kể so với mơ hình sở, ví dụ người tiêu dùng chọn ngẫu nhiên nhắm mục tiêu? Có khả mơ hình đưa số định tốt so... hình đưa số định tốt so với mơ hình khác mơ hình Điều chúng tơi quan tâm là, tổng hợp, mơ hình làm tốt nào: giá trị kì vọng Hình 7-2 Một sơ đồ tính tốn giá trị dự kiến Và Σ đề cập đến phép nhân tổng... việc tổ chức suy nghĩ vấn đề phân tích liệu Cụ thể phân tách tư phân tích liệu thành (i) cấu trúc vấn đề, (ii) yếu tố phân tích trích xuất từ liệu (iii) yếu tố phân tích cần phải có từ nguồn khác