Nghiên cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư trong một số bài toán phân tích dữ liệu ngân hàng thương mại việt nam

62 4 0
Nghiên cứu ứng dụng các giải pháp khai phá dữ liệu đảm bảo tính riêng tư trong một số bài toán phân tích dữ liệu ngân hàng thương mại việt nam

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

NGÂN HÀNG NHÀ NƯỚC VIỆT NAM HỌC VIỆN NGÂN HÀNG - ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ NĂM 2019 NGHIÊN CỨU ỨNG DỤNG CÁC GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ TRONG MỘT SỐ BÀI TỐN PHÂN TÍCH DỮ LIỆU NGÂN HÀNG THƯƠNG MẠI VIỆT NAM MÃ SỐ: DTHV.02/2019 CHỦ NHIỆM ĐỀ TÀI: THS VŨ DUY HIẾN HÀ NỘI – 2020 NGÂN HÀNG NHÀ NƯỚC VIỆT NAM HỌC VIỆN NGÂN HÀNG - ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ NĂM 2019 NGHIÊN CỨU ỨNG DỤNG CÁC GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ TRONG MỘT SỐ BÀI TỐN PHÂN TÍCH DỮ LIỆU NGÂN HÀNG THƯƠNG MẠI VIỆT NAM MÃ SỐ: DTHV.02/2019 Chủ nhiệm đề tài: ThS VŨ DUY HIẾN Thư ký đề tài: ThS NGUYỄN DƯƠNG HÙNG Thành viên tham gia: TS ĐINH TRỌNG HIẾU ThS NGUYỄN THỊ THU TRANG HÀ NỘI – 2020 DANH SÁCH THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI STT Học hàm, học vị, Họ tên ThS Vũ Duy Hiến ThS Nguyễn Dương Hùng Vai trò Chức vụ, Đơn vị công tác Chủ nhiệm đề tài Giảng viên Khoa HTTTQL Thư ký đề tài Giảng viên Khoa HTTTQL TS Đinh Trọng Hiếu Thành viên Giảng viên Khoa HTTTQL ThS Nguyễn Thị Thu Trang Thành viên Giảng viên Khoa HTTTQL i MỤC LỤC DANH MỤC BẢNG BIỂU iv DANH MỤC HÌNH VẼ iv DANH MỤC CÁC CHỮ VIẾT TẮT v MỞ ĐẦU 1 Tính cấp thiết .1 Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu .2 Phương pháp nghiên cứu .3 Ý nghĩa khoa học thực tiễn .3 Kết cấu đề tài .3 CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU 1.1 Tổng quan lĩnh vực phân tích khai phá liệu đảm bảo tính riêng tư 1.1.1 Giới thiệu 1.1.2 Các dạng bài toán khai phá liệu đảm bảo tính riêng tư 1.1.3 Các hướng tiếp cận khai phá liệu đảm bảo tính riêng tư 1.2 Cơ sở kỹ thuật khai phá và phân tích liệu đảm bảo tính riêng tư 1.2.1 Cơ sở khai phá liệu học máy 1.2.2 Cơ sở mật mã học 15 1.2.3 Tính tốn bảo mật nhiều thành viên 19 1.3 Một số kỹ thuật khai phá liệu đảm bảo tính riêng tư và phân tích, đánh giá 22 1.3.1 Các nghiên cứu đảm bảo tính riêng tư cho thuật toán định ID3 23 1.3.2 Các nghiên cứu đảm bảo tính riêng tư cho tḥt tốn phân lớp Naïve Bayes .25 CHƯƠNG THỰC TRẠNG BẢO VỆ THÔNG TIN RIÊNG TƯ TRONG HOẠT ĐỘNG PHÂN TÍCH DỮ LIỆU NGÂN HÀNG 27 2.1 Các nghiên cứu đảm bảo tính riêng tư cho hoạt động phân tích, khai phá liệu ngân hàng giới 27 2.2 Thực trạng hoạt động phân tích liệu ngân hàng ở Việt Nam vấn đề bảo vệ thông tin riêng tư liệu 29 ii CHƯƠNG 3: ỨNG DỤNG GIẢI PHÁP KHAI PHÁ DỮ LIỆU ĐẢM BẢO TÍNH RIÊNG TƯ CHO MỘT SỐ BÀI TOÁN PHÂN TÍCH DỮ LIỆU NGÂN HÀNG 37 3.1 Giải pháp đảm bảo tính riêng tư cho bài tốn xếp hạng tín dụng khách hàng ngân hàng .37 3.1.1 Giải pháp đảm bảo tính riêng tư liệu khách hàng bài toán xếp hạng tín dụng khách hàng dựa mơ hình thẻ điểm 38 3.1.2 Giải pháp đảm bảo tính riêng tư liệu khách hàng bài tốn xếp hạng tín dụng dựa mơ hình học máy định ID3 .40 3.2 Giải pháp đảm bảo tính riêng tư liệu khách hàng toán dự báo quan tâm khách hàng dịch vụ ngân hàng sử dụng kỹ thuật Naive Bayes 43 3.2.1 Giới thiệu 43 3.2.2 Phát biểu toán 43 3.2.3 Mơ tả thuộc tính 44 3.2.4 Giải pháp đề xuất 46 3.2.5 Chứng minh tính đắn 47 3.2.6 Phân tích tính riêng tư 47 3.2.7 Thực nghiệm .47 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 iii DANH MỤC BẢNG BIỂU Bảng Các dạng bài toán PPDM và phương pháp tiếp cận Bảng Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân không kinh doanh ngân hàng Vietcombank 29 Bảng Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân khơng kinh doanh ngân hàng Techcombank .31 Bảng Chỉ tiêu chấm điểm xếp hạng tín dụng cá nhân khơng kinh doanh ngân hàng BIDV .32 DANH MỤC HÌNH VẼ Hình Mơ hình phân tích liệu truyền thống .4 Hình Phương pháp tiếp cận cho toán PPDM Hình Hai cách tiếp cận khai phá liệu đảm bảo tính riêng tư .8 Hình Một ví dụ đơn giản định 10 Hình Thuật toán Shank’s baby-step giant-step 18 Hình Biến thể thuật toán Shank’s baby-step giant-step dựa mật mã đường cong elliptic 18 Hình Giao thức tính tích vơ hướng bí mật Goethals cộng 20 Hình Giao thức tính tổng bí mật Hao cộng .21 Hình Giải pháp bảo vệ thông tin riêng tư khách hàng trình xếp hạng tín dụng sử dụng mơ hình thẻ điểm 40 Hình 10 Mơ hình phân tích liệu 41 Hình 11 Giải pháp đảm bảo tính riêng tư cho bài tốn xếp hạng tín dụng sử dụng kỹ tḥt phân lớp ID3 42 Hình 12 Giải pháp đảm bảo tính riêng tư cho bài tốn dự báo quan tâm dịch vụ tiền gửi khách hàng sử dụng kỹ thuật phân lớp Naïve Bayes 47 iv DANH MỤC CÁC CHỮ VIẾT TẮT Ý nghĩa đầy đủ Chữ viết tắt TC-NH Tài chính-Ngân hàng NHTM Ngân hàng thương mại TCTD Tổ chức tín dụng PPDM Pháp khai phá liệu đảm bảo tính riêng tư (privacy-preserving data mining) SMC Tính tốn bảo mật nhiều thành viên (secure multi-party computation) ID3 Iterative Dichotomiserán CNTT Công nghệ thông tin v MỞ ĐẦU Tính cấp thiết Trong kinh tế thị trường, hệ thống ngân hàng thương mại (NHTM) ví mạch máu kinh tế, giúp vận hành dòng vốn đầu tư và là nơi thực sách tiền tệ, giúp nhà nước điều hành kinh tế Để hỗ trợ hoạt động kinh doanh và đạt lợi cạnh tranh kỷ nguyên số nay, NHTM giới nói chung Việt Nam nói riêng ln ý thức vai trị quan trọng hoạt động phân tích liệu ứng dụng kết hoạt động này để giải số tốn nghiệp vụ điển hình: phân khúc khách hàng, chấm điểm tín dụng, quảng bá sản phẩm dịch vụ phát gian lận Tuy nhiên, q trình phân tích liệu ngân hàng ở Việt Nam thường xuyên phải sử dụng thông tin riêng tư nhạy cảm khách hàng, ví dụ như: thu nhập cá nhân, tài sản sở hữu, gói bảo hiểm nhân thọ đầu tư Điều gây nên ba vấn đề sau: - Thứ nhất, nhiều trường hợp, khách hàng e ngại cung cấp cho ngân hàng thơng tin mang tính chất riêng tư nhạy cảm - Thứ hai, trình lưu trữ khai thác liệu chứa thông tin riêng tư nhạy cảm khách hàng ngân hàng gặp phải nhiều rủi ro tiềm ẩn bởi liệu ngân hàng đích ngắm ưa thích tội phạm mạng - Thứ ba, liệu ngân hàng chứa thông tin riêng tư nhạy cảm nên hầu hết NHTM không sẵn sàng công bố rộng rãi để phục vụ mục đích nghiên cứu nâng cao chất lượng phân tích liệu Điều này hoàn toàn dễ hiểu bởi việc quản lý, khai thác, chia sẻ liệu phải tuân thủ điều luật An ninh mạng, Cơng nghệ thơng tin, Tổ chức tín dụng, Giao dịch điện tử và thông tư quy định đảm bảo an tồn, bảo mật hệ thống cơng nghệ thơng tin hoạt động ngân hàng Ngân hàng Nhà nước Hơn nữa, yếu tố cạnh tranh NHTM là nguyên nhân dẫn đến vấn đề thứ ba Vì vậy, việc nghiên cứu ứng dụng giải pháp kỹ thuật tiên tiến để khai thác, phân tích liệu ngân hàng khơng sử dụng trực tiếp không lưu trữ liệu chứa thông tin riêng tư nhạy cảm khách hàng có ý nghĩa NHTM ở Việt Nam Xuất phát từ lý này, nhóm nghiên cứu định lựa chọn đề tài “Nghiên cứu ứng dụng giải pháp khai phá liệu đảm bảo tính riêng tư số tốn phân tích liệu ngân hàng thương mại Việt Nam” Mục tiêu nghiên cứu Mục tiêu đề tài bao gồm mục tiêu tổng quát mục tiêu cụ thể sau: - Mục tiêu tổng quát: nghiên cứu ứng dụng giải pháp khai phá liệu đảm bảo tính riêng tư (privacy-preserving data mining-PPDM) hiệu cho số tốn phân tích liệu điển hình NHTM ở Việt Nam - Mục tiêu cụ thể: dựa phương pháp tiếp cận lĩnh vực tính tốn bảo mật nhiều thành viên (secure multi-party computation-SMC), đề tài đề xuất giải pháp khai phá liệu đảm bảo tính riêng tư cho hai tốn tốn phân tích liệu điển hình NHTM ở Việt Nam: xếp hạng (chấm điểm) tín dụng khách hàng sử dụng mơ hình thẻ điểm mơ hình phân lớp liệu dự báo mức độ quan tâm khách hàng dịch vụ tiền gửi có kỳ hạn Đối tượng phạm vi nghiên cứu Đề tài có đối tượng nghiên cứu chính: - Các giao thức SMC bật dựa mật mã học - Các kỹ thuật PPDM phổ biến dựa SMC - Những bài tốn phân tích liệu ngân hàng điển hình NHTM/TCTD ở Việt Nam có sử dụng thông tin riêng tư nhạy cảm khách hàng Với toán ứng dụng cụ thể thực đề tài, phạm vi nghiên cứu giới hạn khuôn khổ hoạt động NHTM ở Việt Nam bối cảnh Nội dung nghiên cứu Nội dung nghiên cứu trình bày đề tài bao gồm: - Nghiên cứu lựa chọn giải pháp hiệu để bảo vệ thông tin riêng tư cho mơ hình xếp hạng (chấm điểm) tín dụng khách hàng sử dụng phương pháp thẻ điểm - Nghiên cứu lựa chọn giải pháp PPDM hiệu cho định ID3 ứng dụng tốn xếp hạng tín dụng khách hàng - Nghiên cứu lựa chọn giải pháp PPDM hiệu cho kỹ thuật phân lớp liệu Naïve Bayes ứng dụng toán dự báo mức độ quan tâm khách hàng dịch vụ tiền gửi có kỳ hạn dựa việc khảo sát khách hàng mà ngân hàng tiếp thị Phương pháp nghiên cứu Đề tài thực dựa kết hợp phương pháp nghiên cứu phân tích, tổng hợp kết hợp với tiến hành thực nghiệm Cụ thể, phương pháp nghiên cứu phân tích, tổng hợp áp dụng để phân tích so sánh, đánh giá kỹ tḥt tính tốn, tìm kỹ tḥt tính tốn phù hợp, đề xuất, xây dựng giải pháp cho toán ứng dụng cần giải Sau đó, phương pháp nghiên cứu thực nghiệm sử dụng để đánh giá mức độ hiệu khả ứng dụng thực tiễn giải pháp đề xuất Ý nghĩa khoa học thực tiễn - Ý nghĩa khoa học: mặt lý thuyết, đề tài cung cấp cách tiếp cận cho hoạt động phân tích liệu ngân hàng NHTM ở Việt Nam, cụ thể đó là phương pháp khai phá liệu ngân hàng với ràng buộc bảo vệ bí mật thơng tin riêng tư nhạy cảm có liệu - Ý nghĩa thực tiễn: xuất phát từ yêu cầu thực tế phân tích, giải pháp đề xuất đề tài nghiên cứu này đáp ứng khả bảo vệ bí mật liệu chứa thông tin riêng tư nhạy cảm kết phân tích liệu khơng bị ảnh hưởng Kết cấu đề tài Ngoài phần mở đầu kết luận, đề tài gồm ba chương chính: - Chương 1: Tổng quan vấn đề nghiên cứu - Chương 2: Thực trạng bảo vệ thông tin riêng tư hoạt động phân tích liệu ngân hàng - Chương 3: Ứng dụng giải pháp khai phá liệu đảm bảo tính riêng tư cho số bài tốn phân tích liệu ngân hàng DB Lytix on Sybase IQ thường xuyên sử dụng nhằm xếp hạng tín dụng khách hàng (Dũng, 2016) Do đó, nghiên cứu này, đề tài tập trung đề xuất giải pháp bảo vệ tính riêng tư liệu q trình xây dựng mơ hình xếp hạng tín dụng khách hàng sử dụng kỹ thuật định ID3 Thêm vào nữa, mơ hình liệu xem xét ở là phân tán đầy đủ (mỗi đối tác/khách hàng sở hữu ghi liệu) bởi mô hình này đòi hỏi cao yêu cầu đảm bảo an toàn cho thông tin riêng tư khách hàng Những đóng góp nội dung tập trung ở hai vấn đề sau: (1) Cải tiến giải pháp phân lớp liệu ID3 có đảm bảo tính riêng tư cách áp dụng giao thức tính tốn an tồn giá trị tần suất nhiều thành viên (PPFM) hiệu (Vu, Luong, Ho, & Nguyen, 2018) (2) Ứng dụng giải pháp đề xuất xây dựng công cụ xếp hạng tín dụng khách hàng bảo vệ riêng tư khách hàng hợp tác cung cấp liệu 3.1.2.1 Mơ hình phân tích liệu Trong mơ hình phân tích liệu mơ tả ở Hình 10, giả sử có 𝑛 khách (1) (𝑚) hàng {𝑈1 , … , 𝑈𝑛 } đó 𝑈𝑖 sở hữu ghi (𝑢𝑖 , … , 𝑢𝑖 (𝑗) , 𝑙𝑖 ) với 𝑢𝑖 thuộc tính độc lập 𝑙𝑖 nhãn thuộc tập hạng tín dụng {𝐿1 , … , 𝐿𝑘 } Mỗi ghi bao gồm thuộc tính riêng tư nhạy cảm cần giữ bí mật thuộc tính cơng khai Một bên X (có thể ngân hàng nhà khoa học liệu) cần xây dựng mơ hình xếp hạng tín dụng sử dụng định ID3 dựa 𝑛 ghi khách hàng không tiết lộ thuộc tính riêng tư, nhạy cảm Hình 10 Mơ hình phân tích liệu 41 3.1.2.2 Giải pháp đề xuất Giải pháp lấy ý tưởng từ giải pháp trình bày (Yang, Zhong, & Wright, 2005) Chi tiết q trình huấn luyện mơ hình phân lớp ID3 mô tả cụ thể hình Lưu ý rằng, tính tốn thuộc tính cơng khai X tự tính tốn mà không cần sử dụng tới giao thức PPFM (Vu, Luong, Ho, & Nguyen, 2018) Input: 𝑛 khách hàng, khách hàng sở hữu ghi liệu Output: mơ hình xếp hạng tín dụng sử dụng phân lớp ID3 Giải tḥt huấn luyện mơ hình phân lớp ID3  Ở nút (thuộc tính) cây, thuật toán thực sau:  X 𝑛 người dùng sử dụng giao thức PPFM (Vu, Luong, Ho, & Nguyen, 2018) để tính số ghi thỏa mãn theo nhánh xét #𝑐𝑢𝑟𝑟𝑒𝑛𝑡  Xét thuộc tính 𝐴𝑖 “riêng tư nhạy cảm” cịn lại: o Với đặc trưng từ đến 𝑘𝑖 thuộc tính 𝐴𝑖 : X 𝑛 người dùng sử dụng giao thức PPFM (Vu, Luong, Ho, & Nguyen, 2018) để tính giá trị: 𝐿 𝐿 𝑘 )  (#1|𝑐𝑢𝑟𝑟𝑒𝑛𝑡 , #1|𝑐𝑢𝑟𝑟𝑒𝑛𝑡 , … , #1|𝑐𝑢𝑟𝑟𝑒𝑛𝑡  … 𝐿 𝐿  (#𝑘𝑖 |𝑐𝑢𝑟𝑟𝑒𝑛𝑡 , #𝑘1𝑖 |𝑐𝑢𝑟𝑟𝑒𝑛𝑡 , … , #𝑘𝑘𝑖 |𝑐𝑢𝑟𝑟𝑒𝑛𝑡 ) o X tính: 𝑘𝑖 𝑘 𝑗=1 𝑡=1 𝐿 𝐿 𝑡 𝑡 #𝑗|𝑐𝑢𝑟𝑟𝑒𝑛𝑡 #𝑗|𝑐𝑢𝑟𝑟𝑒𝑛𝑡 #𝑗|𝑐𝑢𝑟𝑟𝑒𝑛𝑡 𝐻 (𝐴𝑖 , 𝑐𝑢𝑟𝑟𝑒𝑛𝑡 ) = − ∑( (∑ 𝑙𝑜𝑔 )) #𝑐𝑢𝑟𝑟𝑒𝑛𝑡 #𝑗|𝑐𝑢𝑟𝑟𝑒𝑛𝑡 #𝑗|𝑐𝑢𝑟𝑟𝑒𝑛𝑡  X xác định thuộc tính chọn  Thực thỏa mãn điều kiện dừng thuật toán Hình 11 Giải pháp đảm bảo tính riêng tư cho bài tốn xếp hạng tín dụng sử dụng kỹ thuật phân lớp ID3 42 3.1.2.3 Chứng minh tính đắn Mục tiêu phần chứng minh giải pháp đề xuất cho kết hoàn toàn trùng khớp với phương pháp xây dựng mơ hình từ nguồn liệu tập trung truyền thống Quan sát giải pháp trình bày ở Hình 9, dễ dàng nhận thấy là tổ hợp giao thức đắn PPFM (Vu, Luong, Ho, & Nguyen, 2018) Do đó, giá trị tần suất bắt đầu bởi ký hiệu # tính Vì vậy, giải pháp đề xuất huấn luyện cho mơ hình xếp hạng tín dụng sử dụng định ID3 hoàn toàn trùng khớp với phương pháp truyền thống 3.1.2.4 Phân tích tính riêng tư Như phân tích ở trên, giải pháp trình bày ở hình tổ hợp giao thức PPFM Trên sở định lý kết hợp (composition theorem) Goldreich (Goldreich, 2004) tính riêng tư giao thức PPFM chứng minh cơng trình (Vu, Luong, Ho, & Nguyen, 2018), giải pháp đề xuất bảo vệ tính riêng tư liệu khách hàng chống lại tới (𝑛 − 2) thành viên thông đồng với X 3.2 Giải pháp đảm bảo tính riêng tư liệu khách hàng toán dự báo quan tâm khách hàng dịch vụ ngân hàng sử dụng kỹ thuật Naive Bayes 3.2.1 Giới thiệu Trong phần này, đề tài ứng dụng kỹ thuật phân lớp liệu Nạve Bayes có đảm bảo tính riêng tư dựa giao thức tính tốn an tồn giá trị tần suất nhiều thành viên hiệu (Vu, Luong, Ho, & Nguyen, 2018) để xây dựng công cụ dự báo mức độ quan tâm khách hàng tới dịch vụ tiền gửi ngân hàng bảo vệ riêng tư khách hàng hợp tác cung cấp liệu Giải pháp đề xuất ở gợi ý hữu ích cho NHTM ở Việt Nam mong muốn triển khai hoạt động quảng bá dịch vụ tiền gửi qua kênh viễn thông di động Sau đó, để chứng minh khả triển khai ứng dụng giải pháp đề xuất, thực số thí nghiệm tính tốn liệu thật lấy từ nguồn (Moro, Cortez, & Rita, 2014) 3.2.2 Phát biểu toán Phần xem xét toán dự báo mức độ quan tâm khách hàng dịch vụ tiền gửi có kỳ hạn sử dụng kết chiến dịch tiếp thị khách hàng mà ngân hàng thực trước đó Dựa mơ hình hợp tác này, ngân hàng xây dựng công cụ dự 43 báo từ phân lớp Naive Bayes khách hàng bảo vệ liệu riêng tư Mơ hình phân tích liệu bài toán này hoàn toàn tương tự với tốn xếp hạng tín dụng khách hàng sử dụng định ID3: có 𝑛 khách hàng {𝑈1 , … , 𝑈𝑛 } (1) (𝑚) đó 𝑈𝑖 sở hữu ghi (𝑢𝑖 , … , 𝑢𝑖 (𝑗) , 𝑙𝑖 ) với 𝑢𝑖 thuộc tính độc lập 𝑙𝑖 nhãn thuộc tập {Có, Không} Mỗi ghi bao gồm thuộc tính riêng tư nhạy cảm cần giữ bí mật thuộc tính cơng khai Để dự đốn khách hàng có quan tâm dịch vụ tiền gửi có kỳ hạn hay khơng, bên thực nhiệm vụ khai phá liệu (ký hiệu X) xây dựng phân lớp Naive Bayes dựa vào 𝑛 ghi khách hàng không tiết lộ thơng tin riêng tư nắm giữ 3.2.3 Mơ tả thuộc tính Để minh họa cho tốn tiếp thị dịch vụ ngân hàng mô tả ở trên, đề tài sử dụng liệu chiến dịch tiếp thị trực tiếp (qua điện thoại) cho dịch vụ gửi tiền có kỳ hạn Ngân hàng Bồ Đào Nha (Moro, Cortez, & Rita, 2014) Bộ liệu công bố định dạng văn (file: *.csv), có 41188 ghi (tương ứng với 41188 khách hàng), có 16 thuộc tính đầu vào, thuộc tính đầu (nhãn/biến phụ thuộc) Các liệu ghi nhận khoảng thời gian từ tháng 05/2008 đến 11/2010 Các thuộc tính gồm có: Các thuộc tính liên quan đến khách hàng: – age: tuổi (kiểu số) - job: loại công việc (nhận giá trị: ‘admin.', 'bluecollar', 'entrepreneur', 'housemaid', 'management', 'retired', 'self-employed', 'services', 'student', 'technician', 'unemployed', 'unknown') - marital: tình trạng hôn nhân ('divorced', 'married', 'single', 'unknown') - education: trình độ học vấn ('basic.4y', 'basic.6y', 'basic.9y', 'high.school', 'illiterate', 'professional.course', 'university.degree', 'unknown') - default: có tín dụng mặc định hay không? ('no','yes','unknown') - balance: số dư tài khoản (kiểu số) - housing: có khoản vay mua nhà hay khơng?? ('no', 'yes', 'unknown') - loan: có khoản vay cá nhân hay không? (categorical: 'no','yes','unknown') 44 Đây là thông tin riêng tư nhạy cảm mà X cần thực tính tốn “an toàn” đó để xây dựng phân lớp không xâm phạm tới chúng Các thuộc tính cơng khai bao gồm: Các thuộc tính liên quan đến lần liên lạc gần chiến dịch tiếp thị diễn ra: - contact: phương tiện liên lạc ('cellular','telephone') 10 - month: tháng năm lần liên lạc gần ('jan', 'feb', 'mar', , 'nov', 'dec') 11 - day: ngày tuần lần liên lạc gần ( 'mon', 'tue', 'wed', 'thu', 'fri') 12 - duration: thời lượng lần liên lạc gần nhất, đơn vị giây (kiểu số) Các thuộc tính khác: 13 - campaign: số gọi thực với khách hàng chiến dịch (kiểu số) 14 - pdays: số ngày trôi qua sau khách hàng liên hệ lần cuối từ chiến dịch trước đó (kiểu số; giá trị -1 gán cho khách hàng chưa liên lạc trước đó) 15 - previous: số lượng gọi thực trước chiến dịch cho khách hàng (kiểu số) 16 - poutcome: kết chiến dịch tiếp thị trước đó ('failure', 'nonexistent', 'success') Biến đầu (thuộc tính mục tiêu): 17 - y – khách hàng gửi tiền có kỳ hạn chưa? ('yes', 'no') Trong đó, thuộc tính: age, balance, duration, campaign, pdays, previous kiểu số; biến đầu y có kiểu nhị phân; tất thuộc tính cịn lại có kiểu rời rạc (category) Để áp dụng tḥt tốn Nạve Bayes, trước tiên cần thực rời rạc hóa biến kiểu số Cụ thể, thực phép biến đổi: - Biến đổi age thành age_d: với tuổi 20; với tuổi từ 20 đến 25; với tuổi từ 20 đến 25; với tuổi từ 36-55; với tuổi từ 56 đến 60; với tuổi 60 45 - Biến đổi balance thành balance_d: -1 với balance

Ngày đăng: 15/12/2023, 00:49

Tài liệu cùng người dùng

Tài liệu liên quan