Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
1,53 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - HOÀNG MẠNH HƯNG ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2021 download by : skknchat@gmail.com HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - HOÀNG MẠNH HƯNG ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS TRẦN QUANG ANH HÀ NỘI - 2021 download by : skknchat@gmail.com LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Nội dung luận văn có tham khảo sử dụng số thơng tin, tài liệu từ nguồn sách, tạp chí đƣợc liệt kê danh mục tài liệu tham khảo đƣợc trích dẫn hợp pháp Tơi cam đoan thực việc kiểm tra mức độ tƣơng đồng nội dung luận văn qua phần mềm DoIT cách trung thực đạt kết tƣơng đồng 8% toàn nội dung luận văn Bản luận văn kiểm tra qua phần mềm cứng luận văn nộp để bảo vệ trƣớc hội đồng Nếu sai xin chịu hình thức kỷ luật theo quy định hành học viện Hà Nội, ngày 17 tháng năm 2021 Học viên cao học Hoàng Mạnh Hưng download by : skknchat@gmail.com LỜI CÁM ƠN Em xin gửi lời cảm ơn tri ân tới thầy cô giáo, cán Học viện Cơng nghệ Bƣu Viễn thông giúp đỡ, tạo điều kiện tốt cho em trình học tập nghiên cứu chƣơng trình Thạc sĩ Em xin gửi lời cảm ơn sâu sắc tới PGS TS Trần Quang Anh tận tình hƣớng dẫn, giúp đỡ động viên em để hoàn thành tốt Luận văn “ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG” Do vốn kiến thức lý luận kinh nghiệm thực tiễn cịn chƣa đủ sâu rộng nên luận văn khơng tránh khỏi thiếu sót định Em xin trân trọng tiếp thu ý kiến thầy, cô để luận văn đƣợc hoàn thiện Trân trọng cám ơn Tác giả Hoàng Mạnh Hưng download by : skknchat@gmail.com MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG LỜI CÁM ƠN CHƢƠNG – TỔNG QUAN NGHIÊN CỨU 1.1 Mô tả chung nghiên cứu 1.1.1 Giới thiệu 1.1.2 Đặt vấn đề giải toán 1.2 Các đặc điểm liệu nhà mạng 1.2.1 Giới thiệu liệu nhà mạng 1.2.2 Khối lƣợng liệu lớn phức tạp 1.2.3 Dữ liệu đa dạng trùng lặp 1.2.4 Tập liệu không cân 1.2.5 Giá trị bị 1.2.6 Giá trị cố định 1.3 Phân nhóm nghề nghiệp liệu mẫu 1.3.1 Lý thuyết chọn mẫu 1.3.2 Mẫu nghiên cứu 1.4 Kết luận CHƢƠNG – MỘT SỐ THUẬT TOÁN HỌC MÁY LIÊN QUAN 2.1 Cây định 2.2 Rừng ngẫu nhiên 11 2.3 Mơ hình tuyến tính tổng qt 12 2.3 Các thuật toán Boosting 14 2.3.1 Phát biểu toán 14 download by : skknchat@gmail.com 2.3.2 Boosting 15 2.3.3 Gradient descent 15 2.3.4 Kết hợp hai hƣớng tiếp cận 16 2.3.5 Thuật toán Gradient boosting (GBM) 16 2.3.6 Triển khai thuật toán XGBoost 17 2.4 Đánh giá mơ hình 19 2.4.1 Độ đo dùng phân loại 19 2.4.2 ROC AUC 21 2.4.3 Đánh giá mơ hình kiểm tra chéo 22 2.5 Kết luận 24 CHƢƠNG - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN NHÓM NGHỀ NGHIỆP 25 3.1 Mơ hình đề xuất 25 3.2 Xử lý liệu 25 3.2.1 Các bảng liệu 25 3.2.2 Xây dựng đặc trƣng 32 3.2.2 Trích chọn đặc trƣng 35 3.3 Thực nghiệm kết 37 3.4 Kết luận 43 KẾT LUẬN 44 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 45 LỜI CAM ĐOAN download by : skknchat@gmail.com DANH MỤC CÁC TỪ VIẾT TẮT Kí hiệu Nghĩa kí hiệu Nghĩa tiếng Việt Artificial Neural Network Mạng nơ-ron nhân tạo DT Decision Tree Cây định RF Random Forest Rừng ngẫu nhiên DRF Distributed Random Forest Rừng ngẫu nhiên phân tán XRT Extremely Randomized Trees Cây ngẫu nhiên GBM Gradient Boosting Machines Máy tăng cƣờng độ dốc GLM Generalized Linear Model Mô hình tuyến tính tổng qt XGBoost Extreme Gradient Boosting Máy tăng cƣờng độ dốc cao AUC Area Under The Curve Diện tích dƣới đƣờng cong ROC Receiver Operating Characteristic Đƣờng cong đặc trƣng HDFS Hadoop Distributed File System Hệ thống tệp phân tán Hadoop Extract, Transform and Load Trích xuất biến đổi tải ANN ETL liệu vào kho tập trung World wide web Mạng toàn cầu CDR Call Detail Records Các ghi chi tiết gọi CRM Customer Relationship Hệ thống quản lý quan hệ khách WWW Management hàng SMS Short Message Services Dịch vụ tin nhắn MMS Multimedia Messaging Service Dịch vụ tin nhắn đa phƣơng tiện VAS Value Added Services Dịch vụ giá trị gia tăng ATTT An tồn thơng tin download by : skknchat@gmail.com DANH MỤC CÁC HÌNH Số hiệu Tên hình Trang Hình 2.1 Mơ hình diểu diễn định 10 Hình 2.2 Mơ hình biểu diễn rừng ngẫu nhiên 12 Hình 2.3 Mơ hình XGBoost 17 Hình 2.4 Đƣờng cong ROC AUC 22 Hình 3.1 Quy trình đánh giá mơ hình 37 Hình 3.2 Đƣờng cong ROC validation 39 Hình 3.3 Đƣờng cong ROC cho mẫu kiểm thử 40 Hình 3.4 Top đặc trƣng theo độ quan trọng 40 Hình 3.5 Biểu đồ histogram 42 download by : skknchat@gmail.com DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang Bảng 2.1 Ma trận lỗi 20 Bảng 3.1 Bảng call sms 25 Bảng 3.2 Bảng balance 27 Bảng 3.3 Bảng consume 28 Bảng 3.4 Bảng g22 29 Bảng 3.5 Bảng recharge 30 Bảng 3.6 Bảng loan 30 Bảng 3.7 Bảng vas_2g3g vas_mps 31 Bảng 3.8 Bảng tổ hợp đặc trƣng 33 Bảng 3.9 Bảng mô tả đặc trƣng 37 Bảng 3.10 Danh sách thuật toán triển khai 38 Bảng 3.11 Ma trận nhầm lẫn thực dự đoán mẫu kiểm thử 39 download by : skknchat@gmail.com CHƯƠNG – TỔNG QUAN NGHIÊN CỨU 1.1 Mô tả chung nghiên cứu 1.1.1 Giới thiệu Việc xác định đƣợc khách hàng là mối quan tâm hàng đầu nhà cung cấp sản phẩm dịch vụ bán hàng Nhờ xác định đƣợc chân dung khách hàng mà doanh nghiệp đạt đƣợc hiệu tối đa thực chiến dịch quảng bá sản phẩm, nhắm vào đối tƣợng cụ thể có cách tiếp cận hợp lý Các nhà quảng cáo có sở để định quảng cáo có nội dung nhƣ nào, đặt đâu, thời gian để tiếp cận đƣợc tập khách hàng tối đa Có nhiều biện pháp để xác định rõ ràng tranh hoàn chỉnh chân dung khách hàng, nhƣng nghiên cứu tập trung vào việc xác định chân dung khách hàng từ tập th bao viễn thơng Đóng góp cơng việc tơi phát triển mơ hình dự đoán nghề nghiệp thuê bao di động, giúp nhà khai thác viễn thơng dự đốn đƣợc đối tƣợng khách hàng mình, từ đƣa gói sản phẩm phù hợp nhƣ cung cấp dịch vụ giá trị gia tăng khác để thu hút nhƣ giữ chân khách hàng, gia tăng lợi nhuận doanh nghiệp Mơ hình đƣợc phát triển nghiên cứu sử dụng kĩ thuật học máy cho mục đích phân lớp nhị phân dựa liệu đặc trƣng đƣợc xây dựng từ toàn ghi chi tiết gọi, sử dụng dịch vụ để dự đoán thuê bao có sinh viên hay khơng Để đo lƣờng hiệu suất mơ hình, thƣớc đo tiêu chuẩn AUC đƣợc sử download by : skknchat@gmail.com 34 - max dùng consume_min_origin - avg - voice_cost: cƣớc _cost - origin: tk thoại - internal: nội mạng - sms_cost: cƣớc _external - external: ngoại mạng sms consume_min_origin _voice_cost - international: quốc tế g22 … - ips : số ip - hours: số ghi g22_dates - up_data: tổng up nhận - download_data: tổng down - dates: số ngày g22_h22_total_data - total_data: tổng sử dụng ghi nhận - charge: số tiền - g22_h00_down_data số months: - zero_charges: số lần charge tháng ghi nhận =0 - non_zero_charge: số lần charge > recharge - {party_code}: nguồn nạp - times: số lần nạp recharge_times thẻ - charge: số tiền recharge_hours - bổ sung thêm khung nạp thời gian - recharge_mmlserver_ hours, dates, hours months: thời gian loan - loan: tiền vay times, - pay: tiền trả hours dates, loan_loan_months loan_pay_money - diff: chênh lệch vay trả loan_pay_times - bổ sung khung thời gian loan_h07_diff_money vas_2g3g - charge: tiền sử dụng dịch vụ times, vas_mps - services: dịch vụ - months dates, vas_2g3g_charge vas_2g3g_weekday_c download by : skknchat@gmail.com 35 providers: nhà cung cấp harge - bổ sung khung thời gian vas_2g3g_times vas_mps_months vas_mps_dates imei - bổ sung khung thời gian tac - tacs: số mã tac times, imei_dates dates, imei_weekday_hours months, hours tac_weekday_tacs tac_weekday_dates Trên tổ hợp để tạo đặc trƣng cho bảng Ngồi ra, tơi cịn kết hợp thêm số bảng trích dẫn khác đƣợc tạo từ bảng để bổ sung thêm mối liên kết thông tin Các đặc trƣng đƣợc phân nhỏ theo khung thời gian để phát thói quen sử dụng ngƣời dùng, từ có đặc trƣng mạnh mẽ cho đối tƣợng cụ thể Kết quả, xây dựng đƣợc 5000 đặc trƣng để phục vụ cho bƣớc tốn 3.2.2 Trích chọn đặc trưng Trong bƣớc trƣớc, tập hợp đƣợc 5000 đặc trƣng tất Tuy nhiên học máy, nhiều đặc trƣng độ xác cao, mà ngƣợc lại cịn gây nhiễu khiến trình học máy tốn thời gian thiếu xác Vì vậy, tơi phải rút gọn bớt đặc trƣng mà đảm bảo đƣợc tính hiệu mơ hình Tơi sử dụng phƣơng pháp trọng số dấu hiệu (WOE - weight of evidence) để trích chọn đặc trƣng Phƣơng pháp xếp hạng đặc trƣng thành mạnh, trung bình, yếu, khơng tác động,… dựa khả năng, sức mạnh dự đoán Tiêu chuẩn xếp hạng số giá trị thơng tin IV (information value) đƣợc tính tốn từ phƣơng pháp WOE Đồng thời mơ hình tạo giá trị features cho biến Giá trị download by : skknchat@gmail.com 36 đo lƣờng khác biệt phân phối good bad Phƣơng pháp WOE có kĩ thuật xử lý khác biệt biến liên tục biến phân loại: - Trƣờng hợp biến liên tục, WOE gán nhãn cho quan sát theo nhãn giá trị bins mà thuộc Các bins khoảng liên tiếp đƣợc xác định từ biến liên tục cho số lƣợng quan sát bin Để xác định bins ta cần xác định số lƣợng bins Chúng ta hình dung đầu mút khoảng bins quantile - Trƣờng hợp biến phân loại, WOE cân nhắc class bin nhóm vài nhóm có số lƣợng quan sát vào bin Ngoài mức độ chênh lệch phân phối good/bad đƣợc đo lƣờng thơng qua số WOE đƣợc sử dụng để nhận diện nhóm có tính chất phân loại Nếu giá trị WOE chúng gần chúng đƣợc nhóm vào nhóm Ngồi ra, trƣờng hợp Null đƣợc coi nhóm riêng biệt số lƣợng đáng kể nhóm vào nhóm khác thiểu số Ta tính WOE = Trong nghiên cứu ngày, coi Good nhãn giá trị sinh viên, bad nhãn giá trị sinh viên Giá trị thông tin (IV – Information Value) kỹ thuật hữu ích để chọn đặc trƣng quan trọng mô hình dự đốn Nó giúp xếp hạng đặc trƣng sở tầm quan trọng chúng IV đƣợc tính theo cơng thức sau: IV = ∑ Ta nhận thấy IV ln nhận giá trị dƣơng WOE (%Good-%Bad) ln đồng biến Gía trị IV cho ta biết mức độ chênh lệch %Good %Bad bin nhiều hay Nếu IV cao khác biệt phân phối %Good %Bad lớn đặc trƣng hữu ích việc phân loại mơ hình trái lại IV nhỏ đặc trƣng hữu ích việc phân loại mơ hình Một số tài liệu đƣa tiêu chuẩn phân loại sức mạnh biến theo giá trị IV nhƣ bên dƣới: download by : skknchat@gmail.com 37 0.5: Biến mạnh, nhiên trƣờng hợp cần đƣợc điều tra lại để tránh trƣờng hợp biến có mối quan hệ trực tiếp định tính phân loại Bằng cách tơi rút gọn lấy đƣợc đặc trƣng mạnh mẽ để xây dựng mơ hình Thực cơng việc với bảng lấy top 100 đặc trƣng tốt nhất, tơi rút gọn cịn 811 đặc trƣng để phục vụ cho giai đoạn Bảng 3.9 Bảng mô tả đặc trưng 3.3 Thực nghiệm kết Sau xử lý liệu trích chọn xong đặc trƣng, tiến hành bƣớc cuối huấn luyện đánh giá mơ hình Hình 3.1 Quy trình đánh giá mơ hình download by : skknchat@gmail.com 38 Để thực nhanh việc huấn luyện kiểm tra mơ hình, tơi sử dụng phần mềm H2O tảng R Đây công cụ mạnh mẽ giúp nhà phát triển dễ dàng thử nghiệm mô hình cách đơn giản nhanh chóng AutoML H2O đƣợc sử dụng để tự động hóa quy trình học máy, bao gồm đào tạo tự động điều chỉnh nhiều mơ hình giới hạn thời gian ngƣời dùng định AutoML thực loạt hành động huấn luyện kiểm tra dựa nhiều thuật tốn nhƣ Ngồi ra, AutoML cịn cung cấp mơ hình Stacked Ensemble – dựa tất mơ hình đƣợc đào tạo trƣớc đó, khác dựa mơ hình tốt loại thuật tốn thơng thƣờng, chúng cho kết tốt mơ hình đƣợc chạy Các thuật toán đƣợc sử dụng bao gồm eXtreme Gradient Boosting(XGBoost), Gradient Boosting Machine (GBM), General Linear Model (GLM), Distributed Random Forest (DRF) Tùy vào thời gian thiết lập cho phép mà AutoML chạy đƣợc số thuật toán khác nhau, sau xếp hạng chúng theo tiêu chí tốt đầu bảng Tơi chia liệu thành hai nhóm: nhóm đào tạo nhóm thử nghiệm Nhóm đào tạo gồm 90% tập liệu nhằm mục đích đào tạo thuật tốn, nhóm kiểm tra chứa 10% tập liệu sử dụng để kiểm tra thuật toán Cụ thể, liệu thực tế bao gồm 12102 ghi dành cho việc huấn luyện 1286 ghi dành cho việc kiểm thử Các tham số thuật tốn đƣợc tối ƣu hóa cách sử dụng xác thực chéo K-lần (K=9) Tôi sử dụng R để thực thi H20 Dữ liệu để huấn luyện bao gồm 811 đặc trƣng Sau cho H2O chạy AutoML, thu đƣợc bảng xếp hạng theo độ xác AUC thuật toán XGBoost, GBM, GLM, DRF với tham số khởi chạy ngẫu nhiên Bảng 3.10 danh sách 11 thuật tốn có độ xác cao download by : skknchat@gmail.com 39 Bảng 3.10 Danh sách thuật toán triển khai Có thể nhận thấy, ngồi mơ hình StackedEnsemble mơ hình tổng hợp họ đặc trƣng tốt dựa H2O mơ hình có độ xác cao sử dụng thuật toán GBM XGBoost Trong q trình huấn luyện, mơ hình XGBoost cho kết tốt với giá trị AUC đạt 94.6%, GBM đạt giá trị AUC tốt 94,4% Tơi chọn mơ hình có kết tốt thuật toán XGBoost, GBM, GLM DRF để tiến hành xem xét đánh giá chi tiết Trƣớc hết xem xét đƣờng cong ROC validation sau thực xác thực 10-fold, nhận thấy ba mơ hình có khả phân loại tốt Trong đó, q trình kiểm thử, XGBoost tốt với mức AUC = 94.5%, GBM đạt 92,3%, DRF đạt 91,5%, cịn GLM tệ nhƣng đạt 89,4% XGBoost GBM GLM DRF download by : skknchat@gmail.com 40 Hình 3.2 Đường cong ROC validation Nhƣ ta thấy, thuật tốn XGBoost đạt hiệu cao Sử dụng mơ hình kiểm tra lại kết tập dùng để thử nghiệm đƣợc tách từ trƣớc cho kết nhƣ Bảng 3.11 Bảng 3.11 Ma trận nhầm lẫn thực dự đoán mẫu kiểm thử Chúng ta thấy, mơ hình XGBoost đốn trúng đƣợc 1131 mẫu tổng số 1295 quan sát, độ xác mà mơ hình đạt đƣợc 87,3% Sử dụng giá trị bảng ma trận nhầm lẫn, dựng nên biểu đồ đƣờng cong ROC tính đƣợc AUC = 93.8% download by : skknchat@gmail.com 41 Hình 3.3 Đường cong ROC cho mẫu kiểm thử Nhƣ vậy, thuật toán XGBoost dựng nên mơ hình phân loại tốt Bƣớc tơi xem xét đặc trƣng quan trọng mà mô hình sử dụng Hình 3.4 Top đặc trưng theo độ quan trọng Có thể thấy, tuổi sim (sim_age_months) có trọng số cao mơ hình, điều có lẽ đa phần sinh viên ngƣời sử dụng điện thoại, có thói quen thay đổi sim liên tục, không giống nhƣ lớp ngƣời làm, thƣờng sử dụng cố định số di động Tiếp theo tỉ lệ sử cƣớc dụng dịch vụ giá trị gia tăng (vas) cƣớc dùng 3g (consume_ratio_origin_cost_mpre_origin_data_cost), tỉ lệ cƣớc gọi nội mạng (consume_origin_internal_voice_cost) tổng cƣớc thoại, tỉ lệ số lần nạp tiền tổng số tiền nạp (recharge_ratio_times_charge), số ngƣời gọi khung 7h (call_h07_contacts) Các số phù hợp với lịch trình điều kiện sinh hoạt chung sinh viên Sau xác định đƣợc đặc trƣng, phải quay lại bƣớc tổng hợp đặc trƣng, xem đặc trƣng có phân bố hợp lý hay khơng, có đặc trƣng bị thiên lệch download by : skknchat@gmail.com 42 Sau loại bỏ đặc trƣng thiên lệch, lại quay lại huấn luyện mơ hình Làm làm lại bƣớc nhiều lần, đạt đƣợc mơ hình tốt để áp dụng dự đốn cho tồn tập th bao Phân bố số đặc trƣng có trọng số cao : Hình 3.5 Biểu đồ histogram Nhƣ vậy, ta thấy phân bố giá trị đặc trƣng tƣơng tự nhãn Điều thể đặc trƣng đại diện cho phân hóa download by : skknchat@gmail.com 43 nhãn, hay nói thuật tốn hoạt động tốt, đặc trƣng lựa chọn xác, lựa chọn thuật tốn XGBoost để thực cơng việc dự đốn toàn tập liệu 3.4 Kết luận Nhƣ vậy, sau q trình thực nghiệm, tơi chọn đƣợc mơ hình XGBoost mơ hình có chất lƣợng tốt Sử dụng mơ hình để áp dụng cho tồn liệu nhà mạng, q trình nhiều thời gian cơng sức, khối lƣợng liệu vơ lớn, hệ thống chạy lâu có kết Sau phân loại đƣợc thuê bao, thực gọi điện để kiểm tra tay Kết khả quan, tỉ lệ đạt 80% Vì vậy, thời gian tới, để nâng cao chất lƣợng sản phẩm, tiếp tục tối ƣu phần xử lý liệu xây dựng đặc trƣng Ngoài ra, dựa vào tảng có sẵn từ dự án này, tơi phát triển sang ngành nghề khác, toán khác dự án toán liệu lớn nhà mạng download by : skknchat@gmail.com 44 KẾT LUẬN Các nhà mạng viễn thơng có khối lƣợng liệu lớn đa dạng cách hành vi sử dụng di động khách hàng Bằng cơng cụ học máy đại, trích xuất nhiều thơng tin hữu ích từ đó, nhƣ chân dung khách hàng, thói quen, sở thích xu hƣớng họ Đóng góp báo cáo cho thấy sử dụng thuật tốn XGBoost dựa đặc trƣng có tính phân lập mạnh mẽ từ ghi thơ liệu viễn thông phức tạp để phân loại th bao có sinh viên hay khơng Tơi đánh giá 811 đặc trƣng này, thấy chúng có khả bao phủ cho nhiều mẫu đánh giá khác Từ đó, khơng dự đốn th bao có sinh viên hay khơng, tơi áp dụng cho việc dự đốn nghề nghiệp khác tùy thuộc vào mẫu thu thập, tơi cịn áp dụng tốn khác nhƣ đánh giá sở thích, điểm tín dụng cá nhân, điểm tích cực thuê bao… Việc xác định đặc trƣng tùy thuộc vào cá nhân, nhiệm vụ cụ thể, ngồi đặc trƣng có, tơi phải tiếp tục nghiên cứu liệu tìm hiểu thêm đặc trƣng Bởi liệu vô cùng, cách kết hợp liệu vô tận, nên định hƣớng nghiên cứu xây dựng đặc trƣng mới, đánh giá hiệu mơ hình thực tiễn hiệu chỉnh mơ hình cần thiết download by : skknchat@gmail.com 45 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt [1] https://moet.gov.vn/thong-ke/Pages/thong-ke.aspx - Truy cập ngày 20/05/2021 [2] https://vietnamcredit.com.vn/products/vietnam-industries/bao-cao-nganh-vien- thong-viet-nam-2020-54 - Truy cập ngày 20/05/2021 Tiếng Anh [3] CE Shannon (1948), “A Mathematical Theory of Communication”, Bell System Technical Journal 27(3), 379-423 [4] Chawla N (2005), “Data mining for imbalanced datasets: an overview”, Data mining and knowledge discovery handbook, Berlin: Springer, Berlin, 853-867 [5] Yoav Ben-Shlomo, Sara Brookes, Matthew Hickman (2013) Lecture Notes: Epidemiology, Evidence-based Medicine and Public Health, 6th Edition, WileyBlackwell, Oxford [6] Fawcett, Tom (2006) “An Introduction to ROC Analysis”, Pattern Recognition Letters 27 (8), 861-874 [7] Kuhn, Max; Johnson, Kjell (2013), Applied Predictive Modeling, NY: Springer, New York [8] Ho, Tin Kam (1995), “Random Decision Forests”, Proceedings of the 3rd International Conference on Document Analysis and Recognition, pp 278-282 [9] Jerome H Friedman (2001), "Greedy function approximation: A gradient boosting machine " Ann Statist 29(5), 1189-1232 [10] Powers, David M W (2011), "Evaluation: From Precision, Recall and FMeasure to ROC, Informedness, Markedness & Correlation", Journal of Machine Learning Technologies (1), 37-63 [11] Quinlan, J R (1986) “Induction of decision trees”, Machine Learning 1(1), 81-106 download by : skknchat@gmail.com 46 [12] Tianqi Chen, Carlos Guestrin (2016), “XGBoost: A Scalable Tree Boosting System”, “Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 1317, 2016”, ACM, 785–794 download by : skknchat@gmail.com 47 Kết kiểm tra DoIT download by : skknchat@gmail.com 48 Học viên Người hướng dẫn khoa học Hoàng Mạnh Hưng PGS TS Trần Quang Anh download by : skknchat@gmail.com ...2 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - HOÀNG MẠNH HƯNG ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG CHUYÊN NGÀNH : HỆ THỐNG... trình học tập nghiên cứu chƣơng trình Thạc sĩ Em xin gửi lời cảm ơn sâu sắc tới PGS TS Trần Quang Anh tận tình hƣớng dẫn, giúp đỡ động viên em để hoàn thành tốt Luận văn ? ?ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN... hƣớng dự đoán nghề nghiệp cho toàn thuê bao nhà mạng viễn thông cụ thể Tuy nhiên, điều kiện thời gian khó khăn lấy mẫu để nghiên cứu Tơi thu nhỏ lại tốn dự đốn th bao có sinh viên hay khơng Năm học