1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn) ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động

57 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an n va p ie gh tn to HOÀNG MẠNH HƯNG w d oa nl ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP an lu CỦA THUÊ BAO DI DỘNG oi lm ul nf va LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) z at nh z m co l gm @ an Lu n va HÀ NỘI - 2021 ac th si HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - lu an n va to p ie gh tn HOÀNG MẠNH HƯNG oa nl w d ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP nf va an lu CỦA THUÊ BAO DI DỘNG CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN oi lm ul MÃ SỐ: 8.48.01.04 z at nh z @ l gm LUẬN VĂN THẠC SĨ KỸ THUẬT m co (Theo định hướng ứng dụng) HÀ NỘI - 2021 an Lu NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS TRẦN QUANG ANH n va ac th si LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng tơi Nội dung luận văn có tham khảo sử dụng số thông tin, tài liệu từ nguồn sách, tạp chí đƣợc liệt kê danh mục tài liệu tham khảo đƣợc trích dẫn hợp pháp Tôi cam đoan thực việc kiểm tra mức độ tƣơng đồng nội dung luận văn qua phần mềm DoIT cách trung thực đạt kết tƣơng đồng 8% lu toàn nội dung luận văn Bản luận văn kiểm tra qua phần mềm cứng luận an văn nộp để bảo vệ trƣớc hội đồng Nếu sai xin chịu hình thức kỷ luật theo va n quy định hành học viện gh tn to p ie Hà Nội, ngày 17 tháng năm 2021 Học viên cao học d oa nl w an lu oi lm ul nf va Hoàng Mạnh Hưng z at nh z m co l gm @ an Lu n va ac th si LỜI CÁM ƠN Em xin gửi lời cảm ơn tri ân tới thầy cô giáo, cán Học viện Công nghệ Bƣu Viễn thơng giúp đỡ, tạo điều kiện tốt cho em trình học tập nghiên cứu chƣơng trình Thạc sĩ Em xin gửi lời cảm ơn sâu sắc tới PGS TS Trần Quang Anh tận tình hƣớng dẫn, giúp đỡ động viên em để hoàn thành tốt Luận văn “ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG” lu an Do vốn kiến thức lý luận kinh nghiệm thực tiễn chƣa đủ sâu rộng nên n va luận văn khơng tránh khỏi thiếu sót định Em xin trân trọng tiếp thu ý tn to kiến thầy, cô để luận văn đƣợc hoàn thiện p ie gh Trân trọng cám ơn w d oa nl Tác giả nf va an lu oi lm ul Hoàng Mạnh Hưng z at nh z m co l gm @ an Lu n va ac th si MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG LỜI CÁM ƠN CHƢƠNG – TỔNG QUAN NGHIÊN CỨU Mô tả chung nghiên cứu 1.1 lu an n va 1.1.1 Giới thiệu 1.1.2 Đặt vấn đề giải toán Các đặc điểm liệu nhà mạng tn to 1.2 1.2.1 Giới thiệu liệu nhà mạng p ie gh 1.2.2 Khối lƣợng liệu lớn phức tạp w 1.2.3 Dữ liệu đa dạng trùng lặp oa nl 1.2.4 Tập liệu không cân d 1.2.5 Giá trị bị an lu 1.2.6 Giá trị cố định va Phân nhóm nghề nghiệp liệu mẫu ul nf 1.3 oi lm 1.3.1 Lý thuyết chọn mẫu 1.4 z at nh 1.3.2 Mẫu nghiên cứu Kết luận z CHƢƠNG – MỘT SỐ THUẬT TOÁN HỌC MÁY LIÊN QUAN @ l gm 2.1 Cây định m co 2.2 Rừng ngẫu nhiên 11 2.3 Mơ hình tuyến tính tổng quát 12 an Lu 2.3 Các thuật toán Boosting 14 n va 2.3.1 Phát biểu toán 14 ac th si 2.3.2 Boosting 15 2.3.3 Gradient descent 15 2.3.4 Kết hợp hai hƣớng tiếp cận 16 2.3.5 Thuật toán Gradient boosting (GBM) 16 2.3.6 Triển khai thuật toán XGBoost 17 2.4 Đánh giá mơ hình 19 2.4.1 Độ đo dùng phân loại 19 lu 2.4.2 ROC AUC 21 an 2.4.3 Đánh giá mô hình kiểm tra chéo 22 va n 2.5 Kết luận 24 gh tn to CHƢƠNG - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN NHÓM NGHỀ NGHIỆP 25 p ie 3.1 Mô hình đề xuất 25 w 3.2 Xử lý liệu 25 oa nl 3.2.1 Các bảng liệu 25 d 3.2.2 Xây dựng đặc trƣng 32 lu va an 3.2.2 Trích chọn đặc trƣng 35 ul nf 3.3 Thực nghiệm kết 37 oi lm 3.4 Kết luận 43 z at nh KẾT LUẬN 44 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 45 z LỜI CAM ĐOAN m co l gm @ an Lu n va ac th si DANH MỤC CÁC TỪ VIẾT TẮT Kí hiệu Nghĩa kí hiệu Nghĩa tiếng Việt Artificial Neural Network Mạng nơ-ron nhân tạo DT Decision Tree Cây định RF Random Forest Rừng ngẫu nhiên DRF Distributed Random Forest Rừng ngẫu nhiên phân tán XRT Extremely Randomized Trees Cây ngẫu nhiên GBM Gradient Boosting Machines Máy tăng cƣờng độ dốc GLM Generalized Linear Model Mơ hình tuyến tính tổng qt XGBoost Extreme Gradient Boosting Máy tăng cƣờng độ dốc cao Area Under The Curve Diện tích dƣới đƣờng cong ANN lu an n va p ie gh tn to ROC Receiver Operating Characteristic Đƣờng cong đặc trƣng d oa nl w AUC Hệ thống tệp phân tán Hadoop Extract, Transform and Load Trích xuất biến đổi tải nf va an ETL Hadoop Distributed File System lu HDFS oi lm ul liệu vào kho tập trung Mạng toàn cầu CDR Call Detail Records Các ghi chi tiết gọi CRM Customer Relationship z at nh World wide web WWW z hàng gm @ Management Hệ thống quản lý quan hệ khách Dịch vụ tin nhắn Short Message Services MMS Multimedia Messaging Service Dịch vụ tin nhắn đa phƣơng tiện VAS Value Added Services Dịch vụ giá trị gia tăng m co an Lu ATTT l SMS An tồn thơng tin n va ac th si DANH MỤC CÁC HÌNH Số hiệu Tên hình Trang lu an Mơ hình diểu diễn định 10 Hình 2.2 Mơ hình biểu diễn rừng ngẫu nhiên 12 Hình 2.3 Mơ hình XGBoost 17 Hình 2.4 Đƣờng cong ROC AUC 22 Hình 3.1 Quy trình đánh giá mơ hình 37 Hình 3.2 Đƣờng cong ROC validation 39 Hình 3.3 Đƣờng cong ROC cho mẫu kiểm thử 40 Hình 3.4 Top đặc trƣng theo độ quan trọng 40 Biểu đồ histogram 42 n va Hình 2.1 p ie gh tn to w d oa nl Hình 3.5 oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang lu an n va p ie gh tn to Ma trận lỗi 20 Bảng 3.1 Bảng call sms 25 Bảng 3.2 Bảng balance 27 Bảng 3.3 Bảng consume 28 Bảng 3.4 Bảng g22 29 Bảng 3.5 Bảng recharge 30 Bảng 3.6 Bảng loan 30 Bảng 3.7 Bảng vas_2g3g vas_mps 31 Bảng tổ hợp đặc trƣng 33 Bảng mô tả đặc trƣng 37 Danh sách thuật toán triển khai 38 Bảng 2.1 oa nl w Bảng 3.8 d Bảng 3.9 va an Ma trận nhầm lẫn thực dự đoán mẫu kiểm thử 39 oi lm ul nf Bảng 3.11 lu Bảng 3.10 z at nh z m co l gm @ an Lu n va ac th si lu CHƯƠNG – TỔNG QUAN NGHIÊN CỨU an Mô tả chung nghiên cứu va 1.1 n 1.1.1 Giới thiệu to gh tn Việc xác định đƣợc khách hàng là mối quan tâm hàng đầu nhà p ie cung cấp sản phẩm dịch vụ bán hàng Nhờ xác định đƣợc chân dung khách hàng mà doanh nghiệp đạt đƣợc hiệu tối đa thực chiến dịch quảng bá nl w sản phẩm, nhắm vào đối tƣợng cụ thể có cách tiếp cận hợp lý Các d oa nhà quảng cáo có sở để định quảng cáo có nội dung nhƣ an lu nào, đặt đâu, thời gian để tiếp cận đƣợc tập khách hàng tối đa va Có nhiều biện pháp để xác định rõ ràng tranh hoàn chỉnh chân ul nf dung khách hàng, nhƣng nghiên cứu tập trung vào việc xác định chân oi lm dung khách hàng từ tập thuê bao viễn thơng Đóng góp cơng việc tơi phát triển mơ hình dự đốn nghề nghiệp thuê bao di động, giúp nhà khai z at nh thác viễn thơng dự đốn đƣợc đối tƣợng khách hàng mình, từ đƣa z gói sản phẩm phù hợp nhƣ cung cấp dịch vụ giá trị gia tăng khác để thu hút gm @ nhƣ giữ chân khách hàng, gia tăng lợi nhuận doanh nghiệp l Mô hình đƣợc phát triển nghiên cứu sử dụng kĩ thuật học máy cho m co mục đích phân lớp nhị phân dựa liệu đặc trƣng đƣợc xây dựng từ toàn ghi chi tiết gọi, sử dụng dịch vụ để dự đốn th bao có sinh an Lu viên hay không Để đo lƣờng hiệu suất mơ hình, thƣớc đo tiêu chuẩn AUC đƣợc sử n va ac th si 34 - max dùng consume_min_origin - avg - voice_cost: cƣớc _cost - origin: tk thoại - internal: nội mạng - sms_cost: cƣớc _external - external: ngoại mạng sms consume_min_origin _voice_cost - international: quốc tế g22 … lu an n va gh tn to - ips : số ip - hours: số ghi g22_dates - up_data: tổng up nhận - download_data: tổng down - dates: số ngày g22_h22_total_data - total_data: tổng sử dụng ghi nhận - charge: số tiền - g22_h00_down_data số months: p ie - zero_charges: số lần charge tháng ghi nhận w =0 oa nl - non_zero_charge: số lần d charge > - {party_code}: nguồn nạp - times: số lần nạp recharge_times - charge: số tiền recharge_hours nf va thẻ an lu recharge - bổ sung thêm khung nạp oi lm - hours, - loan: tiền vay months: thời gian times, - pay: tiền trả dates, loan_loan_months loan_pay_money z hours @ vas_mps - dịch vụ - months dates, vas_2g3g_charge vas_2g3g_weekday_c an Lu - charge: tiền sử dụng dịch vụ times, m co vas_2g3g loan_h07_diff_money l - bổ sung khung thời gian loan_pay_times gm - diff: chênh lệch vay trả services: dates, hours z at nh loan ul thời gian recharge_mmlserver_ n va ac th si 35 providers: nhà cung cấp harge - bổ sung khung thời gian vas_2g3g_times vas_mps_months vas_mps_dates - bổ sung khung thời gian imei tac - tacs: số mã tac times, imei_dates dates, imei_weekday_hours months, hours tac_weekday_tacs lu an tac_weekday_dates n va tn to Trên tổ hợp để tạo đặc trƣng cho bảng Ngồi gh ra, tơi cịn kết hợp thêm số bảng trích dẫn khác đƣợc tạo từ bảng để p ie bổ sung thêm mối liên kết thông tin Các đặc trƣng đƣợc phân nhỏ theo w khung thời gian để phát thói quen sử dụng ngƣời dùng, từ có oa nl đặc trƣng mạnh mẽ cho đối tƣợng cụ thể Kết quả, xây dựng đƣợc d 5000 đặc trƣng để phục vụ cho bƣớc tốn an lu 3.2.2 Trích chọn đặc trưng nf va Trong bƣớc trƣớc, tập hợp đƣợc 5000 đặc trƣng tất Tuy nhiên oi lm ul học máy, nhiều đặc trƣng độ xác cao, mà ngƣợc lại cịn gây nhiễu khiến q trình học máy tốn thời gian thiếu mơ hình z at nh xác Vì vậy, tơi phải rút gọn bớt đặc trƣng mà đảm bảo đƣợc tính hiệu z Tơi sử dụng phƣơng pháp trọng số dấu hiệu (WOE - weight of evidence) để @ gm trích chọn đặc trƣng Phƣơng pháp xếp hạng đặc trƣng thành mạnh, l trung bình, yếu, khơng tác động,… dựa khả năng, sức mạnh dự đoán Tiêu chuẩn m co xếp hạng số giá trị thông tin IV (information value) đƣợc tính tốn từ phƣơng an Lu pháp WOE Đồng thời mơ hình tạo giá trị features cho biến Giá trị n va ac th si 36 đo lƣờng khác biệt phân phối good bad Phƣơng pháp WOE có kĩ thuật xử lý khác biệt biến liên tục biến phân loại: - Trƣờng hợp biến liên tục, WOE gán nhãn cho quan sát theo nhãn giá trị bins mà thuộc Các bins khoảng liên tiếp đƣợc xác định từ biến liên tục cho số lƣợng quan sát bin Để xác định bins ta cần xác định số lƣợng bins Chúng ta hình dung đầu mút khoảng bins quantile lu an - Trƣờng hợp biến phân loại, WOE cân nhắc class bin n va nhóm vài nhóm có số lƣợng quan sát vào bin Ngoài mức độ tn to chênh lệch phân phối good/bad đƣợc đo lƣờng thông qua số WOE gh đƣợc sử dụng để nhận diện nhóm có tính chất phân loại Nếu giá trị WOE p ie chúng gần chúng đƣợc nhóm vào nhóm Ngồi ra, trƣờng hợp Null đƣợc coi nhóm riêng biệt số lƣợng đáng kể oa nl w nhóm vào nhóm khác thiểu số d Ta tính WOE = lu an Trong nghiên cứu ngày, coi Good nhãn giá trị sinh nf va viên, bad nhãn giá trị sinh viên oi lm ul Giá trị thông tin (IV – Information Value) kỹ thuật hữu ích để chọn đặc trƣng quan trọng mơ hình dự đốn Nó giúp xếp hạng IV = ∑ z at nh đặc trƣng sở tầm quan trọng chúng IV đƣợc tính theo cơng thức sau: z Ta nhận thấy IV nhận giá trị dƣơng WOE (%Good-%Bad) ln đồng @ gm biến Gía trị IV cho ta biết mức độ chênh lệch %Good %Bad bin m co l nhiều hay Nếu IV cao khác biệt phân phối %Good %Bad lớn đặc trƣng hữu ích việc phân loại mơ hình trái lại IV nhỏ đặc phân loại sức mạnh biến theo giá trị IV nhƣ bên dƣới: an Lu trƣng hữu ích việc phân loại mơ hình Một số tài liệu đƣa tiêu chuẩn n va ac th si 37 0.5: Biến mạnh, nhiên trƣờng hợp cần đƣợc điều tra lại để tránh trƣờng hợp biến có mối quan hệ trực tiếp định tính phân loại Bằng cách tơi rút gọn lấy đƣợc đặc trƣng mạnh mẽ để xây lu an dựng mơ hình Thực công việc với bảng lấy top 100 đặc trƣng tốt nhất, n va rút gọn 811 đặc trƣng để phục vụ cho giai đoạn p ie gh tn to Bảng 3.9 Bảng mô tả đặc trưng d oa nl w lu va an 3.3 Thực nghiệm kết nf Sau xử lý liệu trích chọn xong đặc trƣng, tiến hành bƣớc cuối oi lm ul huấn luyện đánh giá mơ hình z at nh z l gm @ m co Hình 3.1 Quy trình đánh giá mơ hình an Lu n va ac th si 38 Để thực nhanh việc huấn luyện kiểm tra mơ hình, tơi sử dụng phần mềm H2O tảng R Đây công cụ mạnh mẽ giúp nhà phát triển dễ dàng thử nghiệm mơ hình cách đơn giản nhanh chóng AutoML H2O đƣợc sử dụng để tự động hóa quy trình học máy, bao gồm đào tạo tự động điều chỉnh nhiều mơ hình giới hạn thời gian ngƣời dùng định AutoML thực loạt hành động huấn luyện kiểm tra dựa nhiều thuật tốn nhƣ Ngồi ra, AutoML cịn cung cấp mơ hình lu an Stacked Ensemble – dựa tất mơ hình đƣợc đào tạo trƣớc đó, n va khác dựa mơ hình tốt loại thuật tốn thơng thƣờng, chúng tn to cho kết tốt mơ hình đƣợc chạy Các thuật toán đƣợc sử dụng gh bao gồm eXtreme Gradient Boosting(XGBoost), Gradient Boosting Machine (GBM), p ie General Linear Model (GLM), Distributed Random Forest (DRF) Tùy vào thời gian thiết lập cho phép mà AutoML chạy đƣợc số thuật tốn khác nhau, sau oa nl w xếp hạng chúng theo tiêu chí tốt đầu bảng Tôi chia liệu thành hai nhóm: nhóm đào tạo nhóm thử nghiệm Nhóm đào d an lu tạo gồm 90% tập liệu nhằm mục đích đào tạo thuật tốn, nhóm kiểm tra chứa va 10% tập liệu sử dụng để kiểm tra thuật toán Cụ thể, liệu thực tế bao ul nf gồm 12102 ghi dành cho việc huấn luyện 1286 ghi dành cho việc kiểm thử oi lm Các tham số thuật tốn đƣợc tối ƣu hóa cách sử dụng xác thực chéo K-lần trƣng z at nh (K=9) Tôi sử dụng R để thực thi H20 Dữ liệu để huấn luyện bao gồm 811 đặc z Sau cho H2O chạy AutoML, thu đƣợc bảng xếp hạng theo độ xác @ gm AUC thuật toán XGBoost, GBM, GLM, DRF với tham số khởi chạy ngẫu m co l nhiên Bảng 3.10 danh sách 11 thuật tốn có độ xác cao an Lu n va ac th si 39 Bảng 3.10 Danh sách thuật toán triển khai lu Có thể nhận thấy, ngồi mơ hình StackedEnsemble mơ hình tổng hợp họ đặc an trƣng tốt dựa H2O mơ hình có độ xác cao sử dụng thuật va n tốn GBM XGBoost Trong q trình huấn luyện, mơ hình XGBoost cho kết tn to tốt với giá trị AUC đạt 94.6%, GBM đạt giá trị AUC tốt 94,4% Tôi ie gh chọn mơ hình có kết tốt thuật toán XGBoost, GBM, GLM DRF để p tiến hành xem xét đánh giá chi tiết w Trƣớc hết xem xét đƣờng cong ROC validation sau thực oa nl xác thực 10-fold, nhận thấy ba mơ hình có khả phân loại tốt d Trong đó, trình kiểm thử, XGBoost tốt với mức AUC = 94.5%, GBM đạt lu GBM oi lm ul XGBoost nf va an 92,3%, DRF đạt 91,5%, GLM tệ nhƣng đạt 89,4% z at nh z an Lu DRF m co l gm @ GLM n va ac th si 40 lu an Hình 3.2 Đường cong ROC validation va n Nhƣ ta thấy, thuật tốn XGBoost đạt hiệu cao Sử tn to dụng mơ hình kiểm tra lại kết tập dùng để thử nghiệm đƣợc p ie gh tách từ trƣớc cho kết nhƣ Bảng 3.11 Bảng 3.11 Ma trận nhầm lẫn thực dự đoán mẫu kiểm thử d oa nl w va an lu ul nf Chúng ta thấy, mơ hình XGBoost đoán trúng đƣợc 1131 mẫu oi lm tổng số 1295 quan sát, độ xác mà mơ hình đạt đƣợc 87,3% Sử dụng giá trị bảng ma trận nhầm lẫn, dựng nên biểu đồ đƣờng cong ROC tính z at nh đƣợc AUC = 93.8% z m co l gm @ an Lu n va ac th si 41 Hình 3.3 Đường cong ROC cho mẫu kiểm thử Nhƣ vậy, thuật tốn XGBoost dựng nên mơ hình phân loại tốt Bƣớc xem xét đặc trƣng quan trọng mà mơ hình sử dụng lu an n va p ie gh tn to d oa nl w an lu Hình 3.4 Top đặc trưng theo độ quan trọng va Có thể thấy, tuổi sim (sim_age_months) có trọng số cao mơ ul nf hình, điều có lẽ đa phần sinh viên ngƣời sử dụng điện thoại, oi lm có thói quen thay đổi sim liên tục, không giống nhƣ lớp ngƣời làm, thƣờng sử dụng cố định số di động Tiếp theo tỉ lệ sử cƣớc dụng dịch vụ giá trị gia tăng z at nh (vas) cƣớc dùng 3g (consume_ratio_origin_cost_mpre_origin_data_cost), tỉ lệ cƣớc gọi nội mạng (consume_origin_internal_voice_cost) tổng cƣớc thoại, tỉ lệ số lần z gm @ nạp tiền tổng số tiền nạp (recharge_ratio_times_charge), số ngƣời gọi khung 7h (call_h07_contacts) Các số phù hợp với lịch trình điều kiện m co l sinh hoạt chung sinh viên Sau xác định đƣợc đặc trƣng, phải quay lại bƣớc tổng hợp đặc an Lu trƣng, xem đặc trƣng có phân bố hợp lý hay khơng, có đặc trƣng bị thiên lệch n va ac th si 42 Sau loại bỏ đặc trƣng thiên lệch, lại quay lại huấn luyện mơ hình Làm làm lại bƣớc nhiều lần, đạt đƣợc mơ hình tốt để áp dụng dự đốn cho tồn tập thuê bao Phân bố số đặc trƣng có trọng số cao : lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ Hình 3.5 Biểu đồ histogram an Lu Nhƣ vậy, ta thấy phân bố giá trị đặc trƣng tƣơng tự nhãn Điều thể đặc trƣng đại diện cho phân hóa n va ac th si 43 nhãn, hay nói thuật tốn hoạt động tốt, đặc trƣng lựa chọn xác, lựa chọn thuật tốn XGBoost để thực cơng việc dự đốn tồn tập liệu 3.4 Kết luận Nhƣ vậy, sau trình thực nghiệm, tơi chọn đƣợc mơ hình XGBoost mơ hình có chất lƣợng tốt Sử dụng mơ hình để áp dụng cho tồn liệu nhà mạng, trình nhiều thời gian cơng sức, khối lƣợng lu an liệu vơ lớn, hệ thống chạy lâu có kết Sau phân loại n va đƣợc thuê bao, thực gọi điện để kiểm tra tay Kết khả tn to quan, tỉ lệ đạt 80% Vì vậy, thời gian tới, để nâng cao chất lƣợng sản phẩm, gh tiếp tục tối ƣu phần xử lý liệu xây dựng đặc trƣng Ngoài ra, dựa vào p ie tảng có sẵn từ dự án này, tơi phát triển sang ngành nghề khác, toán d oa nl w khác dự án toán liệu lớn nhà mạng oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si 44 KẾT LUẬN Các nhà mạng viễn thơng có khối lƣợng liệu lớn đa dạng cách hành vi sử dụng di động khách hàng Bằng cơng cụ học máy đại, trích xuất nhiều thơng tin hữu ích từ đó, nhƣ chân dung khách hàng, thói quen, sở thích xu hƣớng họ Đóng góp báo cáo cho thấy sử dụng thuật toán XGBoost dựa lu đặc trƣng có tính phân lập mạnh mẽ từ ghi thô liệu viễn an thông phức tạp để phân loại thuê bao có sinh viên hay không Tôi đánh giá va n 811 đặc trƣng này, thấy chúng có khả bao phủ cho nhiều mẫu đánh tn to giá khác Từ đó, khơng dự đốn th bao có sinh viên hay gh khơng, tơi áp dụng cho việc dự đoán nghề nghiệp khác tùy thuộc vào mẫu p ie thu thập, tơi cịn áp dụng tốn khác nhƣ đánh giá sở thích, điểm tín w dụng cá nhân, điểm tích cực thuê bao… oa nl Việc xác định đặc trƣng tùy thuộc vào cá nhân, nhiệm vụ cụ d thể, ngồi đặc trƣng có, tơi phải tiếp tục nghiên cứu liệu tìm lu an hiểu thêm đặc trƣng Bởi liệu vô cùng, cách kết hợp liệu vô tận, nf va nên định hƣớng nghiên cứu xây dựng đặc trƣng mới, đánh giá oi lm ul hiệu mơ hình thực tiễn hiệu chỉnh mơ hình cần thiết z at nh z m co l gm @ an Lu n va ac th si 45 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt [1] https://moet.gov.vn/thong-ke/Pages/thong-ke.aspx - Truy cập ngày 20/05/2021 [2] https://vietnamcredit.com.vn/products/vietnam-industries/bao-cao-nganh-vien- thong-viet-nam-2020-54 - Truy cập ngày 20/05/2021 Tiếng Anh CE Shannon (1948), “A Mathematical Theory of Communication”, Bell System lu [3] an Technical Journal 27(3), 379-423 va Chawla N (2005), “Data mining for imbalanced datasets: an overview”, Data n [4] tn to mining and knowledge discovery handbook, Berlin: Springer, Berlin, 853-867 Yoav Ben-Shlomo, Sara Brookes, Matthew Hickman (2013) Lecture Notes: Epidemiology, Evidence-based Medicine and Public Health, 6th Edition, Wiley- p ie gh [5] Blackwell, Oxford w Fawcett, Tom (2006) “An Introduction to ROC Analysis”, Pattern oa nl [6] d Recognition Letters 27 (8), 861-874 lu Kuhn, Max; Johnson, Kjell (2013), Applied Predictive Modeling, NY: Springer, nf Ho, Tin Kam (1995), “Random Decision Forests”, Proceedings of the 3rd oi lm ul [8] va New York an [7] International Conference on Document Analysis and Recognition, pp 278-282 Jerome H Friedman (2001), "Greedy function approximation: A gradient z at nh [9] boosting machine " Ann Statist 29(5), 1189-1232 Powers, David M W (2011), "Evaluation: From Precision, Recall and F- z [10] @ Machine Learning Technologies (1), 37-63 Quinlan, J R (1986) “Induction of decision trees”, Machine Learning 1(1), an Lu 81-106 m co [11] l gm Measure to ROC, Informedness, Markedness & Correlation", Journal of n va ac th si 46 Tianqi Chen, Carlos Guestrin (2016), “XGBoost: A Scalable Tree Boosting [12] System”, “Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 1317, 2016”, ACM, 785–794 lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si 47 Kết kiểm tra DoIT lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si 48 Học viên Người hướng dẫn khoa học Hoàng Mạnh Hưng PGS TS Trần Quang Anh lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu z at nh z m co l gm @ an Lu n va ac th si

Ngày đăng: 12/07/2023, 17:32

Xem thêm:

w