1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động

49 41 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 49
Dung lượng 880,56 KB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - HOÀNG MẠNH HƯNG ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2021 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - HOÀNG MẠNH HƯNG ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS TRẦN QUANG ANH HÀ NỘI - 2021 LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Nội dung luận văn có tham khảo sử dụng số thơng tin, tài liệu từ nguồn sách, tạp chí liệt kê danh mục tài liệu tham khảo trích dẫn hợp pháp Tơi cam đoan thực việc kiểm tra mức độ tương đồng nội dung luận văn qua phần mềm DoIT cách trung thực đạt kết tương đồng 8% toàn nội dung luận văn Bản luận văn kiểm tra qua phần mềm cứng luận văn nộp để bảo vệ trước hội đồng Nếu sai tơi xin chịu hình thức kỷ luật theo quy định hành học viện Hà Nội, ngày 17 tháng năm 2021 Học viên cao học Hoàng Mạnh Hưng LỜI CÁM ƠN Em xin gửi lời cảm ơn tri ân tới thầy cô giáo, cán Học viện Cơng nghệ Bưu Viễn thơng giúp đỡ, tạo điều kiện tốt cho em trình học tập nghiên cứu chương trình Thạc sĩ Em xin gửi lời cảm ơn sâu sắc tới PGS TS Trần Quang Anh tận tình hướng dẫn, giúp đỡ động viên em để hoàn thành tốt Luận văn “ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG” Do vốn kiến thức lý luận kinh nghiệm thực tiễn chưa đủ sâu rộng nên luận văn không tránh khỏi thiếu sót định Em xin trân trọng tiếp thu ý kiến thầy, cô để luận văn hoàn thiện Trân trọng cám ơn Tác giả Hoàng Mạnh Hưng MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT Kí hiệu ANN Nghĩa kí hiệu Nghĩa tiếng Việt Artificial Neural Network Mạng nơ-ron nhân tạo DT Decision Tree Cây định RF Random Forest Rừng ngẫu nhiên DRF Distributed Random Forest Rừng ngẫu nhiên phân tán XRT Extremely Randomized Trees Cây ngẫu nhiên GBM Gradient Boosting Machines Máy tăng cường độ dốc GLM Generalized Linear Model Mơ hình tuyến tính tổng qt XGBoost Extreme Gradient Boosting Máy tăng cường độ dốc cao AUC Area Under The Curve Diện tích đường cong ROC Receiver Operating Characteristic Đường cong đặc trưng HDFS Hadoop Distributed File System Hệ thống tệp phân tán Hadoop Extract, Transform and Load Trích xuất biến đổi tải ETL WWW World wide web liệu vào kho tập trung Mạng toàn cầu CDR Call Detail Records Các ghi chi tiết gọi CRM Customer Relationship Hệ thống quản lý quan hệ khách SMS Management Short Message Services hàng Dịch vụ tin nhắn MMS Multimedia Messaging Service Dịch vụ tin nhắn đa phương tiện VAS Value Added Services Dịch vụ giá trị gia tăng ATTT An tồn thơng tin DANH MỤC CÁC HÌNH Số hiệu Tên hình Trang Hình 2.1 Mơ hình diểu diễn định 10 Hình 2.2 Mơ hình biểu diễn rừng ngẫu nhiên 12 Hình 2.3 Mơ hình XGBoost 17 Hình 2.4 Đường cong ROC AUC 22 Hình 3.1 Quy trình đánh giá mơ hình 37 Hình 3.2 Đường cong ROC validation 39 Hình 3.3 Đường cong ROC cho mẫu kiểm thử 40 Hình 3.4 Top đặc trưng theo độ quan trọng 40 Hình 3.5 Biểu đồ histogram 42 DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang Bảng 2.1 Ma trận lỗi 20 Bảng 3.1 Bảng call sms 25 Bảng 3.2 Bảng balance 27 Bảng 3.3 Bảng consume 28 Bảng 3.4 Bảng g22 29 Bảng 3.5 Bảng recharge 30 Bảng 3.6 Bảng loan 30 Bảng 3.7 Bảng vas_2g3g vas_mps 31 Bảng 3.8 Bảng tổ hợp đặc trưng 33 Bảng 3.9 Bảng mô tả đặc trưng 37 Bảng 3.10 Danh sách thuật toán triển khai 38 Bảng 3.11 Ma trận nhầm lẫn thực dự đoán mẫu kiểm thử 39 CHƯƠNG – TỔNG QUAN NGHIÊN CỨU 1.1 Mô tả chung nghiên cứu 1.1.1 Giới thiệu Việc xác định khách hàng là mối quan tâm hàng đầu nhà cung cấp sản phẩm dịch vụ bán hàng Nhờ xác định chân dung khách hàng mà doanh nghiệp đạt hiệu tối đa thực chiến dịch quảng bá sản phẩm, nhắm vào đối tượng cụ thể có cách tiếp cận hợp lý Các nhà quảng cáo có sở để định quảng cáo có nội dung nào, đặt đâu, thời gian để tiếp cận tập khách hàng tối đa Có nhiều biện pháp để xác định rõ ràng tranh hoàn chỉnh chân dung khách hàng, nghiên cứu tập trung vào việc xác định chân dung khách hàng từ tập th bao viễn thơng Đóng góp cơng việc tơi phát triển mơ hình dự đốn nghề nghiệp th bao di động, giúp nhà khai thác viễn thông dự đốn đối tượng khách hàng mình, từ đưa gói sản phẩm phù hợp cung cấp dịch vụ giá trị gia tăng khác để thu hút giữ chân khách hàng, gia tăng lợi nhuận doanh nghiệp Mơ hình phát triển nghiên cứu sử dụng kĩ thuật học máy cho mục đích phân lớp nhị phân dựa liệu đặc trưng xây dựng từ toàn ghi chi tiết gọi, sử dụng dịch vụ để dự đoán th bao có sinh viên hay khơng Để đo lường hiệu suất mơ hình, thước đo tiêu chuẩn AUC sử dụng giá trị AUC đạt 94,6% dựa thuật tốn XGBoost Mơ hình chuẩn bị thử nghiệm thông qua ứng dụng Spark H20 làm việc liệu lớn cung cấp mã hóa từ công ty viễn thông hàng đầu Việt Nam Bộ liệu chứa tất thông tin CDR khách hàng mã hóa số thuê bao để đảm bảo tính bảo mật ATTT khách hàng sử dụng để huấn luyện, thử nghiệm đánh giá mơ hình Nghiên cứu thử nghiệm thuật tốn: Rừng ngẫu nhiên, mơ hình tuyến tính tổng quát (GLM), máy tăng cường Gradien “GBM” tăng cường độ dốc cao “XGBoost” Tuy nhiên kết tốt thu cách sử dụng thuật toán XGBoost, thuật toán sử dụng để phân loại nghề nghiệp nghiên cứu 1.1.2 Đặt vấn đề giải tốn 10 Viễn thơng nhân tố quan trọng công phát triển công nghệ số hội nhập kinh tế Trong Dịch vụ viễn thơng phát triển mạnh thập kỷ qua thị trường Viễn thông truyền thống năm gần trở nên bão hòa Năm 2019 đạt 125,8 triệu thuê bao di động mặt đất, lớn dân số 96 triệu người, cơng ty lớn VNPT, Viettel, Mobifone chiếm 97% thị phần [2] Để phát triển tồn tại, công ty viễn thông không tìm cách phát triển thuê bao mới, giữ chân thuê bao cũ mà cần phát triển mạnh mẽ dịch vụ giá trị gia tăng, đánh trúng vào đối tượng cụ thể nhằm tăng trải nghiệm khách hàng chất lượng dịch vụ Do đó, nhu cầu định danh khách hàng mối quan tâm lớn công ty viễn thông Việc xác định rõ chân dung khách hàng giúp công ty viễn thông hiểu rõ nhu cầu, mong muốn đối tượng cụ thể Từ đó, họ phục vụ để nâng cao trải nghiệm khách hàng, cải thiện hiệu chiến lược tiếp thị họ phát triển nguồn doanh thu Với thông tin sở thích, hành vi xu hướng khách hàng, cơng ty tăng lợi nhuận doanh thu toàn chuỗi giá trị viễn thông - từ phát triển sản phẩm vận hành mạng lưới, đến bán hàng, tiếp thị dịch vụ khách hàng Ngồi ra, việc định danh khách hàng cịn giúp công ty viễn thông phát triển mạnh mẽ mảng quảng cáo, họ có sẵn hạ tầng mạng lưới quảng bá, mức độ tiếp cận gần đạt tới mức tối đa có thiết bị di động Vậy cơng ty viễn thơng, họ có tay khối lượng liệu vô lớn thu thập từ hành vi sử dụng dịch vụ từ khách hàng họ, họ lại khao khát khai phá thông tin cách mãnh liệt hết Vì thế, nhà mạng khơng phát triển riêng ứng dụng nội bộ, mà đồng thời th đối tác bên ngồi tới để khai thác cách tối đa hiệu Trong dự án cung cấp liệu liên quan tới hành vi sử dụng dịch vụ viễn thông thuê bao di động, từ tơi xây dựng mơ hình dự đốn chân dung khách hàng cách tồn diện xác Trong nghiên cứu này, tơi tập trung vào phần nhỏ tranh tổng quát chân dung khách hàng nghề nghiệp thuê bao di động, cụ thể đánh giá xem th bao có phải sinh viên hay khơng Tơi chuyển tốn phân loại 35 3.2.1.5 Dữ liệu sử dụng dịch vụ vasp Đây bảng thể chi tiết hành vi sử dụng dịch vụ giá trị gia tăng thuê bao, đăng kí, hủy, gia hạn dịch vụ Thông tin trường bảng vas_2g3g vas_mps sau: Bảng 3.7 Bảng vas_2g3g vas_mps Tên cột Kiểu liệu Mô tả Ví dụ isdn_key int Số thuê bao dạng mã hóa 123456789 request_time timestamp thời gian đăng kí 2020-02-01 12:23:34 response_time timestamp thời gian phản hồi kết 2020-02-01 12:23:34 response_code int mã lỗi đăng kí service_name string mã dịch vụ GAME9029 sub_service_na string chi tiết dịch vụ GAME_VNG1 cmd string hành động REGISTER price int cước sử dụng 10000 provider_name string nhà cung cấp VAS_GAME data_date_key int ngày xuất liệu 20200201 me Ngoài ra, từ bảng trên, xây dựng thêm bảng dẫn xuất thông tin IMEI thiết bị mà thuê bao sử dụng số tac, tên thương hiệu, tên thiết bị, hệ điều hành, phiên hệ điều hành, thời gian sử dụng thơng tin vị trí người dùng tên tỉnh, huyện, thời gian xuất hiện, số lần xuất hiện… 3.2.2 Xây dựng đặc trưng Sau trình khảo sát đánh giá liệu, ghi log cần xử lý để chuyển từ trạng thái thơ thành đặc trưng để sử dụng thuật tốn học máy Q trình nhiều thời gian số lượng bảng cột lớn Các đặc trưng tạo từ tất loại CDR, chẳng hạn mức trung bình 36 gọi khách hàng thực tháng, mức trung bình truy cập internet tải lên / tải xuống, số lượng gói đăng ký, số lượng dịch vụ vasp sử dụng, số lượng khoản vay, nạp tiền, tỷ lệ gọi tính số SMS nhiều tính tạo từ liệu tổng hợp CDR Ngoài ra, tơi cịn chia nhỏ liệu thành nhiều khung thời gian nhỏ ngày, giờ, phút tổng hợp tất thông tin lại lần Không phải tất thông tin sử dụng để xây dựng đặc trưng, nhận thấy có 77% trường có 97% giá trị 0, rỗng số cố định Các thơng tin khơng có giá trị hữu ích cho q trình học máy, nên tơi xóa trường khỏi danh sách xây dựng đặc trưng Đối với trường có giá trị thiếu 60%, tơi loại bỏ khỏi mơ hình Đối với trường hợp cịn lại tơi loại bỏ dòng tương ứng với giá trị thiếu Sau khảo sát liệu, tơi bắt đầu xây dựng đặc trưng đặt tên chúng theo cú pháp sau: {ten_bang}_{tổ hợp}_{giá trị đo} Ngoài ra, có số đặc trưng khác cấu trúc bổ sung vào sau Cụ thể Bảng 3.8 Bảng 3.8 Tổ hợp đặc trưng Tên bảng Tổ hợp - call - outgoing: số gọi - sms - incoming: số gọi đến - h{xx}: tổng hợp theo khung xx - h{xx}-h{yy}: tổng hợp từ khung xx-yy - ratio: tỉ lệ so với tổ hợp lớn - weekend: đo vào cuối tuần - weekday : đo vào tuần Giá trị đo - contacts: số thuê bao - times: số gọi - duration: thời gian gọi - hours: số ghi nhận - dates: số ngày ghi nhận - months: số tháng ghi nhận - le_{x}k : số dư x - dates: số ngày ngàn đồng ghi nhận - ge_{x}k : số dư x ngàn avg_balance: - weekend: lấy cuối tuần trung bình số dư - weekday: lấy tuần - ratio: tỉ lệ Ví dụ call_outgoing_contact s call_h00_incoming_ti mes call_h20_h24_dates … Balance balance_le_050k_date s balance_weekend_ le_020k_dates balance_ratio_le_005 k_dates 37 consume g22 recharge loan vas_2g3g vas_mps imei tac - - max - avg - origin: tk - internal: nội mạng - external: ngoại mạng - international: quốc tế - ips : số ip - up_data: tổng up - download_data: tổng down - total_data: tổng sử dụng - charge: số tiền - zero_charges: số lần charge =0 - non_zero_charge: số lần charge > - {party_code}: nguồn nạp thẻ - bổ sung thêm khung thời gian … consume_origin_cost consume_min_origin _cost consume_min_origin _external _voice_cost … - hours: số ghi g22_dates nhận g22_h00_down_data - dates: số ngày g22_h22_total_data ghi nhận - months: số tháng ghi nhận - cost: tổng tiêu dùng voice_cost: cước thoại - sms_cost: cước sms - times: số lần nạp - charge: số tiền nạp - hours, dates, months: thời gian times, dates, hours recharge_times recharge_hours recharge_mmlserver_ hours - loan: tiền vay - pay: tiền trả - diff: chênh lệch vay trả - bổ sung khung thời gian - charge: tiền sử dụng dịch vụ times, - services: dịch vụ - months providers: nhà cung cấp - bổ sung khung thời gian - bổ sung khung thời gian loan_loan_months loan_pay_money loan_pay_times loan_h07_diff_money dates, vas_2g3g_charge vas_2g3g_weekday_c harge vas_2g3g_times vas_mps_months vas_mps_dates - tacs: số mã tac imei_dates times, dates, imei_weekday_hours months, hours tac_weekday_tacs tac_weekday_dates Trên tổ hợp để tạo đặc trưng cho bảng Ngồi ra, tơi cịn kết hợp thêm số bảng trích dẫn khác tạo từ bảng để bổ sung thêm mối liên kết thông tin Các đặc trưng phân nhỏ theo khung thời gian để phát thói quen sử dụng người dùng, từ có 38 đặc trưng mạnh mẽ cho đối tượng cụ thể Kết quả, xây dựng 5000 đặc trưng để phục vụ cho bước tốn 3.2.2 Trích chọn đặc trưng Trong bước trước, tập hợp 5000 đặc trưng tất Tuy nhiên học máy, nhiều đặc trưng độ xác cao, mà ngược lại cịn gây nhiễu khiến trình học máy tốn thời gian thiếu xác Vì vậy, tơi phải rút gọn bớt đặc trưng mà đảm bảo tính hiệu mơ hình Tơi sử dụng phương pháp trọng số dấu hiệu (WOE - weight of evidence) để trích chọn đặc trưng Phương pháp xếp hạng đặc trưng thành mạnh, trung bình, yếu, không tác động,… dựa khả năng, sức mạnh dự đoán Tiêu chuẩn xếp hạng số giá trị thơng tin IV (information value) tính tốn từ phương pháp WOE Đồng thời mơ hình tạo giá trị features cho biến Giá trị đo lường khác biệt phân phối good bad Phương pháp WOE có kĩ thuật xử lý khác biệt biến liên tục biến phân loại: - Trường hợp biến liên tục, WOE gán nhãn cho quan sát theo nhãn giá trị bins mà thuộc Các bins khoảng liên tiếp xác định từ biến liên tục cho số lượng quan sát bin Để xác định bins ta cần xác định số lượng bins Chúng ta hình dung đầu mút khoảng bins quantile - Trường hợp biến phân loại, WOE cân nhắc class bin nhóm vài nhóm có số lượng quan sát vào bin Ngồi mức độ chênh lệch phân phối good/bad đo lường thông qua số WOE sử dụng để nhận diện nhóm có tính chất phân loại Nếu giá trị WOE chúng gần chúng nhóm vào nhóm Ngồi ra, trường hợp Null coi nhóm riêng biệt số lượng đáng kể nhóm vào nhóm khác thiểu số Ta tính WOE = Trong nghiên cứu ngày, coi Good nhãn giá trị sinh viên, bad nhãn giá trị sinh viên 39 Giá trị thông tin (IV – Information Value) kỹ thuật hữu ích để chọn đặc trưng quan trọng mơ hình dự đốn Nó giúp xếp hạng đặc trưng sở tầm quan trọng chúng IV tính theo công thức sau: IV = Ta nhận thấy IV nhận giá trị dương WOE (%Good-%Bad) ln đồng biến Gía trị IV cho ta biết mức độ chênh lệch %Good %Bad bin nhiều hay Nếu IV cao khác biệt phân phối %Good %Bad lớn đặc trưng hữu ích việc phân loại mơ hình trái lại IV nhỏ đặc trưng hữu ích việc phân loại mơ hình Một số tài liệu đưa tiêu chuẩn phân loại sức mạnh biến theo giá trị IV bên dưới: 0.5: Biến mạnh, nhiên trường hợp cần điều tra lại để tránh trường hợp biến có mối quan hệ trực tiếp định tính phân loại Bằng cách tơi rút gọn lấy đặc trưng mạnh mẽ để xây dựng mơ hình Thực công việc với bảng lấy top 100 đặc trưng tốt nhất, tơi rút gọn cịn 811 đặc trưng để phục vụ cho giai đoạn Bảng 3.9 Bảng mô tả đặc trưng 3.3 Thực nghiệm kết Sau xử lý liệu trích chọn xong đặc trưng, tiến hành bước cuối huấn luyện đánh giá mơ hình 40 Hình 3.1 Quy trình đánh giá mơ hình Để thực nhanh việc huấn luyện kiểm tra mô hình, tơi sử dụng phần mềm H2O tảng R Đây công cụ mạnh mẽ giúp nhà phát triển dễ dàng thử nghiệm mơ hình cách đơn giản nhanh chóng AutoML H2O sử dụng để tự động hóa quy trình học máy, bao gồm đào tạo tự động điều chỉnh nhiều mơ hình giới hạn thời gian người dùng định AutoML thực loạt hành động huấn luyện kiểm tra dựa nhiều thuật tốn Ngồi ra, AutoML cịn cung cấp mơ hình Stacked Ensemble – dựa tất mơ hình đào tạo trước đó, khác dựa mơ hình tốt loại thuật tốn thông thường, chúng cho kết tốt mơ hình chạy Các thuật tốn sử dụng bao gồm eXtreme Gradient Boosting(XGBoost), Gradient Boosting Machine (GBM), General Linear Model (GLM), Distributed Random Forest (DRF) Tùy vào thời gian thiết lập cho phép mà AutoML chạy số thuật toán khác nhau, sau xếp hạng chúng theo tiêu chí tốt đầu bảng Tôi chia liệu thành hai nhóm: nhóm đào tạo nhóm thử nghiệm Nhóm đào tạo gồm 90% tập liệu nhằm mục đích đào tạo thuật tốn, nhóm kiểm tra chứa 10% tập liệu sử dụng để kiểm tra thuật tốn Cụ thể, liệu thực tế tơi bao gồm 12102 ghi dành cho việc huấn luyện 1286 ghi dành cho việc kiểm thử Các tham số thuật tốn tối ưu hóa cách sử dụng xác thực chéo K-lần (K=9) Tôi sử dụng R để thực thi H20 Dữ liệu để huấn luyện bao gồm 811 đặc trưng 41 Sau cho H2O chạy AutoML, thu bảng xếp hạng theo độ xác AUC thuật toán XGBoost, GBM, GLM, DRF với tham số khởi chạy ngẫu nhiên Bảng 3.10 danh sách 11 thuật tốn có độ xác cao Bảng 3.10 Danh sách thuật tốn triển khai Có thể nhận thấy, ngồi mơ hình StackedEnsemble mơ hình tổng hợp họ đặc trưng tốt dựa H2O mơ hình có độ xác cao sử dụng thuật tốn GBM XGBoost Trong q trình huấn luyện, mơ hình XGBoost cho kết tốt với giá trị AUC đạt 94.6%, GBM đạt giá trị AUC tốt 94,4% Tôi chọn mô hình có kết tốt thuật tốn XGBoost, GBM, GLM DRF để tiến hành xem xét đánh giá chi tiết Trước hết xem xét đường cong ROC validation sau thực xác thực 10-fold, nhận thấy ba mơ hình có khả phân loại tốt Trong đó, q trình kiểm thử, XGBoost tốt với mức AUC = 94.5%, GBM đạt 92,3%, DRF đạt 91,5%, cịn GLM tệ đạt 89,4% XGBoost GBM 42 GLM DRF Hình 3.2 Đường cong ROC validation Như ta thấy, thuật tốn XGBoost đạt hiệu cao Sử dụng mơ hình kiểm tra lại kết tập dùng để thử nghiệm tách từ trước cho kết Bảng 3.11 Bảng 3.11 Ma trận nhầm lẫn thực dự đoán mẫu kiểm thử Chúng ta thấy, mơ hình XGBoost đoán trúng 1131 mẫu tổng số 1295 quan sát, độ xác mà mơ hình đạt 87,3% Sử dụng giá trị bảng ma trận nhầm lẫn, dựng nên biểu đồ đường cong ROC tính AUC = 93.8% 43 Hình 3.3 Đường cong ROC cho mẫu kiểm thử Như vậy, thuật tốn XGBoost dựng nên mơ hình phân loại tốt Bước tơi xem xét đặc trưng quan trọng mà mơ hình sử dụng Hình 3.4 Top đặc trưng theo độ quan trọng Có thể thấy, tuổi sim (sim_age_months) có trọng số cao mơ hình, điều có lẽ đa phần sinh viên người sử dụng điện thoại, có thói quen thay đổi sim liên tục, không giống lớp người làm, thường sử dụng cố định số di động Tiếp theo tỉ lệ sử cước dụng dịch vụ giá trị gia tăng (vas) cước dùng 3g (consume_ratio_origin_cost_mpre_origin_data_cost), tỉ lệ cước gọi nội mạng (consume_origin_internal_voice_cost) tổng cước thoại, tỉ lệ số lần nạp tiền tổng số tiền nạp (recharge_ratio_times_charge), số người gọi khung 44 7h (call_h07_contacts) Các số phù hợp với lịch trình điều kiện sinh hoạt chung sinh viên Sau xác định đặc trưng, phải quay lại bước tổng hợp đặc trưng, xem đặc trưng có phân bố hợp lý hay khơng, có đặc trưng bị thiên lệch Sau loại bỏ đặc trưng thiên lệch, lại quay lại huấn luyện mơ hình Làm làm lại bước nhiều lần, đạt mơ hình tốt để áp dụng dự đốn cho toàn tập thuê bao Phân bố số đặc trưng có trọng số cao : Hình 3.5 Biểu đồ histogram Như vậy, ta thấy phân bố giá trị đặc trưng tương tự nhãn Điều thể đặc trưng đại diện cho phân hóa 45 nhãn, hay nói thuật tốn hoạt động tốt, đặc trưng lựa chọn xác, lựa chọn thuật tốn XGBoost để thực cơng việc dự đốn toàn tập liệu 3.4 Kết luận Như vậy, sau q trình thực nghiệm, tơi chọn mơ hình XGBoost mơ hình có chất lượng tốt Sử dụng mơ hình để áp dụng cho tồn liệu nhà mạng, q trình nhiều thời gian công sức, khối lượng liệu vơ lớn, hệ thống chạy lâu có kết Sau phân loại thuê bao, thực gọi điện để kiểm tra tay Kết khả quan, tỉ lệ đạt 80% Vì vậy, thời gian tới, để nâng cao chất lượng sản phẩm, tiếp tục tối ưu phần xử lý liệu xây dựng đặc trưng Ngồi ra, dựa vào tảng có sẵn từ dự án này, tơi phát triển sang ngành nghề khác, toán khác dự án toán liệu lớn nhà mạng KẾT LUẬN Các nhà mạng viễn thơng có khối lượng liệu lớn đa dạng cách hành vi sử dụng di động khách hàng Bằng công cụ học máy đại, 46 trích xuất nhiều thơng tin hữu ích từ đó, chân dung khách hàng, thói quen, sở thích xu hướng họ Đóng góp báo cáo tơi cho thấy sử dụng thuật tốn XGBoost dựa đặc trưng có tính phân lập mạnh mẽ từ ghi thô liệu viễn thông phức tạp để phân loại thuê bao có sinh viên hay khơng Tơi đánh giá 811 đặc trưng này, thấy chúng có khả bao phủ cho nhiều mẫu đánh giá khác Từ đó, khơng dự đốn th bao có sinh viên hay khơng, tơi áp dụng cho việc dự đoán nghề nghiệp khác tùy thuộc vào mẫu thu thập, tơi cịn áp dụng tốn khác đánh giá sở thích, điểm tín dụng cá nhân, điểm tích cực thuê bao… Việc xác định đặc trưng tùy thuộc vào cá nhân, nhiệm vụ cụ thể, ngồi đặc trưng có, tơi phải tiếp tục nghiên cứu liệu tìm hiểu thêm đặc trưng Bởi liệu vô cùng, cách kết hợp liệu vô tận, nên định hướng nghiên cứu xây dựng đặc trưng mới, đánh giá hiệu mơ hình thực tiễn hiệu chỉnh mơ hình cần thiết DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt [1] [2] https://moet.gov.vn/thong-ke/Pages/thong-ke.aspx - Truy cập ngày 20/05/2021 https://vietnamcredit.com.vn/products/vietnam-industries/bao-cao-nganh-vien- thong-viet-nam-2020-54 - Truy cập ngày 20/05/2021 Tiếng Anh 47 [3] CE Shannon (1948), “A Mathematical Theory of Communication”, Bell System [4] Technical Journal 27(3), 379-423 Chawla N (2005), “Data mining for imbalanced datasets: an overview”, Data [5] mining and knowledge discovery handbook, Berlin: Springer, Berlin, 853-867 Yoav Ben-Shlomo, Sara Brookes, Matthew Hickman (2013) Lecture Notes: Epidemiology, Evidence-based Medicine and Public Health, 6th Edition, Wiley- [6] Blackwell, Oxford Fawcett, Tom (2006) “An Introduction to ROC Analysis”, Pattern [7] Recognition Letters 27 (8), 861-874 Kuhn, Max; Johnson, Kjell (2013), Applied Predictive Modeling, NY: Springer, [8] New York Ho, Tin Kam (1995), “Random Decision Forests”, Proceedings of the 3rd [9] International Conference on Document Analysis and Recognition, pp 278-282 Jerome H Friedman (2001), "Greedy function approximation: A gradient [10] boosting machine " Ann Statist 29(5), 1189-1232 Powers, David M W (2011), "Evaluation: From Precision, Recall and FMeasure to ROC, Informedness, Markedness & Correlation", Journal of [11] [12] Machine Learning Technologies (1), 37-63 Quinlan, J R (1986) “Induction of decision trees”, Machine Learning 1(1), 81-106 Tianqi Chen, Carlos Guestrin (2016), “XGBoost: A Scalable Tree Boosting System”, “Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 1317, 2016”, ACM, 785–794 48 Kết kiểm tra DoIT 49 Học viên Người hướng dẫn khoa học Hoàng Mạnh Hưng PGS TS Trần Quang Anh ... HƯNG ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC:... PGS TS Trần Quang Anh tận tình hướng dẫn, giúp đỡ động viên em để hoàn thành tốt Luận văn ? ?ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG” Do vốn kiến thức lý luận kinh nghiệm thực... nhuận doanh nghiệp Mơ hình phát triển nghiên cứu sử dụng kĩ thuật học máy cho mục đích phân lớp nhị phân dựa liệu đặc trưng xây dựng từ toàn ghi chi tiết gọi, sử dụng dịch vụ để dự đoán th bao có

Ngày đăng: 16/10/2021, 10:36

HÌNH ẢNH LIÊN QUAN

DANH MỤC CÁC HÌNH - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
DANH MỤC CÁC HÌNH (Trang 6)
Hình 2.1 Mô hình diểu diễn cây quyết định - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Hình 2.1 Mô hình diểu diễn cây quyết định (Trang 16)
Hình 2.2. Mô hình biểu diễn rừng ngẫu nhiên - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Hình 2.2. Mô hình biểu diễn rừng ngẫu nhiên (Trang 18)
Hình 2.3 Mô hình XGBoost - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Hình 2.3 Mô hình XGBoost (Trang 23)
2.4 Đánh giá mô hình - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
2.4 Đánh giá mô hình (Trang 25)
Hình 2.4. Đường cong ROC và AUC - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Hình 2.4. Đường cong ROC và AUC (Trang 27)
3.1 Mô hình đề xuất - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
3.1 Mô hình đề xuất (Trang 30)
Bảng 3.2 Bảng balance - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Bảng 3.2 Bảng balance (Trang 31)
Đây là bảng lưu trữ về số dư hàng ngày của từng thuê bao dữ liệu được xuất ra với tần suất mỗi ngày một lần - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
y là bảng lưu trữ về số dư hàng ngày của từng thuê bao dữ liệu được xuất ra với tần suất mỗi ngày một lần (Trang 31)
Bảng 3.3 Bảng consume - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Bảng 3.3 Bảng consume (Trang 32)
Đây là bảng tổng hợp các thông tin sử dụng cước của thuê bao trong một tháng. Dữ liệu được xuất hàng tháng - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
y là bảng tổng hợp các thông tin sử dụng cước của thuê bao trong một tháng. Dữ liệu được xuất hàng tháng (Trang 32)
Bảng 3.4 Bảng g22 - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Bảng 3.4 Bảng g22 (Trang 33)
3.2.1.4 Dữ liệu về sử dụng Internet - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
3.2.1.4 Dữ liệu về sử dụng Internet (Trang 33)
Bảng 3.5 Bảng recharge - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Bảng 3.5 Bảng recharge (Trang 34)
Đây là bảng mô tả chi tiết về các lần nạp thẻ của thuê bao. Các trường cơ bản của bảng recharge là: - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
y là bảng mô tả chi tiết về các lần nạp thẻ của thuê bao. Các trường cơ bản của bảng recharge là: (Trang 34)
Đây là bảng thể hiện chi tiết các hành vi sử dụng dịch vụ giá trị gia tăng của thuê bao, như đăng kí, hủy, gia hạn dịch vụ. - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
y là bảng thể hiện chi tiết các hành vi sử dụng dịch vụ giá trị gia tăng của thuê bao, như đăng kí, hủy, gia hạn dịch vụ (Trang 35)
Bảng 3.8 Tổ hợp các đặc trưng - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Bảng 3.8 Tổ hợp các đặc trưng (Trang 36)
Bảng 3.9 Bảng mô tả đặc trưng - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Bảng 3.9 Bảng mô tả đặc trưng (Trang 39)
Hình 3.1 Quy trình đánh giá mô hình - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Hình 3.1 Quy trình đánh giá mô hình (Trang 40)
Sau khi cho H2O chạy AutoML, tôi thu được một bảng xếp hạng theo độ chính xác AUC của các thuật toán XGBoost, GBM, GLM, DRF với các tham số khởi chạy ngẫu nhiên - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
au khi cho H2O chạy AutoML, tôi thu được một bảng xếp hạng theo độ chính xác AUC của các thuật toán XGBoost, GBM, GLM, DRF với các tham số khởi chạy ngẫu nhiên (Trang 41)
Bảng 3.11 Ma trận nhầm lẫn khi thực hiện dự đoán trên mẫu kiểm thử - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Bảng 3.11 Ma trận nhầm lẫn khi thực hiện dự đoán trên mẫu kiểm thử (Trang 42)
Hình 3.2 Đường cong ROC validation - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Hình 3.2 Đường cong ROC validation (Trang 42)
Như vậy, thuật toán XGBoost đã dựng nên một mô hình phân loại tốt. Bước tiếp theo tôi sẽ xem xét các đặc trưng quan trọng nhất mà mô hình đã sử dụng. - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
h ư vậy, thuật toán XGBoost đã dựng nên một mô hình phân loại tốt. Bước tiếp theo tôi sẽ xem xét các đặc trưng quan trọng nhất mà mô hình đã sử dụng (Trang 43)
Hình 3.3 Đường cong ROC cho mẫu kiểm thử - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Hình 3.3 Đường cong ROC cho mẫu kiểm thử (Trang 43)
Hình 3.5 Biểu đồ histogram - Ứng dụng học máy để dự đoán nghề nghiệp của thuê bao di động
Hình 3.5 Biểu đồ histogram (Trang 44)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w