Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
369,21 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - HOÀNG MẠNH HƯNG ỨNG DỤNG MÁY HỌC ĐỂ DỰ ĐOÁN NGHỀ NGHIỆP CỦA THUÊ BAO DI DỘNG CHUYÊN NGÀNH : HỆ THỐNG THƠNG TIN MÃ SỐ: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2021 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học PGS TS Trần Quang Anh Phản biện 1: PGS TS Nguyễn Hà Nam Phản biện 2: PGS TS Ngô Quốc Tạo Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 12 00 ngày 28 tháng năm 2021 Có thể tìm hiểu luận văn tại: MỤC LỤC CHƯƠNG – TỔNG QUAN NGHIÊN CỨU 1.1 Mô tả chung nghiên cứu 1.1.1 Giới thiệu 1.1.2 Đặt vấn đề giải toán 1.2 Các đặc điểm liệu nhà mạng 1.2.1 Giới thiệu liệu nhà mạng 1.2.2 Khối lượng liệu lớn phức tạp 1.2.3 Dữ liệu đa dạng trùng lặp .5 1.2.4 Tập liệu không cân 1.2.5 Giá trị bị .5 1.2.6 Giá trị cố định 1.3 Phân nhóm nghề nghiệp liệu mẫu 1.3.1 Lý thuyết chọn mẫu .6 1.3.2 Mẫu nghiên cứu 1.4 Kết luận CHƯƠNG – MỘT SỐ THUẬT TOÁN HỌC MÁY LIÊN QUAN 2.1 Cây định 2.2 Rừng ngẫu nhiên 2.3 Mơ hình tuyến tính tổng quát .9 2.3 Các thuật toán boosting 2.4 Đánh giá mơ hình .10 2.4.1 Độ đo dùng phân loại .10 2.4.2 ROC AUC .10 2.4.3 Đánh giá mơ hình kiểm tra chéo .11 2.5 Kết luận 12 CHƯƠNG - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN NHÓM NGHỀ NGHIỆP 13 3.1 Mơ hình đề xuất .13 3.2 Xử lý liệu 13 3.2.1 Các bảng liệu 13 3.2.2 Xây dựng đặc trưng 14 3.3 Thực nghiệm kết 15 3.4 Kết luận 19 KẾT LUẬN 20 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 21 CHƯƠNG – TỔNG QUAN NGHIÊN CỨU 1.1 Mô tả chung nghiên cứu 1.1.1 Giới thiệu Việc xác định khách hàng là mối quan tâm hàng đầu nhà cung cấp sản phẩm dịch vụ bán hàng Nhờ xác định chân dung khách hàng mà doanh nghiệp đạt hiệu tối đa thực chiến dịch quảng bá sản phẩm, nhắm vào đối tượng cụ thể có cách tiếp cận hợp lý Có nhiều biện pháp để xác định rõ ràng tranh hoàn chỉnh chân dung khách hàng, nghiên cứu tập trung vào việc xác định chân dung khách hàng từ tập thuê bao viễn thông Đóng góp cơng việc chúng tơi phát triển mơ hình dự đốn nghề nghiệp thuê bao di động, giúp nhà khai thác viễn thơng dự đốn đối tượng khách hàng mình, từ đưa gói sản phẩm phù hợp cung cấp dịch vụ giá trị gia tăng khác để thu hút giữ chân khách hàng, gia tăng lợi nhuận doanh nghiệp Mô hình phát triển nghiên cứu sử dụng kĩ thuật học máy cho mục đích phân lớp nhị phân dựa liệu đặc trưng xây dựng từ toàn ghi chi tiết gọi, sử dụng dịch vụ để dự đốn th bao có sinh viên hay khơng Để đo lường hiệu suất mơ hình, thước đo tiêu chuẩn AUC sử dụng giá trị AUC đạt 94,6% dựa thuật toán XGBoost Mơ hình chuẩn bị thử nghiệm thơng qua ứng dụng Spark H20 làm việc liệu lớn cung cấp mã hóa từ công ty viễn thông hàng đầu Việt Nam Bộ liệu chứa tất thông tin CDR khách hàng mã hóa số thuê bao để đảm bảo tính bảo mật ATTT khách hàng sử dụng để huấn luyện, thử nghiệm đánh giá mơ hình Nghiên cứu thử nghiệm thuật tốn: Rừng ngẫu nhiên, mơ hình tuyến tính tổng quát (GLM), máy tăng cường Gradien “GBM” tăng cường độ dốc cao “XGBoost” Tuy nhiên kết tốt thu cách sử dụng thuật toán XGBoost, thuật toán sử dụng để phân loại nghề nghiệp nghiên cứu 4 1.1.2 Đặt vấn đề giải toán Trong nghiên cứu này, tập trung vào phần nhỏ tranh tổng quát chân dung khách hàng nghề nghiệp thuê bao di động, cụ thể đánh giá xem thuê bao có phải sinh viên hay khơng Chúng tơi chuyển toán phân loại nhị phân để đơn giản hóa q trình lựa chọn đánh giá mơ hình Dữ liệu sử dụng bao gồm tất CDR thuê bao suốt tháng trước thời điểm lấy mẫu Chúng sử dụng tập liệu để tổng hợp trích xuất đặc trưng cho khách hàng, sau sử dụng mơ hình học máy để dự đốn xem th bao có sinh viên hay khơng 1.2 Các đặc điểm liệu nhà mạng 1.2.1 Giới thiệu liệu nhà mạng Là công ty viễn thông lớn Việt Nam [6], đối tác chúng tơi có nhiều loại liệu bao gồm liệu sử dụng dịch vụ người dùng lẫn liệu hoạt động hệ thống Các loại phân loại sau : - Dữ liệu khách hàng: Nó chứa tất thơng tin liên quan đến dịch vụ hợp đồng khách hàng - Dữ liệu vị trí: Thơng tin vị trí xảy kiện người dùng lưu lại dạng mã vị trí - Dữ liệu khiếu nại, chăm sóc khách hàng: Bao gồm thông tin phản ánh dịch vụ từ khách hàng, khiếu nại liên quan tới cước, gói dịch vụ mà khách sở hữu, quan tâm - Dữ liệu nhật ký mạng: Chứa thông tin tình trạng hoạt động hệ thống, ghi lưu lại lịch sử hoạt động ứng dụng, log chi tiết hệ thống, lịch sử thay đổi phiên nâng cấp hệ thống - Dữ liệu chi tiết gọi: Chứa thông tin chi tiết gọi, sms, mms, truy cập internet, vasp Dữ liệu tạo dạng văn - Thông tin thiết bị di động : Nó chứa thơng tin thương hiệu, kiểu máy, loại điện thoại di động, dùng sim hay sim, hỗ trợ 4g hay không Do vấn đề bảo mật chúng tơi tiếp cận số loại liệu liệu vị trí, liệu thiết bị di động liệu chi tiết gọi 1.2.2 Khối lượng liệu lớn phức tạp Vì chúng tơi khơng biết thơng tin hữu ích cho q trình xây dựng mơ hình, chúng tơi phải xử lý tất liệu phản ánh hành vi hoạt động tất khách hàng Bộ liệu chúng tơi sử dụng lấy vịng tháng đến thời điểm lấy mẫu, với trung bình ngày xấp xỉ 300GB dạng text, tương đương với việc phải xử lý tất 50TB liệu thô 1.2.3 Dữ liệu đa dạng trùng lặp Dữ liệu CDR đến từ nhiều nguồn khác nhau, cách lấy, cấu trúc, cách lưu log khác từ nguồn cung cấp liệu Do đó, liệu bao gồm nhiều thông tin trùng lặp phân tán loại liệu Vì vậy, phải xử lý tất các nguồn liệu, hiểu sau so sánh chọn kết hợp nhiều nguồn liệu bảng thống Kết đạt rút gọn nửa số bảng trường liệu trùng lặp không cần thiết 1.2.4 Tập liệu không cân Tập liệu tạo không cân trường hợp đặc biệt tốn phân loại phân bố lớp thường không đồng với lớp khác Tập liệu không cân danh mục nhỏ 10% so với tập lại 1.2.5 Giá trị bị Các khách hàng khác có gói dịch vụ khác Vì thế, có khách hàng có gói cước, dịch vụ sản phẩm mà khách hàng khác khơng có, họ lại có số thứ khác Ngồi việc giá trị bị mất, cịn xảy trường hợp liệu bị Đó lỗi hệ thống, log, thiếu log lỗi xử lý sai liệu, lỗi đường truyền khiến số ghi bị mà khôi phục lại 6 1.2.6 Giá trị cố định Sau khai phá liệu, nhận thấy khoảng 50% biến số chứa hai giá trị rời rạc khoảng 80% tất biến phân loại có 10 danh mục, 15% biến số biến phân loại có giá trị Có biến mà hầu hết giá trị chúng là số Chúng tơi thấy có khoảng 77% biến số có 97% giá trị chúng 0, số rỗng Những kết rằng, lượng lớn biến loại bỏ chúng khơng có giá trị giá trị cố định 1.3 Phân nhóm nghề nghiệp liệu mẫu 1.3.1 Lý thuyết chọn mẫu Tổng thể tập hợp tất đối tượng khảo sát Mẫu tập hợp nhỏ phần tử lấy từ tổng thể lớn, người ta nghiên cứu mẫu để tìm đặc trưng mẫu Các đặc trưng mẫu sử dụng để suy rộng đặc trưng tổng thể đại diện.Có hai cách chọn mẫu : Chọn mẫu theo xác suất chọn mẫu phi xác suất 1.3.2 Mẫu nghiên cứu Việc thu thập số mẫu đại diện cho tất khó khăn, chúng tơi sử dụng phương pháp chọn mẫu phi xác suất – chọn mẫu thuận tiện để lựa chọn mẫu Cụ thể, lựa chọn 7,388 sinh viên từ trường Đại học Hà Nội, Đại học Y Hà Nội Đại học Đà Nẵng Sau chúng tơi lựa chọn thêm 8000 mẫu đối lập để tạo thành 15000 nhãn Nhưng sau thực lấy đặc trưng, chúng tơi cịn 6438 mẫu sinh viên 6990 mẫu đối lập cho tổng thể 13428 mẫu Cách lấy mẫu có ưu điểm chọn mẫu cách thuận tiện, dễ tiếp cận lấy thơng tin Nhưng có nhược điểm không xác định sai số lấy mẫu không kết luận tổng thể từ kết mẫu Chúng phải cải thiện cách thu thập thêm nhiều mẫu ngẫu nhiên hơn, loại bỏ đặc trưng bị phân lập vào nhãn để đảm bảo mơ hình đạt kết tốt 7 1.4 Kết luận Như vậy, liệu nhà mạng phức tạp đồ sộ Việc chuẩn hóa liệu thời gian cơng sức Để tổng hợp đặc trưng mạnh mẽ có tính phân loại cao, tơi phải thử thử lại nhiều thuật tốn với tham số khác để đạt mơ hình tốt Bằng việc sử dụng phần mềm hỗ trợ H2O, tơi đẩy nhanh q trình huấn luyện kiểm tra Chế độ mạnh mẽ H2O AutoML, chế độ sử dụng mơ hình eXtreme Gradient Boosting(XGBoost), Gradient Boosting Machine (GBM), General Linear Model (GLM), Distributed Random Forest (DRF) để thực huấn luyện Tôi giới thiệu mơ hình lý thuyết cách thức thực huấn luyện kiểm tra mơ hình ứng với thuật toán chương sau 8 CHƯƠNG – MỘT SỐ THUẬT TOÁN HỌC MÁY LIÊN QUAN Trong chương tiếp cận số thuật toán học máy, từ thuật toán đơn giản định đến thuật toán phức tạp XGBoost 2.1 Cây định Cây định (Decision Tree) mơ hình thuộc nhóm thuật tốn Học có giám sát (Supervised Learning) Cây định phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật Các thuộc tính đối tượngncó thể thuộc kiểu liệu khác Nhị phân (Binary) , Định danh (Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) thuộc tính phân lớp phải có kiểu liệu Binary Ordinal Tóm lại, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, định sinh luật để dự đốn lớp liệu chưa biết Hình 2.1 Mơ hình diểu diễn định 2.2 Rừng ngẫu nhiên Rừng ngẫu nhiên phương pháp xây dựng tập hợp nhiều định sử dụng phương pháp bầu chọn để đưa định biến mục tiêu cần dự báo Random Forest (RF) tập hợp hàng trăm định (DF), định tạo nên ngẫu nhiên từ việc tái chọn mẫu (chọn ngẫu nhiên phần liệu để xây dựng) ngẫu nhiên biến từ toàn biến trong liệu Với chế vậy, Random Forest cho ta kết xác cao đánh đổi việc ta hiểu chế hoạt động thuật toán cấu trúc q phức tạp mơ hình - thuật toán phương thức Black Box - tức ta bỏ tay vào bên rút kết giải thích chế hoạt động mơ hình 2.3 Mơ hình tuyến tính tổng qt Mơ hình tuyến tính tổng quát ( GLM ) tổng qt hóa linh hoạt hồi quy tuyến tính thơng thường cho phép biến đáp ứng có mơ hình phân phối lỗi khác với phân phối chuẩn GLM tổng qt hóa hồi quy tuyến tính cách cho phép mơ hình tuyến tính có liên quan đến biến phản hồi thông qua hàm liên kết cách cho phép độ lớn phương sai phép đo hàm giá trị dự đoán 2.3 Các thuật tốn boosting Có hai thuật toán boosting giới thiệu chương Extreme Gradient Boosting (XGBoost) Gradient Boosting Machine (GBM) Cả hai thuật toán phát triển từ thuật toán máy tăng cường độ dốc (gradient boosting) Tuy nhiên XGBoost thường cho kết tốt hơn, sử dụng phương thức thức hóa mơ hình cách quy để kiểm soát việc vừa liệu (overfitting) XGBoost thuật toán state-of-the-art nhằm giải toán học có giám sát (supervised learning) cho độ xác cao XGBoost nhận đầu vào bảng liệu với kích thước dạng liệu bao gồm categorical mà dạng liệu thường sử dụng nhiều thực tế Bên cạnh đó, XGboost có tốc độ huấn luyện nhanh, có khả scale để tính tốn song song nhiều server, tăng tốc cách sử dụng GPU, nhờ mà Big Data khơng phải vấn đề mơ hình 10 XGBoost GBM dựa ý tưởng boosting thơng qua gradient descent khơng gian hàm số Tuy nhiên, điều làm nên hiệu suất ấn tượng khả tính tốn XGBoost nằm ba yếu tố: Engineering để tránh vừa liệu (overfiting) như: lấy mẫu phụ theo hàng, theo cột, cột cấp độ phân chia, áp dụng tăng cường quy với L1 L2 Khả tận dụng tài ngun hệ thống: tính tốn song song CPU/GPU, tính tốn phân tán nhiều server, tính tốn tài ngun bị giới hạn, tối ưu nhớ đệm để tăng tốc huấn luyện Và cuối khả xử lý giá trị liệu bị thiếu, tiếp tục huấn luyện mơ hình xây dựng trước để tiết kiệm thời gian 2.4 Đánh giá mơ hình 2.4.1 Độ đo dùng phân loại Khi xây dựng mô hình Machine Learning, cần phép đánh giá để xem mơ hình sử dụng có hiệu khơng để so sánh khả mơ hình Trong trường hợp phân loại hai lớp, sử dụng ma trận nhầm lẫn để tính độ đo Giả sử ta có số TP, FP, TN, FN dương tính đúng, dương tính sai, âm tính đúng, âm tính sai độ đo tính cơng thức: Độ xác : Tỉ lệ dương đúng: Tỉ lệ dương sai: Các độ đo nói có giá trị nằm khoảng [0, 1] Chúng ta sử dụng tpr fpr để vẽ đường cong ROC tính AUC Còn độ đo accuracy dùng ta quan tâm tới độ xác nói chung 2.4.2 ROC AUC Đường cong ROC (Receiver operating characteristic) AUC (Area under Curve) sử dụng để ước lượng tính tốn hiệu mơ hình phân loại Nó đo lường khả phân biệt (discrimination power) mơ hình phân loại Nói 11 cách đơn giản, kiểm tra khả phân biệt kiện mô hình phân lớp Đường cong ROC biểu diễn tỷ lệ dương tính (tpr) so với tỉ lệ dương tính sai (fpr) AUC tính diện tính phía đường cong ROC AUC cung cấp thước đo tổng hợp hiệu suất tất ngưỡng phân loại có Như hình bên dưới, AUC tính phần diện tích màu xám Trong nhiều mơ hình học máy, AUC sử dụng làm thước đo để đánh giá mơ hình Hình 2.4 Đường cong ROC AUC 2.4.3 Đánh giá mơ hình kiểm tra chéo Khi sử dụng thuật toán phân loại hồi quy, công đoạn quan trọng đánh giá độ xác mơ hình Có nhiều cách để đánh giá mơ hình, chúng tơi sử dụng kiểm tra chéo (cross-validation) để đạt hiệu tốt Có phương pháp kiểm tra chéo thường sử dụng Kiểm tra chéo với tập tách riêng: nghĩa tách huấn luyện làm hai tập riêng biệt, thường với tỉ lệ 70/30 Sau huấn luyện tập huấn luyện kiểm tra tập kiểm thử 12 Kiểm tra chéo k-fold : phương pháp chia tập mẫu thành k tập con, thực k lần phương án chọn tập làm tập kiểm thử gộp k-1 tập lại làm tập huấn luyện 2.5 Kết luận Trong chương tơi giới thiệu thuật tốn từ đến nâng cao áp dụng để huấn luyện mơ hình Đồng thời tơi đưa số để đánh giá chất lượng mô hình, từ tơi định lựa chọn sử dụng mơ hình cho bước cuối huấn luyện dự đốn tồn tập th bao Khi chuẩn bị liệu, lựa chọn thuật tốn sử dụng, tơi bắt đầu tiến vào bước cuối cùng, bước thực nghiệm Từ liệu có, tơi phải trích xuất đặc trưng, sau lựa chọn đặc trưng mạnh mẽ, cuối áp dụng thuật toán giới thiệu chương để tiến hành huấn luyện, kiểm tra rút kết luận cuối 13 CHƯƠNG - ỨNG DỤNG HỌC MÁY ĐỂ PHÂN NHĨM NGHỀ NGHIỆP 3.1 Mơ hình đề xuất Có nhiều thuật tốn sử dụng cho toán phân loại, tốn phân loại nhị phân Để đánh giá xem thuật toán đạt chất lượng tốt nhất, sử dụng phần mềm H2O tảng R H2O cho phép hệ thống tự động lựa chọn thuật toán phổ biến danh sách bao gồm XGBoost, GBM, GLM, DRF (bao gồm DF XFT), chạy lặp lặp lại nhiều lần xếp chúng theo độ xác AUC giảm dần Sử dụng H2O giúp chúng tơi đẩy nhanh q trình training testing, từ có thời gian tập trung vào việc xử lý liệu xây dựng đặc trưng phù hợp, nâng cao chất lượng mơ hình 3.2 Xử lý liệu 3.2.1 Các bảng liệu Để chuẩn bị liệu đầu vào cho tốn, chúng tơi phải xử lý làm tồn liệu dạng log giao dịch nhà mạng Các liệu tổ chức thành bảng riêng biệt có cấu trúc, bao gồm bảng sau: - Bảng log thoại tin nhắn : Đây liệu phát sinh hành động gọi thoại, nhắn tin sms, mms thuê bao bao gồm chi tiết hướng gọi, thời gian, vị trí, thiết bị, tài khoản sử dụng - Bảng thông tin số dư hàng ngày: Đây bảng tổng hợp số dư tất tài khoản thuê bao thời điểm xuất báo cáo - Bảng thông tin cước : Đây bảng tổng hợp hàng tháng, thể chi tiết cước loại dịch vụ mà thuê bao sử dụng - Bảng nạp, ứng tiền : Thể chi tiết giao dịch nạp ứng tiền, trả tiền thuê bao - Bảng sử dụng dịch vụ mạng: Thể thông tin chi tiết hành vi sử dụng internet dung lượng sử dụng, thời gian sử dụng, vị trí, thiết bị sử dụng, cước sử dụng … 14 - Bảng dịch vụ VAS: Đây bảng thể lịch sử đăng kí, hủy đăng kí gia hạn dịch vụ giá trị gia tăng khách hàng 3.2.2 Xây dựng đặc trưng Sau khảo sát tổ chức lại liệu, bắt đầu xây dựng đặc trưng cho toán Ban đầu, đặc trưng thiết kế mức tối đa cách gom nhóm thơng tin trường liệu, tổ hợp trường liệu với nhau, tổ hợp thông tin giống bảng lại với thực phép toán thống kê lấy giá trị nhỏ (min), lấy giá trị lớn (max), lấy trung bình (avg), lấy tỉ lệ (ratio) Ngồi ra, chúng tơi cịn tổng hợp tất tổ hợp tạo theo mức thời gian, theo khung giờ, theo ngày, tuần, tháng Kết quả, xây dựng 5000 đặc trưng để phục vụ cho bước tốn 3.2.2 Trích chọn đặc trưng Trong bước trước, tập hợp 5000 đặc trưng tất Tuy nhiên học máy, nhiều đặc trưng độ xác cao, mà ngược lại cịn gây nhiễu khiến trình học máy tốn thời gian thiếu xác Vì vậy, chúng tơi phải rút gọn bớt đặc trưng mà đảm bảo tính hiệu mơ hình Chúng tơi sử dụng phương pháp trọng số dấu hiệu (WOE - weight of evidence) để trích chọn đặc trưng Phương pháp xếp hạng đặc trưng thành mạnh, trung bình, yếu, khơng tác động,… dựa khả năng, sức mạnh dự đoán Tiêu chuẩn xếp hạng số giá trị thơng tin IV (information value) tính tốn từ phương pháp WOE Đồng thời mơ hình tạo giá trị features cho biến Giá trị đo lường khác biệt phân phối good bad Bằng cách rút gọn lấy đặc trưng mạnh mẽ để xây dựng mơ hình Thực công việc với bảng lấy top 100 đặc trưng tốt nhất, chúng tơi rút gọn cịn 811 đặc trưng để phục vụ cho giai đoạn 15 Bảng 3.9 Bảng mô tả đặc trưng 3.3 Thực nghiệm kết Sau xử lý liệu trích chọn xong đặc trưng, chúng tơi tiến hành bước cuối huấn luyện đánh giá mơ hình.Để thực nhanh việc huấn luyện kiểm tra mơ hình, chúng tơi sử dụng phần mềm H2O tảng R Đây công cụ mạnh mẽ giúp nhà phát triển dễ dàng thử nghiệm mơ hình cách đơn giản nhanh chóng AutoML H2O sử dụng để tự động hóa quy trình học máy, bao gồm đào tạo tự động điều chỉnh nhiều mơ hình giới hạn thời gian người dùng định Các thuật tốn sử dụng bao gồm ba mơ hình XGBoost, GBM, GLM, DRM, DRF, XFT Tùy vào thời gian thiết lập cho phép mà AutoML chạy số thuật tốn khác nhau, sau xếp hạng chúng theo tiêu chí tốt đầu bảng Chúng tơi chia liệu thành hai nhóm: nhóm đào tạo nhóm thử nghiệm Nhóm đào tạo gồm 90% tập liệu nhằm mục đích đào tạo thuật tốn, nhóm kiểm tra chứa 10% tập liệu sử dụng để kiểm tra thuật toán Cụ thể, liệu thực tế bao gồm 12102 ghi dành cho việc huấn luyện 1286 ghi dành cho việc kiểm thử Các tham số thuật tốn tối ưu hóa cách sử dụng xác thực chéo K-lần (K=9) Chúng sử dụng R để thực thi H20 Dữ liệu để huấn luyện bao gồm 811 đặc trưng Kết sau cho H2O chạy AutoML Bảng 3.10 16 Bảng 3.10 Danh sách thuật tốn triển khai Có thể nhận thấy, ngồi mơ hình StackedEnsemble mơ hình tổng hợp họ đặc trưng tốt dựa H2O mơ hình có kết tốt sử dụng thuật toán GBM XGBoost Trong trình huấn luyện, mơ hình XGBoost cho kết tốt với giá trị AUC đạt 94.6%, GBM đạt giá trị AUC tốt 94,4% Tôi chọn mơ hình có kết tốt thuật toán XGBoost, GBM, GLM DRF để tiến hành xem xét đánh giá chi tiết Trước hết xem xét đường cong ROC validation sau thực xác thực 10-fold, nhận thấy ba mơ hình có khả phân loại tốt Trong đó, q trình kiểm thử, XGBoost tốt với mức AUC = 94.5%, GBM đạt 92,3%, DRF đạt 91,5%, cịn GLM tệ đạt 89,4% XGBoost GBM GLM DRF 17 Hình 3.2 Đường cong ROC validation Như ta thấy, thuật tốn XGBoost đạt hiệu cao Sử dụng mô hình kiểm tra lại kết tập dùng để thử nghiệm tách từ trước cho kết Bảng 3.11 Bảng 3.11 Ma trận nhầm lẫn thực dự đoán mẫu kiểm thử Chúng ta thấy, mơ hình XGBoost đoán trúng 1131 mẫu tổng số 1295 quan sát, độ xác mà mơ hình đạt 87,3% Sử dụng giá trị bảng ma trận nhầm lẫn, dựng nên biểu đồ đường cong ROC tính AUC = 93.8% Hình 3.3 Đường cong ROC cho mẫu kiểm thử 18 Như vậy, thuật tốn XGBoost dựng nên mơ hình phân loại tốt Bước chúng tơi xem xét đặc trưng quan trọng mà mô hình sử dụng Hình 3.4 Top đặc trưng theo độ quan trọng Có thể thấy, tuổi sim (sim_age_months) có trọng số cao mơ hình, điều có lẽ đa phần sinh viên người sử dụng điện thoại, có thói quen thay đổi sim liên tục, không giống lớp người làm, thường sử dụng cố định số di động Tiếp theo tỉ lệ sử cước dụng dịch vụ giá trị gia tăng (vas) cước dùng 3g (consume_ratio_origin_cost_mpre_origin_ data_cost), tỉ lệ cước gọi nội mạng (consume_origin_internal_voice_cost) tổng cước thoại, tỉ lệ số lần nạp tiền tổng số tiền nạp (recharge_ratio_times_charge), số người gọi khung 7h (call_h07_contacts) Các số phù hợp với lịch trình điều kiện sinh hoạt chung sinh viên Sau xác định đặc trưng, phải quay lại bước tổng hợp đặc trưng, xem đặc trưng có phân bố hợp lý hay khơng, có đặc trưng bị thiên lệch Sau loại bỏ đặc trưng thiên lệch, lại quay lại huấn luyện mơ hình Làm làm lại bước nhiều lần, đạt mơ hình tốt để áp dụng dự đốn cho tồn tập th bao Như vậy, ta thấy phân bố giá trị đặc trưng tương tự nhãn Điều thể đặc trưng đại diện cho phân hóa nhãn, hay nói thuật toán hoạt động tốt, đặc trưng lựa chọn 19 xác, lựa chọn thuật tốn XGBoost để thực cơng việc dự đốn tồn tập liệu 3.4 Kết luận Như vậy, sau q trình thực nghiệm, tơi chọn mơ hình XGBoost mơ hình có chất lượng tốt Sử dụng mơ hình để áp dụng cho toàn liệu nhà mạng, trình nhiều thời gian cơng sức, khối lượng liệu vơ lớn, hệ thống chạy lâu có kết Sau phân loại thuê bao, thực gọi điện để kiểm tra tay Kết khả quan, tỉ lệ đạt 80% Vì vậy, thời gian tới, để nâng cao chất lượng sản phẩm, tiếp tục tối ưu phần xử lý liệu xây dựng đặc trưng Ngồi ra, dựa vào tảng có sẵn từ dự án này, tơi phát triển sang ngành nghề khác, toán khác dự án toán liệu lớn nhà mạng KẾT LUẬN Các nhà mạng viễn thơng có khối lượng liệu lớn đa dạng cách hành vi sử dụng di động khách hàng Bằng cơng cụ học máy đại, chúng 20 ta trích xuất nhiều thơng tin hữu ích từ đó, chân dung khách hàng, thói quen, sở thích xu hướng họ Đóng góp báo cáo cho thấy sử dụng thuật toán XGBoost dựa đặc trưng có tính phân lập mạnh mẽ từ ghi thô liệu viễn thông phức tạp để phân loại th bao có sinh viên hay khơng Chúng đánh giá 811 đặc trưng này, thấy chúng có khả bao phủ cho nhiều mẫu đánh giá khác Từ đó, khơng dự đốn th bao có sinh viên hay khơng, chúng tơi áp dụng cho việc dự đoán nghề nghiệp khác tùy thuộc vào mẫu thu thập, chúng tơi cịn áp dụng tốn khác đánh giá sở thích, điểm tín dụng cá nhân, điểm tích cực thuê bao… Việc xác định đặc trưng tùy thuộc vào cá nhân, nhiệm vụ cụ thể, ngồi đặc trưng có, chúng tơi phải tiếp tục nghiên cứu liệu tìm hiểu thêm đặc trưng Bởi liệu vô cùng, cách kết hợp liệu vô tận, nên định hướng nghiên cứu xây dựng đặc trưng mới, đánh giá hiệu mơ hình thực tiễn hiệu chỉnh mơ hình cần thiết DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt 21 [1] https://moet.gov.vn/thong-ke/Pages/thong-ke.aspx - Truy cập ngày [2] 20/05/2021 https://vietnamcredit.com.vn/products/vietnam-industries/bao-cao-nganh- vien-thong-viet-nam-2020-54 – Truy cập ngày 20/05/2021 Tiếng Anh [3] CE Shannon (1948), “A Mathematical Theory of Communication”, Bell [4] System Technical Journal 27(3), 379–423 Chawla N (2005), “Data mining for imbalanced datasets: an overview”, Data [5] mining and knowledge discovery handbook, Berlin: Springer, Berlin, 853–867 Yoav Ben-Shlomo, Sara Brookes, Matthew Hickman (2013) Lecture Notes: Epidemiology, Evidence-based Medicine and Public Health, 6th Edition, [6] Wiley - Blackwell, Oxford Fawcett, Tom (2006) “An Introduction to ROC Analysis”, Pattern [7] Recognition Letters 27 (8), 861–874 Kuhn, Max; Johnson, Kjell (2013), Applied Predictive Modeling, NY: [8] Springer, New York Ho, Tin Kam (1995), “Random Decision Forests”, Proceedings of the 3rd [9] International Conference on Document Analysis and Recognition, pp 278–282 Jerome H Friedman (2001), "Greedy function approximation: A gradient [10] boosting machine " Ann Statist 29(5), 1189 - 1232 Powers, David M W (2011), "Evaluation: From Precision, Recall and FMeasure to ROC, Informedness, Markedness & Correlation", Journal of Machine Learning Technologies (1), 37–63 [11] Quinlan, J R (1986) “Induction of decision trees”, Machine Learning 1(1), 81-106 [12] Tianqi Chen, Carlos Guestrin (2016), “XGBoost: A Scalable Tree Boosting System”, “Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, August 13-17, 2016”, ACM, 785–794 22 ... sử dụng bao gồm tất CDR thuê bao suốt tháng trước thời điểm lấy mẫu Chúng sử dụng tập liệu để tổng hợp trích xuất đặc trưng cho khách hàng, sau sử dụng mơ hình học máy để dự đốn xem th bao có... hàng nghề nghiệp thuê bao di động, cụ thể đánh giá xem thuê bao có phải sinh viên hay khơng Chúng tơi chuyển tốn phân loại nhị phân để đơn giản hóa q trình lựa chọn đánh giá mơ hình Dữ liệu sử dụng. .. chân dung khách hàng từ tập th bao viễn thơng Đóng góp cơng việc chúng tơi phát triển mơ hình dự đoán nghề nghiệp thuê bao di động, giúp nhà khai thác viễn thơng dự đốn đối tượng khách hàng mình,