Luận văn tập trung vào các kỹ thuật xử lý dữ liệu lớn và các thuật toán phân lớp dữ liệu bao gồm: Phân loại tuyến tính, Hồi quy logistic, Phân loại Naïve Bayes, Rừng ngẫu nhiên (RF). Ứng dụng thuật toán học máy trong lĩnh vực kinh doanh viễn thông sử dụng dữ liệu lịch sử của tập khách hàng để xây dựng các mô hình có khả năng phân loại, dự đoán nhu cầu sử dụng của khách hàng. Mời các bạn tham khảo!
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Quang Tuấn MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG PHÂN LOẠI HÀNH VI SỬ DỤNG GĨI CƯỚC DATA VIỄN THƠNG CHUN NGHÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 8.48.01.01 TĨM TẮT LUẬN VĂN THẠC SỸ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – 2020 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS Trần Đình Quế Phản biện 1: PGS.TS BÙI THU LÂM Phản biện 2: PGS.TS PHẠM VĂN CƯỜNG Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày 09 tháng 01 năm 2021 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Ngày nay, kỷ nguyên kỹ thuật số, với bùng nổ thông tin, số lượng liệu người tạo ngày khổng lồ Số lượng điện thoại smartphone thiết bị kết nối tăng nhanh chóng, ngành cơng nghiệp viễn thơng tràn ngập với số lượng liệu khổng lồ Nguồn gốc số lượng liệu khổng lồ bao gồm liệu lưu lượng truy cập mạng, mơ hình sử dụng liệu khách hàng, liệu vị trí, ứng dụng tải về,… Ngành công nghiệp viễn thông ngày thay đổi phát triển không ngừng Điện thoại thông minh trở thành nhu cầu người sống ngày Mọi người kết nối với nơi giới, xóa bỏ rào cản khoảng cách Mọi thơng tin thu thập xử lý nhanh hết Và phân tích Big Data tạo điều kiện cho ngành công nghiệp viễn thông phát triển mạnh mẽ giới kỹ thuật số Các ứng dụng phân tích số liệu lĩnh vực viễn thông, liệu lớn hội chuyển đổi ngành viễn thông sang hướng hoạt động hiệu nhờ gia tăng mức độ hài lòng khách hàng, tăng doanh thu nhờ tăng sản lượng loại hình dịch vụ cung cấp, cắt giảm chi phí vận hành, giảm thiểu thiệt hại Trong khn khổ luận văn tập trung vào kỹ thuật xử lý liệu lớn thuật toán phân lớp liệu bao gồm: Phân loại tuyến tính, Hồi quy logistic, Phân loại Naïve Bayes, Rừng ngẫu nhiên (RF) Ứng dụng thuật toán học máy lĩnh vực kinh doanh viễn thông sử dụng liệu lịch sử tập khách hàng để xây dựng mơ hình có khả phân loại, dự đoán nhu cầu sử dụng khách hàng Tập kết dùng để hỗ trợ đơn vị kinh doanh truyền thống đưa định chiến dịch kinh doanh doanh nghiệp Cấu trúc luận văn gồm chương: Chương 1: Tổng quan toán phân loại hành vi sử dụng dịch vụ viễn thông: Trong chương trình bày tổng quan quy trình phân tích liệu, hệ thống xử lý liệu phân tán phương pháp xử lý liệu Chương 2: Mô hình hành vi số thuật tốn học máy: Chương sâu vào tìm hiểu thuật tốn rừng ngẫu nhiên, phân loại Nạve Bayes, hồi quy Logistic Chương 3: Thử nghiệm đánh giá: Chương nêu mục tiêu thử nghiệm toán, ý nghĩa số đo thử nghiệm xây dựng mơ hình dự đốn với thuật tốn nêu đánh giá kết CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THÔNG 0.1 Giới thiệu tốn Các ứng dụng phân tích số liệu lĩnh vực viễn thông, liệu lớn hội chuyển đổi ngành viễn thông sang hướng hoạt động hiệu nhờ gia tăng mức độ hài lòng khách hàng, tăng doanh thu nhờ tăng sản lượng loại hình dịch vụ cung cấp, cắt giảm chi phí vận hành, giảm thiểu thiệt hại Trong khn khổ luận văn tập trung vào kỹ thuật xử lý liệu lớn thuật toán phân lớp liệu bao gồm: Phân loại tuyến tính, Hồi quy logistic, Phân loại Naïve Bayes, Rừng ngẫu nhiên (RF) Ứng dụng thuật toán học máy lĩnh vực kinh doanh viễn thông sử dụng liệu lịch sử tập khách hàng để xây dựng mơ hình có khả phân loại, dự đoán nhu cầu sử dụng khách hàng Tập kết dùng để hỗ trợ đơn vị kinh doanh truyền thống đưa định chiến dịch kinh doanh doanh nghiệp 0.2 Tổng quan quy trình phân tích liệu 1.2.1 Tổng quan - Sự kiện bắt đầu: Kinh doanh gửi PYC thực dự án - Sự kiện kết thúc: Triển khai theo dõi kết hành vi sau tác động - Đầu vào: Tài liệu đánh giá phạm vi mục tiêu chương trình ứng dụng kinh doanh dựa phân tích liệu - Đầu ra: Bảng liệu sau q trình mơ hình dự đốn Chương trình kinh doanh tác động đến khách hàng cuối dựa phân tích liệu Báo cáo kết đánh giá chương trình Triển khai mở rộng xây dựng chiến dịch định kỳ 1.2.2 Quy trình triển khai tốn phân tích liệu Bảng 1.1: Quy trình triển khai tốn phân tích liệu Hoạt động Các nội dung quan trọng Đơn vị kinh doanh: đưa yêu cầu tốn, mơ tả rõ Đưa u cầu toán trạng mục tiêu đầu mong muốn doanh thu tỷ lệ take up rate Đơn vị kinh doanh: Đặt mục tiêu đầu mong muốn Xác định yêu cầu, phạm vi KPI mục tiêu cần doanh thu tỷ lệ take up rate Xác định KPI số để đánh giá mơ hình dự đốn tốn phân tích đạt Xác định KPI kết triển khai campaign ứng dụng phân tích liệu Hypothesis testing Clean data, Explore Data, data understanding and 3.Phân tích mơ tả preparation (Descriptive analytics) Plan phân tích Phân tích chứng minh giả thiết TT PTDL đưa danh sách đặc trưng liên quan đến 4.Xây dựng đặc trưng liệu liệu (feature engineering) TTSP sử dụng kết trực quan hóa kinh nghiệm mặt kinh doanh giúp đóng vai trị tư vấn 5.Xây dựng model dự đoán phù hợp với chương TT PTDL xây dựng mơ hình dự đốn theo đặc trình analystics) (Predictive trưng liệu thống Hoạt động Các nội dung quan trọng 6.Trực quan hóa kết quả, TT PTDL trực quan hóa đặc tính thuê bao thuyết phục với đơn vị dự đoán yêu cầu Thuyết phục đơn vị kinh doanh kết đầu Lựa chọn sản phẩm, offer phù hợp với đặc tính 7.Xây dựng kịch nhóm th bao truyền thơng Xây dựng kịch tác động, nội dung tin nhắn, thời điểm, trigger tác động Phối hợp với đơn vị P.QLDT, TTSP, TKCS để khai báo campaign tác động đến khách hàng cuối 8.Triển khai theo dõi Chia tập tác động thành tập Target Group – để tác kết động Control Group - để theo dõi Xây dựng Dashboard để theo dõi số KPI diễn biến hành vi thuê bao sau tác động 9.Báo cáo kết Báo cáo kết chương trình tới BTGĐ 10.Triển khai mở rộng, Nếu kết chương trình tốt, triển khai mở rộng định kỳ đựng thành luồng định kỳ hàng ngày/hàng tháng 1.2.3 Lưu đồ quy trình thực dự án ứng dụng phân tích liệu Hình 1.1 Lưu đồ quy trình thực dự án ứng dụng phân tích liệu 0.3 Xử lý liệu phân tán với Spark 1.3.1 Giới thiệu Thành phần Spark Spark Core: cung cấp chức Spark lập lịch cho tác vụ, quản lý nhớ, fault recovery, tương tác với hệ thống lưu trữ…Đặc biệt, Spark Core cung cấp API để định nghĩa RDD (Resilient Distributed DataSet) tập hợp item phân tán node cluster xử lý song song Spark chạy nhiều loại Cluster Managers Hadoop YARN, Apache Mesos cluster manager cung cấp Spark gọi Standalone Scheduler Hình 1.2: Các thành phần Spark 1.3.2 Cơ chế hoạt động Để tìm hiểu spark bắt đầu với lịch sử hình thành phát triển Trước Spark biết tới MapReduce- framework xử lý liệu phân tán giúp Google thiết lập index bùng nổ nội dung web, cụm máy chủ lớn Hình 1.3: Cơ chế hoạt động ứng dụng Spark Có ba khái niệm cốt lõi chiến lược Google: Distribute Data: Khi tệp liệu tải lên cụm, chia thành phần gọi data block sau phân phối chạy data nodes nhân rộng cluster Distribute computation: người dùng định map function để xử lý liệu dựa cặp key/value Để tạo tập cặp key/value kết hợp chúng với reduce function tất giá trị trung gian liên kết với khóa Một chương trình viết theo cấu trúc tự động chạy song song cụm cluster lớn 1.3.3 Spark application Biểu đồ bên biểu diễn luồng chạy ứng dụng Spark chạy cụm cluster Mỗi ứng dụng spark chạy dạng quy trình độc lập điều phối Spark Session Trình quản lý tài nguyên hay quản lý cluster phân công nhiệm vụ cho worker, task cho partition Mỗi task giao cho phần khối lượng dataset partition output sẽ xuất partition dataset Kết gửi trở lại driver application lưu vào ổ đĩa Hình 1.4: Luồng hoạt động ứng dụng Spark 0.4 Các số đánh giá hiệu mơ hình 1.4.1 Ma trận nhầm lẫn (Confusion matrix) 1.4.2 Các số Accuracy, Precision, Recall F1 score Accuracy: Chỉ số đánh giá độ xác tổng thể mơ hình Giá trị độ xác nằm khoảng đến Với giá trị độ xác tốt giá trị độ xác thấp mơ hình dự đốn Độ xác (ACC) tính số tất dự đoán chia cho tổng số dự đoán tập liệu 𝐴𝐶𝐶 = 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 Precision: Chỉ số đánh giá tổng số dự đốn xác nhãn chia cho tổng số dự đoán dự đoán nhãn Giá trị lớn độ xác nhỏ Để tính Precision ta sử dụng công thức sau: 𝑃𝑟𝑒𝑐 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 Recall: Chỉ số thể mơ hình dự đốn phần nhãn tổng số lượng nhãn tập Nó cịn có tên gọi Tỉ lệ dương tính thực (TPR) Để tính recall ta sử dụng công thức sau: 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 F1-score: Chỉ số kết hợp số Precision Recall Để tính F1-score ta sử dụng công thức sau: 𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 Đường cong ROC Đường cong ROC (receiver operating characteristic) biểu đồ thể hiệu phân loại nhãn mơ hình tất ngưỡng điểm phân loại Biểu đồ tạo nên từ hai trục chứa giá trị True Positive Rate False Positive Rate True Positive Rate (TPR) Recall trình bày phần Cơng thức tính TPR: 𝑇𝑃𝑅 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 False Positive Rate (FPR) tính cơng thức: 𝐹𝑃𝑅 = 𝐹𝑃 𝐹𝑃 + 𝑇𝑁 Biểu đồ đường cong ROC vẽ giá trị khác TPR FPR ngưỡng cắt khác phân lớp Việc hạ thấp ngưỡng phân loại phân loại nhiều nhiều nhãn dương tính song làm tăng nhãn dương tính sai nhãn dương tính Hình 1.5: Đường cong ROC Để đánh giá mơ hình người ta sử dụng AUC: Area Under the ROC Curve AUC tính diện tích phần hình nằm bên đường cong Giá trị diện tích nằm khoảng [0,1] Hình 1Error! No text of specified style in document 6: Diện tích bên đường cong ROC 10 1.5 Các phương pháp xây dựng đặc trưng liệu Xây dựng đặc trưng liệu tiến trình lựa chọn đặc tính tập liệu hay giảm số lượng trường liệu trình xây dựng mơ hình dự đốn Với mục đích giảm thời gian tính tốn, chi phí cải thiện hiệu dự đốn mơ hình Có nhiều phương pháp để lựa chọn đặc trưng liệu chia chúng thành ba nhóm chính: - Phương pháp lọc: Xác định số số định dựa số để lựa chọn đặc trưng Ví dụ dựa vào số tương quan chi bình phương - Phương pháp đóng gói: Phương pháp xem xét việc lựa chọn tập đặc trưng vấn đề tìm kiếm Ví dụ thuật tốn đệ quy loại bỏ tính - Phương pháp nhúng: Phương pháp nhúng sử dụng thuật toán có phương pháp lựa chọn đặc trưng tích hợp sẵn Ví dụ Lasso RF có phương pháp lựa chọn đặc trưng riêng 1.5.1 Các phương pháp thống kê lựa chọn đặc trưng liệu với phương pháp lọc Các phương pháp thống kê lựa chọn đặc trưng liệu với phương pháp lọc thường sử dụng số thể mức độ tương quan biến đầu vào biến đầu để làm sở cho việc lựa chọn đặc trưng Do việc lựa chọn phương pháp thống kê phụ thuộc nhiều vào kiểu liệu biến Các kiểu liệu phổ biến bao gồm liệu dạng số liệu dạng phân loại, loại chia thành nhiều kiểu liệu dạng số nguyên, dạng số thập phân cho liệu dạng số dạng nhị phân, thứ tự định danh cho liệu dạng phân loại 1.5.1.1 Hệ số tương quan Pearson’s Hệ số tương quan số thống kê đo mối liên hệ tương quan hai biến số Giá trị hệ số tương quan r ( -1 ≤ r ≤ 1) Hệ số tương quan gần có nghĩa hai biến xét khơng có mối liên hệ với nhau; ngược lại giá trị hệ số tương quan gần -1 nghĩa hai biến có mối quan hệ tuyệt đối Nếu hệ số tương quan có giá trị âm hai biến nghịch biến hệ số tương quan dương hai biến đồng biến Hiện có nhiều cơng thức để tính hệ số tương quan hai biến thơng dụng cơng thức tính hệ số tương quan Pearson Tương quan Person xác định đường thẳng phù hợp với mối quan hệ tuyến tính hai biến Xét hai biến số x y lấy từ n mẫu, hệ số tương quan Pearson tính cơng thức sau: 11 ∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙)(𝒚𝒊 − 𝒚) 𝒓= √∑𝒏𝒊=𝟏(𝒙𝒊 − 𝒙)𝟐 ∑𝒏𝒊=𝟏(𝒚𝒊 − 𝒚)𝟐 1.5.1.2 Hệ số tương quan hạng Spearman Hệ số tương quan hạng Spearman sử dụng thay hệ số tương quan Pearson để kiểm tra mối quan hệ hai biến xếp hạng biến xếp hạng biến đo lường Sử dụng phân phối tổng thể giả sử phân phối chuẩn trường hợp có giá trị quan sát bất thường (lớn nhỏ quá) 𝑠𝑝𝑒𝑎𝑟𝑚𝑎𝑛𝑐𝑜𝑟 ∑𝑛𝑖 𝑑𝑖2 = 1− 𝑛(𝑛2 − 1) Trong 𝑑𝑖 hiệu hạng biến tính bằng: 𝑑𝑖 = 𝑟𝑎𝑛𝑘𝑋𝑖 − 𝑟𝑎𝑛𝑘𝑌𝑖 1.5.1.3 Kiểm định chi bình phương (Chi squared) Là phương pháp tính hệ số tương quan biến độc lập biến phụ thuộc Các biến chọn làm đặc trưng tập liệu biến có hệ số Chi bình phương lớn Cơng thức tính Chi bình phương: 𝑛 (𝑂𝑖 − 𝐸𝑖 )2 𝑋 =∑ 𝐸𝑖 𝑖=1 Trong đó: 𝑂𝑖 giá trị quan sát 𝐸𝑖 giá trị kỳ vọng 1.5.2 Các phương pháp thống kê lựa chọn đặc trưng liệu với phương pháp đóng gói Đệ quy loại bỏ đặc tính (Recursive Feature Elimination-RFE) phương pháp lựa chọn đặc trưng liệu phổ biến RFE loại bỏ trường liệu có tương quan yếu biến phụ thuộc đạt tới số lượng trường liệu cần thiết người dùng xác định từ trước Với số lượng trường liệu mơ hình dự đốn chạy hiệu hơn, giảm tài nguyên, thời gian chạy nâng cao hiệu dự đoán RFE hoạt động cách tìm kiếm tập trường liệu bắt đầu việc sử dụng tất trường liệu Sau lần huấn luyện mô hình, trường liệu 12 xếp theo thứ tự giảm dần mức độ quan trọng Sau trường liệu mức độ quan trọng thấp bỏ lặp lại trình huấn luyện 1.5.3 Các phương pháp thống kê lựa chọn đặc trưng liệu với phương pháp nhúng Sử dụng thuật tốn Rừng ngẫu nhiên để tính mức độ quan trọng thuộc tính Đối với thuật tốn rừng ngẫu nhiên lần thực phân chia nốt cha tạo hai lớp có số độ khiết GINI nhỏ nốt cha Công thức tính độ khiết GINI: 𝑛 𝐺 = ∑ 𝑝𝑖 (1 − 𝑝𝑖 ) 𝑖=1 Hình 1.9: Đồ thị biểu diễn độ khiết GINI Tại nốt số đánh giá mức độ quan trọng thuộc tính tính cơng thức: 𝐼 = 𝐺𝑝𝑎𝑟𝑒𝑛𝑡 − 𝐺𝑠𝑝𝑙𝑖𝑡1 − 𝐺𝑠𝑝𝑙𝑖𝑡2 Trong đó: 𝐺𝑝𝑎𝑟𝑒𝑛𝑡 độ khiết nốt cha 𝐺𝑠𝑝𝑙𝑖𝑡1 độ khiết nốt thứ 𝐺𝑠𝑝𝑙𝑖𝑡2 độ khiết nốt thứ hai 1.6 Kỹ thuật tiền xử lý liệu Kỹ thuật tiền xử lý liệu kỹ thuật tối quan trọng trình xây dựng mơ hình dự đốn với thuật tốn học máy Chúng ta biết thuật toán học máy dựa vào tập liệu đầu vào để đưa kết dự đoán Nhưng vấn đề lớn 13 mà mơ hình gặp phải chất lượng liệu đầu vào không đủ tốt Đó lý dành phần lớn thời gian q trình xây dựng mơ hình dự đốn cho tiến trình tiền xử lý liệu Các kỹ thuật tiền xử lý liệu điểm khác biệt lớn mơ hình dự đốn tốt mơ hình dự đốn khơng tốt 1.7 Thuật tốn giảm chiều liệu (PCA) Thuật toán giảm chiều liệu PCA (Principal Components Analysis) kỹ thuật chuyển đổi trường liệu tập liệu thành trường liệu gọi Principal Component (PCs) Mục tiêu số trường liệu giảm tối thiểu so với số lượng trường liệu ban đầu mà chứa đủ thông tin đại diện cho tập liệu Hay nói cách khác PCA kỹ thuật gộp trường liệu hành Mỗi trường liệu tổ hợp có trọng số trường liệu gốc Các PC hình thành theo cách gán trọng số lớn cho PC thành phần có tính đại diện lớn cho liệu gốc Hình 1.10: Mơ thuật tốn PCA Kết chương 14 CHƯƠNG 2: MƠ HÌNH HÀNH VI VÀ MỘT SỐ THUẬT TỐN HỌC MÁY 2.1 Thuật tốn rừng ngẫu nhiên (Random Forest) 2.1.1 Cây định 2.1.1.2 Khái niệm Cây định (Decision tree) mô hình supervised learning, áp dụng vào hai toán classification regression Việc xây dựng decision tree liệu huấn luyện cho trước việc xác định câu hỏi thứ tự chúng Decision tree làm việc với tập liệu có đặc trưng dạng categorical dạng numerical Decision Tree thuật tốn có cấu trúc dạng cây, internal node thể cho thuộc tính liệu, nhánh node biểu diễn giá trị thuộc tính leaf node chứa class label 2.1.1.2 Ý tưởng thuật toán Bước 1: Bắt đầu với việc set tập liệu S root node Bước 2: Lặp lại việc tính tốn Entropy(H) Information Gain(IG) với thuộc tính Bước 3: Lựa chọn thuộc tính có Entropy nhỏ Information Gain lớn làm internal node Bước 4: Chia tập S theo thuộc tính lựa chọn để tạo tập liệu Bước 5: Thuật toán lặp lại tập xem xét thuộc tính chưa lựa chọn làm internal node trước 2.1.1.3 Cơ sở lý thuyết a Hàm số Entropy Cho phân phối xác suất biến rời rạc x nhận n giá trị khác x1,x2,…,xn Giả sử xác suất để x nhận giá trị pi=p(x=xi) Ký hiệu phân phối p=(p1 ,p2,…,pn) Entropy phân phối là: 𝑛 𝑝 H(𝑝) = − ∑ 𝑝𝑖 𝑙𝑜𝑔 2𝑖 𝑖=1 15 Hình 1.11: Đồ thị hàm Entropy b Information Gain Information Gain tính dựa giảm hàm Entropy tập liệu phân chia thuộc tính Để xây dựng định, ta phải tìm tất thuộc tính trả Infomation gain cao Do H(S) không đổi với tầng, ta chọn thuộc tính f có Entropy nhỏ để thu Gain(x,S) lớn G(𝑥,𝑆) = H(𝑠) − H(𝑥,𝑆) Trong đó: H(S) Entropy tổng toàn tập data set S H(x,S) Entropy tính thuộc tính x 2.1.2 Thuật tốn rừng ngẫu nhiên (Random Forest) 2.1.2.1 Khái niệm Random forest tập hợp mơ hình (ensemble) gồm nhiều định (decision tree) Mơ hình Random Forest hiệu cho tốn phân loại huy động lúc hàng trăm mơ hình nhỏ bên với quy luật khác để đưa định cuối Mỗi mơ hình mạnh yếu khác nhau, theo nguyên tắc “wisdom of the crowd”, ta có hội phân loại xác so với sử dụng mơ hình đơn lẻ Như tên gọi nó, Random Forest (RF) dựa sở : - Random = Tính ngẫu nhiên - Forest = nhiều định (decision tree) Đơn vị RF thuật toán định, với số lượng hàng trăm Mỗi định tạo cách ngẫu nhiên từ việc: Tái chọn mẫu (bootstrap, random sampling) dùng phần nhỏ tập biến ngẫu nhiên (random features) từ toàn biến 16 liệu Ở trạng thái sau cùng, mơ hình RF thường hoạt động xác, đổi lại, khó để hiểu chế hoạt động bên mơ hình cấu trúc q phức tạp 2.1.2.2 Ý tưởng thuật tốn Hình 1.12: Ý tưởng thuật toán Rừng ngẫu nhiên 2.1.2.3 Ưu điểm, nhược điểm 2.2 Thuật tốn Nạve Bayes 2.2.1 Suy diễn Bayes Suy diễn Bayes phương pháp suy diễn thống kê, định lý Bayes sử dụng để cập nhật xác suất/khả xảy giả thuyết nhiều liệu/thông tin giả thuyết cung cấp đầy đủ Suy diễn Bayes hình thành dựa xác suất có điều kiện Biết A B hai kiện xảy ra, xác xuất xảy A với điều kiện B biết trước tính cơng thức: 𝑃(𝐴|𝐵) = 𝑃(𝐴|𝐵) 𝑃(𝐴) 𝑃(𝐵) Trong đó: P(A|B): xác suất hậu nghiệm (posterior probability) P(B|A): xác suất hợp lý (likelihood probability) P(A): xác suất tiên nghiệm (prior probability) P(B): thực chứng (evidence) 17 2.2.2 Cơ sở lý thuyết Đối với toán phân loại machine learning, phương pháp Naïve-Bayes dùng tương đối phổ biến đem lại kết khả quan Trong thuật tốn này, xác suất có điều kiện ứng dụng để xác định xác suất xảy nhãn chọn nhãn có xác suất cao với điều kiện trường liệu features điểm liệu Giả sử thuật tốn phân loại Nạve-bayes nhãn Y cho điểm liệu, x1, x2, …xn xác suất hậu nghiệm suy diễn Bayes (coi theta Θ Y, data x1,x2, xn) với xác suất xảy sau: 2.2.3 Ứng dụng Bayes phân tích liệu Trong tồn phân tích liệu, trường phân loại (nhãn) tập liệu gốc thường không bao gồm đầy đủ cho điểm liệu Do vậy, việc phân tích ước lượng xác suất tập sample (tập có đầy đủ nhãn) suy đốn toàn tập lớn (population) hoàn toàn cần thiết 2.3 Thuật toán Logistic Regression 2.3.1 Khái niệm Logistic Regression (Hồi quy logistic) mơ hình hồi quy nhằm dự đoán phân lớp giá trị đầu ứng với vector đầu vào Nói cách khác, mục tiêu phương pháp nhằm phân loại đối tượng vào lớp tương ứng Đầu vào mơ hình tập liệu với biến phụ thuộc biến độc lập Mơ hình sử dụng giá trị biến phụ thuộc để dự đoán giá trị biến độc lập Đối với tốn Logistic regression đầu toán xác suất dự đoán ứng với giá trị biến độc lập 2.3.2 Cơ sở lý thuyết Sử dụng phương pháp thống kê ta cho khả đối tượng có thuộc tính x nằm vào nhóm y0 xác suất nhóm y0 biết x: 𝑝(𝑦0 |𝑥 ) Dựa vào cơng thức xác suất có điều kiện ta có: 18 𝑝(𝑦0 |𝑥 ) = 𝑝(𝑥 |𝑦0 ) 𝑝(𝑦0 ) 𝑝(𝑥 |𝑦0 ) 𝑝(𝑦0 ) = 𝑝(𝑥) 𝑝(𝑥 |𝑦0 ) 𝑝(𝑦0 ) + 𝑝(𝑥 |𝑦1 ) 𝑝(𝑦1 ) Nếu ta đặt: 𝑎 = ln 𝑝(𝑥 |𝑦0 ) 𝑝(𝑦0 ) 𝑝(𝑥 |𝑦1 ) 𝑝(𝑦1 ) Ta có: 𝑝(𝑦0 |𝑥 ) = = 𝜎(𝑎) + 𝑒 −𝑎 Hàm gọi hàm sigmoid biến a, vẽ phân phối a hàm sigmoid, ta có: Hình 1Error! No text of specified style in document 13: Đồ thị hàm sigmoid Kết chương 19 CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 3.1 Đặt vấn đề Ứng dụng thuật toán học máy lĩnh vực kinh doanh viễn thông sử dụng liệu lịch sử tập khách hàng để xây dựng mơ hình có khả phân loại, dự đoán nhu cầu sử dụng khách hàng Tập kết dùng để hỗ trợ đơn vị kinh doanh truyền thống đưa định chiến dịch kinh doanh doanh nghiệp 3.2 Xác định toán Mục tiêu toán: Xây dựng mơ hình dự đốn tập khách hàng có nhu cầu sử dụng gia tăng lưu lượng, tiêu dùng dịch vụ Song song với xây dựng mơ hình đề xuất sản phẩm viễn thơng phù hợp với nhu cầu gia tăng tiêu dùng khách hàng Thử nghiệm xây dựng mơ hình dự đốn với thuật tốn Hồi quy tuyến tính, Phân loại Nạve Bayes Rừng ngẫu nhiên (RF) Từ so sánh hiệu để tìm thuật tốn phù hợp với liệu xét Sau ứng dụng kết dự đốn mơ hình vào thực tế so sánh hiệu dựa số tỉ lệ dự đoán tự nhiên 3.3 Quy trình xây dựng mơ hình học máy Quy trình xây dựng mơ hình học máy gồm bước sau: Hình 1Error! No text of specified style in document 14: Các bước xây dựng mơ hình học máy 20 3.4 Thực nghiệm 3.5 Kết thực nghiệm Trong khuôn khổ luận văn em thử nghiệm xây dựng mơ hình dự đốn nhu cầu dùng tăng dịch vụ data nhà mạng Viettel Với liệu huấn luyện mơ hình bao gồm liệu liên quan tới lịch sử sử dụng data, gọi thoại, nhắn tin, nạp tiền thuê bao sử dụng dịch vụ viễn thông nhà mạng Viettel Cả ba tập liệu đầu vào mơ hình giống tiền xử lý liệu để đảm bảo công việc so sánh hiệu dự đoán mơ hình Biểu đồ biểu diễn độ đo precision recall thể tỉ lệ dự đoán độ phủ mơ hình hai tập liệu huấn luyện xác thực Từ điểm hình ta xác định ứng với phần trăm tập liệu dự đốn có độ xác độ phủ Nếu phần trăm tập liệu lớn độ xác giảm độ phủ tăng Hình 1.15: Precision-Recall thuật tốn Nạve Bayes 21 Hình 1.16: Precision-Recall thuật tốn hồi quy Logistic Hình 1.17: Precision-Recall thuật tốn rừng ngẫu nhiên 3.6 Xây dựng hệ thống 3.6.1 Giới thiệu hệ thống Mục đích: Xây dựng hệ thống quản lý machine learning work flow, bao gồm toàn trình training, testing, inference data scientist thường phải thực Một số mục tiêu cụ thể: - Cung cấp giao diện quản lý tiến trình training, testing, inference - Cung cấp giao diện quản lý model machine learning - Cơ chế sử dụng AutoML để tự động chọn model tham số tối ưu - Cơ chế manual define tham số training nhiều model đồng thời 22 Các chức chính: Tạo model: - Tạo model với chế độ: người dùng tự define tham số, sử dụng AutoML tự động chọn lựa tham số - Khi tạo model xong chọn đồng thời option để train/ test inference - Chọn dataset tương ứng với option - Chọn location HDFS để lưu trữ report output Sử dụng model: - Chọn model list model train - Khi chọn model xong chọn đồng thời option để train/ test inference - Chọn dataset tương ứng với option - Chọn location HDFS để lưu trữ report output Quản lý model: - Hệ thống lưu lại quản lý model train - Hệ thống hiển thị chi tiết model (tham số, training score, validation score, ) - Hệ thống lưu lại logs, report cho lần chạy 3.6.2 Biểu đồ ca sử dụng hành vi người dùng 3.6.3 Biểu đồ ca sử dụng giám sát dự án 3.6.4 Biểu đồ ca sử dụng giám sát mơ hình 3.6.5 Giao diện Home 3.6.6 Giao diện điều hướng 3.6.7 Giao diện thông tin chung 3.6.8 Giao diện nguồn liệu 3.6.9 Giao diện thơng tin mơ hình 3.7 Kết triển khai thực tế 3.7.1 Các số tính hiệu triển khai 3.7.2 Kết triển khai thực tế Kết chương 23 KẾT LUẬN CHUNG Các kết thu luận văn Sau thử nghiệm thuật tốn phân loại Nạve Bayes, hồi quy Logistic, rừng ngẫu nhiên đối tập liệu thuật tốn rừng ngẫu nhiên cho kết dự đốn xác sau tới thuật tốn hồi quy Logistic thuật tốn Nạve Bayes cho kết dự đốn xác Hiện tốn mơ hình upgrade tương đối tốt đạt tới ngưỡng gần improve kĩ thuật thơng thường mà improve dựa việc xây dựng features có giá trị phân loại tốt hơn; thêm vào cách xây dựng mơ hình upgrade tương đối đơn giản nên trước mắt chưa có phương pháp để improve mơ hình Thêm vào đó, việc cân đối số lượng sản phẩm mơ hình ảnh hưởng lớn đến performance chung mơ hình đưa dự đoán cho sản phẩm thiểu số Định hướng nghiên cứu Dựa vấn đề định hướng thử nghiệm phương pháp sau: - Từ p1 thu tương ứng với sản phẩm, giả định với score p1 cao tương ứng với thuê bao có khả mua sản phẩm cao Chọn sản phẩm có p1 cao để tiến hành back test Kết hợp kết back test với phân tích cluster - Từ kết thu trial 1st từ performance model riêng biệt Đánh giá mơ hình thu hoạt động tốt khả dự đốn xu hướng sử dụng gói th bao, nhiên để đưa đến xếp hạng score cuối sản phẩm mua cần phương pháp rõ ràng xác Vì vậy, thử áp dụng mơ hình phân lớp cho score p1 thu từ model với mục tiêu xây dựng “MODEL MASTER” có khả tổng hợp kết từ mơ hình nhỏ Từ kết quan sát thử nghiệm trước trình xây dựng mơ hình riêng biệt, nhận thấy: Tuy model bị ảnh hưởng tượng imblance sử dụng phương pháp Downsampling để cải thiện performance Nhưng yếu tố ảnh hưởng đến ranking scores mơ hình khơng tỉ lệ nhãn (0:1) mà yếu tố chưa đề cập tới số lượng tuyệt đối nhãn mơ hình Bởi số lượng thuê bao có mua gói ngày/n-ngày so với số lượng thuê bao mua gói tháng có số lượng chênh lệch đáng kể 24 Vì vậy, để calibrate thành cơng kết mơ hình cần hàm có khả cover tất yếu tố Từ đó, tiến hành nghiên cứu tìm hiểu phương pháp calibrate khác thường áp dụng Kết số phương pháp phổ biến Platt’s Scaling Isotonic Regression đề cập đến tài liệu calibration khác ... đốn với thuật toán nêu đánh giá kết 2 CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI HÀNH VI SỬ DỤNG DỊCH VỤ VI? ??N THÔNG 0.1 Giới thiệu tốn Các ứng dụng phân tích số liệu lĩnh vực vi? ??n thông, liệu lớn... khổ luận văn tập trung vào kỹ thuật xử lý liệu lớn thuật toán phân lớp liệu bao gồm: Phân loại tuyến tính, Hồi quy logistic, Phân loại Naïve Bayes, Rừng ngẫu nhiên (RF) Ứng dụng thuật toán học máy. .. chấm luận văn thạc sĩ Học vi? ??n Cơng nghệ Bưu Vi? ??n thông Vào lúc: ngày 09 tháng 01 năm 2021 Có thể tìm hiểu luận văn tại: - Thư vi? ??n Học vi? ??n Cơng nghệ Bưu Vi? ??n thông MỞ ĐẦU Ngày nay, kỷ nguyên kỹ