Luận văn thạc sĩ khoa học máy tính nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông

20 1 0
Luận văn thạc sĩ khoa học máy tính nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Nhƣ Thế NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁNDỰ BÁOTHUÊ BAO RỜI MẠNG VIỄN THÔNG LUẬN VĂN[.]

ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Nhƣ Thế Nguyễn Nhƣ Thế NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU NGHIÊN CỨU CÁC PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO THUÊ BAO VÀ ỨNG DỤNG TRONG BÀI TOÁNDỰ BÁOTHUÊ BAO RỜI MẠNG VIỄN THÔNG RỜI MẠNG VIỄN THÔNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên -2016 Thái Nguyên - 2016 ĐẠI HỌC THÁI NGUYÊN ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG Nguyễn Nhƣ Thế Nguyễn Nhƣ Thế NGHIÊN CỨU CỨU CÁC CÁC PHƢƠNG PHƢƠNG PHÁP PHÁP PHÂN PHÂN LỚP LỚP DỮ DỮ LIỆU LIỆU NGHIÊN VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO THUÊ BAO VÀ ỨNG DỤNG TRONG BÀI TOÁNDỰ BÁOTHUÊ BAO RỜI MẠNG MẠNG VIỄN VIỄN THÔNG THÔNG RỜI Chuyên ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 Mã số: 60 48 0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC:TS.NGUYỄN LONG GIANG NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN LONG GIANG Thái Nguyên -2016 Thái Nguyên - 2016 i LỜI CAM ĐOAN Tên là: Nguyễn Nhƣ Thế Sinh ngày: 12/12/1989 Học viên lớp cao học: CHK13E - Trƣờng Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên Hiện công tác tại: Sở Thông tin Truyền thông tỉnh Phú Thọ Xin cam đoan: Đề tài “Nghiên cứu phương pháp phân lớp liệu ứng dụng toán dự báo thuê bao rời mạng viễn thông” Thầy giáo TS Nguyễn Long Giang hƣớng dẫn cơng trình nghiên cứu riêng Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Tác giả xin cam đoan tất nội dung luận văn nhƣ nội dung đề cƣơng yêu cầu thầy giáo hƣớng dẫn Nếu sai tơi hồn toàn chịu trách nhiệm trƣớc hội đồng khoa học trƣớc pháp luật Thái Nguyên, ngày 28 tháng năm 2016 HỌC VIÊN Nguyễn Nhƣ Thế ii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, đƣợc động viên, giúp đỡ hƣớng dẫn tận tình Thầy giáo hƣớng dẫn TS Nguyễn Long Giang, luận văn với đề tài “Nghiên cứu phương pháp phân lớp liệu ứng dụng tốn dự báo th bao rời mạng viễn thơng”đã hồn thành Tơi xin bày tỏ lịng biết ơn sâu sắc đến: Thầy giáo hƣớng dẫn TS Nguyễn Long Giang tận tình dẫn, giúp đỡ tơi hồn thành luận văn Tơi xin bày tỏ lịng biết ơn đến thầy cô Trƣờng Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên giúp đỡ tơi q trình học tập nhƣ thực luận văn Tôi xin cảm ơn Chi nhánh Mobifone Phú Thọ nhiệt tình giúp đỡ, cung cấp thơng tin q trình nghiên cứu, thực nghiệm chƣơng trình luận văn Tơi xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ suốt trình học tập, thực hồn thành luận văn Thái Nguyên, ngày 28 tháng năm 2016 HỌC VIÊN Nguyễn Nhƣ Thế iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT v DANH MỤC HÌNH ẢNH vi DANH MỤC BẢNG BIỂU vii MỞ ĐẦU Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tổng quan khai phá liệu 1.1.1 Tại cần khai phá liệu 1.1.2 Các khái niệm 1.1.3 Quy trình khai phá liệu 1.1.4 Các toán khai phá liệu 1.1.5 Các ứng dụng khai phá liệu 1.1.6 Quy trình xây dựng mơ hình khai phá liệu 1.2.Bài toán phân lớp dự báo 10 1.2.1 Giới thiệu toán 10 1.2.2 Các bƣớc giải toán 11 Chƣơng 2: CÁC PHƢƠNG PHÁP PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU 12 2.1 Phân lớp phƣơng pháp quy nạp định 12 2.2 Phân lớp phƣơng pháp Bayesian 15 2.3 Support Vector Machine (SVM) 16 2.3.1 Phân tách tuyến tính với lề cực đại 16 2.3.1.1 Tìm kiếm siêu phẳng với lề cực đại 21 2.3.1.2 Hàm phân loại tuyến tính với lề mềm cực đại 22 2.3.1.3 Lý thuyết tối ƣu Lagrangian 23 2.3.1.4 Tìm kiếm siêu phẳng với lề cực đại 25 2.3.2 Phƣơng pháp hàm nhân (kernel methods) 28 2.3.2.1 Chiều VC khả phân tách hàm tuyến tính 29 2.3.2.2 Hàm nhân SVM phi tuyến (Kernel function and nonlinear SVMs) 30 iv 2.4 Phân lớp mạng lan truyền ngƣợc (mạng Nơron) 33 Chƣơng 3: ỨNG DỤNG BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG VIỄN THÔNG 37 3.1 Bài toán phân lớp liệu thuê bao rời mạng 37 3.1.1 Phát biểu toán 37 3.1.2 Khái niệm thuê bao rời mạng “churn” 38 3.1.3 Thu thập, chuẩn hóa liệu 39 3.1.4 Lựa chọn thuộc tính 42 3.2 Lựa chọn phƣơng pháp, công cụ 45 3.2.1 Ngôn ngữ R 45 3.2.2 Phƣơng pháp phân lớp 47 3.2.3 Đánh giá hiệu 48 3.3 Thực nghiệm phân lớp ngôn ngữ R 50 3.3.1 Phân lớp liệu sử dụng định C4.5 51 3.3.2 Phân lớp liệu sử dụng phƣơng pháp Naive Bayes 53 3.3.3 Phân lớp liệu Support Vector Machines 55 3.3 Đánh giá kết 56 KẾT LUẬN 58 TÀI LIỆU THAM KHẢO 60 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT TT Thuật ngữ Định nghĩa KPDL Khai phá liệu KDD Knowledge Discovery and Data Mining NB Naïve Bayes SVM Support vector machine NN Neural Networks vi DANH MỤC HÌNH ẢNH Hình 1.1- Các bƣớc khai phá liệu Hình 1.2 - Quy trình xây dựng mơ hình khai phá liệu Hình 2.1 - Ví dụ định 12 Hình 2.2 - Về mặt trực quan hàm tuyến tính siêu phẳng với lề lớn trơng hợp lý 19 Hình 2.3 - Ví dụ tốn phân loại khơng gian hai chiều 19 Hình 2.4 - Ba điểm mặt phẳng bị chia tách đƣờng thẳng có hƣớng 28 Hình 2.5 - Mạng nơ-ron truyền thẳng nhiều lớp 34 Hình 3.1 - Mơ hình quan hệ bảng liệu 40 Hình 3.2 - Các giai đoạn mơ hình dự đốn th bao rời mạng 42 Hình 3.3 - Lựa chọn thuộc tính phân lớp liệu 44 Hình 3.4 - Số lƣợng thuộc tính đƣợc thu thập 44 Hình 3.5 – Giao diện làm việc ngôn ngữ R 47 Hình 3.6 – Quy trình thực nghiệm toán phân lớp liệu thuê bao rời mạng 50 Hình 3.7- mơ hình phân lớp định 52 Hình 3.8 - Chi tiết nút nhánh thứ 15 phân lớp định 52 Hình 3.9 - Kết phân lớp liệu SVM 55 Hình 3.10 – Hiệu thuật toán với lớp thuê bao rời mạng 57 vii DANH MỤC BẢNG BIỂU Bảng - Ma trận nhầm lẫn 49 Bảng – Kết mơ hình phân lớp sử dụng C 4.5 53 Bảng – Độ đo hiệu thuật toán Cây định 53 Bảng – Kết mơ hình phân lớp sử dụng NB 54 Bảng – Độ đo hiệu thuật toán NB 54 Bảng – Kết mơ hình phân lớp sử dụng SVM 55 Bảng – Độ đo hiệu thuật toán SVM 56 Bảng – Tổng hợp đánh giá hiệu phƣơng pháp phân lớp 56 MỞ ĐẦU Sự bùng nổ phát triển ngành công nghệ thông tin làm lƣợng liệu đƣợc thu thập lƣu trữ hệ thống thơng tin tăng lên cách nhanh chóng Trƣớc tình hình đó, việc khai thác chọn lọc liệu có ích, tiền ẩn từ lƣợng liệu khổng lồ cần thiết Các tri thức trích lọc từ liệu giúp quan, tổ chức đƣa dự báo điều hành hiệu Khai phá liệu khám phá tri thức (Data mining and Knowledge discovery) lĩnh vực quan trọng ngành Công nghệ thông tin với mục tiêu tìm kiếm tri thức có ích, cần thiết, tiềm ẩn chƣa đƣợc biết trƣớc sở liệu lớn Đây lĩnh vực thu hút đông đảo nhà khoa học giới nƣớc tham gia nghiên cứu Phân lớp (classification) toán khai phá liệu với mục tiêu phân loại đối tƣợng vào lớp cho trƣớc Theo tiếp cận học máy, phân lớp phƣơng pháp học có giám sát với hai giai đoạn: Giai đoạn xây dựng mơ hình phân lớp dựa tập liệu huấn luyện có đầu vào đầu mong muốn (gọi nhãn lớp); Giai đoạn sử dụng mơ hình phân lớp để phân loại tập liệu chƣa có nhãn lớp vào lớp cho có ứng dụng nhiều toán dự báo thực tế Phân lớp đƣợc sử dụng rộng rãi toán thực tiễn nhƣ y tế, ngân hàng, viễn thông, kinh tế, tài Ngày nay, với phát triển mạnh mẽ thị trƣờng viễn thông đời nhiều nhà cung cấp kinh doanh dịch vụ mạng viễn thông Thị trƣờng viễn thông vào giai đoạn bão hịa, khách hàng có nhiều lựa chọn, dẫn đến họ thay đổi sử dụng dịch vụ nào, kết số lƣợng khách hàng rời mạng tăng lên cách nhanh chóng Hậu ảnh hƣởng khơng nhỏ tới kinh tế nhƣ quản lý doanh nghiệp kinh doanh dịch vụ viễn thơng Vì vậy, nhà kinh doanh dịch vụ mạng cần có giải pháp chân khách hàng tìm kiếm khách hàng Việc dự báo khách hàng rời bỏ mạng tƣơng lai cần thiết, nhằm mục đích hỗ trợ nhà kinh doanh dịch vụ mạng có sách kịp thời công việc giữ chân khách hàng 3 Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Tổng quan khai phá liệu 1.1.1 Tại cần khai phá liệu Khoảng thập kỷ trở lại đây, lƣợng thông tin đƣợc lƣu trữ thiết bị điện tử (đĩa cứng, CD-ROM, băng từ, v.v.) khơng ngừng tăng lên Sự tích lũy liệu xảy với tốc độ bùng nổ Ngƣời ta ƣớc đốn lƣợng thơng tin tồn cầu tăng gấp đơi sau khoảng hai năm theo số lƣợng nhƣ kích cỡ sở liệu (CSDL) tăng lên cách nhanh chóng Nói cách hình ảnh “ngập” liệu nhƣng lại “đói” tri thức Câu hỏi đặt liệu khai thác đƣợc từ “núi” liệu tƣởng chừng nhƣ “bỏ đi” không? [3] “Necessity is the mother of invention” - Data Mining đời nhƣ hƣớng giải hữu hiệu cho câu hỏi vừa đặt Khá nhiều định nghĩa Data Mining, nhiên tạm hiểu Data Mining nhƣ công nghệ tri thức giúp khai thác thơng tin hữu ích từ kho liệu đƣợc tích trữ suốt q trình hoạt động cơng ty, tổ chức 1.1.2 Các khái niệm Khai phá liệu (datamining) [4] đƣợc định nghĩa nhƣ trình chắt lọc hay khai phá tri thức từ lƣợng lớn liệu Một ví dụ hay đƣợc sử dụng là việc khai thác vàng từ đá cát, Dataming đƣợc ví nhƣ cơng việc "Đãi cát tìm vàng" tập hợp lớn liệu cho trƣớc Thuật ngữ Dataming ám việc tìm kiếm tập hợp nhỏ có giá trị từ số lƣợng lớn liệu thô Có nhiều thuật ngữ đƣợc dùng có nghĩa tƣơng tự với từ Datamining nhƣ Knowledge Mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis(phân tích liệu/mẫu), data archaeoloogy (khảo cổ liệu), datadredging(nạo vét liệu), Định nghĩa: Khai phá liệu tập hợp kỹ thuật sử dụng để tự động khai thác tìm mối quan hệ lẫn liệu tập hợp liệu khổng lồ phức tạp, đồng thời tìm mẫu tiềm ẩn tập liệu Khai phá liệu nhấn mạnh hai khía cạnh khả trích xuất thơng tin có ích tự động (Automated) bán tự động (Semi - Automated) mang tính dự đốn (Predictive) Khai phá liệu lĩnh vực liên ngành, liên quan chặt chẽ đến lĩnh vực sau: Statistics (Thống kê): số đo cho thuộc tính tập mẫu Mỗi giá trị thống kê đƣợc tính hàm thơng tin mơt thống kê mang tính đại diện cho thơng tin tập mẫu mang lại Machine Learning (Máy học): phƣơng pháp để tạo chƣơng trình máy tính việc phân tích tập liệu Máy học có liên quan lớn đến thống kê, hai lĩnh vực nghiên cứu việc phân tích liệu, nhƣng khác với thống kê, học máy tập trung vào phức tạp giải thuật việc thực thi tính tốn Databases technology (Cơng nghệ sở liệu): kho thông tin chủ đề, đƣợc tổ chức hợp lý để dễ dàng quản lý truy tìm Visualization (Sự trực quan): Biểu diễn giúp liệu dễ hiểu, dễ sử dụng, thuận tiện cho việc tạo báo cáo, tìm tri thức phục vụ việc định dự đoán nhà quản lý 5 1.1.3 Quy trình khai phá liệu Khai phá liệu bƣớc bảy bƣớc trình KDD (Knowleadge Discovery in Database) KDD đƣợc xem nhƣ trình khác theo thứ tự sau [1]: Làm liệu (data cleaning & preprocessing): Loại bỏ nhiễu liệu không cần thiết Tích hợp liệu: (data integration): trình hợp liệu thành kho liệu (data warehouses & data marts) sau làm tiền xử lý (data cleaning & preprocessing) Trích chọn liệu (data selection): trích chọn liệu từ kho liệu sau chuyển đổi dạng thích hợp cho q trình khai thác tri thức Quá trình bao gồm việc xử lý với liệu nhiễu (noisy data), liệu không đầy đủ (incomplete data), v.v Chuyển đổi liệu: Các liệu đƣợc chuyển đổi sang dạng phù hợp cho trình xử lý Khai phá liệu (data mining): Là bƣớc quan trọng nhất, sử dụng phƣơng pháp thơng minh để chắt lọc mẫu liệu Ƣớc lƣợng mẫu (knowledge evaluation): Quá trình đánh giá kết tìm đƣợc thơng qua độ đo Biểu diễn tri thức (knowledge presentation): Quá trình sử dụng kỹ thuật để biểu diễn thể trực quan cho ngƣời dùng 6 Hình 1.1- Các bước khai phá liệu [1] 1.1.4 Các toán khai phá liệu Mô tả khái niệm (concept description): tốn tìm đặc trƣng tính chất khái niệm Bài tốn thiên mơ tả, tổng hợp tóm tắt khái niệm Ví dụ: tóm tắt văn Luật kết hợp (association rules): dạng luật biểu diễn tri thức dạng đơn giản Ví dụ: “60 % nam giới vào siêu thị mua bia có tới 80% số họ mua thêm thịt bị khơ” Luật kết hợp đƣợc ứng dụng nhiều lĩnh vực kính doanh, y học, tin-sinh, tài & thị trƣờng chứng khốn, v.v Phân lớp dự đoán (classification & prediction): xếp đối tƣợng vào lớp biết trƣớc Ví dụ: phân lớp vùng địa lý theo liệu thời tiết Hƣớng tiếp cận thƣờng sử dụng số kỹ thuật machine learning nhƣ định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Ngƣời ta cịn gọi phân lớp học có giám sát (học có thầy) Phân cụm (clustering): xếp đối tƣợng theo cụm (số lƣợng nhƣ tên) cụm chƣa đƣợc biết trƣớc Ngƣời ta gọi phân cụm học không giám sát (học không thầy) Hồi quy (regression ): tốn điển hình phân tích thống kê dự báo Trong khai phá liệu, toán hồi quy đƣợc quy việc học hàm ánh xạ liệu nhằm xác định giá trị thực biến theo biến số khác Phân tích hồi quy xác định đƣợc định lƣợng quan hệ biến, quảng bá giá trị biến phụ thuộc vào giá trị biến khác Phƣơng pháp hồi quy khác với phân lớp dự liệu hồi quy dùng để dự đoán giá trị liên lục, cịn phân lớp liệu dự đốn giá trị rời rạc Khai phá chuỗi (sequential/temporal patterns): tƣơng tự nhƣ khai phá luật kết hợp nhƣng có thêm tính thứ tự tính thời gian Hƣớng tiếp cận đƣợc ứng dụng nhiều lĩnh vực tài thị trƣờng chứng khốn có tính dự báo cao Ngồi cịn có số toán khai phá liệu thống kê khác 1.1.5 Các ứng dụng khai phá liệu Phát tri thức khai phá liệu liên quan đến nhiều ngành, nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, sở liệu, thuật tốn, tính tốn song song tốc độ cao, thu thập tri thức cho hệ chuyên gia, quan sát liệu Đặc biệt phát tri thức khai phá liệu gần gũi với lĩnh vực thống kê, sử dụng phƣơng pháp thống kê để mơ hình liệu phát mẫu, luật Ngân hàng liệu (Data Warehousing) cơng cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) liên quan chặt chẽ với phát tri thức khai phá liệu Khai phá liệu có nhiều ứng dụng thực tế,[3] ví dụ nhƣ:  Bảo hiểm, tài thị trƣờng chứng khốn: phân tích tình hình tài dự báo giá loại cổ phiếu thị trƣờng chứng khoán Danh mục vốn giá, lãi suất, liệu thẻ tín dụng, phát gian lận,  Thống kê, phân tích liệu hỗ trợ định  Điều trị y học chăm sóc y tế: số thơng tin chuẩn đoán bệnh lƣu hệ thống quản lý bệnh viện Phân tích mối liên hệ triệu chứng bệnh, chuẩn đoán phƣơng pháp điều trị (chế độ dinh dƣỡng, thuốc, )  Sản xuất chế biến: Quy trình, phƣơng pháp chế biến xử lý cố  Text mining Web mining: Phân lớp văn trang Web, tóm tắt văn bản,  Lĩnh vực khoa học: Quan sát thiên văn, liệu gene, liệu sinh vật học, tìm kiếm, so sánh hệ gene thông tin di truyền, mối liên hệ gene số bệnh di truyền,  Mạng viễn thơng: Phân tích gọi điện thoại hệ thống giám sát lỗi, cố, chất lƣợng dịch vụ, dự báo thuê bao rời mạng 1.1.6 Quy trình xây dựng mơ hình khai phá liệu Việc thực DMM với đầy đủ bƣớc cơng việc q trình khai phá liệu là: 10 1.2.Bài toán phân lớp dự báo 1.2.1 Giới thiệu toán Phân lớp: q trình xây dựng mơ hình để mơ tả liệu đƣợc phân chia nhƣ nào, nói cách khác, phân lớp q trình xây dựng mơ hình gán đối tƣợng liệu (thuộc tính) vào lớp xác định Tiến trình phân lớp dựa thành phần bản: - Lớp (class) - Dự đoán (predictors) - Tập liệu đào tạo (Training dataset) - Tập liệu kiểm thử (Testing dataset) Đặc trƣng tiến trình phân lớp gồm điểm sau: Input: tập liệu đào tạo chứa đối tƣợng với thuộc tính nó,với số thuộc tính đƣợc gán nhãn; Output: mơ hình (classifier) đƣợc gán nhãn cụ thể cho đối tƣợng phân lớp đối tƣợng thƣ mục), dựa thuộc tính khác; Dự báo: q trình gồm hai bƣớc, gần giống với q trình phân lớp Tuy nhiên để dự báo, bỏ qua khái niệm nhãn phân lớp giá trị đƣợc dự báo liên tục (đƣợc xếp) giá trị phân loại Ví dụ thay phân loại xem khoản vay có an tồn hay rủi dự đoán xem tổng số tiền cho vay khoản vay khoản vay an tồn Có thể xem xét việc dự báo hàm y = f(X), X liệu đầu vào, đầu giá trị y liên tục xếp đƣợc Việc dự báo phân lớp có vài điểm khác sử dụng phƣơng pháp xây 11 dựng mơ hình Giống với phân lớp, tập liệu huấn luyện sử dụng để xây dựng mơ hình dự báo khơng đƣợc dùng để đánh giá tính xác Tính xác mơ hình dự báo đƣợc đánh giá dựa việc tính độ lệch giá giá trị dự báo với giá trị thực nhận đƣợc kiểm tra X 1.2.2 Các bƣớc giải toán Các bƣớc giải toán gồm: Bƣớc 1:Xây dựng mơ hình từ tập huấn luyện - Mỗi bộ/mẫu liệu đƣợc phân vào lớp đƣợc xác định trƣớc - Lớp bộ/mẫu liệu đƣợc xác định thuộc tính gán nhãn lớp - Tập bộ/mẫu liệu huấn luyện - tập huấn luyện - đƣợc dùng để xây dựng mơ hình - Mơ hình đƣợc biểu diễn luật phân lớp, định cơng thức tốn học Bƣớc 2: Sử dụng mơ hình - kiểm tra tính đắn mơ hình dùng để phân lớp liệu - Phân lớp cho đối tƣợng chƣa đƣợc phân lớp - Đánh giá độ xác mơ hình: + Lớp biết trƣớc mẫu/bộ liệu đem kiểm tra đƣợc so sánh với kết thu đƣợc từ mơ hình + Tỉ lệ xác = phần trăm mẫu/bộ liệu đƣợc phân lớp mơ hình số lần kiểm tra ... PHƢƠNG PHÁP PHÁP PHÂN PHÂN LỚP LỚP DỮ DỮ LIỆU LIỆU NGHIÊN VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO THUÊ BAO VÀ ỨNG DỤNG TRONG BÀI TOÁNDỰ BÁOTHUÊ BAO RỜI MẠNG MẠNG VIỄN VIỄN THÔNG THÔNG RỜI Chuyên ngành: Khoa. .. ngành: Khoa học máy tính Chuyên ngành: Khoa học máy tính Mã số: 60 48 0101 Mã số: 60 48 0101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC:TS.NGUYỄN... ngƣợc (mạng Nơron) 33 Chƣơng 3: ỨNG DỤNG BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG VIỄN THÔNG 37 3.1 Bài toán phân lớp liệu thuê bao rời mạng 37 3.1.1 Phát biểu toán

Ngày đăng: 01/03/2023, 19:20

Tài liệu cùng người dùng

Tài liệu liên quan