Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
669,72 KB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA HOÀNG XUÂN THIỆN XÂY DỰNG HỆ THỐNG AI NHẬN DIỆN VÀ DỰ ĐOÁN SẢN LƯỢNG ĐIỆN NĂNG TIÊU THỤ BẤT THƯỜNG CỦA KHÁCH HÀNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng – Năm 2022 THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội Cơng trình khoa học hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS BÙI THỊ THANH THANH Phản biện 1: TS PHẠM CÔNG THẮNG Phản biện 2: TS LÂM TỪNG GIANG Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Chuyên ngành Khoa học máy tính họp Đại học Đà Nẵng vào ngày 22 tháng 07 năm 2022 Có thể tìm hiểu luận văn tại: − Trung tâm Học Liệu TT Tại Đại học Bách Khoa - ĐHĐN − Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách Khoa - Đại học Đà Nẵng THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội MỞ ĐẦU Tính cấp thiết lý chọn đề tài Hiện nay, Tập đoàn điện lực Việt Nam triển khai nhiều chương trình AI nhiều lĩnh vực hệ thống khôi phục lưới điện thông minh, hệ thống nhận dạng hình ảnh quản lý đầu tư xây dựng… Sản lượng điện phần thiết yếu dịch vụ kinh doanh khách hàng, chuyên viên phòng Kinh doanh Kiểm tra Giám sát mua bán điện sử dụng cách thủ công Microsoft Excel chương trình theo dõi đo đếm từ xa theo thời gian tảng website Mục tiêu nghiên cứu sử dụng kho liệu sản lượng điện tiêu thụ khách hàng thuật toán phân loại Rừng ngẫu nhiên nhằm phát khách hàng có hành vi bất thường nguy trộm cắp điện, từ đánh giá hiệu độ xác kết phân loại Từ vấn đề trên, tiến hành tìm kiếm mơ hình thuật tốn huấn luyện dự đốn phù hợp với mơ hình liệu sử dụng điện khách hàng mua điện thuộc quản lý Cơng ty Vì lý trên, đề xuất chọn đề tài luận văn cao học: “Xây dựng hệ thống AI dự đoán khách hàng sử dụng điện bất thường qua sản lượng điện tiêu thụ” Mục tiêu nội dung nghiên cứu 2.1 Mục tiêu Xây dựng hệ thống AI nhận diện khách hàng có hành vi bất thường theo sản lượng điện tiêu thụ tháng Nhằm đảm bảo xử lý nhanh kịp thời, hệ thống đồng với hệ thống CMIS Tập đoàn Điện lực Quốc gia Việt Nam tự động hoạt động sản lượng điện khách hàng hóa đơn theo tháng để có số liệu xác THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội Nắm rõ chế hoạt động thuật toán học máy Đặc biệt thuật toán Rừng ngẫu nhiên việc áp dụng tính ngẫu nhiên để đưa định 2.2 Mục đích Giảm thời gian xử lý công việc cán chuyên viên giúp tăng suất lao động, nâng cao hiệu công việc qua hệ thống học máy Khẳng định lợi ích học máy cơng việc Tăng lịng tin khách hàng với ngành điện 2.3 Nội dung nghiên cứu Tìm hiểu lý thuyết học máy ứng dụng học máy thời đại công nghệ 4.0 bám sát chủ đề Chuyển đổi số Bộ Thông tin Truyền thông năm 2021 Nghiên cứu lý thuyết thuật toán Rừng ngẫu nhiên cách xây dựng thuật toán Hiểu rõ ưu điểm nhược điểm thuật toán việc nhận diện khách hàng Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu Sản lượng điện (kWh) tiêu thụ khách hàng đăng ký cấp điện địa bàn tỉnh miền Trung – Tây Nguyên (Chi tiết nội dung nguồn liệu Phụ lục 01) 3.2 Phạm vi nghiên cứu Sử dụng liệu khách hàng mua bán điện địa bàn tỉnh Thừa Thiên Huế trình nhận diện tự động ngày Tập liệu huấn luyện cần thu thập tháng địa bàn miền Trung để tăng số lượng liệu huấn luyện để tăng độ xác thuật tốn Phương pháp nghiên cứu 4.1 Phương pháp lý thuyết Cơ sở lý thuyết thuật toán Rừng ngẫu nhiên, Cây định học có giám sát Hiểu rõ chế hoạt động ưu nhược điểm thuật tốn với loại học máy cịn lại Hiểu sâu cấu trúc thuộc tình khách hàng mua bán điện với Công ty Điện lực cách nhận diện khách hàng trộm cắp THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội điện thường có hành vi Sử dụng khách hàng ngẫu nhiên có hành vi tương tự để đánh giá kết tự dự đoán 4.2 Phương pháp thực nghiệm Thu thập liệu khách hàng trộm cắp điện địa bàn miền Trung xử lý khách hàng gây nhiễu q trính huấn luyện mơ hình dự đốn Xây dựng hệ thống AI nhận diện với thuật toán Rừng ngẫu nhiên với tham số đầu vào Sản lượng điện tháng liền kề, thời gian vi phạm, bậc giá điện Sử dụng tập liệu gộp chung khách hàng trộm cắp khách hàng bình thường để làm tập kiểm thử nhằm kiểm tra độ xác hệ thống nhận diện Dự kiến kết đạt 5.1 Về lý thuyết Nắm rõ sở lý thuật ứng dụng áp dụng mơ hình học sâu Đặc biệt mơ hình học có giám sát việc nhận diện đối tượng Làm chủ thuật toán Rừng ngẫu nhiên dự đoán sản lượng điện Xây dựng mơ hình tập liệu gốc liệu huấn luyện để tạo định 5.2 Về thực nghiệm Sử dụng sở liệu để huấn luyện qua giải thuật Random Forest Naïve Bayes Ngồi ra, liệu cần dự đốn giống để so sánh tốc độ huấn luyên, dự đốn tỷ lệ xác thuật toán Xây dựng phần mềm AI ứng dụng dự đoán sản lượng điện bất thường khách hàng với độ xác nhận diện khách hàng bất thường khoảng 80% Ngồi cịn bổ sung thêm chức giám sát sản lượng điện khách hàng tạo phiếu kiểm tra với khách hàng bất thường Ý nghĩa khoa học thực tiễn 6.1 Ý nghĩa khoa học Tổng quan, đánh giá độ xác thuật toán Rừng ngẫu nhiên áp dụng vào dự đoán sản lượng điện theo tháng khách hàng THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội Đề tài đóng góp vai trị lớn q trình nâng cao độ tin cậy cho thuật tốn Rừng ngẫu nhiên nói riêng học máy nói chung việc nhận diện xác đối tượng cần nghiên cứu dự đoán 6.2 Ý nghĩa thực tiễn Đề xuất giải pháp góp phần giúp Cơng ty Điện lực Thừa Thiên Huế nhận khách hàng bất thường cách tự động, giảm cơng rà sốt sản lượng điện khách hàng ngày các Giám sát viên Qua đó, có hướng xử lý kịp thời giúp khách hàng tin tưởng ngành điện Hệ thống góp phần phổ biến ứng dụng sử dụng trí tuệ nhân tạo ngành Điện giúp nâng cao hiệu công việc Bố cục luận văn Dự kiến luận văn trình bày bao gồm phần sau: Chương 1: Cơ sở lý thuyết Giới thiệu học máy, mơ hình học máy thơng dụng nay, thuật tốn Rừng ngẫu nhiên điểm mạnh điểm yếu thuật toán Rừng ngẫu nhiên Cơ sở lý thuyết thuật toán Naive Bayes Các lý thuyết sử dụng đề tài Chương 2: Ứng dụng thuật toán Random Forest vào toán Giới thiệu thuật tốn Random Forest, xây dựng mơ hình học máy, xây dựng tập liệu gốc, tập liệu khởi động, tập kiểm thử, giới thiệu cách hệ thống làm việc qua bước trình huấn luyện dự đoán sản lượng điện khách hàng Chương 3: Triển khai đánh giá Cài đặt cấu hình mơi trường làm việc cho hệ thống Lập trình chức cho hệ thống Thu thập liệu theo thời gian xuất hóa đơn khách hàng CMIS có liệu để tiến hành dự đoán kịp thời So sánh đánh giá kết dự đoán khách hàng qua 02 thuật toán Random Forest thuật tốn Naive Bayes Phân tích ưu nhược điểm 02 thuật toán THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội CHƯƠNG 1: CƠ SỞ LÝ THUYẾT Học máy (Machine Learning) 1.1 Khái niệm Machine learning (ML) hay máy học nhánh trí tuệ nhân tạo (AI), lĩnh vực nghiên cứu cho phép máy tính có khả cải thiện thân chúng dựa liệu mẫu (training data) dựa vào kinh nghiệm (những học) Machine learning tự dự đốn đưa định mà khơng cần lập trình cụ thể Một vài ứng dụng tiếng sử dụng học máy Cảnh báo giao thông (trên ứng dụng Google Maps) 1.2 Cây định (Decision Tree) Trong lĩnh vực máy học, định kiểu mơ hình dự báo (predictive model), nghĩa ánh xạ từ quan sát vật/hiện tượng tới kết luận giá trị mục tiêu vật/hiện tượng Mỗi nút (internal node) tương ứng với biến; đường nối với nút thể giá trị cụ thể cho biến Mỗi nút đại diện cho giá trị dự đoán biến mục tiêu, cho trước giá trị biến biểu diễn đường từ nút gốc tới nút Kỹ thuật học máy dùng định gọi học định, hay gọi với tên ngắn gọn định 1.2 Thuật toán Rừng ngẫu nhiên (Random Forest) 1.2.1 Giới thiệu Rừng ngẫu nhiên rừng định ngẫu nhiên phương pháp học tập tổng hợp để phân loại, hồi quy nhiệm vụ khác hoạt động cách xây dựng vô số định thời điểm đào tạo Đối với nhiệm vụ phân loại, đầu rừng ngẫu nhiên loại chọn hầu hết Đối với nhiệm vụ hồi quy, giá trị trung bình dự đốn trung bình riêng lẻ trả Rừng định ngẫu nhiên phù hợp với thói quen thích nghi mức định tập huấn luyện THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội chúng Rừng ngẫu nhiên nhìn chung tốt định, độ xác chúng thấp tăng cường độ dốc Tuy nhiên, đặc điểm liệu ảnh hưởng đến hiệu suất chúng Hình 1.3 Mơ hình thuật tốn Random Forest Thuật tốn Rừng ngẫu nhiên cho kết xác cao nhờ yếu tố ngẫu nhiên định qua bỏ phiếu theo số đông định 1.2.2 Các ứng dụng Rừng ngẫu nhiên Một số lĩnh vực phổ biến mà Rừng ngẫu nhiên sử dụng: − Ngân hàng: Lĩnh vực ngân hàng chủ yếu sử dụng thuật toán để xác định rủi ro cho vay − Y học: Với trợ giúp thuật toán này, xu hướng bệnh nguy bệnh xác định − Sử dụng đất: Chúng tơi xác định khu vực sử dụng đất tương tự thuật toán − Tiếp thị: Các xu hướng tiếp thị xác định cách sử dụng thuật toán 1.2.3 Ưu điểm nhược điểm Rừng ngẫu nhiên 1.2.3.1 Ưu điểm Rừng ngẫu nhiên Thuật toán giải tốt tốn có nhiều liệu nhiễu, thiếu giá trị Do cách chọn ngẫu nhiên thuộc tính nên giá trị THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội nhiễu, thiếu ảnh hưởng khơng lớn đến kết Có ước lượng nội độ xác mơ hình đốn độ mạnh liên quan thuộc tính (Out of bag) Dễ dàng thực song song Thay máy thực thuật tốn, ta sử dụng nhiều máy để xây dựng sau ghép lại thành rừng 1.2.3.2 Nhược điểm Rừng ngẫu nhiên Cân nhãn lớp khiến kết dự đốn thuật tốn lệch số đông nhãn lớp Thời gian huấn luyện rừng kéo dài tùy số số thuộc tính phân chia.ng rừng mối tương quan 1.2.4 Các bước thực Đầu tiên thuật toán Rừng ngẫu nhiên xây dựng dựa tập thể định Cây định khối xây dựng thuật toán rừng ngẫu nhiên Cây định kỹ thuật hỗ trợ định tạo thành cấu trúc giống Tổng quan định giúp hiểu cách hoạt động thuật toán rừng ngẫu nhiên Cây định bao gồm ba thành phần: nút định, nút nút gốc Thuật toán định chia tập liệu huấn luyện thành nhánh, tập liệu tách biệt thành nhánh khác Trình tự tiếp tục đạt nút Nút phân tách thêm Các nút định đại diện cho thuộc tính sử dụng để dự đoán kết Các nút định cung cấp liên kết đến Sơ đồ sau cho thấy ba loại nút định THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội Hình 1.5 Mơ hình bỏ phiếu phân loại Rừng ngẫu nhiên Ở bước huấn luyện xây dựng nhiều định, định khác Sau bước dự đốn, với liệu mới, định từ xuống theo điểm nút điều kiện để dự đốn, sau kết cuối tổng hợp từ kết định 1.3 Naive Bayes 1.3.1 Giới thiệu Naive Bayes Classification (NBC) thuật toán dựa định lý Bayes lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê Naive Bayes Classification thuật toán ứng dụng nhiều lĩnh vực Machine learning dùng để đưa dự đốn xác dự tập liệu thu thập, dễ hiểu độ xác cao Nó thuộc vào nhóm Supervised Machine Learning Algorithms (thuật tốn học có hướng dẫn), tức máy học từ ví dụ từ mẫu liệu có 1.3.2 Định lý Bayes Định lý Bayes cho phép tính xác suất xảy kiện ngẫu nhiên A biết kiện liên quan B xảy Xác suất ký hiệu P(A|B), đọc "xác suất A có B" Đại lượng gọi xác suất có điều kiện hay xác suất hậu nghiệm rút từ giá trị cho B phụ thuộc vào giá trị THƯ VIỆN TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐẠI HỌC ĐÀ NẴNG Lưu hành nội 𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐴⋂𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴) Công thức (1.1) 1.3.3 Cách hoạt động Bước Gọi D tập liệu huấn luyện, phần tử liệu X biểu diễn vector chứa n giá trị thuộc tính Bước Giả sử có m lớp C1, C2…Cm Cho phần tử liệu X, phân lớp gán nhãn cho X lớp có xác suất hậu nghiệm lớn Cụ thể, phân lớp Bayes dự đoán X thuộc vào lớp Ci nếu: P(C_i |X) > P(C_j |X) (1