Mã khách hàng Tên khách hàng T1 T2 T3 T4 T5
PC03DD0401366 Lê Văn Ghe 402 353 392 402 454 PC03GG0705078 Lương Thị Hiền 133 146 120 112 136
PC03GG0706036 Bùi Văn Dũng 52 48 69 70 82
PC03HH0813495 Hồng Thanh Tùng 43 19 47 36 49 PC03HH0809254 Nguyễn Đăng Thanh 29 31 66 38 52
2.2.2 Xây dựng tập dữ liệu gốc (Original Dataset)
Bảng 2.7 Tập dữ liệu gốc gồm n dữ liệu (sample)
T-4 T-3 T-2 T-1 T Bậc giá điện Tháng Mùa Kết quả 47 97 100 81 0 2 12 Đơng Trộm 26 32 54 52 69 2 4 Xuân Trộm 495 393 330 422 410 6 1 Đơng Trộm 358 369 385 391 483 6 7 Hè Trộm 100 107 110 120 140 3 7 Hè Bình thường 395 401 424 442 550 6 12 Đơng Bình thường … … ... … … … … … ... Ghi chú:
− T-4: Sản lượng điện tiêu thụ trước tháng dự đốn là 4 tháng
− T-3: Sản lượng điện tiêu thụ trước tháng dự đốn là 3 tháng
− T-2: Sản lượng điện tiêu thụ trước tháng dự đốn là 2 tháng
− T-1: Sản lượng điện tiêu thụ trước tháng dự đốn là 1 tháng
− T: Sản lượng điện tiêu thụ trong tháng cần dự đốn
2.2.3 Xây dựng tập dữ liệu khởi động (Bootstrapped Dataset)
Để tạo ra bộ dữ liệu khởi động cùng kích thước với tập dữ liệu gốc, ta sẽ lựa chọn ngẫu nhiên các mẫu từ tập dữ liệu gốc bằng kỹ thuật Bootstrapping hay cịn gọi là Random sampling with replacement. Điều quan trọng là chúng ta được phép chọn cùng một mẫu nhiều lần. Tức khi ta tập hợp được 1 dữ liệu thì mình khơng bỏ dữ liệu đấy ra mà vẫn giữ lại trong tập dữ liệu ban đầu, rồi tiếp
tục sample cho tới khi sample đủ n dữ liệu. Khi dùng kỹ thuật này thì tập n dữ liệu mới của ta cĩ thể cĩ những dữ liệu bị trùng nhau. Thơng thường sẽ cĩ 1/3 dữ liệu từ tập dữ liệu gốc sẽ khơng được thêm vào tập dữ liệu khởi động. Các dữ liệu này được gọi là “Out-of-bag Dataset” và sẽ khơng được sử dụng để tạo ra các cây quyết định ở giai đoạn tiếp theo. Vì lý do đĩ các dữ liệu này sẽ được sử dụng như một tập dữ liệu kiểm thử. Ta cĩ thể cho lần lượt các dữ liệu trong tập này chạy qua các cây quyết định để đánh giá độ chính xác phân loại của các cây quyết định. Bảng 2.8 Tập dữ liệu khởi động T-4 T-3 T-2 T-1 T Bậc giá điện Tháng Mùa Kết quả Ghi chú 47 97 100 81 0 2 12 Đơng Trộm Trùng 47 97 100 81 0 2 12 Đơng Trộm Trùng 395 401 424 442 550 6 12 Đơng Bình thường 495 393 330 422 410 6 1 Đơng Trộm 100 107 110 120 140 3 7 Hè Bình thường 358 369 385 391 483 6 7 Hè Trộm … … ... … … … … … ...
2.2.4 Xây dựng các cây quyết định
Tạo cây quyết định bằng các sử dụng tập dữ liệu kh nhưng chỉ sử dụng một tập hợp con ngẫu nhiên của các biến hoặc cột ở mỗi bước
Chọn ngẫu nhiên các ràng buộc để làm nút gốc đầu tiên của cây quyết định. Ở đây, ta sẽ chọn ngẫu 2 trong 4 ràng buộc đã cĩ (T, bậc giá điện, tháng và mùa)
CHƯƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ
3.1. Thiết kế hệ thống
Hình 3.1 Biểu đồ Use Case hệ thống
− Tác nhân: Admin, Giám sát viên, Nhân viên kiểm tra
− Chức năng chính: Quản lý người dùng, Quản lý khách hàng, Quản lý phiếu kiểm tra
Hệ thống cần qua bước đăng nhập để kiểm tra phân quyền của tài khoản trước khi sử dụng các chức năng của hệ thống.
Admin là tài khoản cĩ quyền cao nhất cĩ thể sử dụng tất cả chức năng của chương trình. Giám sát viên cĩ quyền được quản lý khách hàng và quản lý phiếu kiểm tra. Qua đĩ, giám sát viên sẽ kiểm tra hằng ngày các khách hàng cĩ hành vi bất thường và sẽ cĩ quyền tạo phiếu kiểm tra cho các Nhân viên kiểm tra. Nhân viên kiểm tra cĩ quyền vào hệ thống để nhận phiếu và gửi phản hồi phiếu.
Hình 3.2 Sơ đồ hoạt động của hệ thống
3.2. Mơ hình hoạt động hệ thống
Hệ thống xây dựng API dự đốn khách hàng trên nền tảng ngơn ngữ
Python được chạy trên nền tảng Docker phục vụ cho việc vận hành 24/7 của API. Hệ thống Backend sử dụng ngơn ngữ NodeJS và Front End sử dụng ngơn ngữ Angular11 chạy trên máy ảo VM Ware với HĐH Window Server 2012R2 giúp việc deploy Website thành DNS trên hệ thống Host của Cơng ty Điện lực Thừa Thiên Huế được thuận tiện. Vì dữ liệu lớn nên việc sử dụng một máy chủ CSDL riêng với phần cứng mạnh là điều cần thiết.
3.3. Triển khai các chức năng
3.3.1. Triển khai ứng dụng Web với Angular và API Nodejs
Ứng dụng web dành cho người dùng đang chạy tại DNS : http://gsdn.pctth.vn:83 (chạy tại mạng nội bộ Cơng ty Điện lực Thừa Thiên Huế). Hệ thống backend được đặt tại http://gsdn.pctth.vn:3000.
Hình 3.3 Giao diện Web dành cho người dùng chạy tại DNS http://gsdn.pctth.vn:83
Hình 3.4 Thanh cơng cụ điều hướng
3.3.2 Triển khai hệ thống AI nhận diện khách hàng bất thường bằng ngơn ngữ Python chạy trên Docker Compose ngữ Python chạy trên Docker Compose
− API AI dự đốn khách hàng chạy tại địa chỉ: http://10.124.4.13:3008
− Version Pip: 22.0.4
Hình 3.5 API AI dự đốn khách hàng
3.4. Kết quả
3.4.1. Chức năng chính
Hình 3.7 Danh sách khách hàng trộm cắp điện
3.4.2. Tra cứu thơng tin khách hàng
3.4.3. Chức năng bổ trợ
Hình 3.9 Mẫu phiếu kiểm tra khách hàng
Chức năng trên hệ thống giúp Chuyên viên phịng Kiểm tra giá sát cĩ thể tạo phiếu ngay khi phát hiện khách hàng bất thường cần đơn vị kiểm tra ngay. Phiếu sẽ được gửi về đơn vị và nhắn tin trên hệ thống CPC-Eoffice cho Cán bộ đi kiểm tra. Phiếu điện tử cịn cĩ chức năng ký số EVNCA trên ứng dụng CPC- Eoffice được phát triển bởi EVNCPC, việc ký số điện tử giúp mang tính pháp lý và thuận tiện trong cơng việc giúp cơng việc của cái chuyên viên, kỹ sư tại Đơn vị được cải thiện.
3.5. Đánh giá kết quả
Nguồn dữ liệu huấn luyện chung: 1000 khách hàng trộm cắp điện
Ví dụ một khách hàng trộm cắp điện cĩ dữ liệu sản lượng điện trong năm như sau:
Bảng 3.1 Bảng dữ liệu sản lượng điện tiêu thụ trong năm của một khách hàng trộm cắp điện
T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12
125 159 131 177 185 185 78 169 205 204 168 142
Bảng 3.2 Bảng Dữ liệu samble được từ một khách hàng trộm cắp điện:
TT T-4 T-3 T-2 T-1 T bậc Mùa Phân loại
1 125 159 131 177 185 3 Hè Bình thường 2 159 131 177 185 185 3 Hè Bình thường 3 131 177 185 185 78 2 Hè Trộm 4 177 185 185 78 169 3 Hè Bình thường 5 185 185 78 169 205 4 Đơng Bình thường 6 185 78 169 205 204 4 Đơng Bình thường 7 78 169 205 204 168 3 Đơng Bình thường 8 169 205 204 168 142 3 Đơng Bình thường Vậy, với 1000 khách hàng ta sẽ cĩ: 1000 𝑥 8 = 8000 (𝐷ữ 𝑙𝑖ệ𝑢) Cơng thức (3.1)
Nguồn dữ liệu kiểm thử
Số khách hàng dùng để kiểm tra độ chính xác của dự đốn: 153.935 khách hàng thuộc Điên lực Nam Sơng Hương và Điên lực Bắc Sơng Hương – Cơng ty Điện lực Thừa Thiên Huế và 112 khách hàng trộm cắp điên khơng thuộc danh sách huấn luyện.
Số khách hàng cần dự đốn mỗi đợt (Tổng số khách hàng đăng ký mua điện tại địa bản Tỉnh Thừa Thiên Huế): 317.203 khách hàng
Bảng 3.3 Bảng so sánh giữa 02 thuật tốn
Random Forest Nạve Bayes
Thời gian huấn luyên dữ liệu (Sử
dung Google Colab GPU) 15~18 phút < 10 phút
Thời gian trung bình dự đốn
317203 khách hàng > 65 phút 15~20 phút
Tỷ lệ chính xác 82% 53%
Để thực hiện so sánh giữa hai kỹ thuật học máy khác nhau, đĩ là Nạve Bayes và Random Forest để đo độ chính xác của chẩn đốn, tơi sẽ sử dụng nguồn dữ liệu chung như trên với các dữ liệu đầu vào là hồn tồn thật và chính xác. Theo kết quả đánh giá thực hiện vào năm 2021, bộ phân loại Rừng Ngẫu nhiên hoạt động tốt hơn phương pháp Nạve Bayes khi đạt độ chính xác 82%. Từ kết quả cũng cho thấy được dù thời gian chậm hơn nhiều so với Bayes vì mơ hình rừng gồm nhiều cây quyết định. Nên việc để đưa ra 1 dự đốn là rất tốn thời gian.
3.5.2 Kết quả đạt được
Hệ thống hiện hữu sử dụng hệ thống RF-Spider, CMIS giúp thu thập dữ liệu sản lượng điện và chỉ số cơng tơ của khách hàng. Người dùng cĩ thể sử dụng các nghiệp vụ chuyên mơn cá nhân để tự lọc các khách hàng cần kiểm tra. Nhưng vì số lượng khách hàng rất lớn, việc tìm ra các khách hàng bất thường chiếm nhiều thời gian và tỷ lệ chính xác cũng khơng cao vì chưa cĩ một cơ sở chính thức vì khả năng mỗi chuyên viên là khác nhau.
Từ đầu năm 2022, hệ thống AI nhận diện dự đốn khách hàng bất thường được vận hành thử nghiệm tại Cơng ty Điện lực Thừa Thiên Huế với đầu mối kỹ thuật chính là Hồng Xuân Thiện (Chuyên viên phịng CNTT) và bà Phạm Thị Quỳnh Giao (Chuyên viên phịng Kiểm tra Giám sát mua bán điện) làm chuyên viên chính trong q trình kiểm tra khách hàng bất thường. Trong quá trình hoạt động đầu năm 2022, hệ thống đã hỗ trợ nhận diện hơn 1034 khách hàng bất thường cĩ tỷ lệ trên 85% và sau quá trình kiểm tra đã phát hiện trong đĩ 03 vụ trộm cắp điện. Tỷ lệ nhận diện khách hàng trộm cắp đạt 87%. Với số lượng khách hàng nhận diện mỗi tháng là hơn 300.000 khách hàng trên địa bản tỉnh Thừa Thiên Huế. Dù số lượng phân loại khá lớn, nhưng hệ thống vẫn hoạt động ổn định với tần suất kịp thời khi cĩ hĩa đơn điện phát sinh.
Bảng 3.4 Danh sách khách hàng trộm cắp điện năm 2022
T ỷ l ệ nhận diện khách hàng bất thường cịn chưa tối ưu vì dữ liệu sản lượng của khách hàng cịn khá ít chưa cĩ được nhiều năm. Do đĩ, để dự đốn đạt tỷ lệ cao thì cần thêm dữ liệu của nhiều năm trước đĩ nữa để cĩ thêm cơ sở so sánh sản lượng điện tiêu thụ của khách hàng với tháng cùng kỳ các năm trước. Điều này làm tăng ràng buộc giúp các cây quyết định được đa dạng giúp tăng tỷ lệ chính xác của thuật tốn.
Bảng 3.5 Chi tiết sản lượng điện từ tháng 01/2021 đến 01/2022 của 03 khách hàng trộm cắp điện năm 2022
bồi thường thường
1 PC03AA0245286 04/01/2022 7 204890 VND 2 PC03EE0513786 08/02/2022 365 957831 VND 3 PC03GG0705769 07/01/2022 365 585985 VND T T Mã khách hàng 1 2 3 4 5 6 7 8 9 10 11 12 1 1 PC03AA0245286 42 30 6 9 213 510 433 480 441 449 344 251 359 2 PC03EE0513786 16 14 1 9 27 39 18 5 17 9 48 35 0 3 PC03GG0705769 93 117 126 130 180 112 53 96 93 49 64 0 294
KẾT LUẬN VÀ KIẾN NGHỊ
Đề tài đã đĩng gĩp một phần lớn giúp mang lại giá trị làm lợi cho ngành Điện trong việc rà sốt sản lượng điện những khách hàng trộm cắp điện nhằm bảo vệ quyền lợi chung của tất cả khách hàng. Ngồi ra đề tài cũng đĩng gĩp trong việc bắt nhịp xu hướng Chuyển đổi số theo kế hoạch của Bộ Thơng tin và Truyền thơng. Trong năm 2021, nhờ vào hệ thống đã giúp ngành Điện phân tích và phát hiện ra các trường hợp bất thường qua đĩ sẽ kiểm tra đánh giá lập biên bản nếu khách hàng vi phạm trộm cắp điện. Qua đánh giá, đề tài nghiên cứu cũng đã cho thấy các ưu điểm, nhược điểm của 02 thuật tốn Random Forest và Nạve Bayes trong nhận diện khách hàng sử dụng điện bất thường. Thuật tốn RF tối ưu trong việc đưa ra ngẫu nhiên các cây quyết định và cho ra kết quả ngẫu nhiên phù hợp với tính chất của bài tốn đặt ra. Với số lượng cây càng lớn thì thời gian huấn luyện và dự đốn sẽ tốn nhiều thời gian hơn, nhưng tỷ lệ chính xác khá cao thì vẫn đạt được độ tin cậy cao. Với dữ liệu sản lượng điện năng tiêu thụ theo tháng của khách hàng là 1 lần trên 1 tháng thì thời gian dự đốn hơn 1 giờ cho hơn 300.000 khách hàng trên địa bàn tỉnh là chấp nhận được. Chương trình đã đĩng gĩp giúp mang lại hiệu quả cao trong cơng việc. Mỗi tháng thay vì phải sử dụng các cách thủ cơng như trước đây để kiểm tra từng khách hàng. Hiện nay, hệ thống đã phân loại đánh nhãn các nhĩm khách hàng giúp giảm hiệu quả thời gian xử lý và tăng hiệu quả cơng việc đáng kể.
Trong tương lai, nhằm tăng tỷ lệ nhận diện và phân loại khách hàng cĩ hành vi bất thường, đề tài cẩn được cho phép sử dụng nguồn dữ liệu lớn hơn như dữ liệu các năm 2015 trở về trước để cĩ cơ sở so sánh độ biến thiên của một khách hàng trong các năm giúp học máy cĩ nhiều điều kiện để đưa ra dự đốn chính xác hơn. Việc mở rộng dữ liệu ra các tỉnh thành khắp Việt Nam là điều cần thiết. Hiện nay dữ liệu sản lượng điện được EVN quy chuẩn theo hệ thống CMIS giúp dữ liệu được đồng bộ về mặt CSDL. Với giải pháp này, dữ liệu khách hàng trộm cắp điện và khách hàng dự đốn cũng được đa dạng từ nhiều ngành nghề cho đến vị trí địa lý vùng miền. Tỷ lệ tiêu thụ điện năng ở mỗi tỉnh thành là khác nhau.
Ngồi ra, nhằm tăng tính cấp thiết cho người mua điện, hệ thống cần được mở rộng thêm chức năng huấn luyện và dự đốn dữ liệu trên dữ liệu theo ngày. Từ năm 2018, EVNCPC đã triển khai thành cơng hệ thống thu thập chỉ số cơng tơ khách hàng (RF-Spider Chi tiết phụ lục 02) hồn tồn tự động, với hệ
thống này, các dữ liệu cơng tơ điện tử sẽ được lưu về định kỳ 3-5 lần/1 khách hàng/1 ngày. Với dữ liệu lớn và biên độ chênh lệch này, cần áp dụng thêm nhiều giáp pháp để hệ thống cĩ thể đưa ra dự đốn chính xác.
DANH MỤC CƠNG TRÌNH KHOA HỌC ĐÃ ĐƯỢC CƠNG BỐ
TT Cơng trình khoa học Tác giả Nơi cơng bố
1
Xây dựng hệ thống AI Nhận diện và Dự đốn Sản lượng Điện năng tiêu thụ bất thường của khách hàng
Hồng Xuân Thiện, Bùi Thị Thanh Thanh
Hội thảo Khoa học quốc gia CNTT và ứng dụng trong các lĩnh vực lần thứ 11 – CITA năm 2022, ISBN: 978-604-84-6711- 1, Trang 72-82.
DANH MỤC TÀI LIỆU THAM KHẢO
[1] Trần Hồng Bình, (2015). Ứng dụng Random Forest để tư vấn chọn lộ trình học trong học chế tín chỉ. Luận văn Thạc sĩ chuyên ngành Khoa học máy tính. Mã số: 60.48.01.01, Đại học Đà Nẵng.
[2] Nguyễn Văn Hồng, Phan Thị Thu Hồng, Nguyễn Thanh Tùng và Nguyễn Thị Thủy, (2014). Phương pháp lấy mẫu thuộc tính mới trong rừng ngẫu nhiên cho phân tích dữ liệu SNP. Tạp chí khoa học và phát triển 2015, tập 13, (số 2), tr.301- 307.
[3] Đồng Thị Ngọc Lan, (2011). Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều. Luận văn Thạc sĩ ngành Cơng nghệ phần mềm. Mã số: 60.48.10, Đại học cơng nghệ.
[4] Trần Thanh Sơn, (2012). Sử dụng dữ liệu ảnh viễn thám kết hợp kỹ thuật GIS để phân tích biến động tài nguyên rừng tại huyện Tuy Đức, tỉnh Đắk Nơng. Luận văn Thạc sĩ Lâm nghiệp. Đại học Tây Nguyên.
[5] Nguyễn Văn Thị và Trần Quang Bảo, (2014). Ứng dụng kỹ thuật phân loại ảnh hướng đối tượng nhằm phân loại trạng thái rừng theo thơng tư số 34. Tạp chí Khoa học Lâm nghiệp, 2/2014, tr.3343-3353.
[6] Trịnh Thị Hồi Thu, Lê Thị Thu Hà và Phạm Thị Làn, (2012). So sánh phương pháp phân loại dựa vào điểm ảnh và phân loại định hướng đối tượng chiết xuất thơng tin lớp phủ bề mặt
[7] Ho, Tin Kam (1995). Random Decision Forests (PDF). Proceedings of the 3rd