Luận văn thạc sĩ Khoa học máy tính: Phát triển cảm biến ảo thay thế cảm biến thật trong điều kiện thực tế

Trang 1

NGUYỄN THANH QUÂN

PHÁT TRIỂN CẢM BIẾN ẢO THAY THẾ CẢM BIẾN THẬT TRONG ĐIỀU KIỆN THỰC TẾ

Chuyên ngành: Khoa Học Máy Tính

Mã số: 8480101

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 07 năm 2023

Trang 2

Cán bộ hướng dẫn khoa học:

1 PGS.TS Thoại Nam

2 TS Nguyễn Quang Hùng

Cán bộ chấm nhận xét 1: PGS.TS Trần Công Hùng

Cán bộ chấm nhận xét 2: TS Nguyễn Lê Duy Lai

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 13 tháng 07 năm 2023

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 Chủ tịch: PGS.TS Trần Văn Hoài

2 Phản biện 1: PGS.TS Trần Công Hùng 3 Phản biện 2: TS Nguyễn Lê Duy Lai 4 Thư ký: TS Lê Thành Sách

5 Uỷ viên: PGS.TS Lê Trung Quân

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn Thanh Quân MSHV: 2070108 Ngày, tháng, năm sinh: 01/01/1991 Nơi sinh: Vĩnh Long Chuyên ngành: Khoa Học Máy Tính Mã số: 8480101

I TÊN ĐỀ TÀI: Phát triển cảm biến ảo thay thế cảm biến thật trong điều kiện thực

tế (Virtual sensor development to compensate physical sensors in certain circumstances)

II NHIỆM VỤ VÀ NỘI DUNG: Thứ nhất, tìm hiểu, nghiên cứu các mô hình

GAN-based để phát triển cảm biến ảo nhằm mục đích giải quyết vấn đề mất mát dữ liệu (missing data) khi cảm biến thật xảy ra sự cố Thứ hai, nghiên cứu phương pháp hướng dữ liệu (data-driven) để tính toán và đề xuất số lượng cảm biến vật lí có thể tiết giảm và thay thế bằng cảm biến ảo đã tạo

III NGÀY GIAO NHIỆM VỤ: 14/02/2022 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 12/06/2023 V CÁN BỘ HƯỚNG DẪN: PGS.TS Thoại Nam và TS Nguyễn Quang Hùng

Tp HCM, ngày……, tháng……, năm 20…

CÁN BỘ HƯỚNG DẪN 1 CÁN BỘ HƯỚNG DẪN 2 HỘI ĐỒNG NGÀNH

(Họ tên và chữ ký) (Họ tên và chữ ký) (Họ tên và chữ ký)

TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

(Họ tên và chữ ký)

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

Trang 4

LỜI CẢM ƠN

Trong suốt thời gian học chương trình đào tạo thạc sĩ tại Đại học Bách Khoa thành phố Hồ Chí Minh, đặc biệt là giai đoạn làm luận văn tốt nghiệp, tôi đã nhận được rất nhiều sự quan tâm, động viên, giúp đỡ của gia đình, thầy cô và các bạn trong trường

Trước hết, tôi xin gửi lời cảm ơn sâu sắc đến gia đình mình, đặc biệt là cha và mẹ tôi Người luôn bên cạnh và ủng hộ tôi trong suốt con đường học tập mà tôi đã chọn

Tiếp theo tôi xin gửi lời cảm ơn chân thành nhất đến hai thầy hướng dẫn PGS.TS Thoại Nam và TS Nguyễn Quang Hùng Hai thầy luôn nhiệt tình lắng nghe và đóng góp ý kiến cho luận văn của tôi Đồng thời thầy luôn có định hướng và hướng dẫn rõ ràng những điều cần làm và không nên làm cho sinh viên

Tôi cũng xin gửi lời cảm ơn đến các thầy cô đã giảng dạy cho tôi trong suốt thời gian học cao học tại trường, những người đã trang bị cho tôi các kiến thức quý báu và cần thiết cho con đường học thuật phía trước của tôi

Cuối cùng tôi xin cảm ơn Trường Đại học Bách Khoa và Phòng thí nghiệm Tính toán hiệu năng cao, tất cả các thầy cô, các bạn/anh/chị đồng nghiệp, đã tạo cho tôi một môi trường học tập, nghiên cứu tốt, hào hứng, và ý nghĩa

Một lần nữa, tôi xin chân thành cảm ơn!

Nguyễn Thanh Quân 13/07/2023

Trang 5

TÓM TẮT LUẬN VĂN

Cảm biến là một sản phẩm công nghệ tiên tiến được sử dụng nhiều trong các lĩnh vực của đời sống xã hội như trong sinh hoạt, trong kinh doanh thương mại và trong các lĩnh vực sản xuất công, nông nghiệp, v.v Cảm biến đóng vai trò quan trọng cho vấn đề cảm nhận những trạng thái hay quá trình vật lý, hóa học hay sinh học của môi trường cần khảo sát, và biến đổi chúng thành tín hiệu điện nhằm thu thập thông tin về trạng thái hay quá trình đó Chính vì thế, bất kì sự cố nào xảy ra với cảm biến đều dẫn đến các hệ thống vận hành dựa trên dữ liệu thu được có thể bị gián đoạn hoặc sai chức năng ban đầu do tính liên tục và sự toàn vẹn của dữ liệu không còn được đảm bảo Bên cạnh đó, một số nguyên nhân khách quan như vị trí cần thu thập thông tin có điều kiện môi trường phức tạp, không cho phép lắp đặt cảm biến vật lí hay chi phí đầu tư và quản lí một số lượng lớn các thiết bị cảm biến trên một đơn vị diện tích bị hạn chế đều dẫn đến sự mất mát và sai lệch dữ liệu Do đó, việc đề ra giải pháp nhằm đảm bảo tính liên tục, sự toàn vẹn và độ tin cậy của thông tin từ cảm biến, đồng thời có thể tiết giảm một lượng cảm biến vật lí nhất định cần sử dụng thực tế cho mục đích tối ưu hóa chi phí là hết sức cần thiết

Xuất phát từ yêu cầu đó, nghiên cứu trong luận văn đề xuất hai phương pháp mới với mục đích giải quyết vấn đề nêu trên:

(1) Tạo cảm biến ảo cho việc ước lượng và tái tạo dữ liệu bị mất có tên gọi Pearson Generative Adversarial Imputation Nets Virtual Sensors (PGAIN-VS) dựa trên mô hình Generative Adversarial Network (GAN)

(2) Nghiên cứu một phương pháp đo đạc dữ liệu mới cho mục đích tiết kiệm cảm biến được đặt tên Sensor Rotational Measurement (SRM) cho việc luân phiên cảm biến để thu thập thông tin giữa các vị trí trong một khoảng thời gian cho phép dựa trên cảm biến ảo PGAIN-VS đã tạo

PGAIN-VS mang trong mình khả năng bổ khuyết dữ liệu của Generative Generative Adversarial Imputation Nets (GAIN) với độ chính xác cao hơn khi hệ số tương quan Pearson giữa các điểm dữ liệu thu được từ các cảm biến môi trường được tính toán và sử dụng giúp mô hình đưa ra dự đoán tốt hơn Từ đó, phương pháp luân

Trang 6

phiên thu thập dữ liệu SRM hoạt động dựa trên khả năng của PGAIN-VS và giải thuật Borda voting trong việc tính toán và sắp xếp trọng số ảnh hưởng của từng cảm biến, sau đó xác định số lượng cảm biến cần dùng và số lượng cảm biến có thể được thay thế bằng cảm biến ảo nhằm mục đích tiết kiệm chi phí SRM được xem như bài toán tối ưu hoá đa mục tiêu với black-box model với giá trị dùng để kiểm tra sự sai lệch giữa dữ liệu ước lượng và thực tế Root Mean Square Error (RMSE) kì vọng tìm được là thấp nhất trong khi số lượng cảm biến được tiết giảm và thời gian đo đạc của một cảm biến tại một vị trí là lớn nhất Bài toán tối ưu này sau khi được định nghĩa sẽ được công cụ OpenBox đi tìm lời giải tối ưu

Hai đề xuất nói trên được kiểm nghiệm với các tập dữ liệu thực tế và kết quả đạt được rất khả quan khi sự sai khác giữa giá trị thu thập thực tế và giá trị ước lượng được tính toán thông qua RMSE ở mức lí tưởng Song song đó, một lượng cảm biến vật lí được tiết kiệm đáng kể mang lại giá trị ứng dụng và kinh tế cao

Trang 7

ABSTRACT

Recent advances in sensor technology have increased human's ability to measure a wide range of phenomena and events Undoubtedly, sensors play an important role to grasp external information of the nature or of certain objects, then transforming them into electronic signal data for use As a matter of fact, any issue occurring with sensors may either kill the operation of the systems relying on the data collected by physical sensors or make them malfunction because of the interrupted flow of data In addition, due to a variety of limitations, only a few sensors can be deployed at a given site Consequently, setting up enough sensors at the right places to provide uniform monitoring can therefore be challenging For those reasons, they all result in missing-data problem, so there is a pressing and necessary demand on developing a virtual sensor solution, which takes advantage of machine learning, and deep learning so that the missing-data problem can be addressed as well as possible to provide a data compensation solution for sensor failures As a result, a set of techniques, named virtual sensing needs to be developed for the purpose of replacing a subset of physical sensors with virtual ones, enabling the monitoring of extreme locations, reducing the hardware deployment and management costs Therefore, the thesis proposes two new approaches for two purposes below:

(1) Developing virtual sensor solution based on GAN model to deal with the missing-data problem caused by sensor failures

(2) Researching a new virtual sensing method to support finding the optimal number of physical sensors to be used

The virtual sensor solution, named Pearson Generative Adversarial Imputation Nets Virtual Sensors (PGAIN-VS) calculates Pearson correlation among data-collected devices, then uses it as a filter to select the most suitable sensors whose data will be used in the machine learning model training process Once the virtual sensor creation is completed, failing sensors will be ready to be replaced by virtual ones, and their missing data will be also imputed Besides, Sensor Rotational Measurement (SRM) which is a new virtual sensing solution relies on PGAIN-VS’s imputation

Trang 8

strength, and Borda voting method to determine the subset of real sensors that can take turns in observing information within an interval of time SRM is seen as a black-box multiple objective optimization problem with constraints and solved by OpenBox tool, which is based on a Bayesian optimization algorithm The proposed approach is evaluated on real-world energy, temperature and vehicle speed datasets, the results demonstrate that SRM is able to achieve high accuracy in predicting the target variable and outperforms the state-of-the-art virtual sensing approaches Additionally, SRM is able to identify the most informative physical sensors to capture the underlying dynamics of the system, which can help reduce the cost of hardware installation and maintenance

The approaches are applied on several real-world datasets with two goals: (1) proving the ability and reliability of the PGAIN-VS virtual sensors in being able to partially replace physical devices and to estimate missing data through Root Mean Square Error (RMSE) scores (2) Deploying SRM to show its efficiency in finding the best subset of physical sensors to join the missing-data imputation process, then estimate values with PGAIN-VS for positions where physical sensors are no longer placed

The results show that PGAIN-VS virtual sensors are possible to replace physical devices in case of faulty sensors with low prediction errors PGAIN-VS achieved better performance up to around 20% in the considered datasets with different metrics compared to other solutions taken into consideration More importantly, SRM can propose a suitable subset of real sensors to be carry out the rotational measurement with the reduction up to around 20% in the total number of physical sensors for an accurate, and efficient monitoring as well as economic efficiency

Trang 9

LỜI CAM ĐOAN

Luận văn của tôi có tham khảo các tài liệu, bài báo, trang web như được trình bày ở mục tài liệu tham khảo và ở mỗi tham khảo tôi đều trích dẫn nguồn gốc Tôi xin cam đoan rằng ngoài những trích dẫn từ các tham khảo trên, toàn bộ nội dung trong báo cáo là do tôi tự soạn thảo từ những kết quả nghiên cứu của riêng tôi, không sao chép từ bất kì tài liệu nào khác

Tôi sẽ hoàn toàn chịu xử lí theo qui định nếu có bất cứ sai phạm nào so với lời cam kết

Nguyễn Thanh Quân

Trang 10

2.1.2 Khái quát về cảm biến ảo 5

2.1.3 Sự cần thiết trong việc phát triển cảm biến ảo 8

2.2 Phương pháp tiết giảm số cảm biến vật lý 9

2.3 Hệ số tương quan Pearson 10

2.4 Phương pháp xếp hạng Borda voting 12

2.5 Bài toán tối ưu hoá đa mục tiêu 13

Trang 11

2.5.1 Định nghĩa chung 13

2.5.2 Bài toán tối ưu hoá đa mục tiêu với black-box model 15

2.5.3 Thông số đánh giá 15

2.6 Thư viện OpenBox 16

2.7 Generative Adversarial Network (GAN) 17

2.8 Generative Adversarial Imputation Network (GAIN) 21

CHƯƠNG 3 – CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 24

3.1 Tổng quan về các hướng phát triển cảm biến ảo 24

3.2 Tổng quan về các phương pháp tiết giảm số cảm biến vật lý 25

3.3 Tổng quan về phương pháp tối ưu hoá đa mục tiêu 26

CHƯƠNG 4 – PHÁT TRIỂN CẢM BIẾN ẢO PGAIN-VS VIRTUAL SENSOR 28 4.1 Sự tương quan dữ liệu được thu thập bởi các cảm biến vật lý 28

4.2 Mô hình PGAIN-VS 28

4.2.1 Thành phần sinh Generator 29

4.2.2 Thành phần phân biệt Discriminator 30

4.2.3 Hệ số tương quan Pearson cho cảm biến ảo 30

4.2.4 Thành phần hint 31

4.2.5 Mục tiêu 32

4.2.6 Kiến trúc tổng quan và giải thuật PGAIN-VS 34

CHƯƠNG 5 – PHƯƠNG PHÁP TIẾT GIẢM SỐ CẢM BIẾN VẬT LÝ SENSOR ROTATIONAL MEASUREMENT (SRM) 37

5.1 Phương pháp xếp hạng Borda voting 37

5.2 Bài toán tối ưu hoá đa mục tiêu với black-box model PGAIN-VS 38

5.3 Bài toán mới Sensor Rotational Measurement (SRM) 39

5.3.1 Định nghĩa 39

5.3.2 Tối ưu hoá kết quả RMSE được dự đoán bằng black-box model 39

Trang 12

5.4 Triển khai SRM với thư viện OpenBox 41

5.5 Thông số đánh giá cho SRM 42

CHƯƠNG 6 – THỰC NGHIỆM 43

6.1 Cấu hình hệ thống vận hành thực nghiệm 43

6.2 Tập dữ liệu thực nghiệm 43

6.2.1 Tập dữ liệu nhiệt độ 43

6.2.2 Tập dữ liệu năng lượng mặt trời 44

6.2.3 Tập dữ liệu tốc độ phương tiện giao thông 44

6.2.4 Thông số đặc trưng của các tập dữ liệu 44

6.3 Tiêu chí đánh giá 45

6.4 Thí nghiệm đánh giá PGAIN-VS 45

6.4.1 Thông số dữ liệu cảm biến bị hỏng 45

6.4.2 Hiệu năng của PGAIN-VS 45

6.4.3 So sánh PGAIN-VS với cảm biến ảo ANN/LR/SVR 49

6.5 Thí nghiệm đánh giá Sensor Rotational Measurement 54

6.5.1 Dữ liệu năng lượng mặt trời 57

6.5.2 Dữ liệu nhiệt độ trong không gian phòng 58

6.5.3 Dữ liệu tốc độ phương tiện giao thông 60

CHƯƠNG 7 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC 64

TÀI LIỆU THAM KHẢO 65

LÝ LỊCH TRÍCH NGANG 73

Trang 13

DANH MỤC HÌNH

Hình 2.1 – Nguồn dữ liệu hoạt động của cảm biến ảo 6

Hình 2.2 – Mô hình thành phần cảm biến ảo 7

Hình 2.3 – Cấp độ tương quan thông qua giá trị Pearson 11

Hình 2.4 – Dominate and Pareto front với bài toán hai mục tiêu 14

Hình 2.5 – Hypervolume trong không gian 2 chiều 16

Hình 5.1 – Sensor rotational measurement architecture 38

Hình 5.2 – Pseudo-code of sensor ranking 40

Hình 5.3 – Pseudo code of SRM 41

Hình 5.4 – Kiến trúc OpenBox 42

Hình 6.1 – Tập dữ liệu Raspihat với 5% dữ liệu bị mất 50

Hình 6.5 – Tập dữ liệu Solar power với 5% dữ liệu bị mất 51

Hình 6.9 – Tập dữ liệu Traffic với 5% dữ liệu bị mất 53

Hình 6.13 – Solar dataset – cảm biến thứ nhất được dự đoán dữ liệu – 3% dữ liệu bị mất và giảm 3 cảm biến 57

Trang 14

Hình 6.14 – Solar dataset – cảm biến thứ hai được dự đoán dữ liệu – 3% dữ liệu bị mất và giảm 3 cảm biến 57 Hình 6.15 – Solar dataset – cảm biến thứ ba được dự đoán dữ liệu – 3% dữ liệu bị mất và giảm 3 cảm biến 58 Hình 6.16 – Temperature dataset – cảm biến thứ nhất được dự đoán dữ liệu – 4% dữ liệu bị mất và giảm 3 cảm biến 58 Hình 6.17 – Temperature dataset – cảm biến thứ hai được dự đoán dữ liệu – 4% dữ liệu bị mất và giảm 3 cảm biến 59 Hình 6.18 – Temperature dataset – cảm biến thứ ba được dự đoán dữ liệu – 4% dữ liệu bị mất và giảm 3 cảm biến 59 Hình 6.19 – Traffic dataset – cảm biến thứ nhất được dự đoán dữ liệu – 5% dữ liệu bị mất và giảm 4 cảm biến 60 Hình 6.20 – Traffic dataset – cảm biến thứ hai được dự đoán dữ liệu – 5% dữ liệu bị mất và giảm 4 cảm biến 60 Hình 6.21 – Traffic dataset – cảm biến thứ ba được dự đoán dữ liệu – 5% dữ liệu bị mất và giảm 4 cảm biến 61 Hình 6.22 – Traffic dataset – cảm biến thứ tư được dự đoán dữ liệu – 5% dữ liệu bị mất và giảm 4 cảm biến 61

Trang 15

DANH MỤC BẢNG

Bảng 2.1 – Minh họa voters cho phương pháp Borda voting 12

Bảng 6.1 – Cấu hình chi tiết tài nguyên sử dụng cho giải thuật 43

Bảng 6.2 – Thông số đặc trưng của các tập dữ liệu dùng để thực nghiệm 44

Bảng 6.3 – Thông số đặc trưng dữ liệu của cảm biến bị hỏng 45

Bảng 6.4 – Hiệu năng PGAIN-VS với 5% dữ liệu bị mất 46

Bảng 6.8 – PGAIN-VS và cảm biến ảo ANN/LR với 33% dữ liệu bị mất 49

Bảng 6.9 – Kết quả SRM cho bài toán tối ưu hoá trên các tập dữ liệu 55

Trang 16

DWT Discrete Wavelet Transform

EHVI Expected Hypervolume Improvement EIM Effective Independent Method

FDI Fault Detection and Isolation

GAIN Generative Adversarial Imputation Nets GAN Generative Adversarial Network

MESMO Max-value Entropy Search for Multi-objective Optimization MNSS Minimum Number Sensor Selection

mRMR minimum Redundancy Maximum Relevance NRMSE Normalized Root Mean Square Error

NSGA-II Non-dominated Sorting Genetic Algorithm OSP Optimal Sensor Placement

PGAIN Pearson Generative Adversarial Imputation Nets PRF Probabilistic Random Forest

Trang 17

RMSE Root Mean Square Error SHM Structural Health Monitoring SRM Sensor Rotational Measurement SVR Support Vector Regression

WSNs Wireless Sensor Networks

Trang 18

CHƯƠNG 1 – TỔNG QUAN

1.1 Giới thiệu

Cách mạng công nghiệp lần thứ tư là sự kết hợp của công nghệ trong các lĩnh vực vật lý, sinh học và công nghệ số để tạo ra những khả năng sản xuất hoàn toàn mới có tác động sâu sắc đến đời sống kinh tế, chính trị, xã hội của thế giới Ngày nay, với sự bùng nổ của cuộc cách mạng công nghiệp lần thứ tư và sự phát triển mạnh mẽ của ngành công nghệ thông tin, càng nhiều các thiết bị từ lĩnh vực sản xuất cho đến các sản phẩm ứng dụng trong đời sống được kết nối với nhau và hoạt động dựa trên dữ liệu thu thập được trong suốt quá trình vận hành tạo ra một hệ sinh thái có sự tương tác tốt hơn, tổng thể hơn

Để có thể đạt được môi trường hoạt động như thế, cảm biến đóng vai trò hết sức quan trọng trong việc quan trắc các thông tin từ các sự kiện, hiện tượng bên ngoài Do đó, với bất kì sự cố nào xảy ra cho cảm biến làm cho dữ liệu bị gián đoạn đều dẫn đến việc ngưng trệ, hỏng hóc hay hoạt động sai chức năng của các hệ thống Ngoài ra, một số nguyên nhân khác từ khách quan cho đến chủ quan cũng ảnh hưởng đến việc thu thập thông tin chẳng hạn như việc triển khai cảm biến vật lí sẽ gặp phải một số giới hạn về không gian và thời gian tại một vài vị trí địa lí do điều kiện môi trường khắc nghiệt ngăn cản việc lắp đặt, hoặc làm dữ liệu bị nhiễu, độ chính xác của dữ liệu bị suy giảm theo quá trình sử dụng Bên cạnh đó, giới hạn về khả năng kinh tế cũng tất yếu ảnh hưởng đến việc triển khai một lượng cảm biến nhất định Tất cả những điều nêu trên đều có thể dẫn tới việc mất mát, sai lệch dữ liệu cần thiết và vấn đề đặt ra là cần có giải pháp giải quyết sự gián đoạn, đảm bảo tính liên tục của dữ liệu cho sự vận hành của các hệ thống Chính vì lí do đó, trong những năm qua, cảm biến ảo đã được nghiên cứu, giới thiệu và triển khai với mục đích vận hành song song, đồng thời bổ trợ cho cảm biến thật, hạn chế những yếu điểm mà cảm biến thật mắc phải Việc áp dụng cảm biến ảo trong khi cảm biến vật lí xảy ra sự cố và việc tiết giảm một số lượng cảm biến phù hợp nhằm tối ưu hóa chi phí triển khai đo đạc sẽ mang lại rất nhiều lợi ích trong kinh tế và nghiên cứu Đây là động lực để tác giả thực hiện đề tài

Trang 19

luận văn thạc sĩ cho việc phát triển cảm biến ảo dựa trên các giải thuật máy học hiện nay với độ tin cậy, ổn định cao và ít tốn chi phí

Trong công trình nghiên cứu của luận văn này, cảm biến ảo được xây dựng mang tên PGAIN Virtual Sensor (PGAIN-VS) dựa trên mô hình Generative Adversarial Imputation Nets (GAIN) [1] cho việc dự đoán dữ liệu bị khi có vấn đề xảy ra cho cảm biến vật lý, mô hình này cũng được phát triển từ Generative Adversarial Network (GAN) [2] PGAIN-VS được bổ sung hệ số tương quan Pearson để chọn dữ liệu của cảm biến có độ tương quan cao giúp cho mô hình có khả năng nhận biết được sự biến đổi và xu hướng biến thiên của dữ liệu tốt hơn, từ đó có thể ước lượng và tái tạo dữ liệu sát với thực tế Bên cạnh đó, việc đo đạc thông tin trong điều kiện thiếu cảm biến hay nói khác hơn là sự tiết giảm số lượng cảm biến được xem như bài toán tối ưu hóa đa mục tiêu với mô hình máy học black-box model với tên gọi Sensor Rotational Measurement (SRM) cũng được phát triển trong nghiên cứu này Lời giải cho bài toán tối ưu được tìm ra bằng việc sử dụng công cụ mang tên OpenBox với công thức được xác định ở phần sau Tóm lại, luận văn đã giải quyết các vấn đề của hai câu hỏi sau:

- Giải thuật và phương pháp nào sinh dữ liệu cho cảm biến ảo dựa trên dữ liệu thu được trong quá khứ và dữ liệu từ các cảm biến thành viên có độ tương quan cao?

- Số cảm biến vật lý sử dụng thực tế sẽ được tiết giảm ra sao so với số điểm cần quan trắc?

1.2 Ý nghĩa đề tài

1.2.1 Ý nghĩa thực tiễn

Cung cấp giải pháp cảm biến ảo nhằm giải quyết vấn đề mất mát và sai lệch dữ liệu khi sự cố xảy ra trong quá trình thu thập thông tin bằng cảm biến thật: Luận văn phát triển cảm biến ảo PGAIN-VS có độ tin cậy cao giúp dữ liệu được

đảm bảo liên tục cho các hệ thống vận hành phía sau kể cả trong trường hợp sự cố xảy ra với cảm biến thật

Cung cấp giải pháp tối ưu hóa lợi ích kinh tế trong việc triển khai lắp đặt cảm biến trong một đơn vị diện tích: Số cảm biến cần được sử dụng sẽ ít hơn cho

Trang 20

với số điểm cần đo đạc so với dự định ban đầu bằng cách sử dụng cảm biến ảo PGAIN-VS để luân phiên đo đạc tại môt số vị trí Rõ ràng, chi phí cho việc đầu tư, triển khai và quản lí sẽ thấp hơn

1.2.2 Ý nghĩa khoa học

Đề ra một phương pháp bổ khuyết dữ liệu: Luận văn bổ sung hệ số tương

quan Pearson nhằm mục đích loại bỏ những giá trị gây nhiễu, bị lệch trong quá trình dự đoán cho mô hình GAIN

Đề xuất một phương pháp triển khai đo đạc mới mang tên Sensor Rotational Measurement (SRM) dựa trên bài toán tối ưu hóa đa mục tiêu với black-box model: Luận văn giới thiệu một phương pháp luân phiên đo đạc giá trị

giữa các địa điểm nhằm tiết kiệm số cảm biến vật lí cần được sử dụng trong thực tế

1.3 Phạm vi đề tài

Phạm vi nghiên cứu sẽ tập trung trả lời hai câu hỏi:

• Giải thuật, phương pháp nào được dùng để sinh dữ liệu cho cảm biến ảo dựa trên dữ liệu trong quá khứ và dữ liệu từ các cảm biến thành viên có độ tương quan cao?

• Khả năng tiết giảm số cảm biến vật lí cần sử dụng so với số điểm cần quan trắc trong thực tế ra sao?

Môi trường thử nghiệm: Luận văn sử dụng ba tập dữ liệu thực về nhiệt độ, mức

năng lượng mặt trời và tốc độ của các phương tiện giao thông được thu thập từ các cảm biến vật lí Trong đó tập dữ liệu về mức năng lượng mặt trời đã được sử dụng để phát triển cảm biến ảo dựa trên mô hình máy học Artificial Neural Network (ANN), Linear Regression (LR), Support Vector Regression (SVR) trong [3] và đây sẽ là cơ sở để đánh giá khả năng của PGAIN-VS đề cập trong chương VI Tương tự, tập dữ liệu nhiệt độ cũng được tác giả trong nghiên cứu [4] áp dụng để đánh giá khả năng nội suy dữ liệu từ một nhóm các cảm biến cho trước cho các cảm biến còn lại

Phương pháp thực hiện: Luận văn sử dụng phương pháp nghiên cứu thực

nghiệm, so sánh để đánh giá về tính ổn định và đặc biệt là độ tin cậy của cảm biến

Trang 21

ảo PGAIN-VS song song với tính khả thi của phương pháp triển khai luân phiên đo đạc mới SRM

1.4 Bố cục

Luận văn bao gồm bảy chương Trong đó chương 2 cung cấp các thông tin chung về cơ sở lý thuyết đặt nền móng cho các ý tưởng đề xuất trong luận văn như phương pháp Borda voting, thư viện OpenBox Chương 3 giới thiệu các công trình nghiên cứu liên quan đến đề tài, cũng như các hướng tiếp cận tổng quan để giải quyết vấn đề Chương 4 mô tả chi tiết về phương pháp tạo cảm biến ảo PGAIN-VS Chương 5 sẽ thảo luận cụ thể về phương pháp đo lường mới được đề xuất mang tên SRM Chương 6 là kết quả thí nghiệm đánh giá chất lượng của cảm biến ảo PGAIN-VS và khả năng tiết giảm số cảm biến cũng như triển khai phương pháp SRM trên các tập dữ liệu thử nghiệm Chương 7 là kết luận về các ưu điểm, hạn chế và các công việc trong tương lai

Trang 22

CHƯƠNG 2 – CƠ SỞ LÝ THUYẾT

2.1 Tổng quan về cảm biến

2.1.1 Khát quát về cảm biến vật lý

Trong cuộc sống hằng ngày, chúng ta thường sử dụng các loại cảm biến trong

nhiều ứng dụng khác nhau như bộ cảm biến hồng ngoại được sử dụng để điều khiển truyền hình từ xa, cảm biến môi trường được lắp đặt dùng để thu thập thông tin về các thông số tự nhiên như nhiệt độ, độ ảnh, ánh sáng, v.v Tuy nhiên, cảm biến là

gì? Cảm biến là thiết bị điện tử có thể cảm nhận những trạng thái hay quá trình vật

lý hoặc hóa học diễn ra môi trường cần khảo sát Cảm biến sẽ biến đổi những tín hiệu thu được thành tín hiệu điện nhằm thu thập và truyền tải các thông tin về trạng thái của quá trình đó

Những thông tin sẽ được thu thập và xử lý với mục đích cung cấp tham số định tính hoặc định lượng của môi trường Cảm biến dùng trong các thiết bị máy móc để dùng cho những công việc đo đạc, nghiên cứu khoa học kỹ thuật trong nhiều lĩnh vực khác nhau Những thông tin đại lượng cần đo như nhiệt độ, độ ẩm, mức năng lượng, áp suất, khoảng cách… có tác động lên cảm biến sẽ cho đại lượng đặc trưng mang tính chất điện như điện tích, điện áp hoặc dòng điện Các loại cảm biến thường được bố trí tại những vị trí như đầu dò, đầu thu kết hợp với mạch điện

Cấu tạo cảm biến bao gồm các phần tử mạch điện để hình thành mạch điện hệ thống hoàn chỉnh được đóng gói nhỏ gọn Khi những tín hiệu phát ra sẽ được quy chuẩn phụ thuộc theo mức điện áp và dòng điện theo bộ điều khiển Cảm biến có đầu dò thu tín hiệu thay đổi theo sự biến đổi của môi trường đó

2.1.2 Khái quát về cảm biến ảo

Cảm biến ảo là một khái niệm được quan tâm nhiều trong những năm gần đây do sự phát triển của cuộc cách mạng công nghiệp lần thứ tư khi các thiết bị được kết nối với nhau để trao đổi thông tin vận hành và các ứng dụng hoạt động tạo ra dữ liệu làm nền tảng cho các tác vụ phân tích dự đoán phía sau trong kỉ nguyên Internet vạn vật (IoT) Một cách tổng quát, cảm biến ảo là một đối tượng “thuần” phần mềm có thể tự sản sinh tín hiệu dữ liệu bằng cách kết hợp và tổng hợp các loại tín hiệu mà nó

Trang 23

nhận được từ cảm biến vật lí hoặc từ cảm biến ảo khác Hình bên dưới mô tả sự đa dạng trong cách tạo cũng như vận hành cảm biến ảo: (a) cảm biến ảo (VS) hoàn toàn dựa trên hoạt động và dữ liệu của cảm biến vật lí (PS), (b) cảm biến ảo thuần dựa trên cảm biến ảo khác, và (c) cảm biến ảo phụ thuộc vào hoạt động và dữ liệu của cảm biến vật lí và cảm biến ảo khác

Bằng cách tiếp nhận và xử lý nhiều loại dữ liệu đầu vào khác nhau, cảm biến ảo có khả năng làm việc với các điều kiện, giá trị mà cảm biến vật lí không thể Trong thực thế, ranh giới giữa cảm biến vật lí và cảm biến ảo là không rõ ràng bởi vì một số

Hình 2.1 – Nguồn dữ liệu hoạt động của cảm biến ảo [5]

Trang 24

thiết bị thật thực hiện pháp đo đạc, quan trắc sự kiện, hiện tượng thông qua việc sử dụng sự tương quan (chẳng hạn hệ quả áp điện, piezoelectric effect) để chuyển đổi giá trị thu thập được thành một tín hiệu điện có thể xử lý Vì vậy, đa số các cảm biến hiện nay đều mang trong mình cả phần cứng và phần mềm để xử lí tín hiệu

Hình 2.2 bên dưới minh họa các thành phần và mối liên hệ giữa chúng trong khái niệm cảm biến ảo:

Hình 2.2 – Mô hình thành phần cảm biến ảo [5]

Trong đó, asset mô tả các đối tượng, chủ thể hoặc hệ thống mà tại đó toàn bộ hay một phần sẽ được giám sát hoặc quan sát trong bất kỳ dạng nào Data source cung cấp các luồng (streams) dữ liệu về asset được tạo ra bởi cảm biến vật lí hoặc cảm biến ảo trong một tần suất nhất định Dữ liệu này có thể từ cùng asset hoặc khác và cũng có thể ở nhiều dạng khác nhau như kiểu số liên tục hay rời rạc… Rõ ràng, sự gián đoạn với data streams, độ trễ thời gian là không thể tránh khỏi Hơn nữa, số lượng nguồn dữ liệu và định dạng của dữ liệu hoàn toàn có thể thay đổi động theo thời gian Đây là những thách thức đối với cảm biến ảo Data fusion function mô tả một thủ tục

Trang 25

chuyển đổi dữ liệu từ nguồn phức tạp sang thông tin đầu ra mong muốn để sử dụng phía sau

2.1.3 Sự cần thiết trong việc phát triển cảm biến ảo

Cảm biến ảo giúp khắc phục một số điểm yếu của cảm biến vật lí Đầu tiên, rõ ràng nhất là chi phí cần bỏ ra cho phần mềm thấp hơn đáng kể so với phần cứng, áp dụng cho việc đầu tư triển khai ban đầu và trong việc bảo trì liên tục về sau Thứ hai, cảm biến ảo cung cấp một giải pháp thay thế lí tưởng khi cảm biến vật lí khó hoặc không thể triển khai ở một số vị trí mong muốn do điều kiện không gian (ví dụ thiếu không gian cho cảm biến) hay môi trường khắc nghiệt (ví dụ tiếp xúc với acid hoặc nhiệt độ quá cao hoặc quá thấp) Độ trễ hoặc sự không chính xác của phép thu thập ở một vị trí không phù hợp có thể được bù đắp bằng cảm biến Thứ ba, công nghệ cảm biến ảo có thể giảm nhiễu tín hiệu và do đó, tăng độ tin cậy trong tín hiệu khi giá trị kết quả được xác nhận bởi các cảm biến khác đang thực hiện việc đo lường cho cùng một sự kiện, hiện tượng Thứ tư, sự suy giảm độ chính xác của cảm biến vật lý chắc chắn sẽ xảy ra theo thời gian sử dụng, do đó, việc này có thể được phát hiện và bù đắp bằng cảm biến ảo Cuối cùng, cảm biến ảo cực kì linh hoạt và có thể được tinh chỉnh sao cho phù hợp với yêu cầu ngay tại thời điểm đo lường, trong khi đó, cảm biến vật lí, sau khi lắp được, thường chỉ có thể được điều bằng cách can thiệp thủ công Ngoài chức năng “thay thế” cảm biến vật lí, cảm biến ảo được sử dụng để cung cấp dữ liệu đầu ra ở một cấp độ cao hơn khi mà các tín hiệu khác nhau và không đồng nhất Chẳng hạn, cảm biến ảo có thể chuyển đổi dữ liệu từ các cảm biến khác nhau thành một thông tin tương đối thống nhất, từ đó giúp thu hẹp sự sai khác và đưa ra quyết định tốt hơn

Trong luận văn này, hai mối quan tâm được chú ý nhiều nhất đó là (1) cảm biến ảo PGAIN-VS được tạo ra có đủ khả năng thay thế, hỗ trợ cảm biến vật lý khi chúng xảy ra sự cố, làm cho việc thu thập thông tin bị mất hoặc sai lệch Việc này có thể ảnh hưởng đến các hệ thống hoạt động phía sau, chính vì vậy cần cảm biến ảo kịp thời sinh và cung cấp dữ liệu Ngoài ra, (2) số lượng cảm biến vật lí có thể được tiết giảm là bao nhiêu để tiết kiệm chi phí triển khai và lắp đặt trong thực tế là một bài toán tối ưu cần có lời giải

Trang 26

2.2 Phương pháp tiết giảm số cảm biến vật lý

Để tiết giảm số cảm biến vật lý cần dùng trong một không gian cho việc thu thập thông tin nhất định, hai phương pháp được quan tâm và phát triển nhiều đó là phương pháp tìm vị trí đặt cảm biến tối ưu (Optimal Sensor Placement, OSP) và phương pháp tìm số cảm biến tối thiểu cần được sử dụng (Minimum Number Sensor Selection, MNSS)

Phương pháp OSP được định nghĩa như một sự cấu hình cảm biến sao cho chi phí bỏ ra là thấp nhất nhưng hiệu quả quan trắc thông tin vẫn đảm bảo Có khá nhiều các phương pháp để triển khai OSP, chẳng hạn như Effective Independent Method (EIM), Energy Method, and Modal Assurance Criterion EIM [6] được sử dụng để đạt được mô hình đặt cảm biến tối ưu thông qua việc loại bỏ các bậc tự do (degrees of freedom) với hiệu quả cao cho lỗi ước lượng từ ma trận thông tin Fisher EIM có một số hạn chế nhất định về sự phụ thuộc thông tin và sự bỏ qua các điểm năng lượng đo lường lớn, do đó một số cải tiến [7] [8] đã được đề xuất để khắc phục những điểm yếu trên Energy Method phụ thuộc vào động năng để tìm cách đặt cảm biến tối ưu Modal Assurance Criterion [9] [10] là mô hình có thể được dùng cho việc tìm ra kết quả của bài toán OSP, đồng thời nó cũng có thể dùng để đánh giá kết quả sau khi triển khai OSP

Riêng về phương pháp tìm số cảm biến cần dùng để triển khai trên một đơn vị diện tích thì có rất ít các nghiên cứu Gần đây, có một công trình [11] đề xuất kết hợp EIM và Modal Assurance Criterion (MAC) để tìm được số cảm biến tối thiểu cho bài toán SHM (structural health monitoring) Số lượng cảm biến cần dùng là tiền điều kiện cho bài toán OSP khi nó lần lượt ảnh hưởng đến độ chính xác, khả năng nhạy cảm với môi trường của cảm biến, và sau cùng đó là bài toán kinh tế

Trong luận văn này, giải pháp hướng dữ liệu (data driven) được nghiên cứu và phát triển hoàn toàn dựa trên dữ liệu thu thập được trong quá khứ từ các cảm biến để tính toán sự tương quan lẫn nhau tại các vị trí Thông qua đó thực hiện phương pháp suy luận giá trị cho một vị trí tại một thời điểm từ các vị trí khác

Trang 27

2.3 Hệ số tương quan Pearson

Hệ số tương quan là chỉ số thống kê đo lường mức độ mạnh yếu của mối quan

hệ giữa hai biến số Trong đó, hệ số tương quan có giá trị từ -1.0 đến 1.0 Kết quả được tính ra lớn hơn 1.0 hoặc nhỏ hơn -1.0 có nghĩa là có lỗi trong phép đo tương

quan

- Hệ số tương quan có giá trị âm cho thấy hai biến có mối quan hệ nghịch biến

hoặc tương quan âm (nghịch biến tuyệt đối khi giá trị bằng -1.0)

- Hệ số tương quan có giá trị dương cho thấy mối quan hệ đồng biến hoặc tương

quan dương (đồng biến tuyệt đối khi giá trị bằng 1.0)

- Tương quan bằng 0 cho hai biến độc lập với nhau

Hệ số tương quan Pearson (Pearson correlation coefficient, ký hiệu r) là số liệu

thống kê kiểm tra đo lường mối quan hệ thống kê hoặc liên kết giữa các biến phụ thuộc với các biến liên tục Hệ số tương quan sẽ trả lời cho các câu hỏi chẳng hạn như: Có mối quan hệ tương quan giữa nhiệt độ và doanh thu bán kem? Có mối quan hệ tương quan giữa sự hài lòng công việc, năng suất và thu nhập? hay hai biến nào có mối liên hệ chặt chẽ nhất giữa tuổi, chiều cao, cân nặng, quy mô gia đình và thu nhập gia đình?…

Tương quan Pearson được biết đến như là phương pháp tốt nhất để đo lường mối liên hệ giữa các biến quan tâm bởi vì nó dựa trên phương pháp hiệp phương sai Nó cung cấp thông tin về mức độ quan trọng của mối liên hệ, hoặc mối tương quan, cũng như hướng của mối quan hệ Ngoài ra, việc kiểm tra hệ số tương quan Pearson còn giúp chúng ta sớm nhận diện được sự xảy ra của vấn đề đa cộng tuyến khi các biến độc lập có sự tương quan mạnh với nhau

Tương tự hệ số tương quan nói chung, hệ số tương quan Pearson (r) có giá trị giao động trong khoảng liên tục từ -1.0 đến +1.0:

- r = 0: Hai biến không có tương quan tuyến tính

- r = 1;r = -1: Hai biến có mối tương quan tuyến tính tuyệt đối

- r < 0: Hệ số tương quan âm Nghĩa là giá trị biến x tăng thì giá trị biến y giảm và ngược lại, giá trị biến y tăng thì giá trị biến x giảm

Trang 28

- r > 0: Hệ số tương quan dương Nghĩa là giá trị biến x tăng thì giá trị biến y tăng và ngược lại, giá trị biến y tăng thì giá trị biến x cũng tăng

Nếu r nằm trong khoảng từ 0.50 đến ±1, được cho là tương quan mạnh

Nếu r nằm trong khoảng từ 0.30 đến ±0.49, được gọi là tương quan trung bình Nếu r nằm dưới ±0.29, được gọi là một mối tương quan yếu

Trên đồ thị phân tán Scatter, nếu r = -1 dữ liệu sẽ phân bổ trên một đường thẳng với độ dốc âm, r = 1 dữ liệu sẽ phân bổ trên một đường thẳng với độ dốc dương

Công thức tính hệ số tương quan Pearson:

Trang 29

𝑥! = các giá trị của x trong tập mẫu

𝑥̅ = giá trị trung bình của x trong tập mẫu𝑦! = các giá trị của y trong tập mẫu

𝑦B = giá trị trung bình của y trong tập mẫu

2.4 Phương pháp xếp hạng Borda voting

Borda voting [12] là một “quy tắc bỏ phiếu” để tìm ra thứ hạng cho mỗi ứng cử viên Đối với mỗi lượt bỏ phiếu, một số điểm tương ứng với số ứng cử viên sẽ được cho Trong Borda voting, giả sử có n ứng cử viên thì ứng viên được sự đồng tình nhiều nhất từ số còn lại sẽ có số điểm tương ứng n - 1 Kế đến, ứng viên được đồng thuận thứ hai là n - 2, đồng thuận thứ ba là n - 3, và cứ tiếp tục như vậy cho đến ứng cử viên cuối cùng Sau tất cả các lượt tổng điểm sau cùng của mỗi ứng viên sẽ được tính và ứng cử viên có tổng điểm lớn nhất được chọn là người chiến thắng

Bảng 2.1 – Minh họa voters cho phương pháp Borda voting

Trang 30

2.5 Bài toán tối ưu hoá đa mục tiêu 2.5.1 Định nghĩa chung

Bài toán đa mục tiêu sẽ như tên gọi bao gồm hay nhiều hơn các hàm mục tiêu

riêng lẻ cần được tối ưu Giả sử một bài toán tối ưu với k mục tiêu, ký hiệu hàm mục tiêu thứ i là fi(x) với x thuộc Rd Mục tiêu của bài toán này là tối thiểu hoặc tối đa hóa

với không gian đầu vào X cho các hàm mục tiêu Trong bài toán đa mục tiêu, lời giải

cần tập trung vào tất cả các mục tiêu được định nghĩa thay vì chỉ một mục tiêu riêng để không có mục tiêu nào bị ảnh hưởng hoặc bị làm xấu đi kết quả Một lưu ý là các mục tiêu thường đối nghịch nhau

Định nghĩa một lời giải như thế nào thì tốt hơn một lời giải khác là bước cần thiết để tìm nghiệm tối ưu cho bài toán đa mục tiêu Trong trường hợp bài toán đơn mục tiêu, sự so sánh giá trị của hàm mục tiêu đơn liên quan là lời giải đơn giản dùng để xác định sự “vượt trội” Trong bài toán đa mục tiêu, sự vượt trội này được đánh

giá qua khái niệm dominanace Một lời giải x1 được gọi là dominate x2 khi thỏa mãn cả 2 điều kiện sau:

- x1 không xấu hơn x2 trong tất cả các mục tiêu

- x1 tốt hơn x2 trong ít nhất một mục tiêu

Nếu một bài toán đa mục tiêu được giải quyết theo cách tiếp cận Pareto thì sẽ có một

tập nghiệm tối ưu được gọi là tập Pareto Những nghiệm trong tập Pareto P (Pareto set) sẽ không bị dominate bởi bất kỳ giá trị nào khác trong tập X Điều này được định

nghĩa như sau cho bài toán tối thiểu hóa:

- Định nghĩa dominance: x1 dominate x2 nếu thỏa cả hai điều kiện sau: ∀𝑖, 𝑓!(𝑥") ≤ 𝑓!(𝑥#) 𝑣à ∃𝑖, 𝑓!(𝑥") < 𝑓!(𝑥#)

- Định nghĩa tập Pareto: ∃𝑥 ∈ 𝑃: ∄𝑥$ ∈ 𝑃 𝑣à 𝑥$ 𝑑𝑜𝑚𝑖𝑛𝑎𝑡𝑒 𝑥

Hình 2.4 bên dưới là ví dụ minh họa cho khái niệm dominate và Pareto front với

bài toán có hai mục tiêu f1 và f2

Trang 31

Scalarization và hướng tiếp cận Pareto là hai hướng chính để giải quyết bài toán tối ưu hóa đa mục tiêu

Các phương pháp scalarization: Các cách tiếp cận này đưa bài toán đa mục tiêu

gốc về bài toán đơn mục tiêu để có thể dễ tìm lời giải hơn Hàm mục tiêu lúc này sẽ là tổng có trọng số của các hàm mục tiêu từ bài toán gốc [13] Các phương pháp tiếp cận theo hướng này sẽ đưa ra một lời giải duy nhất cho bài toán Mặc dù vậy, mức độ ảnh hưởng của các hàm mục tiêu thành viên cần được đánh giá và điều chỉnh khi sử dụng các cách tiếp cận này Một số phương pháp heuristic đã được giới thiệu để chọn lựa các trọng số này [14] Tuy nhiên, các phương pháp này đều không đảm bảo tính tối ưu của các trọng số được chọn Việc tính toán và tìm ra một lời giải duy nhất cho bài toán đa mục tiêu sẽ bị hạn chế tính linh hoạt trong việc lựa chọn phương án tối ưu do lời giải một vấn đề đa mục tiêu có xu hướng mang tính chủ quan và phụ thuộc vào tình huống và thời điểm của bài toán

Các phương pháp theo hướng tiếp cận Pareto: Tập hợp Pareto (Pareto set) là

một cách tiếp cận khác cho bài toán tối ưu đa mục tiêu Tập tối ưu Pareto set là một tập các lời giải khi không thể tìm được lời giải nào khác cho kết quả tốt hơn ở một mục tiêu nhưng đồng thời không làm xấu đi ở một hay nhiều mục tiêu khác Giải

Hình 2.4 – Dominate and Pareto front với bài toán hai mục tiêu [61]

Trang 32

thuật di truyền (một cách tiếp cận cổ điển) mô phỏng, sử dụng các phép di truyền để tối ưu hóa hàm mục tiêu, được hiện thực hóa trong NSGA-II [15] Ngoài ra, Bayesian một hướng tiếp cận khác được sử dụng khi việc đánh giá hàm mục tiêu rất tốn thời gian bởi vì Bayesian thường được biết đến với khả năng hội tụ nhanh sau một số ít lần chạy đánh giá hàm mục tiêu Giải thuật đề xuất trong luận văn này tập trung vào việc cải tiến cách tiếp cận Bayesian để giải quyết bài toán đa mục tiêu rời rạc

2.5.2 Bài toán tối ưu hoá đa mục tiêu với black-box model

Tối ưu hóa với black-box (black-box optimization, BBO) là một bài toán nhằm

tối ưu hóa hàm mục tiêu trong một giới hạn cho phép của sự đánh giá “Black-box”

mang nghĩa hàm mục tiêu không có dạng chuẩn cụ thể để phân tích và giải thích kết quả đạt được Bởi vì việc đánh giá hàm mục tiêu thường tốn nhiều chi phí, do đó,

mục tiêu của bài toán tối ưu hóa với “black-box” là tìm ra điểm tối ưu một cách

nhanh chóng nhất có thể với công thức minh hoạ như sau:

𝑓%(𝑥", 𝑥#, … , 𝑥&) = 𝐸(𝑥", 𝑥#, … , 𝑥&) (2.2)

Trong đó, E là mô hình “black-box” model, có thể là các mô hình máy học dự đoán,

rõ ràng không thể biểu diễn dưới dạng các biểu thức hay phương trình toán học tường minh

2.5.3 Thông số đánh giá

Hypervolume Indicator [16] là một phép đo phổ biến thường được sử dụng để so sánh giữa các giải thuật tối ưu hóa đa mục tiêu theo cách tiếp cận Pareto, khi đó cần một độ đo để so sánh giữa các tập nghiệm Pareto Giả sử, cho một điểm tham khảo 𝑟 ∈ 𝑅' Hypervolume Indicator của tập Pareto P là phép đo khu vực bị

dominate bởi tập P và giới hạn bởi điểm tham khảo r Với Λ( ) là phép đo Lebesgue,

ta có công thức [17] tính sau:

𝐻(𝑃) = Λ({q ∈ 𝑅" | ∃p ∈ P ∶ p ≤ q và q ≤ r}) (2.3)

Trang 33

2.6 Thư viện OpenBox

OpenBox là một hệ thống mã nguồn mở hiệu quả được thiết kế cho việc tìm

lời giải bài toán tối ưu với “black-box” một cách tổng quát, chẳng hạn như việc hiệu

chỉnh siêu tham số tự động, kiểm thử tự động A/B, thiết kế thử nghiệm, hiệu chỉnh cơ sở dữ liệu, kiến trúc xử lí, phân phát tài nguyên, v.v

OpenBox được xây dựng gồm năm thành phần chính Service Master chịu trách nhiệm cho việc quản lí các nút (node), cân bằng tải và chịu đựng lỗi Task Database giữ trạng thái của toàn bộ công việc (tasks) Suggestion Service tạo cấu hình mới cho mỗi công việc REST API tạo thành cầu nối giữa người dung và Suggestion Service Evaluation workers được cung cấp và sở hữu bởi người dùng

OpenBox triển khai nhiều giải thuật tối ưu khác nhau nhằm mục đích đạt được hiệu suất cao trong các bài toán BBO OpenBox có khả năng lựa chọn giải thuật và cấu hình phù hợp dựa vào đặc tính của công việc sắp giải quyết Trong đó giải thuật EI [18] cho bài toán tối ưu đơn mục tiêu, về bài toán đa mục tiêu bao gồm, EHVI [19] khi số lượng mục tiêu ít hơn 5; MESMO [20] cho bài toán có số lượng mục tiêu hớn hơn bởi vì độ phức tạp của EHVI sẽ tăng hàm mũ theo sự gia tăng mục tiêu Mô hình thay thế (surrogate models) phụ thuộc vào không gian cấu hình và số lần chạy, ví dụ,

Hình 2.5 – Hypervolume trong không gian 2 chiều [17]

Trang 34

nếu không gian đầu vào có điều kiện, chẳng hạn một tham số phải nhỏ hơn một tham số khác, hoặc có nhiều hơn 50 tham số, hoặc số lần chạy vượt quá 500 thì Probabilistic Random Forest (PRF) [21] sẽ được sử dụng thay vì Gaussian Process (GP) [22] Ngoài ra, OpenBox sử dụng giải thuật L-BFGS để tối ưu hàm mục tiêu nếu không gian tìm kiếm chỉ chứa kiểu dữ liệu số như FLOAT hay INTEGER

Trong luận văn giải thuật PRF được sử dụng do đặc tính của tập dữ liệu thu thập được từ các cảm biến được trình bày trong phần sau

2.7 Generative Adversarial Network (GAN)

Một trong những xu hướng nghiên cứu thu hút được đông đảo các nhà khoa học, có tính ứng dụng cao và phát triển mạnh mẽ trong những năm gần đây trong Deep Learning có lẽ là GAN [2] Một cách tổng quát, GAN là lớp các mô hình sinh mà kiến trúc của nó sử dụng mạng nơ-ron nhân tạo được phát triển với kỳ vọng tạo ra được những hệ thống có độ chính xác cao mà cần ít hoạt động của con người trong khâu huấn luyện Kiến trúc GAN đầu tiên được mô tả trong bài báo khoa học năm 2014 do nhóm của Ian Goodfellow giới thiệu có tên “Generative Adversarial Networks.”

Kiến trúc của GAN bao gồm hai thành phần nhỏ là một mô hình sinh để sinh ra các mẫu dữ liệu mới và một mô hình phân biệt để xác định các thực thể là giả (được tạo ra bởi mô hình sinh) hay là một thự thể thật

- Mô hình sinh: Học cách sinh ra dữ liệu giả để lừa mô hình phân biệt Để có

thể đánh lừa được mô hình phân biệt thì đòi hỏi mô hình sinh ra dữ liệu đầu ra phải thực sự tốt Mô hình sinh nhận vào một véc tơ ngẫu nhiên có độ dài cố định và sinh ra một thực thể giả trong miền dữ liệu Véc tơ này được sinh ra ngẫu nhiên từ phân bố Gauss và được sử dụng để khởi tạo quá trình sinh Sau khi được huấn luyện, các điểm trong không gian véc tơ đa chiều này sẽ phù hợp với các điểm từ dữ liệu thật với phân bố dữ liệu tự nhiên

- Mô hình phân biệt: Học cách phân biệt giữa dữ liệu giả được sinh từ mô hình

sinh với dữ liệu thật Mô hình phân biệt như một giáo viên chấm điểm cho mô hình sinh biết cách nó sinh dữ liệu đã đủ tinh xảo để qua mặt được chưa và

Trang 35

nếu chưa thì mô hình sinh cần tiếp tục phải học để tạo ra dữ liệu đầu ra thật hơn Đồng thời mô hình phân biệt cũng phải cải thiện khả năng nhận diện của mình vì chất lượng ảnh được tạo ra càng ngày càng giống thật hơn Thông qua quá trình huấn luyện thì cả hai mô hình sinh và phân biệt cùng cải thiện được khả năng của mình Mô hình phân biệt nhận đầu vào là các mẫu dữ liệu (thật và giả) và thực hiện bài toán phân lớp nhị phân để xác định xem các dữ liệu này là thật hay giả Các dữ liệu thật được lấy từ tập dữ liệu huấn luyện, các dữ liêu giả được lấy trực tiếp từ đầu ra của mô hình sinh Mô hình phân biệt là một mô hình phân lớp dễ hiểu

Dù là một bài toán học không giám sát nhưng với kiến trúc được thiết kế thông minh, GAN được huấn luyện như một bài toán học có giám sát Mô hình sinh và mô hình phân biệt được huấn luyện đồng thời Mô hình phân biệt sẽ dần thông minh hơn trong việc phát hiện các giá trị thật / giả và do đó mô hình sinh cũng tinh tế hơn trong việc sáng tạo của mình

Thành phần sinh và thành phần phân biệt tương tự như hai người chơi trong bài toán zero-sum game trong lý thuyết trò chơi Ở trò chơi này thì hai người chơi xung đột lợi ích Hay nói cách khác, thiệt hại của người này chính là lợi ích của người kia Mô hình sinh tạo ra dữ liệu giả tốt hơn sẽ làm cho mô hình còn lại phân biệt khó hơn và khi thành phần phân biệt nhận diện tốt hơn thì thành phần sinh cần phải tạo ra ảnh giống thật hơn để qua mặt Trong zero-sum game, người chơi sẽ có chiến lược riêng của mình, đối với thành phần sinh thì đó là sinh ra dữ liệu giống thật và thành phần phân biệt là phân loại ảnh thật/giả Sau các bước ra quyết định của mỗi người chơi thì zero-sum game sẽ đạt được cân bằng Nash tại điểm cân bằng (Equilibrium Point)

Trang 36

Hình 2.6 bên trên là sơ đồ cấu trúc hoạt động của GAN cho chúng ta thấy được luồng di chuyển của data

Chiến lược: Tìm G để 𝒑𝒈(𝒙) = 𝒑𝒅𝒂𝒕𝒂(𝒙), ∀𝒙 Nếu nghiệm tìm được thỏa mãn phương trình trên, ta có thể mong đợi rằng là một mạng nơ-ron giúp chúng ra sinh ra những dữ liệu chân thật

Generator (G) hay Discriminator (D), bản chất cũng là các mạng nơ-ron với nhiều

tầng

Generator nhận đầu vào là giá trị ngẫu nhiên z để tạo thành dữ liệu giả G(z),

Discriminator nhận đầu vào là cả dữ liệu thật x lẫn dữ liệu giả G(z)

Ngoài ra có thể hiểu về mặt toán học:

- G: 𝒁 → 𝒀 là một hàm khả vi (differentiable function) đi từ latent space Z vào

Y, được đại diện bởi một multilayer perceptron với các tham số của G

Hình 2.6 – Mô hình GAN [68]

Trang 37

- D: 𝑿 ∪ 𝒀 → [𝟎, 𝟏] là một hàm xác suất đi từ không gian Y hoặc không gian dữ liệu thật X, đại diện bởi một multilayer perceptron với các tham số của D

biểu diễn một xác suất thể hiện x đến từ dữ liệu thật chứ không phải từ pg

Hình 2.7 – Generator vs Discriminator trong GAN [2]

Bởi vì việc của G là sinh ra dữ liệu giả, nên G đương nhiên cần nguồn nguyên liệu giả, tức là giá trị z ngẫu nhiên Còn D có nhiệm vụ phân biệt thật giả, nên D phải cần

đủ cả hai dữ liệu thật (x) và giả G(z), bởi lẽ không ai có thể nhận biết thật giả nếu

không được quan sát chúng

Khi huấn luyện G thành công, G sẽ là một sự chuyển hóa như hình dưới đây

Hình 2.8 – Generator transformation [2]

Trang 38

Hàm mất mát (loss function)

Chúng ta huấn luyện D để cực đại hóa xác suất gán nhãn đúng cho cả mẫu huấn luyện và mẫu đến từ G Song song đó, ta cũng huấn luyện G để cực tiểu hóa

𝐥𝐨𝐠(𝟏 − 𝑫(𝑮(𝒛))

Nói một cách khác, G và D đang chơi một trò chơi minimax dành cho hai người với

hàm giá trị V(D, G), đây cũng chính là loss function [2] sau đây trong GAN

𝒎𝒂𝒙𝑫 𝑽(𝑫, 𝑮) = 𝑬𝒙 ~ 𝒑𝒅𝒂𝒕𝒂(𝒙)[𝐥𝐨𝐠 𝑫(𝒙)] + 𝑬𝒛 ~ 𝒑𝒛(𝒛)[𝐥𝐨𝐠(𝟏 − 𝑫(𝑮(𝒛)))]

2.8 Generative Adversarial Imputation Network (GAIN)

Generative Adversarial Imputation Nets (GAIN) [1] là một phương pháp suy luận dữ liệu được giới thiệu bởi Yoon cùng các cộng sự vào năm 2018 được kế thừa và tổng quát hóa mô hình GAN, có khả năng làm việc với dữ liệu không đầy đủ Do được phát triển dựa trên GAN nên GAIN cũng mang trong mình một số thành phần

như thành phần sinh (generator), G, thành phần phân biệt (discriminator), D Mục tiêu của G là có thể sinh ra dữ liệu một cách chính xác nhằm mục đích bổ sung cho các điểm dữ liệu bị mất, trong khi đó D được kì vọng sẽ có khả năng phân biệt đâu là dữ liệu thật và đâu là dữ liệu giả, G và D là những mạng nơ-ron kết nối đầu đủ, được

huấn luyện theo cách đối nghịch lẫn nhau tương tự như GAN Ngoài ra, GAIN được

tác giả bổ sung “hint” giúp “định hướng” cho thành phần sinh, G có thể tạo ra các

mẫu dữ liệu theo đúng phân phối tồn tại trong dữ liệu thật

Trong GAIN, tác giả định nghĩa một số không gian như 𝝌 = 𝝌𝟏 × × 𝝌𝒅

trong không gian d-chiều Giả sử X = (X1 x x Xd) là các biến giá trị ngẫu nhiên liên

tục hoặc rời rạc có giá trị trong không gian X, phân phối là P(X) Giả sử M = (M1 x

x Md) có giá trị thuộc {0, 1}d Tác giả gọi X là véc tơ dữ liệu, còn M là véc tơ định

dấu

Cho 𝑖 ∈ {1, , 𝑑}, định nghĩa một không gian mới [1] 𝝌Y = 𝝌9 𝒊 ∪ {∗} trong đó {*} đại diện điểm dữ liệu bị mất Định nghĩa 𝝌[ = 𝝌Y × × 𝝌𝟏 Y và một biến 𝒅ngẫu nhiên mới 𝐗 ] = (𝑿^, , 𝑿𝟏 ^ ) 𝒅

Trang 39

𝑋`! = a 𝑋! 𝑖𝑓 𝑀! = 1

M cho biết thành phần nào của X được thu thập thực tế Từ 𝐗] ta có thể suy

luận lại M

Thành phần sinh, G, nhận vào 𝑿], M và Z để tính toán và cho ra kết quả 𝑿f

𝑮: 𝝌[ × 𝟎, 𝟏𝒅 × [𝟎, 𝟏]𝒅 → 𝝌 và Z = (Z1, , Zd) là các mẫu dữ liệu nhiễu có chiều

Theo GAIN, giá trị nhiễu đưa vào thành phần sinh G sẽ là (1 − M) ⊙ Z, bởi vì phân bố đích là P(X|𝐗])

Thành phần phân biệt D được mô tả như sau: D: X → [0, 1]d với phần thứ i-th

của D(𝐗g) sẽ tương ứng với xác suất mà giá trị tại i-th của 𝐗g

Thành phần “hint” được định nghĩa như một biến ngẫu nhiên H có giá trị từ

không gian H Thành phần phân biệt D được “hint” hỗ trợ bằng cách cho biết giá trị nào là thu thập thực tế và giá trị nào được sinh ra từ đó giúp D tăng khả năng nhận biết “Hint” H được xem như một giá trị thêm cho D được biểu diễn dạng toán học

như sau: X x H → [0, 1]d “Hint” được tính toán với công thức [1] bên dưới:

𝐇 = 𝐁 ʘ 𝐌 + 0.5 ʘ (1 − 𝐁) (2.8)

Trang 40

trong đó, 𝐁 ∈ {0, 1}'là một biến ngẫu nhiên có được từ việc lấy mẫu đồng dạng k từ {1, 2, , d} và áp dụng công thức Bj [1] sau đây:

𝐁: = a1 if 𝑗 ≠ 𝑘

Giải thuật GAIN:

GAIN sử dụng cách thức tương tự như trong công trình của (Goodfellow et al.,

2014) để giải quyết vấn đề tối ưu hóa minimax theo hình thức lặp quá trình huấn

luyện G và D là hai môt hình mạng nơ-ron liên kết đầy đủ Cơ bản, giải thuật của

GAIN được mô tả khái quát như sau:

- Trước tiên, thành phần phân biệt D được tối ưu hóa với giá trị G cố định theo

các mini-batches có kích thước kD

- Cho mỗi mini-batch, tạo ra kD mẫu dữ liệu độc lập từ Z, M và B

- Tính toán 𝐗g và H theo giá trị tương ứng

- Ước lượng giá trị của véc tơ định dấu 𝐌g = D(𝐗g, 𝐌) theo sự tối ưu của D - Tiếp theo sẽ tối ưu hóa G sử dụng D vừa mới được tính toán, huấn luyện

- Một lần nữa các mẫu độc lập kích thước kG với giá trị từ Z, M, B để tính toán

H và tối ưu hóa G

- Lặp lại quá trình trên cho đến khi training loss hội tụ