1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Xây dựng giải pháp phát hiện bất thường và hiệu chỉnh dữ liệu quan trắc theo thời gian thực

50 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng giải pháp phát hiện bất thường và hiệu chỉnh dữ liệu quan trắc theo thời gian thực
Tác giả Tống Quốc Sang
Người hướng dẫn PGS.TS Phạm Trần Vũ
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2024
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 50
Dung lượng 1,3 MB

Cấu trúc

  • 1.1 Vấn đề dữ liệu đối với hệ thống quan trắc (13)
  • 1.2 Mục tiêu nghiên cứu (16)
  • 1.3 Các hướng tiếp cận và giải quyết bài toán (17)
    • 1.3.1 Nhận dạng dựa trên các quy tắc định nghĩa trước (17)
    • 1.3.2 Nhận dạng hoạt động dựa trên dữ liệu (18)
  • 2.1 Phương pháp giám sát (Supervised) (21)
  • 2.2 Phương pháp bán giám sát (Semisupervised) (22)
  • 2.3 Phương pháp không giám sát (Unsupervised) (23)
  • 2.4 Phát hiện bất thường bằng cách sử dụng Generative Adversarial Networks-GAN (24)
    • 2.4.1 Mạng sinh (Generator) (27)
    • 2.4.2 Mạng phân biệt (Discriminator) (27)
    • 2.4.3 Cơ chế đối kháng (Adversarial mechanism) (28)
    • 2.4.4 Hàm mất mát (28)
    • 2.4.5 Huấn luyện mô hình (30)
  • 3.1 Bộ dữ liệu thời gian thực (31)
    • 3.1.1 Dữ liệu quan trắc nước từ thiết bị IoT: Đặc điểm và thách thức (31)
    • 3.1.2 Lọc và tiền xử lý dữ liệu (32)
    • 3.1.3 Dữ liệu (32)
    • 3.1.4 Cửa sổ trượt (33)
    • 3.1.5 Tiền xử lý dữ liệu (33)
  • 3.2 Cấu hình hệ thống (33)
  • 3.3 Mô hình time-series Anomaly Detection using Generative Adversar- (34)
    • 3.3.1 Chạy huấn luyện mô hình (34)
    • 3.3.2 Kết quả bài toán 1: Phát hiện bất thường trong dữ liệu (38)
    • 3.3.3 Kết quả bài toán 2: Hiệu chỉnh dữ liệu (39)
    • 3.3.4 So sánh GAN và LSTM (41)
  • 4.1 Kết luận (43)
  • 4.2 Kiến nghị những nghiên cứu tiếp theo (44)
  • 1.1 Dữ liệu thu thập bình thường [1] (0)
  • 1.2 Dữ liệu bị mất trong quá trình thu thập [1] (0)
  • 1.3 Một hoặc nhiều điểm ngoại lệ xuất hiện trong dữ liệu [1] (0)
  • 2.1 Cơ chế học đối kháng (0)
  • 3.1 Tập dữ liệu cho nghiên cứu (0)
  • 3.2 Cửa sổ trượt dữ liệu (0)
  • 3.3 Dữ liệu nhiệt đồ quý 1 2023 (0)
  • 3.4 Chạy huấn luyện mô hình (0)
  • 3.5 Dữ liệu nhiệt đồ quý 1 2023 (0)
  • 3.6 Dữ liệu được xây dựng lại từ mô hình GAN (0)
  • 3.7 Phát hiện bất thường theo khoảng thời gian cửa sổ trượt (0)
  • 3.8 Phát hiện bất thường tại điểm dữ liệu lỗi ngày 07-01-2023 (0)
  • 3.9 Hai điểm bất thường được nội suy (0)
  • 3.10 Hai điểm bất thường được nội suy (0)
  • 3.11 Mô hình BiLSTM với tập dữ liệu test và predict (0)

Nội dung

Trường Đại Học Bách Khoa Tp.Hồ Chí MinhKhoa Khoa Học & Kỹ Thuật Máy TínhTÓM TẮT Luận văn này tập trung vào ứng dụng thời gian thực để phát hiện bất thườngtrong dữ liệu chất lượng nước, n

Vấn đề dữ liệu đối với hệ thống quan trắc

Dữ liệu quan trắc là dữ liệu được thu thập từ các phương tiện quan trắc, thiết bị cảm biến, thiết bị đo lường, hoặc hệ thống giám sát nhằm ghi lại các yếu tố trong môi trường, hệ thống, hoặc quá trình nào đó Các yếu tố này có thể bao gồm chất lượng không khí, chất lượng nước, nhiệt độ, độ ẩm, áp suất,

Hiện nay, với sự phát triển của khoa học công nghệ đặc biệt dựa trên nền tảng Internet of Things thì việc thu thập dữ liệu và truyền về máy chủ tập trung đã trở nên dễ dàng hơn, đáp ứng được các yêu cầu cơ bản của việc giám sát thông tin như: giám sát được dữ liệu thời gian thực, hoạt động tự động, .

Tuy nhiên, dữ liệu IoT cũng có thể chứa các giá trị bất thường, không chính xác làm sai lệch các thông tin thu thập được từ bên ngoài Một số nguyên nhân dẫn đến việc không chính xác đó có thể được biết đến như:

• Lỗi cảm biến: Cảm biến có thể bị hư hỏng, mất điện hoặc quá cũ dẫn đến hoạt động sai lệch, làm cho dữ liệu thu thập được không chính xác.

• Lỗi phần mềm: Phần mềm thu thập và xử lý dữ liệu có thể bị lỗi, dẫn đến dữ liệu bị sai lệch hoặc mất mát.

• Lỗi do các yếu tố khác: Cảm biến có thể bị sai lệch do biến động của môi trường làm cho các thông số hóa học, vật lý của vùng quan trắc thay đổi đột ngột.

Một số hình ảnh minh họa cho dự liệu thu thập từ sensor được biểu thị như trong các hình dưới đây:

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Hình 1.1: Dữ liệu thu thập bình thường [1]

Hình 1.2: Dữ liệu bị mất trong quá trình thu thập [1]

Hình 1.3: Một hoặc nhiều điểm ngoại lệ xuất hiện trong dữ liệu [1]

Một bài toán quan trọng hay được đề cập đến trong lĩnh vực thu thập dữ liệu quan trắc là phát hiện những điểm bất thường (anomaly detection) của dữ liệu hay còn được gọi là phát hiện điểm ngoại lai (outlier detection) Đây là một bài toán không chỉ quan trọng mà còn đầy thách thức, bởi dữ liệu thường được thu thập từ nhiều nguồn khác nhau và có thể chứa các biến thể không mong muốn hoặc không phản ánh đúng sự thật Các thuật toán phát hiện bất thường đóng vai

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính trò như những trạm kiểm tra, giúp phân tích dữ liệu ở nhiều giai đoạn khác nhau trong quá trình thu thập và xử lý, từ các thiết bị IoT cho đến các trung tâm lưu trữ dữ liệu quy mô lớn.

Trong môi trường của các trung tâm dữ liệu, nhu cầu về khả năng phát hiện và loại bỏ dữ liệu không đáng tin cậy là vô cùng quan trọng Việc này giúp tăng tính đáng tin cậy của dữ liệu, từ đó đảm bảo rằng các quyết định dựa trên dữ liệu là chính xác và đáng tin cậy Đồng thời, việc làm sạch và phân loại dữ liệu cũng là bước quan trọng trong quá trình chuẩn bị dữ liệu cho việc phân tích và sử dụng trong các ứng dụng khác nhau

Hầu hết các thuật toán học máy thường không hoạt động với các giá trị bị thiếu, do đó đối với các thuật toán này, giá trị bị thiếu cần phải được loại bỏ hoặc chuyển đổi thành số Việc xử lý giá trị bị thiếu nên được thực hiện trước khi xây dựng mô hình Nhiều yếu tố có thể gây ra dữ liệu bị thiếu:

• Thiếu sót trong cấu trúc dữ liệu

• Kết hợp với các bộ dữ liệu khác

Thời gian gần đây, mặc dù lĩnh vực nghiên cứu về việc phát hiện bất thường đang đạt được nhiều thành công, tuy nhiên vẫn còn nhiều thách thức cần phải giải quyết để có thể đưa được các hệ thống trên vào ứng dụng thực tế như:

• Làm thế nào một hệ thống phát hiện được các dữ liệu bất thường trong các ngữ cảnh thực tế khác nhau với độ chính xác cao để có thể sử dụng cho các ứng dụng cảnh báo

• Các mô hình đơn lẻ thực tế chỉ xem xét một trong hai yếu tố thời gian hoặc không gian nên việc ứng dụng trong thực tế sẽ còn nhiều bất cập hạn chế.

• Các vấn đề về việc bổ sung dữ liệu lỗi theo thời gian thực cũng đang được quan tâm để tăng độ cường độ chính xác của dữ liệu thời gian

• Đặc biệt dữ liệu quan trắc thường có kích thước lớn và tốc độ thay đổi nhanh chóng Điều này khiến cho việc phát hiện lỗi trong thời gian thực trở cực kì khó khăn, vì các thuật toán phát hiện lỗi cần phải xử lý một lượng lớn dữ liệu trong một khoảng thời gian ngắn.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính Độ phức tạp của việc xử lý lỗi trong thời gian thực được thể hiện ở hai khía cạnh chính:

• Yêu cầu về độ chính xác của kết quả: Các lỗi trong dữ liệu quan trắc có thể gây ra những hậu quả nghiêm trọng, do đó việc xử lý lỗi trong thời gian thực cần có độ chính xác cao Điều này đòi hỏi các thuật toán xử lý lỗi phải có khả năng phân loại chính xác các dữ liệu lỗi.

Mục tiêu nghiên cứu

Mục tiêu nghiên cứu của tôi sẽ tập trung vào viêc xây dựng mô hình học sâu để đạt được những yêu cầu sau:

• Nhận biết bất thường của dữ liệu quan trắc: Phát hiện ra những vấn đề của dữ liệu như dữ liệu thiếu, thiết bị thu thập bị lỗi gây ảnh hưởng đến chất lượng dữ liệu.

• Sửa chữa lỗi của dữ liệu bất thường: Xác định và triển khai các phương pháp tự động để sửa lỗi dữ liệu, nhằm cải thiện độ tin cậy và chính xác của dữ liệu đang được sử dụng.

Sẽ có hai bài toán cần quan tâm trong nghiên cứu:

• Bài toán 1: Phát hiện bất thường của bộ dữ liệu thời gian thực

• Bài toán 2: Hiệu chỉnh dữ liệu tại thời điểm xảy ra bất thường

Qua những phân tích trên, tôi sẽ giới hạn phạm vi nghiên cứu trong những mục sau:

• Nghiên cứu sẽ giới hạn phạm vi của mình vào việc giải quyết vấn đề nhận biết và sửa lỗi trong dữ liệu IoT liên quan đến chất lượng nước Sự chú ý sẽ được tập trung vào việc xử lý dữ liệu từ các cảm biến đo chất lượng nước, và các thông số khác có ảnh hưởng đáng kể đến môi trường và sức khỏe.

• Nghiên cứu sẽ tập trung vào phân tích, đánh giá, và chọn lựa giải pháp để giái quyết bài toán số 1 trước, sau đó sẽ vận dụng để đưa vào thực tế với bài toán số 2.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Các hướng tiếp cận và giải quyết bài toán

Nhận dạng dựa trên các quy tắc định nghĩa trước

Phương pháp này xác định các sự kiện hoặc hành vi bất thường trong dữ liệu dựa trên một tập hợp các quy tắc được định nghĩa trước Các quy tắc này thường được xây dựng dựa trên kiến thức chuyên môn, hiểu biết sâu sắc về hệ thống và môi trường hoạt động sau đó sử dụng suy luận logic để mô tả mẫu hoặc đặc điểm của các hoạt động bình thường và bất thường.

Cách thức chung đối với phương pháp nhận dạng hoạt động loại này bao gồm:

• Dựa trên các quy tắc có sẵn, xác định các quy tắc và nguyên tắc mà hệ thống thường tuân thủ khi hoạt động ổn định, bao gồm việc mô tả các biểu hiện bình thường, giới hạn cho các giá trị thực, hoặc quy luật về mối quan hệ giữa các tham số.

• Tạo các quy tắc dựa trên những điều kiện và nguyên tắc đã xác định Quyết định cách hệ thống sẽ nhận dạng và xử lý các trạng thái không bình thường.

• Thực hiện các suy diễn logic để trích xuất và giải thích được các quan sát. Ưu điểm của cách tiếp cận này là:

• Các quy tắc dễ hiểu và cho phép giải thích rõ ràng tại sao một bất thường được phát hiện.

• Phương pháp thường đơn giản và nhanh chóng khi xử lý các trường hợp được quy tắc bao phủ.

• Các quy tắc cụ thể có thể dẫn đến độ chính xác cao trong việc phát hiện các bất thường đã biết.

Tuy nhiên, hệ thống này còn chưa một số hạn chế quan trọng: Bao gồm việc đòi hỏi các kiến thức chuyên sâu từ các chuyên gia về hệ thống, việc tự động cập

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính nhật các quy tắc trở nên không khả thi do dữ liệu đầu vào thường không có cấu trúc và liên tục biến động Hệ thống cũng thiếu khả năng xử lý thông tin tạm thời một cách linh hoạt và không rõ ràng Vì lí do này, phương pháp này có vẻ ít được sử dụng trong thực tế.

Nhận dạng hoạt động dựa trên dữ liệu

Phương pháp này sử dụng mô hình học máy hoặc học sâu để tự động học và nhận biết các biểu hiện bất thường dựa trên dữ liệu đầu vào Mô hình sẽ được huấn luyện trên dữ liệu lịch sử để học được mô hình hành vi bình thường của hệ thống Phương pháp này liên quan đến việc tạo ra các mô hình hoạt động dựa trên xác suất hoặc thống kê, kết hợp với các quy trình học và huấn luyện.

Cách thức chung đối với phương pháp nhận dạng hoạt động loại này bao gồm:

• Thu thập dữ liệu từ các nguồn, tiến hành loc, xử lý và chuẩn hóa để phù hợp với thuật toán học máy Xác định tập dữ liệu huấn luyện và dữ liệu kiểm thử.

• Huấn luyện mô hình trên dữ liệu huấn luyện để học các đặc điểm và mối quan hệ trong dữ liệu Đánh giá độ chính xác của mô hỉnh dựa trên dữ liệu kiểm thử.

• Dữ liệu mới được đưa vào mô hình để đánh giá Những dữ liệu khiến mô hình đưa ra dự đoán khác xa so với thông thường sẽ được đánh dấu là bất thường.

• Xử lý bất thường như tạo cảnh báo, sửa chữa dữ liệu bất thường Ưu điểm của cách tiếp cận này là:

• Do dựa trên dữ liệu nên các mô hình nhận dạng hoạt động dựa trên dữ liệu có thể tự động hóa quá trình học và phát triển các quy tắc phân loại từ dữ liệu đầu vào Điều này giảm sự phụ thuộc vào các quy tắc cứng nhắc và tạo điều kiện cho mô hình thích ứng với sự biến đổi của dữ liệu theo thời gian.

• Các mô hình có thể được đánh giá và tinh chỉnh dễ dàng bằng cách sử dụng tập dữ liệu thực tế và phản hồi liên tục, giúp duy trì hiệu suất và chính xác theo thời gian.

• Với sự tiến bộ trong công nghệ tính toán và học máy, các mô hình nhận dạng hoạt động có thể xử lý tập dữ liệu lớn và phức tạp một cách hiệu quả hơn,giúp tăng cường hiệu suất và độ chính xác của chúng.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

• Nhận dạng hoạt động dựa trên dữ liệu mang lại nhiều ưu điểm quan trọng, giúp tăng cường khả năng tự động hóa, tính toàn diện và linh hoạt của các hệ thống học máy Vì vậy, cách tiếp cận này đang được quan tâm nghiên cứu nhiều hơn.

Nghiên cứu này tập trung vào ứng dụng đòi hỏi thời gian thực trong phát hiện bất thường của dữ liệu chất lượng nước, nơi mà dữ liệu thường xuyên có sự thay đổi đột ngột do biến động của môi trường Vì vậy, phương pháp nhận dạng hoạt động dựa trên dữ liệu sẽ được chọn để thực hiện đề tài luận văn Trong quá trình nghiên cứu, tôi sẽ tập trung vào việc xác định các phương pháp và mô hình nhận dạng hoạt động có khả năng làm việc hiệu quả trong thời gian thực Loại dữ liệu, cảm biến và thông tin liên quan đến chất lượng nước sẽ được mô tả chi tiết để tạo nên một cơ sở dữ liệu đa chiều.

Các nghiên cứu liên quan

Các nhà nghiên cứu đang dành sự tập trung đặc biệt cho lĩnh vực phát hiện bất thường, một lĩnh vực nghiên cứu đầy triển vọng và mang lại nhiều ứng dụng hữu ích Sự chú ý này thể hiện sự đa dạng và tính quan trọng của phát hiện bất thường trong các lĩnh vực khác nhau, và đồng thời nhấn mạnh việc áp dụng nhiều kỹ thuật như máy học cơ bản, học sâu tiên tiến, thống kê và toán học [23], [24], [25] Điều này mở ra những triển vọng mới và chứng tỏ tính quan trọng của việc hiểu rõ và ứng dụng phương pháp phát hiện bất thường trong ngành nghiên cứu và thực tế.

Những nghiên cứu liên quan đến vấn đề phát hiện bất thường đã góp phần mang lại nhiều ứng dụng như khả năng phát hiện lỗi và gian lận thẻ tín dụng, khiếm khuyết, dự đoán xu hướng kinh doanh và hành vi khách hàng trong thương mại điện tử [4], phát hiện khuyết điểm sản phẩm trong công nghiệp, nhận diện sự cố hạ tầng và chẩn đoán y tế [5].

Trước đây, cách quản lý dữ liệu phổ biến nhất để phát hiện sự bất thường trên dữ liệu chuỗi thời gian là dựa trên việc thiết lập ngưỡng và tạo cảnh báo, thách thức đặt ra là xác định ngưỡng phù hợp cho từng chỉ số Nếu các chỉ số vượt quá ngưỡng, chúng sẽ được xác định là không bình thường Tuy nhiên, việc xác định ngưỡng phù hợp cho mỗi chỉ số luôn đòi hỏi sự hiểu biết sâu sắc về hiệu suất của chỉ số Điều này là một nhiệm vụ khó khăn để bắt giữ kết quả mong muốn từ những cấu trúc phức tạp trong dữ liệu [6] Để vượt qua thách thức này, những nỗ lực nghiên cứu tập trung vào áp dụng các kỹ thuật tiên tiến, đặc biệt là những phương pháp dựa trên nền tảng học sâu (Deep Learning) tiên tiến đến các kỹ thuật kết hợp Machine Learning/Deep Learning [7] Các mẫu dữ liệu được gán nhãn để mô hình được huấn luyện từ chúng và sau đó được đánh giá trên dữ liệu mới Vì

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính vậy, trong trường hợp có sự phân biệt giữa các lớp hoạt động bình thường và bất thường, mô hình sẽ học các đặc điểm của các điểm dữ liệu này và phân loại chúng thành hoạt động bình thường hoặc bất thường Bất kỳ điểm dữ liệu nào không tương ứng với lớp hoạt động bình thường sẽ được mô hình phân loại là bất thường [8] Từ đó, các nhà nghiên cứu kỳ vọng mở ra những khả năng mới để hiểu sâu và triển khai các phương pháp phát hiện sự bất thường một cách hiệu quả trong các lĩnh vực đa dạng và ngày càng phức tạp của xã hội hiện đại.

Trong những năm gần đây, phương pháp Phát hiện Bất thường Sâu (DAD) cũng được sử dụng rộng rãi và luôn là một chủ đề nổi bật trong nghiên cứu ứng dụng IoT Các kỹ thuật DAD có thể tự động học và trích xuất đặc trưng mà không cần phải phát triển đặc trưng thủ công bởi các chuyên gia [9] Nó thường được sử dụng một cách tổng quát như một chức năng để phát hiện các sự bất thường trong dữ liệu chuỗi thời gian Nói chung, các nghiên cứu DAD trước đây đã được chia thành bốn loại tùy thuộc vào việc liệu các trường hợp được gán nhãn có được sử dụng trong quá trình đào tạo hay không Chúng được phân loại là:phương pháp giám sát (Supervised), phi giám sát (Semisupervised), không giám sát (Unsupervised)

Phương pháp giám sát (Supervised)

Phương pháp giám sát phát hiện bất thường, hay còn được gọi là phương pháp dựa trên phân loại sử dụng các mô hình học máy giám sát Trong phương pháp này, mô hình được huấn luyện trên dữ liệu có nhãn, nghĩa là các trường hợp đã được gán nhãn là bình thường hoặc bất thường Quá trình huấn luyện của Supervised DAD bao gồm việc mô hình hóa ranh giới hoặc biên phân loại giữa dữ liệu bình thường và dữ liệu bất thường Sau khi mô hình được huấn luyện, nó có khả năng phân loại các trường hợp mới mà nó chưa thấy trước đó thành một trong hai lớp: bình thường hoặc bất thường Điều này giúp tự động phát hiện các sự cố hoặc dữ liệu bất thường mà mô hình chưa từng biết trước.

Trong môi trường đa đám mây, Salman và cộng sự [10] đã sử dụng LinearRegression và Random Forest cho cả phát hiện và phân loại bất thường Cụ thể,hai kỹ thuật học máy giám sát phổ biến, đó là hồi quy tuyến tính (LR) và rừng ngẫu nhiên (RF) để phát hiện và phân loại bất thường đã được sử dụng trong nghiên cứu Tác giả chỉ ra rằng ngay cả khi các yếu tố bất thường được phát hiện hoàn hảo, việc phân loại chúng có thể vẫn rất khó khăn do sự tương đồng giữa

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính các nguyên nhân gây ra bất thường Kết quả của nghiên cứu thể hiện hơn 99% độ chính xác trong việc phát hiện và độ chính xác trong việc phân loại là 93.6%, nguyên nhân do không thể phân loại các nguyên nhân gây ra bất thường.

Watson Jia và nhóm nghiên cứu [11] đã giới thiệu một phương pháp phát hiện bất thường dựa trên học giám sát, tích hợp Long Short-Term Memory (LSTM) cùng với các đặc tính thống kê của dữ liệu chuỗi thời gian để xác định các điểm bất thường Các chỉ số Precision, Recall và F-measure được dùng để đánh giá hiệu suất của phương pháp.

Phương pháp DAD giám sát thường đạt được hiệu suất tốt hơn so với các phương pháp không giám sát trong các tình huống nơi có sẵn dữ liệu có nhãn đủ để huấn luyện mô hình Tuy nhiên, phương pháp này yêu cầu phải có sẵn dữ liệu có nhãn để huấn luyện mô hình một cách hiệu quả, dấn đến khó khăn trong việc ứng dụng một cách rộng rãi phương pháp DAD giám sát trong nhiều lĩnh vực khác nhau Ngoài ra, các phương pháp DAD giám sát cũng có hiệu suất kém khi xử lý các lớp mất cân bằng cao [12].

Phương pháp bán giám sát (Semisupervised)

Trong phương pháp này, một phần dữ liệu được gán nhãn (có sẵn nhãn) và một phần không có nhãn Mô hình được huấn luyện trên cả hai loại dữ liệu này để có khả năng phát hiện bất thường trong dữ liệu mới mà nó chưa thấy trước đó. Phương pháp này hỗ trợ sự linh hoạt của việc huấn luyện với ít dữ liệu có nhãn, đồng thời tự động học và phát hiện các đặc điểm bất thường từ dữ liệu không có nhãn Điều này làm tăng khả năng áp dụng phương pháp DAD trên các tập dữ liệu lớn và đa dạng mà không đòi hỏi nhiều dữ liệu có nhãn.

Zhang và cộng sự [13] đã sử dụng một cảm biến gia tốc ba trục có thể mang theo bên người để thu thập dữ liệu vận động của cơ thể người và đề xuất một phương pháp mới cho việc phát hiện té ngã dựa trên phương pháp one-class support vector machine (SVM) Các mẫu số liệu từ các trường hợp ngã của tình nguyện viên trẻ gọi là mẫu tích cực đã được sử dụng để huấn luyện mô hình SVM. Trong khi đó các mẫu ngoại lệ từ các hoạt động hàng ngày không liên quan đến việc ngã của tình nguyện viên trẻ và mẫu từ tình nguyện viên cao tuổi được dùng để tạo thành một bộ dữ liệu giả mạo để so sánh với các mẫu tích cực Kết quả thử nghiệm cho thấy rằng phương pháp đề xuất có thể phát hiện các tình huống ngã hiệu quả và giảm khả năng bị thương trong các thử nghiệm với người cao tuổi.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Mô hình deep belief net (DBNs) đã được Wulsin và đồng nghiệp [14] áp dụng để phát triển một hệ thống nhằm hiển thị các hiện tượng bất thường trong các tập dữ liệu điện não (EEG) lớn Kết quả nghiên cứu đã chỉ ra rằng bộ phát hiện dựa trên DBN bán giám sát trên tập dữ liệu EEG không chỉ tương đương với các bộ phân loại tiêu chuẩn mà còn giúp cho quá trình xem xét lượng lớn dữ liệu EEG lâm sàng trở nên dễ dàng hơn, đồng thời khám phá ra các đặc điểm mới của EEG có thể chỉ ra hoạt động não không bình thường.

Mặc dù phương pháp Semisupervised DAD mang lại sự linh hoạt so với các phương pháp giám sát truyền thống, nhưng vẫn đối mặt với những thách thức và nhược điểm cần được xem xét khi triển khai trong các ứng dụng thực tế Ví dụ như việc bộ dữ liệu của phương pháp này vẫn đòi hỏi mối quan hệ giữa phân phối dữ liệu được gán nhãn và không được gán nhãn phải được duy trì trong quá trình thu thập dữ liệu Điều này làm cho việc mở rộng mô hình trong tương lai trở nên khó khăn khi sự tương đồng phân phối này không chắc chắn trong hệ thống IoT[15].

Phương pháp không giám sát (Unsupervised)

Các phương pháp không giám sát là những cách tiếp cận linh hoạt nhất mà không đòi hỏi sự hiện diện của bất kỳ nhãn nào, chỉ phụ thuộc vào các đặc tính bên trong của bộ dữ liệu để phát hiện dữ liệu nào là không bình thường hoặc không tuân theo quy luật thông thường [7] Điều này làm cho các phương pháp không giám sát rất linh hoạt và phù hợp với môi trường IoT.

Trong nghiên cứu của Audibert và cộng sự [16], tác giả trình bày phương pháp phát hiện lỗi sai không giám sát cho chuỗi thời gian đa biến (UnSupervised Anomaly Detection), dựa trên autoencoders Kiến trúc autoencoder độc đáo của phương pháp này mang lại khả năng học một cách không giám sát Điều này có nghĩa là mô hình có thể tự động học và hiểu các đặc điểm của dữ liệu mà không cần sự hướng dẫn chi tiết từ con người Sự kết hợp giữa huấn luyện đối thủ (adversarial training) và cấu trúc autoencoder cho phép phương pháp USAD này tách biệt các đặc điểm bất thường trong dữ liệu, đồng thời đảm bảo tốc độ đào tạo nhanh chóng.

Ngoài ra, hầu hết dữ liệu chuỗi thời gian sinh ra có sẵn trong lĩnh vực Y là không được gán nhãn, và do đó, việc phát hiện đặc điểm bất thường trong tình huống này đã là một thách thức lớn đối với các nhà nghiên cứu Perira và nhóm nghiên cứu [17] đã đề xuất phương pháp Variational Recurrent Autoencoder sau

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính đó dùng Clustering và khoảng cách Wasserstein để phát hiện nhịp tim bất thường một cách hoàn toàn không giám sát.

Phát hiện bất thường bằng cách sử dụng Generative Adversarial Networks-GAN

Mạng sinh (Generator)

Mục tiêu của mạng sinh là tạo ra các mẫu dữ liệu giả mạo sao cho chúng giống với dữ liệu thật nhất có thể Mạng sinh bắt đầu với một đầu vào ngẫu nhiên(thường là một vector nhiễu), sau đó sử dụng các lớp nơ-ron để biến đổi đầu vào này thành một mẫu dữ liệu giả mạo.

Mạng phân biệt (Discriminator)

Mạng phân biệt có nhiệm vụ phân biệt giữa dữ liệu thật (lấy từ bộ dữ liệu huấn luyện) và dữ liệu giả (do mạng sinh tạo ra) Mạng phân biệt được huấn luyện để trả về xác suất dữ liệu đầu vào là thật.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Cơ chế đối kháng (Adversarial mechanism)

Trong quá trình huấn luyện, hai mạng này cạnh tranh nhau: mạng sinh cố gắng lừa mạng phân biệt bằng cách tạo ra các mẫu dữ liệu ngày càng giống thật, trong khi mạng phân biệt cố gắng trở nên tốt hơn trong việc phát hiện ra dữ liệu giả.

Hình 2.1: Cơ chế học đối kháng

Thuật toán xây dựng mô hình diễn ra như sau:

• Từ một nhiễu z bất kì, generator sinh ra dữ liệu giả G(z) có kích thước như dữ liệu thật (dữ liệu thật là x) Tại lần sinh đầu tiên, G(z) hoàn toàn là dữ liệu nhiễu, không có bất kì nội dung gì đặc biệt.

• x và G(z) cùng được đưa vào discriminator kèm nhãn thật giả Huấn luyện discriminator để học khả năng phân biệt dữ liệu thật, dữ liệu giả.

• Đưa G(z) vào discriminator, dựa vào phản hồi của discriminator trả về, gen- erator sẽ cải thiện khả năng tái tạo của mình.

• Quá trình trên sẽ lặp đi lặp lại như vậy, discriminator dần cải thiện khả năng phân biệt, generator dần cải thiện khả năng tái tạo Đến khi nào discriminator không thể phân biệt được dữ liệu nào là dữ liệu do generator tạo ra, dữ liệu nào là x, khi đó quá trình dừng lại.

Hàm mất mát

Kí hiệu z là noise đầu vào của generator, x là dữ liệu thật từ bộ dataset.

Kí hiệu mạng Generator là G, mạng Discriminator là D G(z) là dữ liệu được sinh ta từ Generator D(x) là giá trị dự đoán của Discriminator xem dữ liệu x là thật hay không, D(G(z)) là giá trị dự đoán xem giá trị sinh ra từ Generator là thật hay không.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Vì ta có 2 mạng Generator và Discriminator với mục tiêu khác nhau, nên cần thiết kế 2 loss function cho mỗi mạng.

• Loss functions của mạng phân biệt (Discriminator): được thiết kế để tối đa hóa xác suất gán nhãn đúng cho cả dữ liệu thật và dữ liệu giả.

• Loss functions của mạng sinh (Generator): được thiết kế để tối thiểu hóa xác suất mà mạng phân biệt gán nhãn đúng cho dữ liệu giả.

Ta cũng có thể hiểu một cách khác về các hàm loss function của GAN như sau:

• Mục tiêu của Generator là tạo ra dữ liệu giả G(z) sao cho Discriminator D không thể phân biệt được đó là dữ liệu giả Điều này có nghĩa là tính toán D(G(z)) Xác suất mà Discriminator cho rằng dữ liệu giả là thật, tiến tới 1 (100%).

• Để đạt được mục tiêu trên, Generator cố gắng tối đa hóa giá trị D(G(z)) Nói cách khác, Generator muốn làm cho Discriminator tin rằng dữ liệu giả là thật nhất có thể.

• Tối đa hóa D(G(z)) tương đương với việc tối thiểu hóa 1-D(G(z)) Bởi vì nếu 1-D(G(z)) tiến tới 1, thì D(G(z)) tiến tới 0.

Trong luận văn này, loss functions của mạng phân biệt Cx và Cz và mạng sinh

G bao gồm hai thành phần: Wasserstein loss, để khớp phân phối của các chuỗi thời gian được tạo ra với phân phối dữ liệu trong miền mục tiêu; và cycle consistency losses, để ngăn chặn sự mâu thuẫn.

Hàm loss function của GAN là kết hợp giữa generator và discriminator trong đó sử dụng khoảng cách Wasserstein-1 khi huấn luyện mạng bộ Critic:

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Huấn luyện mô hình

Huấn luyện GAN là quá trình tối ưu hóa lặp đi lặp lại trong đó:

• Mạng phân biệt được huấn luyện để phân biệt tốt hơn giữa dữ liệu thật và giả.

• Mạng sinh được huấn luyện để tạo ra dữ liệu giả ngày càng giống thật hơn.Chu kỳ này tiếp tục cho đến khi đạt được sự cân bằng, tức là mạng phân biệt không thể phân biệt dữ liệu thật và giả với độ chính xác cao hơn ngẫu nhiên.

Kết quả và bàn luận

Bộ dữ liệu thời gian thực

Dữ liệu quan trắc nước từ thiết bị IoT: Đặc điểm và thách thức

Trong nghiên cứu của luận văn này, tôi sẽ sử dụng dữ liệu được thu thập từ một loạt các thiết bị IoT thực tế, bao gồm các cảm biến, thiết bị đo lường các thông số chất lượng nước Dữ liệu này có thể bao gồm thông tin về chất lượng, lưu lượng, mực nước và các thông số khác Đối với dữ liệu quan trắc nước, ta có thể nhận thấy được một số đặc điểm sau:

• Tính đa dạng: Dữ liệu quan trắc nước có thể bao gồm nhiều loại thông tin khác nhau, từ các thông số hóa học và vật lý đến các thông số sinh học

• Tính biến động theo thời gian: Dữ liệu quan trắc nước có thể thay đổi theo thời gian, do các yếu tố như thời tiết (nóng, lạnh ), hoạt động của con người (nước thải sinh hoạt, nước thải nhà máy ) và các hoạt động tự nhiên khác.

• Tính biến động theo không gian: Dữ liệu quan trắc nước có thể được thu thập từ nhiều địa điểm khác nhau, các thuộc tính của nó cũng có thể biến đổi lớn nhỏ tùy theo khu vực.

Những đặc điểm này khiến dữ liệu quan trắc nước trở nên thách thức để xử lý và phân tích Tuy nhiên, dữ liệu này cũng rất quan trọng để hiểu, nghiên cứu và quản lý môi trường nước.

Bộ dữ liệu sử dụng cho luận văn này được lấy từ mạng lưới sensor cung cấp giá trị của bốn thông số chất lượng nước: nhiệt độ, độ dẫn điện, pH và oxy hòa

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính tan, được đo bởi các cảm biến tĩnh riêng biệt trong khung thời gian trong năm 2023

Hình 3.1: Tập dữ liệu cho nghiên cứu

Lọc và tiền xử lý dữ liệu

Trong quá trình nghiên cứu và xây dựng mô hình dự đoán chuỗi thời gian, bước tiền xử lý dữ liệu đóng vai trò vô cùng quan trọng Dữ liệu thô thường chứa nhiều giá trị không nhất quán và có thể không phù hợp trực tiếp cho các mô hình học máy Do đó, việc tiền xử lý giúp đảm bảo dữ liệu đầu vào sạch sẽ, nhất quán và ở định dạng phù hợp cho các bước tiếp theo Dưới đây là quy trình tiền xử lý dữ liệu được áp dụng trong luận văn này.

Dữ liệu

Từ tập dữ liệu đầu vào, tôi lựa chon dữ liệu thời gian và nhiệt độ thực tế thu thập được từ sensor vào ba tháng đầu năm 2023 (quý 1) với 10,811 điểm dữ liệu để tiến hành xây dựng mô hình Để đơn giản hóa quá trình xây dựng mô hình, tôi chỉ sử dụng giá trị nhiệt độ của nước và với giả thiết rằng dữ liệu này là dữ liệu tốt và được thu thập đều đặn trong ngày.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Cửa sổ trượt

Với dữ liệu liên tục theo thời gian thì một phương pháp phổ biến xử lý dữ liệu trước khi đưa vào mô hình đó là sử dụng kỹ thuật cửa sổ trượt (Sliding window).

Kỹ thuật này dùng để cắt dữ liệu thô ban đầu thành dữ liệu đưa vào mô hình với nhiều đoạn khác nhau gọi là các cửa sổ có cùng kích thước (W) Cửa sổ sau chồng lên cửa sổ trước (2 cửa sổ có cùng 1 phần dữ liệu) theo một tỉ lệ nhất định.

Hình 3.2: Cửa sổ trượt dữ liệu

Dữ liệu sẽ được cắt ra với cửa sổ lớn W và tỷ lệ chồng dữ liệu là từ 0 - 90% Cửa sổ W và W’ đều có cùng tính chất là cùng tỷ lệ chồng dữ liệu nằm trong khoảng từ 0-90%.

Tiền xử lý dữ liệu

Với dữ liệu thô đầu vào, tôi tiến hành chuẩn hóa dữ liệu giúp đưa tất cả các giá trị dữ liệu về một khoảng nhất định, giúp mô hình học máy hoạt động hiệu quả hơn Trong nghiên cứ này, tôi sử dụng phương pháp chuẩn hóa Min-Max (chuẩn hóa dữ liệu trong khoảng [-1; 1]).

Cửa sổ trượt của nghiên cứu này tôi chọn t0.

Cấu hình hệ thống

Thực nghiệm được chạy trên laptop với cấu hình Intel(R) Core (TM) i7-1065G7 CPU @1.30GHz 1.50GHz.

Code mô hình được viết bằng ngôn ngử Python và một số thư viện như pandas,keras, tensorflow

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Hình 3.3: Dữ liệu nhiệt đồ quý 1 2023

Mô hình time-series Anomaly Detection using Generative Adversar-

Chạy huấn luyện mô hình

Trong luận văn này, chúng tôi sử dụng mô hình TadGAN (Time-series Anomaly Detection using Generative Adversarial Networks) để phát hiện bất thường trong dữ liệu chuỗi thời gian TadGAN bao gồm bốn thành phần chính: encoder, gener- ator, criticX và criticZ, cùng với các mô hình huấn luyện liên quan Mô hình này được thiết kế để tận dụng khả năng của GAN trong việc sinh mẫu dữ liệu và phát hiện các điểm bất thường một cách hiệu quả.

• Encoder: Có nhiệm vụ chuyển đổi dữ liệu đầu vào từ không gian quan sát sang một biểu diễn trong không gian tiềm ẩn Sử dụng LSTM song song để nắm bắt thông tin từ cả hai chiều của chuỗi thời gian LSTM này có thể nắm bắt được cả các phụ thuộc trước và sau trong dữ liệu Bên cạnh đó sử dụng thêm lớp kết nối đầy đủ để giảm chiều dữ liệu xuống kích thước không gian tiềm ẩn.

• Generator: Có nhiệm vụ tạo dữ liệu giả từ biểu diễn tiềm ẩn Nó thực hiện quá trình mở rộng và tái tạo lại thông tin từ không gian tiềm ẩn thành không gian quan sát, sao cho dữ liệu được tạo ra giống với dữ liệu gốc.

• CriticX: Critic X được huấn luyện để phân biệt giữa dữ liệu thật và dữ liệu giả được tạo ra bởi generator trong không gian đầu vào.

• CriticZ: Critic Z được huấn luyện để phân biệt giữa vector tiềm ẩn thật và

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính vector tiềm ẩn được mã hóa từ dữ liệu

Trong quá trình huấn luyện mô hình TadGAN, critic X và critic Z được tối ưu hóa để phân biệt giữa dữ liệu thật và dữ liệu giả, trong khi encoder và generator được tối ưu hóa để tạo ra dữ liệu giả sát thực tế nhất.

Mô hình TadGAN được sử dụng trong nghiên cứu này bao gồm các thành phần chính sau:

• Miền đầu vào (X): Chuỗi thời gian có độ dài 100.

• Miền tiềm ẩn (Z): Không gian tiềm ẩn có 20 chiều.

• Critic X và Critic Z: thêm một lớp tích chập 1-D nhằm mục đích nắm bắt các đặc trưng thời gian cục bộ có thể xác định mức độ bất thường của một chuỗi

Hình 3.4: Chạy huấn luyện mô hình

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính Đánh giá hàm mất mát

Dựa trên hình 3.5, ta có thể thấy loss của CriticX và CriticZ có xu hướng giảm dần theo thời gian (epoch) Điều này cho thấy các mô hình critic đang học cách phân biệt tốt hơn giữa dữ liệu thực và dữ liệu được tạo ra bởi Generator trong quá trình huấn luyện.

Hình 3.5: Dữ liệu nhiệt đồ quý 1 2023

Một số nhận xét cụ thể:

• Cả hai đường biểu diễn (Critic X và Critic Z) đều biến động trong những epoch đầu tiên, sau đó dần ổn định hơn.

• Loss của Critic X tương đối ổn định sau khoảng 10-20 epochs, dao động xung quanh giá trị gần 0 Điều này cho thấy Critic X đã học được cách phân biệt dữ liệu thật và dữ liệu giả tương đối nhanh chóng và duy trì được khả năng này trong suốt quá trình huấn luyện.

• Loss của Critic Z ban đầu biến động mạnh hơn, có một đợt giảm sâu vào khoảng epoch đầu tiên, sau đó cũng dần ổn định và dao động xung quanh giá trị gần 0 Sự biến động này có thể do ban đầu Critic Z gặp khó khăn trong việc phân biệt các biểu diễn tiềm ẩn, nhưng sau đó dần dần học được và ổn định hơn Việc dao động quanh giá trị 0 cho thấy Critic Z cũng đã học được cách phân biệt biểu diễn tiềm ẩn một cách hiệu quả sau một số epochs nhất định.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính Đánh giá mô hình

Test mô hình với dữ liệu tập test

Bảng 3.1: Kết quả thử nghiệm mô hình trên dữ liệu test

Hình 3.6: Dữ liệu được xây dựng lại từ mô hình GAN

Hình 3.6 trình bày kết quả xây dựng lại dữ liệu của mô hình GAN, cho thấy dữ liệu được tái tạo khá trùng khớp với dữ liệu đầu vào Điều này minh chứng cho khả năng của mô hình GAN trong việc học và tái tạo các đặc điểm quan trọng của dữ liệu chất lượng nước Việc dữ liệu được xây dựng lại có độ trùng khớp cao với dữ liệu đầu vào phản ánh rằng mô hình GAN đã nắm bắt và mô phỏng chính xác các mẫu và xu hướng từ dữ liệu huấn luyện Đây là một yếu tố quan trọng, đặc biệt đối với các ứng dụng yêu cầu độ chính xác cao như giám sát chất lượng nước, nơi các sai lệch nhỏ có thể dẫn đến những kết luận không chính xác về tình trạng nước Mức độ trùng khớp cao giữa dữ liệu tái tạo và dữ liệu huấn luyện cho thấy rằng mô hình GAN không chỉ ghi nhớ dữ liệu cụ thể mà còn có khả năng tổng quát hóa các đặc điểm chung của dữ liệu Điều này giúp mô hình không chỉ hoạt động tốt trên dữ liệu đã biết mà còn có khả năng áp dụng vào dữ liệu mới và chưa từng gặp, điều này rất quan trọng để đảm bảo tính linh hoạt và khả năng áp dụng thực tế của mô hình. Đầu ra của mô hình ngoài hàm generator của GAN dùng cho việc sinh dữ liệu sẽ có thêm các thông số giúp xác định sự khó khăn của mô hình khi tiến hành tái tạo dữ liệu:

• Sai số tái tạo của Generator (RE): Đây là sai số giữa dữ liệu chuỗi thời gian

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính gốc và tái tạo của nó bởi Bộ sinh (Generator) trong mô hình GAN Một sai số tái tạo cao cho thấy mô hình gặp khó khăn trong việc tái tạo chính xác điểm dữ liệu, điều này cho thấy điểm đó có thể là một bất thường.

• Đầu ra của Discriminator (Cx) trong mô hình GAN, có nhiệm vụ phân biệt giữa các chuỗi thời gian thực và chuỗi thời gian tổng hợp (được tạo ra) - có thể dùng như một chỉ số cho thấy chuỗi dữ liệu là thật (giá trị lớn) hay giả (giá trị nhỏ)

Tính toán điểm bất thường (Anomaly Score)

Cả RE(x) và Cx(x) đều được chuẩn hóa bằng cách tính toán z-score của chúng. Việc chuẩn hóa này đảm bảo rằng các điểm số nằm trên một thang đo có thể so sánh được, giúp việc kết hợp các thước đo này trở nên dễ dàng hơn.

Trong đóαkiểm soát tầm quan trọng tương đối của hai thành phần [36] (thường là α=0.5).

Kết quả bài toán 1: Phát hiện bất thường trong dữ liệu

Trong luận văn này, tôi có thể áp dụng các kỹ thuật xác định ngưỡng để nhận diện các chuỗi bất thường dựa trên điểm Anomaly Score Phương pháp áp dụng là sử dụng cửa sổ trượt để tính toán các ngưỡng.

Phương pháp này hỗ trợ nhận diện các bất thường ngữ cảnh, khi thông tin ngữ cảnh thường không rõ ràng Đối với mỗi cửa sổ trượt, tôi sử dụng một ngưỡng đơn giản được xác định là 4 độ lệch chuẩn dựa trên trung bình của cửa sổ đó.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Hình 3.7: Phát hiện bất thường theo khoảng thời gian cửa sổ trượt

Kết quả bài toán 2: Hiệu chỉnh dữ liệu

Để đánh giá xem mô hình có phát hiện bất thường được khi có 1 giá trị dữ liệu lỗi hay không, tôi tiến hành thay đổi dữ liệu vào ngày 07-01-2023 để khiến cho dữ liệu đột ngột tăng tại 2 điểm dữ liệu.

Như ta thấy trên Hình 3.6, dữ liệu vào ngày 07-01-2023 đang được xem là bình thường Sau khi sửa dữ liệu thì mô hình phát hiện bất thường tại khung thời gian có các điểm thay đổi (Hình 3.7).

Hình 3.8: Phát hiện bất thường tại điểm dữ liệu lỗi ngày 07-01-2023

Sau khi phát hiện được khung cửa sổ thời gian có bất thường, tôi tiến hành dự đoán lại bằng mô hình khoảng thời gian có bất thường để xác định lại dữ liệu tốt cho thời điểm đó Kết quả thu được:

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

Bảng 3.2: Bảng so sánh kết quả thực tế và kết quả nội suy từ mô hình GAN

STT Thực tế Thay đổi Dự đoán Sai số

Với kết quả đạt được như trên thì ta có thể thấy được rằng mô hình Generator của GAN đã hoạt động khá tốt trên dữ liệu đầu vào của mô hình

Tôi tiến hành thử nghiệm thêm 10 lần việc thay đổi các thông số nhiệt độ trong khung thời gian quý 1 của 2023 để đánh giá cách phát hiện bất thường của mô hình Từ đó rút ra được một số các nhận xét thêm:

• Khi mô hình phát hiện 1 điểm bất thường trong dữ liệu thì cửa số có chứa điểm bất thường sẽ được nhận định là bất thường.

• Mô hình đảm bảo việc khi có 1 điểm dữ liệu lệch khỏi 4 độ lệch chuẩn so với trung bình anomaly score của cửa số thì đánh giá điểm dữ liệu là bất thường.

Tiến hành nội suy dữ liệu cho 2 bất thường Hình 3.7 được dự báo ban đầu của mô hình GAN

Hình 3.9: Hai điểm bất thường được nội suy

Kết quả nội suy thu được:

Hình 3.10: Hai điểm bất thường được nội suy

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

So sánh GAN và LSTM

Chạy mô hình BiLSTM với tập dữ liệu train trên, kết quả chạy mô hình:

Bảng 3.3: Kết quả chạy huấn luyện mô hình BiLSTM

Hình 3.11: Mô hình BiLSTM với tập dữ liệu test và predict

So sánh kết quả của LSTM để đánh giá thêm mô hình của GANs.

Bảng 3.4: Bảng so sánh kết quả thực tế và kết quả nội suy giữa GAN và BiLSTM

STT Thực tế Thay đổi GAN BiLSTM Sai số

Dựa vào những so sánh thêm với phương pháp BiLSTM, ta có thể có thêm một số kết luận sau:

• TadGAN cho thấy hiệu suất vượt trội trong việc phát hiện các bất thường nhỏ và phức tạp do khả năng mô hình hóa linh hoạt và mạnh mẽ của GAN.

• Thời gian huấn luyện của TadGAN thường dài hơn do sự phức tạp của mô hình GAN và yêu cầu về việc cân bằng giữa bộ tạo và bộ phân biệt.

• TadGAN có thể gặp khó khăn trong việc ổn định quá trình huấn luyện, đòi hỏi các kỹ thuật điều chỉnh phức tạp để đạt hiệu quả tốt nhất.

• Độ chính xác của TadGAN trong việc phát hiện bất thường thường cao hơn, đặc biệt là trong các trường hợp bất thường nhỏ và không rõ ràng.

• GAN cũng mang lại hiệu quả cao trong việc tái tạo dữ liệu giả.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

• BiLSTM hoạt động tốt trong các chuỗi thời gian có mô hình phức tạp và xu hướng dài hạn, nhờ vào khả năng ghi nhớ thông tin từ cả hai chiều thời gian.

• Thời gian huấn luyện thường ngắn hơn so với TadGAN, và quá trình huấn luyện cũng ổn định hơn.

Kết luận và kiến nghị những nghiên cứu tiếp theo

Kiến nghị những nghiên cứu tiếp theo

Phương pháp GAN mang lại hiệu quả vượt trội được nêu trên, nhưng để đạt được hiệu quả tối đa, cần tiếp tục nghiên cứu và tối ưu hóa các siêu tham số của mô hình GAN Việc bổ sung các đặc trưng khác từ bộ dữ liệu và mở rộng phạm vi dữ liệu huấn luyện cũng là những hướng đi tiềm năng để cải thiện hiệu suất của mô hình Trong tương lai, ứng dụng những tiến bộ này vào thực tiễn sẽ góp phần quan trọng vào việc bảo vệ và phát triển bền vững tài nguyên nước.

Các nghiên cứu đề xuất có thể liên quan đến việc phân tích sâu hơn về các siêu tham số trong GAN để tăng hiệu suất Ngoài ra, cần khám phá thêm các đặc trưng bổ sung từ bộ dữ liệu để làm dữ liệu đầu vào cho hệ thống dự đoán Một số lĩnh vực nghiên cứu có thể được phát triển như sau:

• Phân Tích Đa Chiều: áp dụng GAN để phân tích dữ liệu theo chiều sâu, bao gồm cả không gian và thời gian Phân tích này giúp nhận diện các mẫu bất thường trong các khoảng thời gian dài và trong các khu vực rộng lớn, nâng cao độ chính xác của hệ thống.

• Kết Hợp Các Đặc Trưng Bổ Sung: ngoài việc sử dụng dữ liệu về giá trị chất lượng nước, nghiên cứu có thể kết hợp thêm các đặc trưng khác như nhiệt độ, độ pH, và nồng độ các chất hóa học Việc này có thể cung cấp một cái nhìn toàn diện hơn về các yếu tố ảnh hưởng đến chất lượng nước, từ đó cải thiện khả năng phát hiện bất thường.

• Mở Rộng Dữ Liệu Đào Tạo: việc bổ sung thêm các bộ dữ liệu từ nhiều nguồn khác nhau sẽ giúp mô hình trở nên linh hoạt hơn và giảm thiểu hiện tượng quá khớp Cụ thể, sử dụng dữ liệu từ các khu vực và điều kiện thời tiết khác nhau có thể giúp mô hình dự đoán tốt hơn trong các tình huống đa dạng.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

[1] K Choi, J Yi, C Park, and S Yoon, "Deep Learning for Anomaly Detection in Time-Series Data: Review, Analysis, and Guidelines," IEEE Access, vol 9, pp 120043-120065, 2021.

[2] A Chatterjee and B S Ahmed, "IoT anomaly detection methods and appli- cations: A survey," Internet of Things, vol 19, p 100568, 2022.

[3] L Chen, J Hoey, C D Nugent, D J Cook, and Z Yu, "Sensor-Based Activity Recognition," IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), vol 42, no 6, pp 790-808, Nov 2012.

[4] F Ullah, S Ullah, M R Naeem, L Mostarda, S Rho, and X Cheng, "Cyber- threat detection system using a hybrid approach of transfer learning and multi- model image representation," Sensors, vol 22, no 15, p 5883, 2022.

[5] X Xia, X Pan, N Li, X He, L Ma, X Zhang, and N Ding, "GAN-based anomaly detection: A review," Neurocomputing, vol 493, pp 497-535, 2022.

[6] H Nizam, S Zafar, Z Lv, F Wang, and X Hu, "Real-time deep anomaly detection framework for multivariate time-series data in industrial IoT,"IEEE Sensors Journal, vol 22, no 23, pp 22836-22849, Dec 2022.

[7] V Chandola, A Banerjee, and V Kumar, "Anomaly detection: A survey," ACM Computing Surveys (CSUR), vol 41, no 3, pp 1-58, 2009.

[8] T.-L Nguyen, T.-A Le, and C Pham, "The internet-of-things based fall de- tection using fusion feature," in2018 10th International Conference on Knowl- edge and Systems Engineering (KSE),Ho Chi Minh City, Vietnam, 2018, pp. 129-134.

[9] R Chalapathy and S Chawla, "Deep learning for anomaly detection: A sur- vey," Internet: arXiv preprint arXiv:1901.03407, 2024.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

[10] T Salman, D Bhamare, A Erbad, R Jain, and M Samaka, "Machine learn- ing for anomaly detection and categorization in multi-cloud environments," in

2017 IEEE 4th International Conference on Cyber Security and Cloud Com- puting (CSCloud), IEEE 2017, pp 97-103.

[11] W Jia and R M Shukla, "Anomaly detection using supervised learning and multiple statistical methods," in 2019 18th IEEE International Conference on Machine Learning and Applications (ICMLA), Boca Raton, FL, USA, 2019, pp 1291-1297.

[12] T Chen, C Jin, T Dong, and D Chen, "A deep time series forecasting method integrated with local-context sensitive features," in Neural Information Pro- cessing: 27th International Conference, ICONIP 2020, Bangkok, Thailand, November 23–27, 2020, Proceedings, Part III, vol 27, 2020, pp 532-543.

[13] T Zhang, J Wang, L Xu, and P Liu, "Fall detection by wearable sensor and one-class SVM algorithm," in Intelligent Computing in Signal Processing and Pattern Recognition: International Conference on Intelligent Computing, ICIC 2006, Kunming, China, Aug 16–19, 2006, pp 858-863.

[14] D Wulsin, J Gupta, R Mani, J Blanco, and B Litt, "Modeling electroen- cephalography waveforms with semi-supervised deep belief nets: fast classifi- cation and anomaly measurement,"Journal of Neural Engineering, vol 8, no.

[15] P Li, M Abdel-Aty, and J Yuan, "Real-time crash risk prediction on arterials based on LSTM-CNN," Accident Analysis & Prevention, vol 135, p 105371, 2020.

[16] J Audibert, P Michiardi, F Guyard, S Marti, and M A Zuluaga, "USAD: Unsupervised anomaly detection on multivariate time series," in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery

[17] J Pereira and M Silveira, "Learning representations from healthcare time series data for unsupervised anomaly detection," in 2019 IEEE InternationalConference on Big Data and Smart Computing (BigComp), IEEE 2019, pp.1-7.

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

[18] T.-Y Kim and S.-B Cho, "Predicting residential energy consumption using CNN-LSTM neural networks," Energy, vol 182, pp 72-81, 2019.

[19] T.-Y Kim and S.-B Cho, "Predicting the household power consumption using CNN-LSTM hybrid networks," inIntelligent Data Engineering and Automated Learning–IDEAL 2018: 19th International Conference, Madrid, Spain, Nov. 21–23, 2018, Proceedings, Part I, vol 19, 2018, pp 481-490.

[20] M Z Islam, M M Islam, and A Asraf, "A combined deep CNN-LSTM net- work for the detection of novel coronavirus (COVID-19) using X-ray images," Informatics in Medicine Unlocked, vol 20, p 100412, 2020.

[21] R Barzegar, M T Aalami, and J Adamowski, "Short-term water quality vari- able prediction using a hybrid CNN–LSTM deep learning model," Stochastic Environmental Research and Risk Assessment, vol 34, no 2, pp 415-433, 2020.

[22] F J Ordó˜nez and D Roggen, "Deep convolutional and LSTM recurrent neural networks for multimodal wearable activity recognition," Sensors, vol 16, no.

[23] G E Box, G M Jenkins, G C Reinsel, and G M Ljung, Time Series Analysis: Forecasting and Control, 5th ed Hoboken, NJ: John Wiley & Sons, 2015.

[24] P C Ngo, A A Winarto, C K L Kou, S Park, F Akram, and H K. Lee, "Fence GAN: Towards better anomaly detection," in 2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI), IEEE

[25] D Li, D Chen, B Jin, L Shi, J Goh, and S.-K Ng, "MAD-GAN: Multivariate anomaly detection for time series data with generative adversarial networks," in International Conference on Artificial Neural Networks, Munich, Germany,

[26] J Yoon, D Jarrett, and M Van der Schaar, "Time-series generative adver- sarial networks," Advances in Neural Information Processing Systems, vol 32, 2019.

[27] A Geiger, D Liu, S Alnegheimish, A Cuesta-Infante, and K Veeramacha- neni, "TADGAN: Time series anomaly detection using generative adversarial

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính networks," in 2020 IEEE International Conference on Big Data (Big Data), IEEE 2020, pp 33-43.

[28] R Liu, W Liu, Z Zheng, L Wang, L Mao, Q Qiu, and G Ling, "Anomaly- GAN: A data augmentation method for train surface anomaly detection," Expert Systems with Applications, vol 228, p 120284, 2023.

[29] T Schlegl, P Seeb¨ock, S M Waldstein, U Schmidt-Erfurth, and G Langs,

"Unsupervised anomaly detection with generative adversarial networks to guide marker discovery," inInternational Conference on Information Process- ing in Medical Imaging, Boone, NC, USA, 2017, pp 146-157.

[30] B Zhou, S Liu, B Hooi, X Cheng, and J Ye, "BEATGAN: Anomalous rhythm detection using adversarially generated time series," in IJCAI, vol.

[31] Y Choi, H Lim, H Choi, and I J Kim, "GAN-based anomaly detection and localization of multivariate time series data for power plant," in2020 IEEE In- ternational Conference on Big Data and Smart Computing (BigComp), IEEE 19-22 Feb 2020, pp 71-74.

[32] Z Niu, K Yu, and X Wu, "LSTM-based VAE-GAN for time-series anomaly detection," Sensors, vol 20, no 13, p 3738, 2020.

[33] Y Li, X Peng, J Zhang, Z Li, and M Wen, "DCT-GAN: Dilated Convo- lutional Transformer-Based GAN for Time Series Anomaly Detection," IEEE Transactions on Knowledge and Data Engineering, vol 35, no 4, pp 3632-

[34] W Jiang, Y Hong, B Zhou, X He, and C Cheng, "A GAN-based anomaly detection approach for imbalanced industrial time series," IEEE Access, vol.

[35] Y Li, X Peng, J Zhang, Z Li, and M Wen, "DCT-GAN: Dilated Convo- lutional Transformer-Based GAN for Time Series Anomaly Detection," IEEE Transactions on Knowledge and Data Engineering, vol 35, no 4, pp 3632-

[36] A Geiger, D Liu, and S Alnegheimish, "TADGAN: Time Series AnomalyDetection Using Generative Adversarial Networks," Proceedings of the 2020

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Khoa Khoa Học & Kỹ Thuật Máy Tính

IEEE International Conference on Big Data (Big Data), IEEE 2020, pp 33-43.

Ngày đăng: 25/09/2024, 14:41

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w