3 Một số ứng dụng của mạng mờ tự mã hóa
1.6 Mô phỏng hàm thuộc Bell
Hàm thuộc L
Hàm thuộc L được xác định bởi hàm thành viên như sau [43]:
µA(u) = h Nếu u≤avới h≤1 (b−u) (b−a)Nếua<u<b 0 Nếu u≥b (1.7) Hình 1.7: Mô phỏng hàm thuộc L Hàm thuộc Zmf
Hàm thuộc Zmf có dạng tương tự hàm thuộc L, nhưng đã được thay bằng các hàm trơn để sử dụng tốt hơn trong quá trình mờ hóa, công thức hàm Zmf được biểu diễn như sau:
f(x;a,b) = 0 Nếu x≤a 2(bx−−aa)2 Nếu a≤x≤ a+b2 1−2(xb−−ba)2 Nếu a+b2 ≤ x≤b 1 Nếu x≥b (1.8)
Hình 1.8: Mô phỏng hàm thuộc Zmf
Hàm thuộc Gamma tuyến tính
Hàm Gamma tuyến tính được xác định với công thức như sau [43] :
Hình 1.9: Mô phỏng hàm thuộc Gamma tuyến tính
µA(u) = 0 Nếu u≤a (u−b) (b−a)Nếua<u<m hNếu u≥,vớih≤1 (1.9)
Hàm thuộc Smf
Hàm thuộc Smf có dạng tương tự hàm thuộc Gamma tuyến tính, nhưng đã được thay bằng các hàm trơn để sử dụng tốt hơn trong quá trình mờ hóa, công thức hàm Smf được biểu diễn như sau:
f(x;a,b) = 0 Nếu x≤a 2(bx−−aa)2 Nếu a≤x≤ a+b2 1−2(xb−−ba)2 Nếu a+b2 ≤ x≤b 1 Nếu x≥b (1.10) Hình 1.10: Mô phỏng hàm thuộc Smf Hàm thuộc Sigma
Một dạng khác, tương tự hàm Smf là hàm Sigmoid, với công thức được biểu diễn như sau:
f(x) = 1
Hình 1.11: Mô phỏng hàm thuộc Sigma
Hàm thuộc hình chuông
Hàm thuộc hình chuống, có công thức tính dựa theo phân phối chuẩn :
f(x) =e
(x−c)2
2σ2 (1.12)
Trong đó c là kỳ vọng và σ là phương sai của bộ dữ liệu. Hàm này còn được gọi là hàm thuộc Gauss trong logic mờ. Đồ thị của hàm được biểu diễn dưới dạng phân phối chuẩn, tập trung ở giữa đoạn và giảm dần sang 2 bên theo đúng luật của phân phối chuẩn
Trong quá trình khai phá dữ liệu, các hàm mờ đóng vai trò tiền xử lý dữ liệu, chuyển đổi đầu vào từ dạng mờ thành dạng có ý nghĩa hơn để máy tính xử lý, với kỳ vọng thu được kết quả chính xác hơn
1.4.3 Luật mờ và hệ suy diễn mờ
Luật mờ
Luật kéo theo mờ, hay luật suy diễn mờ, có dạng "Nếu A thì B", với A và B là 2 thuộc tính mờ có thể mờ hóa bằng các phương pháp mờ. Luật mờ thường được ứng dụng trong các hệ hỗ trợ, giúp cho con người đưa ra quyết định trong một số tình huống thường là bất biến, ví dụ như "Nếu mức lũ là cao và cấp hồ chứa là trung bình thì lượng xả là cao" [3]
Một dạng khác của luật suy diễn mờ, được đề xuất bởi Takagi và Sugeno [49][50], là sử dụng các công thức toán học tường minh làm đầu ra cho đầu vào mờ. Nghĩa là chuyển các tập mờ đầu vào cho các công thức tường minh tương ứng để thực hiện những tính toán tiếp theo. Ví dụ như: "Nếu vận tốc cao thì Lực = k(vận tốc)2. Hệ mờ, được định nghĩa bao gồm một tập nhiều mờ, có thể có hoặc không liên kết với nhau, là tiền đề hình thành cơ sở tri thức mờ. Một kho dữ liệu cho phép con người tìm kiếm và trích rút các luật mờ
Hệ suy diễn mờ
Hệ suy diễn mờ tương tác với cơ sở tri thức mờ, là nơi mờ hóa yêu cầu, trả về kết quả luật mong muốn dưới dạng có thể hiểu được cho con người, cấu trúc cơ bản của một hệ suy diễn mờ bao gồm [24]:
Hình 1.13: Các thành phần của hệ suy diễn mờ
• Bộ luật mờ: bao gồm các luật mờ đã được xây dựng trong hệ thống • Cơ sở dữ liệu: lưu trữ các tham số hệ thống, như các hàm thuộc được
sử dụng
• Đơn vị thực thi quyết định: thực hiện các hoạt động suy diễn trong các luật
• Giao diện mở hóa: chuyển đổi các lớp đầu vào thành các giá trị mờ • Chuyển đổi giá trị kết quả thành thuộc tính đầu ra có thể đọc được Đầu ra của hệ suy diễn có thể rơi vào hai nhóm, đại diện cho các loại thông tin khác nhau. Nhóm đầu tiền là mô hình ngôn ngữ [62], người dùng hệ thống sẽ nhận được kết quả trả về, ví dụ như khi đưa vào hệ "Trời mưa to" thì đáp án trả về là "Không đi khảo sát"
Mô hình còn lại là Takagi – Sugeno [50]: Đầu ra trả về là một công thức ứng vào đầu vào mờ, từ đó làm đầu vào cho các quá trình tính toán tiếp theo. Đây cũng là tiền đề để kết hợp mô hình mờ với mạng nơ-ron nhân tạo, với ý tưởng chính là tận dạng các hàm đầu ra từ mô hình Takagi – Sugeno để tinh chính mô hình học sâu, giúp cho mạng nơ-ron có độ hiểu quả cao hơn.
Xây dựng giải pháp xử lý cho bài toán phân tích chất lượng nước và phân lớp
2.1 Tổng quan bài toán
Nước có vai trò vô cùng quan trọng, là thành phần quan trọng nhất trong sinh hoạt hằng ngày, đồng thời, nước đóng vai trò quan trọng trong lĩnh vực nông nghiệp và công nghiệp. Ngày nay, quá trình đô thị và công nghiệp hóa diễn ra một cách nhanh chóng, gây nên sự ô nhiễm diện rộng. Đối với mỗi loại tài nguyên, con người đã nghiên cứu và chỉ ra được quy trình gây nên sự ô nhiễm tương ứng. Cụ thể, đối với nước, quá trình phú dưỡng (eutrophication), chính là một trong những nguyên nhân gây suy giảm chất lượng nước và tình trạng thiếu nước tại một số quốc gia trên thế giới hiện nay [37]. Quá trình phú dưỡng, bắt đầu khi các rác thải trong sinh hoạt của con người, và chất thải công nghiệp không được xử lý kỹ trước khi đổ ra môi trường tự nhiên. Nếu như quá trình ô nhiễm thường bắt đầu khi các chất thải hòa tan vào nước, làm nguồn nước không thể sử dụng được, thì phú dưỡng lại gây nguy hại cho nguồn nước từ chính các chất dinh dưỡng (nutrients), chủ yếu bao gồm nitơ
và phốt-pho còn tồn đọng trong nước thải [25]. Các chất dinh dưỡng mà con người không sử dụng, lại là chất nuôi dưỡng, giúp cho các loại sinh vật phù du, đặc biệt là tảo phát triển. Sự nở hoa dày đặc của tảo, trước hết đã chặn toàn bộ ánh nắng mặt trời xuống dưới, ngăn chặn sự phát triển của các loài thực vật. Các loài động vật như cá, tôm, . . . cũng không thể tồn tại do thiếu khí oxi, được sinh từ ánh nắng mặt trời, đồng thời cũng không có đủ tài nguyên thực vật để sinh sống. Hậu quả nghiêm trọng mà tảo gây ra phá hủy một phần hệ sinh thái, đặc biệt là sự suy giảm mạnh của các sinh vật biển, đặc biệt là là các động vật không xương sống [22].
Sự nở hoa của tảo còn kéo theo một số hiện tượng như suy giảm oxy trong không khí, gây các mùi nặng và độc tố trong môi trường khu vực xung quanh [22], Từ đó, nhu cầu phân tích và nắm bắt các yếu tố cụ thể, gây ra hiện tượng phú dưỡng và sự nở hoa của tạo một cách định lượng. Một hệ thống chiến lược giúp phân tích, dự báo nồng độ nở hoa, đồng thời đưa ra các giải pháp ngăn chặn là bắt buộc phải có để hạn chế những thiệt hại mà phù dưỡng gây ra.
2.1.1 Tổng quan nghiên cứu
Đã có nhiều nghiên cứu chỉ ra rằng các chất dinh dưỡng thừa là yếu tố quan trọng trong hiện tượng phú dưỡng. Một cuộc khảo sát ở Trung Quốc, Thống kê thực hiện trên cho thấy rằng trong 15 hồ nước nông đã cho thấy rằng tổng lượng nitơ và photpho có liên quan trực tiếp đến chlorophyll-a (ChL-a - đại lượng đặc trưng cho sự sinh tảo). Mặt khác, các nghiên cứu đã chỉ ra rằng , ngoài chất dinh dưỡng, một số các yếu tố liên quan mật thiết đến sự nở tạo trong tự nhiên bao gồm nhiệt độ, tốc độ dòng chảy, ánh sáng, độ PH [10] [16] [28] [60]. Tổng quan lại, tảo nở nhanh hơn trong nhiệt độ ấm cao, hoặc dưới ánh sáng mạnh [16][38], đồng thời sẽ bị hạn chế khi có dòng chảy mạnh. Các nghiên cứu cũng chỉ ra rằng, tác động của con người trong việc điều tiết nước, bao gồm dựng đập, chống lũ lụt, khai thác thủy điện,. . . có thể làm thay đổi đáng kể các đặc điểm của hệ sinh thái, ảnh hưởng trực tiếp đến
sự phân bố, thành phần và mật độ tảo trong khu vực liên quan[16]. Sự phức tạp, đến từ ảnh hưởng kết hợp của các chất thải, các yếu tố khí hậu và con người càng làm quá trình phân tích trở nhân khó khăn, là một thách thức lớn cần giải quyết
Các mô hình số được áp dụng để chứng minh các yếu tố ảnh hướng trên, như mô hình MIKE 21, mô hình mô phỏng Nutrient [64][59][28]. Tuy nhiên, các mô hình này đều yêu cầu một lượng lớn kiến thức chuyên gia, đặc biệt trong các lĩnh vực khí tượng và thủy văn, đồng thời tiêu tốn nhiều thời gian [65]. Do vậy, học máy và khai phá dữ liệu đã được các nhà khoa học áp dụng cho các bài toán loại này. Một số nghiên cứu nổi bật bao gồm ứng dụng mô hình cơ bản vectơ hỗ trợ SVM đến các mạng học sâu phức tạp [35]. Cụ thể, SVM đã được chứng minh cho hiệu năng cao với bài toán cảnh báo tảo nở hoa trong hồ chứa [44] hoặc trên sông [47]. Nghiên cứu của Yi và cộng sự so sánh và đánh giá ưu, nhược điểm của cây hồi quy và mạng nơron nhân tạo trong việc dự đoán tảo nở hoa trong chu kỳ ngắn. Mạng học sâu LSTM và mạng tích chập cũng đã được thử nghiệm trong một vài nghiên cứu khác [34]. Nhìn chung, học máy đang là một hướng đi đúng đắn, và có tiềm năng lớn để giải quyết triệt để vấn đề trong tương lai
2.1.2 Đặc tả bài toán chi tiết
Trong luận văn này, em đã chọn bộ dữ liệu về hiện tượng phú dưỡng và tảo nở hoa trên sông Hàn (Hàn Quốc) làm bài toán phân tích cụ thể. Bài toán đang được chính phủ Hàn Quốc quan tâm và được thu thập dữ liệu tại các trạm một cách tự động, từ đó có được một bộ dữ liệu hoàn chỉnh trong vòng 10 năm. Có rất nhiều nghiên cứu khác nhau đã được thực hiện trên bộ dữ liệu này [32][28][13].
Sông Hàn là con sông dài thứ hai tại Hàn Quốc, với chiều dài khoảng hơn 500 km. Sông Hàn nằm tại chính giữa bán đảo Hàn Quốc, có vai trò quan trọng trong việc cấp nước cho nông nghiệp, công nghiệp hằng hải. Đồng thời cung cấp nước sinh hoạt cho gần một nửa cư dân Hàn Quốc (24 triệu người).
Sông Hàn bao gồm hai nhánh chính được chia làm hướng Bắc và Nam, Với dòng chảy bắt đầu từ hồ chứa Palang và kết thúc tại thủ đô Seoul [13]. Dữ liệu về các chỉ số trên sống Hàn được thu thập từ nhiều trạm khác nhau bao gồm 8 trạm chính Amsa (M1), Guui (M2), Jamsil (M3), Ttukdo (M4), Bogwang (M5), Norangjin (M6), Yeongdungpo (M7), và Gayang (M8), mỗi trạm cách nhau khoảng 55 km, song song với đó là 46 trạm nhỏ khác. Dữ liệu được lấy trực tiếp tự bộ môi trường Hàn Quốc (http://water.nier.go.kr/)). Các thông số tồn tài trong bộ dữ liệu bao gồm:
• Nhu cầu oxy hóa học (Chemical oxygen demand - COD) • Nhu cầu oxy sinh học (Biological oxygen demand - BOD) • Tổng carbon hữu cơ (Total organic carbon - TOC)
• Tổng chất rắn lơ lửng (Total suspended solids - TSI) • Tổng phốt pho (Total phosphorus - TP)
• Tổng phốt pho hòa tan (Dissolved total phosphorus - DTP) • Phốt phát (Phosphate - PO4-P)
• Tổng nitơ (Total nitrogen -TN)
• Tổng nitơ hòa tan (Dissolved total nitrogen - DTN) • Nitrat (NO3-N) • Amoniac (NH3 -N) • Chất diệp lục (Chla) • Nhiệt độ • Lượng mưa • Lưu lượng
• Oxy hòa tan (Dissolved oxygen) • Chỉ số pH
• Độ dẫn điện (Electroconductivity - EC)
• Tổng số Coliform(TColi) và chỉ số Coliforms trong phân (Fecal Col- iforms - Fcoli)
Chỉ số dinh dưỡng Carlson (Carlson’s trophic state index – TSI) đại diện cho độ dinh dưỡng xuất hiện trong nước, thang đo từ 1 tới 199 [9]. Độ nở hoa của tảo (Chl-a (mg/m3)) được quy đổi về chỉ số đánh giá TSI-chla. Chỉ số được phân thành 4 lớp với các khoảng <30, 30-50,60-70 và >50. Các khoảng được gán với các nhãn tương ứng bao gồm it dinh dưỡng (oligotrophic), trung bình (mesotrophic), dinh dưỡng cao (eutrophic) và siêu dinh dưỡng (hypertrophic), công thức quy đổi tương ứng các chỉ số như sau:
T SI−Chla=9.82∗lnChla+30.6 (2.1) Từ việc phân tích ý nghĩa bài toán cũng như đặc tả chi tiết, có thể thấy các phương pháp học máy, học sâu là hoàn toàn phù hợp để giải quyết bài toán phân tích quá trình phú dưỡng và dự đoán nở hoa ở tảo. Trong các phần tiếp theo, em sẽ tiến hành xây dựng mô hình theo nhiều cách tiếp cận khác nhau, đồng thời so sánh để tìm phương pháp tối ưu nhất cho bài toán đặt ra
2.2 Phân tích, thiết kế mô hình
2.2.1 Tổng quan mô hình
Mô hình tổng quan hệ thống được thiết kế như sau:
Hình 2.1: Mô hình thiết kế tổng quanCó thể chia toàn bộ mô hình ra làm 3 bước cơ bản: Có thể chia toàn bộ mô hình ra làm 3 bước cơ bản:
• Tiền xử lý dữ liệu: Từ bộ dữ liệu đã có, tiến hành xử lý dữ liệu. Bước đầu tiền trong quá trình tiền xử lý dữ liệu luôn là làm sạch dữ liệu, bù thêm vào các dữ liệu bị thiếu. Tùy vào từng loại thuật toán dự đoán sử dụng, cần tinh chỉnh hàm tiền xử lý dữ liệu tương ứng. Trong khi xử lý dữ liệu có thể thêm vào mờ hóa dữ liệu hoặc không, tùy vào từng tình huống
• Mô hình hồi quy: Xây dựng các mô hình trong phần lý thuyết với bộ tham số tối ưu cho bài toán phân tích phú dưỡng.
• Mô hình phân lớp: Từ kết quả TSI-Chla thu được, tiến hành phân lớp dựa theo các thuật toán tương ứng, có thể phải giải mờ nếu mờ hóa trong quá trình tiền xử lý.
2.3 Xây dựng mô hình phân tích
2.3.1 Xây dựng mô hình chuỗi thời gian
Một trong nhưng cách tiếp cận khác, có thể coi là phổ biến nhất, là các thuật toán thời gian truyền thống. Có thể thấy rằng, Đặc tính của dữ liệu chuỗi thời gian là không được sinh ra một cách độc lập, sự phân tán của dữ liệu thay đổi theo thời gian [19] . Đối với phương pháp này, người ta thường quan tâm quan tâm đến bốn thành phần như sau:
• Thành phần xu hướng dài hạn (long – term trend component): thành phần này dùng để chỉ xu hướng tăng hay giảm của đại lượng quan sát trong thời gian dài.
• Thành phần mùa (seasonal component) : thành phần này dùng để chỉ xu hướng tăng hay giảm của đại lượng quan sát tính theo mùa trong năm.
• Thành phần chu kỳ (cyclical component): thành phần này chỉ sự thay đổi của đại lượng quan sát theo chu kỳ. Thành phần này khác thành phần mùa ở chỗ chu kỳ của đại lượng quan sát có thể kéo dài hơn 1 năm.
• Thành phần bất thường (irregular component) : thành phần này dùng để chỉ sự thay đổi bất thường của các giá trị trong chuỗi thời gian. Sự thay đổi này không thể dự đoán bằng các số liệu kinh nghiệm trong quá khứ.
Có rất nhiều mô hình chuỗi thời gian khác nhau. Trong luận văn này, em sử dụng hai loại mô hình là mô hình trung bình trượt tích hợp (Autoregressive integrated moving average - ARRIMA) và mô hình trung bình trượt tích hợp mùa (Seasonal autoregressive integrated moving average - SARRIMA), được mô tả như dưới đây.
Mô hình trung bình trượt tích hợp
Mô hình trung bình trượt tích hợp (ARIMA) là một trong những mô hình phân tích chuỗi thời gian quan trọng và phổ biến nhất [8]. Sự phổ biến của mô hình là do tính chất thống kê và phương pháp luận Box-Jenkin [8] nổi tiếng trong quá trình xây dựng mô hình. Mô hình ARIMA là sự tích hợp của hai mô hình là tự hồi quy (autoregressive - AR) và trung bình trượt (moving average - MA). Dạng tổng quát của mô hình như sau:
yt =a0+a1yt1+...+apyt p+et+b1et1+b2et2+...+bqetq (2.2) Trong đó:
• yt là quan sát tại thời điểmt.
• et là nhiễu ngẫu nhiên tại thời điểmt.