Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 101 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
101
Dung lượng
3,9 MB
Nội dung
Mục lục Lời cảm ơn Tóm tắt luận văn Lời mở đầu Cơ sở lý thuyết 1.1 Quy trình phân tích khai phá liệu 1.1.1 Xác định mục tiêu đặt câu hỏi 1.1.2 Chuẩn bị liệu 1.1.3 Tiền xử lý liệu 1.1.4 Khai phá liệu 1.1.5 Đánh giá kết 1.2 Một số toán phổ biến khai phá liệu 1.2.1 Bài toán hồi quy 1.2.2 Bài toán dự đoán chuỗi thời gian 1.2.3 Bài toán phân lớp phân cụm 1.3 Mạng nơ-ron nhân tạo 1.4 Logic mờ 1.4.1 Logic mờ hàm thuộc 1.4.2 Mờ hóa liệu 1.4.3 Luật mờ hệ suy diễn mờ 13 13 14 15 16 17 19 20 20 20 21 22 25 25 26 33 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương Xây dựng giải pháp xử lý cho tốn phân tích chất lượng nước phân lớp 2.1 Tổng quan toán 2.1.1 Tổng quan nghiên cứu 2.1.2 Đặc tả toán chi tiết 2.2 Phân tích, thiết kế mơ hình 2.2.1 Tổng quan mơ hình 2.3 Xây dựng mơ hình phân tích 2.3.1 Xây dựng mô hình chuỗi thời gian 2.3.2 Xây dựng mơ hình hồi quy truyền thống 2.3.3 Xây dựng mơ hình học sâu 2.3.4 Xây dựng mơ hình học sâu mờ 2.3.5 Xây dựng mơ hình học sâu ANFIS 2.4 Đánh giá kết mơ hình 2.4.1 Thang đo đánh giá 2.4.2 Đánh giá kết thực nghiệm 2.5 Xây dựng ứng dụng web phân tích dự đốn tảo nở Một số ứng dụng mạng mờ - tự mã hóa 3.1 Mạng tự mã hóa ứng dụng 3.2 Mạng học sâu mờ - tự mã hóa 3.3 Ứng dụng mạng mờ - tự mã hóa tốn phân lớp phát bất thường 3.3.1 Xác định ngưỡng bất thường 3.3.2 Bài toán phát bất thường môi trường mạng 3.3.3 Dữ liệu truy vấn Web 3.3.4 Đánh giá kết 3.4 Ứng dụng mạng mờ - tự mã hóa tốn hồn thiện liệu thiếu 3.4.1 Tổng quan toán 3.4.2 Bài tốn phân tích chất lượng khơng khí Việt Nam 35 35 36 37 40 40 41 41 43 45 47 48 51 51 52 58 60 60 63 65 65 67 69 71 72 72 74 Học viên: Trương Tiến Dũng 3.5 GVHD: TS Nguyễn Thị Thu Hương Tổng quan liệu 3.5.1 Đánh giá kết tìm liệu thiếu 75 77 Kết luận 79 Phụ lục 80 Chỉ mục 89 Công bố liên quan đến luận văn 92 Tài liệu tham khảo tiếng Việt 93 Tài liệu tham khảo tiếng Anh 94 Danh mục hình vẽ 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 Quy trình phân tích liệu Kiến trúc chung mạng nơ-ron Cấu trúc nơ-ron Mô hàm thuộc tam giác Mô hàm thuộc tứ giác Mô hàm thuộc Bell Mô hàm thuộc L Mô hàm thuộc Zmf Mô hàm thuộc Gamma tuyến tính Mơ hàm thuộc Smf Mô hàm thuộc Sigma Mô hàm thuộc Gauss Các thành phần hệ suy diễn mờ 13 23 24 27 28 28 29 30 30 31 32 32 34 2.1 2.2 2.3 2.4 2.5 2.6 Mơ hình thiết kế tổng quan Mô hình mạng ANFIS [12] Mô tả số đánh giá hệ phân lớp Giao diện ứng dụng web Kết trả từ mơ hình tuyến tính ứng dụng Web Kết trả từ mơ hình học sâu ứng dụng Web 40 49 51 59 59 59 3.1 3.2 Mơ hình mạng Autoencoder [39] Mô mạng Fuzzy-Autoencoder 61 64 Danh sách bảng 2.1 2.2 2.3 2.4 Tương quan thành đặc trưng toán chất lượng nước Sự ảnh hưởng mơ hình thay đổi thuộc tính đầu vào, hương pháp RNN Bảng tổng hợp kết hồi quy TSI-chla phương pháp Bảng tổng hợp kết toán phân lớp So sánh hiệu mơ hình RDA với phương pháp khác CSIC 3.2 So sánh hiệu mơ hình BKLA 3.3 Số lượng liệu bị liệu chất lượng khơng khí 3.4 Tỷ lệ liệu bị liệu chất lượng khơng khí 3.5 Bảng tổng hợp kết hồi quy liệu bù 3.6 Sự ảnh hưởng mơ hình thay đổi thuộc tính đầu vào, phương pháp LSTM 3.7 Sự ảnh hưởng mơ hình thay đổi thuộc tính đầu vào, phương pháp GRU 3.8 Sự ảnh hưởng mơ hình thay đổi thuộc tính đầu vào, phương pháp SVR 3.9 Sự ảnh hưởng mơ hình thay đổi thuộc tính đầu vào, phương pháp hồi quy tuyến tính 3.10 Sự ảnh hưởng mơ hình thay đổi thuộc tính đầu vào, phương pháp hồi quy (DTR) 53 54 56 57 3.1 71 71 76 76 77 80 81 82 83 84 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương 3.11 Sự ảnh hưởng mơ hình thay vào, phương pháp SARIMAX 3.12 Sự ảnh hưởng mơ hình thay vào, phương pháp ANFIS 3.13 Sự ảnh hưởng mơ hình thay vào, phương pháp Fuzzy-RNN 3.14 Sự ảnh hưởng mơ hình thay vào, phương pháp Fuzzy-LSTM đổi đổi đổi đổi thuộc tính đầu thuộc tính đầu thuộc tính đầu thuộc tính đầu 85 86 87 88 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương Lời cảm ơn Đầu tiên, em xin gửi lời cảm ơn chân thành đến TS Nguyễn Thị Thu Hương, cô đồng hành hỗ trợ em nhiều q trình hồn thiện bảo vệ luận văn Tiếp theo, em xin tỏ lòng biết ơn sâu sắc đến TS Lê Chí Ngọc giúp đỡ em nhiều trình làm luận văn Thầy bỏ nhiều thời gian quan tâm, giảng giải cho em hiểu khúc mắc, giúp em tiếp tục nghiên cứu hoàn thành luận văn Sự bảo tận tình thầy trợ giúp lớn giúp em trình học thạc sĩ Em xin cảm ơn tới giáo sư, tiến sĩ, cán giảng dạy viện Toán Ứng Dụng Tin Học, Đại học Bách Khoa Hà Nội Các thầy hỗ trợ em nhiều trình hồn thành luận văn chương trình cao học viện Các thầy, cô cho em nhiều học quý giá, không lĩnh vực nghiên cứu mà sống, học em nghiệp sau Em xin gửi cảm ơn tới Trung tâm An toàn An ninh thông tin, đại học Bách Khoa Hà Nội, đặc biệt giám đốc trung tâm, TS Trần Quang Đức Em xin cảm ơn trung tâm tạo điều kiện cho em làm việc nghiên cứu trung tâm suốt thời gian học cao học trường Em xin cảm ơn thầy, anh nghiên cứu sinh trung tâm hỗ trợ em nhiều trình học tập làm luận văn Cuối cùng, em xin gửi lời cảm ơn tới cha mẹ, cổ vũ động viên cha mẹ nguồn động lực lớn giúp em theo đuổi đường học thuật, hoàn thành luận văn này, Luận văn em cịn có nhiều sai sót, mong nhận ý kiến từ thầy để em hồn thiện kiến thức mình, tiếp tục hướng nghiên cứu Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương Tóm tắt luận văn Trong luận văn này, em trình bày phương pháp tiếp cận mờ khai phá liệu Cấu trúc luận văn bao gồm ba chương Trong Chương 1, em trình bày kiến thức sở học logic mờ vào khai phá liệu, làm tiền đề cho khai phá sau Trong Chương 3, em trình bày ứng dụng đạt từ phương pháp nêu Cụ thể, Chương trình bày việc ứng dụng logic mờ chuỗi thời gian để giải tốn phân tích chất lượng nước, để giải vấn đề phú dưỡng nở hoa đột biến tảo, gây nhiều vấn đề môi trường Bài tốn triển khai thơng qua việc trích chọn đặc trưng ảnh hưởng đến chất lượng nước, sau dùng phương pháp học máy chuỗi thời gian kết hợp với logic mờ đặc trưng để phân tích giải tốn Phần cuối Chương trình bày cách đưa mơ hình lên ứng dụng Web hồn chỉnh, giúp người dùng dễ dàng tương tác Chương trình bày số ứng dụng logic mờ số toán học sâu đặc thù, sử dụng mạng mạng tự mã hóa (Autoencoder), bao gồm toán phát bất thường toán bổ sung liệu thiếu Phần kết luận tổng kết lại vấn đề yếu trình bày luận văn Trong trình nghiên cứu, luận văn đạt kết khả quan, với minh chứng công bố khoa học kèm Hà Nội, ngày 24 tháng 12 năm 2021 Trương Tiến Dũng Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương Lời mở đầu Công nghệ thông tin xuất phát triển đem đến bước ngoặt lớn lịch sử người Mục đích tiên cơng nghệ thơng tin dùng cơng nghệ để xử lý, biến đổi liệu thành tri thức người sử dụng trực tiếp được, từ hỗ trợ người việc định xử lý vấn đề cách nhanh chóng Với phát triển bùng nổ công nghệ thông tin mạng xã hội Con người sống giới bao quanh liệu Dữ liệu lớn, nhu cầu phân tích khai phá liệu ngày nhiều Có thể thấy, năm gần đây, phân tích liệu ứng dụng hầu hết tất lĩnh vực sống Đối với lĩnh vực kinh tế, phân tích liệu giúp người xử lý toán cân đối thu chi, gợi ý chiến lược kinh doanh từ liệu có doanh nghiệp Bài tốn phân tích hành vi người dùng tốn doanh nghiệp quan tâm với mục đích tối ưu hóa cách thức bán hàng Các hình thức phân tích hành vi ngày sử dụng tinh vi năm gần đây: Bắt đầu toán sử dụng luật kết hợp, dựa vào lịch sử mua hàng khách hàng để chọn cặp hàng mua đồng thời, đến tốn sử dụng camera để phân tích hành vi khách, phân tích khách tập trung khu vực nào, hay chọn lựa sản phẩm nào, tất thu thập phân tích cho thu chiến lược kinh doanh tối ưu Đối với lĩnh vực giáo dục, khai phá liệu ngồi dùng để phân tích đối tượng, đưa phương án tuyển sinh phù hợp, khai phá liệu cịn ứng dụng trực tiếp vào việc phân tích ứng viên, đóng góp trực tiếp vào q trình vấn tuyển sinh Phân tích liệu cịn đặc biệt ứng dụng nhiều toán mang tính đặc thù cao Ví dụ tốn vào lĩnh vực công nghiệp sản xuất, phân tích chất lượng sản phẩm, kiểm thử rủi ro, hay tốn phân tích đặc thù mơi trường, phân tích chất lượng khơng khí, phân tích chất lượng nước Lĩnh vực y học, năm gần đây, có nhiều thành tựu ứng dụng khai phá liệu Ví dụ tập đồn Vingroup Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương Việt Nam cho đời nhiều ứng dụng lĩnh vực này, bao gồm phân tích hình ảnh với số bệnh y tế, đồng thời cho đời trợ ý ảo nhằm hỗ trợ tác vụ thủ tục cho bác sĩ, giúp bác sĩ tập trung vào chun mơn Phân tích liệu, mục đích cuối từ liệu đầu vào, rút tri thức cho người trình đầu Quá trình xuất kỷ nguyên gần đây, mà người làm việc suốt chiểu dài phát triển người, ứng dụng liệu có tự nhiên để làm giàu tri thức người Con người mặc định biết chuyển động vật kiến thức vật lý hóa học, họ biết mặt trời mọc đằng đông kiến thức địa lý, biết người chết tim ngừng đập sinh học, Nhưng liệu điều mặc định có đúng? Thực chất thân người khơng thể nhận biết xử lý thông tin chưa gặp Con người thu trải nghiệm, kiến thức giới thông qua việc quan sát nhiều lần để tìm hiểu vật Chúng ta biết lửa nóng, nước sơi gây bỏng tự trải nghiệm học hỏi từ người khác, biết mặt trời mọc đằng đông, mặt trời lên đến đỉnh trưa quan sát nhiều lần Sự phản ánh lại thực giới vào não bắt nguồn từ trình quan sát lại nhiều lần mà nhận ra, hay nói cách khác, người sử dụng thống kê, sử dụng tốn học để nhận biết thứ Các mơn khoa học lý, hóa, sinh, hay địa giúp hiểu vật, tượng qua trình quan sát phân tích lâu dài, khơng thể đem lại cho người khả nhận biết kiến thức tự nhiên Toán học, hay cụ thể xác suất thống kê, tảng học máy khai phá liệu, rộng hơn, tảng đề người nhận biết thứ Bản chất xác suất thống kê quan sát vật nhiều lần, phân nhỏ kiện với điều kiện, nhóm thuộc tính khác ghi lại kết tương ứng Đối với trình thống kê, kết thu thường mối liên hệ vật, tượng với Cách đơn giản để có kết xét ngưỡng, ví dụ như: “Nếu số AQI 10 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương Bảng 3.13: Sự ảnh hưởng mơ hình thay đổi thuộc tính đầu vào, phương pháp Fuzzy-RNN Phương pháp Fuzzy-RNN Thuộc tính đầu vào Precision Recall F1-score MAE NH3-N, NO3-N, PO4-P 0.94 0.94 0.94 0.1125 NH3-N, NO3-N, PO4-P, TN , TP 0.93 0.91 0.92 0.1118 NH3-N, NO3-N, PO4-P, TN , TP , DTN, DTP 0.93 0.93 0.93 0.1118 DTN, DTP , pH 0.95 0.93 0.94 0.1104 DTN, DTP 0.94 0.92 0.93 0.1101 DTN, DTP , pH, DO, BOD 0.94 0.95 0.94 0.1083 NH3-N, NO3-N, PO4-P, DTN, DTP, pH 0.94 0.94 0.93 0.106 Nhiệt độ, Tốc độ chảy, Lượng mưa 0.92 0.91 0.91 0.1086 DO,BOD, Nhiệt độ, Tốc độ chảy, Lượng mưa 0.94 0.94 0.94 0.1074 DTN, DTP, pH, DO, BOD, Nhiệt độ, Tốc độ chảy, Lượng mưa 0.96 0.98 0.97 0.1067 NH3-N, NO3-N, PO4-P, TN , BOD, Nhiệt độ, Tốc độ chảy, Lượng mưa, Độ dấn nhiệt 0.93 0.93 0.93 0.1089 Tât thuộc tính 0.95 0.96 0.95 0.1068 87 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương Bảng 3.14: Sự ảnh hưởng mô hình thay đổi thuộc tính đầu vào, phương pháp Fuzzy-LSTM Phương pháp Fuzzy-RNN Thuộc tính đầu vào Precision Recall F1-score MAE NH3-N, NO3-N, PO4-P 0.94 0.94 0.94 0.1125 NH3-N, NO3-N, PO4-P, TN , TP 0.93 0.91 0.92 0.1118 NH3-N, NO3-N, PO4-P, TN , TP , DTN, DTP 0.93 0.93 0.93 0.1118 DTN, DTP , pH 0.95 0.93 0.94 0.1104 DTN, DTP 0.94 0.92 0.93 0.1101 DTN, DTP , pH, DO, BOD 0.94 0.95 0.94 0.1083 NH3-N, NO3-N, PO4-P, DTN, DTP, pH 0.94 0.94 0.93 0.106 Nhiệt độ, Tốc độ chảy, Lượng mưa 0.92 0.91 0.91 0.1086 DO,BOD, Nhiệt độ, Tốc độ chảy, Lượng mưa 0.94 0.94 0.94 0.1074 DTN, DTP, pH, DO, BOD, Nhiệt độ, Tốc độ chảy, Lượng mưa 0.96 0.98 0.97 0.1067 NH3-N, NO3-N, PO4-P, TN , BOD, Nhiệt độ, Tốc độ chảy, Lượng mưa, Độ dấn nhiệt 0.93 0.93 0.93 0.1089 Tât thuộc tính 0.95 0.96 0.95 0.1068 88 Chỉ mục ARIMAX, 42 Biến ngoại sinh, 42 Mơ hình trung bình trượt tích hợp, 41, 42 Mơ hình trung bình trượt tích hợp có yếu tố mùa, 41 Mơ hình trung bình trượt tích hợp mùa, 42 SARIMA, 41, 42 SARIMAX, 42, 55, 57 Chật lượng nước, 35, 55, 58 Chỉ số dinh dưỡng Carlson, 39 Công nghệ thông tin, ANFIS, 48–50 Autoencoder, 60, 61 DA, 61 Decoder, 60 Deep Autoencoder), 61 Encoder, 60 Fuzzy-Autoencoder, 63, 64, 71 RA, 61, 71 RDA, 62, 71 Regularized Autoencoder, 61 Regularized Deep Autoencode, 62 Regularized Deep Autoencoder, 71 VA, 61 Vanilla Autoencoder, 61 Dữ liệu, 9, 16, 17, 19 Hàm thuộc Hàm thuộc Bell, 28, 48 Hàm thuộc Gamma tuyến tính, 30 Hàm thuộc Gauss, 32, 50 Hàm thuộc hình chng, 32 Hàm thuộc hình thang, 27 Hàm thuộc Sigma, 31, 50 Bài toán đánh giá chất lượng khơng khí, 74 ChL-a, 36, 39, 51 Chlorophyll-a, 36 Chuỗi thời gian ARIMA, 41, 42 89 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương Hàm thuộc Smf, 31, 48 Logic mờ, 25 logic cổ điển, 25 Hàm thuộc, 26–32, 48, 50 Hệ mờ, 33, 34 Hệ suy diễn mờ, 33, 47 Logic toán học, 25 Luật mờ, 33 Mờ hóa liệu, 26–32, 48, 50 Suy diên mờ, 33 logic mờ, 11, 12 Hàm thuộc tam giác, 26 Hàm thuộc Zmf, 29, 48 Hệ suy diễn mờ nơ-ron thích nghi, 48–50 Học máy, 10, 17, 45, 55 Học bán giám sát, 18 Học có giám sát, 18 Học không giám sát, 18 Học sâu, 45 Hồi quy MIKE 21, 37 Mạng học sâu kết hợp mờ, 47 Mạng nơ-ron nhân tạo ANFIS, 48, 55, 58 Fuzzy-GRU, 48, 57 Fuzzy-LSTM, 48, 57 Fuzzy-RNN, 48, 57 GRU, 46, 48, 55, 57, 75 LSTM, 46, 48, 55, 57, 75 Mạng mờ - tự mã hóa, 64 Mạng nơ-ron hồi quy, 45 Mạng nơ-ron truyền thẳng , 25 Mạng tự mã hóa, 60, 61, 73, 75, 77 RNN, 45, 48, 53, 55, 57, 75 Mạng tự mã hóa Mạng mờ - tự mã hóa, 74 Mạng tự mã hóa nhiều lớp, 61 Mạng tự mã hóa bản, 61 Mạng tự mã hóa đặc chỉnh, 61, 71, 74, 78 SVR, 44 Cây hồi quy, 44 Hồi quy tuyến tính, 43 Khai phá liệu, 9–11, 13, 33 Chuỗi thời gian, 20, 41 Giá trị tái cấu trúc, 66 Hệ số tương quan, 53 Hồi quy, 20, 40, 43, 55 Mạng nơ-ron nhân tạo, 22–24, 48, 60, 61, 64, 65 Ngưỡng bất thường, 65 Phát bất thường, 67 Phân cụm, 21 Phân lớp, 21, 40 Tiền xử lý liệu, 40, 48 Trích chọn đặc trưng tối ưu, 52 Tái cấu trúc, 61 Tìm kiếm liệu thiếu, 74 Tỷ lệ mát liệu, 76 90 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương Mạng tự mã hóa đặc chỉnh nhiều lớp, 62 Sinh vật, 35 SVM, 37 Sống Hàn, 37 Nước, 35 Thang đo đánh giá, 51 F1-score, 51, 53 MAE, 51, 53, 55 Precision, 51, 53 Recall, 51, 53 Sai số tuyệt đối trung bình, 51 Độ lệch gốc trung bình, 51 Thơng số, 52, 54, 58 Thông số , 37–39 Trạm, 37 TSI, 39 Tảo nở hoa, 36, 37 PHP, 58 Phân phối chuẩn, 32 Phân tích liệu, 9, 11, 13 Chuẩn bị liệu, 15 Diễn dịch kết quả, 19 Tiền xử lý liệu, 16 Trực quan hóa liệu, 19 Xác định mục tiêu , 14 Đánh giá mẫu liệu, 19 Đặt câu hỏi, 14 Phú dưỡng, 35–37, 55 Python, 52, 58 Keras , 52 Ứng dụng web, 58 91 Công bố liên quan đến luận văn [1] Q L Viet, T H Thu-Huong, N C Lê, and D Truong, “Application of machine learning for eutrophication analysis and algal bloom prediction in an urban river: A 10-year study of the han river,” Science of the Total Environment, 2021 92 Tài liệu tham khảo tiếng Việt [2] B B Meunier, Logic Mờ ứng dụng Đại học Quốc gia Hà Nội, 2011 [3] L C Ngoc, “Một số vấn đề liên quan tới luật kết hợp mờ, luận văn thạc sĩ tốn cơng nghệ,” 2007 93 Tài liệu tham khảo tiếng Anh [4] L S Aiken, S G West, S C Pitts, A N Baraldi, and I C Wurpts, “Multiple linear regression,” Handbook of Psychology, Second Edition, vol 2, 2012 [5] G Alain and Y Bengio, “What regularized auto-encoders learn from the data-generating distribution,” The Journal of Machine Learning Research, vol 15, no 1, pp 3563–3593, 2014 [6] D Bahdanau, K Cho, and Y Bengio, “Neural machine translation by jointly learning to align and translate,” arXiv preprint arXiv:1409.0473, 2014 [7] M L Bermingham, R Pong-Wong, A Spiliopoulou, C Hayward, I Rudan, H Campbell, A F Wright, J F Wilson, F Agakov, P Navarro, et al., “Application of high-dimensional feature selection: Evaluation for genomic prediction in man,” Scientific reports, vol 5, no 1, pp 1– 12, 2015 [8] G E Box, G M Jenkins, G C Reinsel, and G M Ljung, Time series analysis: forecasting and control John Wiley & Sons, 2015 [9] R Carlson, “A trophic state index for lakes: Limnology and oceanography,” March, 1977 94 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương [10] Y Cha, K H Cho, H Lee, T Kang, and J H Kim, “The relative importance of water temperature and residence time in predicting cyanobacteria abundance in regulated rivers,” Water research, vol 124, pp 11– 19, 2017 [11] G.-Y Chan, C.-S Lee, and S.-H Heng, “Discovering fuzzy association rule patterns and increasing sensitivity analysis of xml-related attacks,” Journal of Network and Computer Applications, vol 36, no 2, pp 829–842, 2013 [12] F.-J Chang and Y.-T Chang, “Adaptive neuro-fuzzy inference system for prediction of water level in reservoir,” Advances in water resources, vol 29, no 1, pp 1–10, 2006 [13] H Chang, “Spatial analysis of water quality trends in the han river basin, south korea,” Water research, vol 42, no 13, pp 3285–3304, 2008 [14] J Chung, C Gulcehre, K Cho, and Y Bengio, “Empirical evaluation of gated recurrent neural networks on sequence modeling,” arXiv preprint arXiv:1412.3555, 2014 [15] J T Connor, R D Martin, and L E Atlas, “Recurrent neural networks and robust time series prediction,” IEEE transactions on neural networks, vol 5, no 2, pp 240–254, 1994 [16] J.-P Descy, F Leprieur, S Pirlot, B Leporcq, J Van Wichelen, A Peretyatko, S Teissier, G A Codd, L Triest, W Vyverman, et al., “Identifying the factors determining blooms of cyanobacteria in a set of shallow lakes,” Ecological Informatics, vol 34, pp 129–138, 2016 [17] F A Gers, N N Schraudolph, and J Schmidhuber, “Learning precise timing with lstm recurrent networks,” Journal of machine learning research, vol 3, no Aug, pp 115–143, 2002 [18] I Goodfellow, Y Bengio, A Courville, and Y Bengio, Deep learning MIT press Cambridge, 2016, vol 95 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương [19] J D Hamilton, Time series analysis Princeton university press, 2020 [20] J Han, M Kamber, and J Pei, “Data mining concepts and techniques third edition,” The Morgan Kaufmann Series in Data Management Systems, vol 5, no 4, pp 83–124, 2011 [21] Y Hayashi, J J Buckley, and E Czogala, “Fuzzy neural network with fuzzy signals and weights,” International Journal of Intelligent Systems, vol 8, no 4, pp 527–537, 1993 [22] J Huisman, G A Codd, H W Paerl, B W Ibelings, J M Verspagen, and P M Visser, “Cyanobacterial blooms,” Nature Reviews Microbiology, vol 16, no 8, pp 471–483, 2018 [23] K L Ingham and H Inoue, “Comparing anomaly detection techniques for http,” in International Workshop on Recent Advances in Intrusion Detection, Springer, 2007, pp 42–62 [24] J.-S Jang, “Anfis: Adaptive-network-based fuzzy inference system,” IEEE transactions on systems, man, and cybernetics, vol 23, no 3, pp 665–685, 1993 [25] H P Jarvie, D R Smith, L R Norton, F K Edwards, M J Bowes, S M King, P Scarlett, S Davies, R M Dils, and N Bachiller-Jareno, “Phosphorus and nitrogen limitation and impairment of headwater streams relative to rivers in great britain: A national perspective on eutrophication,” Science of the total environment, vol 621, pp 849–862, 2018 [26] V Kamble and S Deshmukh, “Comparision between accuracy and mse, rmse by using proposed method with imputation technique,” Oriental Journal of Computer Science and Technology, vol 10, no 4, pp 773–779, 2019 [27] N Ketkar, “Introduction to keras,” in Deep learning with Python, Springer, 2017, pp 97–111 96 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương [28] J Kim, T Lee, and D Seo, “Algal bloom prediction of the lower han river, korea using the efdc hydrodynamic and water quality model,” Ecological Modelling, vol 366, pp 27–36, 2017 [29] C Kongcharoen and T Kruangpradit, “Autoregressive integrated moving average with explanatory variable (arimax) model for thailand export,” in 33rd International Symposium on Forecasting, South Korea, 2013, pp 1–8 [30] M Krishan, S Jha, J Das, A Singh, M K Goyal, and C Sekar, “Air quality modelling using long short-term memory (lstm) over nct-delhi, india,” Air Quality, Atmosphere & Health, vol 12, no 8, pp 899–908, 2019 [31] C Kruegel, G Vigna, and W Robertson, “A multi-model approach to the detection of web-based attacks,” Computer Networks, vol 48, no 5, pp 717–738, 2005 [32] K.-S Lee, Y.-S Bong, D Lee, Y Kim, and K Kim, “Tracing the sources of nitrate in the han river watershed in korea, using δ 15n-no3and δ 18o-no3- values,” Science of the Total Environment, vol 395, no 2-3, pp 117–124, 2008 [33] S C Lee and E T Lee, “Fuzzy neural networks,” Mathematical Biosciences, vol 23, no 1-2, pp 151–177, 1975 [34] S Lee and D Lee, “Improved prediction of harmful algal blooms in four major south korea’s rivers using deep learning models,” International journal of environmental research and public health, vol 15, no 7, p 1322, 2018 [35] X Li, J Yu, Z Jia, and J Song, “Harmful algal blooms prediction with machine learning models in tolo harbour,” in 2014 International Conference on Smart Computing, IEEE, 2014, pp 245–250 97 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương [36] J Liang, W Zhao, and W Ye, “Anomaly-based web attack detection: A deep learning approach,” in Proceedings of the 2017 VI International Conference on Network, Communication and Computing, 2017, pp 80–85 [37] Q V Ly, M.-H Lee, and J Hur, “Using fluorescence surrogates to track algogenic dissolved organic matter (aom) during growth and coagulation/flocculation processes of green algae,” Journal of Environmental Sciences, vol 79, pp 311–320, 2019 [38] Q V Ly, T Maqbool, and J Hur, “Unique characteristics of algal dissolved organic matter and their association with membrane fouling behavior: A review,” Environmental Science and Pollution Research, vol 24, no 12, pp 11 192–11 205, 2017 [39] H Mac, D Truong, L Nguyen, H Nguyen, H A Tran, and D Tran, “Detecting attacks on web applications using autoencoder,” in Proceedings of the Ninth International Symposium on Information and Communication Technology, ACM, 2018, pp 416–421 [40] M M Najafabadi, F Villanustre, T M Khoshgoftaar, N Seliya, R Wald, and E Muharemagic, “Deep learning applications and challenges in big data analytics,” Journal of Big Data, vol 2, no 1, p 1, 2015 [41] T.-D Nghiem, D.-H Mac, A.-D Nguyen, and N C Le, “An integrated approach for analyzing air quality monitoring data: A case study in hanoi, vietnam,” Air Quality, Atmosphere & Health, vol 14, no 1, pp 7–18, 2021 [42] H T Nguyen, C Torrano-Gimenez, G Alvarez, S Petrovi´c, and K Franke, “Application of the generic feature selection measure in detection of web attacks,” in Computational Intelligence in Security for Information Systems, Springer, 2011, pp 25–32 98 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương [43] H T Nguyen, C L Walker, and E A Walker, A first course in fuzzy logic CRC press, 2018 [44] Y Park, K H Cho, J Park, S M Cha, and J H Kim, “Development of early-warning protocol for predicting chlorophyll-a concentration using machine learning models in freshwater and estuarine reservoirs, korea,” Science of the Total Environment, vol 502, pp 31–41, 2015 [45] E Pekel, “Estimation of soil moisture using decision tree regression,” Theoretical and Applied Climatology, vol 139, no 3, pp 1111–1119, 2020 [46] F J Pelletier, Metamathematics of fuzzy logic, 2000 [47] J Shen, Q Qin, Y Wang, and M Sisson, “A data-driven modeling approach for simulating algal blooms in the tidal freshwater of james river in response to riverine nutrient loading,” Ecological Modelling, vol 398, pp 44–54, 2019 [48] A J Smola and B Schăolkopf, A tutorial on support vector regression,” Statistics and computing, vol 14, no 3, pp 199–222, 2004 [49] M Sugeno, “An introductory survey of fuzzy control,” Information sciences, vol 36, no 1-2, pp 59–83, 1985 [50] M Sugeno and G Kang, “Fuzzy modelling and control of multilayer incinerator,” Fuzzy sets and systems, vol 18, no 3, pp 329–345, 1986 [51] H Takagi, “Fusion technology of fuzzy theory and neural networkssurvey and future directions,” in Proceedings 1st International Conference on Fuzzy Logic & Neural Networks, 1990, pp 13–26 [52] W Tong, L Li, X Zhou, A Hamilton, and K Zhang, “Deep learning pm 2.5 concentrations with bidirectional lstm rnn,” Air Quality, Atmosphere & Health, vol 12, no 4, pp 411–423, 2019 99 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương [53] C Torrano-Gimenez, H T Nguyen, G Alvarez, and K Franke, “Combining expert knowledge with automatic feature extraction for reliable web attack detection,” Security and Communication Networks, vol 8, no 16, pp 2750–2767, 2015 [54] D Truong, D Tran, L Nguyen, H Mac, H A Tran, and T Bui, “Detecting web attacks using stacked denoising autoencoder and ensemble learning methods,” in The 10th International Symposium on Information and Communication Technology (SoICT 2019), Ha Long, Vietnam, Dec 5, 2019, published [55] A M Vartouni, S S Kashi, and M Teshnehlab, “An anomaly detection method to detect web attacks using stacked auto-encoder,” in Fuzzy and Intelligent Systems (CFIS), 2018 6th Iranian Joint Congress on, IEEE, 2018, pp 131–134 [56] J Wang, Z Zhou, and J Chen, “Evaluating cnn and lstm for web attack detection,” in Proceedings of the 2018 10th International Conference on Machine Learning and Computing, ACM, 2018, pp 283–287 [57] Y.-M Wang and T M Elhag, “An adaptive neuro-fuzzy inference system for bridge risk assessment,” Expert systems with applications, vol 34, no 4, pp 3099–3106, 2008 [58] R G Wetzel, Limnology: lake and river ecosystems gulf professional publishing, 2001 [59] R Xia, Y Zhang, G Wang, Y Zhang, M Dou, X Hou, Y Qiao, Q Wang, and Z Yang, “Multi-factor identification and modelling analyses for managing large river algal blooms,” Environmental Pollution, vol 254, p 113 056, 2019 [60] X Xin, H Zhang, P Lei, W Tang, W Yin, J Li, H Zhong, and K Li, “Algal blooms in the middle and lower han river: Characteristics, early warning and prevention,” Science of The Total Environment, vol 706, p 135 293, 2020 100 Học viên: Trương Tiến Dũng GVHD: TS Nguyễn Thị Thu Hương [61] B Yegnanarayana, Artificial neural networks PHI Learning Pvt Ltd., 2009 [62] L A Zadeh, “Outline of a new approach to the analysis of complex systems and decision processes,” IEEE Transactions on systems, Man, and Cybernetics, no 1, pp 28–44, 1973 [63] ——, “Fuzzy sets,” in Fuzzy sets, fuzzy logic, and fuzzy systems: selected papers, World Scientific, 1996, pp 394–432 [64] B Zhang, W Ding, B Xu, L Wang, Y Li, and C Zhang, “Spatial characteristics of total phosphorus loads from different sources in the lancang river basin,” Science of the Total Environment, vol 722, p 137 863, 2020 [65] J Zhang, Y Zhu, X Zhang, M Ye, and J Yang, “Developing a long short-term memory (lstm) based model for predicting water table depth in agricultural areas,” Journal of hydrology, vol 561, pp 918–929, 2018 [66] Y Zhang, “A better autoencoder for image: Convolutional autoencoder,” in ICONIP17-DCEC (accessed on 23 March 2017), 2018 101 ... nhiều thuật ngữ khác có ý nghĩa tương tự khai phá liệu - ví dụ, khai phá kiến thức từ liệu, khai phá kiến thức, phân tích liệu/ mơ hình Khai phá liệu triển khai dựa tảng xác xuất thống kê máy học... đến việc khai thác vàng từ đá cát, ta nói khai thác vàng thay khai thác đá cát Tương tự vậy, khai phá liệu nên có đặt tên đầy đủ "khai phá kiến thức từ liệu" Tuy nhiên, ngắn hạn, khai phá kiến... phải tìm kiếm phương pháp để bù vào liệu bị Tiền xử lý liệu cịn bao gồm q trình chuẩn hóa liệu dạng tương ứng, phù hợp thuật toán triển khai khác 1.1.4 Khai phá liệu Khai phá liệu chủ đề liên quan