Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
2,2 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐOÀN THUỲ LINH NGHIÊN CỨU GIẢI QUYẾT PHÂN LỚP ĐỊA HỐ MƠI TRƯỜNG BIỂN VÀ ÁP DỤNG VÀO BÀI TỐN ĐÁNH GIÁ ĐỊA HỐ MƠI TRƯỜNG BIỂN VIỆT NAM LUẬN VĂN THẠC SĨ HÀ NỘI - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ ĐỒN THUỲ LINH NGHIÊN CỨU GIẢI QUYẾT PHÂN LỚP ĐỊA HOÁ MƠI TRƯỜNG BIỂN VÀ ÁP DỤNG VÀO BÀI TỐN ĐÁNH GIÁ ĐỊA HỐ MƠI TRƯỜNG BIỂN VIỆT NAM Ngành: Cơng nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÁN BỘ HƯỚNG DẪN: TS ĐOÀN SƠN HÀ NỘI - 2011 Lời mở đầu Bài tốn phân lớp địa hóa mơi trường biển toán xác định xem liệu đo thông số từ trạm quan trắc nằm mức theo qui định môi trường Đây vấn đề quan tâm thơng qua việc phân lớp địa hóa mơi trường, ta đưa hướng xử lý nhanh cho vùng môi trường vừa thực cơng tác đo đạc, khảo sát Cũng từ đưa chiến lược nhằm khắc phục, hạn chế bảo vệ tác động thiên nhiên người gây ảnh hưởng đến môi trường biển Dựa sở yêu cầu toán, dựa đặc trưng liệu mà luận văn chọn hai hướng tiếp cận sử dụng máy hỗ trợ vector (SVM) Naive Bayes để giải tốn phân lớp địa hóa mơi trường biển Ý tưởng hướng tiếp cận biểu diễn số liệu kết đo vectơ đặc trưng Sau đưa vào phân lớp SVM, Naive Bayes để xác định tính chất tương đồng đưa kết luận Nguồn liệu sử dụng file liệu kết quan trắc mơi trường biển thuộc đơn vị có liên quan để xây dựng liệu học cho mơ hình đề xuất Kết phần thực nghiệm bước đầu mô hình đề xuất thuật tốn Naive Bayes mơ hình đề xuất thuật tốn SVM đạt độ xác 80% Tuy nhiên, dựa vào kết thu cho thấy việc sử dụng thuật toán SVM cho kết cao so với thuật toán Naive Bayes dựa kết xem mơ hình khả thi có khả ứng dụng thực tế Nội dung khóa luận bao gồm có chương: Chương 1: Giới thiệu khái niệm môi trường biển, ô nhiễm mơi trường tổng quan địa hóa mơi trường biển Trình bày số đặc trưng địa hóa mơi trường biển (các thơng số trầm tích biển) Chương 2: Trên sở phương pháp tiếp cận trình bày chương thơng qua khảo sát miền liệu quan trắc môi trường biển, luận văn tìm hiểu thuật tốn liên quan đến hướng nghiên cứu giải pháp phân lớp địa hóa môi trường biển Việt Nam Đây sở lý thuyết, phương pháp luận quan trọng để luận văn đưa mơ hình đề xuất giải tốn phân lớp địa hóa mơi trường biển Việt Nam đưa phương pháp giải toán phân lớp địa hóa mơi trường biển Việt Nam dựa phương pháp máy hỗ trợ vector (SVM) phương pháp Naive Bayes Chương 3: Thực nghiệm, kết đánh giá Tiến hành thực nghiệm việc xây dựng liệu học, xây dựng phân lớp SVM Naive Bayes Kết luận định hướng phát triển: Tóm lược kết đạt luận văn Đồng thời đưa hạn chế, điểm cần khắc phục đưa định hướng nghiên cứu thời gian tới Mục lục Danh sách hình vẽ Danh sách bảng Bảng kí hiệu viết tắt Chương 1: Khái quát địa hóa mơi trường biển Việt Nam giải pháp phân lớp 1.1 Địa hóa mơi trường biển 1.1.1 Một số khái niệm môi trường biển [3, 4, 5] 1.1.2 Khái quát địa hóa mơi trường biển 13 1.2 Tầm quan trọng việc phân lớp địa hóa mơi trường biển 14 1.3 Bài tốn đánh giá địa hóa mơi trường biển 15 1.3.1 Các đặc trưng địa hóa mơi trường biển 15 1.3.2 Quan trắc địa hóa mơi trường biển [4] 15 Chương 2: Mơ hình giải tốn tốn đánh giá địa hóa môi trường biển Việt nam dựa phương pháp phân lớp 20 2.1 Nghiên cứu giải pháp phân lớp địa hóa mơi trường biển Việt nam 20 2.1.1 Giới thiệu tốn phân lớp số phương pháp điển hình 20 2.1.2 Thuật toán phân lớp Bayes 21 2.1.3 Thuật toán phân lớp SVM 26 2.2 Mơ hình đánh giá địa hóa mơi trường biển Việt nam dựa phương pháp phân lớp 31 2.2.1 Phát biểu tốn đánh giá địa hóa môi trường biển 31 2.2.2 Mơ hình giải tốn đánh giá địa hóa môi trường biển Việt Nam 32 Chương 3: Thực nghiệm đánh giá 37 3.1 Môi trường thực nghiệm 37 3.1.1 Cấu hình sử dụng 37 3.1.2 Công cụ phần mềm 37 3.2 Dữ liệu thực nghiệm 37 3.2.1 Mơ tả cài đặt chương trình 37 3.2.2 Xây dựng tập liệu học 38 3.3 Thi hành thực nghiệm 40 3.3.1 Thực hành Weka thuật toán phân lớp Naive Bayes 40 3.3.2 Thực hành Weka thuật toán phân lớp SVM 42 3.4 Đánh giá, so sánh 45 3.4.1 Đánh giá hệ thống 45 3.4.2 Nhận xét 46 Kết luận 47 Tài liệu tham khảo 48 Danh sách hình vẽ Hình Mối liên quan hữu địa hóa với ngành khoa học khác 13 Hình Mơ hình bảo đảm phát triển bền vững 15 Hình Biểu diễn mặt phẳng siêu phẳng SVM 27 Hình Mơ hình phân lớp đề xuất 32 Hình Các lựa chọn tham số thuật toán phân lớp Naive Bayes với kịch 41 Hình Các lựa chọn tham số thuật toán phân lớp Naive Bayes với kịch 42 Danh sách bảng Bảng Thông số quan trắc đơn vị đo 16 Bảng Bảng mẫu kết đo chất lượng trầm tích vùng biển miền Trung 18 Bảng Thông số quan trắc trầm tích 23 Bảng Đánh giá thông số quan trắc trầm tích qua tiêu chuẩn tham khảo Trung Quốc 25 Bảng Cấu hình phần cứng 37 Bảng Danh sách phần mềm sử dụng 37 Bảng Kết thực nghiệm sử dụng phương pháp Naive Bayes với kịch 41 Bảng Kết thực nghiệm sử dụng phương pháp Naive Bayes với kịch 42 Bảng Kết thực nghiệm sử dụng phương pháp SVM với kịch 43 Bảng 10 Kết thực nghiệm sử dụng phương pháp SVM với kịch 44 Bảng kí hiệu viết tắt Từ cụm từ Kí hiệu viết tắt Support vector machine SVM A library for Support Vector Machines LibSVM Total Suspended Solid TSS Chemical Oxygen Demand COD Biochemical /Biological Oxygen Demand BOD Most Probable Number MPN miligam lít mg/l miligam mg mililit ml Chương 1: Khái quát địa hóa mơi trường biển Việt Nam giải pháp phân lớp 1.1 Địa hóa mơi trường biển 1.1.1 Một số khái niệm môi trường biển [3, 4, 5] a) Khái niệm môi trường biển Môi trường tự nhiên đươ ̣c định nghĩa tổ hợp yếu tố khí hậu, sinh thái học, hoá học thổ nhưỡng tác động lên người thể sống khác xác định hình thức sinh tồn chúng Vì thế, môi trường bao gồm tất yếu tố mà có ảnh hưởng trực tiếp đến trao đổi chất hay hành vi người thể sống hay loài, bao gồm ánh sáng, khơng khí, nước, đất thể sống khác Mơi trường biển đươ ̣c định nghĩa tổ hợp yếu tố vật lý, hóa học sinh học đặc trưng cho nước biển, đất ven biển, trầm tích biển, khơng khí mặt biển hệ sinh thái biển tồn cách khách quan, ảnh hưởng đến người sinh vật Hay nói cách cụ thể hơn, mơi trường biển bao gồm tất yếu tố mà có ảnh hưởng trực tiếp đến trao đổi chất hay hành vi người sinh vật sống biển, bao gồm ánh sáng, không khí biển, nước biển, đất ven biển, đất đáy biển (trầm tích biển) thể sống biển Thành phần môi trường biển yếu tố vật chất tạo thành môi trường biể n nước biển, đất ven biển, trầm tích đáy biển, khơng khí, âm thanh, ánh sáng, sinh vật biển, hệ sinh thái biển hình thái vật chất khác b) Các yếu tố đặc trưng nước biển ven bờ Hàm lượng TSS nước (TSS - Total Suspended Solid) tổng chất rắn lơ lửng nước tính cách cân trọng lượng chất cịn lại giấy lọc lọc nước phân tích chất rắn hồ tan TSS biểu thị lượng vật chất khơng hòa tan lơ lửng nước biểu thị (đo) bằ ng miligam lít (mg/l) Nhu cầu ơxy hoá học (COD - Chemical Oxygen Demand) lượng oxy có Kali bicromat (K2Cr2O7) sử dụng để oxy hoá chất hữu nước Chỉ số COD sử dụng rộng rãi để đo gián tiếp khối lượng hợp chất hữu có nước Phần lớn ứng dụng COD xác định khối lượng chất nhiễm hữu tìm thấy nước bề mặt (ví dụ sơng hay hồ), làm cho COD phép đo hữu ích chất lượng nước Nó biểu diễn theo đơn vị đo mg/l, khối lượng ôxy cần tiêu hao lít dung dịch Nhu cầu ơxy sinh học (BOD - Biochemical /Biological Oxygen Demand) lượng oxy cần cung cấp để oxy hoá chất hữu nước vi sinh vật BOD số đồng thời thủ tục sử dụng để xác định xem sinh vật sử dụng hết ôxy nước nhanh hay chậm BOD sử dụng quản lý khảo sát chất lượng nước sinh thái học hay khoa học môi trường Chỉ tiêu BOD phản ánh mức độ ô nhiễm hữu nước thải hoă ̣c nước ng̀ n, BOD lớn nước thải/nước nguồn bị ô nhiễm cao ngược lại Hàm lượng Amơni (N-NH4) hàm lượng nitơ amoni, đơn vị tính mg/l Tổng coliform (ngắ n go ̣n là Coliforms) số lượng coliform biểu diễn số khả hữu MPN (Most Probable Number) Tổ ng c oliform số vi khuẩn dạng coli 100ml nước thải có khả lên men sinh đường lactose nhiệt độ 370C/24-48 điều kiện hiếu khí, tính MPN/100ml Coliforms gồm giống E.coli, Citrobacter, Enterobacter, Klebsiela Coliforms xem điểm vi sinh vật thích hợp chất lượng nước Hàm lượng Xyanua: lượng số miligram (mg) xyanua có mili lít (ml) nước; xyanua CN, tính nhóm CN hợp chất có chứa ion xyanua axit hidroxyanic khơng tính đến nitril đơn (R-CN), xyanat (muối CN) ion thioxyanat xyan clorua Hàm lượng kim loại nặng: số mg ion kim loại ml nước c) Ô nhiễm môi trường biển (1) Tổng quan ô nhiễm môi trường biển Ơ nhiễm mơi trường biển q trình biến đổi thành phần mơi trường nước, trầm tích biển không phù hợp với Quy chuẩn kỹ thuật quốc gia Môi trường, gây ảnh hưởng xấu đến sức khỏe người, sinh vật [5] Hội nghị Liên hợp quốc vấn đề môi trường Stockholm, Thụy Điển (năm 1972) thống định nghĩa ô nhiễm môi trường biển: ―Tất 10 Xử lý: Từ tập thơng số quan trắc trầm tích chọn, tiến hành lọc từ Báo cáo trạng môi trường, báo cáo chuyên đề từ năm 1995 đến để lọc phân tích để đưa kết để gán nhãn Có thể hiểu mỗi kết lần đo tương ứng với vectơ đặc trưng tương ứng Các vectơ đặc trưng gán nhãn tay Do tính chất phương thức phân tích, đánh giá kết nên đưa tập vectơ đặc trưng.Việc đưa tập vectơ đặc trưng góp phần nâng cao hiệu đánh giá phần thực nghiệm (1) Tập vectơ đặc trưng thứ nhất: Giữ nguyên liệu đầu vào liệu số thơng số quan trắc trầm tích sau gán nhãn theo kết báo cáo Dựa vào báo cáo đánh giá chất lượng trầm tích biển, … tiêu chuẩn tham khảo Trung Quốc nhãn gán theo giới hạn Loại 1, Loại 2, Loại với loại tương ứng với loại qui định tiêu chuẩn Ví dụ: STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class 69 1128.33 522 458 1222 1195.67 266.67 74.67 0.1 0.01 0.06 0.09 0.04 0.08 0.02 0.02 40.67 111 34.67 91 140 117.33 129.67 222 125.67 172 244.67 139.67 217.67 349.33 341.67 538.33 0.8 0.17 0.5 0.4 0.43 0.18 0.7 0.72 1.17 3.9 1.93 0.38 0.13 2.17 3.57 70 21 31.67 177.67 35.67 125 41 97.67 Loại Loại Loại Loại Loại Loại Loại Loại Như với thông số đầu vào tập báo cáo đưa thơng số đo quan trắc cho thấy: Điểm thứ tự thứ thuộc vùng nuôi trồng thuỷ sản; vùng đánh bắt cá biển; khu vực bảo vệ môi trường tự nhiên, bảo tồn thiên nhiên; khu vực giữ gìn sinh vật tự nhiên, hoạt động tiếp xúc trực tiếp người với trầm tích Điểm đo thứ tự thứ thuộc vùng kho khu công nghiệp, cảnh quan khu du lịch ven biển 34 Điểm đo thứ tự thứ thuộc vùng cảng, khu phát triển kinh tế, đặc biệt vùng khai thác công nghiệp biển dùng để đánh giá chất trầm tích (2) Tập vectơ đặc trưng thứ hai: Thay giá trị loại thông số theo giá trị thông số theo tiêu chuẩn tham khảo Trung Quốc Như với thông số cho lần đo áp dụng để gán nhãn Ở đây, việc gán giá trị A, B, C ứng với loại 1, loại loại Và việc gán nhãn hoàn toàn áp dụng tiêu chuẩn tham khảo Trung Quốc STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class A C B A C C A A C A C C B C A A A B A B C B B C A B B A B B B C C A B B B A C C B C B C A A C C B A A C B C B B Loại Loại Loại Loại Loại Loại Loại Loại Cuối cùng, với tập vectơ đặc trưng gán nhãn, cho vào huấn luyện để xây dựng phân lớp c) Pha 3: Xác định nhãn Đầu vào: Tập liệu chưa gán nhãn (tập thơng số quan trắc trầm tích biển chưa gãn nhãn) Đầu ra: Tập liệu gán nhãn (tập thơng số quan trắc trầm tích biển gán nhãn Xử lý: Tập liệu chưa gán nhãn (tập số liệu quan trắc trầm tích biển chưa gãn nhãn) cho vào huấn luyện thông qua liệu học Pha để đưa kết tập liệu gán nhãn 35 Ví dụ: STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class 1137.67 0.01 129.33 321 0.1 1.2 136.33 ? 37 0.07 32.67 173 0.8 0.3 173 ? 598.67 0.07 240.67 145.33 0.37 0.27 14 ? Kết là: STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class 1137.67 0.01 129.33 321 0.1 1.2 136.33 Loại 2 37 0.07 32.67 173 0.8 0.3 173 Loại 3 598.67 0.07 240.67 145.33 0.37 0.27 14 Loại STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class C B C A B A B ? A A C B C B A ? A C C A C B C ? Kết là: STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class C B C A B A B Loại 2 A A C B C B A Loại A C C A C B C Loại 36 Chương 3: Thực nghiệm đánh giá 3.1 Môi trường thực nghiệm 3.1.1 Cấu hình sử dụng Bảng Cấu hình phần cứng Thành phần Chỉ số CPU Core i5 2.4 Ghz RAM GB HDD 320 GB OS Window Ultimate 32 bit 3.1.2 Công cụ phần mềm Trong luận văn sử dụng công cụ sau trình xây dựng hệ thống liệt kê Bảng 6: Bảng Danh sách phần mềm sử dụng ST T Tên phần mềm Nguồn libSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/ Weka 3.6.1 http://www.cs.waikato.ac.nz/~ml/weka/index.html 3.2 Dữ liệu thực nghiệm Dữ liệu thực nghiệm gồm 1000 báo cáo, có báo cáo trạng mơi trường, báo cáo trạng môi trường biển, báo cáo chuyên đề liên quan đến môi trường, báo cáo đề tài khoa học công nghệ, … 3.2.1 Mô tả cài đặt chương trình Trong khn khổ luận văn, tiến hành thực nghiệm liệu Weka Weka phần mềm mã nguồn mở tích hợp thuật tốn máy học phục vụ tác vụ khai thác liệu 37 Weka gồm công cụ thực hiện: tiền xử lý liệu (data pre-processing), phân lớp (classification), hồi quy (regression), gom cụm (clustering), luật kết hợp (association rules) Có thể tìm hiểu sử dụng Weka qua website sau: http://www.cs.waikato.ac.nz/~ml/weka/index.html Phân lớp (classify) hỗ trợ chức Explorer Weka Đây chức giúp người dùng phân lớp liệu dựa trình gồm bước: - Huấn luyện: xây dựng phân lớp dựa liệu huấn luyện phân lớp sẵn - Dự đoán: sử dụng phân lớp để định mẫu thuộc phân lớp 3.2.2 Xây dựng tập liệu học a) Tiền xử lý liệu Tiến hành thu thập liệu từ 1000 báo cáo, có báo cáo trạng môi trường, báo cáo trạng môi trường biển, báo cáo chuyên đề liên quan đến môi trường, báo cáo đề tài khoa học công nghệ bảng kết đo quan trắc Các bảng kết đo đợt quan trắc lưu trữ file xls xuất từ đồ chuyên đề Sử dụng chức Filter excel để lọc thông số cần sử dụng file chưa nhiều liệu dư thừa Riêng liệu lấy từ đồ (GIS), cần xuất file xls Đây kết điểm đo khác khu vực biển ven bờ miền Trung lần đo Thông số Dầu trầm tích CNPb Zn Hg Cd As 69 1128.33 0.1 0.01 40.67 111 125.67 172 0.8 0.17 1.17 3.9 70 21 522 0.06 34.67 244.67 0.5 31.67 458 0.09 91 139.67 0.4 1.93 177.67 1222 0.04 140 217.67 0.43 0.38 35.67 1195.67 0.08 117.33 349.33 0.18 0.13 125 266.67 0.02 129.67 341.67 0.7 2.17 41 Các kết đo từ đến tương ứng với vị trí bảng 1: Đèo Ngang 2: Đồng Hới 3: Cồn Cỏ 4: Thuận An 5: Đà Nẵng 6: Dung Quất 38 7: Sa Huỳnh 8: Quy Nhơn 74.67 0.02 222 538.33 0.72 3.57 97.67 Sau thu tập kết đo có dạng bảng trên, sử dụng chế độ Transpose Paste special để chuyển kết theo yêu cầu việc xây dựng liệu học (chuyển bảng thuộc thông số lần đo từ bảng ngang sang bảng dọc) Như sau tiến hành bước việc chuyển đổi liệu biểu diễn dạng: Dầu trầm tích 69 1128.33 522 458 1222 1195.67 CN0.1 0.01 0.06 0.09 0.04 0.08 Pb 40.67 111 34.67 91 140 117.33 Zn 125.67 172 244.67 139.67 217.67 349.33 Hg 0.8 0.17 0.5 0.4 0.43 0.18 Cd 1.17 3.9 1.93 0.38 0.13 As 70 21 31.67 177.67 35.67 125 Từ dạng file xls chuyển đổi thành csv arff để chạy Weka (theo yêu cầu Weka thực liệu có dạng csv arff) b) Xây dựng liệu học Các kết lần đo đánh giá báo cáo môi trường, … Việc gán nhãn dựa báo cáo Theo kết thu từ bảng liệu sau gán nhãn kết sau: Dầu trầm tích 69 1128.33 522 458 1222 1195.67 Dầu trầm tích 69 1128.33 522 458 1222 1195.67 CN- Pb Zn Hg Cd As 0.1 0.01 0.06 0.09 0.04 0.08 40.67 111 34.67 91 140 117.33 125.67 172 244.67 139.67 217.67 349.33 0.8 0.17 0.5 0.4 0.43 0.18 1.17 3.9 1.93 0.38 0.13 70 21 31.67 177.67 35.67 125 Pb 125.67 172 244.67 139.67 217.67 349.33 Zn 0.8 0.17 0.5 0.4 0.43 0.18 CN0.1 0.01 0.06 0.09 0.04 0.08 Cu 40.67 111 34.67 91 140 117.33 39 Hg 1.17 3.9 1.93 0.38 0.13 Cd As 70 69 21 1128.33 31.67 522 177.67 458 35.67 1222 125 1195.67 Class Loại Loại Loại Loại Loại Loại Sau gán nhãn tay cho tập liệu mẫu (dữ liệu dùng để train), tiến hành xây dựng liệu học cách tiến hành huấn luyện mơ hình cơng cụ Weka Lưu lại mơ hình chạy thuật toán Như vậy, xây dựng Bộ học liệu c) Xác định nhãn Sau bước xây dựng học liệu ta tiến hành kiểm tra xem việc xác định nhãn cho kết thu dựa liệu học xây dựng Tập tham số trầm tích thu tiến hành tiền xử lý cho qua mơ hình xây dựng tiến hành kiểm thử thông qua việc sử dụng công cụ Weka 3.3 Thi hành thực nghiệm Trong trình sử dụng Weka, việc lựa chọn tham số để sử dụng Weka quan trọng Nó góp phần làm tăng tính hiệu công việc phân lớp 3.3.1 Thực hành Weka thuật toán phân lớp Naive Bayes a) Kịch thực nghiệm thứ nhất: Áp dụng với liệu gốc hay nói cách khác sử dụng nguyên kết đo Lựa chọn tùy chọn cho việc kiểm tra (test options) Use training set: Bộ phân loại học đánh giá tập học; Supplied test set: Sử dụng tập liệu khác (với tập học) việc đánh giá; Cross - validation: Tập liệu chia thành k tập (folds) có kích thước xấp xỉ nhau, phân loại học đánh giá phương pháp cross-validation; Percentage split: Chỉ định tỷ lệ phân chia tập liệu việc đánh giá 40 Hình 5.Các lựa chọn tham số thuật toán phân lớp Naive Bayes với kịch Lựa chọn tham số sau: Debug: False useKernelEstimator: True False (A) DisplayModelInOldFormat: False useSuperviseDiscretization: False Cross - validation Bảng Kết thực nghiệm sử dụng phương pháp Naive Bayes với kịch TH Số trường hợp phân lớp (Correctly Classified Instances) Số trường hợp phân lớp sai (Incorrectly Classified Instances) A (False), (k=10) 1452 72.4913 % A (True), (k=10) 1610 80.3794 % 551 27.5087 % 393 19.6206 % A (False), (k=8) A (True), (k=8) 1454 72.5911 % 1628 81.2781 % 549 27.4089 % 375 18.7219 % STT Độ xác (Precision) Độ hồi tưởng Recall F-Measure (Độ đo F) 0.719 0.725 0.703 0.813 0.804 0.788 0.717 0.726 0.704 0.821 0.813 0.798 b) Kịch thực nghiệm thứ hai Áp dụng với liệu biến đổi hay nói cách khác áp dụng tiêu chuẩn tham khảo Trung Quốc cho thơng số đặc trưng cho chất lượng trầm tích biển (ở số liệu chất liệu trầm tích biển đo gán theo nhãn A, B, C theo qui định tiêu chuẩn tham khảo Trung Quốc) 41 Bảng Kết thực nghiệm sử dụng phương pháp Naive Bayes với kịch TH Số trường hợp phân lớp (Correctly Classified Instances) Số trường hợp phân lớp sai (Incorrectly Classified Instances) Độ xác (Precision) Độ hồi tưởng Recall F-Measure (Độ đo F) A (False), (k=10) 1742 86.9695 % 261 13.0305 % 0.876 0.87 0.858 A (True), (k=10) 1742 86.9695 % 261 13.0305 % 0.876 0.87 0.858 A (False), (k=8) 1738 86.7698 % 265 13.2302 % 0.875 0.868 0.855 A (True), (k=8) 1738 86.7698 % 265 13.2302 % 0.875 0.868 0.855 STT 3.3.2 Thực hành Weka thuật toán phân lớp SVM a) Kịch thực nghiệm thứ Áp dụng với liệu gốc Hình Các lựa chọn tham số thuật toán phân lớp Naive Bayes với kịch 42 Lựa chọn tham số sau: SVMType: C-SCV (classsification); gamma: G cacheSize: 40.0 kernelType: K(2) coef0: R(1); loss: P cost: C normalize: False debug: False nu: để giá trị mặc định 0.5 degree: D probabilityEstimates: False doNotReplaceMissingValues: False shrinking: True eps: E weights: để trống Cross – validation (1) Việc đặt ký hiệu R, C, D, … cho tham số đặt theo qui định Weka (2) k có 04 giá trị K0 - liner: u*v K1 - polynomial: (gamma*u*v+coef0) K2 - radial basic function: exp(-gamma*|u-v|^2) K3 - sigmoid: tanh(gamma*u*v+coef0) Kết thực nghiệm sử dụng phương pháp Bảng 9.Kết thực nghiệm sử dụng phương pháp SVM với kịch STT TH S -K -D -G 0.0 -R 2.0 -N 0.5 -M 40.0 -C 1.0 -E 0.0010 -P 0.1 S -K -D -G 0.0 -R 0.0 -N 0.5 -M 40.0 -C 1.0 -E 0.0010 -P 0.1 Số trường hợp phân lớp (Correctly Classified Instances) Số trường hợp phân lớp sai (Incorrectly Classified Instances) Độ xác (Precision) Độ hồi tưởng Recall FMeasure (Độ đo F) 1367 68.2476 % 636 31.7524 % 0.649 0.457 0.536 1367 68.2476 % 636 31.7524 % 0.649 0.457 0.536 b) Kịch thực nghiệm thứ hai Áp dụng với liệu biến đổi hay nói cách khác áp dụng tiêu chuẩn tham khảo Trung Quốc cho thông số đặc trưng cho chất lượng trầm tích biển (ở số liệu chất liệu trầm tích biển đo gán theo nhãn A, B, C theo qui định tiêu chuẩn tham khảo Trung Quốc) 43 Bảng 10.Kết thực nghiệm sử dụng phương pháp SVM với kịch STT TH S -K -D -G 0.0 -R 0.0 -N 0.5 -M 100.0 -C 1.0 -E 0.0010 -P 0.1 S -K -D -G 0.0 -R 1.0 -N 0.5 -M 100.0 -C 1.0 -E 0.0010 -P 0.1 S -K -D -G 1.0 -R 5.0 -N 0.5 -M 40.0 -C 1.0 E 0.0010 -P 0.1 S -K -D -G 1.0 -R 10.0 -N 0.5 -M 40.0 -C 1.0 -E 0.0010 -P 0.1 S -K -D -G 0.0 -R 0.0 -N 0.5 -M 40.0 -C 1.0 E 0.0010 -P 0.1 S -K -D -G 1.0 -R 1.0 -N 0.5 -M 100.0 -C 1.0 -E 0.01 -P 0.1 Số trường hợp phân lớp (Correctly Classified Instances) Số trường hợp phân lớp sai (Incorrectly Classified Instances) Độ xác (Precision) Độ hồi tưởng Recall FMeasure (Độ đo F) 1687 84.2237 % 316 15.7763 % 0.845 0.5 0.628 1799 89.8153 % 204 10.1847 % 0.905 0.817 0.859 1866 93.1603 % 137 6.8397 % 0.86 0.828 0.844 1879 93.8093 % 124 6.1907 % 0.873 0.849 0.861 1705 85.1223 % 298 14.8777 % 0.826 0.538 0.651 1747 87.2192 % 256 12.7808 % 0.907 0.575 0.704 Từ kết thực nghiệm cho thấy thuật toán việc chạy liệu kịch (dữ liệu đánh giá biến đổi thông qua Tiêu chuẩn tham khảo Trung Quốc) đem lại kết tốt so với việc chạy liệu kịch Các tham số lựa chọn Weka thuật tốn đóng vai trị quan trọng Từ thực nghiệm cho thấy, thuật toán Naive Bayes cần quan tâm đến tham số useKernelEstimator, thuật tốn SVM cần quan tâm đến tham số như: coef(), cost, degree, eps, gramma, kernelType 44 3.4 Đánh giá, so sánh 3.4.1 Đánh giá hệ thống Hệ thống đánh giá chất lượng thông qua ba độ đo: độ xác (precision), độ hồi tưởng (recall) độ đo F (F-measure) Ba độ đo tính tốn theo cơng thức sau: 𝑝𝑟𝑒𝐶𝑖 = 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶𝑖 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶𝑖 + 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶𝑖 𝑟𝑒𝑐𝐶1 = 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶1 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶1 + 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶0 𝑟𝑒𝑐𝐶0 = 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶0 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶0 + 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶1 𝐹𝐶𝑖 = ∗ 𝑝𝑟𝑒𝐶𝑖 ∗ 𝑟𝑒𝑐𝐶𝑖 𝑝𝑟𝑒𝑐𝐶𝑖 + 𝑟𝑒𝑐𝐶𝑖 Trong đó: Giá trị 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶0 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶0 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶1 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝐶1 Ý nghĩa Số kết phân lớp vào lớp Số kết phân lớp vào lớp sai Số kết phân lớp vào lớp Số kết phân lớp vào lớp sai Từ thực nghiệm cho thấy việc việc sử dụng kịch thứ hai hai thuật toán cho kết tốt Mặt khác, thuật toán việc lựa chọn tham số cho phù hợp để đưa kết vấn đề quan trọng Và từ thực nghiệm cho thấy đa số kết thu từ thực nghiệm thuật toán SVM cao kết thu từ thực nghiệm thuật toán Naive Bayes thời gian để xây dựng mơ hình thuật tốn Naive Bayes nhanh so với SVM 45 3.4.2 Nhận xét Quá trình thực nghiệm bước đầu mơ hình giải tốn phân lớp địa hóa mơi trường biển dựa vào phương pháp máy hỗ trợ vector SVM Naive Bayes cho thấy kết tương đối khả quan với độ xác trung bình cao Trong đó, kết phương pháp máy hỗ trợ vector SVM cao so với Naive Bayes thời gian xây dựng mơ hình Naive Bayes nhanh so với SVM Từ kết thực nghiệm cho thấy việc sử dụng Naive Bayes cho kết ổn định độ xác thấp SVM Đối với SVM cần lựa chọn tham số đưa kết tốt Ngoài ra, kết phần thực nghiệm với 2003 liệu quan trắc với độ xác trung bình SVM Nave Bayes 80% Điều thể tính đắn phù hợp mơ hình đề xuất với liệu quan trắc mơi trường biển cho thấy mơ hình đề xuất hồn tồn khả thi Tuy nhiên, tính nhạy cảm đặc trưng thay đổi cách liên tục môi trường biển nên kết độ đo xác với nhóm liệu chưa đồng miền liệu học chưa bao phủ hết trường hợp Nếu có điều kiện xây dựng tập liệu huấn luyện đủ lớn, thu thập nguồn liệu chuẩn kết hợp thêm đặc trưng, mơ hình cịn đạt độ xác cao tương lai 46 Kết luận Từ việc nghiên cứu toán phân lớp địa hóa mơi trường, luận văn đề xuất mơ hình giải phân lớp địa hóa mơi trường biển Việt Nam dựa phương pháp máy hỗ trợ vector (SVM) phương pháp Naive Bayes Qua kết thực nghiệm đạt cho thấy mơ hình đề xuất dựa phương pháp máy hỗ trợ vector (SVM) có độ xác cao Dựa vào kết thực nghiệm thấy mơ hình xây dựng có tính khả thi áp dụng thực tế Về mặt nội dung, khóa luận đạt kết sau: Giới thiệu tốn phân lớp địa hóa mơi trường biển khái niệm liên quan Tìm hiểu giới thiệu phương pháp giải toán phân lớp địa hóa mơi trường biển Trên sở nghiên cứu, khảo sát đặc trưng địa hóa mơi trường biển từ xây dựng mơ hình phân lớp địa hóa mơi trường biển đạt kết tương đối khả quan Có thể đưa kết nhanh với độ tin cậy chấp nhận Dựa kết khai thác với ứng dụng chất lượng nước biển kịch khắc phục cố tràn dầu, Bên cạnh kết đạt được, luận văn có số hạn chế sau: Dữ liệu đầu vào phải định dạng csv, text không hỗ trợ trực tiếp kết nối vào CSDL 47 Tài liệu tham khảo Tiếng Việt [1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú Giáo trình khai phá liệu Web Nhà xuất Giáo dục Việt Nam, 2009 [2] Vũ Thanh Nguyên1, Trang Nhật Quang2 (2009) ,―Ứng dụng thuật tốn phân lớp rút trích thơng tin văn FSVM Internet”, Tạp chí Phát triển Khoa học Công nghệ, tập 12, số 05-2009, tr25 -29, (1) Trường Đại học Công nghệ Thông tin – ĐHQG HCM, (2) Sở Cơng nghiệp Thành phố Hồ Chí Minh [3] Bộ Tài nguyên Môi trường Báo cáo Hiện trạng môi trường quốc gia 2003 Hiện trạng môi trường Việt Nam, Hà Nội [4] Bộ Tài nguyên Môi trường Báo cáo trạng môi trường quốc gia 2010 Tổng quan môi trường Việt Nam, Hà Nội [5] Cục Điều tra Kiểm sốt tài ngun - mơi trường biển, Tổng cục Biển Hải đảo Việt Nam, Bộ Tài nguyên Môi trường Báo cáo Hiện trạng môi trường biển năm 2010, Hà Nội Tiếng Anh [6] T Finley, T Joachims: Supervised clustering with Support Vector Machines, Proceeding of the 22nd International Conference on Machine Learning, Germany 2005 [7] Vincent Ng.: Machine Learning for Coreference Resolution: From Local Classification to Global Ranking Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL-05), 2005 [8] Remco R Bouckaert, Eibe Frank, Mark Hall, Richard Kirkby, Peter Reutemann, Alex Seewald, David Scuse: WEKA Manual for Version 3-7-2, July 29, 2010 University of Waikato, Hamilton, New Zealand, … 48 ... tốn tốn đánh giá địa hóa mơi trường biển Việt nam dựa phương pháp phân lớp 20 2.1 Nghiên cứu giải pháp phân lớp địa hóa mơi trường biển Việt nam 20 2.1.1 Giới thiệu toán phân lớp số phương... HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐOÀN THUỲ LINH NGHIÊN CỨU GIẢI QUYẾT PHÂN LỚP ĐỊA HỐ MƠI TRƯỜNG BIỂN VÀ ÁP DỤNG VÀO BÀI TỐN ĐÁNH GIÁ ĐỊA HỐ MƠI TRƯỜNG BIỂN VIỆT NAM Ngành: Công nghệ... +