Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,86 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐÀO XUÂN DŨNG TÌM HIỂU VÀ XÂY DỰNG HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS) LUẬN VĂN THẠC SĨ Hà Nội - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ ĐÀO XN DŨNG TÌM HIỂU VÀ XÂY DỰNG HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS) Ngành: Công nghệ thông tin Chuyên ngành: Các Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Hà Nam Hà Nội - 2010 LỜI CAM ĐOAN Tơi xin cam đoan luận văn “Tìm hiểu xây dựng hệ hỗ trợ định dựa hệ thống thơng tin địa lý (GIS)" cơng trình nghiên cứu thử nghiệm tôi, đơn vị công tác, tham khảo nguồn tài liệu rõ trích dẫn danh mục tài liệu tham khảo Các nội dung công bố kết trình bày luận văn trung thực chưa công bố công trình Hà nội, ngày 25 tháng năm 2010 Học viên Đào Xuân Dũng LỜI CẢM ƠN Em xin chân thành cảm ơn tới TS Nguyễn Hà Nam, thày tận tình hướng dẫn, dạy em hồn thành luận văn Em xin chân thành cảm ơn thày, cô giáo khoa Công nghệ thông tin - Trường Đại học công nghệ - Đại học Quốc gia Hà nội truyền thụ kiến thức cho em suốt q trình học tập vừa qua Tơi xin cảm ơn quan, bạn bè đồng nghiệp, gia đình người thân chia sẻ, giúp đỡ, động viên, tạo điều kiện thuận lợi để hoàn thành nhiệm vụ học tập luận văn MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT MỞ ĐẦU CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN Giới thiệu chung hệ hỗ trợ định Nhu cầu cần thiết từ thực tiễn Các hƣớng giải có Cấu trúc đóng góp luận văn 11 CHƢƠNG 2: CÁC MƠ HÌNH HỆ HỖ TRỢ QUYẾT ĐỊNH 13 VÀ CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 13 Các mơ hình DSS 13 1.1 Mơ hình hịa bảng tính 13 1.2 Mơ hình hóa phân tích định 13 1.3 Mơ hình hóa quy hoạch tốn 13 1.4 Mơ hình hóa Heuristic 14 1.5 Mô 16 1.6 Mơ hình hóa đa chiều, xử lý phân tích trực tuyến (OLAP) 18 1.7 Mơ hình hóa mô tương tác trực quan 19 1.8 Các phần mềm định lượng xử lý phân tích trực tuyến 19 1.9 Hệ quản trị sở mơ hình 20 Hệ hỗ trợ định không gian (SDSS) 21 Khai phá liệu 21 3.1 Tổng quan 21 3.2 Các kỹ thuật cách tiếp cận khai phá liệu 22 Các kỹ thuật phân lớp liệu 24 4.1 Phân lớp phương pháp quy nạp định 24 4.1.1 Độ lợi thông tin 25 4.1.2 Giải thuật random forest (RF) [18] 26 4.2 Phân lớp phương pháp mạng nơ ron nhân tạo 30 4.2.1 Khái niệm 30 4.2.2 Mơ hình mạng nơ-ron nhân tạo 32 4.2.3 Khả ứng dụng mạng nơ-ron nhân tạo 34 4.2.4 Thuật toán lan truyền ngược sai số 36 4.3 Phân lớp phương pháp Naïve Bayes 40 4.4 Phân lớp phương pháp khác (luật kết hợp, khoảng cách ) 41 4.5 Dự báo phân lớp 41 Đánh giá phƣơng pháp phân lớp 41 CHƢƠNG 3: GIỚI THIỆU VỀ HỆ DSS-GIS 42 ÁP DỤNG VÀO VIỆC DỰ BÁO LƢU LƢỢNG NƢỚC 42 Điều kiện địa lý, tự nhiên, khí tƣợng thuỷ văn lƣu vực sơng Đà 42 1.1 Vị trí địa lý 42 1.2 Địa hình 42 1.3 Điều kiện địa chất 43 1.4 Điều kiện thổ nhưỡng 43 1.5 Đặc điểm khí hậu 43 1.6 Đặc điểm chế độ thuỷ văn 44 1.7 Thống kê liệu thu thập 47 Hƣớng tiếp cận máy học việc xây dựng mơ hình hệ DSS 47 Một số tiêu đánh giá kết dự báo 48 Áp dụng vào xây dựng hệ hỗ trợ định dựa GIS 49 4.1 Cơ sở liệu địa lý 49 4.2 Mơ hình học máy sử dụng giải thuật Random Forest 49 4.3 Giao diện người dùng 51 CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH CHẠY THỬ NGHIỆM 51 Yêu cầu phần cứng 51 Tiền xử lý liệu huấn luyện mơ hình liệu 51 Kết thực nghiệm 52 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU TIẾP THEO 63 TÀI LIỆU THAM KHẢO 64 BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT Cơ sở liệu CSDL DSS Decision Support System Hệ hỗ trợ định GIS Geographical Information System Hệ thống thông tin địa lý SDSS Spatial Decision Support System Hệ hỗ trợ định không gian OLAP Online Analytic Processing Xử lý phân tích trực tuyến RMSE Root Mean Square Error Sai số trung bình phương MỞ ĐẦU GIS cơng cụ dựa máy tính dùng cho việc thành lập đồ phân tích đối tượng tồn kiện bao gồm đất đai, sông ngịi, khống sản, người, khí tượng thuỷ văn, mơi trường, nông nghiệp v.v xảy trái đất Công nghệ GIS dựa sở liệu quan trắc, viễn thám đưa câu hỏi truy vấn, phân tích thống kê thể qua phép phân tích địa lý Những sản phẩm GIS tạo cách nhanh chóng, nhiều tình đánh giá cách đồng thời chi tiết Hiện nhu cầu ứng dụng công nghệ GIS lĩnh vực điều tra nghiên cứu, khai thác sử dụng, quản lý tài nguyên thiên nhiên môi trường ngày gia tăng phạm vi quốc gia, mà phạm vi quốc tế Tiềm kỹ thuật lĩnh vực ứng dụng cho nhà khoa học nhà hoạch định sách, phương án lựa chọn có tính chiến lược sử dụng quản lý tài nguyên thiên nhiên môi trường Việc quản lý hỗ trơ ̣ khai thác , sử du ̣ng và quản lý tổng hợp hiệu nguồn tài nguyên thiên nhiên dựa GIS cần thiết Hệ hỗ trợ định kết hợp với công nghệ GIS xu tất yếu nhằm phát triển hệ thống có tính mơ đối tượng giới thực, truyền đạt hỗ trợ, cung cấp thông tin tốt cho người sử dụng nói chung nhà hoạch định sách nói riêng Mơ hình học máy sử dụng hệ thống nhằm tăng khả khai thác thông tin, cung cấp thơng tin có ích cho người sử dụng Đề tài hệ hỗ trợ định dựa GIS tìm hiểu vấn đề đưa mạnh dạn xây dựng phần mềm thử nghiệm áp dụng vào dự báo lưu lượng nước lưu vực sông CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN Giới thiệu chung hệ hỗ trợ định Ta biết hệ hỗ trợ định (DSS) lớp xác định hệ thống thơng tin máy tính hóa, trợ giúp tở chức nhà doanh nghiệp việc đưa định hành động Một hệ DSS thiết kế hoàn chỉnh hệ thống dựa phần mềm tương tác với mục đích trợ giúp nhà đưa định biên dịch thơng tin có ích từ liệu, tư liệu thơ, tri thức cá nhân mơ hình doanh nghiệp để giải vấn đề đưa định Một phương pháp tạo chương trình máy tính dựa phân tích tập dự liệu thơ đưa thơng tin có ích máy học Bài viết với mục đích sử dụng phương pháp máy học, cụ thể giải thuật Random Forest (Breiman, 2001) để xây dựng hệ hỗ trợ định hỗ trợ quản lý tổng hợp tài nguyên nước lưu vực sơng Hệ thống tích hợp hệ thống thông tin địa lý (GIS) để trở thành hệ hỗ trợ hoàn chỉnh Nhu cầu cần thiết từ thực tiễn Trong thực tế, định ln địi hỏi u cầu phải xử lý kiến thức, kiến thức nguyên liệu thành phẩm định, cần sở hữu tích lũy người định Ngoài ra, việc giới hạn nhận thức trí nhớ người có hạn, giới hạn chi phí nhân lực, thời gian áp lực cạnh tranh yếu tố mà dẫn đến cần thiết phải có hệ hỗ trợ định tin cậy trợ giúp nhà quản lý, nhà định Vào thập kỷ 80, 90 kỷ XX, điều tra công ty lớn cho thấy: - Kinh tế thiếu ởn định - Khó theo dõi vận hành doanh nghiệp - Cạnh tranh gay gắt - Xuất thương mại điện tử - Bộ phận IT bận, không giải yêu cầu quản lý - Cần phân tích lợi nhuận, hiệu thơng tin xác, mới, kịp thời - Giảm chi phí hoạt động Xu hướng tính tốn người dùng nay: - Cải thiện tốc độ tính tốn - Tăng suất lao động cá nhân liên đới - Cải tiến kỹ thuật việc lưu trữ, tìm kiếm, trao đởi liệu ngồi tở chức theo hướng nhanh kinh tế - Nâng cao chất lượng định đưa - Tăng cường lực cạnh tranh tổ chức - Khắc phục khả hạn chế người việc xử lý lưu trữ thông tin Theo (Keen – 1981 [16]), thuận lợi hệ DSS là: - Tăng số phương án xem xét: Phân tích độ nhạy nhanh hiệu Ngµy 14 28 18 30 12(2) 3 29 Min 480 453 560 617 574 550 2390 1970 1190 608 428 440 Ngµy 14 20 26 29 20 24 15 1731 m3/s 6990 m3/s Ngày Tháng VII 428.0 m3/s Ngày 24 Tháng XI Đặc trng năm 27 Trung bình năm : Lớn : Nhỏ : Hình 3.3 Dữ liệu đo đạc năm trạm Hịa Bình 4.3 Giao diện người dùng Nền GIS sử dụng để hiển thị trình bày tương tác với người sử dụng, hỗ trợ trực quan tới người dùng thông qua kết đạt hệ thống Kết dự báo lưu lượng nước hỗ trợ nhà quản lý, định chủ động việc khai thác sử dụng nguồn nước, chống thiên tai, hạn hán, lũ lụt… CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH CHẠY THỬ NGHIỆM Yêu cầu phần cứng Phần mềm xây dựng sử dụng ngôn ngữ C#, công nghệ ArcGIS Thư viện mã nguồn mở giải thuật Random Forest lấy từ ALGLIB (http://alglib.net) Do giải thuật Random Forest cải tiến với tham số đầu vào nhập từ người sử dụng nên tốc độ chương trình xử lý huấn luyện nhanh, với kích thước liệu khoảng tương đương 3000 huấn luyện thời gian chưa đầy phút máy có cấu hình CPU Core duo 2.0 GHz, RAM 2GB Tiền xử lý liệu huấn luyện mơ hình liệu Chúng tơi sử dụng số liệu từ năm 1961 đến năm 2004 trạm đo Hịa Bình sơng Đà Số liệu đo hàng năm hàng ngày, nhiên xây dựng cột liệu với khoảng cách ngày Theo khuyến cáo giải thuật random forest, xây dựng số liệu, tương ứng 146 thuộc tính kích thước liệu 3024, 218 thuộc tính hay biến độc lập kích thước liệu 2952 Người dùng nhập vào tham số để tách liệu thành hai phần: - Phần liệu học (training set): Từ năm 1961 đến giá trị tách - Phần liệu kiểm tra (test set): Từ giá trị tách đến năm 2004 Mơ hình sau xây dựng sử dụng để kiểm tra dự báo ngày Bảng 4.1 Dữ liệu lưu lượng tiền xử lý năm, với thuộc tính 51 STT 10 11 12 13 14 15 16 17 18 19 20 … 72 (S)Nam 63 63 63 63 63 63 63 63 63 63 63 63 63 63 63 63 63 63 63 63 … 63 Q(t) 456 440 416 430 402 379 379 355 337 329 321 308 300 286 536 295 315 315 288 260 … 696 Q(t-5) 485 456 440 416 430 402 379 379 355 337 329 321 308 300 286 536 295 315 315 288 … 745 Q(t-10) 505 485 456 440 416 430 402 379 379 355 337 329 321 308 300 286 536 295 315 315 … 821 Q(t-15) 537 505 485 456 440 416 430 402 379 379 355 337 329 321 308 300 286 536 295 315 … 892 Q(t-20) 569 537 505 485 456 440 416 430 402 379 379 355 337 329 321 308 300 286 536 295 … 1000 Kết thực nghiệm Giao diện phần mềm mơ tả hình vẽ Hình 4.1 Giao diện DSS 52 Q(t-25) 593 569 537 505 485 456 440 416 430 402 379 379 355 337 329 321 308 300 286 536 … 1050 Q(t-30) 637 593 569 537 505 485 456 440 416 430 402 379 379 355 337 329 321 308 300 286 … 1220 Hình 4.2 Giao diện DSS mơ hình dự báo Tham số người dùng nhập vào để huấn luyện bao gồm: - Số rừng - Hệ số lọc liệu giải thuật random forest - Kích thước liệu sử dụng lấy từ liệu để kiểm tra Kết sai số sau lần huấn luyện với số R2 tốt Phƣơng án 1: Chúng sử dụng số liệu lưu lượng có kích thước 3024 với 146 thuộc tính Bộ số liệu tách làm phần, phần sử dụng để huấn luyện, phần lại sử dụng để kiểm định liệu Để đánh giá ổn định độ hiệu mơ hình, chúng tơi cho chương trình chạy lấy kết 15 lần liên tiếp - Bộ số liệu gồm 3024 mẫu bao gồm 2850 mẫu huấn luyện 174 mẫu kiểm định Sau chạy 15 lần, kết quả, dự báo sai số bảng đây: Tham số Giá trị Kích thước liệu huấn luyện 2850 Kích thước huấn luyện thực 1910 53 Kích thước liệu kiểm định 174 Số thuộc tính 146 Số rừng 100 Hệ số lọc Random Forest 0.67 Biểu đồ so sánh lần chạy 0.84 0.826 Chỉ số R*R 0.83 0.818 0.82 0.823 0.82 0.818 0.8120.811 0.8060.808 0.81 0.801 0.8 0.795 0.792 0.792 0.795 0.793 0.79 0.78 10 11 12 13 14 15 Lần chạy Hình 4.3 Biểu đồ so sánh lần chạy phương án với 174 mẫu kiểm định Bảng 4.2 Kết phương án với 174 mẫu kiểm định Lần thử nghiệm RMSE Chỉ số E Chỉ số R*R Dự báo lưu lượng (m3/s) ngày 10 ngày 15 ngày Lần 1160.406 0.448 0.795 1018.470 949.360 909.750 Lần 1102.787 0.515 0.818 1054.500 960.340 885.840 Lần 1171.166 0.435 0.792 1096.880 988.880 899.570 Lần 1097.205 0.517 0.820 939.590 903.800 890.310 Lần 1175.758 0.467 0.792 1010.130 913.870 870.970 Lần 1164.750 0.456 0.795 1245.320 1194.080 1104.040 Lần 1117.027 0.494 0.812 1011.720 934.610 913.660 Lần 1134.078 0.499 0.811 1024.690 918.540 866.890 Lần 1149.175 0.442 0.801 1169.200 1121.070 988.320 Lần 10 1083.133 0.559 0.826 982.060 895.060 879.090 Lần 11 1133.824 0.464 0.806 1088.050 968.600 893.730 Lần 12 1124.673 0.473 0.808 1056.060 950.400 894.260 54 Lần 13 1100.101 0.507 0.818 985.560 905.610 862.040 Lần 14 1078.545 0.507 0.823 930.050 887.180 849.010 Lần 15 1183.532 0.444 0.793 1177.030 1103.630 974.470 Trung bình 1131.744 0.482 0.807 1052.621 973.002 912.130 Chỉ số R2 trung bình sau 15 lần chạy 0.807, sai số bậc trung bình phương (RMSE) 1131.744 - Bộ số liệu gồm 3024 mẫu bao gồm 2706 mẫu huấn luyện 318 mẫu kiểm định Sau chạy 15 lần, kết quả, dự báo sai số bảng đây: Tham số Giá trị Kích thước liệu huấn luyện 2706 Kích thước huấn luyện thực 1813 Kích thước liệu kiểm định 318 Số thuộc tính 146 Số rừng 100 Hệ số lọc Random Forest 0.67 Biểu đồ so sánh lần chạy 0.84 Chỉ số R*R 0.83 0.8210.821 0.82 0.812 0.816 0.811 0.8170.8160.8160.815 0.82 0.821 0.81 0.8 0.799 0.791 0.79 0.7880.788 0.78 10 11 12 13 14 15 Lần chạy Hình 4.4 Biểu đồ so sánh lần chạy phương án với 318 mẫu kiểm định Bảng 4.3 Kết phương án với 318 mẫu kiểm định Lần thử nghiệm Lần RMSE 1422.453 Chỉ số E Chỉ số R*R 0.791 0.492 55 Dự báo lưu lượng (m3/s) ngày 10 ngày 15 ngày 1401.880 1408.960 1327.970 Lần 1466.195 0.470 0.788 1561.180 1438.630 1384.410 Lần 1391.215 0.482 0.788 1504.600 1487.940 1516.170 Lần 1307.181 0.509 0.799 1391.100 1307.690 1260.460 Lần 1213.976 0.561 0.812 1381.390 1321.560 1242.120 Lần 1255.778 0.537 0.816 1386.890 1372.510 1332.270 Lần 1352.852 0.565 0.811 1365.930 1333.080 1271.000 Lần 1216.091 0.542 0.821 1484.510 1483.250 1476.980 Lần 1258.043 0.538 0.821 1524.700 1461.470 1383.500 Lần 10 1191.368 0.566 0.817 1418.470 1386.330 1321.220 Lần 11 1271.234 0.561 0.816 1372.900 1322.400 1226.290 Lần 12 1247.261 0.575 0.816 1202.120 1115.160 1021.430 Lần 13 1218.609 0.552 0.815 1424.110 1359.330 1317.360 Lần 14 1305.760 0.581 0.820 1432.710 1358.770 1339.770 Lần 15 1145.656 0.567 0.821 1282.680 1187.100 1133.870 Trung bình 1284.245 0.540 0.810 1409.011 1356.279 1303.655 Chỉ số R2 trung bình sau 15 lần chạy 0.810, sai số RMSE 1284.245 Phƣơng án 2: Cũng liệu đó, chúng tơi tăng số thuộc tính từ 146 lên thành 218 thuộc tính Kích thước liệu gồm 2952 mẫu Kích thước chia làm phần, phần sử dụng để huấn luyện, phần lại sử dụng để kiểm định liệu Để đánh giá ổn định độ hiệu mô hình, chúng tơi cho chương trình chạy lấy kết 15 lần liên tiếp - Bộ số liệu gồm 2952 mẫu bao gồm 2778 mẫu huấn luyện 174 mẫu kiểm định Sau chạy 15 lần, kết quả, dự báo sai số bảng đây: Tham số Giá trị Kích thước liệu huấn luyện 2778 Kích thước huấn luyện thực 1861 Kích thước liệu kiểm định 174 Số thuộc tính 218 Số rừng 100 Hệ số lọc Random Forest 0.67 56 Biểu đố so sánh lần chạy 0.86 Chỉ số R*R 0.85 0.844 0.837 0.838 0.84 0.837 0.836 0.832 0.828 0.83 0.827 0.831 0.8260.8270.827 0.826 0.829 0.82 0.82 0.81 0.8 10 11 12 13 14 15 Lần chạy Hình 4.5 Biểu đồ so sánh lần chạy phương án với 174 mẫu kiểm định Bảng 4.4 Kết phương án với 174 mẫu kiểm định Chỉ số E Chỉ số R*R Dự báo lưu lượng (m3/s) 10 15 ngày Lần thử nghiệm RMSE Lần 929.150 0.605 0.827 855.440 855.770 878.610 Lần 922.738 0.591 0.828 928.480 906.290 907.960 Lần 893.166 0.601 0.837 916.780 914.460 922.500 Lần 896.555 0.616 0.838 883.580 862.780 884.530 Lần 923.855 0.620 0.832 908.650 924.900 918.860 Lần 937.720 0.596 0.826 925.160 903.440 920.850 Lần 939.829 0.619 0.827 921.710 927.130 902.660 Lần 920.834 0.592 0.827 894.980 907.660 921.070 Lần 965.962 0.591 0.820 906.520 905.460 895.320 Lần 10 897.540 0.625 0.837 902.470 869.200 896.750 Lần 11 902.434 0.662 0.844 888.880 872.030 909.100 Lần 12 905.143 0.617 0.836 884.430 883.340 905.640 Lần 13 920.256 0.612 0.831 910.220 905.170 917.580 57 Lần 14 929.254 0.600 0.826 916.990 905.240 914.810 Lần 15 923.883 0.621 0.829 913.680 896.530 897.170 Trung bình 920.555 0.611 0.831 903.865 895.960 906.227 Kết cho thấy, số E R tăng lên sau chúng tơi tăng số thuộc tính từ 146 lên 218 Chỉ số R2 thử nghiệm đạt 0.831 Trong sai số RMSE giảm xuống 920.555 Từ thấy tăng số thuộc tính, độ xác mơ hình tăng lên - Bộ số liệu gồm 2952 mẫu bao gồm 2634 mẫu huấn luyện 318 mẫu kiểm định Sau chạy 15 lần, kết quả, dự báo sai số bảng đây: Tham số Giá trị Kích thước liệu huấn luyện 2634 Kích thước huấn luyện thực 1765 Kích thước liệu kiểm định 318 Số thuộc tính 218 Số rừng 100 Hệ số lọc Random Forest 0.67 Biểu đồ so sánh lần chạy 0.86 Chỉ số R*R 0.84 0.85 0.848 0.85 0.843 0.838 0.831 0.834 0.834 0.847 0.835 0.833 0.829 0.827 0.83 0.821 0.82 0.82 0.81 0.81 0.8 10 11 12 13 14 15 Lần chạy Hình 4.6 Biểu đồ so sánh lần chạy phương án với 318 mẫu kiểm định Bảng 4.5 Kết phương án với 318 mẫu kiểm định Lần thử nghiệm Lần RMSE 1076.859 Chỉ số E Chỉ số R*R 0.831 0.613 58 Dự báo lưu lượng (m3/s) ngày 912.320 10 ngày 15 ngày 911.120 911.050 Lần 1012.431 0.607 0.838 891.670 887.250 886.670 Lần 1017.622 0.589 0.834 862.760 862.180 874.330 Lần 1116.243 0.560 0.810 894.860 904.400 896.830 Lần 1094.214 0.598 0.834 1151.940 1041.700 974.860 Lần 988.175 0.618 0.848 964.800 908.480 903.750 Lần 1087.393 0.622 0.833 891.670 882.630 873.540 Lần 1100.381 0.556 0.821 1124.800 1015.880 944.510 Lần 1151.855 0.616 0.835 1275.930 1258.500 1214.640 Lần 10 1149.557 0.606 0.827 1203.180 1161.070 1090.520 Lần 11 1022.657 0.644 0.850 900.440 895.810 883.840 Lần 12 1058.510 0.639 0.843 980.550 927.200 914.290 Lần 13 1025.346 0.621 0.847 1038.850 931.140 901.300 Lần 14 1094.950 0.557 0.820 919.890 918.600 923.450 Lần 15 1092.903 0.610 0.829 888.070 890.690 905.250 Trung bình 1072.606 0.604 0.833 993.449 959.777 939.922 Kết thử nghiệm phương án với 318 mẫu kiểm định cho kết tương đương với 174 mẫu kiểm định Chỉ số R2 đạt 0.833 tốt phương án Bảng 4.6 So sánh hai phương án: Phương án tốt phương án Phương án Số thuộc tính Chỉ số E Chỉ số R2 Sai số RMSE Phương án 146 0.540 0.810 1284.245 Phương án 218 0.604 0.833 1072.606 Đánh giá so sánh Theo [1], thử nghiệm phương án dự báo với mạng nơ-ron sử dụng phương pháp học kết hợp giải thuật di truyền cải tiến giải thuật lan truyền ngược sai số thì: Phƣơng án [1] Trong phương án việc dự báo lưu lượng nước tương lai trước 10 ngày Q(t+10) dựa vào lưu lượng nước thời điểm khứ Phương án sử dụng ba giá trị lưu lượng làm đầu vào mạng gồm: - Lưu lượng nước tại: Q(t) - Lưu lượng nước trước 10 ngày: Q(t-10) 59 Lưu lượng nước trước 20 ngày: Q(t-20) - Q(t 10) f Q(t ), Q(t 10), Q(t 20) (4.1) Kết sau học, số dự báo với liệu kiểm tra (test set): - Sai số quân phương RMSE = 102.60 m3/s - Chỉ số R2 = 0.7703 1200 Lưu lượng (m3/s) 1000 800 Thực tế 600 Dự báo 400 200 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 Mẫu thử Hình Hình 4.7 Kết dự báo phương án [1] Phƣơng án [1] Theo nghiên cứu thuỷ văn, liệu mưa lưu vực ảnh hưởng lớn đến lưu lượng nước tương lai Việc dự báo cần thông số lượng mưa thời điểm lượng mưa khứ (do ảnh hưởng đến trữ lượng nước ngầm) Trong phương án này, dự báo lưu lượng nước tương lai trước 10 ngày Q(t+10) dựa vào lưu lượng nước khứ Q(t ), Q(t 10),Q (t 20) phương án mà phụ thuộc vào lượng mưa khứ tại lưu vực X (t ), X (t 10), X (t 20) Q(t 10) f Q(t ), Q(t 10), Q(t 20), X (t ), X (t 10), X (t 20) Kết với liệu kiểm tra xác phương án 1: - Sai số quân phương RMSE = 99.76 m3/s - Chỉ số R2 = 0.7902 60 (4.2) 1200 Lưu lượng (m /s) 1000 800 Thực tế 600 Dự báo 400 200 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 Mẫu thử Hình 4.8 Kết dự báo phương án [1] Phƣơng án [1] Phương án bổ sung thêm giá trị lưu lượng lượng mưa ngày tại: Qng(t), Xng(t) (khác với Q(t) X(t) giá trị lưu lượng lượng mưa trung bình 10 ngày) Do đó: Q(t 10) f Q(t ), Q(t 10), Q (t 20),Qng (t ), X (t ), X (t 10), X (t 20),Xng (t ) (4.3) Kết đạt được: - Sai số quân phương RMSE = 72.28 m3/s - Chỉ số R2 = 0.8742 Theo [1], phương án có độ xác tốt với R2 = 0.8742 1200 Lưu lượng (m3/s) 1000 800 Thực tế Dự báo 600 400 200 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 Mẫu thử 61 Hình 4.9 Kết dự báo phương án [1] Nhận xét: Trong DSS này, sử dụng giải thuật định random forest, kết R đạt đến 0.833, chí tốt qua lần huấn luyện tăng số thuộc tính số liệu lưu lượng Kết tốt hẳn phương pháp phương pháp [1], độ xác cịn so với phương pháp [1] Qua kết thực nghiệm này, nhận thấy giải thuật Random Forest chạy hiệu số liệu có số thuộc tính lớn Cũng với số liệu này, sử dụng giải thuật mạng nơ-ron hệ thống chạy chậm Nếu tiếp tục tăng số thuộc tính lưu lượng số thuộc tính tham số đầu vào khác lượng mưa ngày tại…thì độ xác cao Sai số RMSE mơ hình lớn, nhiên theo [19] tính chất số liệu lưu lượng có độ biến động lớn, nên sai số RMSE chưa phản ánh mức độ xác Hơn số liệu bao gồm số liệu lưu lượng mùa mưa mùa có độ biến động lưu lượng cao 62 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU TIẾP THEO Luận văn định hướng vào nội dung nghiên cứu hệ hỗ trợ định, hệ hỗ trợ định không gian Trong đó, việc xây dựng mơ hình hệ hỗ trợ định sử dụng phương pháp học máy định random forest với độ xác cao kết hợp với trình bày GIS nhằm hỗ trợ định người sử dụng Hệ thống áp dụng vào việc dự báo lưu lượng nước trạm thủy văn Hịa Bình với số liệu đo đạc chi tiết hàng ngày hàng năm Các đóng góp luận văn - Hệ thống hóa nội dung hệ hỗ trợ định - Nghiên cứu giải thuật random forest, giải thuật biến đổi phương pháp định - Nghiên cứu sử dụng hệ thống thống thông tin địa lý (GIS) Tuy nhiên hệ thống chưa thực việc biểu diễn kết sau dự báo GIS - Áp dụng vào việc dự báo lưu lượng nước với độ xác cao trạm thủy văn Hịa Bình với số R2 lớn, > 0,83 Phương pháp có độ xác cao số trường hợp thử nghiệm phương pháp khác áp dụng giải thuật học máy giải thuật di truyền, mạng nơron Với việc dự báo ngày, 10 ngày Hƣớng nghiên cứu Phương pháp có độ xác cao, mong muốn luận văn tiếp tục nghiên cứu phát triển giải thuật xây dựng mơ hình hệ hỗ trợ định dựa số liệu đo đạc chi tiết qua năm trạm Từ đó, hệ thống rút dự báo lưu lượng trạm thủy văn dựa số liệu trạm thủy văn khác dịng chảy Ngồi ra, kết sau dự báo trình bày GIS, thể kết cách trực quan Qua q trình áp dụng, chúng tơi nhận rằng, đầy đủ hay không tập số liệu đầu vào ảnh hưởng lớn đến kết dự báo Ví dụ, dự báo thuỷ văn dài hạn, yếu tố đặc điểm khí hậu, hình thái thời tiết ảnh hưởng lớn đến độ xác thời gian dự báo Hoặc với dự báo mùa khơ với độ xác cao mùa mưa ảnh hưởng nhiều yếu tố mà kết chưa mong muốn Cũng qua luận văn này, mong muốn áp dụng vào việc xây dựng hệ hỗ trợ định áp dụng vào việc dự báo cụ thể, mong muốn hệ thống trở thành hệ thống có tính ứng dụng cao thực tiễn 63 TÀI LIỆU THAM KHẢO Tiếng Việt Phạm Thị Hoàng Nhung (2007), Dự báo lưu lượng nước sử dụng giải thuật mạng nơ-ron kết hợp với giải thuật di truyền, Đại học Công nghệ - Luận văn thạc sỹ Nguyễn Hà Nam (2009), Bài giảng khai phá liệu, Đại học Công nghệ Tiếng Anh Keen, P G W (1978), Decision support systems: an organizational perspective, Reading, Mass., Addison-Wesley Pub Co ISBN 0-201-03667-3 Henk G Sol et al (1987), Expert systems and artificial intelligence in decision support systems: proceedings of the Second Mini Euroconference, Lunteren, The Netherlands, 17-20 November, 1985 Springer, 1987 ISBN 9027724377 p.1-2 Efraim Turban, Jay E Aronson, Ting-Peng Liang (2008), Decision Support Systems and Intelligent Systems, p 574 "Gate Delays at Airports Are Minimised for United by Texas Instruments' Explorer", Computer Business Review 1987 http://www.cbronline.com/news/gate_delays_at_airports_are_minimised_for_uni ted_by_texas_instruments_explorer Haettenschwiler, P (1999), Neues anwenderfreundliches Konzept der Entscheidungsunterstützung, Gutes Entscheiden in Wirtschaft, Politik und Gesellschaft Zurich, vdf Hochschulverlag AG: 189-208 Power, D J (2002), Decision support systems: concepts and resources for managers, Westport, Conn., Quorum Books Stanhope, P (2002), Get in the Groove: building tools and peer-to-peer solutions with the Groove platform, New York, Hungry Minds 10 Gachet, A (2004), Building Model-Driven Decision Support Systems with Dicodess, Zurich, VDF 11 Power, D J (1997), What is a DSS? The On-Line Executive Journal for DataIntensive Decision Support 1(3) 12 Sprague, R H and E D Carlson (1982), Building effective decision support systems, Englewood Cliffs, N.J., Prentice-Hall ISBN 0-130-86215-0 13 Haag, Cummings, McCubbrey, Pinsonneault, Donovan (2000), Management Information Systems: For The Information Age McGraw-Hill Ryerson Limited: 136-140 ISBN 0-072-81947-2 64 14 Marakas, G M (1999), Decision support systems in the twenty-first century, Upper Saddle River, N.J., Prentice Hall 15 Holsapple, C.W., and A B Whinston (1996), Decision Support Systems: A Knowledge-Based Approach, St Paul: West Publishing ISBN 0-324-03578-0 16 Hackathorn, R D., and P G W Keen (1981, September), "Organizational Strategies for Personal Computing in Decision Support Systems", MIS Quarterly, Vol 5, No 17 Gadomski A.M et al (1998), Integrated Parallel Bottom-up and Top-down Approach to the Development of Agent-based Intelligent DSSs for Emergency Management,TIEMS98, Washington 18 Breiman (2001), Random Forests Website: http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm 19 D.R Legates, G.J McCabe Jr (1998), Evaluating the Use of "Goodness-of-Fit" Measures in Hydrologic and Hydroclimatic Model Validation; Water Resour Res 1998WR900018, 35(1): 233 20 Mark Last, Abraham Kandel & Horst Bunke, Data mining in Time series Database, Vol 57 21 ESRI Geodatabase, Website: http://esri.com 65