Khai phá dữ liệu thời gian sử dụng thuật toán di truyền và mạng nơron – nghiên cứu dựa trên các dự báo tình hình ô nhiễm không khí. Công nghệ trí thông minh nhân tạo được biết đến như mạng nơron và thuật toán di truyền có thể dễ dàng giải quyết những vấn đề kết hợp không gian và thời gian phi tuyến mang tính phức tạp cao. Chính vì vậy bài báo này kết hợp các kĩ thuật của giải thuật di truyền và mạng nơron để xây dựng công cụ tiên đoán thời gian mới cho “hệ thống thông tin địa lý” (GIS – Geographic Information System). Những công cụ GIS này có thể áp dụng dễ dàng trong thực tiễn nghiên cứu không gian và thời gian để hoàn thiện những lỗ hổng chức năng khai phá dữ liệu và khám phá tri thức GIS.
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA ĐÀO TẠO QUỐC TẾ & SAU ĐẠI HỌC oo0oo TIỂU LUẬN: Khai phá dữ liệu thời gian sử dụng thuật toán di truyền và mạng nơron – nghiên cứu dựa trên các dự báo tình hình ô nhiễm không khí Môn học: Công cụ toán học nâng cao Giáo viên: Nguyễn Văn Thỏa Học viên: Nhóm 3 Hà nội, ngày 30/12/2011 Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 1 Nhóm 3: danh sách các học viên Nguyễn Thị Lan Anh Đỗ Thị Liên Mai Anh Chung Nguyễn Văn Thắng Nguyễn Văn Thanh Nguyễn Thanh Thức Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 2 Mục lục PHẦN 1: DỊCH NỘI DUNG BÀI BÁO Tổng quan: Công nghệ trí thông minh nhân tạo được biết đến như mạng nơron và thuật toán di truyền có thể dễ dàng giải quyết những vấn đề kết hợp không gian và thời gian phi tuyến mang tính phức tạp cao. Chính vì vậy bài báo này kết hợp các kĩ thuật của giải thuật di truyền và mạng nơron để xây dựng công cụ tiên đoán thời gian mới cho “hệ thống thông tin địa lý” (GIS – Geographic Information System). Những công cụ GIS này có thể áp dụng dễ dàng trong thực tiễn nghiên cứu không gian và thời gian để hoàn thiện những lỗ hổng chức năng khai phá dữ liệu và khám phá tri thức GIS. Kết quả đáng ghi nhận ở đây là sự tích hợp của các công nghệ thông minh nhân tạo với nhau trong phần mềm GIS để thiết lập một framework phân tích không gian và thời gian. Thêm vào nữa, với việc sử dụng framework để phát triển hệ thống “phân tích thông tin không gian và thời gian thông minh nhân tạo ” – ASIA (Artifical intelligent Spatial and temporal Information Analyst) – đã trở thành công cụ đầy đủ cho gói GIS đã tồn tại , vì vậy nó áp dụng thích hợp cho những công việc chuyên môn hóa. Nghiên cứu dựa trên các dự báo tình hình ô nhiễm không khí đưa ra ở một khu vực địa lý thực tế để chứng minh framework phân tích thời gian hợp lý hóa và có căn cứ. Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 3 1. Giới thiệu Gần đây, khoa học đang tập trung vào việc nghiên cứu trí thông minh nhân tạo trong việc phát triển mạng nơron, logic mờ và các giải thuật di truyền. Nghiên cứu mạng nơron chỉ ra con người đang đối mặt với những vấn đề phức tạp của phương pháp học kết hợp. Ví dụ bằng việc tích hợp qua lại giữa các nơron chúng ta có thể xử lý việc học theo những hành vi của con người và tìm ra các quan hệ giữa những tác nhân ảnh hưởng phía đầu vào và kết quả liên quan tới môi trường phía đầu ra (Muller,1995). Xuyên suốt việc mô phỏng quá trình sinh tồn của sinh vật, các giải thuật di truyền khiến cho một chiếc máy tinh có thể thiết kế ra quá trình tiến hóa của chúng. Và, các giải thuật di truyền này có thể tự điều chỉnh chế độ môi trường và tìm ra phương án tối ưu (Scott,1990). Với lý do này chúng ta có để xử lý với số lượng lớn các tác nhân ảnh hưởng tới môi trường sống theo không gian và thời gian thế giới thực bằng việc kết hợp các kỹ thuật của mạng nơron và giải thuật di truyền. Các công nghệ thông minh này không sử dụng thứ tự tuyến tính để giải thích các xử lý của hệ thống mà có thể tích hợp chúng thích hợp trong một GIS để tạo ra các mô hình phân tích không gian và thời gian mới. Những mô hình này có thể minh họa cho việc xử lý một vấn đề lớn về thông tin không gian và thời gian, và đưa ra các quan hệ phức tạp giữa các tác nhân. So sánh với mô hình thống kê tuyến tính truyền thống thì những mô hình này thực tế hơn, phù hợp với xu hướng tương lai với những vấn đề không gian và thời gian trong thế giới thực linh hoạt. Chúng ta không những có thể tự do tìm kiếm tất cả những tác nhân có thể mà còn thu được từ những thiếu sót của việc phân tích không gian và thời gian GIS (Frank, 2000; Gahegan,2000; Openshaw and OpenShaw,1997). Vì những nhà địa lý mong chờ giải quyết những vấn đề không gian và thời gian phức tạp và linh động nên GIS đã bắt đầu tích hợp khoa học thông tin trong khai phá dữ liệu và khám phá tri thức (Boots, 2000; Fischer,1997; Leung and Legung,1993; Marible,2000). Điều đó chính là lý do để sử dụng máy tính xử lý với những vấn đề địa lý. Mục tiêu dầu tiên của nghiên cứu này là chuẩn hóa sự tương tác giữa con người và môi trường của họ, đồng thời để xây dựng tích hợp framework phân tích không gian và thời gian, làm lên sức mạnh của GIS và khoa học thông tin. Anselin(2000) đã tuyên bố có 3 yêu cầu cần thiết để thiết kế tốt 1 hệ thống thông tin tích hợp GIS, bao gồm : (1) Cung cấp một định dạng dữ liệu mà có thể chuyển đổi theo các kiểu GIS khác nhau. (2) Thiết kế các thành phần có thể sử dụng lại trong môi trường lập trình windows. (3) Có giao diện nền tảng trực quan. Mục tiêu thứ hai trong nghiên cứu phát triển “gói phân tích thông tin không gian và thời gian thông minh nhân tạo” – ASIA (Artificial intelligent Spatial and temporal Information Analyst), bao gồm việc Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 4 thiết kế một định dạng dữ liệu mới để chuyển đổi với các kiểu GIS khác nhau, sử dụng chương trình C++ để xây dựng môđun đối tượng thông minh nhân tạo truy cập mở, và sử dụng phần mềm ArcView GIS để trực quan hóa. Gói này tích hợp công nghệ thông minh nhân tạo và dữ liệu không gian và thời gian theo cách phổ biến được sử dụng trong môi trường phần mềm GIS. Mục tiêu thứ ba của nghiên cứu này là giải quyết với dự báo xu hướng thời gian của ô nhiễm không khí như là một minh họa để chứng minh tính hợp lý và hữu ích của framework phân tích không gian và thời gian và của hệ thống thông minh nhân tạo tích hợp. 2. Phân tích kiến trúc khái niệm không gian và thời gian GIS Nghiên cứu này xây dựng kiến trúc không gian và thời gian GIS nhằm tích hợp GIS, trí thông minh nhân tạo và công nghệ khai phá dữ liệu. Kiến trúc ở mức khái niệm này bao gồm các giai đoạn phân tích không gian, thời gian và tích hợp nền tảng thông tin và quá trình hoạt động, được mô tả bằng hình sau : Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 5 Hình 1 : Kiến trúc mức khái niệm không gian và thời gian GIS Mức đầu tiên của giai đoạn phát triển không gian và phân tích thời gian, chuẩn bị dữ liệu, tích hợp ba loại phương pháp nghiên cứu cơ sở dữ liệu GIS, bao gồm cả việc lọc dữ liệu tiếng ồn, thu thập thông tin ẩn, và xây dựng một định dạng dữ liệu chính thức. Mức kernelled thứ hai là khai thác dữ liệu và khám phá tri thức, dựa trên công nghệ thông minh nhân tạo làm cho một mạng lưới tế bào thần kinh kết nối hoặc quyết định mô hình kiến thức logic mờ với các thuật toán di truyền. Và, thứ ba và mức cuối cùng là hệ thống mô phỏng và kiểm tra sử dụng ASIA, ArcView GIS mới mở rộng, áp dụng mô hình kiến thức đã phát hiện cho phép các nhà địa lý làm chủ các vấn đề không gian và thời gian phức tạp. Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 6 Có một số hệ thống thông tin độc lập nhưng đã được kết nối lẫn nhau trong một nền tảng thông tin tích hợp. Hệ thống chuẩn bị dữ liệu tích hợp các khả năng GIS cơ bản cho việc hiển thị, chọn lọc, chiết xuất, và chuyển đổi. Hệ thống dữ liệu mô tả không gian là một giao tiếp trích xuất thông tin giữa công nghệ AI và dữ liệu GIS, có thể nhập mới một cách thích hợp các dữ liệu GIS chính thức vào mạng nơron, logic mờ và các giải thuật di truyền, và xuất ra các tri thức liên quan đến môi trường. Đối với hệ thống ASIA, GIS mở rộng của ArcView là một AI dựa trên phần gói khám phá tri thức GIS, và có thể cho phép các nhà địa lý áp dụng kiến thức này một cách thực tế khi phải đối mặt với nhiều vấn đề không gian và thời gian trong các nghiên cứu phân tích không gian. Các bước nghiên cứu hoạt động là phần giai đoạn cuối cùng trong kiến trúc GIS phân tích khái niệm không gian và thời gian. Nó có thể tái cấu trúc, điều chỉnh, hoặc cải thiện bản thân bằng một cách rất mềm dẻo khi gặp phải các chủ đề nghiên cứu với nhiều đối tượng khác nhau. 3. Phân tích thông tin không gian và thời gian trí tuệ nhân tạo (ASIA) ASIA là một phần mở rộng ArcView GIS, và một hệ thống hoạt động rất vững chắc, được sử dụng trong kiến trúc GIS phân tích khái niệm không gian và thời gian trước đây. Người dùng tải bản đồ GIS vào ASIA, và chọn các đặc tả không gian thích hợp để trích xuất các thông tin ẩn trong bản đồ GIS. Điều này cho phép các thuật toán di truyền để lựa chọn các mô tả và biến đổi nó sang định dạng dữ liệu mới GIS2. Cuối cùng, chọn các mô hình kết nối tri thức mạng Nơron để khai phá những dữ liệu tri thức ma trận trọng số. 3.1. Dữ liệu trình diễn GIS và hệ thống mô tả không gian Theo các nguồn dữ liệu GIS về không gian hoặc trình tự thời gian, ASIA có thể sử dụng các menu để thực hiện chuẩn bị dữ liệu hệ thống, bao gồm cả tính năng khái quát hóa từ đa giác hoặc hình đa cạnh, mô tả lưới, tạo lại mẫu lưới, cắt gọn lưới bằng việc sử dụng chủ đề đa giác, các dạng lưới, cấu trúc lưới (chuyển đổi dạng lưới sang dạng lattice), tăng cường tương phản lưới tuyến tính, tính phương sai lưới, và phân chia bảng ngẫu nhiên. Và hệ thống đặc tả không gian tạo ra các vector số liệu thống kê đơn giản, tính năng chỉ mục quay vòng các bất biến địa lý, chỉ số xu hướng bề mặt Evans, và các chỉ số biến đổi Furiê nhanh các tần số bề mặt. Xem hình 2. Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 7 Hình 2: hệ thống mô tả không gian và chuẩn bị dữ liệu ASIA 3.2. Chuẩn bị định dạng chuyển đổi GIS2 Các định dạng dữ liệu GIS2 là một cấu trúc dữ liệu cơ bản trong hệ thống ASIA và kết nối giữa các mô hình AI phân tích không gian và thời gian. Nó bao gồm định dạng dữ liệu ASCII thuần tuý, như là một định dạng tập tin trung chuyển, có thể dễ dàng giao tiếp với các phần mềm GIS dung lượng lớn hơn. Tập tin dữ liệu đầu tiên là file ghi lại các thuộc tính mà trong dòng đầu tiên ghi các biến và số thứ tự bản ghi của đối tượng; từ dòng thứ hai lần lượt ghi các giá trị của tất cả các ô GRID. Xem bảng 1 dưới đây. Bảng 1: Tệp lưu trữ thuộc tính GIS2. 19 1 739596 3313 54.6524 97.776 -0.219237 3.60014 -0.00351583 -0.0219008 … 0 3296 63.3855 65.9391 -0.534405 1.21776 -0.0102157 -0.00895094 … 0 … Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 8 Tệp thứ 2 là tệp lưu lại các chủ đề và toạ độ mà sau đó được ghi vào các bản ghi toạ độ hệ thống, kích thước các ô lưới GRID, giá trị không có số liệu, và tất cả các biến hoặc các chủ đề tương ứng với các đối tượng. Xem bảng số 2. Bảng 2: Tệp ghi lại chủ đề và toạ độ GIS2 Number of columns or rows: Số lượng cột hoặc hàng Cols 862 Rows 848 Gốc của toạ độ (Góc dưới bên trái) Xllcorner 260440 Yllcorner 2.67E+06 Kích thước ô GRID: Cellsize 40 Giá trị khi không có dữ liệu: NODATA_value -9999 Số lượng biến: Input 19 Số lượng đối tượng: Output 1 Tương ứng với các biến trong file chủ đề ghi lại các thuộc tính Elevation Slope … Observation (Phần tiếng Anh bên phải của cột giữ nguyên vì là tên của các biến – bản gốc) Tại ASIA, việc chuyển đổi khuôn dạng file GIS2 được thực hiện qua một hộp thoại bao gồm 3 bước: Bước 1, sử dụng chủ đề vector đa giác để xác định ranh giới của phép biến đổi. Bước 2, xác định các nhân tố môi trường của nhóm chủ đề (từ các nguồn học được) và các đối tượng học được về không gian và thời gian trí tuệ nhân tạo. Thứ 3, gán đường dẫn file chuyển đổi GIS2. Xem hình số 3. Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 9 Hình 3: 2 bước trong việc chuyển đổi khuôn dạng dữ liệu GIS2 tại ASIA 3.3. Mô hình phân tích không gian mạng Nơtron có giám sát và không giám sát. Trong việc “Gọi lại từ bộ nhớ” – là thành phần của mô hình phân tích mạng nơron ASIA, người sử dụng đầu tiên cần quyết định hoặc huấn luyện một phần tử mới hoặc nạp vào một ma trận trọng số đã được huấn luyện. Nếu người dùng lựa chọn để huấn luyện một ma trận trọng số mới, thì cần phải sau đó quyết định chu kỳ cần huấn luyện trong BPN (mạng lan truyền phía sau) hoặc phải thêm việc ánh xạ đến các thông tin trong mô hình SOM (bản đồ tự tổ chức). Trong việc ánh xạ thông tin trong mô hình SOM “3” có nghĩa là kiểu số 9 là 3*3. Sau khi lựa chọn “mẫu huấn luyện đầu vào” từ file nguồn GIS2, ta có thể bấm “Train”, và bảng nghiên cứu kết quả huấn luyện sẽ tương ứng với “các đường cong chỉ thị của các thông tin đã học”. Trái ngược với việc đó, nếu người dùng chọn để nạp một ma trận trọng số, điều đó có nghĩa là hệ thống đã được huấn luyện từ trước và có thể gọi lại bởi những file đã được xác định. Tên file mặc định trong mạng lan truyền ngược (BPN) là “neurowgt.dat”, và trong bản đồ tự tổ chức (SOM) đó là “somwgt.dat” và “sommap.dat”. Thứ 3 là: người dùng nên xác định việc xác thực hoặc giả lập file GIS2 nhằm mục đích để đặt ma trận trọng số của các kiến thức đã có về không gian và thời gian trong việc sử dụng trong đoạn “kết quả học được”. Khi gặp phải khuôn dạng bảng thời gian, chuẩn ASIA có thể vẽ nên một đường đồ thị thời gian đơn giản hoặc một bản đồ phân tán theo trục XY hoặc khi gặp với khuôn dạng chủ đề Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_TDLMMT_NHOM3 10 [...]... dựa trên tình hình ô nhiễm không khí hàng giờ ở thành phố Ban- Chiao và sử dụng 1996 dữ liệu làm cơ sở khai phá dữ liệu mạng nơ ron mô hình dự báo nồng độ các chất ô nhiễm không khí 4.1 Nghiên cứu kiến trúc không gian và thời gian GIS mức khái niệm ASIA để phát triển Tiểu Luận: Công Cụ Toán Học Nâng Cao 13 CN2011_TDLMMT_NHOM3 Kiến trúc không gian và thời gian GIS mức khái niệm có thể xử lý các vấn đề... không thông tin gian tích hợp Chuẩn bị dữ liệu Chuẩn bị (khai thác cơ sở dữ dữ liệu Bước 1: Tìm kiếm và thu thập dữ liệu về chất gây ô nhiễm không khí liệu, thao tác, và quản lý) Bước 2: Đưa ra dự báo các nhân tố chất gây ô nhiễm không khí (SO2, CO, O3, PM10, NO2) và thời gian (từ 1-3 giờ) Hệ thống Khai thác dữ liệu và khám phá tri thức mô tả dữ liệu không gian Bước 3: lọc và xử lý nhiễu dữ liệu nếu cần... Nghiên cứu này dự báo tình trạng ô nhiễm không khí cho khoảng thời gian tiếp theo Tương ứng với các nhu cầu của nhà nghiên cứu, nghiên cứu cũng có thể mở tộng để dự báo tỷ lệ thay đổi, mô hình thay đổi… So với các công cụ phân tích không gian thì các công cụ phân tích xu hướng thời gian là không đủ trong GIS Nghiên cứu đã đưa vào các công cụ phân tích trí tuệ nhân tạo trong khai phá dữ liệu và tri... dữ liệu không có giá trị và sử dụng các bản ghi liền kề, lọc dữ liệu sai Xem Hình 6 Tiểu Luận: Công Cụ Toán Học Nâng Cao 15 CN2011_TDLMMT_NHOM3 Hình 6: SO2 gây nhiễu dữ liệu Bên cạnh nhiễu dữ liệu, nghiên cứu dự báo thời gian cũng có hiện tượng trễ thời gian Điều này là bởi vì các cơ sở dữ liệu không có dữ liệu liên quan trước khi các dữ liệu thời gian tiếp theo xuất hiện Hiện tượng thời gian trễ... Kết quả dự báo mạng Nơron 4.2.3.1 Kết quả dự báo từ 1 đến 3 giờ Nghiên cứu này sử dụng các chỉ số tương quan để kiểm tra các kết quả dự báo từ các mạnh Nơron Hai nhóm dữ liệu được quan sát và xác minh Chúng tôi sử dụng dữ liệu quan sát để đưa vào mạng Nơron và thu được một ma trận trọng số Và chúng tôi sử dụng ma trận trọng số này trong việc xác minh dữ liệu để so sánh giữa các giá trị ước lượng và giá... phỏng và xác minh hàng tháng) và xác minh (sau ngày 26 hàng tháng) tập hợp dữ liệu Bước 9: Sử dụng phương sai để kiểm tra sự học của mạng nơ ron và kiểm tra kết quả Cơ bản kiến Bước 10: Sử dụng ma trận trọng lượng mạng nơ thức áp dụngron để thiết lập mô hình dự báo chất gây ô nhiễm không khí 4.2 Kết quả nghiên cứu 4.2.1 Lọc nhiễu dữ liệu và điều chỉnh dữ liệu trễ Trong nghiên cứu khai thác dữ liệu và. .. đoạn phát triển không gian và thời gian, chuẩn bị dữ liệu của hệ thống tích hợp, và các bước nghiên cứu quá trình hoạt động, có thể tùy biến linh hoạt trong các tình huống và những hoàn cảnh khác nhau Xem bảng 3 Bảng 3: Mối quan hệ giữa các trường hợp nghiên cứu và kiến trúc phân tích không gian và thời gian GIS mức khái niệm Bước phân tích Nền tảng Bước nghiên cứu hệ thống thời gian và không thông... cần thiết Bước 4: chuyển đổi tất cả các biến, mục tiêu sang định dạng tập tin GIS2 (thời điểm các chất gây ô nhiễm được tổng kết trước 24 giờ, sự thay đổi về thời gian dự báo, và tỷ lệ thay đổi) Các thành Bước 5: Đưa ra mô hình dự báo ô nhiễm không phần công khí bằng việc sử dụng các thuật toán di truyền và nghệ trí mạng nơ ron thông minh nhân tạo Tiểu Luận: Công Cụ Toán Học Nâng Cao 14 CN2011_TDLMMT_NHOM3... để phân tích và dự báo trong thời gian ngắn bởi một đặc tính khó kiểm soát là phản hồi hành động lâu dài Bởi vì chất lượng giống nhau của các dự báo chắc chắn là được thực hiện trong khoảng thời gian ngắn và không được đảm bảo trong khoảng thời gian dài Mặc dù các trường hợp dự báo nghiên cứu đã có một độ chính xác cao trong dự báo ô nhiễm không khí trong 1-giờ nhưng lại không thể dự báo cùng một độ... trong khoảng thời gian dài hơn Rõ ràng, mô hình phi tuyến là phù hợp hơn cho các dự báo thời gian ngắn và khi thời gian càng tăng thì độ chính xác càng giảm đi Bảng 6: Kết quả dự báo nhờ mạng Nơron thời gian từ 1 đến 3 giờ 4.2.3.2 Kết quả dự báo 1-giờ hàng ngày Đối với dự báo 1-giờ hàng ngày, mạng Nơron dự báo chỉ số tương quan, hầu hết tất cả các chất ô nhiễm trong tất cả các ngày đều trên 0.9 Mỗi . CN2011_ TDLMMT_ NHOM3 1 Nhóm 3: danh sách các học viên Nguyễn Thị Lan Anh Đỗ Thị Liên Mai Anh Chung Nguyễn Văn Thắng Nguyễn Văn Thanh Nguyễn Thanh Thức Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_ TDLMMT_ NHOM3. framework phân tích thời gian hợp lý hóa và có căn cứ. Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_ TDLMMT_ NHOM3 3 1. Giới thiệu Gần đây, khoa học đang tập trung vào việc nghiên cứu trí thông minh. Spatial and temporal Information Analyst), bao gồm việc Tiểu Luận: Công Cụ Toán Học Nâng Cao CN2011_ TDLMMT_ NHOM3 4 thiết kế một định dạng dữ liệu mới để chuyển đổi với các kiểu GIS khác nhau, sử