Các thực thể địa lý được biểu diễn như là một tập hợp các điểm trong không gian-thời gian với tập hợp các thuộc tính đặc trưng cho những điểm đó. Các thực thể được đề cập đến là những đối tượng trong thế giới thực, trong nghiên cứu này tôi giới thiệu khái niệm vùng địa lý không gian-thời gian. Ở đây, tôi giới hạn tìm hiểu không gian địa lý hai chiều. Khi thời gian được coi là tuyến tính, một đối tượng không gian và thời gian được biểu diễn trong không gian địa lý ba chiều. Đối tượng không gian tồn tại ở một thời điểm hay một khoảng thời gian nào đó được gọi là đối tượng không gian-thời gian.
Trong lĩnh vực hệ thống thông tin địa lý, bản đồ (Map) được xây dựng theo các tầng chủ đề (thematic layer) như quản lý đất sử dụng, giao thông hay thời tiết... tùy theo yêu cầu của ứng dụng ta quan tâm. Bản đồ địa lý là sự chồng chập của các tầng chủ đề này.
Các dữ liệu tầng chủ đề được liên kết với các thực thể địa lý và đặc điểm của chúng phụ thuộc vào miền ứng dụng. Một số phương pháp khác nhau có thể được sử dụng để biểu diễn kích thước đối tượng theo mỗi chủ đề gần với thực tế hơn. Hai kỹ thuật cơ bản đề biểu diễn đối tượng là vector và raster. Đơn vị nhỏ nhất trong bản đồ dựa trên raster là một ô (cell). Nhược điểm của raster là việc biểu diễn đường biên của vùng hay biểu diễn một đường thường dưới dạng thô không chính xác (Hình 3.1). Trong khi đó đơn vị nhỏ nhất trong mô hình dựa trên vector là một điểm, do vậy việc biểu diễn các đối tượng chính xác hơn nhưng dữ liệu lưu trữ và thời gian tính toán trên các đối tượng sẽ lớn hơn. Trong nghiên cứu này, tôi biểu diễn đối tượng dựa theo mô hình vector. Cụ thể là, trong ứng dụng được k giá trị thuộc tính được định nghĩa để mô tả một điểm của đối tượng hay hiện tượng. Mỗi vị trí riêng biệt pij được gắn k giá trị thành viên (membership), cho mỗi một thuộc tính. Giá trị thành viên nhận được thuộc khoảng [0,1].
Hình 3.1 Mô hình dữ liệu raster & vector
Hình 3.2 Hệ thống phân cấp dữ liệu
Mô hình dữ liệu tham chiếu địa lý có thể được xem như là hệ thống phân cấp dữ liệu biểu diễn ở Hình 3.1. Bản đồ ở mức trên cùng biểu diễn bởi một tập các chủ đề (theme). Khi đối tượng thay đổi theo thời gian, đây được xem một thư viện lập phương không gian-thời gian. Mỗi theme được biểu diễn bởi một tập lập phương không gian- thời gian, tầng này được gọi là tầng thuộc tính. Từ tầng thuộc tính dựa vào các giá trị thành viên tại mỗi vị trí đối với một chủ đề các vùng được tạo ra tại một thời điểm nào đó. Vị trí không gian tại một thời điểm-thời gian là đơn vị nhỏ nhất đáng chú ý cho tầng tương ứng trong một miền ứng dụng.
Tầng chủ đề 2 Layer 2 Tầng chủ đề 3 Layer 2 Tầng chủ đề 1 Layer 2 Tầng phân lớp thuộc tính 1 Layer 2 Tầng phân lớp thuộc tính 3 Layer 2 Tầng phân lớp thuộc tính 2 Layer 2 Vùng 1 Layer 2 Vùng 2 Layer 2 Vùng 3 Layer 2 Vị trí 1 Layer 2 Vị trí 2 Layer 2 Vị trí 3 Layer 2 Bản đồ Layer 2
Các đối tượng được xác định từ dữ liệu quan sát thực địa và dò khoảng bao phủ của mỗi hiện tượng. Dữ liệu được chuyển đổi từ mẫu thực địa đến các đối tượng riêng biệt thông qua phân loại. Việc chuyển đổi không chắc chắn được thảo luận từ dữ liệu chuyên đến khía cạnh hình học của các đối tượng. Do sự mơ hồ của định nghĩa lớp đối tượng và lỗi trong các điểm lấy mẫu thực địa, mỗi vị trí cụ thể pij sẽ tạo ra một giá trị vector hàm thành viên(membership) [L (pij, C1), L (pij, C2), ..., L (pij, Cn)] tại thời điểm T. L (pij, Ck) đại diện cho giá trị hàm thành viên của pij thuộc lớp Ck và n là tổng số của các lớp.
Giả sử rằng các lớp chủ đề của một bản đồ bao gồm lớp thực vật, lớp sử dụng đất, lớp mạng lưới đường bộ, lớp thủy văn, vv. Lớp sử dụng đất bao gồm các lớp con sau đây: sinh sống, công viên, nuôi trồng được biểu diễn trong Hình 3.3. Một vị trí cụ thể Pij=(X,Y,T) trong công viên được xác định giá trị mức độ thành viên d.o.m (degree of membership) là 0 tại thời điểm T cho công viên. Tất cả các vị trí xác định cụ thể trong khối lập phương công viên với giá trị d.o.m trong khoảng [0,1] tại T, tập hợp các vị trí với giá trị thành viên tạo thành một vùng. Thông thường tại trung tâm của một vùng cấp độ thành viên của điểm cao hơn so với các điểm nằm gần đường biên. Nghiên cứu này không xem xét tính mờ của đối tượng, do vậy tại thời điểm T cấp độ thành viên lớn nhất sẽ được gán cho đối tượng và tạo ra vùng với đường biên xác định cụ thể. Ví dụ Pij tại thời điểm T được gán „nuôi trồng‟.
Hình 3.3 Tầng sử dụng đất và tầng lexical của nó với giá trị d.o.m đƣợc chỉ định đến vị trí độc lập X Y T Chủ đề về đất sử dụng đất Vị trí xác định Pij Công viên: 0 Sinh sống: 0.2 Nuôi trồng: 0.8
Một ví dụ khác, để hiểu được hệ sinh thái hồ, sinh thái học cần nhiều loại dữ liệu từ lấy mẫu dữ liệu và cảm biến quan sát như dữ liệu thời tiết, hình ảnh, và các tư liệu. Những dữ liệu được sắp xếp tổ chức theo không gian và thời gian, tùy thuộc vào vị trí và thời gian quan sát. Cơ sở dữ liệu phải được thiết kế để lưu trữ các thuộc tính không gian và thời gian của các dữ liệu quan sát khác nhau. Ví dụ, một dữ liệu lấy mẫu quan sát được thu thập tại một thời điểm 10h20‟, 20/3/2008 với vị trí (105045.346‟E, 21006.951‟N). Một mô hình mô phỏng được sử dụng để phân tích dữ liệu tại cùng vị trí đó nhưng tại thời điểm 15h00‟, 10/7/2008.
Thời gian(t) Vị trí(x,y) Kiểu 10h20‟, 20/3/2008 105045.346‟E, 21006.951‟N Quan sát 10h20‟, 20/3/2008 105045.008‟E, 21012.430‟N Địa lý 15h00‟, 10/7/2008 105045.346‟E, 21006.951‟N Mô phỏng
Hình 3.4 Dữ liệu không gian-thời gian
<tài liệu> <Thời tiết> <hình ảnh> <công cụ đo đặt tại hiện trường> <mô hình mô phỏng> <công cụ phân tích> <địa lý> <dữ liệu quan sát> t1 t2 t3
3.2 Thiết kế CSDL cho hệ thống theo dõi nguồn nƣớc ngầm
Phần này trình bày cách thức lưu trữ các đối tượng tham chiếu địa lý và thuộc tính của chúng trong CSDL. CSDL dạng này gọi là CSDL không gian-thời gian. Mối quan hệ giữa các đối tượng và sự thay đổi của chúng theo thời gian sẽ được mô tả một cách hình thức.
Mỗi đối tượng tham chiếu địa lý được mô tả bởi hai loại thuộc tính là đặc trưng không gian và phi không gian. Do tính phức tạp và tính lặp của đặc trưng không gian, để tối ưu hóa việc lưu trữ trong quá trình phân tích và thiết kế hai loại thuộc tính này được lưu trữ vào các lược đồ riêng lẻ. Mỗi đối tượng có thể thay đổi theo thời gian và đặc biệt nhằm hỗ trợ quản lý và ra quyết định trong các ứng dụng, ngoài việc lưu trữ các đối tượng hiện đang tồn tại ra thì lịch sử của chúng cũng cần lưu trữ. Vì vậy ngoài lược đồ dữ liệu hiện tại ta có thêm lược đồ mô tả dữ liệu lịch sử.
Quan hệ phi không gian ARi‟ Quan hệ không gian FRi‟
fid VTs fid f1 … fn
Quan hệ kết nối MRi hid fid VTs VTe
Quan hệ phi không gian lịch sử ARi‟‟ Quan hệ không gian lịch sử FRi‟‟
hid … VTs Vte hid f1 … fn
Hình 3.5 Mô hình CSDL cho dữ liệu không gian-thời gian
Tập tổng U
Tập dữ liệu D1, D2..Dn
Tập chủ đề TL1, TL2.. TLn
CSDL không gian-thời gian được mô tả một cách hình thức như sau:
Gọi U, D, TL, LL, STO là tập tổng, tập dữ liệu, tầng chủ đề, tầng thuộc tính của đối tượng không gian-thời gian theo thứ tự tương ứng đó. Tập tổng U là một tập đa dữ liệu {D1, D2,…, Dl} gắn kết với các chủ đề. Tập dữ liệu Di được phân ra thành nhiều tầng chủ đề {TL1, TL2,…,TLm}, mỗi TLi bao gồm tập các tầng thuộc tính {LL1, LL2,…, LLn}. Mỗi tầng thuộc tính LLi bao gồm quan hệ không gian, quan hệ phi không gian cho đối tượng đang tồn tại, và quan hệ không gian lịch sử, quan hệ phi không gian lịch sử. Lược đồ đối tượng hiện thời và lịch sữ của chúng được kết nối thông qua một mối quan hệ hợp nhất. Mối quan hệ giữa quan hệ không gian và quan hệ phi không gian được liên kết bởi toán tử equi-join thông qua thẻ nhận dạng (fid). Ngoài ra, mối quan hệ giữa quan hệ không gian và quan hệ phi không gian, quan hệ không gian lịch sử, quan hệ phi không gian lịch sử được kết nối với thông tin lịch sử của quan hệ phi không gian và thông tin lịch sử phi không gian. Mỗi quan hệ là một tập gồm nhiều đối tượng không gian-thời gian, {STO1, STO2,.. ,STOp}.
Định nghĩa 3.1: Các quan hệ trong CSDL không gian-thời gian
Quan hệ đặc tính không gian FRi‟ và quan hệ đặc tính không gian lịch sử FRi‟‟ cho tầng thứ i, có liên hệ với tầng thuộc tính thứ i, mô tả dưới dạng một vector dữ liệu không gian <fid, Density, BoundaW, f1, …,fn, Geoi> trong đó đặc trưng fid để phân biệt các đối tượng khác nhau và đảm bảo tính duy nhất của đối tượng; BoundW giới hạn độ rộng đường biên của đối tượng; f1,.., fn là các yếu tố toán học mô tả kích thước không gian của đối tượng; Geoi xác định hình dạng và kích thước thực tế của đối tượng.
Bảng lưu thuộc tính không gian lịch sử ARi‟‟ cho tầng thứ i mô tả dưới dạng vector dữ liệu phi không gian <fid, Ai, VT> với Ai là vecto thuộc tính cho đối tượng không gian fid của tầng thứ i <fid, a1, a2,.., an>; vector thời gian hiệu lực VT=<VTs, VTe> biểu diễn thời gian bắt đầu và kết thúc của thời gian hiệu lực.
Quan hệ không gian ARi‟‟ cho tầng thứ i được biểu diễn bằng vector dữ liệu phi không gian <Ai, VTs>. Mô tả quan hệ kết hợp MRi bằng vector <fid, hid>, trong đó
hid biểu diễn con trỏ lịch sử của đối tượng không gian được xác định bởi fid trong quan hệ không gian lịch sử. Quan hệ kết hợp MRi chỉ lưu trữ thông tin lịch sử của đối tượng không gian khi xuất hiện toán tử kết hợp.
Với Định nghĩa 3.1, lịch sử của đối tượng hiện tại có thể tìm kiếm thông qua con trỏ lịch sử hid trong bảng thuộc tính không gian. Lưu trữ độc lập đối tượng hiện tại và đối tượng lịch sử làm cho khả năng quản lý và sử dụng dữ liệu tối ưu hơn đặc biệt về mặt lưu trữ. Mô hình CSDL không gian-thời gian được mô tả trong Hình 3.5.
Chƣơng IV Thiết kế cơ sở dữ liệu
Chương này mô tả tổng quát kiến trúc hệ thống quan sát, thu thập, quản lý phân tích và xử lý thông tin nguồn nước cho một khu vực. Cơ sở dữ liệu và các toán tử sử dụng tính toán và tìm kiếm thông tin không gian, thời gian và không gian-thời gian sẽ được đề xuất.
4.1. Kiến trúc hệ thống theo dõi và quản lý nƣớc ngầm
Để theo dõi và quản lý nước ngầm cho một khu vực hay một vùng địa lý, một hệ thống có khả năng giám sát thông tin về nguồn nước là đòi hỏi cấp thiết hiện nay. Hệ thống tích hợp dữ liệu biến đổi theo thời gian và từ các nguồn dữ liệu khác nhau hỗ trợ việc phân tích và ra quyết định trong việc khai thác và sử dụng nguồn nước quý hiếm. Trong luận văn này, tôi giới thiệu một kiến trúc hệ thống giám sát thông tin nguồn nước ngầm được thiết kế để quản lý và xử lý dữ liệu một cách hợp lý và hiệu quả.
Kiến trúc hệ thống với nhiều mô đun chức năng được thể hiện như trong Hình 4.1. Hệ thống được phân thành các tầng xử lý với các mô đun cụ thể như sau: Mô đun quan sát hiện trường và thu dữ liệu, mô đun tiền xử lý dữ liệu thu được, kho dữ liệu không gian-thời gian, mô đun theo dõi thông tin nguồn nước, mô đun quản lý các công cụ phân tích và trực quan hóa thông tin và giao diện tương tác người dùng.
Kho dữ liệu không gian-thời gian không những lưu trữ dữ liệu không gian mà còn lưu trữ dữ liệu phi không gian. Để đáp ứng đòi hỏi thực tế quản lý và ra quyết định việc quản lý thông tin lịch sử của các đối tượng. Nói cách khác, tất cả những thay đổi của các hiện tượng hay đối tượng quan sát được tại hiện trường đều được lưu vào trong kho dữ liệu. Trong nghiên cứu này, tôi sử dụng thời gian hiệu lực (valid time) làm nhãn thời gian gắn với dữ liệu thu được.
Để thu thập dữ liệu chúng ta có thể sử dụng các dụng cụ đo bằng tay, hoặc thu một cách tự động bằng cách sử dụng các công cụ đo đặt tại hiện trường, như công nghệ cảm biến. Dữ liệu lưu trữ được thu từ nhiều nguồn khác nhau như dữ liệu về các hiện tượng biến đổi theo thời gian thực thu được từ khu vực ta quan tâm, dữ liệu từ các nguồn như bản đồ địa chính, thời tiết, và từ các tài liệu. Tuy nhiên, chỉ dữ liệu nào cần thiết trong quá trình quản lý và xây dựng hệ thống mới được tải về. Thông thường những dữ liệu thu được dưới dạng thô thường có những mất mát về thông tin, hay sai sót trong quá trình nhập dữ liệu, hay do máy móc, cho nên khâu tiền xử lý được thực hiện trước khi sử dụng.
Dữ liệu được lưu trữ trong kho lưu trữ, dữ liệu cũng được phân chia làm nhiều loại, bao gồm dữ liệu chưa qua xử lý, mẫu và thuộc tính. Theo dõi và quản lý nước ngầm sẽ có một số vấn đề như bộ xử lý truy vấn người dùng, quản lý dữ liệu, tìm kiếm dữ liệu và mô phỏng. Trong hệ thống giám sát nước ngầm này có các công cụ như công cụ phân tích, mô hình mô phỏng và xem dữ liệu kết quả.
Hệ thống giám sát nước ngầm gồm lưu trữ và phân tích mẫu dữ liệu. Phân tích mẫu để rút ra những kết quả hữu ích cho việc khai thác nước ngầm hợp lý cho khu vực mà ta quan tâm. Ví dụ như, người dùng muốn biết trong tháng sáu độ sâu của nước trong khoảng bao nhiêu? Với hệ thống này, người dùng có thể tìm thấy các dữ liệu quan sát và hình ảnh ở một số địa điểm quan sát được lựa chọn. Họ có thể chạy chương trình với các dữ liệu quan sát mà không cần biết bên trong hệ thống xử lý dữ liệu như thế nào.
Người dùng tương tác với hệ thống thông qua giao diện người dùng. Hệ thống giám sát nước ngầm trong Hình 4.1 mô tả giao diện giữa hệ thống quản lý CSDL và người dùng được mở rộng bằng các toán tử không gian và toán tử thời gian. Việc tích hợp toán tử không gian và toán tử thời gian vào trong mô đun “Tìm kiếm dữ liệu” cho phép người dùng biểu thị truy vấn trên các đối tượng một cách linh hoạt và tiện lợi.
Hình 4.1 Hệ thống quản lý và theo dõi nguồn nƣớc ngầm 4.2. Mô tả nghiệp vụ
<thời tiết>
Theo dõi thông tin nguồnnƣớc
Bộ xử lý truy vấn người
dùng
Phân tích
mẫu Tìm kiếm dữ liệu Quản lý
dữ liệu mô phỏng Theo dõi
DL chưa xử lý Mẫu và thuộc
tính Mô hình
nước Địa điểm
Kho lƣu trữ dữ liệu không gian- thời gian Tiếp nhận dữ liệu Tiếp nhận DL từ máy đo Tải file lên Nạp dữ liệu Quản lý công cụ Công cụ phân tích Xem DL