Phát biểu bài toán

Một phần của tài liệu Thuật toán chia lớp trong cơ sở dữ liệu không gian ba tầng (Trang 74 - 92)

/ 4 Cúc hướnsị phát triển của khám phá tri thức trong (lữ liệu không gian

23. Các hướng tiếp cận của bài toán chia lớp trong cơ sờ dữ liệu không gian

3.2.2. Phát biểu bài toán

(a). Cư sứ dữ liệu

Nlur đã trình bày ờ phần 3.1.1, cơ sở dữ liệu thu thập được từ Phòng Hệ thông tin địa lý, Viện Cóng nghệ Thông tin và Bộ Y tế (1998) gồm

- Bản đồ Việt Nam chi tiết, gồm: tên miền, loại miền (huyện, tỉnh, xã... dường biên của các miền.

- Bản đồ chi tiết hệ thống bệnh viện Việt Nam, gồm: tên, vị trí, tuyến, loại, hạng,, tổng số phòng khám, tổng số giườngbệnh nhân ngoại trú, bệnh nhân nội trú... của mỗi bệnh viện.

- Bản đồ hệ thống giao thỏng Việt Nam, gồm: tên đường, loại đường (quốc lộ, tỉnh lộ, huyện lộ hoặc xã lộ), toạ độ các nút mốc trên đường.

Tráng 74/9 ỉ

Hình 25. Ví dụ về bản đồ hành chính, giao thòng dường bộ và các bệnh viện của các tinh miền bắc Việt Nam.

(b). Sô hoá và lượng tự hoá

Từ cơ sờ dữ liệu thu thập đã trình bày ờ trên, ta xem mỗi bệnh viện V, sẽ ảnh hưởng đến một điểm dân cư Pị bằng một hàm /iy,, P'). Hàm /iy„ P ) phụ thuộc vào: quy mô của bệnh viện Vị, khoảng cách và sự thuận tiện giao thông từ điểm Pt đến bệnh viện. Tổng các hàm hưởng của các bệnh viện lên một điểm dân cư được coi là mức độ chăm sóc y tế tại điểm dãn cư đó.

Bài toán chia lớp bản dồ Việt Nam dựa vào mức độ chăm sóc y tế sẽ là bài toán chia bàn đ ồ Việt Nam thành các miền sao cho những điểm dân C Ư trong cùng một lớp sẽ có mức độ chăm sóc y tế (tổng các hàm ảnh hưởng của các bệnh viện) tương đương nhau. Những điểm không cùng một lớp thì hoặc là có sự chênh lệch về chăm sóc y tế hoặc chúng không kề nhau vé mặt vị trí không gian.

3.2.3. Những kĩ thuật xử lý dữ liệu

Cơ sở dữ liệu về bản đổ Việt Nam như đã trình bày ở phần 3.1.2 là rất lớn, rất phức tạp, nhiều chiều và chứa rất nhiều thành phần hỗn hợp không đồng nhất: Điểm bệnh viện (giường bệnh, số bác sĩ...), điểm dân cư (vị trí, dân số, mật độ...). Vì thế, không một thuật toán chia lớp nào đã có thể áp dụng trực tiếp trên cơ sở dữ liệu dó. Để có thể áp dụng dược các thuật toán chia lớp, ta phải biến đổi dữ liệu về dạng dạng số đơn giản.

Những kì thuật chính được sử dụng là:

- Lượng tử hoá dữ liệu không gian và phi không gian. Loại bỏ những tính chất hoặc thuộc tính không quan trọng của cơ sở dữ liệu phục vụ cho bài toán. - Đơn giản hoá d ữ liệu ban đầu với số chiều lớn về d ữ liệu với số chiều nhỏ hem

mà vẫn đảm bảo độ chính xác của kết quả. 1. Quad-tree với phép chia lưới bán dồ

Bản đồ Việt Nam được biểu diễn dưới dạng vector bằng những đường biên và các dương phân cách giữa các miền: tỉnh, huyện, xã, thôn...Đổ có thể áp dụng những thuật toán chia lớp lèn cơ sở dữ liệu bản đồ Việt Nam, ta sẽ biến đổi cơ sờ dữ liệu bản đồ Việt Nam sang dạng cơ sớ dữ liệu gồm các đối tượng d ữ liệu không gian. Với mục đích dó, ta sẽ chia bản đồ Việt Nam thành các ỏ lưới và tính những tham sô' tương ứng cho từng ô lưới đó. Mỏi ô lưới cùng với các tham sỏ' lương ứng có thể xem như một đối tượng dữ liệu không gian 1LHL02Ị.

Việc chia lưới bản đồ Việt Nam thành các ô sẽ ảnh hưởng tới kết quả cuối cùng. Việc chia lưới càng nhỏ thì độ chính xác của kết quả càng cao. Tuy nhiên, nếu chia lưới quá nhỏ thì cơ sờ dữ liệu sẽ rất lớn và thời gian thực hiện các thuật toán là không chấp nhận được. Thêm vào đó, việc chia một đơn vị lưới quá nhỏ thì dân số irong một số đơn vị lưới sẽ ít, khiến cho việc đánh giá mức độ chăm sóc y tế trên đơn vị lưới đó sẽ không còn hiệu quả. Chính vì thế, việc chia lưới phải đảm bảo 2 yêu cẩu: ô lưới phải đủ nhỏ dể đảm bảo độ chính xác nhưng lại phải đủ lớn để đảm bào thời gian chạy của thuật (oán và hiệu quả đánh giá trên một ỏ lưới. Như vậy, mỗi ỏ lưới phải thoả mãn 2 điều kiện:

- Các ò lưới phải có diện tích lớn hơn ngưỡng MinS và nhỏ hon ngưỡng MaxS.

Trang76/91

Dàn số trong ô lưới đó phải lớn hơn ngưỡng MiitP.

Nhưng trên thực tế, sự phân bố dân cư giữa các vùng đổng bằng, miền núi, miển biển, vùng sáu, vùng cao, thành thị, nông thôn... rất không đểu, ví dụ: mật độ dân số của các thành phố lớn hơn so với nông thôn, mật độ dân số của đồng bằng lớn hơn so với vùng núi, vùng sâu... Độ chênh lệch này có thể lên tới hàng nghìn lần. Ví dụ như giữa trung tâm Hà Nội thì mật độ dân số là 2500 người/km2 nhung à vùng cao có thể là 2-3 người/km2. Do đó, các ô lưới sẽ được phân chia Iheo những kích thước khác nhau phụ thuộc vào mật độ dân cư và vị trí của ô lưới. Ví dụ: kích thước của các ô lưới ở những nơi dân cư dông đúc sẽ nhỏ hơn so với các ô lưới ở nlũmg nơi dân cư thưa thớt.

Với mục đích chia lưới bản đổ Việt Nam tlioá mãn điều kiện trên, ta sử dụng kĩ thuật chia lưới Quad-tree [KJJ98| bằng các đường song song với hai trục.

- Nút ban đầu (nút gốc) là hình chữ nhật biên nhỏ nhất chứa toàn bộ bản đồ Việt Nam.

- Tại mỗi nút R:

1) Chia hình chữ nhật tại nút đó thành 4 hình chữ nhật con bằng các chrờng song song với các trục. Đối với mỗi hình chữ nhật con: Nếu hình chữ nhật con đó nằm írong hoặc giao bản đồ việt nam thì sinh ra một nút con của R chứa hình chữ nhật đó. Trong trường hợp ngược lại, hình chữ nhật con dó sẽ bị loại bỏ. Ví dụ trong Hình 26, miển c không nằm trong cũng không giao với bản đồ Việt nam, vì thế ta loại bỏ miền c. Các miền A, B và D được giữ lại trong các nút con của hình chữ nhật ban đầu để phục vụ cho quá trình chia lưới kế tiếp.

Hình 26. Một ví dụ về loại bỏ miền không thuộc Việt Nam.

2) Do diện tích của một miền phải nằm trong khoáng [MinS, M(I.\S\ nên một nút chứa một miền có diện tích nhỏ hơn A*MinS sẽ được coi là nút lá và không thực hiện quá trình chia trên nút đó.

3) Do dân số của một miền phải nằm lớn hơn MinP nên một nút chứa một miền có dân số nhỏ hơn A*MinP sẽ được coi là nút lá và không thực hiện quá trình chia trên nút đó.

4) Các điểm dân cư trong cùng một ô lưới nên tương đồng với nhau dựa trên các thông số về mật độ dân số, vị trí địa lý (nóng thôn, thành phố...), vị trí hành chính (cùng tỉnh, cùng huyện...). Nếu các điểm dân cư trong cùng một ó lưới không tương đồng thì ô lưới đó nên được tiếp tục chia nhò dù việc chia đó có thể vi phạm hai điều kiện đã đặt ra ờ trên về diện tích và dân số.

Hình 27. Ví dụ ô lưới trên chứa 2 miền A và B khống có sự tương đồng. Do đó ó lưới trên sẽ tiếp tục được chia.

2. Đánh giá trọng số và hàm ánh hưừng của bệnh viện.

Với mỗi bệnh viện chúng ta thu thập dược các thông số gồm: tên, vị trí, tuyến, loại, hạng, tống số phòng khám, tổng sô' giường, bệnh nhân ngoại trú, bệnh nhân nôi trú... của mồi bệnh viện.

Việc đánh giá một bệnh viện dựa trên các thông sô trên không thể định lượng một cách chính xác tuyệt đối. Việc đánh giá mức độ của một bệnh viện dựa vào: 1) Sự phữn cấp bệnh viện và các trạm y tế của bộ y tế, 2) Các thông sô' vể bệnh viện thu thập được ở trên. Trên 2 cơ sờ đó, mỗi bệnh viện V, sẽ được gắn với một hàm trọng sô là độ lớn của bệnh viện kí hiệu là weight(Vị). Đây là thông số chính trong việc xác định hàm ảnh hưởng của một bệnh viện lên các miền dân cư.

Đế đánh giá được sự ảnh hưởng của một bệnh viện lên những điểm dân cư lân cận, ta xét khoảng cách cũng như hệ thống giao thông từ điểm dân cư đó đến bệnh viện.

Trang 78/91

Một bệnh viện sẽ có ảnh hường lớn lên một điểm dân cư nếu như khoảng cách từ điểm dân cư tới bệnh viện nhỏ hoặc giao thông từ điểm dân cư đó tới bệnh viện thuận tiện. Ví dụ: trong điều kiện giao thông từ điểm dân c ư A và B đến bệnh viện V như nhau, điểm dân c ư A gần bệnh viện V hơn điểm dân cư B thì ánh hưởng của bệnh viện V lên điểm dân cư A sẽ lớn hơn ảnh hưởng của bệnh viện V lên điểm dân cư B. Tuy nhiên, trong trường hơp giao thòng từ điểm dân c ư A đến bệnh viện V khó khăn hơn rất nhiều so với giao ihỏng từ B đến V thì ảnh hưởng của V lên A có thể nhỏ hơn ảnh hưởng của V lên B.

M ứ c đ ộ ảnh lurờng tới đ iể m B

M iề n d ân CƯ A

WÊÊÊÊÊÊL

M ứ c độ ảnh lurờng

; tới đ iể m A

Hình 28 Ví dụ về hàm ảnh hưởng của một bệnh viện V.

Đô đơn giản, ta coi hàm ảnh hường của một bệnh viện V, lên một điểm dân cư P ị

được xác định như sau

f ( Y p ) - weiSht{V,)

J " ' Minpath{Pr Vl)

trong đó Minpath(Pr V,) là đường đi có trọng số nhỏ nhất từ điểm dân C Ư p, đến bệnh viên Vị.

Đê’ xác định được trọng sô' của đường đi giữa điểm dân cư P j và bệnh viện v„ta dựa vào hệ thốns giao thông đường bộ và thuật toán tìm đường đi ngấn nhất giữa điểm dân cư và bệnh viện. Để làm được này, tnrớc tiên ta sẽ gán trọng số cho mỗi đơn vị độ dài của mỗi con đường phụ thuộc vào kiểu của con đường đó.

Mã đường Kiếu đường Trọng sô 1 Quốc lộ 1 2 Tinh lộ 5 3 Huyện lộ 50 4 Xã lộ 250 5 Không có đường 1000

Đê tính được đường đ i có trọng số nhỏ nhất t ừ một điểm dân CƯ tới một bệnh viện, ta

đ i xây dựng dồ thị trọng số dựa vào các đường quốc lộ, lỉnh lộ, huyện lộ và xã lộ. Đồ thị G = <v, E> được xây dựng như sau:

V là dinh = tập tất cả các giao điểm của các con đường.

- Trọng số của một cạnh M'(.v, v) với -V, ye V được định nghĩa như sau:

o Nếu (.V, y) không thuộc một con đường nào có kiểu quốc lộ, tỉnh lộ, huyện lộ hoặc xã lộ thì trọng số vr(.v, v) = EucHt_iììstam e{x, y) * trọng số của dường có mã đường thứ 5.

Eiu lii_ílisíance(\, y) chính là khoảng cách Euclit giữa 2 điểm X và y.

o Nếu (,v,y) thuộc cùng một con đường thì trọng H’(.v,y) = ílistance(x,y)*

trọng số kiểu đường của con đường mà (,v, y) thuộc vào. Nếu (x, v) thuộc vào nhiều hơn một con đường thì trọng số sẽ được bằng giá trị nhỏ nhất.

Giá trị Distanceị.x, y) là độ dài những đoạn đường từ .V đến V nếu đi theo con đường mà .V, y thuộc vào.

Để xác định được đường đi ngắn nhất giữa các tập dinh ta có thể áp dụng các thuật toán tìm đường di ngắn nhất nhir Disktra [NHTL021...1UV nhiên, các thuật toán đó đều đòi hỏi nhiều thời gian chạy với độ phức tạp lớn. Để làm giảm thời gian chạy của thuật toán tìm đường đi ngắn nhất, một số kĩ thuật đã được áp dụng như: Hình chữ nhật bao đường nhò nhất [LHL021, cạnh nhò nhất kế tiếp...

Trang 80/91

3.2.4. ứng dụng của MDBSCAN

Với phương pháp chia lớp quad-tree ta đã có thể chia bản đồ Việt Nam thành các ô lưới và coi mỗi ô lưới như một đôi tượng dữ liệu không gian. Đỏi tượng không gian đó gổm: toạ độ đính của ò lưới, diện tích và dân số tại điểm đó. Ta có thể xác định tổng ảnh hưởng của các bệnh viện lên một điểm dữ liệu không gian bằng cách cộng các hàm ảnh hường của các bệnh viện lên điểm dữ liệu ấy.

Đê chia lớp các điểm dữ liệu không gian, ta sử dụng thuật toán nằm trong phương pháp tiếp cận chia lớp dựa vào vị trí địa phương. Tuy nhiên, các thuật toán hiện có như DBSCAN, DENCLUE. .. đều không thể áp dụng lên dược bài toán của chúng ta

vì:

- Có khả nãng áp dụng lên cơ sở dữ liệu lớn nhưng vẫn đảm báo yêu cầu chất lượng của các lớp đưa ra cao.

- Hình dáng của các lớp rất phức tạp: có thể không lồi, lõm, có thể có cả dạng lồng nhau, chứa trong nhau. Điều này đã khiến cho hầu hết các thuật toán chia lớp hiện có đều khởng thể áp dụng được.

- Sự khác nhau vể tính chất của các lớp là rất lớn. Có lóp mà tổng các hàm ảnh hường của mỗi điểm trong lớp rất lớn nhưng lại có lớp mà tổng các hàm ảnh hường của mồi điểm trong lớp đó lại rất nhỏ.

Trong khi các thuật toán hiện có hoặc đưa ra được kết quả chất lượng thấp, hoặc thời gian chạy là rất lớn, hoặc là không có khả năng phát hiện ra các lớp với hình dáng phức tạp hoặc không có khả năng tìm ra các lớp mà tính chất của các lớp đó rất khác nhau.

Sự khác nhau về tính chất của các lóp đã dẫn tới một thực tế: không một thuật toán và tham số nào đủ hiệu quả để tìm ra được tất cả các lớp mong muốn. Nếu chúng ta sừ dụng các thuật toán và tham số thích hợp cho những điểm dân cu ờ thành thị (những điểm có tổng hàm ảnh hưởng rất lớn) thì các thuật toán và tham số đó lại không phù hợp với những điểm dân cư ở nông thôn hoặc vùng núi vì những điểm dân cư đó bị tách rời rạc, tạo thành các lớp riêng biệt hoặc bị coi là “dữ liệu nhiễu”. Trong trường hợp ngược lại, nếu chúng ta sử dụng các thuật toán và tham số thích hợp cho các điểm dân cư ở nông thôn (những điểm dân cư với lổng hàm ảnh Inrởng ở

mức độ trung hình) thì tất cả các điểm dân cư thuộc thành phố sẽ thuộc cùng một lớp Irong khi các điểm dân cư ờ vùng núi vẫn bị tách rời.

Để đưa ra được kết quả chia lớp tốt cho bài toán chia lớp bản đồ Việt nam dựa trên mức độ chăm sóc y tế, chúng tôi đã áp dụng thuật toán MDBSCAN lên bán đổ đó. Kết quả so sánh khi áp dụng DBSCAN và MDBSCAN lên bản dồ miền bắc Việt Nam như sau:

3.2.5. Kết quả ứng dụng của MDBSCAN

Kết quả khi áp dụng DBSCAN và MDBSCAN lên các tỉnh miền bắc với hạn chê số bệnh viện 303 và 123 trục đường quốc lộ và tinh lộ.

Trang 8 2 /91

Hình .10. Kết quả với MDBSCAN với các giá trị Eps khác nhau. Đánh giá và so sánh kết quả:

Với DBSCAN với một giá trị EpsMinpts, ta nhặn được kết quả chia lớp chỉ có hai loại lớp: miền có mức độ chãm sóc y tế tốt và miền có mức độ chăm sóc y tế kém. Do đó, không phân biệt được mức độ y tế ở mức chi tiết. Các miền ở thành thị hoặc không phải vùng sâu là nơi có mức độ chăm sóc y tê tốt (những miền kí hiệu E 3 ) và những miền thuộc vùng sâu, cách xa bệnh viện (những miền kí hiệu CZI).

Khi áp dụng MDBSCAN với các giá trị Eps khác nhau, ta đưa ra được nhiều miền với 6 mức độ chăm sóc y tế khác nhau. Giá trị ngưỡng của từng vùng đánh giá được mức độ chăm sóc sức khoẻ tại vùng đó.

1. Ngưởng 0-> 7600:

Thê hiện các mien có độ chăm sóc sức khoẻ tốt nhài. Đây chính là Hà Nội và các vùng làn cận Hà Nội. Tuy nhiên, hệ thống giao thông đã ảnh hườriR tới hình dàng

Một phần của tài liệu Thuật toán chia lớp trong cơ sở dữ liệu không gian ba tầng (Trang 74 - 92)

Tải bản đầy đủ (PDF)

(92 trang)