Tìm hiểu và xây dựng hệ hỗ trợ quyết định dựa trên hệ thống thông tin địa lý (GIS)

Người xây dựng mô hình phải cân bằng giữa tính đơn giản của mô hình với các yêu cầu biểu diễn để mô hình có thể nắm bắt đủ thực tại cần thiết cho người ra quyết định - Mô phỏng là kỹ thu

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐÀO XUÂN DŨNG

TÌM HIỂU VÀ XÂY DỰNG

HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN

HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS)

LUẬN VĂN THẠC SĨ

Hà Nội - 2010

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐÀO XUÂN DŨNG

TÌM HIỂU VÀ XÂY DỰNG

HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN

HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS)

Ngành: Công nghệ thông tin

Chuyên ngành: Các Hệ thống thông tin

Mã số: 60 48 05

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Hà Nam

Hà Nội - 2010

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan bản luận văn “Tìm hiểu và xây dựng hệ hỗ trợ quyết định dựa trên hệ thống thông tin địa lý (GIS)" là công trình nghiên cứu và thử nghiệm của tôi, tại đơn vị công tác, tham khảo các nguồn tài liệu đã được chỉ rõ trong trích dẫn và danh mục tài liệu tham khảo Các nội dung công bố và kết quả trình bày trong luận văn này là trung thực và chưa từng được ai công bố trong bất cứ công trình nào

Hà nội, ngày 25 tháng 8 năm 2010

Học viên

Đào Xuân Dũng

Trang 4

LỜI CẢM ƠN

Em xin chân thành cảm ơn tới TS Nguyễn Hà Nam, thày đã tận tình hướng dẫn, chỉ dạy em hoàn thành luận văn này Em xin chân thành cảm ơn các thày, cô giáo khoa Công nghệ thông tin - Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyền thụ kiến thức cho em trong suốt quá trình học tập vừa qua

Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những người thân

đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tôi hoàn thành nhiệm vụ học tập và cuốn luận văn này

Trang 5

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT 6

MỞ ĐẦU 7

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN 8

1 Giới thiệu chung về hệ hỗ trợ quyết định 8

2 Nhu cầu cần thiết từ thực tiễn 8

3 Các hướng giải quyết hiện có 9

4 Cấu trúc và đóng góp của luận văn 11

CHƯƠNG 2: CÁC MÔ HÌNH HỆ HỖ TRỢ QUYẾT ĐỊNH 13

VÀ CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 13

1 Các mô hình của DSS 13

1.1 Mô hình hòa bằng bảng tính 13

1.2 Mô hình hóa bằng phân tích quyết định 13

1.3 Mô hình hóa bằng quy hoạch toán 13

1.4 Mô hình hóa bằng Heuristic 14

1.5 Mô phỏng 16

1.6 Mô hình hóa đa chiều, xử lý và phân tích trực tuyến (OLAP) 18

1.7 Mô hình hóa và mô phỏng tương tác trực quan 19

1.8 Các bộ phần mềm định lượng và xử lý phân tích trực tuyến 19

1.9 Hệ quản trị cơ sở mô hình 20

2 Hệ hỗ trợ quyết định không gian (SDSS) 21

3 Khai phá dữ liệu 21

3.1 Tổng quan 21

3.2 Các kỹ thuật và cách tiếp cận khai phá dữ liệu 22

Trang 6

4 Các kỹ thuật phân lớp dữ liệu 24

4.1 Phân lớp bằng phương pháp quy nạp cây quyết định 24

4.1.1 Độ lợi thơng tin 25

4.1.2 Giải thuật random forest (RF) [18] 26

4.2 Phân lớp bằng phương pháp mạng nơ ron nhân tạo 30

4.2.1 Khái niệm cơ bản 30

4.2.2 Mơ hình mạng nơ-ron nhân tạo 32

4.2.3 Khả năng ứng dụng của mạng nơ-ron nhân tạo 34

4.2.4 Thuật tốn lan truyền ngược sai số 36

4.3 Phân lớp bằng phương pháp Nạve Bayes 40

4.4 Phân lớp bằng các phương pháp khác (luật kết hợp, khoảng cách ) 41

4.5 Dự báo và phân lớp 41

5 Đánh giá các phương pháp phân lớp 41

CHƯƠNG 3: GIỚI THIỆU VỀ HỆ DSS-GIS 42

ÁP DỤNG VÀO VIỆC DỰ BÁO LƯU LƯỢNG NƯỚC 42

1 Điều kiện địa lý, tự nhiên, khí tượng thuỷ văn lưu vực sơng Đà 42

1.1 Vị trí địa lý 42

1.2 Địa hình 42

1.3 Điều kiện địa chất 43

1.4 Điều kiện thổ nhưỡng 43

1.5 Đặc điểm khí hậu 43

1.6 Đặc điểm chế độ thuỷ văn 44

1.7 Thống kê dữ liệu thu thập được 47

2 Hướng tiếp cận máy học trong việc xây dựng mơ hình hệ DSS 47

3 Một số chỉ tiêu đánh giá kết quả dự báo 48

4 Áp dụng vào xây dựng một hệ hỗ trợ quyết định dựa trên nền GIS 49

4.1 Cơ sở dữ liệu địa lý 49

4.2 Mơ hình học máy sử dụng giải thuật Random Forest 49

4.3 Giao diện người dùng 51

CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH CHẠY THỬ NGHIỆM 51

1 Yêu cầu phần cứng 51

2 Tiền xử lý dữ liệu và huấn luyện mơ hình dữ liệu 51

Trang 7

3 Kết quả thực nghiệm 52

KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 63

TÀI LIỆU THAM KHẢO 64

Trang 8

BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT

DSS Decision Support System Hệ hỗ trợ quyết định

GIS Geographical Information System Hệ thống thông tin địa lý

SDSS Spatial Decision Support System Hệ hỗ trợ quyết định không gian OLAP Online Analytic Processing Xử lý phân tích trực tuyến RMSE Root Mean Square Error Sai số căn trung bình phương

Trang 9

MỞ ĐẦU

GIS là công cụ dựa trên máy tính dùng cho việc thành lập bản đồ và phân tích các đối tượng tồn tại và các sự kiện bao gồm đất đai, sông ngòi, khoáng sản, con người, khí tượng thuỷ văn, môi trường, nông nghiệp v.v xảy ra trên trái đất Công nghệ GIS dựa trên các cơ sở dữ liệu quan trắc, viễn thám đưa ra các câu hỏi truy vấn, phân tích thống kê được thể hiện qua phép phân tích địa lý Những sản phẩm của GIS được tạo ra một cách nhanh chóng, nhiều tình huống có thể được đánh giá một cách đồng thời và chi tiết

Hiện nay nhu cầu ứng dụng công nghệ GIS trong lĩnh vực điều tra nghiên cứu, khai thác sử dụng, quản lý tài nguyên thiên nhiên và môi trường ngày càng gia tăng không những trong phạm vi quốc gia, mà cả phạm vi quốc tế Tiềm năng kỹ thuật của nó trong lĩnh vực ứng dụng có thể chỉ ra cho các nhà khoa học và các nhà hoạch định chính sách, các phương án lựa chọn có tính chiến lược về sử dụng và quản lý tài nguyên thiên nhiên và môi trường

Việc quản lý hỗ trợ khai thác , sử du ̣ng và quản lý tổng hợp hiệu quả các nguồn tài nguyên thiên nhiên dựa trên nền GIS là rất cần thiết Hệ hỗ trợ quyết định kết hợp với công nghệ GIS là một xu thế tất yếu nhằm phát triển một hệ thống có những tính năng mô phỏng các đối tượng trên thế giới thực, truyền đạt và hỗ trợ, cung cấp thông tin tốt nhất cho những người sử dụng nói chung cũng như những nhà hoạch định chính sách nói riêng Mô hình học máy được sử dụng trong hệ thống nhằm tăng khả năng khai thác thông tin, cung cấp những thông tin có ích hơn cho người sử dụng Đề tài về

hệ hỗ trợ quyết định dựa trên nền GIS tìm hiểu các vấn đề đã đưa ra ở trên và mạnh dạn xây dựng một phần mềm thử nghiệm áp dụng vào trong dự báo lưu lượng nước tại các lưu vực sông

Trang 10

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN

1 Giới thiệu chung về hệ hỗ trợ quyết định

Ta biết rằng hệ hỗ trợ quyết định (DSS) là một lớp xác định của các hệ thống thông tin được máy tính hóa, nó trợ giúp các tổ chức và các nhà doanh nghiệp trong việc đưa ra các quyết định hành động Một hệ DSS được thiết kế hoàn chỉnh là một hệ thống dựa trên phần mềm tương tác với mục đích trợ giúp nhà đưa ra quyết định biên dịch thông tin có ích từ dữ liệu, tư liệu thô, tri thức cá nhân hoặc những mô hình doanh nghiệp để giải quyết vấn đề và đưa ra những quyết định Một trong các phương pháp tạo ra các chương trình máy tính dựa trên phân tích các tập dự liệu thô đưa ra các thông tin có ích là máy học Bài viết này với mục đích sử dụng phương pháp máy học,

cụ thể là giải thuật Random Forest (Breiman, 2001) để xây dựng một hệ hỗ trợ quyết định hỗ trợ quản lý tổng hợp tài nguyên nước lưu vực sông Hệ thống được tích hợp

trên nền hệ thống thông tin địa lý (GIS) để trở thành một hệ hỗ trợ hoàn chỉnh

2 Nhu cầu cần thiết từ thực tiễn

Trong thực tế, ra quyết định luôn đòi hỏi yêu cầu phải xử lý kiến thức, kiến thức là nguyên liệu và thành phẩm của ra quyết định, cần được sở hữu hoặc tích lũy bởi người

ra quyết định Ngoài ra, việc giới hạn về nhận thức do trí nhớ con người có hạn, giới hạn về chi phí nhân lực, thời gian và áp lực cạnh tranh là những yếu tố mà dẫn đến cần thiết phải có hệ hỗ trợ quyết định tin cậy trợ giúp nhà quản lý, nhà ra quyết định

Vào thập kỷ 80, 90 của thế kỷ XX, điều tra các công ty lớn cho thấy:

- Kinh tế thiếu ổn định

- Khó theo dõi vận hành của doanh nghiệp

- Cạnh tranh gay gắt

- Xuất hiện thương mại điện tử

- Bộ phận IT quá bận, không giải quyết được các yêu cầu về quản lý

- Cần phân tích lợi nhuận, hiệu quả và thông tin chính xác, mới, kịp thời

- Giảm chi phí hoạt động

Xu hướng tính toán của người dùng hiện nay:

- Cải thiện tốc độ tính toán

- Tăng năng suất lao động của cá nhân liên đới

- Cải tiến kỹ thuật trong việc lưu trữ, tìm kiếm, trao đổi dữ liệu trong và ngoài tổ chức theo hướng nhanh và kinh tế

- Nâng cao chất lượng của các quyết định đưa ra

- Tăng cường năng lực cạnh tranh của tổ chức

- Khắc phục khả năng hạn chế của con người trong việc xử lý và lưu trữ thông tin Theo (Keen – 1981 [16]), thì thuận lợi của hệ DSS là:

- Tăng số phương án xem xét: Phân tích độ nhạy nhanh và hiệu quả hơn

Trang 11

- Hiểu nghiệp vụ tốt hơn: Thấy được các quan hệ nghiệp vụ của toàn hệ thống

- Đáp ứng nhanh trước các tình huống không mong đợi: Dễ xem xét các thay đổi

- Tinh thần đồng đội tốt hơn

- Tiết kiệm thời gian

- Dùng các nguồn dữ liệu tốt hơn

Các hỗ trợ của hệ DSS bao gồm:

Thông tin trạng thái và dữ liệu thô Cái gì?

Khả năng phân tích tổng quát Cái gì? Tại sao?

Mô hình biểu diễn (cân đối tài chính), mô

hình nhân quả (dự báo, chẩn đoán)

Sẽ là gì? Tại sao?

Đề nghị giải pháp, đánh giá Nếu như? Tại sao?

3 Các hướng giải quyết hiện có

Theo [7][8][12][13][14], kiến trúc của DSS gồm 3 thành phần cơ bản bao gồm:

- Cơ sở dữ liệu (hoặc cơ sở tri thức)

- Các vấn đề chính: nhận diện bài toán và phân tích môi trường, nhận diện biến

số, dự báo, đa mô hình, các phạm trù mô hình, quản lý mô hình và mô hình hóa dựa vào kiến thức

- Mô hình hóa là tác vụ không đơn giản Người xây dựng mô hình phải cân bằng giữa tính đơn giản của mô hình với các yêu cầu biểu diễn để mô hình có thể nắm bắt đủ thực tại cần thiết cho người ra quyết định

- Mô phỏng là kỹ thuật mô hình hóa thông dụng; dùng để tìm hiểu vấn đề tuy không nhất thiết phải tìm ra được các giải pháp biến thể; mở rộng quá trình ra

Trang 12

quyết định của tổ chức và cho phép tổ chức xem xét tác động, ảnh hưởng của các chọn lựa tương lai

- Mô phỏng tiết kiệm rất nhiều chi phí và thời gian – rất dễ thay đổi mô hình hoạt động của một hệ thống vật lý bằng mô hình hóa máy tính

- Mô hình có thể được phát triển và cài đặt bằng một số các ngôn ngữ lập trình và

hệ thống phần mềm khác nhau

Các phạm trù mô hình trong thực tiễn:

Phạm trù Quá trình và mục tiêu Kỹ thuật đại diện

Tối ưu hóa bài toán

với ít phương án

Tìm ra giải pháp tốt nhất từ một số ít phương án

Bảng quyết định, cây quyết định

Tối ưu hóa qua giải

thuật

Tìm ra giải pháp tốt nhất từ một số lớn hay vô hạn các phương án bằng quá trình cải thiện từng bước

Mô hình quy hoạch tuyến tính, quy hoạch toán học,

mô hình mạng lưới

Tối ưu hóa qua

biểu thức giải tích

Tìm ra giải pháp tốt nhất trong một bước bằng một công thức

Một số mô hình tồn kho

Mô phỏng Tìm giải pháp đủ tốt hay tốt

nhất trong số các phương án (đã kiểm tra) bằng thực nghiệm

Một vài loại mô phỏng

o Giả định có được tính ổn định của dữ liệu

o Mô phỏng quá trình dạng tĩnh - làm việc trên các trạng thái ổn định để tìm ra các thông số tối ưu – thường được dùng như công cụ chủ yếu để thiết kế quá trình

o Ví dụ: Quyết định sản xuất/mua 1 sản phẩm; báo cáo thu nhập hàng quý/năm

- Mô hình động: Biểu diễn các kịch bản thay đổi theo thời gian

o Phụ thuộc thời gian; các trạng thái thay đổi theo thời gian

Trang 13

o Thường dùng để tạo sinh và biểu diễn các xu hướng và khuôn mẫu theo thời gian

o Mô phỏng động: Thể hiện các diễn tiến khi các điều kiện theo thời gian khác với các trạng thái ổn định – thường được dùng để thiết kế việc kiểm soát các hệ thống

o Ví dụ: Dự báo lưu lượng nước của trạm thủy văn Hòa Bình trong thời gian 1 năm tới với các đầu vào là dữ liệu lưu lượng nước thay đổi theo từng năm

Vấn đề bất định, rủi ro và chắc chắn

- Mô hình chắc chắn: Tương đối dễ phát triển, giải quyết và có thể sinh ra các giải pháp tối ưu

- Các bài toán có một số lớn/vô hạn các giải pháp khả thi đặc biệt quan trọng

- Các mô hình tài chính được xây dựng trong điều kiện chắc chắn

- Mô hình bất định: Bằng cách thu thập thêm thông tin, cố gắng đưa bài toán trở

về dạng chắc chắn hay dạng rủi ro

- Mô hình rủi ro: Các quyết định kinh doanh được đưa ra dưới các rủi ro giả định

- Đôi khi biết được xác suất của các sự kiện xảy ra trong tương lai

- Các trường hợp khác (bất định): Ước lượng các rủi ro và giả sử các tình huống rủi ro xảy ra

Các mô hình hiện có trong thực tiễn:

- Mô hình hóa bằng bảng tính

- Mô hình hóa bằng phân tích quyết định

- Mô hình hóa bằng quy hoạch toán

- Mô hình hóa bằng Heuristic

- Mô phỏng

- Mô hình hóa đa chiều, xử lý phân tích trực tuyến (OLAP)

- Mô hình hóa và mô phỏng tương tác trực quan

- Các bộ phần mềm định lượng và xử lý phân tích trực tuyến

- Hệ quản trị cơ sở mô hình

Các mô hình sẽ được trình bày chi tiết trong chương 2

4 Cấu trúc và đóng góp của luận văn

Khai phá dữ liệu là một trong những lĩnh vực nghiên cứu của khoa học máy tính

hiện nay đang được phát triển rất mạnh mẽ Nó kết hợp giữa học máy, công nghệ cơ sở

dữ liệu và một số chuyên ngành khác để tìm ra những tri thức, bao gồm cả các thông tin dự báo, từ những cơ sở dữ liệu lớn

Trang 14

Luận văn này tập trung tìm hiểu về hệ hỗ trợ quyết định Trong đó mô hình của

hệ hỗ trợ quyết định (là 1 thành phần chủ chốt trong 3 thành phần của DSS) dựa trên một số phương pháp học máy tiên tiến như mạng nơ ron nhân tạo (ANN), cây quyết định, random forest và ứng dụng phương pháp máy học vào việc xây dựng mô hình dữ liệu cho hệ hỗ trợ quyết định Nền GIS được sử dụng để mô phỏng giao diện tương tác với người sử dụng Cơ sở dữ liệu không gian lưu trữ vị trí địa lý các trạm thủy văn, các đối tượng địa lý như sông ngòi, lớp bản đồ nền Ngoài ra, dữ liệu đầu vào là bộ số liệu lưu lượng nước được đo đạc hàng năm, được tiền xử lý rời rạc hóa để đưa vào xây dựng mô hình dữ liệu Đầu ra của ứng dụng là dự báo lưu lượng nước có thể lên đến 1 tháng Luận văn đã hoàn thành phần mềm thử nghiệm và tiến hành thực nghiệm trên

bộ dữ liệu được thu thập tin cậy thông qua hệ thống đo đạc thủy văn tại trạm Hòa Bình

- sông Đà, nguồn nước chính tại hồ Hòa Bình

Nội dung chính của luận văn được tổ chức thành 4 chương có nội dung được mô tả như dưới đây:

Chương 1: Giới thiệu tổng quan về bài toán, chương này giới thiệu tóm tắt về

DSS, các thành phần của DSS, nhu cầu hiện có và hướng giải quyết thực tiễn

Chương 2: Các mô hình hệ hỗ trợ quyết định và các phương pháp khai phá

dữ liệu, chương này trình bày kiến thức liên quan đến các mô hình của DSS trong thực tiễn, chi tiết các phương pháp Data mining về một số mô hình phân lớp, hồi quy

Chương 3: Giới thiệu về hệ DSS-GIS áp dụng vào việc dự báo lưu lượng nước, chương này trình bày về DSS được xây dựng trên nền GIS, trình bày về cách

xây dựng mô hình dữ liệu cho DSS sử dụng giải thuật random forest áp dụng vào việc

dự báo lưu lượng nước tại trạm thủy văn Hòa Bình dựa trên số liệu thu thập đo đạc lưu lượng qua các năm

Chương 4: Xây dựng chương trình chạy thử nghiệm, chương này nhằm mô tả

và đánh giá về chương trình đã xây dựng, kết quả thực nghiệm với bộ số liệu đo đạc tại trạm Hòa Bình Từ đó đánh giá dựa trên việc thực hiện so sánh bộ số liệu dự báo với bộ số liệu trong thực tế

Phần kết luận tổng kết những kết quả đã đạt được của luận văn và hướng phát

triển nghiên cứu tiếp theo

Trang 15

CHƯƠNG 2: CÁC MÔ HÌNH HỆ HỖ TRỢ QUYẾT ĐỊNH

VÀ CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU

1 Các mô hình của DSS

Mô hình hòa bằng bảng tính

Bảng tính: phần mềm mạnh, linh hoạt và dễ dùng, cho phép tạo sinh các ứng dụng

trong kinh doanh, kỹ thuật, toán và khoa học với tập các hàm mạnh về tài chính, thống kê, toán …

- Kèm theo là các thành phần cộng thêm (add-ins) giúp xây dựng và giải các lớp

mô hình đặc thù

- Là công cụ mô hình hóa thông dụng nhất của người dùng cuối cùng

- Có các chức năng về phân tích “what-if”, dò tìm mục tiêu, quản lý dữ liệu và lập trình (dạng macro)

- Có khả năng đọc, ghi các cấu trúc tập tin thông dụng để giao tiếp được với các CSDL và công cụ khác

- Có thể xây dựng mô hình tĩnh và động

- Dùng trên máy tính cá nhân và máy tính lớn

- Cơ sở để xây dựng các bảng tính đa chiều và các công cụ xử lý phân tích trực

tuyến (OLAP)

Mô hình hóa bằng phân tích quyết định

- Tiếp cận mô hình hóa các tình huống quyết định có một số hữu hạn/không quá nhiều các phương án – mỗi phương án được trình ra, dưới dạng bảng hay đồ thị -các kết quả tương ứng (dự báo được kèm xác suất) theo mục tiêu bài toán – từ

đó chọn phương án tốt nhất

- Đơn mục tiêu: bảng quyết định hay cây quyết định

- Đa mục tiêu: AHP (analytic hierarchy process)

Mô hình hóa bằng quy hoạch toán

- Quy hoạch toán học (mathematical programming) là họ các công cụ giải quyết các bài toán quản lý theo đó người ra quyết định phải cấp phát các tài nguyên khan hiếm cho các hoạt động cạnh tranh nhau (các phương án) nhằm tối ưu hóa mục tiêu có khả năng đo lường được

- Các mô hình quy hoạch tuyến tính (linear programming) thông dụng nhất trong quy hoạch toán; có nhiều ứng dụng trong thực tế; được dùng nhiều trong các hệ

hỗ trợ quyết định

- Bài toán quy hoạch tuyến tính:

- Các biến quyết định (cần tìm giá trị)

- Hàm mục tiêu (hàm toán học dạng tuyến tính xác định quan hệ giữa biến quyết định và mục tiêu; đo lường mức độ đạt đạt mục tiêu và cần được tối ưu hóa)

Trang 16

- Các hệ số của hàm mục tiêu (cho biết mức đóng góp vào mục tiêu của 1 đơn vị biến quyết định)

- Ràng buộc (biểu thức tuyến tính cho biết giới hạn tài nguyên và/hay các quan hệgiữa các biến số)

- Dung lượng (mô tả cận trên và dưới của các biến và ràng buộc)

- Hệ số (công nghệ) vào-ra (cho biết mức độ sử dụng tài nguyên của biến quyết định)

Đặc điểm của bài toán quy hoạch tuyến tính:

- Tài nguyên kinh tế của bài toán là có hạn và sẵn sàng

- Có nhiều cách (>2 cách) sử dụng tài nguyên được gọi là giải pháp hay chương trình

- Mỗi hoạt động dùng tài nguyên đều sinh ra kết quả dưới dạng mục tiêu đã phát biểu trước

- Việc cấp phát nằm trong các ràng buộc cho trước

Giả định của bài toán quy hoạch tuyến tính:

- Các kết quả của các cấp phát có thểđem so sánh với nhau, có thể đo lường bằng một đơn vị chung

- Các cấp phát độc lập với nhau về mặt kết quả

- Kết quả cuối cùng là tổng của các kết quả từ các hoạt động riêng rẽ khác nhau

- Dữ liệu có tính chắc chắn

- Tài nguyên được dùng một cách kinh tế nhất

- Thường có một số lớn các giải pháp với kết quả khác nhau

- Trong số các giải pháp có thể, có 1 giải pháp tốt nhất –mức độ đạt được mục tiêu cao nhất – gọi là giải pháp tối ưu được tìm ra bằng một giải thuật đặc biệt

Mô hình hóa bằng Heuristic

- Việc tìm giải pháp tối ưu của một số bài toán quyết định phức tạp có thể tốn nhiều thời gian, chi phí hay không thể tìm ra được Còn nếu dùng tiếp cận mô phỏng cũng có thể kéo dài, phức tạp, không thích hợp hay thậm chí không

chính xác

- Là một tiếp cận giúp tìm ra các giải pháp khả thi/thỏa mãn/đủ tốt cho các bài toán phức tạp Có thể có giải pháp đủ tốt (90-99.9% giá trị của lời giải tối ưu) nhanh chóng và đỡ tốn kém hơn bằng cách dùng heuristics

- Quá trình heuristic là dãy các bước xây dựng các quy luật giải quyết vấn đề thông qua việc tìm kiếm các con đường hứa hẹn nhất dẫn đến lời giải; tìm kiếm cách thức thu thập và phân giải thông tin theo quá trình giải và phát triền các phương pháp dẫn đến một giải thuật tính toán hay một lời giải tổng quát đã có

- Áp dụng chủ yếu cho bài toán cấu trúc yếu; cũng dùng để tìm ra giải pháp chấp

Trang 17

nhận được cho bài toán cấu trúc chặt

- Không đủ tổng quát như các giải thuật; thường chỉ dùng cho tình huống đặc thù đang xét

- Có thể dẫn đến một giải pháp dở - các thủ tục từng bước giải quyết vấn đề không đảm bảo tìm ra giải pháp tối ưu

- Heuristic có thể là định lượng vì vậy có thể đóng vai trò quan trọng trong cơ sở

mô hình của hệ hỗ trợ quyết định

- Heuristic có thể là định tính vì vậy có thể đóng vai trò quan trọng trong cung ứng kiến thức cho hệ chuyên gia

- Quá trình heuristic liên quan đến tìm kiếm, học tập, ước lượng, phân xử và lặp lại các hoạt động này dọc theo tiến trình

- Kiến thức thu được dù thành công hay thất bại trong quá trình đều được phản hồi và sửa đổi chính quá trình, nhờđó có thểđịnh nghĩa lại mục tiêu hay bài toán

Tìm kiếm Tabu (Glover & Laguna, 1997, Sun et al., 1998) đặt cơ sở trên các

chiến lược tìm kiếm thông minh nhằm rút ngắn việc dò tìm: “ghi nhớ” các giải pháp tốt và xấu đã tìm được và hướng dần đến các giải pháp tốt

Giải thuật di truyền: bắt đầu bằng tập các giải pháp được sinh ngẫu nhiên, tái

kết hợp các cặp giải pháp một cách ngẫu nhiên

Tình huống nên dùng heuristics

- Dữ liệu đầu vào không chính xác hay có giới hạn

- Thực tế quá phức tạp đến nỗi không dùng được các mô hình tối ưu

- Chưa có được giải thuật chính xác và đủ tin cậy

- Bài toán phức tạp nên sẽ không kinh tế nếu dùng tối ưu hay mô phỏng hoặc tốn quá nhiều thời gian tính toán

- Có thể cải thiện tính hiệu quả của quá trình tối ưu (tức có thể sinh ra các giải pháp ban đầu tương đối tốt)

- Liên quan đến xử lý ký hiệu chứ không phải xử lý ký số (như hệ chuyên gia)

- Cần có quyết định nhanh và các xử lý dựa vào máy tính đều không khả thi (một

số heuristic không cần đến máy tính)

Thuận lợi:

- Dễ hiểu, dễ giải thích và dễ cài đặt

- Nâng cao tính sáng tạo và năng lực heuristic cho các vấn đề khác

- Tiết kiệm thời gian xác lập vấn đề

- Tiết kiệm yêu cầu về bộ chứa và xử lý máy tính

- Tiết kiệm thời gian tính toán và do vậy tiết kiệm thời gian thực trong ra quyết định Một số vấn đề phức tạp đến nỗi chỉ có thể giải được bằng heuristics

- Thường sinh ra nhiều giải pháp chấp nhận được

- Thường có thể phát biểu lý thuyết hay đo lường thực nghiệm về chất lượng của giải pháp (tức giá trị mục tiêu của giải pháp gần với giá trịtồi ưu đến mức nào,

Trang 18

dù giá trịtối ưu chưa biết được)

- Có thể kết hợp tính thông minh vào để hướng dẫn phép tìm kiếm (tìm kiếm tabu) Năng lực thông minh đó có thể là đặc thù theo bài toán hoặc dựa trên ý kiến chuyên gia được cấy trong hệ chuyên gia hoặc cơ chế tìm kiếm

- Có thể dùng heuristic hiệu quả vào các mô hình có thể giải bằng quy hoạch toán học Đôi khi heuristic là phương pháp được ưa thích hơn, khi khác giải pháp heuristics được dùng như giải pháp ban đầu cho các phương pháp quy hoạch toán học

Hạn chế:

- Không đảm bảo có được giải pháp tối ưu

- Các quy luật có rất nhiều ngoại lệ

- Các lựa chọn quyết định tuần tự có thể không tiên đoán được các kết cục tương lai của mỗi chọn lựa

- Sự liên thuộc giữa các phần trong hệ thống đôi khi có thể gây ra các ảnh hưởng lớn lao lên toàn hệ thống

Phân loại các giải thuật heuristic:

- Heuristic xây dựng: xây dựng giải pháp khả thi bằng cách cộng thêm từng thành

phần một Ví dụ: bài toán người bán hàng – luôn ghé thành phố chưa viếng

thăm kếtiếp gần nhất

- Heuristic cải tiến: bắt đầu bằng một giải pháp khả thi và cố gắng cải tiến liên

tục trên đó Ví dụ trên, thử hoán đổi 2 thành phố

- Quy hoạch toán: áp dụng vào các mô hình chứa ít ràng buộc nhằm có được thông tin về thỏa hiệp tốt nhất với mô hình nguyên gốc Thường được dùng trong tối ưu hóa nguyên (integer optimization)

- Chia giai đoạn: giải quyết một vấn đề theo từng giai đoạn

- Phân rã: chia bài toán thành các phần nhỏ hơn, có thể giải quyết được sau đó

kết hợp các giải pháp đó lại Ví dụ: chia lãnh thổ bán hàng thành 4 vùng khác

nhau, giải quyết cho từng vùng sau đó kết nối các giải pháp

Mô phỏng

- Giả định các đặc điểm của thực tại

- Là kỹ thuật tiến triển các thực nghiệm (như phân tích “what-if”) - bằng máy tính trên một mô hình của hệ thông tin quản lý

- Không thực sự là một mô hình vì không biểu diễn thực tại mà là cố gắng bắt chước thực tại

- Là một trong những phương pháp thông dụng nhất trong DSS

- DSS làm việc với các bài toán phi cấu trúc và cấu trúc yếu, tình huống thực tế phức tạp – không dễ biểu diễn bằng mô hình tối ưu hay các dạng mô hình khác nhưng lại thường có thể xử lý được bằng mô phỏng

Trang 19

Đặc điểm:

- Ít đưa ra các đơn giản hóa về thực tại hơn các mô hình khác

- Do triển khai các thực nghiệm nên nó có thể kiểm thửcác giá trị cụ thể của các biến quyết định/biến không kiểm soát được của mô hình và xem xét ảnh hưởng lên các biến kết quả

- Phương pháp có tính mô tả (như vậy khác với phương pháp danh định)

- Không tự động tìm kiếm giải pháp tối ưu – nó mô tả/tiên đoán các đặc tính của hệthống đã cho dưới các điều kiện khác nhau từđó có thể chọn ra phương án tốt nhất

- Quá trình mô phỏng thường lặp lại một thực nghiệm nhiều lần để có được ước lượng về hiệu ứng tổng quát của một số hành động nhất định

- Mô phỏng máy tính thích hợp cho hầu hết các tình huống mặc dù cũng có một sốmô phỏng thủ công thành công

- Thường chỉđược dùng khi bài toán quá phức tạp không thể xem xét bằng các kỹ thuật tối ưu dạng số Tính phức tạp theo nghĩa bài toán không thể công thức hóa cho tối ưu (do không thõa các giả định), hoặc công thức quá lớn, quá nhiều tương tác giữa các biến hoặc về bản chất bài toán là bất định hay rủi ro

Phương pháp mô phỏng: thiết lập mô hình của hệ thống thực và tiến hành các

thực nghiệm lặp lại trên mô hình

Thuận lợi:

- Lý thuyết tương đối trực tiếp hiệu ứng dài hạn của nhiều chính sách => nén thời gian lớn

- Do tính chất mô tả (khác với danh định)

- Có thể thấy được nhanh chóng, có thể đặt ra các câu hỏi “what-if”, có thể dùng tiếp cận thử-và-sai vào giải quyết vấn đề một cách nhanh chóng, rẻ, chính xác,

để từ đó bản chất bài toán và các quyết định được hiểu tốt hơn

- Mô hình được xây dựng từ viễn cảnh/cách nhìn của nhà quản lý

- Mô hình chỉ cho một bài toán riêng biệt, thường không thể dùng giải các bài toán khác Như vậy mỗi thành phần của mô hình ứng với một phần của hệ thống thực, do đó sẽ không yêu cầu nhà quản lý phải tổng quát hóa các hiểu biết của mình

- Phổ bài toán giải được rất rộng: tồn kho, nhân sự, hoạch định chiến lược

- Có thể chứa các phức tạp thực sự của bài toán, không cần các đơn giản hóa (Ví

Trang 20

dụ: dùng các phân phối xác suất thực thay vì phân phối lý thuyết xấp xỉ)

- Có thể tự động sinh ra nhiều đo lường hiệu năng quan trọng

- Thường là phương pháp duy nhất của DSS có thể xử lý các bài toán tương đối phi cấu trúc

- Có một số các gói phần mềm mô phỏng (Monte Carlo) tương đối dễ dùng

Điểm yếu:

- Tuy thường tìm được các phương án đủ tốt nhưng không đảm bảo lời giải tối ưu

- Quá trình xây dựng mô hình thường dài và tốn kém

- Giải pháp và suy diễn từ nghiên cứu mô phỏng thường không thể chuyển sang bài toán khác vì mô hình kết hợp các yếu tố đặc thù

- Đôi khi do mô hình quá dễ giải thích cho nhà quản lý nên các phương pháp phân tích thường xem nhẹ

- Phần mềm mô phỏng đôi khi yêu cầu các kỹ năng đặc biệt do độ phức tạp của phương pháp giải hình thức

- Mô phỏng độc lập/phụ thuộc theo thời gian:

Độc lập: không cần thiết phải biết chính xác thời điểm xảy ra biến cố (nhu cầu tiêu thụ lượng sản phẩm trong ngày, không biết chính xác thời điểm tiêu thụ)

Phụ thuộc: cần biết chính xác thời điểm xảy ra sự kiện (bài toán hàng đợi)

- Mô phỏng tương tác trực quan:

- Mô phỏng hướng đối tượng: dùng tiếp cận hướng đối tượng để xây dựng mô hình mô phỏng Chú ý ngôn ngữ mô hình hóa nhất thể UML (unified modeling language) kể cả khi mô phỏng các hệ thời gian thực

Mô hình hóa đa chiều, xử lý và phân tích trực tuyến (OLAP)

- Người ra quyết định thường phải xem xét nhiều chiều của dữ liệu (Ví dụ: các chiều của dữ liệu bán hàng là sản phẩm, vùng, thời gian, người bán ); dữ liệu cần được phân tích trực tiếp bằng các công cụ chuẩn hay phân tích tự động bằng các phương pháp khai mỏ dữ liệu (data mining)

- Hầu hết các hệ thống phân tích đa chiều được nhúng trong các hệ xử lý phân tích trực tuyến (online analytic processing - OLAP)

- Mục tiêu của OLAP: nắm bắt cấu trúc của dữ liệu thực để hỗ trợ ra quyết định

- Trong DSS có sự gắn nối tự nhiên giữa mô hình hóa dữ liệu, mô hình hóa ký

Trang 21

hiệu và các khía cạnh của phân tích “what-if”

- Các báo cáo của hệ OLAP đều có tính tương tác, dễ khai thác sử dụng, đặc biệt phù hợp cho các báo cáo về chỉ số hiệu năng chủ yếu (key performance indicators - KPI), báo cáo về đo lường hiệu năng kinh doanh

- Thế hệ hiện tại của hệ OLAP và hệ khai mỏ dữ liệu (data mining) tích hợp các đặc tính của hệ thông tin lãnh đạo (executive information system –EIS- nhiều cách nhìn dữ liệu, chi tiết hóa theo nhu cầu ) và các hệ đồ họa khác – thường

có giao diện người dùng dạng kiểu WEB

- Các hệ thống như trên còn được gọi là các công cụ trí tuệ kinh doanh (business intelligence - BI) vì có các đặc trưng về mô hình hóa và tối ưu hóa nhưng lại trong suốt đối với ngươì dùng

- Hiện các công cụ được đưa ra bởi các nhà cung cấp về CSDL, về hoạch định tài nguyên tổ chức (ERP), về nhà kho dữ liệu (data warehouse), về hệ OLAP

Mô hình hóa và mô phỏng tương tác trực quan

- Ích lợi: Người ra quyết định tham gia vào quá trình phát triển mô hình và thực

nghiệm mô phỏng vì vậy sẽ tin tưởng khi sử dụng mô hình

- Mô hình hóa tương tác trực quan (Visual Interactive Modeling - VIM) dùng các biểu diễn đồ họa máy tính để trình bày các ảnh hưởng của các quyết định quản

lý khác nhau, ở một thời điểm (tĩnh) hay tiến triển theo thời gian (động với kỹ thuật hoạt hình)

- Mô phỏng tương tác trực quan (Visual Interactive Simulation - VIS) cho phép người dùng theo dõi tiến trình xây dựng vàsử dụng khai thác mô hình mô phỏng dưới dạng hoạt hình

- Mô hình hóa tương tác trực quan có thể kết hợp với tiếp cận trí tuệ nhân tạo để đưa ra các khả năng mới thay đổi từ xây dựng hệ thống dạng đồ họa đến tìm hiểu về động học của hệ thống

- Cần đến các hệ thống máy tính xử lý song song tốc độ cao để xây dựng các mô phỏng - phức tạp, quy mô lớn, dạng hoạt hình - mang tính khả thi ở thời gian thực

Các bộ phần mềm định lượng và xử lý phân tích trực tuyến

- Một số công cụ DSS có chứa sẵn các trình con để xây dựng các mô hình định lượng về thống kê, phân tích tài chánh, kế toán …

- Nhiều công cụ HTQĐ có thể tương tác với các bộ phần mềm định lượng chuẩn (các mô hình lập sẵn), nhờ đó có thể tăng năng suất nhờ vào các mô hình có sẵn

Trang 22

tích trực tuyến, do đó người dùng khó nhận biết được các phương pháp thống

- Phần mềm mô hình hóa phân tích/khoa học quản lý (MS/OR)

- Có rất nhiều trên thị trường về phân tích thống kê, quy hoạch tuyến tính, mô phỏng, phân tích quyết định, quy hoạch phi tuyến, dự báo

- Một vài bộ tạo sinh DSS có các năng lực tối ưu và mô phỏng

- Phần mềm quản lý lợi nhuận (revenue/yield management):

- Phổ biến trong lĩnh vực dịch vụ

- Mô hình động về phân loại khách hàng, ước lượng nhu cầu, định giá cả cho từng loại khách hàng

Hệ quản trị cơ sở mô hình

- Có năng lực như hệ quản trị CSDL Tuy nhiên thị trường có thể có nhiều hệ

quản trị CSDL nhưng chưa có các sản phẩm về hệ quản trị cơ sở mô hình

- Các khía cạnh cấu trúc và giải thuật của mô hình cũng như xử lý dữ liệu liên

quan cần trong suốt đối với người dùng

- Khả năng tích hợp mô hình (mô hình với mô hình, dữ liệu với mô hình và

ngược lại)

- Chưa có các hệ quản trị cơ sở mô hình chuẩn hóa vì:

- Có nhiều lớp mô hình nhưng đều khác cấu trúc (Ví dụ: quy hoạch tuyến tính

khác với phân tích hồi quy )

- Mỗi lớp mô hình có vài tiếp cận giải quyết vấn đề khác nhau – phụ thuộc vào

cấu trúc bài toán, kích cỡ, khuôn dạng và dữ liệu; tiếp cận coi là chuẩn có thể có hiệu quả thấp hơn tiếp cận đặc thù

- Một số năng lực của hệ quản trị cơ sở mô hình liên quan đến khả năng suy lý và kiến thức chuyên gia có thể tạo sinh ở các hệ thống khác – các hệ trí tuệ nhân

tạo …

- Hiện tại bảng tính và vài công cụ & ngôn ngữ DSS có đưa ra một số năng lực

của hệ quản trị cơ sở mô hình

- Có một số ngôn ngữ mô hình hóa đặc biệt được dùng như công cụ truy xuất đến các phần mềm thực sự thực hiện tác vụ tối ưu hóa hay mô phỏng Chúng hỗ trợ cho việc phát triển và quản lý các mô hình Vài ngôn ngữ mô hình hóa dạng quy hoạch toán học thông dụng như Lingo, AMPL, GAMS

Người dùng phải có được khả năng sau:

- Truy đạt, thao tác, lưu chứa và hiệu chỉnh mô hình hiện có

Trang 23

- Xây dựng mô hình mới từ các mô hình hiện có với nổ lực chi phí phù hợp

Hệ quản trị cơ sở mô hình quan hệ:

- Tương tự như CSDL quan hệ, mô hình được xem như một quan hệ ảo

- Có 3 hoạt động cần thiết để có được tính đầy đủ quan hệ trong quản lý mô hình: thực thi (execution), tối ưu và phân tích độ nhạy (sensitivity analysis)

Hệ quản trị cơ sở mô hình hướng đối tượng:

- Duy trì sự độc lập logic giữa cơ sở mô hình và các thành phần khác của DSS,

hỗ trợ sự tích hợp thông minh và ổn định giữa các thành phần

- các khái niệm hướng đối tượng quen thuộc trong các giao diện người dùng đồ

họa (GUI) đều có thể áp dụng vào việc quản lý mô hình

2 Hệ hỗ trợ quyết định không gian (SDSS)

Ý niệm về SDSS được bắt nguồn từ khái niệm DSS từ những năm của thập kỷ 70,

và được phát triển sau đó Bởi vì SDSS theo sau DSS nên nó cũng cần thiết để có những đặc điểm chung được đưa ra bởi Sprague & Ralph (1980), cũng như những khả năng bổ sung được đưa ra bởi Densham (1990) như sau:

- Cung cấp những cơ chế cho đầu vào của dữ liệu không gian

- Cho phép biểu diễn những cấu trúc và những quan hệ không gian

- Bao gồm các kỹ thuật phân tích địa lý và không gian

- Cung cấp đầu ra dưới các khuân dạng không gian khác nhau bao gồm các bản

đồ và các báo cáo dạng bảng biểu

Khi thành phần không gian được đưa vào DSS, thì việc xử lý và quản lý thông tin không gian là hoàn toàn có thể, vì vậy SDSS có đóng góp quan trọng đối việc việc lồng ghép chiều không gian trong quá trình đưa ra quyết định, nó có tầm quan trọng vĩ đại trong nhiều lĩnh vực liên quan đến bảo tồn và quản lý nguồn tài nguyên thiên nhiên Theo Segrera, Ponce-Hernadez và Arcia (2003) cho rằng SDSS bao gồm 4 hoạt động chính để hỗ trợ ra quyêt định bao gồm: dữ liệu đầu vào, quản lý cơ sở dữ liệu, phân tích và hiển thị Sau đó SDSS được đưa ra thành 5 thành phần chính bao gồm:

- Một hệ quản trị cơ sở dữ liệu

- Các thủ tục phân tích trong một hệ quản trị dựa trên cơ sở mô hình

- Một máy sinh màn hình

- Một máy sinh báo cáo

- Một giao diện người dùng

3 Khai phá dữ liệu

Tổng quan

Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu

Trang 24

Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác

có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (Knowlegde mining from database), trích lọc dữ liệu (Konwlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging) Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là như nhau Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình Khám phá tri thức trong CSDL

Quá trình này gồm các bước:

1) Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu hoặc các dữ liệu không thích hợp

2) Tích hợp dữ liệu (data integration): Tích hợp dữ liệu từ các nguồn khác nhau như: CSDL, Kho dữ liệu, file text…

3) Chọn dữ liệu (data selection): Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu

4) Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp

5) Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu

6) Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo

7) Trình diễn dữ liệu (Knowlegde presentation): Sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng

Các kỹ thuật và cách tiếp cận khai phá dữ liệu

- Các kỹ thuật khai phá dữ liệu bao gồm 2 nhóm chính:

o Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có Các kỹ thuật này gồm có: phân cụm (clustering), tóm tắt (summarization), trực quan hoá (visualization), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules)…

o Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời Các kỹ thuật này gồm có: Phân lớp (classification), hồi quy (regression)…

- Hướng tiếp cận: Với hai đích chính của khai phá dữ liệu là Dự đoán (Prediction) và Mô tả (Description), người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:

o Phân loại (Classification)

o Hồi qui (Regression)

Trang 25

o Phân nhóm (Clustering)

o Tổng hợp (Summarization)

o Mô hình ràng buộc (Dependency modeling)

o Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)

o Biểu diễn mô hình (Model Representation)

o Kiểm định mô hình (Model Evaluation)

o Phương pháp tìm kiếm (Search Method)

- Ứng dụng của khai phá dữ liệu: Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hoá… hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹ thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt

- So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá

dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn

- Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu trong CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng Hơn nữa các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được

- Phương pháp thống kê là một trong những nên tảng lý thuyết của khai phá dữ liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kê còn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được:

o Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều CSDL

o Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không

Trang 26

4 Các kỹ thuật phân lớp dữ liệu

Kĩ thuật phân lớp dữ liệu trong khai phá dữ liệu là một trong những vấn đề nguyên cứu mở rộng hiện nay, tập trung chủ yếu vào thống kê, máy học và mạng nơron Kĩ thuật phân lớp được đánh giá là một kĩ thuật khai phá dữ liệu được sử dụng rộng rãi nhất với nhiều mở rộng

Phân lớp dữ liệu là kĩ thuật dựa trên tập huấn luyện và những giá trị hay hay là nhãn của lớp trong một thuộc tính phân lớp và sử dụng nó trong việc phân lớp dữ liệu mới Phân lớp cũng là tiên đoán loại lớp của nhãn Bên cạnh kĩ thuật phân lớp có một hình thức tương tự là kĩ thuật tiên đoán, kĩ thuật tiên đoán khác với phân lớp ở chỗ phân lớp chỉ liên quan đến tiên đoán loại lớp của nhãn còn kĩ thuật tiên đoán mô hình những hàm đánh giá liên tục

Kĩ thuật phân lớp được tiến hành bao gồm 2 bước:

- Xây dựng mô hình: Là mô tả một tập những lớp được định nghĩa trước trong

đó Mỗi bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như là được xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ được sử dụng trong việc sử dụng mô hình được gọi là tập huấn luyện Mô hình được biểu diễn

là những luật phân lớp, cây quyết định và những công thức toán học

- Sử dụng mô hình: Việc sử dụng mô hình phục vụ cho mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến Trước khi sử dụng mô hình người ta thường phải đánh giá tính chính xác của mô hình trong đó “nhãn” được biết của mẫu kiểm tra được so sánh với kết quả phân lớp của mô hình, độ chính xác là phần trăm của tập hợp mẫu kiểm tra mà phân loại đúng bởi mô hình, tập kiểm tra là độc lập với tập huấn luyện

Phân lớp là một hình thức học được giám sát tức là: Tập dữ liệu huấn luyện (quan sát, thẩm định .) đi đôi với những nhãn chỉ định lớp quan sát, những dữ liệu mới được phân lớp dựa trên tập huấn luyện Ngược lại với hình thức học được giám sát là hình thức học không được giám sát lúc đó nhãn lớp của tập dữ liệu huấn luyện là không được biết đến

Phân lớp bằng phương pháp quy nạp cây quyết định

Cây quyết định là một cây mà trong đó:

- Nút trong: Là một phép kiểm tra trên một thuộc tính

- Nhánh của cây: Là đầu ra của một phép kiểm tra

- Nút lá: Là nhãn phân lớp hoặc sự phân chia vào lớp

Có 2 giai đoạn tạo cây quyết định

Giai đoạn 1: Xây dựng cây:

- Bắt đầu: Tất cả các mẫu huấn luyện đều ở gốc

- Phân chia các mẫu dựa trên các thuộc tính được chọn

Trang 27

- Kiểm tra các thuộc tính được chọn dựa trên một độ đo thống kê hoặc heuristic Giai đoạn 2: Thu gọn cây

- Xác định và loại bỏ những nhánh nhiễu hoặc tách khỏi nhóm

Sau khi xây dựng xong cây thì:

- Mỗi một đường dẫn từ gốc đến lá trong cây tạo thành một luận

- Nút lá giữ quyết định phân lớp dự đoán

- Các luật tạo được dễ hiểu hơn các cây

Cây quyết định có 2 kiểu là cây hồi quy (Regression tree) ước lượng các hàm giá

có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại (ví dụ: ước tính

lưu lượng nước của một dòng chảy), cây phân loại (Classification tree)

Có nhiều giải thuật khác nhau dựa trên cây quyết định như giải thuật ID3, C4.5, CART, CHAID, random forest… điểm khác nhau chủ yếu giữa các giải thuật là dựa trên tiêu chuẩn hay thuộc tính phân chia, độ đo để chọn lựa Các độ đo để chọn lựa thuộc tính thường là độ đo về độ lợi thông tin (gain information), chỉ số Gini index, G-thống kê

Độ lợi thông tin

Độ lợi thông tin sử dụng để lựa chọn thuộc tính trên cây quyết định: Chọn thuộc tính có chỉ số về độ lợi thông tin là lớn nhất

Giả sử cho hai lớp P và N và S là một tập hợp có p phần tử lớp P, n phần tử lớp N Khi

đó khối lượng thông tin cần thiết để quyết định một mẫu tùy ý có thuộc về lớp P hay lớp N hay không là:

v i i=1

pE(A)= i ( , )

( ) ( , ) ( )

Gain A I p n E A Những tiêu chuẩn khác nhau khi xây dựng lên cây quyết định:

- Các điều kiện để ngừng phân chia:

o Tất cả các mẫu thuộc về cùng một lớp

o Không còn thuộc tính nào để phân chia

o Không còn mẫu nào để phân lớp

- Chiến lược rẽ nhánh:

o Nhị phân và k-phân

o Các thuộc tính rời rạc, rõ ràng và các thuộc tính liên tục

Trang 28

- Luật đánh nhãn: Một nút lá được đánh nhãn vào một lớp mà phần lớn các mẫu tại nút này thuộc về lớp đó

Cây tạo thành sau khi xây dựng có thể gây lên hiện tượng Overfit dữ liệu huấn luyện (quá nhiều nhánh hoặc là kém chính xác cho những mẫu chưa biết) Lý do này

có thể là do dữ liệu nhiễu và tách rời khỏi nhóm hoặc là dữ liệu huấn luyện có kích thước quá nhỏ hoặc các giá trị đạt tối đa cục bộ trong giải thuật tìm kiếm tham lam Trong quá trình rút gọn cây, muốn tránh được hiện tượng này thì ta thường rút gọn trước (ngừng sớm) hoặc rút gọn sau (loại bỏ bớt các nhánh sau khi xây dựng xong toàn

bộ cây)

Giải thuật random forest (RF) [18]

Chúng ta giả thiết rằng người sử dụng đã biết cách xây dựng những cây phân lớp đơn giản RF trồng lên nhiều cây phân lớp Để phân loại một đối tượng mới từ một véc

tơ đầu vào, ta đặt véc tơ đầu vào đó trôi xuống mỗi cây trong rừng Mỗi cây cho một phân lớp, và chúng ta gọi cây “ứng cử - vote” cho lớp đó Rừng lựa chọn phân lớp có nhiều ứng cử nhất (trên khắp tất cả các cây trong rừng)

Mỗi cây được trồng như sau:

1 Nếu số các trường hợp trong tập huấn luyện là N, mẫu N trường hợp ngẫu nhiên – nhưng có sự thay thế từ dữ liệu ban đầu Mẫu này sẽ là tập huấn luyện cho việc trồng cây

2 Nếu có M biến đầu vào, và m<<M được xác định với mục đích tại mỗi nút, m biến được lựa chọn ngẫu nhiên ra từ M biến và phân chia tốt nhất trên m biến nhỏ này được sử dụng để phân chia nút Giá trị của m giữ nguyên không đổi trong suốt quá trình trồng rừng

3 Mỗi cây được trồng để phát triển lớn nhất có thể Không bị cắt tỉa

Trong bài báo đầu tiên về random forest, người ta chỉ ra rằng tỷ lệ lỗi của rừng phụ thuộc vào hai yếu tố:

- Tương quan giữa hai cây bất kỳ trong rừng, nếu gia tăng tương quan thì tỷ lệ lỗi tăng lên

- Độ dài của bản thân mỗi cây trong rừng Một cây với một tỷ lệ lỗi thấp là một phân lớp tốt Gia tăng độ dài của các cây làm giảm tỷ lệ lỗi rừng

Giảm m thì giảm cả tương quan và độ dài, tăng m thì tăng cả hai Một số vị trí ở giữa là một phạm vi “tối ưu” của m – thường khá rộng Sử dụng tỷ lệ lỗi oob (out of bagging- xem bên dưới) thì giá trị của m trong phạm vi có thể nhanh chóng được tìm thấy Đây là tham số điều chỉnh duy nhất

Các đặc điểm của RF

- Độ chính xác của nó không cao so với các giải thuật hiện tại

- Chạy hiệu quả trên một tập dữ liệu lớn

Trang 29

- Có thể xử lý hàng nghìn biến đầu vào mà không cần xoá biến

- Nó có thể dự đoán biến nào là quan trọng trong phân lớp

- Nó có thể đưa ra một dự báo khách quan bên trong của lỗi tổng quát hoá như các quá trình trồng rừng

- Có một phương pháp hiệu quả cho việc dự báo dữ liệu lỗi và duy trì độ chính xác khi một lượng dữ liệu tương đối lớn bị mất (mất cân đối)

- Có những phương pháp cân bằng lỗi trong các tập dữ liệu không cân bằng

- Các rừng được sinh ra có thể được lưu lại để dùng cho các dữ liệu khác trong tương lai

- Các nguyên mẫu được tính toán để cung cấp các thông tin về quan hệ giữa các biến và lớp

- Tính toán sự khoảng cách giữa các cặp trường hợp để có thể sử dụng trong việc phân cụm, định vị trí những thành phần kỳ dị (nằm ngoài), hoặc cho phép xem những thông tin thú vị của dữ liệu

- Những tính năng trên có thể được áp dụng đối với dữ liệu không được gắn nhãn, hướng đến phân cụm không giám sát, tìm kiếm các kỳ dị và các khung nhìn dữ liệu

- Cung cấp một phương pháp thực nghiệm cho việc tìm kiếm những tương tác biến đổi

Nhận xét:

RF không overfit Bạn có thể chạy rất nhiều cây khi bạn muốn Chạy trên một tập

dữ liệu khoảng 50.000 trường hợp và 100 biến, nó sinh ra 100 cây trong vòng 11 phút trên máy tính 800MHZ Đối với các tập dữ liệu lớn thì yêu cầu bộ nhớ chính phải chứa được dữ liệu của nó, và các dữ liệu có cùng kiểu mảng nguyên 3 chiều Nếu các giá trị xấp xỉ được tính toán, yêu cầu về sức chứa dữ liệu sẽ tăng lên khi số các trường hợp nhân lên với số cây

RF làm việc nhƣ thế nào

Để hiểu và sử dụng các lựa chọn khác nhau, thông tin thêm về cách tính sẽ rất hữu ích Hầu hết các lựa chọn phụ thuộc vào hai đối tượng dữ liệu được sinh bởi RF Khi tập huấn luyện của cây hiện tại được vẽ bằng mẫu có thay thế, khoảng một phần 3 số trường hợp bị loại khỏi mẫu dó Dữ liệu oob được sử dụng để đưa ra một đánh giá khách quan về lỗi phân lớp khi cây được bổ sung vào rừng Nó cũng sẽ được

sử dụng để đánh giá về tầm quan trọng biến đổi

Sau khi mỗi cây được xây dựng, tất cả dữ liệu cho chạy xuống cây, và những xấp

xỉ được tính toán đối với mỗi cặp trường hợp Nếu hai cặp trường hợp có cùng nút đầu cuối, thì sự xấp xỉ của chúng tăng lên 1 Tại thời điểm kết thúc chạy, những xấp xỉ được chuẩn hoá bằng cách chia cho số các cây Những sự xấp xỉ được sử dụng trong

sự thay thế dữ liệu lỗi, định vị kỳ dị, và xuất ra những khung nhìn ít chiều của dữ liệu

Trang 30

Ứơc lượng lỗi OOB (out of bag)

Trong RF, không cần cross-validation hoặc một tập kiểm thử riêng rẽ để đưa ra đánh giá khách quan của tập dữ liệu lỗi Nó được ướng lượng bên trong, suốt thời gian chạy, như sau:

Mỗi cây được xây dựng sử dụng một mẫu bootstrap khác nhau từ dữ liệu ban đầu Khoảng 1/3 trường hợp nằm ngoài mẫu bootstrap và không được sử dụng để xây dựng cây thứ k

Đặt mỗi trường hợp bên ngoài đó trong sự xây dựng của cây thứ k xuống cây thứ k

để nhận được một sự phân lớp Trong trường hợp này, một phân loại tập kiểm thử đã thu được cho mỗi trường hợp trong khoảng 1/3 của cây Tại thời điểm kết thúc chạy, lấy j là lớp mà nó nhận được nhiều ứng cử nhất tại mọi trường hợp thời điểm là OOB

Tỉ lệ số lần mà j không tương đương với lớp đúng của n được trung bình qua tất cả các trường hợp là ước lượng tỷ lệ lỗi OOB Điều này đã được chứng minh là khách quan trong nhiều thí nghiệm

Sự quan trọng biến đổi (Variable Importance)

Đối với mỗi cây được trồng trong rừng, đẩy các trường hợp OOB xuống và đếm

số lần đề cử ép cho mỗi lớp đúng Giờ lấy hoán vị ngẫu nhiên các giá trị của m biến trong các trường hợp OOB và đẩy các trường hợp này xuống cây Trừ đi một số đề cử cho lớp đúng trong m biến được hoán vị dữ liệu OOB từ một số lần đề cử cho lớp đúng trong dữ liệu OOB không được dùng đến Trung bình của số này qua tất cả các cây trong rừng là điểm quan trọng thô cho m biến đổi

Nếu các giá trị của điểm này từ cây này đến cây khác là độc lập với nhau, thì lỗi chuẩn có thể được tính toán bởi một phép tính chuẩn Những tương quan của điểm này giữa các cây được tính cho một số tập dữ liệu và được chứng minh là khá thấp, do đó chúng ta có thể tính toán các lỗi chuẩn theo phương pháp cổ điển, chia điểm thô bởi lỗi chuẩn của nó để nhận một điểm z (z-score), và gán một mức đáng kể cho chuẩn đưa ra điểm z

Nếu số các biến là rất lớn, rừng có thể chạy một lần với tất cả các biến, sau đó chạy lại bằng việc chỉ sử dụng các biến quan trọng nhất từ lần chạy đầu tiên

Cho mỗi trường hợp, xem xét tất cả các cây mà nó là OOB Trích ra một số phần trăm của số phiếu tiến cử cho mỗi lớp đúng trong dữ liệu OOB m biến hoán vị từ phần trăm phiếu tiến cử cho lớp đúng trong dữ liệu OOB chưa được sử dụng đến Đây là điểm quan trọng cục bộ cho m biến cho trường hợp này và được sử dụng trong chường trình đồ hoạ RAFT

Các tương tác

Định nghĩa hoạt động của sự tương tác được sử dụng là m biến và k tương tác nếu một sự phân chia trên một biến, ta nói m, trong một cây tạo lên một sự phân chia trên k

Trang 31

hoặc là hệ thống tự động ít hơn có thể hoặc là nhiều hơn có thể Sự triển khai đã sử dụng được dựa trên các giá trị gini g(m) cho mỗi cây trong rừng Điều này được đánh hạng cho mỗi cây và mỗi hai biến, sự khác nhau tuyệt đối của các hạng của chúng là được trung bình qua tất cả các cây

Số này cũng được tính dưới giả thiết rằng hai biến độc lập với nhau và biến sau bị trừ từ biến trước đó Một số nguyên dương lớn ám chỉ một phân chia trên một biến ngăn chặn sự phân chia trên một biến khác và ngược lại Đây là một thủ tục thực nghiệm các kết luận của nó cần được quan tâm cẩn thận Nó đã được thử nghiệm trên chỉ một số ít tập dữ liệu

Hình 2.1 Sơ đồ khối giải thuật Random Forest

Trang 32

Phân lớp bằng phương pháp mạng nơ ron nhân tạo

Khái niệm cơ bản

Theo các nhà nghiên cứu sinh học về bộ não, hệ thống thần kinh của con người bao gồm khoảng 100 tỷ tế bào thần kinh, thường gọi là các nơ-ron Mỗi tế bào nơ-ron gồm ba phần:

 Thân nơron với nhân bên trong (gọi là soma), là nơi tiếp nhận hay phát ra các xung động thần kinh

 Một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite) để đưa tín hiệu tới nhân nơ-ron Các dây thần kinh vào tạo thành một lưới dày đặc xung quanh thân nơ-ron, chiếm diện tích khoảng 0,25 mm2

 Đầu dây thần kinh ra (gọi là sợi trục axon) phân nhánh dạng hình cây, có thể dài từ một cm đến hàng mét Chúng nối với các dây thần kinh vào hoặc trực tiếp với nhân tế bào của các nơ-ron khác thông qua các khớp nối (gọi là synapse) Thông thường mỗi nơ-ron có thể có từ vài chục cho tới hàng trăm ngàn khớp nối để nối với các nơ-ron khác Có hai loại khớp nối, khớp nối kích thích (excitatory) sẽ cho tín hiệu qua nó để tới nơ-ron còn khớp nối ức chế (inhibitory) có tác dụng làm cản tín hiệu tới nơ-ron Người ta ước tính mỗi nơ-ron trong bộ não của con người có khoảng 104

khớp nối (hình 1.1) Chức năng cơ bản của các tế bào nơ-ron là liên kết với nhau để tạo nên hệ thống thần kinh điều khiển hoạt động của cơ thể sống Các tế bào nơ-ron truyền tín hiệu cho nhau thông qua các dây thần kinh vào và ra, các tín hiệu đó có dạng xung điện và được tạo ra từ các quá trình phản ứng hoá học phức tạp Tại nhân tế bào, khi điện thế của tín hiệu vào đạt tới một ngưỡng nào đó thì nó sẽ tạo ra một xung điện dẫn tới trục dây thần kinh ra Xung này truyền theo trục ra tới các nhánh rẽ và tiếp tục truyền tới các nơ-ron khác

Hình 2.2 Cấu tạo của tế bào nơ-ron sinh học

Trang 33

Với mục đích tạo ra một mô hình tính toán phỏng theo cách làm việc của nơ-ron trong bộ não con người, vào năm 1943, các tác giả McCulloch và Pitts đã đề xuất một

mô hình toán cho một nơ-ron như sau:

Hình 2.3 Mô hình nơ-ron nhân tạo

Trong mô hình này, một nơ-ron sẽ nhận các tín hiệu vào xi với các trọng số tương ứng là wi , tổng các thông tin vào có trọng số là

Trong đó g là hàm kích hoạt (còn gọi là hàm chuyển) có dạng là hàm bước nhảy,

nó đóng vai trò biến đổi từ thông tin đầu vào thành tín hiệu đầu ra

Như vậy, out = 1 (ứng với việc nơ-ron tạo tín đầu ra) khi tổng các tín hiệu vào lớn

hơn ngưỡng i , còn out = 0 (nơ-ron không tạo tín hiệu ở đầu ra) khi tổng các tín hiệu

vào nhỏ hơn ngưỡng i

Trong mô hình nơ-ron của McCulloch và Pitts, các trọng số wij thể hiện ảnh hưởng của khớp nối trong liên kết giữa nơ-ron j (nơ-ron gửi tín hiệu) và nơ-ron i (nơ-ron nhận tín hiệu) Trọng số wij dương ứng với khớp nối kích thích, trọng số âm ứng với khớp nối ức chế còn wij bằng 0 khi không có liên kết giữa hai nơ-ron Hàm chuyển g ngoài

dạng hàm bước nhảy còn có thể chọn nhiều dạng khác nhau và sẽ được đề cập ở các phần sau

Thông qua cách mô hình hoá đơn giản một nơ-ron sinh học như trên, McCulloch

và Pitts đã đưa ra một mô hình nơ-ron nhân tạo có tiềm năng tính toán quan trọng Nó

có thể thực hiện các phép toán lô-gíc cơ bản như AND, OR và NOT khi các trọng số

và ngưỡng được chọn phù hợp Sự liên kết giữa các nơ-ron nhân tạo với các cách thức

Nếu f > 0 Nếu f  0







0

1)

( f g

Định dạng
Số trang	67
Dung lượng	1,86 MB

Tìm hiểu và xây dựng hệ hỗ trợ quyết định dựa trên hệ thống thông tin địa lý (GIS)

Đỏnh giỏ cỏc phƣơng phỏp phõn lớp