Nội dung trình bày của chúng tôi được thể hiện trong ba chương: - Chương I: trình bày các vấn đề tổng quan về phát hiện tri thức trong cơ sở dữ liệu - Chương II: trình bày các vấn đề
Trang 2LỜI CẢM ƠN Tôi xin chân thành cảm ơn Thầy giáo PGS.TS Hồ Thuần, người đã trực tiếp hướng dẫn tôi hoàn thành luận văn tốt nghiệp thạc sĩ, thầy giáo TS Hà Quang Thuỵ, người đã giúp đỡ tôi trong việc hoàn thành luận văn, và các thầy cô của Khoa Công nghệ, Đại học Quốc gia Hà nội, những người đã tạo điều kiện thuận lợi cho cá nhân tôi cũng như những học viên khác trong quá trình học tập
THEO CÁCH TIẾP CẬN TẬP THÔ
Chuyên ngành: Công nghệ thông tin
Trang 3MỤC LỤC
BẢNG KÝ HIỆU: 3
MỞ ĐẦU 4
CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 6
1 TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 6
1.1 PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 6
1.2 QUÁ TRÌNH PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 9
1.3 MỘT SỐ VẤN ĐỀ CỦA VIỆC PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU 12
2 CÁC PHƯƠNG THỨC KHAI PHÁ DỮ LIỆU 14
2.1 NHỮNG NHIỆM VỤ CHÍNH CỦA KHAI PHÁ DỮ LIỆU 14
2.2 CÁC THÀNH PHẦN CỦA THUẬT TOÁN KHAI PHÁ DỮ LIỆU 15
3 KẾT LUẬN 17
CHƯƠNG 2: LÝ THUYẾT TẬP THÔ 19
1 HỆ THÔNG TIN VÀ TẬP THÔ 20
1.1 MỘT SỐ KHÁI NIỆM CHUNNG 20
1.1.1 KHÁI NIỆM VỀ HỆ THÔNG TIN 20
1.2 TẬP THÔ TRONG KHÔNG GIAN XẤP XỈ 22
1.2.1 TẬP XẤP XỈ TRÊN, XẤP XỈ DƯỚI VÀ MIỀN BIÊN 22
1.2.2 ĐỘ CHÍNH XÁC CỦA VIỆC XẤP XỈ 24
1.2.3 HÀM THÀNH VIÊN THÔ 25
1.2.4 SỰ PHỤ THUỘC GIỮA CÁC THUỘC TÍNH 25
1.3 VẤN ĐỀ RÚT GỌN CÁC THUỘC TÍNH: 26
1.4 CÁC LUẬT QUYẾT ĐỊNH 27
2 MỘT SỐ ỨNG DỤNG CỦA MÔ HÌNH TẬP THÔ 29
2.1 DỰ BÁO THẤT BẠI KINH DOANH 30
2.2 NGHIÊN CỨU THỊ TRƯỜNG QUA CƠ SỞ DỮ LIỆU (DATABASE MARKETING) 32
2.3 ĐẦU TƯ TÀI CHÍNH 33
3 MỘT SỐ VẤN ĐỀ KHI THỰC HIỆN MÔ HÌNH TẬP THÔ 35
3.1 LỰA CHỌN CÁC CHỈ DẪN, THUỘC TÍNH: 35
3.2 PHÂN ĐOẠN DỮ LIỆU 36
3.3 KIỂM TRA THẨM ĐỊNH CÁC KẾT QUẢ: 37
4 KẾT LUẬN 38
CHƯƠNG 3: CƠ SỞ DỮ LIỆU QUAN HỆ VÀ PHỤ THUỘC HÀM MỞ RỘNG 39
1 CƠ SỞ DỮ LIỆU QUAN HỆ 39
1.1 MỘT SỐ KHÁI NIỆM CĂN BẢN 39
1.2 PHỤ THUỘC HÀM 41
1.2.1 PHỤ THUỘC HÀM 41
1.2.2 HỆ TIÊN ĐỀ ARMSTRONG CHO PHỤ THUỘC HÀM 41
Trang 41.2.3 KHOÁ 42
1.3 BÀI TOÁN CHUẨN HOÁ CÁC QUAN HỆ 43
1.3.1 CÁC DẠNG CHUẨN QUAN HỆ 43
1.3.2 CÁC THUẬT TOÁN CHUẨN HÓA 44
2 CÁC TIÊN ĐỀ CỦA ARMSTRONG TRÊN PHỤ THUỘC HÀM MỞ RỘNG THEO CÁCH TIẾP CẬN TẬP THÔ 46
2.1 MỘT SỐ ĐỊNH NGHĨA 46
2.2 TIÊN ĐỀ THỨ HAI CỦA ARMSTRONG 47
2.3 TIÊN ĐỀ THỨ BA CỦA ARMSTRONG 48
2.4 MỘT SỐ VÍ DỤ 50
3 THUẬT TOÁN PHÁT HIỆN CÁC PHỤ THUỘC HÀM MỞ RỘNG 52
3.1 MỘT SỐ ĐỊNH NGHĨA VÀ BỔ ĐỀ SỬ DỤNG TRONG THUẬT TOÁN 52 3.1.1 CÁC PHÂN HOẠCH VÀ CÁC PHỤ THUỘC 53
3.1.2 VẤN ĐỀ TÌM KIẾM 55
3.2 THUẬT TOÁN 61
3.2.1 THUẬT TOÁN CHÍNH: 61
3.2.2 THỦ TỤC SINH MỨC 62
3.2.3 TÍNH CÁC PHỤ THUỘC 64
3.2.4 THU GỌN 65
3.2.5 TÍNH CÁC PHÂN HOẠCH 66
3.2.6 THỦ TỤC TÍNH SAI SỐ E 69
3.3 ĐÁNH GIÁ 70
4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 72
4.1 XÂY DỰNG CHƯƠNG TRÌNH PHẦN MỀM 72
4.1.1 LỰA CHỌN HỆ ĐIỀU HÀNH, CÔNG CỤ LẬP TRÌNH 72
4.1.2 MỘT SỐ YÊU CẦU ĐỐI VỚI CHƯƠNG TRÌNH PHẦN MỀM 72
4.2 THỬ NGHIỆM 73
4.2.1 LỰA CHỌN BÀI TOÁN THỬ NGHIỆM 73
4.2.2 QUÁ TRÌNH THỬ NGHIỆM: 74
4.2.3 CÁC KẾT QUẢ THỬ NGHIỆM 77
4.2.4 ĐÁNH GIÁ: 78
KẾT LUẬN 80
TÀI LIỆU THAM KHẢO 82
TÀI LIỆU TIẾNG VIỆT 82
TÀI LIỆU TIẾNG ANH 82
Trang 5BẢNG KÝ HIỆU:
Chữ viết tắt Giải thích
Trang 6MỞ ĐẦU
Cùng với sự phát triển của ngành Công nghệ Thông Tin, các nhà quản lý hiện nay không chỉ mong muốn có được những hệ thống cung cấp thông tin chính xác, kịp thời, mà còn mong muốn có được những hệ thống thông minh hỗ trợ
họ nhiều hơn trong việc phân tích, đánh giá thông tin Đó chính là một nguyên nhân quan trọng cho sự ra đời của lĩnh vực phát hiện tri thức trong cơ sở dữ liệu Phát hiện tri thức trong cơ sở dữ liệu là một lĩnh vực rộng, nó bao gồm nhiều vấn đề đang được các nhà khoa học nghiên cứu xem xét Một trong những vấn đề mà phát hiện tri thức quan tâm đến đó là phát hiện ra các mối ràng buộc có trong dữ liệu, đây chính là nội dung chính của luận văn này Trong luận văn của mình, chúng tôi tiến hành nghiên cứu các phụ thuộc hàm
mở rộng trên cơ sở tập thô, và nghiên cứu phát triển một thuật toán hiệu quả để tìm kiếm các phụ thuộc hàm này trên cơ sở cải tiến thuật toán Tane, một thuật toán được đánh giá rất cao về khả năng tìm kiếm nhanh chóng các phụ thuộc hàm trong dữ liệu
Nội dung trình bày của chúng tôi được thể hiện trong ba chương:
- Chương I: trình bày các vấn đề tổng quan về phát hiện tri thức trong cơ sở
dữ liệu
- Chương II: trình bày các vấn đề cơ bản của tập thô và ứng dụng của nó
- Chương III: trình bày các vấn đề của phụ thuộc hàm mở rộng, kiểm tra các tính chất của hệ tiên đề Armstrong trên các phụ thuộc hàm này, nghiên cứu thuật toán tìm kiếm các phụ thuộc hàm mở rộng, đề xuất cải tiến thuật toán, xây dựng chương trình thử nghiệm và đánh giá kết quả
Trang 7Trong phần kết luận: chúng tôi tổng kết lại kết quả đạt được của luận văn và đưa ra đề xuất về hướng phát triển của thuật toán tìm kiếm các phụ thuộc hàm
mở rộng trong tương lai
Trang 8Chương 1 TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ
DỮ LIỆU
1 TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC TRONG CƠ SỞ DỮ LIỆU
1.1 Phát hiện tri thức trong cơ sở dữ liệu
Trong thập kỉ trước, loài người đã tập hợp được một khối lượng vô cùng lớn các dữ liệu trong nhiều lĩnh vực khác nhau Bằng việc sử dụng các kỹ thuật thống kê kết hợp với các công cụ quản trị tệp, nhiều công ty đã đạt được những thành công nhất định trong việc phân tích lượng dữ liệu này Tuy nhiên, kích cỡ của các kho dữ liệu hiện tại
và tốc độ xử lý dữ liệu đòi hỏi cần phải có những cách tiếp cận mới để xử lý những dữ liệu này
Một thế hệ mới của các kỹ thuật và công cụ thông minh hỗ trợ con người trong việc phân tích, tìm kiếm tri thức đã ra đời Những kỹ thuật, công cụ này thuộc vào một lĩnh vực đang phát triển của Công nghệ thông tin được gọi là phát hiện tri thức trong
cơ sở dữ liệu (KDD)
Thông thường, dữ liệu được hiểu như là một dãy các bits, hoặc các số và các ký hiệu, trong khi, tri thức được xem như là các dữ liệu tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng Các mối quan hệ này có thể được hiểu, có thể được phát hiện, hoặc có thể được học Nói cách khác, tri thức có thể được coi là các dữ liệu có
độ trừu tượng và tổ chức cao
Hiện tại có một số định nghĩa khác nhau về phát hiện tri thức trong cơ sở dữ liệu Trong luận văn này, chúng tôi sử dụng định nghĩa về KDD của Frawley,v Piatetsky-Shapior và Matheus năm 1991
“Phát hiện tri thức trong cơ sở dữ liệu là một quá trình nhận dạng các mô hình
có thể hiểu được, có lợi ích tiềm ẩn, khác thường, có giá trị trong dữ liệu”
Trang 9Trong đó:
- Dữ liệu: là một tập các nhân tố F Trong ví dụ đưa ra trong hình 1, F bao gồm 23
trường hợp thể hiện các giá trị nợ, thu nhập, và hiện trạng cho vay
- Mẫu: là một biểu thức E trong ngôn ngữ L dùng để mô tả các yếu tố trong một tập con F E của F E được gọi là một mô hình nếu nó đơn giản hơn so với việc
liệt kê tất cả các yếu tố trong F E. Ví dụ, mô hình “ nếu thu nhập < $t thì người đó được ngầm định là vay nợ” sẽ là một mô hình cho việc lựa chọn tương ứng của t
Mô hình này được minh hoạ trong hình 2:
- Quá trình: thông thường quá trình KDD là quá trình nhiều bước, nó bao gồm cả việc chuẩn bị số liệu, tìm kiếm mô hình, đánh giá tri thức, làm mịn dữ liệu sau khi hiệu chỉnh
Hình 1: một tập dữ liệu đơn giản với 2 lớp
Hình 2: Sử dụng ngưỡng giá trị thu nhập để phân lớp dữ liệu cho vay
nợ
Thu nhập
t $
Nợ
Trang 10- Có giá trị: các mô hình được phát hiện có giá trị với các dữ liệu mới với độ chắc
chắn tương đối
- Khác thường: các mô hình là khác bình thường Sự khác thường có thể đo bằng sự thay đổi của dữ liệu ( bằng cách so sánh giá trị hiện tại với giá trị trong quá khứ,
cũng như giá trị mong muốn)
- Lợi ích tiềm ẩn: các mô hình tiềm ẩn các khả năng có ích nào đó và chúng có thể
đo được bằng một hàm tiện ích
- Có thể hiểu được đầy đủ: một mục tiêu của KDD là tạo ra các mô hình có thể hiểu được để con người dễ dàng hơn trong việc nắm bắt các thông tin có trong dữ liệu Điều này là khó để đo lường một cách tường minh, nó thường được thay thế bằng một độ đo đơn giản hơn Hiện đang có nhiều độ đo đơn giản được sử dụng, chúng bao gồm các các độ đo thuần tuý (dựa trên kích cỡ của mô hình theo bit) cho tới
- Quá trình KDD là một quá trình sử dụng các phương thức khai phá dữ liệu (thuật toán) để tìm ra (xác định) cái được cho rằng là tri thức theo các mô tả của các độ
đo và các ngưỡng, sử dụng Cơ sở dữ liệu F với một vài tiền tiến trình xử lý, lấy mẫu, và chuyển đổi F cần thiết
Trang 111.2 Quá trình phát hiện tri thức trong cơ sở dữ liệu
Quá trình phát hiện tri thức bao gồm một số bước như được thể hiện trong hình3:
- Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán Bước này có
ý nghĩa quan trọng cho việc rút ra được các tri thức hữu ích và cho việc chọn các phương pháp khai phá dữ liệu thích hợp trong bước ba sao cho phù hợp với mục đích ứng dụng và bản chất của dữ liệu
- Bước thứ hai là xử lý thô, hay còn gọi là tiền xử lý dữ liệu nhằm loại bỏ các dữ liệu nhiễu hoặc các bất thường, xử lý các giá trị bị thiếu, sửa các lỗi mang tính hệ thống, tập hợp các thông tin cần thiết để mô hình hoặc tính toán nhiễu, quyết định các chiến lược xử lý các trường dữ liệu bị lỗi
- Bước thứ ba: thực hiện việc chuyển đổi phát hiện ra các đặc điểm hữu ích để biểu diễn lại dữ liệu sao cho phù hợp với mục tiêu cần đạt tới Có thể sử dụng phương pháp rút bớt số chiều hoặc biến đổi dữ liệu để giảm bớt số lượng các biến
Hình thành và định nghĩa bài toán
Tiền xử lý dữ liệu
Khai phá dữ liệu
Tìm hiểu và đánh giá
Hình 3: Tổng quan về các bước của quá trinh KDD
Thực hiện chuyển đổi
Trang 12- Bước thứ tư là khai phá dữ liệu, tức là trích ra các mẫu các mô hình ẩn trong dữ liệu Một mô hình có thể được xem như một biểu diễn tổng thể của một cấu trúc nhằm tóm lược thành phần mang tính hệ thống có trong dữ liệu hoặc mô tả tập dữ liệu này có thể sinh sôi nảy nở ra sao Trong khi, một mẫu là một cấu trúc cục bộ
có khi chỉ liên quan tới một nhóm các biến và một số trường hợp Các lớp chính của các phương pháp khai phá dữ liệu là mô hình dự đoán chẳng hạn như phân loại và hồi qui; phân đoạn ; mô hình phụ thuộc chẳng hạn như các mô hình đồ thị hoặc ước lượng mật độ; mô hình tóm lược, ví dụ như tìm các mối quan hệ giữa các trường, các liên kết; và mô hình thay đổi và phát hiện độ lệch trong dữ liệu và tri thức
- Bước thứ năm: tìm hiểu và đánh giá tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán, hai mục tiêu chính của các hệ thống khám phá trong thực tế Kinh nghiệm cho thấy rằng các mẫu hoặc các mô hình phát hiện được từ các dữ liệu không phải lúc nào cũng đáng quan tâm và có thể trực tiếp sử dụng được ngay, và quy trình KDD cần phải được lặp đi lặp lại có điều chỉnh theo các tri thức
đã phát hiện được Để có thể đánh giá các luật được áp dụng trong qui trình KDD, người ta thường chia dữ liệu thành hai tập, huấn luyện trên tập thứ nhất và kiểm chứng trên tập thứ hai Có thể lặp lại qui trình này một số lần với các phần chia khác nhau, sau đó lấy trung bình các kết quả để ước lượng các luật thi hành
Dưới đây là một số bước cơ bản trong quá trình phát hiện tri thức trong cơ sở dữ liệu:
- Tìm hiểu rõ phạm vi ứng dụng: những tri thức có liên quan trước đây, các mục đích của người sử dụng,
- Tạo lập tập dữ liệu đích: chọn ra một tập dữ liệu, hoặc tập trung vào một tập con các biến hoặc các mẫu dữ liệu mà trên đó cần phải phát hiện ra các tri thức
- Quá trình làm sạch dữ liệu: các phép cơ bản như loại bỏ nhiễu hoặc các giá trị kỳ
dị nếu hợp lý, xử lý các giá trị bị thiếu, sửa các lỗi mang tính hệ thống, tập hợp các lthông tin cần thiết để mô hình hoặc tính toán nhiễu, quyết định các chiến lược xử
lý các trường dữ liệu bị lỗi
Trang 13- Rút gọn và dự đoán dữ liệu: phát hiện ra các đặc điểm hữu ích để biểu diễn lại dữ liệu sao cho phù hợp với mục tiêu cần đạt tới Có thể sử dụng phương pháp rút bớt
số chiều hoặc biến đổi dữ liệu để giảm bớt số lượng các biến
- Lựa chọn nhiệm vụ của khai phá dữ liệu: quyết định xem mục đích của qui trình KDD này là gì: phân loại, hồi qui, hay gộp nhóm, v.v
- Lựa chọn phương pháp khai phá dữ liệu: chọn các phương pháp sẽ sử dụng để tìm các mẫu trong dữ liệu Trong đó kể cả việc quyết định xem các mô hình nào và các tham số nào là thích hợp
- Khai phá dữ liệu: rút ra các mẫu, các mô hình: tìm kiếm các mẫu đáng chú ý dưới một dạng biểu diễn khác đi hoặc một tập các biểu diễn như vậy: các qui tắc phân loại hoặc các cây, gộp nhóm
- Phân tích ý nghĩa và đánh giá các mẫu,các mô hình, có thể quay lại xử lý một trong các bước trước đó trong trường hợp cần thiết
- Củng cố tri thức đã phát hiện được: tích hợp tri thức này vào hệ thống thực hành, hoặc tạo ra các báo cáo về nó và phân phát cho những người quan tâm Kiểm tra lại xem tri thức này có gì trái với những tri thức đã có trước đây không
Trang 14
1.3 Một số vấn đề của việc phát hiện tri thức trong cơ sở dữ liệu
Các thuật toán khai phá dữ liệu trong KDD thường phải tiến hành tìm kiếm trên toàn
bộ không gian của các dữ liệu, do đó kích cỡ của các cơ sở dữ liệu cũng là một vấn đề đáng quan tâm Các cơ sở dữ liệu với hàng trăm trường và bảng, hàng triệu bản ghi,
có dung lượng nhiều gigabyte xuất hiện trong hầu hết các đơn vị quy mô lớn Những
cơ sở dữ liệu cỡ terabyte không còn là điều quá mới lạ đối với các chuyên gia trong các lĩnh vực
Số lượng hàng triệu các bản ghi có ảnh hưởng lớn đối với tốc độ xử lý của các kỹ thuật khai phá, tuy nhiên hầu hết các thuật toán khai phá dữ liệu đều có độ phức tạp thời gian hàm mũ đối với số chiều (biến, trường) của các bảng trong cơ sở dữ liệu Do
đó, để khai phá dữ liệu trên các bảng có số lượng chiều quá lớn thực sự là vấn đề khó khăn đối với các thuật toán khai phá dữ liệu Một tập dữ liệu có số chiều lớn không những sẽ tạo ra các khó khăn do sự tăng lên về độ lớn của không gian tìm kiếm các
mô hình Hơn nữa, nó còn làm tăng thêm nguy cơ để cho một thuật toán khai phá dữ liệu tìm phải các mẫu sai lệch Để giải quyết vấn đề này, người ta thường sử dụng các phương pháp rút gọn số chiều của các bảng dữ liệu và sử dụng tri thức trước đó để loại bỏ các biến không có ý nghĩa
Đối với những cơ sở dữ liệu có sự thay đổi rất nhanh, độ mất ổn định cao, thì có thể dẫn tới khả năng làm cho các mẫu đã phát hiện được trong thời gian trước đây gần như không có không còn phù hợp Ngoài ra, các biến được cho trong các cơ sở dữ liệu ứng dụng có thể đã bị sửa đổi, bị xoá, hoặc được tăng lên với các số đo mới theo thời gian Các giải pháp có thể thực hiện được bao gồm các phương pháp tăng cường cho việc cập nhật các mẫu và sử dụng chúng để tìm kiếm chỉ các mẫu biến đổi
Đối với các cơ sở dữ liệu thương mại vấn đề dữ liệu nhiễu và thiếu được đặc biệt quan tâm, đây là một vấn đề đặc biệt nhậy cảm Theo thống kê, tỷ lệ sai sót trong các cơ sở
Trang 15dữ liệu thương mại có thể lên tới 20% Các thuộc tính quan trọng có thể bị thiếu nếu
cơ sở dữ liệu không được thiết kế theo xu hướng có sử dụng các phương pháp phát hiện tri thức Các giải pháp có thể thực hiện được là sử dụng các chiến thuật thống kê thật tinh vi để nhận ra được các biến và các phụ thuộc hàm đang bị che khuất
Trong nhiều ứng dụng, một vấn đề quan trọng là tính dễ hiểu đối với người dùng Giải pháp có thể sử dụng cho vấn đề này là sử dụng các biểu diễn bằng đồ thị, ngôn ngữ tự nhiên hay các kỹ thuật hiển thị Các chiến lược điều chỉnh luật cũng được sử dụng để giải quyết các vấn đề liên quan, nhưng các tri thức được phát hiện có thể bị giản lược
Một hệ thống phát hiện độc lập có hiệu quả không cao mà cần phải có sự tích hợp với các hệ thống khác Các phương pháp tích hợp điển hình là tích hợp với một hệ quản trị cơ sở dữ liệu (thông qua một giao diện hỏi đáp), tích hợp với các chương trình dạng bảng tính và các công cụ đồ thị Một ví dụ là những hệ thống KDD tích hợp do Simousdis et al và Shen et al thực hiện
Trang 162 CÁC PHƯƠNG THỨC KHAI PHÁ DỮ LIỆU
Thành phần khai phá dữ liệu trong quy trình KDD chủ yếu liên quan đến việc phát hiện và liệt kê ra các mẫu từ dữ liệu Thành phần phát hiện tri thức thực hiện việc đánh giá và phân tích ý nghĩa của các mẫu để đi tới các quyết định mẫu nào có ý nghĩa và mẫu nào không Nó còn bao gồm việc lựa chọn các lược đồ mã hóa, tiền xử
lý dữ liệu, và các phép dự đoán dữ liệu trước khi tiến hành giai đoạn khai phá dữ liệu
2.1 Những nhiệm vụ chính của khai phá dữ liệu
Hai mục đích chính của việc khai thác dữ liệu trong thực tế chính là dự đoán và mô tả
Dự đoán là việc sử dụng một số biến hoặc trường trong cơ sở dữ liệu để đoán ra các giá trị không biết hoặc sẽ có của các biến đáng chú ý khác Việc mô tả tập trung vào tìm kiếm các mẫu mà con người có thể hiểu được để mô tả dữ liệu Quan hệ giữa dự báo và mô tả cho các ứng dụng khai phá dữ liệu chuyên dùng rất chặt chẽ Tuy nhiên trong trường hợp KDD, mô tả được quan tâm nhiều hơn là việc dự báo Nó ngược lại với các ứng dụng học máy và nhận dạng mẫu (như là nhận dạng tiếng nói), mà trong
đó việc dự đoán thường là mục tiêu chính
Các mục tiêu của dự đoán và mô tả được tạo thành bởi các nhiệm vụ khai phá dữ liệu chính sau:
- Phân lớp: là việc học một hàm để ánh xạ (bộ phân lớp) một dữ liệu vào một trong các phân lớp đã được định nghĩa sẵn Các ví dụ về các phương thức phân lớp thường sử dụng như là một phần của các ứng dụng khai phá tri thức, bao gồm việc phân lớp theo xu hướng của các thị trường tài chính (Apte & Hong) và nhận dạng
tự động các đối tượng khả nghi trong cơ sở dữ liệu ảnh (Fayyad, Djorgovski , & Weir)
- Hồi quy: là việc học một hàm ánh xạ một dữ liệu tới một giá trị dự đoán thực Các ứng dụng hồi quy hiện có rất nhiều, ví dụ như là việc dự đoán số lượng khối gỗ trong rừng thông qua các thiết bị vi sóng cảm biến từ xa, đưa ra xác suất bệnh nhân có thể chết khi có kết quả của xét nghiệm chuẩn đoán
Trang 17- Nhóm gộp: là một công việc tìm kiếm để xác định một tập hữu hạn các phân loại hoặc nhóm dữ liệu Các nhóm có thể loại trừ nhau, giao nhau hoặc phủ nhau
- Khái quát hoá bao gồm các phương thức để tìm kiếm một mô tả gọn cho một tập con dữ liệu Ví dụ đơn giản là việc lập bảng theo ý nghĩa và độ lệch chuẩn đối với mọi trường Các phương thức phức tạp hơn có thể là độ lệch của một vài quy tắc chung, các kỹ thuật mô phỏng đa biến và khai phá các quan hệ phụ thuộc giữa các biến Kỹ thuật khái quát hoá thường áp dụng cho việc phân tích dữ liệu ràng buộc
và sinh ra các báo cáo tự động
- Mô hình hoá sự phụ thuộc: bao gồm việc tìm mô hình để mô tả sự phụ thuộc giữa các biến Các mô hình phụ thuộc tồn tại có hai mức: mức cấu trúc mô tả mô hình trong đó các biến là phụ thuộc cục bộ với nhau, và mức định lượng của các mô hình mô tả các các phụ thuộc sử dụng một số quy mô xác định Ví dụ , các mạng phụ thuộc xác suất thường dùng để mô tả các khía cạnh cấu trúc hoá của mô hình
và xác suất Các mạng phụ thuộc xác suất ứng dụng nhiều trong các hệ chuyên gia
về y tế, mô hình hoá bộ gien người
2.2 Các thành phần của thuật toán khai phá dữ liệu
Thông thường, có ba thành phần chính trong một thuật toán khai phá dữ liệu: biểu diễn mô hình, đánh giá mô hình và tìm kiếm
Biểu diễn mô hình bằng một ngôn ngữ để mô tả các mẫu được phát hiện Nếu việc biểu diễn quá hạn chế sẽ dẫn đến mất độ chính xác của mô hình trên dữ liệu Một vấn
đề rất quan trọng là người phân tích dữ liệu phải hiểu một cách đầy đủ về các giả thiết biểu diễn và nó có thể gắn với một phương thức đặc biệt Một điều quan trọng nữa là một người thiết kế thuật toán phải nắm một cách rõ ràng những giả thiết biểu diễn được tạo ra từ thuật toán đó Lưu ý rằng, năng lực biểu diễn mô hình càng cao thì độ nguy hiểm từ việc quá phù hợp của kết quả học càng tăng và làm giảm độ chính xác của việc dự báo trong tương lai Thêm vào đó, việc tìm kiếm sẽ trở nên phức tạp hơn
và khả năng thể hiện của mô hình càng khó khăn
Trang 18b Đánh giá mô hình:
Đánh giá mô hình để xác định một mẫu (một mô hình hoặc các tham số của nó) là phù hợp với các tiêu chuẩn của quy trình KDD Việc đánh giá độ chính xác của dự báo (tính đúng đắn) dựa trên việc kiểm tra chéo Việc đánh giá chất lượng mô tả bao gồm
độ chính xác của dự báo, sự khác thường, tính tiện ích và khả năng hiểu được của mô hình phù hợp Các tiêu chuẩn thông kê và logic cũng có thể được sử dụng để đánh giá
mô hình
Phương thức tìm kiếm bao gồm hai loại là tìm kiếm tham số và tìm kiếm mô hình Trong tìm kiếm tham số, thuật toán phải tìm kiếm các tham số tối ưu theo tiêu chuẩn đánh giá mô hình đối với dữ liệu và biểu diễn mô hình cố định Đối với những vấn đề đơn giản thì không cần thiết phải thực hiện việc tìm kiếm: các ước lượng tham số tối
ưu có thể sử dụng để giải quyết trường hợp này Thông thường, đối với nhiều mô hình, giải pháp này là không thực tế: phương pháp tham lam thường được sử dụng Tìm kiếm mô hình thường xảy ra như là kết thúc vòng lặp của tìm kiếm tham số: việc biểu diễn mô hình bị thay đổi theo một họ các mô hình được xem xét Đối với mỗi biểu diễn mô hình cụ thể, phương thức tìm kiếm tham số được minh hoạ để đánh giá chất lượng của mô hình tìm ra Các phương thức tìm kiếm mô hình hướng đến việc
sử dụng các kỹ thuật tìm kiếm kinh nghiệm trên không gian của các mô hình khả năng
Trang 193 KẾT LUẬN
Trên thực tế trong thời gian qua, rất nhiều hãng kinh doanh, các cơ quan đã tiến hành thu thập một khối lượng khổng lồ các dữ liệu trong nhiều năm Các đơn vị, cá nhân lưu trữ các dữ liệu vì họ nghĩ rằng có thể có những thông tin quí giá nào đó đang tiềm
ẩn trong chúng mà hiện thời họ chưa thể hoặc chưa biết cách khai thác Có thể thấy rằng, hầu hết các dữ liệu này đều là những dữ liệu về một hiện tượng tự nhiên (thời tiết…) hay một hiện tượng xã hội nào đó (các chuẩn mực xã hội theo từng giai đoạn…) và những dữ liệu này thường được tập hợp một cách cẩn thận, trong một thời gian khá dài nên nó có ý nghĩa khoa học cũng như xã hội thực sự to lớn Chính những
dữ liệu này sẽ là nền tảng cho các nghiên cứu khoa học ứng dụng trong tương lai
Đặc biệt, trong lĩnh vực kinh doanh, các dữ liệu được tích luỹ này càng có ý nghĩa quan trọng, nó hàm chứa các thông tin về các thị trường, về các đối thủ, và về các khách hàng, các thông tin về sản xuất, về vận hành và các khả năng tối ưu, cũng như các giải pháp chủ yếu để cải tiến các qui trình và giải quyết các sự cố Tuy nhiên, hiện nay chỉ có một số lượng nhỏ các dữ liệu được thu thập là luôn được phân tích, theo một số thống kê tỷ lệ này chỉ chiếm khoảng từ 5%-10% lượng dữ liệu Còn phần lớn lượng dữ liệu còn lại được thu thập chỉ nhằm phục vụ mục tiêu đảm bảo sẽ không có
gì bị bỏ qua trong các dữ liệu đó, mặc dù chi phí để thực hiện điều này là rất đáng kể đối với các doanh nghiệp, đơn vị cơ quan
Cùng với sự tiến bộ về khoa học công nghệ, lượng dữ liệu mà con người hiện nay có thể tập hợp đã trở nên quá lớn so với những cách thức phân tích cổ điển thông thường Với những cơ sở dữ liệu lớn đến cỡ nhiều Gb, Tb, thì gần như không thể thực hiện việc đưa toàn bộ các dữ liệu đó vào bộ nhớ để tăng tốc độ xử lý, điều này là thách thức không chỉ đối với hệ thống các máy trạm, mà ngay cả đối với hệ thống các siêu máy tính Do đó, khi các cơ sở dữ liệu ngày càng lớn lên thì khả năng hỗ trợ phân tích
và ra quyết định bằng cách truy vấn truyền thống sẽ không thể thực hiện được
Trang 20Một nhược điểm của hệ thống quản lý thông tin thông thường là nó rất khó có thể hỗ trợ người sử dụng giải đáp những vấn đề mang tính trừu tượng ví dụ: “tìm tất cả các bản ghi trong cơ sở dữ liệu điểm thi có khả năng gian lận” hoặc giúp người sử dụng nhanh chóng phát hiện và đưa ra các quyết định quản lý kịp thời, đặc biệt là khi những người đó không chuyên về lĩnh vực thống kê
Từ thực tế đó, sự ra đời và phát triển của lĩnh vực phát hiện tri thức trong cơ sở dữ liệu (KDD) là tất yếu và thực sự cần thiết, vì KDD bao gồm một thế hệ các kỹ thuật mới và công cụ thông minh để hỗ trợ con người trong việc phân tích, tìm kiếm tri thức một cách nhanh chóng và hiệu quả trong các kho dữ liệu khổng lồ mà con người hiện
có
Trang 21Chương 2 LÝ THUYẾT TẬP THÔ Hiện nay có nhiều kỹ thuật được sử dụng để phát hiện tri thức như luật, cây quyết định, các phương pháp phân lớp , các kỹ thuật liên quan đến logic mờ, mạng noron… Tuy nhiên hầu hết các kỹ thuật này đều phải sử dụng các tham số mở rộng, và các tham số này thường là khó có thể xác định chính xác Trong khi đó, kỹ thuật dựa trên
lý thuyết tập thô do Pawlak đề ra không gặp phải những khó khăn này Lý thuyết Tập thô được đưa ra từ những năm 80 của thế kỉ XX, lý thuyết này được các chuyên gia đánh giá là một kỹ thuật phát hiện tri thức mới với nhiều cải tiến
Lý thuyết tập thô cung cấp một công cụ toán học mạnh để giải quyết tính mập mờ gặp phải trong việc ra quyết định Khái niệm tập thô dựa trên giả thiết rằng tất cả mọi đối tượng của hệ thống được kết hợp với thông tin nào đó Ví dụ, nếu các đối tượng có mặt trên thị trường, thông tin về chúng sẽ bao gồm giá cả, các đặc tính kinh tế Những đối tượng này được đặc trưng bởi cùng một thông tin và chúng giống nhau theo quan điểm của người tiêu dùng Các mối quan hệ không rõ ràng sinh ra theo cách này là cơ
sở toán học của lý thuyết tập thô Những phương pháp dựa trên lý thuyết tập thô đặc biệt hiệu quả đối với việc giải quyết những bài toán có dữ liệu mơ hồ, không chắc chắn Ngoài ra, lý thuyết tập thô còn cho phép biễu diễn một mô hình mới về tri thức
Mô hình này được xác định như như một họ các mối quan hệ không phân biệt được Nhờ đó, tri thức được biểu diễn rõ ràng theo nghĩa toán học và có thể phân tích, xử lý bằng các công cụ toán học
Từ khi ra đời năm 1982, lý thuyết này đã được nhiều nhà khoa học nghiên cứu và cải tiến , dưới đây là một số những khái niệm căn bản được đề cập trong lý thuyết tập thô
Trang 224 HỆ THÔNG TIN VÀ TẬP THÔ
4.1 Một số khái niệm chunng
4.1.1 Khái niệm về hệ thông tin [1] [4][11]
Định nghĩa 1 Hệ thông tin S= (U,A)
Trong đó U là một tập hữu hạn khác rỗng các đối tượng
Các đối tượng có thể được hiểu là trường hợp, trạng thái, tiến trình … Các thuộc tính
có thể hiểu là chức năng, các biến và các điều kiện riêng Thông thường một hệ thống thông tin thường được biễu diễn dưới dạng bảng, các hàng và cột tương ứng như các đối tượng và các thuộc tính Một trường hợp đặc biệt của các hệ thống thông tin là bảng quyết định hay bảng giá trị quyết định, khi đó C D =
Ví dụ: Có một hệ thông tin thể hiện như trong bảng 1 Có 10 đối tượng (Mỗi đối
tượng ở đây là một khách Xuất Nhập Cảnh) và 3 thuộc tính: Nước đến, Nơi sinh,
Trang 23Trong ví dụ trên 3 đối tượng khác nhau x3, x4, x10 lại có các giá trị thuộc tính giống nhau: đây là trường hợp không phân biệt được các đối tượng nếu chỉ sử dụng thông tin từ các thuộc tính đã cho Tính không phân biệt được là một trong những yếu tố của
Định nghĩa 2 Với tập con bất kỳ B A , tồn tại một quan hệ tương đương, kí hiệu
là IND(B) IND(B) được gọi là quan hệ B không phân biệt được và được xác định như
sau:
IND(B)={(x,x’) U2 a B: a(x) = a(x’)} [1] [4][11]
Trang 24Theo định nghĩa, nếu như hai đối tượng x, x' mà (x,x’) IND(B) thì x và x’ là không
phân biệt được với nhau bằng các thuộc tính trong B Lớp tương đương của x theo
quan hệ không phân biệt được B được biểu diễn là [x]B
Bảng 2: minh hoạ cho một quan hệ không phân biệt được Nếu không xem xét
thuộc tính tôn giáo thì các tập con khác rỗng của các thuộc tính điều kiện là {Nước
đến}, {Nơi sinh} và {Nước đến, Nơi sinh} Xem xét thuộc tính {Nước đến}, các
đối tượng x3 và x4 thuộc vào cùng một lớp tương đương và không có khả năng
phân biệt được Ba quan hệ IND xác định phân hoạch như sau:
IND({Nước đến}) = {{x1 ,x2,x6},{x3,x4,x7,x8,,x10},{x5 },{x9}}
IND({Nơi sinh}) = {{x1,,x8},{x2},{x3,x4,,x10},{x5,x6,x7},{x9}}
IND({Nước đến, Nơi sinh}) = {{x1 },{x2},{x3,x4,x10},{x5},{ x6},{x7},{x8},{x9}}
4.2 Tập thô trong không gian xấp xỉ
4.2.1 Tập xấp xỉ trên, xấp xỉ dưới và miền biên
Phụ thuộc vào sự mơ hồ tồn tại trong dữ liệu của thế giới thực, luôn có những những đối tượng xung đột trong cùng một bảng quyết định Đó là những đối tượng có cùng các thuộc tính điều kiện, nhưng chúng lại thuộc các lớp quyết định khác nhau Những đối tượng như vậy được gọi là mâu thuẫn Bảng quyết định đó được gọi là bảng quyết định mâu thuẫn Để giải quyết vấn đề này, lý thuyết tập thô đưa ra các khái niệm về các tập xấp xỉ
Định nghĩa 3 Giả sử S= (U,A) là một hệ thông tin và B A và X U Các tập xấp
xỉ của X theo thông tin có từ B, được xác định như dưới đây: [1] [4] [11]
(1) Tập B-xấp xỉ dưới của X, kí hiệu là B X , là tập B X = {x | [x]B X}
(2) Tập B-xấp xỉ trên của X, kí hiệu là B X , là tập B X = {x | [x]B X }
Đối tượng trong B X chắc chắn được phân lớp là thành viên của X theo tri thức cơ sở
từ B (tập B X có thể được gọi là tập chắc chắn), trong khi đối tượng trong B Xchỉ có
Trang 25khả năng được phân lớp là thành viên của X theo tri thức cơ sở trong B (tập B X có
thể được gọi là tập khả năng)
Tập BNB(X) = B X - B X được gọi là vùng biên B của X, những đối tượng thuộc vào
tập này sẽ không thể phân loại dựa trên cơ sở các tri thức có từ B Một tập được gọi là
thô hoàn toàn nếu vùng biên của nó là khác rỗng
Tập U - B X được gọi là vùng ngoài B của X bao gồm các đối tượng chắc chắn không
thuộc X (trên tri thức cơ sở có được từ B)
Ví dụ
Giả sử W={x | Xem xét(x) = Cấm} như ví dụ minh hoạ trên bảng 2 A={Nướcđến, Nơi
sinh, Tôn giáo} Ta có được vùng xấp xỉ dưới A W = {x1,x6,x8}, xấp xỉ trên A W =
{x1,x3,x4,x6,x8,x10}, vùng biên BNA(W)={ x3,x4,x10} và vùng biên ngoài U - A W =
{x2,x5,x7,x9} Do đó mà tập kết quả Xem xét là thô vì vùng biên là không rỗng
Trang 26Trong đó ký hiệu -X biểu thị cho U-X
Phân loại tập thô
- X xác định thô thực sự theo B nếu B X và B X U Nếu X xác định thô thực
sự theo B nghĩa là chúng ta có thể quyết định rằng một số thành phần của U mà chúng thuộc X và cho một số phần tử của U mà chúng thuộc -X, sử dụng B
- X là không xác định bên trong theo B nếu B X = và B X U Nếu X là không
xác định bên trong theo B có nghĩa là chúng ta có thể quyết định rằng một số phần
tử của U mà chúng thuộc -X nhưng không thể quyết định cho bất kỳ phần tử của U
nào có thuộc X không, sử dụng B
- X là không xác định bên ngoài theo B nếu B X và B X= U Nếu X là không
xác định bên ngoài theo B có nghĩa là chúng ta có thể quyết định rằng một số phần
tử của U mà chúng thuộc X nhưng không thể quyết định cho bất kỳ phần tử của U
nào có thuộc X không, sử dụng B
- X là không xác định thực sự theo B nếu B X = và B X = U Nếu X là không xác
định thực sự theo B có nghĩa là chúng ta quyết định rằng bất kỳ phần tử của U có
thuộc X hay -X không, sử dụng B
4.2.2 Độ chính xác của việc xấp xỉ
Tập thô được chỉ số hoá bởi hệ số sau:
, ) (
) (
được gọi là độ chính xác của xấp xỉ của X, với X biểu diễn lực lượng của X
Rõ ràng, 0B(X)1, nếu B ( X)=1 thì X đúng hoàn toàn đối với B, ngược lại
nếu B ( X)<1 thì X là thô đối với B Bằng việc xem xét hệ số này, chúng ta có thể
đánh giá được mức độ phù hợp của tập đối tượng X theo tập thuộc tính B
Trang 274.2.3 Hàm thành viên thô
Trong lý thuyết tập hợp cổ điển, mỗi thành viên thuộc một tập hợp hoặc không Hàm thành viên (hàm thuộc) là hàm đặc trưng của tập hợp nhận một trong hai giá trị 0 và 1 Trong tập thô, hàm thành viên thô xác định mức độ giao nhau liên quan giữa tập X và lớp tương đương [x]B chứa x, nó được định nghĩa như sau:
0 , 1 : U
X x
4.2.4 Sự phụ thuộc giữa các thuộc tính
Một vấn đề quan trọng trong việc phân tích dữ liệu là việc phát hiện những sự phụ thuộc giữa các thuộc tính Một tập các thuộc tính D phụ thuộc toàn vào một tập các
thuộc tính C được ký hiệu C D, nếu tất cả các giá trị thuộc tính từ D được xác định duy nhất bởi các giá trị thuộc tính trong C Nói cách khác D phụ thuộc hoàn toàn vào
C, nếu tồn tại phụ thuộc hàm giữa các giá trị của D và C
Thông thường sự phụ thuộc được định nghĩa như sau: giả sử D và C là các tập con của A Ta nói rằng D phụ thuộc vào C với mức k (0 k 1) biểu diễn là C k D nếu:
Trang 28,
(
U
D POS D
POS
được gọi là một C- miền dương của phân hoạch U/D đối với C, là tập tất cả các phần
tử của U mà có thể được phân loại duy nhất các thành khối của phân hoạch U/D theo
ý nghĩa của C
.)()
X C D
D là phụ thuộc hoàn toàn (hay một phần) vào C nếu tất cả (một số) phần tử của tập
tổng thể có thể được phân loại duy nhất thành các khối của phân hoạch U/D, sử dụng
C
4.3 Vấn đề rút gọn các thuộc tính:
Do ảnh hưởng của các dữ liệu trong thế giới thực và quá trình tập hợp dữ liệu, một hệ thông tin thường có thể chứa những thông tin không cần thiết Các thông tin dư thừa trong hệ thông tin thường là do hai nguyên nhân:
- Hệ thông tin có các đối tượng không phân biệt được
- Hệ thông tin có các thuộc tính không cần thiết
Nhằm giải quyết vấn đề dư thừa thông tin này, lý thuyết tập thô có hai khái niệm cơ bản liên quan đến việc rút gọn các thuộc tính dư thừa: tập rút gọn và tập nhân ý tưởng chính của việc rút gọn này là tìm ra một tập các thuộc tính nhỏ hơn so với tập các
Trang 29thuộc tính ban đầu sao cho chất lượng xấp xỉ của chúng là bằng nhau Những thuộc tính còn lại khi bị loại bỏ sẽ không làm ảnh hưởng đến việc phân lớp, những thuộc tính đó được gọi là các thuộc tính dư thừa
Cho hệ thông tin S= (U,A), với
A = C D
C: tập các thuộc tính điều kiện, D là tập các thuộc tính quyết định,
C’ được gọi là một tập rút gọn đối với D của C nếu C’ (ký hiệu là D-reduct)là
tập con nhỏ nhất của C sao cho
(C,D) = (C’,D) (hay POSC’(D) = POSC(D))
a C là rút gọn được nếu
POSC(D) = POS(C-{a})(D)
Giao của tất cả các tập rút gọn Reduct được gọi là tập nhân đối với D ký hiệu là
D-Core
Bởi vì nhân là giao của tất cả các tập rút gọn nên các thuộc tính của nó có trong tất cả các tập rút gọn Và do đó, tập nhân là tập con thuộc tính quan trọng nhất, bất kỳ một phần tử nào của nó nếu bị loại bỏ đều gây ảnh hưởng đến chất lượng phân lớp của các thuộc tính
Việc tính toán các tập giản lược là một công việc khó khăn và không thể giải quyết bằng cách tăng tài nguyên phục vụ tính toán Đây chính là một trong các điểm nghẽn (yếu) của lý thuyết tập thô Gần đây, Wroblewski (1995-1998) đã áp dụng thuật toán
di truyền để giải quyết vấn đề sinh ra các tập giản lược trong khoảng thời gian chấp nhận được, chỉ trừ trường hợp số lượng các thuộc tính quá nhiều
4.4 Các luật quyết định
Các luật quyết định không chỉ được sử dụng trong lý thuyết tập thô mà trong còn có trong rất nhiều lĩnh vực, đặc biệt là trong lĩnh vực học máy Tuy nhiên, khác với các
Trang 30hệ thống học máy thông thường, lý thuyết tập thô không chỉnh sửa hay tập hợp các yếu tố mâu thuẫn trong dữ liệu đầu vào Các tập xấp xỉ trên và dưới được sử dụng để
mô tả sự mâu thuẫn và từ đó rút ra các luật đơn định, không đơn định
Một luật quyết định có thể triển khai dưới dạng biểu thức logic:
IF hội các điều kiện
(iii) Đối tượng mới không phù hợp với bất kỳ một luật nào
(iv) Đối tượng mới phù hợp với nhiều hơn một luật
Trường hợp i và iii rất dễ giải quyết, còn trường hợp ii và iv là khó giải quyết Năm
2001, hai nhà khoa họcTay và Shen đã tiến hành một số nghiên cứu đối với vấn đề này Họ đã sử dụng ánh xạ tự tổ chức để phát hiện quan hệ bên trong của tập dữ liệu Thông tin rút ra từ các tập dữ liệu giúp cho việc loại bỏ các yếu tố không chắc chắn và tăng mức độ chính xác của việc phân lớp cho đối tượng mới, nó đặc biệt hiệu quả trên các hệ thống mâu thuẫn
Trang 315 MỘT SỐ ỨNG DỤNG CỦA MÔ HÌNH TẬP THÔ
Hiện nay, mô hình tập thô đang được sử dụng trong rất nhiều lĩnh vực khác nhau như phân tích dữ liệu thương mại, công nghệ, nhân sự… Tuy nhiên, những ứng dụng lớn nhất của nó hiện nay là các ứng dụng trong lĩnh vực kinh tế và tài chính
Các ứng dụng của mô hình tập thô trong kinh tế và tài chính được chia ra làm ba lĩnh vực chính: dự báo thất bại kinh doanh, nghiên cứu thị trường qua cơ sở dữ liệu và đầu tư tài chính Bảng 3 liệt kê các lĩnh vực ứng dụng chính và một số mô hình tập thô tương ứng với chúng:
Mô hình tập thô Dự báo thất bại
kinh doanh
Nghiên cứu thị trường qua csdl
Đầu tư tài chính
Ziarko et al (1993) Golan (1993)
Edwards (1993)
Kowalczyk and Slisser (1997)
Poel (1998) Poel and Piasta (1998)
Dominance
relation Rough
Das and Profit
Greco et al (1998) Slowinski and Zopounidis (1994, 1995)
Susmaga et al (1997)
Hybird model Ahn et al (2000)
Hashemi et al (1998)
Bảng 3: các lĩnh vực ứng dụng chính và một số mô hình tập thô tương ứng
Trang 325.1 Dự báo thất bại kinh doanh
Dự báo tài chính là một lĩnh vực được nhiều nhà khoa học, các giáo sư quan tâm Các
tổ chức tài chính, như ngân hàng, tổ chức tín dụng, khách hàng… cần có các dự báo
để đánh giá công ty mà họ quan tâm Có rất nhiều phương pháp như các phân tích logit, phân tích lợi nhuận và các thuật toán phân hoạch đệ quy được dùng để mô hình hóa vấn đề này Mặc dù một số phương thức phù hợp với việc mô hình hóa các vấn đề nguy cơ và tin cậy nhưng chúng vẫn có một số hạn chế, chúng thường phụ thuộc vào
độ tin cậy của các giả thiết thống kê So sánh với những phương thức này, mô hình tập thô là một công cụ hiệu quả để phân tích các bảng thông tin tài chính, mô tả một tập các đối tượng (các công ty) bằng một tập các thuộc tính đa trị (độ co giãn tài chính)
Mô hình tập thô đã được sử dụng để phân tích và giải thích các quyết định tài chính cho một ngân hàng phát triển công nghiệp Hy lạp có tên ET-EVA (Slowinski and Zopounidis 1994, 1995) ET-EVA rất quan tâm đến việc hạn chế các rủi ro khi đầu tư các hãng tốt Để thử nghiệm 39 công ty đã được lựa chọn Với sự hỗ trợ của các chuyên gia một bảng thông tin được xây dựng bao gồm 12 thuộc tính và 1 thuộc tính quyết định với 3 khả năng là ’chấp nhận’, ‘không chấp nhận’ và ‘không chắc chắn‘ Các luật sinh ra từ bảng thông tin, một mặt sử dụng để tìm ra chính sách tài chính áp dụng cho các công ty được chọn Một mặt, họ có thể sử dụng nó để đánh giá các công
ty khác, những công ty lần đầu đến vay tiền
Slowinski và Dimitras (1999) đã tiến hành nghiên cứu ứng dụng của cách tiếp cận mô hình tập thô trong dự báo thất bại kinh doanh Họ đã tiến hành thử nghiệm khả năng
dự báo của của cách tiếp cận mô hình tập thô và so sánh nó với các phương thức khác như: thuật toán đệ quy C45, phân tích logit Trong đó, có 40 công ty thất bại và 40 công ty hoạt động tốt trong 13 ngành công nghiệp được lựa chọn Các công ty này đã tham gia kinh doanh trên 5 năm và có đầy đủ số liệu Cả 12 thuộc tính tài chính được lựa chọn kết hợp lại thành một bảng thông tin với một thuộc tính quyết định (0: thất
Trang 33bại, 1: hoạt động tốt) Hai tác giả này đã sử dụng độ đo khoảng cách trên cơ sở quan
hệ giá trị gần nhất để quyết định loại của đối tượng thử nghiệm khi không có bất kỳ một luật nào phù hợp với đối tượng đó Tập dữ liệu được sử dụng là toàn bộ dữ liệu trong vòng 3 năm của các công ty Theo các kết quả so sánh, nó hoạt động tốt hơn thuật toán đệ quy C45 Đối với phương pháp phân tích logit, mô hình tập thô cũng tốt hơn nhưng không nhiều
Ngoài ra, còn có một số ứng dụng của Szladow and Mills (1993), Slowinski et al (1997), Dimitras et al (1999)… Việc so sánh độ chính xác của các dự báo chỉ ra rằng, cách tiếp cận tập thô là một hướng tốt cho việc dự báo hoạt động của các công ty
Trang 345.2 Nghiên cứu thị trường qua cơ sở dữ liệu (Database Marketing)
Nghiên cứu thị trường qua cơ sở dữ liệu là một khái niệm rộng liên quan đến cách suy nghĩ và hành động, nó bao gồm các ứng dụng của các công cụ và phương thức trong các nghiên cứu và các vấn đề liên quan đến các công ty, cấu trúc và tổ chức bên trong của chúng để chúng có thể thành công trên môi trường đầy biến động và rất khó khăn trong việc dự báo thị trường khách hàng Một cách đơn giản, Database Marketting có thể được định nghĩa như là một phương thức phân tích các dữ liệu khách hàng để tìm kiếm các hình mẫu giữa chúng và sử dụng các hình mẫu này để lựa chọn khách hàng tốt hơn Database Marketing được nhận biết bởi lượng dữ liệu khổng lồ về các dữ liệu
cá nhân của khách hàng Tuy nhiên các dữ liệu này phải được chuyển đổi thành thông tin thì mới có thể sử dụng được Để làm dược điều này, nhiều vấn đề khác cần phải được giải quyết Nó bao gồm vấn đề phân đoạn thị trường, mô hình xử lý, phân tích thị trường… Để xây dựng giải pháp thành công cho các vấn đề này đòi hỏi phải áp dụng các kỹ thuật học máy và khai phá dữ liệu cải tiến Từ đó sẽ phát hiện ra các mối quan hệ và các hình mẫu trong cơ sở dữ liệu lịch sử và sử dụng các tri thức này để dự báo trong tương lai Mô hình tập thô cũng được ứng dụng trong lĩnh vực này
Hai ứng dụng chính được biết đến là việc mô hình hoá các xử lý của khách hàng của Poel năm 1998 ứng dụng cho các công ty đặt hàng qua đường bưu điện và việc mô hình hoá việc gắn bó của khách hàng với ngân hàng của Kowalczyk và Slisser năm
1997 Ngoài hai ứng dụng chính nói trên, cách tiếp cận tập thô cũng được sử dụng để đánh giá định tính những người xin làm việc trong các tổ chức tín dụng, phác thảo lượng kinh phí dùng cho quản cáo của công ty, dự báo lượng khách hàng trong tương lai của công ty Trong đó, mô hình tập thô được sử dụng để phân tích các dữ liệu của khách hàng hiện có, các hình mẫu được dùng để mô tả các khách hàng thông thường Khi một khách hàng mới phù hợp với các mẫu, thì khách hàng đó sẽ được coi là một khách hàng tiểm năng Mô hình tập thô là một công cụ đơn giản để trợ giúp cho người quản lý tổ chức dữ liệu và xem xét chúng dưới một góc độ khác
Trang 355.3 Đầu tư tài chính
Có nhiều ứng dụng tài chính thực hiện các kỹ thuật mô hình hoá dự báo, ví dụ như tự động hồi quy, mạng noron, để tạo ra và tối ưu các danh mục đầu tư và danh mục hệ thống thương mại Những vấn đề này thuộc vào lĩnh vực đầu tư tài chính
Xây dựng một hệ thống thương mại sử dụng mô hình tập thô đã được rất nhiều học giả nghiên cứu và ứng dụng Có thể nêu ra một số ví dụ điển hình như:
- Ziarklo et al (1993), Golan và Edwards (1993) và Goland (1995) đã áp dụng mô hình tập thô để khám phá các quy luật thương mại cơ sở dữ liệu thị trường chứng khoán Toronto
- Bazan et al (1994) thảo luận về việc xây dựng hệ thống thương mại sử dụng mô hình tập thô Ông đã tập trung vào việc tìm cách suy luận ra các luật để phản ánh được giá của thị trường chứng khoán tháng sau dựa vào các thông tin của tháng hiện tại Kết quả của Bazan chỉ đạt độ chính xác 44% và còn nhiều vấn đề còn phải giải quyết tiếp như các vấn đề lọc dữ liệu, dữ liệu không đầy đủ, học đánh giá…
- Năm 1996, Baltzersen đã tiến hành nghiên cứu trên chỉ số Index của thị trường chứng khoán Oslo Ông đã thực hiện tập hợp dữ liệu, lựa chọn, chuyển đổi thành các đối tượng tập thô, phân tích giản lược và xây dựng luật, sử dụng mô hình tập thô để
dự báo sự tăng trưởng của chỉ số Index Mặc dù độ chính xác của phân tích chỉ đạt từ 25%-45% cho việc phân tích, nhưng ông đã đưa ra các chỉ dẫn rõ ràng về một số nhân
tố có mức độ ảnh hưởng lớn hơn so với mức độ chúng thường được gán
- Năm 1994, Ruggiero đã thực hiện nhiều nghiên cứu các hệ thống thương mại trên S&P 500 Ông đã phát triển một tập các luật dùng cho dự báo ngắn hạn và dài hạn trong S&P 500 trong khi nhận biết các chu kỳ giá chứng khoán khác nhau Trong cả một giai đoạn thương mại, hệ thống này đạt được độ chính xác trên 70% trong năm tuần tiếp theo và trung bình các giao dịch đạt được lợi nhuận 25,000 $ cho mỗi hợp đồng
Trang 36Có thể thấy rằng mô hình tập thô là một phương pháp đầy hứa hẹn so với các phương pháp truyền thống
Trang 376 MỘT SỐ VẤN ĐỀ KHI THỰC HIỆN MÔ HÌNH TẬP THÔ
Các ứng dụng áp dụng mô hình tập thô kể trên đều tuân thủ theo đúng các thủ tục Đầu tiên là tập hợp và lựa chọn dữ liệu Tiếp theo, quan tâm đến độ sẵn sàng, độ tin cậy của dữ liệu Sau đó, dữ liệu được tiền xử lý để xây dựng bảng thông tin, biểu diễn các tri thức trong mô hình tập thô Tiền xử lý bao gồm việc tính toán các chỉ dẫn cho chuỗi thời gian, phân tách các chỉ số và chỉ dẫn cho các giá trị liên tục, biến đổi tỉ lệ các thuộc tính cho các giá trị nhỏ và loại bỏ các giá trị lỗi hoặc ngoài vùng Sau bước tiền xử lý, mô hình tập thô sẽ được sử dụng để tìm ra các luật từ bảng quyết định Trong bước này, rất nhiều phương thức khác nhau được sử dụng để giải quyết các vấn
đề tuỳ thuộc vào tính chất của chúng Các luật được tìm ra phải kiểm tra để thẩm định, sau đó chúng sẽ được dùng để xây dựng các hệ thống ứng dụng cụ thể
6.1 Lựa chọn các chỉ dẫn, thuộc tính:
Chất lượng của các chỉ dẫn ảnh hưởng đến việc sinh ra các luật bởi vì tập thô chỉ tìm kiếm các luật dựa trên cơ sở bảng thông tin thuộc tính, điều đó có nghĩa là nếu các chỉ dẫn không biểu diễn các thông tin liên quan đến hệ thống, thì các luật sinh ra sẽ trở nên vô nghĩa Rất nhiều phương thức để ước lượng độ quan trọng của một thuộc tính
Ví dụ, có thể tính toán các phép đo thống kê về độ phụ thuộc, hoặc độ ích lợi thông tin Hai nhà khoa học Kowaky và Piasta đã thực hiện các nghiên cứu về vấn đề này Đầu tiên, họ tạo ra rất nhiều các biểu đồ thường được dùng trong phân tích dữ liệu thống kê, các lược đồ độ xám, các ước lượng về nha khoa Thông qua các biểu đồ, toàn bộ tập dữ liệu sẽ được chia thành hai tập con Để xác định được thuộc tính quan trọng nhất trong các thuộc tính tính toán, ba phép đo được thực hiện: các hệ số tương quan, hệ số thích hợp và độ ích lợi thông tin Độ quan trọng của mỗi thuộc tính được xác định nhờ việc phân tích 3 phép đo trên Phương thức này rất hiệu quả đối với việc
mô hình hoá các vấn đề vay nợ của khách hàng và cho ra các kết quả phù hợp khi kết hợp với mô hình tập thô Phương thức này vẫn đang được thẩm định trong khi chờ đợi các nhà nghiên cứu, việc tập hợp và lựa chọn các chỉ dẫn được đưa ra bởi các
Trang 38chuyên gia Đó là một phương thức tin cậy để đảm bảo tính chính xác của các thuộc tính
6.2 Phân đoạn dữ liệu
Trước khi dữ liệu có thể đưa vào mô hình xử lý, chúng cần phải được phân đoạn Theo kết quả của việc phân đoạn, độ chính xác của dữ liệu gốc sẽ bị giảm xuống nhưng tính tổng quát của nó sẽ tăng lên Khi các khoảng phân đoạn được chỉ định bởi một chuyên gia hoặc sử dụng các tiêu chuẩn được thiết lập trong lĩnh vực đó, thì chúng được gọi là phân đoạn chuyên gia Ngược lại khi chúng được định nghĩa tự động, chúng được gọi là phân đoạn tự động Có rất nhiều phương pháp phân đoạn không tự động cũng như phân đoạn tự động được nghiên cứu trong lĩnh vực học máy Năm 1997, Slowinski đã sử dụng phương thức entropy lớp tối thiểu để phân đoạn các giãn nở tài chính trong tập đoàn với các chuyên gia tài chính Phần lớn các nhà nghiên cứu đưa ra các bảng thông tin dựa trên tri thức của các chuyên gia, bởi vì kinh nghiệm của các chuyên gia là đáng tin cậy hơn phương thức phân đoạn tự động Đôi khi, do
sự thiếu trách nhiệm của các chuyên gia hoặc có các chỉ dẫn mới được tập hợp trong
mô hình, chúng ta phải có sự hỗ trợ của các phương thức tự động
Mô hình tập thô cũng đảm bảo việc xây dựng các thuật toán hiệu quả cho việc tìm ra các chức năng, đặc biệt các nỗ lực được tập trung vào phân đoạn và nhóm giá trị thuộc tính tượng trưng Những phương thức được áp dụng thành công nhất là:
- Các kỹ thuật phân đoạn (Nguyen, 1997, 1998 a,b; Nguyen and Skowron 1995,1997)
- Các phương thức phân đoạn (nhóm) các tập giá trị thuộc tính thông thường (Nguyen, 1997, Nguyen và Nguyên 1998 ; Nguyen and Skowron 1997)
- Kết hợp của 2 phương thức trên (Nguyen và Nguyen 1998)
Một cách khác để tránh các vấn đề phân đoạn là áp dụng các mô hình tập thô trực tiếp tới bảng quyết định liên tục Một số nhà nghiên cứu mở rộng quan hệ không rõ ràng
Trang 39của tập thô tới một khái niệm tổng quát hơn để cho phép sự nhập nhằng tồn tại, như là quan hệ tương đồng do Slowsky và Vanderpooten đề xuất năm (1995,2000) và quan
hệ chấp nhận do Skrow và Stepanik đề xuất năm 1996, 1998 Việc tổng quát hoá cung cấp cho nhiều khả năng hơn cho các định nghĩa xấp xỉ, hiệu chỉnh xấp xỉ và lựa chọn các tập nguyên thuỷ Trên cơ sở các quan hệ tổng quát, lý thuyết tập thô có thể áp dụng trực tiếp cho các tập dữ liệu liên tục
6.3 Kiểm tra thẩm định các kết quả:
Các kiểm tra thẩm định chính cho vấn đề phân lớp (Weiss và Kulikowski 1990) có thể phân chia như sau:
- Kiểm tra ngẫu nhiên: mẫu kiểm tra được lựa chọn và phân lớp chỉ một lần Nói chung, kiểm tra thẩm định ngẫu nhiên chỉ sử dụng cho các tập dữ liệu lớn
- Các kiểm tra thẩm định N-tập: tập tất cả các đối tượng được chia làm N tập con Các pha học và phân lớp được thực hiện N lần, mỗi tập coi như một mẫu kiểm tra
và các tập còn lại coi như các mẫu để học Kết quả cuối cùng của kiểm tra này là trung bình của N lần kiểm tra Kiểu kiểm tra này nên sử dụng cho các tập dữ liệu trung bình
- Kiểm tra leaving –1 –out là một biến đổi của kiểm tra thẩm định N-tập, trong đó N
là số lượng của toàn tập đối tượng Nó chỉ áp dụng cho các tập dữ liệu nhỏ (<100)
Trang 407 KẾT LUẬN
Những ứng dụng lớn nhất của lý thuyết tập thô là tìm kiếm các mô tả của tập các đối tượng trong nhóm các giá trị thuộc tính, kiểm tra sự phụ thuộc giữa các thuộc tính, giảm lược thuộc tính, phân tích các dấu hiệu thuộc tính và sinh ra các luật Lý thuyết tập thô đang được sử dụng ngày càng rộng rãi trong các ứng dụng phát hiện tri thức
Mô hình dựa trên lý thuyết tập thô được đánh giá có một số ưu điểm sau:
- Các xử lý được tiến hành chỉ cần dựa trên các dữ liệu gốc mà không cần thiết phải
sử dụng các dữ liệu mở rộng khác như các phương pháp xác xuất, logic mờ…
- Mô hình tập thô là một công cụ phù hợp phân tích cho cả thuộc tính định tính và định lượng
- Sử dụng mô hình tập thô có thể khám phá được các yếu tố ẩn giấu trong dữ liệu và chuyển chúng sang dạng ngôn ngữ tự nhiên hoặc các luật quyết định
- Các luật quyết định sinh ra từ mô hình tập thô đưa ra mô tả chung nhất cho các tri thức lưu trữ trong các bản thông tin, nó cho phép loại bỏ các dư thừa của dữ liệu gốc
- Tất cả các luật quyết định rút ra từ mô hình tập thô đều có tính thực tế, bởi vì mỗi luật được hỗ trợ bởi một tập các mẫu
- Các kết quả của mô hình tập thô đưa ra thường dễ hiểu, trong khi kết quả của khác phương thức khác thường là không quen thuộc với con người