Lý thuyết tập thơ đưa ra các cơng cụ tốn học để phát hiện các dạng ẩn trong dữ liệu: nhận biết một phần hoặc toàn bộ sự phụ thuộc ví dụ, các quan hệ nguyên nhân-kết quả trong các cơ sở d
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -
NGUYỄN THỊ MINH TÂM
TIẾP CẬN TẬP THÔ XÂY DỰNG CÂY QUYẾT ĐỊNH ĐA TRỊ
TRONG KHAI PHÁ DỮ LIỆU
LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: ………
Hà Nội 2008
Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205109581000000
Trang 2CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc - LỜI CAM ĐOAN
Quê quán: Thành phố Vinh Tỉnh Nghệ An -
Địa chỉ: Khối 8 - Phường Quang Trung – Thành phố Vinh - Tỉnh
Nghệ An
Là học viên lớp Cao học Công Nghệ Thông Tin khoá 2003 – 2005,
trường Đại học Bách khoa Hà nội
Tôi làm luận văn tốt nghiệp cao học với đề tài “Tiếp cận tập thô xây
dựng cây quyết định đa trị trong khai phá dữ liệu”, do PGS TS Nguyễn
Thanh Thuỷ hướng dẫn
Tôi xin cam đoan đây là luận văn tốt nghiệp do tôi làm Các kết quả của
luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình
nào khác
Hà nội, ngày 01 tháng 11 năm 2005
Người cam đoan
Nguyễn Thị Minh Tâm
Trang 32
MỤC LỤC
LỜI CAM ĐOAN 1
MỤC LỤC 2
Danh mục các hình vẽ và bảng 5
Mở đầu 6
Chương 1 Tổng quan về phát hiện tri thức trong cơ sở dữ liệu 9
1.1 Khái niệm về phát hiện tri thức 9
1.2 Tiến trình phát hiện tri thức trong cơ sở dữ liệu 10
1.3 Các nhiệm vụ chính của khai phá dữ liệu 12
1.4 Các phương pháp DM 15
1.4.1 Tập thô 15
1.4.2 Tập mờ 16
1.4.3 Cây quyết định 16
1.4.4 Các phương pháp Bayes 16
1.4.5 Mạng Nơron 17
1.4.6 Tin học tiến hoá 17
1.4.7 Học máy 18
1.4.8 Phân cụm 18
1.4.9 Các phương pháp khác 19
1.5 Các ứng dụng của KDD 20
1.6 Các thách thức của KDD 21
Kết luận 23
Chương 2 : Lý thuyết tập thô 24
Trang 43
2.1 Các khái niệm cơ bản của tập thô 24
2.1.1 Các hệ thông tin 24
2.1.2 Các xấp xỉ của tập 26
2.1.3 Các bảng quyết định 31
2.1.4 Sự phụ thuộc của các thuộc tính 32
2.1.5 Rút gọn các thuộc tính 33
2.2 Cách tiếp cận tập thô đối với hệ thông tin đa trị 34
2.2.1 Các hệ thông tin đa trị 36
2.2.2 Các xấp xỉ của tập 38
2.2.3 Sự phụ thuộc của các thuộc tính 39
2.2.4 Rút gọn các thuộc tính 39
2.2.5 Các luật quyết định .41
Kết luận 43
Chương 3 Cây quyết định đa trị 44
3.1 Cây quyết định 44
3.1.1 Giới thiệu về cây quyết định 45
3.1.2 Các vấn đề trong việc khai phá dữ liệu với cây quyết định 45 3.1.3 Giải thuật xây dựng cây quyết định cơ bản 49
3.2 Cây quyết định đa trị 51
3.2.1 Giới thiệu về cây quyết định đa trị 51
3.2.2 Những khó khăn trong việc quản lý dữ liệu đa trị bằng các phương pháp phân lớp truyền thống 54
3.2.3 Giải thuật xây dựng cây quyết định đa trị 56
Kết luận 58
Trang 54
Chương 4 Xây dựng cây quyết định đa trị dựa trên tập thô có độ
chính xác thay đổi 59
4.1 Giới thiệu 59
4.2 Lý thuyết tập thô có độ chính xác thay đổi 61
4.2 Giải thuật xây dựng cây quyết định dựa trên tập thô có độ chính xác thay đổi 64
4.3 Ví dụ minh hoạ 66
4.4 Đánh giá 69
Kết luận 73
KẾT LUẬN 74
Tài liệu tham khảo 75
Trang 65
Danh mục các hình vẽ và bảng
Hình 1.1 - Tiến trình KDD 11
Hình 1.2 Các kỹ thuật khai phá dữ liệu (tháng 2/20 05) [16] 20
Bảng 2.1 – Hệ thông tin T1 25
Hình 2.1 Các xấp xỉ thô của tập 27
Hình 2.2 Các miền của không gian đối tượng 28
Bảng 2.2 Hệ thông tin T2 29
Bảng 2.3 Hệ thông tin đa trị về các - bệnh nhân bị nghẽn mạch [15] 34
Bảng 3.1 Tập dữ liệu huấn luyện đa trị 52
Hình 3.1 Ví dụ về cây quyết định đa trị 53
Bảng 4.1 Ví dụ bảng quyết định 66
Hình 4.1 Cây quyết định đa trị được xây dựng bằng giải thuật VPRS-DTA 68
Hình 4.2 Cây quyết định xây dựng bằng giải thuật ID3 72
Trang 76
Mở đầu
Với tốc độ tin học hoá rất nhanh trong vài thập kỷ qua, hầu hết các tổ chức và cá nhân đều thu thập và lưu trữ một khối lượng dữ liệu khổng lồ trong các cơ sở dữ liệu của họ Lúc đó, việc có thể hiểu được chúng vượt xa khả năng của con người Dữ liệu được thu thập trong các cơ sở dữ liệu vì thế trở thành dữ liệu "bị chôn vùi" rất hiếm khi được xem xét Các quyết định - thường được thực hiện dựa vào trực giác của người tạo quyết định mà không dựa vào dữ liệu giàu thông tin có sẵn trong cơ sở dữ liệu Đơn giản vì người tạo quyết định không có các công cụ để trích rút các tri thức có giá trị Các kỹ thuật hệ chuyên gia dựa vào thao tác thủ công để chuyển đổi các tri thức chuyên môn thành tri thức biểu diễn trong máy Các thao tác này thiên về tính chủ quan, có nhiều lỗi cộng với chi phí cao, thời gian xử lý rất lớn Tình huống lúc này được mô tả như "Giàu dữ liệu nhưng nghèo thông tin" [11]
Các công cụ phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases - KDD) ra đời thực hiện việc phân tích dữ liệu để phát hiện các tri thức có ích như các dạng hay các mô hình
Phương pháp dùng cây quyết định là phương pháp khai phá dữ liệu để tìm ra sự phân lớp tri thức trong các tập dữ liệu huấn luyện bằng cách xây dựng cây quyết định Trong quá trình xây dựng cây quyết định, các thuộc tính xấp xỉ phải được chọn làm các nút của cây dựa trên một số tiêu chuẩn như có
độ chính xác cao, chiều cao nhỏ, để thu được cây kết quả tối thiểu theo nghĩa nào đó Cây quyết định có cấu trúc cây trong đó mỗi nút biểu diễn phép kiểm tra giá trị một thuộc tính nào đó, mỗi nhánh tương ứng với các giá trị của thuộc tính, nút lá biểu diễn các lớp hay phân bố lớp
Trang 87
Có nhiều giải thuật xây dựng cây quyết định Giải thuật cơ bản xây dựng cây quyết định là giải thuật trên xuống (top down) và tìm kiếm tham – lam trên toàn bộ không gian của cây quyết định
Lý thuyết tập thô được Pawlak đề xuất vào đầu những năm 1980 được
xem như một cách tiếp cận mới để phát hiện tri thức và nó "tạo thành một cơ
sở vững chắc cho các ứng dụng khai phá dữ liệu" [8] Chúng ta đã thấy rõ sự phát triển nhanh của các nghiên cứu về lý thuyết tập thô và các ứng dụng của chúng Cho đến nay, đã có hàng ngàn bài báo được công bố về tập thô và các ứng dụng của chúng Lý thuyết tập thô đã được áp dụng thành công trong nhiều lĩnh vực như y học, dược học, ngân hàng, tài chính, phân tích thị trường Lý thuyết tập thô đưa ra các công cụ toán học để phát hiện các dạng
ẩn trong dữ liệu: nhận biết một phần hoặc toàn bộ sự phụ thuộc (ví dụ, các quan hệ nguyên nhân-kết quả) trong các cơ sở dữ liệu, loại ra các dữ liệu thừa, đưa ra cách tiếp cận đối với vấn đề dữ liệu không đầy đủ (dữ liệu không
có giá trị, thiếu dữ liệu, dữ liệu động ) Dữ liệu không đầy đủ ở đây có nhiều dạng, trong đó có nhiều trường hợp dữ liệu lưu trữ là không chắc chắn được thể hiện qua các hệ thông tin với các thuộc tính đa trị Cách tiếp cận lý thuyết tập thô của Pawlak không xem xét trường hợp này, do đó làm hạn chế các ứng dụng của nó trong xử lý dữ liệu
Luận văn trình bày một cách tiếp cận mới để xây dựng cây quyết định
đa trị có khả năng chịu lỗi dựa trên những phát triển của lý thuyết tập thô - mô hình tập thô có độ chính xác thay đổi (VPRS - Variable precision Rough Sets) Dựa trên lý thuyết tập thô có độ chính xác thay đổi, một khái niệm mới
về quan hệ tương đương được đưa ra, đó là quan hệ tương đương có độ chính xác β được dùng để xây dựng cây quyết định đa trị
Trang 98
Ngoài phần mở đầu và kết luận, luận văn bao gồm bốn chương
Chương 1 Tổng quan về phát hiện tri thức trong cơ sở dữ liệu Chương
này trình bày các khái niệm cơ bản của lĩnh vực nghiên cứu KDD, quy trình KDD, các nhiệm vụ chủ yếu của khai phá dữ liệu (Data Mining - DM), các phương pháp DM, các ứng dụng của KDD và các thách thức của lĩnh vực nghiên cứu này
Chương 2 Lý thuyết tập thô Chương này trình bày các khái niệm cơ
bản lý thuyết tập thô, cách tiếp cận tập thô để xử lý các hệ thông tin với các thuộc tính đa trị
Chương 3 Cây quyết định đa trị Chương này trình bày về cây quyết
định đơn trị và giải thuật xây dựng cây quyết định đơn trị Từ đó ta thấy được những khó khăn trong việc quản lý dữ liệu đa trị bằng các phương pháp phân lớp truyền thống như cây quyết định đơn trị Trong chương này cũng trình bày về cây quyết định đa trị và giải thuật cơ bản để xây dựng cây quyết định
đa trị
Chương 4 Xây dựng cây quyết định đa trị dựa trên tập thô có độ chính
xác thay đổi Chương này giới thiệu về mô hình tập thô có độ chính xác thay
đổi và đưa ra giải thuật xây dựng cây quyết định dựa trên tập thô có độ chính xác thay đổi nhằm khai phá dữ liệu
Tác giả xin được bày tỏ lòng biết ơn sâu sắc tới PGS TS Nguyễn
Thanh Thuỷ về những chỉ dẫn khoa học quý giá, định hướng cho luận văn và
sự hướng dẫn tận tình của Thầy Tác giả cũng xin chân thành cảm ơn các Thầy Cô giáo khoa Công Nghệ Thông Tin, Trung tâm Đào tạo và Bồi dưỡng Sau Đại học trường Đại học Bách khoa Hà Nội cùng các bạn lớp Cao học
2003 CNTT đã tạo mọi điều kiện, giúp đỡ tác giả hoàn thành luận văn
Trang 109
Chương 1 Tổng quan về phát hiện tri thức trong cơ sở dữ liệu
Knowledge Discovery and Data mining (KDD) là lĩnh vực nghiên cứu
đang phát triển mạnh mẽ KDD là sự kết hợp giữa cơ sở dữ liệu (CSDL) với các kỹ thuật thống kê, học máy và các lĩnh vực liên quan để trích rút tri thức
và thông tin có giá trị từ số lượng dữ liệu rất lớn
KDD có nhiều lợi ích trong các ứng dụng khoa học và thương mại Các
tổ chức, chính phủ và cộng đồng những người nghiên cứu khoa học ngày nay đang bị tràn ngập trong dòng chảy dữ liệu được thu thập và lưu trữ hàng ngày
từ cơ sở dữ liệu trực tuyến Việc phân tích dữ liệu này và trích rút các dạng có ích trong một thời gian hợp lý là rất khó khăn nếu không có sự trợ giúp của máy tính và các công cụ phân tích mạnh Các chương trình phân tích và thống
kê dựa vào máy tính thường bị hạn chế là không có sự điều khiển, chỉ dẫn của các nhà thống kê và các chuyên gia để lọc và giải thích các kết quả KDD được xem là một trong các lĩnh vực nghiên cứu có triển vọng nhất từ những năm 1990 bởi các nhà nghiên cứu về học máy và cơ sở dữ liệu
1.1 Khái niệm về phát hiện tri thức
KDD là lĩnh vực nghiên cứu và ứng dụng tập trung vào dữ liệu, thông
tin và tri thức Nói chung, chúng ta thường xem dữ liệu như là một chuỗi các
bit, các số hay các ký hiệu, các đối tượng mà có ý nghĩa khi được gửi đến cho một chương trình theo một định dạng cho trước (nhưng vẫn chưa hiểu được) Chúng ta sử dụng các bit để đo thông tin và xem nó như là dữ liệu đã được lược bỏ các dư thừa và được rút gọn tới mức tối thiểu cần thiết để tạo nên các quyết định mà đặc tả được bản chất của dữ liệu (dữ liệu hiểu được) Chúng ta
Trang 11có thể xem tri thức như là thông tin được kết hợp, bao gồm các sự kiện và các
quan hệ của chúng, là cái mà được hiểu, được phát hiện hay được biết như
"hình ảnh trí tuệ" của chúng ta Nói cách khác, tri thức có thể được xem như
dữ liệu ở mức cao của sự trừu tượng hoá và tổng quát hoá
Có sự khác biệt trong cách hiểu các thuật ngữ “phát hiện tri thức” và
“khai phá dữ liệu” giữa những người xây dựng lĩnh vực mới này từ các lĩnh
vực khác nhau :
Phát hiện tri thức (Knowledge discovery) trong CSDL là quá trình phát
hiện các mẫu hay các mô hình đúng đắn, mới lạ, có lợi ích tiềm tàng và có thể hiểu được trong dữ liệu
Khai phá tri thức (Data mining) là quá trình phát hiện tri thức bao gồm
các giải thuật khai phá dữ liệu để tìm ra các mẫu hay các mô hình trong dữ liệu dưới khả năng có thể chấp nhận được của máy tính điện tử
Nói cách khác, mục đích của phát hiện tri thức và khai phá dữ liệu là để tìm ra các mẫu hay các mô hình quan tâm tồn tại trong CSDL nhưng lại ẩn trong lượng dữ liệu lớn
1.2 Tiến trình phát hiện tri thức trong cơ sở dữ liệu
Tiến trình KDD bao gồm nhiều bước được chỉ ra trong hình 1.1
Bước thứ nhất là khảo sát miền ứng dụng và xác định, phát biểu vấn đề Bước này rõ ràng là điều kiện tiên quyết cho việc trích rút các tri thức có ích
và lựa chọn các phương pháp DM thích hợp ở bước thứ ba theo mục đích ứng dụng và bản chất dữ liệu
Trang 12để tổng kết các thành phần cơ bản của dữ liệu một cách có hệ thống hay mô tả
dữ liệu có thể được xuẩt hiện như thế nào" Ngược lại, "một dạng là một cấu trúc cục bộ, có thể chỉ liên quan một số các biến và các trường hợp"
Bước thứ tư là giải thích tri thức được phát hiện, nhất là giải thích các điều kiện được chấp nhận của sự mô tả và dự báo hai mục đích chính của – các hệ thống phát hiện tri thức trong thực tế Các kinh nghiệm cho thấy rằng các mô hình hay các dạng được phát hiện từ dữ liệu ngay từ đầu không phải luôn đúng Do đó tiến trình KDD lặp đi lặp lại một cách tất yếu để đánh giá tri
Trang 13thức được phát hiện Một cách thức chuẩn để đánh giá các luật được đưa ra là chia dữ liệu thành hai tập, huấn luyện trên tập đầu tiên và kiểm thử trên tập thứ hai Có thể lặp lại quy trình này một số lần, với cách phân chia khác nhau, sau đó lấy trung bình của các kết quả để đánh giá hiệu năng các luật
Bước cuối cùng là đưa tri thức được phát hiện sử dụng trong thực tế Trong một số trường hợp, có thể sử dụng trực tiếp tri thức được phát hiện, không cần nhúng trong một hệ thống máy tính Ngược lại, người dùng có thể cho rằng tri thức được phát hiện có thể đưa vào trong các máy tính và được khai thác bởi các chương trình ứng dụng, chẳng hạn hệ chuyên gia, hệ trợ giúp quyết định
1.3 Các nhiệm vụ chính của khai phá dữ liệu
Trong thực tế, DM có hai mục đích chính là dự báo và mô tả Mục đích thứ nhất đòi hỏi phải sử dụng một số biến hoặc trường trong cơ sở dữ liệu để
dự báo các giá trị chưa biết hoặc sẽ có của các biến quan tâm khác Mục đích thứ hai tập trung vào việc tìm các dạng mô tả dữ liệu có thể hiểu được Mối quan hệ của hai mục đích này đối với các ứng dụng khai phá dữ liệu có thể thay đổi một cách đáng kể Một hệ thống DM có thể hoàn thành một hoặc nhiều hơn các nhiệm vụ sau [4]:
- Mô tả lớp Mô tả lớp cung cấp một sự tổng kết ngắn gọn và súc tích của một sự thu thập dữ liệu Sự tổng kết của một sự thu thập dữ liệu được gọi
là đặc tả lớp; ngược lại, sự so sánh giữa hai hoặc nhiều hơn các thu thập dữ liệu được gọi là so sánh hoặc phân biệt lớp Mô tả lớp không chỉ bao gồm các tính chất tổng kết của nó, như count, sum và average, mà còn cả các tính chất
về sự phân tán dữ liệu như variance, outliers, quartiles v.v
Trang 14- Kết hợp Sự kết hợp là việc phát hiện các mối quan hệ kết hợp hay các quan hệ chung giữa một tập các item Chúng thường được biểu diễn ở dạng luật chỉ ra các điều kiện giá trị thuộc tính xuất hiện thường xuyên cùng với -nhau trong một tập dữ liệu đã cho Một luật kết hợp ở dạng X⇒Y được hiểu như "các bộ dữ liệu mà thoả mãn X thì có khả năng thoả mãn Y" Các phân tích kết hợp được sử dụng một cách rộng rãi trong các cơ sở dữ liệu giao dịch đối với xu hướng tiếp thị, các sản phẩm có quan hệ với nhau, thiết kế catalog
và các quy trình tạo quyết định thương mại khác Việc nghiên cứu đáng kể được thực thi gần đây dựa trên các phân tích kết hợp với các giải thuật hiệu quả đã được đề xuất, bao gồm tìm kiếm apriori, khai phá đa cấp, các kết hợp
đa chiều, khai phá các kết hợp đối với dữ liệu số, categorical, dữ liệu khoảng, meta-pattern hay khai phá các tương quan
- Sự phân lớp Sự phân lớp phân tích một tập dữ liệu huấn luyện (ví dụ, một tập các đối tượng mà nhãn lớp được biết) và xây dựng một mô hình cho mỗi lớp dựa vào các đặc trưng trong dữ liệu Một cây quyết định hoặc một tập các luật phân lớp được tạo bởi một quy trình phân lớp như thế có thể sau đó được dùng cho một sự hiểu biết tốt hơn của mỗi lớp trong cơ sở dữ liệu và cho sự phân lớp của dữ liệu trong tương lai Có nhiều phương pháp phân lớp được phát triển trong các lĩnh vực học máy, thống kê, cơ sở dữ liệu, mạng nơron, tập thô Phân lớp được dùng trong phân đoạn khách hàng, mô hình thương mại và các phân tích tín dụng
- Dự báo Chức năng khai phá này dự báo các giá trị có thể của một số
dữ liệu bị thiếu hoặc sự phân bố giá trị của các thuộc tính nào đó trong một tập đối tượng Nó bao gồm việc tìm tập thuộc tính liên quan với thuộc tính quan tâm (ví dụ, một số phân tích thống kê) và dự báo phân bố giá trị dựa trên tập dữ liệu tương tự với các đối tượng đã chọn Ví dụ, tiền lương của một
Trang 15người làm có thể được dự báo dựa vào phân bố lương của những người làm tương tự trong công ty Thông thường, các phân tích hồi quy (regression), mô hình tuyến tính suy rộng, các phân tích tương quan và các cây quyết định là các công cụ có ích trong chất lượng dự báo
- Phân cụm Các phân tích phân cụm phân vùng dữ liệu thành các cụm Một cụm là một tập hợp các đối tượng "tương tự" với nhau Tính tương tự thường được định rõ bởi hàm khoảng cách Các khoảng cách Hamming và Euclidean thường được dùng Một phương pháp phân cụm tốt mang lại các cụm bảo đảm tính chất: độ tương tự giữa các cụm thì thấp còn độ tương tự trong một cụm thì cao Nghiên cứu DM tập trung vào tính chất lượng và các phương pháp phân cụm scalable (khả năng sử dụng cùng một giải thuật cho một số lượng lớn các đầu vào) đối với cơ sở dữ liệu lớn và nhiều chiều
- Các phân tích theo thời gian Các phân tích theo thời gian là để phân tích một tập dữ liệu theo thời gian để phát hiện các quy tắc nào đó và các đặc trưng quan tâm, bao gồm tìm kiếm các chuỗi hay các chuỗi con tương tự, và khai phá các dạng, các chu kỳ, các xu hướng và độ lệch tuần tự Ví dụ, một ai
đó có thể dự đoán giá trị cổ phần của một công ty dựa vào lịch sử về cổ phần của công ty đó, các tình huống thương mại, giá cả thị trường hiện thời v.v
Cũng có các nhiệm vụ DM khác, như các phân tích ngoại lệ (outlier) Việc nhận biết các nhiệm vụ DM mới để có được cách sử dụng dữ liệu tốt hơn là vấn đề nghiên cứu thú vị
Trang 16số của sự xấp xỉ phân lớp [20]
Lý thuyết tập thô đối với thông tin có thể được mô tả như một bảng Bảng bao gồm các đối tượng (còn gọi là các trường hợp) và các thuộc tính Ta qui ước gọi mỗi đầu vào của bảng là mỗi giá trị của các thuộc tính Mục đích đặt ra là phân loại các đối tượng trong bảng Nếu cho rằng một bảng quyết định chính là một tập các luật "if then", lý thuyết tập thô cung cấp cho ta một -tập tối thiểu các luật "if then" đơn giản nhất.-
Mục đích khác ở đây là tạo ra các luật quyết định cho việc phân lớp và
dự báo các lớp cho các đối tượng chưa được xem xét Tập thô đã được ứng dụng thành công trong việc rút gọn thuộc tính
Trang 171.4.2 Tập mờ
Lý thuyết tập mờ là sự mở rộng của lý thuyết tập thông thường (tập rõ),
mở rộng khái niệm chân lý cổ điển với các giá trị chân lý nằm giữa 0 (sai hoàn toàn) và 1 (đúng hoàn toàn) Chẳng hạn ta không nói cao bao nhiêu cm,
mà lại nói "hơi cao", "thấp quá"… Lý thuyết tập mờ được đề xuất bởi Lofti Zadeh năm 1965 như một công cụ để mô hình hoá tính mờ và tính nhập nhằng trong các hệ thống phức tạp
Cây quyết ịnh có nhiều ưu đ điểm như là tốc độ nhanh, độ chính xác cao
và phương thức dễ tạo Vì vậy, cây quyết định được nhiều nhà nghiên cứu tập trung trong khai phá dữ liệu
1.4.4 Các phương pháp Bayes
Xử lý thống kê được dựa vào lý thuyết quyết định Bayes là một kỹ thuật nền tảng cho nhận dạng và phân lớp Cách tiếp cận Bayes giả định rằng các dạng có các đặc tính ngẫu nhiên và chúng được tạo ra theo một cách ngẫu nhiên bởi một vài quy trình hay hiện tượng tự nhiên Việc phân lớp các dạng được biểu diễn trong các điều kiện xác suất Ở đây giả sử rằng các đặc tính thống kê của các dạng ngẫu nhiên được biểu diễn như mật độ xác suất điều kiện của các dạng và các lớp Nó cung cấp các phương pháp thống kê để phân
Trang 18- Dự báo: sử dụng các giá trị đầu vào để dự báo một số đầu ra
- Phân lớp: sử dụng các giá trị đầu vào để xác định sự phân lớp
- Sự kết hợp dữ liệu: tương tự với phân lớp nhưng nó nhận biết dữ liệu chứa lỗi
- Lọc dữ liệu: làm trơn một tín hiệu đầu vào
1.4.6 Lập trình tiến hoá
Các giải thuật di truyền đang được dùng hiện thời trong các ứng dụng
DM để cải tiến hiệu năng của mạng nơron Hầu hết các công cụ DM được thiết kế để phát hiện, trong khi các giải thuật di truyền là các công cụ để tối
ưu hoá Tuy nhiên, khi được dùng nối tiếp nhau, một giải thuật di truyền có thể được dùng để tối ưu hoá hiệu năng của một mạng nơron trong phân lớp và
dự báo
Giải thuật di truyền cũng có thể được dùng chung với bộ tạo luật để đạt được sự thực thi dự báo các luật cao hơn hay được dùng chung với các giải
Trang 191.4.8 Phân cụm
Phân cụm hay nhóm là việc tìm ra các nhóm trong dữ liệu Hàng trăm phương pháp phân cụm tồn tại và nhiều phương pháp đã được áp dụng trong công nghiệp Nói chung, các phương pháp phân cụm có thể được phân thành hai loại:
- Phân cụm có thứ bậc: mỗi điểm trong dữ liệu được xem như một cụm riêng biệt và được kết hợp một cách liên tiếp dựa vào các quan hệ của nó với các dạng khác Việc đệ quy các cụm được thiết lập để phát triển cây nhị phân
mô tả một sự xấp xỉ của các tương tự giữa các item
- Các phương pháp tối ưu hoá dựa trên hàm đối tượng: các phương pháp này sử dụng một chỉ số hiệu năng để giúp cho việc phát triển các phân chia tốt của các điểm dữ liệu
Trang 20Các giải thuật phân cụm thực tế đòi hỏi các kiểm tra dữ liệu một cách cẩn thận để đạt được sự hội tụ Với một cơ sở dữ liệu lớn, các kiểm tra này trở thành chi phí rất đắt đỏ Các hướng mới trong nghiên cứu đang khắc phục vấn
đề này
1.4.9 Các phương pháp khác
Hình học fractal (công cụ nén dữ liệu rất hiệu quả) là một cách tiếp cận khác trong DM Hình học fractal cung cấp lợi thế duy nhất để nén dữ liệu mà không bị mất mát Ngoài ra lập luận dựa vào tình huống cũng là một phương pháp hiệu quả Trong cách tiếp cận này, hệ thống lưu trữ các tình huống trước
đó (hoặc các thử nghiệm) như các kết quả đặc biệt Hệ thống cũng cho phép người dùng xem xét các tình huống để tác động đến quyết định
Các kỹ thuật khai phá dữ liệu hiện nay đang được sử dụng được minh hoạ trong hình 1.2
Trang 21• Thông tin thương mại :
o Phân tích dữ liệu bán hàng và tiếp thị
o Phân tích vốn đầu tư
o Chấp nhận vay nợ
o Phát hiện gian lận
• Thông tin sản xuất :
Cây quyết định/Luật (107)
Trang 22o Điều khiển và lập lịch
o Quản lý mạng
o Phân tích kết quả thực nghiệm v.v
• Thông tin khoa học :
o Phân loại địa hình thời tiết (sky survey)
o Các cơ sở dữ liệu chuỗi sinh học
- Dữ liệu nhiều chiều Không chỉ có các cơ sở dữ liệu có số bản ghi lớn
mà còn có các cơ sở dữ liệu có số các trường (các thuộc tính, các biến) rất lớn Một tập dữ liệu nhiều chiều tạo ra các vấn đề dưới dạng tăng kích thước của không gian tìm kiếm cho sự quy nạp mô hình trong một cách thức bùng
nổ tổ hợp Hơn nữa, nó làm tăng khả năng mà một giải thuật DM sẽ tìm ra các dạng không chính xác, nói chung là không hợp lệ Các cách tiếp cận đối với vấn đề này bao gồm các phương pháp rút gọn số chiều của vấn đề một cách hiệu quả và sử dụng tri thức trước đó để nhận biết các biến không thích hợp
- Hiện tượng quá khớp (over fitting) Khi giải thuật tìm kiếm các tham
-số tốt nhất cho một mô hình cụ thể thì sẽ sử dụng một tập dữ liệu có giới hạn,
nó có thể quá khớp với dữ liệu, dẫn đến hiệu năng của mô hình trên dữ liệu test sẽ kém Các giải pháp có thể bao gồm cross-validation, regularization và các chiến lược thống kê khác
Trang 23sự thay đổi
- Dữ liệu thiếu và nhiễu Vấn đề này đặc biệt nghiêm trọng trong các cơ
sở dữ liệu giao dịch Dữ liệu điều tra dân số Mỹ có tỷ lệ lỗi lên tới 20% Các giải pháp có thể bao gồm các chiến lược thống kê tinh vi hơn để nhận biết các biến ẩn và các phụ thuộc
- Các quan hệ phức tạp giữa các trường Các thuộc tính hoặc các giá trị được xây dựng có thứ tự, các quan hệ giữa các thuộc tính, và các ý nghĩa tinh
vi hơn đối với việc mô tả tri thức về các nội dung của một cơ sở dữ liệu sẽ đòi hỏi các giải thuật phức tạp Về phương diện lịch sử, các giải thuật DM được phát triển cho các bản ghi giá trị thuộc tính đơn giản, mặc dù các kỹ thuật mới -tìm thấy các quan hệ giữa các biến đang được phát triển
- Tính có thể hiểu được của các dạng Trong nhiều ứng dụng, điều đó thật quan trọng để tạo ra các phát hiện có thể hiểu được nhiều hơn bởi con người Các giải pháp có thể bao gồm sự biểu diễn biểu đồ, cấu trúc luật với các đồ thị có hướng
Trang 24- Tích hợp với các hệ thống khác Một hệ thống phát hiện đứng một mình có thể không mang lại nhiều lợi ích Các vấn đề tích hợp điển hình bao gồm tích hợp với một DBMS (ví dụ, qua một giao diện truy vấn), tích hợp với các bảng tính và các công cụ visualization,
Trang 25Chương 2 : Lý thuyết tập thô
Lý thuyết tập thô ược Giáo sư Pawlak đ đề xuất năm 1982 Ông nghiên cứu tri thức từ một quan iểm mới và kết hợp tri thức với sự phân lớp, cung đcấp công cụ toán học có thể chia sẻ cho sự nhận dạng của con người đ để ối phó với vấn ề phân lớp dữ liệu không đ đầy đủ và không chính xác Lý thuyết tập thô ược dùng rộng rãi trong nhiều lĩnh vực, chủ yếu đ được áp dụng để rút gọn tri thức và phân tích sự phụ thuộc tri thức
Lý thuyết tập thô giả định rằng mọi đối tượng của không gian đối tượng
có một số điểm đặc trưng được mô tả bởi thông tin về đối tượng Các đối tượng có cùng các điểm đặc trưng sẽ không phân biệt được với nhau Các quan hệ không phân biệt được dẫn đến cách tiếp cận đối với tính mập mờ được gọi là "đường ranh giới", được đề ra đầu tiên bởi ông tổ của logic hiện đại, Gotlob Frege Do đó, theo quan điểm của triết học thì lý thuyết tập thô có thể được hiểu như một trường hợp đặc biệt của ý tưởng được Frege đề xuất [19]
2.1 Các khái niệm cơ bản của tập thô
2.1.1 Các hệ thông tin
Các khái niệm cơ bản của lý thuyết tập thô có thể được trình bày thông qua các hệ thông tin hay còn được gọi là các bảng thông tin, các hệ giá trị-thuộc tính Các cột của bảng được gán bởi các thuộc tính, các hàng là các đối tượng và các đầu vào là các giá trị thuộc tính
Ví dụ: Cho hệ thông tin T1:
Trang 26Bảng 2.1 – Hệ thông tin T1
ID Tóc Chiều cao Cân nặng Kem dưỡng da Cháy nắng
Các cột của bảng được gán bởi các thuộc tính Tóc, Chiều cao, Cân nặng,
Kem dưỡng da, Cháy nắng; các dòng là mô tả các ID (các đối tượng) X1, X2, X3, X4, X5, X6, X7, X8
Mỗi dòng của bảng được xem như thông tin về các đối tượng riêng biệt Ví dụ, đối tượng X3 được mô tả trong bảng bởi các cặp (thuộc tính, giá trị):
{(Tóc, nâu), (Chiều cao, thấp), (Cân nặng, trung bình), (Kem dưỡng da, có), (Cháy nắng, không)}
Ta thấy rằng mỗi tập con của các thuộc tính chia tập tất cả các đối tượng trong bảng thành các lớp có cùng đặc trưng Ví dụ, trong bảng T1 các đối tượng X2, X3, X8 không phân biệt được khi xét theo thuộc tính Kem
dưỡng da, vì tất cả chúng đều có cùng giá trị tại thuộc tính này Tương tự,
các đối tượng X2 và X4 là không phân biệt được dựa theo các thuộc tính Tóc
Trang 27và Chiều cao, v.v Do đó, mỗi tập con của các thuộc tính đem lại trên tập
các đối tượng một quan hệ tương đương
Sau đây là các khái niệm trên được phát biểu một cách hình thức
Cho S = (OB,AT) là một hệ thông tin, ở đây OB và AT là các tập hữu hạn, khác rỗng được gọi là không gian đối tượng và tập các thuộc tính tương ứng Với mỗi thuộc tính A AT được kết hợp với một tập V∈ A các giá trị của
nó, gọi là miền trị của A Với bất kỳ tập con B của AT, có thể xác lập một quan hệ tương đương, gọi là quan hệ không phân biệt được I(B) trên OB, được định nghĩa như sau:
(x,y)∈I(B) nếu và chỉ nếu A(x)=A(y) với mọi A∈AT, ở đây A(x) có nghĩa là giá trị của thuộc tính A của đối tượng x
Rõ ràng rằng I(B) là một quan hệ tương đương Họ tất cả các lớp tương đương của I(B) được xác định bởi OB/I(B), viết đơn giản là OB/B; một lớp tương đương của I(B) chứa x được ký hiệu bởi B(x)
Nếu (x,y) ∈ I(B), ta sẽ nói rằng x và y không phân biệt được trên B Trong T1, các đối tượng X2, X3 và X8 không phân biệt trên thuộc tính Kem
dưỡng da; các đối tượng X6, X7 là không phân biệt trên các thuộc tính Tóc, Cân nặng và Kem dưỡng da Thuộc tính Kem dưỡng da cho phép tạo ra các lớp tương đương {X2, X3, X8} và {X1, X4, X5, X6, X7}
2.1.2 Các xấp xỉ của tập
Từ bảng 2.1 ta có thể thấy rằng giá trị “Cháy nắng” cho ta tập các đối tượng {X4, X5} còn khái niệm “không Cháy nắng” cho tập {X1, X2, X3, X6, X7, X8} Nhưng chúng lại không thể được phân biệt bởi các thuộc tính Tóc
Trang 28và Cân nặng bởi vì các đối tượng X2 và X4 có cùng giá trị thuộc tính, nhưng
X4 lại là “có”, X2 lại “không” Do đó, lý thuyết tập thô đưa ra định nghĩa các xấp xỉ của tập, được gọi là xấp xỉ trên xấp xỉ dưới và của một khái niệm, được xác định bởi các thuộc tính có trong bảng
• Xấp xỉ dưới của một khái niệm là tập tất cả các đối tượng được phân lớp một cách chắc chắn thuộc vào một khái niệm
• Xấp xỉ trên của một khái niệm là tập tất cả các đối tượng mà có thể thuộc vào khái niệm
Trang 29− Miền khẳng định: POSB(X) = BX
− Miền phủ định: NEGB(X) = OB -B X
− Miền biên: BNB(X) = B X - BX
Hình 2.2 Các miền của không gian đối tượng
Miền khẳng định POSB(X) là tập tất cả các phần tử của OB mà có thể được phân lớp một cách duy nhất vào các lớp tương đương của sự phân chia OB/X, theo ý nghĩa của B
POSB(X) NEGB(X)
BNB(X)
Trang 30Miền phủ định NEGB(X) là tập hợp các đối tượng có thể được xác định không có sự nhập nhằng dựa trên tri thức B, nghĩa là các phần tử của OB không thuộc tập X mà thuộc vào phần bù của X
Miền biên BNB(X) là miền không thể quyết định được của tập không gian đối tượng, nghĩa là các đối tượng không được phân lớp chắc chắn vào tập X hay phần bù của nó ( X) dựa trên tri thức B Nếu miền biên B của X là -tập rỗng, thì tập X là rõ (chính xác) đối với B; ngược lại tập X là thô (không chính xác) đối với B
Hệ thông tin T2 gồm các đối tượng OB = {o1, o2, o3, o4, o5, o6, o7, o8}
được ặc trưng bởi 3 thuộc tính {Chiều cao, Tóc, Mắt} đ
Trang 31a) Chọn thuộc tính B = {Tóc} với miền giá trị của thuộc tính là {vàng,
đỏ, đen}, tập ối tượng đ được chia thành các lớp tương ương {ođ 1, o2, o6, o8} -
‘vàng’, {o3} - ‘đỏ’và {o4, o5, o7} - ‘đen’
Xét tập ối tượng X = {ođ 1, o3, o6}, X ⊂ OB, thuộc vào phân lớp ‘+’ Ta
có các xấp xỉ của X theo thuộc tính B={Tóc} như sau :
{o1 , o6 } (tóc,vàng) – (mắt,xanh) {o2 , o8 } (tóc,vàng) – (mắt,nâu) {o3 } (tóc,đỏ) (mắt,xanh) – {o4 , o5 } (tóc,đen) – (mắt,xanh) {o7 } (tóc,đen) – (mắt,nâu)
Trang 32Một bảng quyết định là hệ thông tin có dạng S = (OB, AT∪{d}), trong
đó d∉AT là thuộc tính quyết định Các phần tử của tập AT là các thuộc tính
điều kiện
Bảng quyết định biểu diễn sự phân lớp của miền quan tâm Thuộc tính quyết định thiết lập sự phân tách không gian đối tượng thành các lớp riêng biệt Ta chỉ xét việc xác định lớp dựa vào giá trị của các thuộc tính điều kiện
Quá trình đơn giản hoá các bảng quyết định là vấn đề quan trọng nhất
vì có thể nó sẽ cho ta tập luật phân lớp tối thiểu Trong khuôn khổ tập thô, quá trình đơn giản hoá của bảng quyết định gồm có hai nhiệm vụ cơ bản :
Trang 332.1.4 Sự phụ thuộc của các thuộc tính
Vấn đề chính của chúng ta cũng có thể được trình bày theo một cách khác Thay vì việc sử dụng các xấp xỉ của các tập, chúng ta có thể sử dụng khái niệm sự phụ thuộc của các thuộc tính
Một cách trực giác, một tập thuộc tính D (được gọi là các thuộc tính quyết định) phụ thuộc hoàn toàn vào tập thuộc tính C (được gọi là các thuộc tính điều kiện), ký hiệu là C⇒D, nếu tất cả giá trị của các thuộc tính của D được xác định một cách duy nhất bởi các giá trị của các thuộc tính của C Nói cách khác, D phụ thuộc hoàn toàn vào C nếu tồn tại một phụ thuộc hàm giữa các giá trị của D và C
Một cách hình thức, sự phụ thuộc có thể được định nghĩa như sau:
Cho D và C là các tập con của AT Ta nói rằng D phụ thuộc hoàn toàn vào C nếu và chỉ nếu I(C) I(D) Điều đó có nghĩa là sự phân chia được tạo ⊆ bởi C là tốt hơn sự phân chia được tạo bởi D
Chúng ta cũng cần một khái niệm tổng quát hơn về sự phụ thuộc của các thuộc tính, được gọi là phụ thuộc một phần của các thuộc tính Cho D và
Trang 34
Ở đây, POSC(D) =
D OB X
X C
/
) (
|
OB
X
Biểu thức POSC(D) là miền khẳng định của sự phân chia OB/D đối với
C, là tập tất cả các phần tử của OB mà có thể được phân lớp một cách duy nhất vào các lớp tương đương của sự phân chia OB/D, theo ý nghĩa của C
Chú ý rằng với k = 1 thì D phụ thuộc hoàn toàn vào C
2.1.5 Rút gọn các thuộc tính
Một vấn đề quan trọng khác trong cách tiếp cận tập thô là rút gọn dữ liệu Ví dụ, dễ dàng thấy rằng nếu trong T1 chúng ta loại bỏ hoặc là thuộc tính
Cân nặng hoặc là thuộc tính Kem dưỡng da chúng ta cũng sẽ thu được tập
dữ liệu tương đương với tập dữ liệu gốc, đối với các xấp xỉ và các phụ thuộc
Đó là do chúng ta có cùng tính chính xác của xấp xỉ và các độ phụ thuộc giống như T1 Tuy nhiên, lại sử dụng một tập thuộc tính ít hơn
Khái niệm này có thể được công thức hoá một cách chính xác như sau Cho
C ⇒k D Một tập con tối thiểu C' của C sao cho γ(C, D) = (C', D) được gọi là γmột rút gọn của C
Trang 35Vì một rút gọn là một tập các thuộc tính điều kiện, đảm bảo độ phụ thuộc Điều đó có nghĩa rằng một rút gọn là tập thuộc tính tối thiểu của các thuộc tính điều kiện cho phép có cùng các quyết định như toàn bộ các thuộc tính điều kiện
Rõ ràng, một tập các thuộc tính điều kiện có thể có nhiều hơn một rút gọn Giao của tất cả các rút gọn được gọi là lõi CORE Bởi vậy lõi là tập thuộc tính mà không thể loại bỏ trong hệ thông tin bởi việc loại bỏ nó làm thay đổi các phụ thuộc và các xấp xỉ
2.2 Cách tiếp cận tập thô đối với hệ thông tin đa trị
Lý thuyết tập thô kinh điển là một cách tiếp cận mới đối với thông tin không đầy đủ Thông tin không đầy đủ ở đây có nhiều dạng, song ở đây xem xét sự không chắc chắn được thể hiện qua các thuộc tính đa trị Các hệ thống thông tin lúc đó sẽ được gọi là đa trị MIT Xét MIT được đưa ra trong bảng - 2.3
Bảng 2.3 - Hệ thông tin đa trị về các bệnh nhân bị nghẽn mạch [15]
1936676 1150.7 abortion abortion, epilepsy Rất nặng
3296266 1.5 SLE, SjS, Cliogloblin+ CNS lupus Nặng
Trang 364563365 3.1 pulmonary emboli, DVT pulmonary brain infarction,
Trong hệ này, các thuộc tính Triệu chứng, Chẩn đoán là các thuộc tính đa trị Thuộc tính Tình trạng nghẽn mạch được gán bởi chuyên gia là
thuộc tính phân loại Rất khó biết được các luật được áp dụng bởi các chuyên gia Nhiệm vụ đặt ra ở đây là cần phải phát hiện được chúng
Trong cách tiếp cận tập thô kinh điển, hai đối tượng được xem như không phân biệt với nhau nếu các cặp giá trị tương ứng của chúng bằng nhau trên mọi thuộc tính (đơn trị) Khi xét hệ thông tin với các thuộc tính đa trị, nếu chúng ta thay thế việc so sánh bằng nhau của các giá trị đơn bằng việc so sánh các tập giá trị sử dụng quan hệ bằng nhau của lý thuyết tập hợp, sẽ tạo nên các luật quyết định có phần điều kiện dạng: Aj=dij, ở đây Aj là thuộc tính thứ j, dij là tập các giá trị của thuộc tính Aj của đối tượng thứ i Các điều kiện như vậy có thể quá hạn chế bởi lẽ có rất ít các đối tượng hoàn toàn giống nhau trên từng giá trị thuộc tính như thế hay một số giá trị trong tập các giá trị dij có thể không quan trọng cho các mục đích phân lớp Do đó, sử dụng tập giá trị trong các luật quyết định sẽ gây phức tạp
Có thể tiến hành phát hiện tri thức từ các hệ thông tin đa trị bằng cách chuyển đổi hệ thuộc tính đa trị thành hệ thuộc tính đơn trị [7] Ở đây, mỗi đối
Trang 37đó, cho phép các đối tượng tương đương với nhau có thể có các giá trị thuộc
tính khác nhau Hơn nữa, các luật quyết định sẽ mô tả mối quan hệ giữa các lớp giá trị của các thuộc tính với nhau (thay vì mô tả mối quan hệ giữa các giá trị của các thuộc tính với nhau theo quan niệm truyền thống về luật quyết định [23])
2.2.1 Các hệ thông tin đa trị
Định nghĩa 2.1: Xét hệ thông tin đa trị MIT = (OB, AT, ρ), trong đó:
OB={O1, O2, , On} là tập các đối tượng, AT = {A1, A2, , Am } là tập các thuộc tính Giả sử Dj là miền trị của Aj, trên mỗi Dj có một quan hệ tương đương ρj ∈ρ, phân hoạch Dj thành các lớp tương đương Dj/ ρj= {[a i ] ρj| ai ∈ Dj}
Mỗi Oi ∈OB có dạng: Oi = (di1, di2, , dim), dij = {a1,a2, , ak} D⊆ j Lúc đó, Oi có thể qui về (di1/ρ1, di2/ρ2, , dim/ρm), trong đó dij/ρj là tập tất cả các lớp tương đương của dij được cảm sinh bởi quan hệ tương đương ρj Ta dùng dij ρj dkj hay Aj(Oi) ρj Aj(Ok) để nói rằng dij/ρj d≡ kj/ρj ; Giả sử B⊆AT, ký hiệu ρB để chỉ quan hệ tương đương cảm sinh từ tất cả các ρj với Aj ∈ B Khi
đó, ρB phân hoạch OB thành các lớp tương đương
Trang 3837OB/ρB = {[Oi]ρBOi∈OB, B AT} ⊆
Ta có quan hệ tương đương kết hợp trên B: EQ ρB(B) = {(O, O')∈O2∀Aj∈B, Aj(O) ρB Aj(O')}
Quan hệ ρ = ρAT cho ta sự phân lớp tất cả các đối tượng OB của hệ thông tin đa trị
Định nghĩa 2.2: Một hệ quyết định đa trị MDT là một MIT có cấu trúc
MDT=(OB,AT DC, ∪ ρ), trong đó AT là tập các thuộc tính điều kiện, DC là tập các thuộc tính quyết định, (AT∩DC=∅)
Ví dụ: Cho một hệ thông tin đa trị MIT = (OB, AT, ρ), trong đó AT={A, B}, DA={a1, a2, a3} là miền trị của thuộc tính A Trên miền trị DA có một quan hệ tương đương ρA tương ứng với {{a1, a3 }, {a2}} DB={b1, b2} là miền trị của thuộc tính B với quan hệ ρB là quan hệ bằng nhau
Ta có: DA/ρA = {[a1],[a2]} = {[a3],[a2]}; DB/ρB = {[b1],[b2]} Dễ thấy rằng, OB/ρAB gồm nhiều nhất 9 lớp, trong khi đó, nếu theo cách tiếp cận truyền thống thì OB có thể có tối đa 21 lớp
Như vậy, khi áp dụng trên một hệ thông tin đa trị T có nhiều thuộc tính theo cách tiếp cận của trên sẽ rút gọn được một số lượng lớn các lớp tương đương ở trên T Việc rút gọn số lớp tương đương trong một hệ thông tin sẽ làm đơn giản hoá hệ thông tin đó trong tiến trình khai phá dữ liệu Kết quả kéo theo là số luật được phát hiện sẽ giảm đi, song vẫn đảm bảo bao trùm được tập tất cả các đối tượng có trong hệ thông tin
Trang 39Cũng như trong các hệ thông tin kinh điển, BρBX là tập các đối tượng
mà chắc chắn thuộc vào X, trong khi BρBX là tập các đối tượng mà có thể thuộc vào X
B
BNρ (X) = BρBX – BρB X là miền biên của X, bao gồm tất cả đối
tượng mà chúng ta không thể phân lớp một cách rõ ràng thuộc vào tập X dựa trên tập thuộc tính B
U- BρB X là miền ngoài của X, bao gồm tất cả đối tượng được phân lớp
chắc chắn là không thuộc X
Một tập được gọi là thô nếu miền biên của nó khác rỗng, ngược lại tập được gọi là chính xác
Độ chính xác của xấp xỉ