Lí THUYẾT TẬP THễ

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tập thô vào tìm kiếm web (Trang 40 - 44)

4.1. Giới thiệu

Lý thuyết tập thụ (rough set theory) lần đầu tiờn được đề xuất bởi Z. Pawlak vào đầu những năm 1980 và nhanh chúng được xem như một cụng cụ xử lý cỏc thụng tin mơ hồ và khụng chắc chắn. Lý thuyết tập thụ là một cụng cụ hữu ớch được sử dụng nhiều trong việc phõn tớch và phõn lớp dữ liệu. Lý thuyết tập thụ đó được ỏp dụng thành cụng trong nhiều tỏc vụ khỏc nhau như: Trớch chọn cỏc đặc trưng, tổng hợp ra cỏc luật và phõn cụm dữ liệu.

Lý thuyết tập thụ dựa trờn giả thiết rằng để định nghĩa một tập hợp, chỳng ta cần phải cú thụng tin về mọi đối tượng trong tập vũ trụ, quan điểm này hoàn toàn khỏc với quan điểm truyền thống của tập hợp là mọi tập hợp đều được định nghĩa duy nhất bởi cỏc phần tử của nú mà khụng cần biết bất kỳ thụng tin nào về cỏc phần tử của tập hợp. Vấn đề nổi bật của lý thuyết tập thụ là việc đưa ra ý tưởng về tớnh mơ hồ của tri thức hay hệ thụng tin; nú dựa trờn khỏi niệm xấp xỉ dưới (Lower approximation) và xấp xỉ trờn (Upper approximation) của hệ thụng tin. Xấp xỉ dưới của một hệ thụng tin cho một khỏi niệm C là tập hợp cỏc đối tượng chắc chắn thuộc về khỏi niệm C; trong khi đú xấp xỉ trờn của một hệ thụng tin cho khỏi niệm C là tập hợp cỏc đối tượng cú thể thuộc về khỏi niệm C. Vựng khỏc biệt giữa xấp xỉ trờn và xấp xỉ dưới được gọi là vựng biờn (Boundary region) đú là những đối tượng khụng thể quyết định được là cú thuộc khỏi niệm C (xem hỡnh 4.1).

Trong chương này chỳng ta sẽ nghiờn cứu cỏc khỏi niệm và ý nghĩa cơ bản của lý thuyết tập thụ. Đõy là những kiến thức quan trọng cho việc ỏp dụng tập thụ vào phõn cụm kết quả tỡm kiếm web.

Hỡnh 4- 1. Hỡnh ảnh minh họa cỏc khỏi niệm của tập thụ

4.2. Hệ thụng tin

Một tập dữ liệu thể hiện dưới dạng bảng, trong đú mỗi dũng thể hiện cho một trường hợp, một sự kiện, một bệnh nhõn hay đơn giản là một đối tượng. Mỗi cột của bảng thể hiện một thuộc tớnh (là một giỏ trị, một quan sỏt, một đặc điểm …) được “đo lường” cho từng đối tượng. Ngoài ra giỏ trị của thuộc tớnh cũng cú thể được cung cấp bởi chuyờn gia hay bởi người sử dụng. Một bảng như vậy được gọi là mộthệ thụng tin (information system).

Một cỏch hỡnh thức, hệ thụng tin là một cặp A = (U,A) trong đú U là tập hữu hạn khỏc rỗng cỏc đối tượng và được gọi là tập vũ trụ, A là tập hữu hạn khỏc rỗng cỏc thuộc tớnh sao cho a: U→Vavới mọi aA. Tập Va được gọi là tập giỏ trị của thuộc tớnh a.

Vớ dụ 4-1 : Bảng 4-1dưới đõy cho ta hỡnh ảnh về một hệ thụng tin đơn giản

Age LEMS x1 16 – 30 50 x2 16 – 30 0 x3 31 – 45 1 – 25 x4 31 – 45 1 – 25 x5 46 – 60 26 – 49 x6 16 – 30 26 – 49 x7 46 – 60 26 – 49

Bảng 4- 1.Một hệ thụng tin đơn giản

Ta dễ dàng nhận thấy trong bảng trờn, cỏc cặp đối tượng x3, x4 cũng như x5,

x7 cú giỏ trị bằng nhau với cả hai thuộc tớnh. Trường hợp này ta núi rằng cỏc

đối tượng này khụng phõn biệt từng đụi đối với tập thuộc tớnh {Age, LEMS}.

Trong nhiều ứng dụng, tập vũ trụ được phõn chia thành cỏc tập đối tượng con bởi một tập cỏc thuộc tớnh phõn biệt được gọi là tập thuộc tớnh quyết định. Núi cỏch khỏc tập vũ trụ đó được phõn lớp bởi thuộc tớnh quyết định. Hệ thụng tin trong trường hợp này được gọi là một hệ quyết định. Như vậy hệ quyết định là một hệ thụng tin cú dạng: A = (U,C D) trong đú A C D, C D lần lượt được gọi là tập thuộc tớnh điều kiện và tập thuộc tớnh quyết định của hệ thụng tin.

Vớ dụ 4-2 : Bảng 4-2 dưới đõy thể hiện một hệ quyết định, trong đú tập thuộc tớnh {walk} được thờm vào nhận hai giỏ trị kết xuất là Yes No [10].

Age LEMS Walk x1 16 – 30 50 Yes x2 16 – 30 0 No x3 31 – 45 1 – 25 No x4 31 – 45 1 – 25 Yes x5 46 – 60 26 – 49 No x6 16 – 30 26 – 49 Yes x7 46 – 60 26 – 49 No

Bảng 4- 2. Một bảng quyết định đơn giản

Một lần nữa ta thấy rằng, cỏc cặp đối tượng x3, x4 và x5, x7 vẫn cú giỏ trị như nhau tại hai thuộc tớnh điều kiện, nhưng cặp thứ nhất {x3, x4}thỡ cú giỏ trị kết xuất khỏc nhau (tức giỏ trị tại thuộc tớnh quyết định khỏc nhau), trong khi đú cặp thứ hai {x5, x7} thỡ bằng nhau tại thuộc tớnh quyết định.

Từ bảng trờn cú thể rỳt ra được một luật: “Nếu Age là 16-30 và LEMS là 50 thỡ Walk là Yes”. Tớnh tối thiểu của cỏc thuộc tớnh điều kiện trong tập cỏc luật cú được từ hệ quyết định là một trong những vấn đề rất quan trọng.

4.3. Quan hệ bất khả phõn biệt

Một hệ quyết định (hay một bảng quyết định) thể hiện tri thức về cỏc đối tượng trong thực tiễn. Tuy nhiờn trong nhiều trường hợp bảng này cú thể được thu gọn lại vỡ cỏc lý do sau:

 Nhiều đối tượng giống nhau, hay khụng thể phõn biệt với nhau lại được thể hiện lặp lại nhiều lần.

 Khi bỏ đi một số thuộc tớnh thỡ thụng tin do bảng quyết định cung cấp mà chỳng ta quan tõm sẽ khụng bị mất mỏt. Những thuộc tớnh như vậy

được coi là cỏc thuộc tớnh thừa.

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng tập thô vào tìm kiếm web (Trang 40 - 44)

Tải bản đầy đủ (PDF)

(89 trang)