Phương pháp sinh luật mờ phân lớp dựa trên đại số gia tử và ứng dụng phân lớp dữ liệu sinh viên

Việc xây dựng các phân hoạch khoảng tính mờ thuộc tính là bước đầu tiên nhưng rất quan trọng trong quy trình xây dựng hệ luật mờ vì chỉ có trên cơ sở phân chia hợp lý các khoảng tính mờ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI

MÃ SỐ: 60480201

Style Definition: CAP3: Indent: First line: 0"

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi, không sao chép của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực hiện Nội dung lý thuyết trong trong luận văn tôi có sử dụng một số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo Các số liệu, chương trình phần mềm và những kết quả trong luận văn là trung thực và chưa được công bố trong bất

kỳ một công trình nào khác

Hà Nội, ngày 250tháng 121 năm 2017

Học viên thực hiện

Nguyễn Viết Bình

Trang 3

Và cuối cùng em xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và bạn bè những người đã ủng hộ, động viên tạo mọi điều kiện giúp đỡ để em có được kết quả như ngày hôm nay

Hà Nội, ngày 250tháng 121 năm 2017

Học viên thực hiện

Nguyễn Viết Bình

Trang 4

MỤC LỤC

LỜI CAM ĐOAN ii

LỜI CẢM ƠN iii

MỤC LỤC iv

DANH MỤC CÁC THUẬT NGỮ, KÝ HIỆU VIẾT TẮT vi

DANH MỤC CHỮ VIẾT TẮT vi

DANH SÁCH BẢNG vii

DANH SÁCH HÌNH VẼ viii

MỞ ĐẦU 1

CHƯƠNG 1: KIẾN THỨC CƠ SỞ VỀ TẬP MỜ, ĐẠI SỐ GIA TỬ VÀ KHAI PHÁ DỮ LIỆU 4

1.1 Kiến thức cơ sở về tập mờ, đại số gia tử 4

1.1.1 Tập mờ và logic mờ 4

1.1.1.1.Tập mờ 4

1.1.1.2 Logic mờ 5

1.1.2 Biến ngôn ngữ 9

1.1.3 Đại số gia tử 12

1.2 Bài toán phân lớp trong khai phá dữ liệu 151516

1.2.1 Mô tả bài toán 151516

1.2.2 Một số phương pháp giải bài toán 19

1.2.2.1 Cây quyết định 19

1.2.2.2 Bayer 22

1.2.2.3 Phân lớp dữ liệu bằng Fuzzy C- MEANS (FCM) 24

1.3 Kết luận 25

CHƯƠNG 2: PHƯƠNG PHÁP SINH HỆ LUẬT MỜ PHÂN LỚP DỰA TRÊN ĐẠI SỐ GIA TỬ 26

2.1 Hệ luật mờ phân lớp dựa trên đại số gia tử 26

2.1.1 Hệ luật mờ phân lớp 26

Trang 5

2.1.2 Phương pháp lập luận dựa trên hệ luật mờ 28

2.2 Phân hoạch hệ khoảng tính mờ của Đại số gia tử trên miền thuộc tính 31

2.3 Hàm định lượng ngữ nghĩa 41

2.4 Thuật toán sinh luật từ tập dữ liệu 424243

2.5 Kết luận 515152

CHƯƠNG 3: ỨNG DỤNG THỬ NGHIỆM CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU SINH VIÊN 525253

3.1 Phát biểu bài toán và thu thập dữ liệu 525253

3.1.1 Phát biểu bài toán 525253

3.1.2 Phương pháp thu thập dữ liệu 555556

3.2 Cài đặt chương trình 61

3.3 Kết quả thử nghiệm và đánh giá 66

3.4 Kết luận 676766

KẾT LUẬN 686867

TÀI LIỆU THAM KHẢO 696968

Trang 6

DANH MỤC CÁC THUẬT NGỮ, KÝ HIỆUVIẾT TẮT

AX Đại số gia tử tuyến tính

AX Đại số gia tử tuyến tính đầy đủ

điểm của giá trị ngôn ngữ

ℑ Khoảng tính mờ của giá trị ngôn ngữ

Xk Tập cách hạng từ có độ dài đúng k

X(k) Tập các hạng từ có độ dài không quá k

I k Hệ khoảng tính mờ mức k của các giá trị ngôn ngữ

I (k) Hệ khoảng tính mờ mức từ 1 đến mức k của các giá trị ngôn

ngữ

DANH MỤC CHỮ VIẾT TẮT

Các chữ viết

IFRG Initial Fuzzy Rules Generation Tạo hệ luật luật mờ ban đầu

Trang 7

DANH SÁCH BẢNG

Bảng 1.1: Bảng mua máy tính của sinh viên 20

Bảng 2.1: Danh sách sinh viên và kết quả 2 môn học 45

Bảng 2.2: Kết quả 2 môn học sinh viên về đoạn [0, 1] 46

Bảng 2.3: Tham số mờ gia tử 2 thuộc tính Môn học 47

Bảng 2.4: Kết quả học tập sinh viên và độ thuộc của thuộc tính 49

Bảng 2.5: Danh sách luật sinh bởi thuật toán IFRG cho bài toán 50

Bảng 3.2: Mô tả dữ liệu sinh viên ra trường làm việc đúng chuyên ngành 60

Bảng 3.3: Hệ luật thu được từ tập mẫu dữ liệu kết quả học tập của sinh viên 66

Bảng 3.4: Danh sách luật sinh bởi thuật toán IFRG cho bài toán phân lớp Sinh viên 66

Bảng 3.5: Bảng đánh giá kết quả thử nghiệm và hiệu năng của hệ luật 67

Bảng 1.2: Bảng mua máy tính của sinh viên 20

Bảng 2.1: Danh sách sinh viên và kết quả 2 môn học 46

Bảng 2.2: Kết quả 2 môn học sinh viên về đoạn [0, 1] 47

Bảng 2.3: Tham số mờ gia tử 2 thuộc tính Môn học 48

Bảng 2.4: Kết quả học tập sinh viên và độ thuộc của thuộc tính 50

Bảng 2.5: Danh sách luật sinh bởi thuật toán IFRG cho bài toán 51

Bảng 3.2: Mô tả dữ liệu sinh viên ra trường làm việc đúng chuyên ngành 60

Bảng 3.3: Hệ luật thu được từ tập mẫu dữ liệu kết quả học tập của sinh viên 66

Bảng 3.4: Bảng đánh giá kết quả thử nghiệm và hiệu năng của hệ luật 66

Formatted: Font: No underline Formatted: Indent: Left: -0.25", First line: 0", Space Before: 0 pt, After: 0 pt, Line spacing: 1.5 lines

Formatted: Indent: Left: -0.5"

Trang 8

DANH SÁCH HÌNH VẼ

Hình 1.1: Mô hình huấn luyện 17

Hình 1.2: Mô hình kiểm tra đánh giá 18

Hình 1.3: Cây quyết định mua máy tính của sinh viên 202021

Hình 2.1: Độ đo tính mờ của biến TRUTH 323233

Hình 2.2: Khoảng tính mờ của các hạng từ của biến TRUTH 35

Hình 2.3: Lưới phân hoạch mờ trên miền của 2 thuộc tính 393940

Hình 2.4: Phương pháp phân hoạch mờ scatter-partition 404041

Hình 2.5: Hàm định lượng ngữ nghĩa dạng tam giác 42

Hình 2.6: Phân hoạch thuộc tính Môn 1 484849

Hình 2.7: Phân hoạch thuộc tính Môn 2 484849

Hình 3.1: Mô hình sinh hệ luật mờ phân lớp từ tập CSDL mẫu 545455

Hình 3.2: Mô hình phân lớp sinh viên dựa trên kết quả học tập 545456

Hình 3.3: Giao diện đăng nhập hệ thống 62

Hình 3.4: Biểu đồ hoạt động của user case đăng nhập 62

Hình 3.5: Giao diện chương trình sinh luật mờ phân lớp dựa trên ĐSGT 63

Hình 3.6: Biểu đồ training sinh hệ luật mờ phân lớp dựa trên ĐSGT 6463

Hình 3.7: Giao diện training sinh hệ luật mờ phân lớp dựa trên ĐSGT 64

Hình 3.8: Biểu đồ mờ phân lớp Sinh viên dựa trên ĐSGT 6564

Hình 3.9: Giao diện phân lớp dữ liệu Sinh viên 65

Trang 9

MỞ ĐẦU

1.Tính cấp thiết của đề tài

Công nghệ Logic mờ được giáo sư Lotfi Zadeh công bố lần đầu tiên tại Mỹ

vào năm 1965 Sự bùng nổ của thời đại thông tin như hiện nay, lượng thông tin

được tạo ra hàng ngày là rất lớn Nhu cầu cần thiết đến các quá trình tự động tìm

kiếm thông tin hữu ích, các quan hệ phát hiện các tri thức Để làm được điều đó các

nhà nghiên cứu đã đề xuất và nghiên cứu lĩnh vực này như phân lớp và nhận dạng

mẫu, hồi quy và dự báo, phân cụm dựa trên tâp mờ

Lý thuyết tập mờ được coi là nền tảng của lập luận xấp xỉ, nhưng lý thuyết

tập mờ vẫn chưa mô phỏng đầy đủ, hoàn chỉnh cấu trúc ngôn ngữ mà con người vẫn

sử dụng Vì thế năm 1990 N.C.Ho & W.Wechler đã khởi xướng phương pháp tiếp

cận đại số dựa trên miền giá trị của biến ngôn ngữ

Thực tế cho thấy khái niệm mờ luôn luôn tồn tại, ứng dụng trong các bài

toán và ngay cả trong cách thức suy luận của con người Bằng các phương pháp tiếp

cận khác nhau các nhà nghiên cứu đã đưa ra kết quả về lý thuyết cũng như ứng

dụng trong các bài toán điều khiển mờ, hệ hỗ trợ quyết định Vậy để làm được

những điều đó luận văn sẽ đi trình bày những ngữ nghĩa của thông tin mờ, tìm cách

biểu diễn chúng bằng khái niệm toán học là tập mờ, xem xét đại số gia tử là một cấu

trúc chặt chẽ trên nền ngôn ngữ và xét bài toán phân lớp

Một trong những bài toán cơ bản đặt ra trong lĩnh vực nghiên cứu này là cho

trước một Cơ sở dữ liệu (thường là CSDL số, tức các giá trị của CSDL là các số

thực), từ đó, bằng các phương pháp xử lý nhất định, rút ra một hệ tri thức phản ánh

các quy luật chứa trong CSDL số này Các quy luật này có thể biểu diễn dưới dạng

hệ luật IF X is A and Y is B THEN Z is C, trong đó X, Y, Z là các biến mờ (thường

là các biến ngôn ngữ), A, B, C là các giá trị biến ngôn ngữ (thường là các tập mờ)

Ví dụ luật IFđường là xa vàtốc độdi chuyển là trung bình THEN thời gian đến

đích sẽ là lâu Để có thể sinh ra những luật như vậy, đầu tiên ta phải chuyển hóa

miền giá trị của các thuộc tính “khoảng cách”, “tốc độ”, “thời gian” thành các miền

mờ, hay nói cách khác là phân chia các miền giá trị đó thành các miền mờ cho các

Formatted: Footer distance from edge: 0.44"

Trang 10

bước xử lý tiếp theo Chẳng hạn, có thể chia miền giá trị thuộc tính độ dài (có các giá trị min, max tương ứng chẳng hạn là 0km, 200km) thành các miền mờ “gần” (0km- 50km), “trung bình” (51km-100km), “xa” (100km-200km) Trong lý thuyết tập mờ, mỗi miền mờ như vậy được coi là một tập mờ và ứng với một hàm thuộc (MF- membership function) nhằm xác định độ “thuộc” của giá trị biến vào tập mờ

đã cho Khi đó, một giá trị của một thuộc tính CSDL sẽ ứng với một tập các giá trị của các hàm thuộc ứng với với các tập mờ của thuộc tính đó Và ta sẽ xây dựng hệ luật mờ dựa trên việc xử lý tập giá trị độ thuộc này thay vì xử lý bản thân giá trị ban đầu của CSDL Việc xây dựng các phân hoạch khoảng tính mờ thuộc tính là bước đầu tiên nhưng rất quan trọng trong quy trình xây dựng hệ luật mờ vì chỉ có trên cơ

sở phân chia hợp lý các khoảng tính mờ thuộc tính ta mới có thể có các tập mờ ngôn ngữ phản ánh tương đối chính xác ngữ nghĩa định tính của nhãn ngôn ngữ dùng trong hệ luật được xây dựng tiếp theo.Phương pháp tiếp cận theo lý thuyết tập

mờ cho ta một cách xử lý dữ liệu khá mềm dẻo, nhanh chóng so với các phương pháp xử lý số cổ điển Đại số gia tử (ĐSGT) ra đời dựa trên một cấu trúc thứ tự tốt trong tập các giá trị ngôn ngữ của biến ngôn ngữ có thể khắc phục phần nào những điểm yếu đó Luận văn đặt mục tiêu sử dụng cách tiếp cận ĐSGT trong phương pháp sinh hệ luật mờ phân lớp dựa trên tập CSDL mẫu, để có thể xây dựng được các hệ luật mờ tốt trong các bước tiếp theo nhằm giải quyết các bài toán quan tâm trong lĩnh vực khai phá dữ liệu hay điều khiển mờvì vậy tôi quyết định chọn đề tài:

“Phương pháp sinh luật mờ phân lớp dựa trên đại số gia tử và ứng dụng phân lớp dữ liệu sinh viên”

2 Mục tiêu nghiên cứu

Luận văn nghiên cứu các phương pháp sinh luật mờ dựa trên phân hoạch hệ khoảng tính mờ của Đại số gia tử giải bài toán phân lớp miền xác định thuộc tính của các tác giả trong nước cũng như trên thế giới, ưu, khuyết điểm của các phương pháp đã có và nghiên cứu cách giải bài toán theo cách tiếp cận của Đại số gia tử

- Tìm hiểu kiến thức cơ sở về tập mờ, logic mờ, ĐSGT, các phương pháp khai khá dữ liệu

Trang 11

- Nghiên cứu hệ luật mờ, phương pháp lập luận dựa trên hệ luật mờ

- Nghiên cứu thuật toán sinh luật từ tập dữ liệu mẫu

- Xây dựng mô hình, ứng dụng phân lớp Sinh viên ra trường làm việc đúng chuyên nghành

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là cơ sở dữ liệu về điểm các môn học của Sinh viên làm đầu vào để dùng sinh hệ luật.Lý thuyết tập mờ và đại số gia tử cũng được nghiên cứu như là công cụ để giải bài toán phân lớp dữ liệu

4 Phương pháp nghiên cứu

Tìm hiểu các lý thuyết về tập mờ, các dạng tập mờ, tìm hiểu cách biểu diễn tập giá trị chân lý ngôn ngữ cho tập mờ Tìm hiểu mối quan hệ giữa các dạng biểu diễn tập mờ với hàm định luợng ngữ nghĩa của đại số gia tử, tìm hiểu phương pháp lập luận mờ dựa trên Đại số gia tử, phân hoạch hệ khoảng tính mờ, phương pháp sinh hệ luật mờ phân lớp từ tập cơ sở dữ liệu mẫu

Phân tích, đối sánh, liệt kê, nghiên cứu tài liệu, tổng hợp các kết quả của các nhà nghiên cứu liên quan đến lĩnh vực nghiên cứu

5 Ý nghĩa khoa học

Bài toán phân lớp dữ liệu nói chung đóng vai trò quan trọng trong quá trình khai phá dữ liệu và do đó nó có ý nghĩa ứng dụng rộng lớn, đặc biệt loại bài toán liên quan đến thông tin mờ vì con nguời thuờng quyết định thông qua thông tin mờ ngôn ngữ

Phương pháp sinh luật mờ phân lớp dựa trên Đại số gia tử cho ta một phuơng pháp tuơng đối đơn giản nhưng khá hữu hiệu trong các cách mà Đại số gia

tử nói riêng và lý thuyết tập mờ nói chung có thể sử dụng

Trang 12

CHƯƠNG 1:KIẾN THỨC CƠ SỞ VỀ TẬP MỜ, ĐẠI SỐ GIA

TỬ VÀ KHAI PHÁ DỮ LIỆU

1.1 Kiến thức cơ sở về tập mờ, đại số gia tử

1.1.1 Tập mờ và logic mờ

1.1.1.1.Tập mờ

Định nghĩa 1.1 [2] Cho một tập vũ trụ U với các phần tử ký hiệu bởi x,U

={x} Một tập mờ A trên U là tập đuợc đặc trung bởi một hàm (x) mà nó liên kết mỗi phần tử x ∈U với một số thực trong đoạn [0,1] Giá trị hàm (x) biểu diễn mức

độ thuộc của x trong A (x) là một ánh xạ từ U vào [0,1] và đuợc gọi là hàm thuộc

của tập mờ A

Giá trị hàm (x) càng gần tới 1 thì mức độ thuộc của x trong A càng cao Tập mờ là sự mở rộng của khái niệm tập hợp kinh điển Thật vậy, khi A là một tập

hợp kinh điển, hàm thuộc của nó, (x)), chỉ nhận 2 giá trị 1 hoặc 0, tuơng ứng với

x có nằm trong A hay không

Một số hàm thuộc thông dụng trong ứng dụng của lý thuyết tập mờ:

- Dạng tam giác: μ(x) = max(min((x-a)/(b-a),(c-x)/(c-b)),0),

- Dạng hình thang: μ(x) = max(min((x-a)/(b-a\(d-x)/(d-c), 1),0),

- Dạng Gauss: μ(x) = exp(-(c-x2/(2σ)), trong đó a, b, c, d, σ, là các tham số của hàm thuộc tuơng ứng

Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng đuợc

mở rộng cho các tập mờ Theo đó, các phép toán như t-norm,t-conorm, negation và phép kéo theo (implication), trong lôgíc mờ đuợc đề xuất, nghiên cứu chi tiết

cung cấp cho các mô hình ứng dụng giải các bài toán thực tế

Một khái niệm quan trọng trong việc tiếp cận giải bài toán phân lớp về sau trong luận văn đó là phân hoạch mờ (fuzzy partition).Về hình thức, chúng ta định nghĩa như sau

Định nghĩa 1.2 [2] Cho p điểm cố định m1 <m 2 < <m p trong tập U= [a, b]

Trang 13

⊂ R Khi đó tập Φ gồm p tập mờ A 1 A 2 , , A p(với , , , là các hàm thuộc

tương ứng) định nghĩa trên U được gọi là một phân hoạch mờ của U nếu các điều

kiện sau thỏa mãn, ∀k=1, ,p:

(1) (m k) = 1 (mk được gọi là một điểm trong lõi của Ak);

(2) Nếu x ∈ [m k-1 , m k+1], (x) = 0 (trong đó m 0 = m 1 = α và m p+1 = m p = b);

(3) (x) liên tục;

(4) (x) đơn điệu tăng trên [m k-1 , m k ] và đơn điệu giảm trên [m k , m k+1]; (5) ∀x∈U, ∃k, sao cho (x) > 0 (tất cả mọi điểm trong U đều thuộc một

lớp của phân hoạch này với độ thuộc nào đó khác không)

Ngoài ra, các tác giả đưa thêm một số điều kiện để đảm bảo phân hoạch mờ

là đều và mạnh

Như vậy, theo định nghĩa, tập các tập mờ là không gian (U,[0,1]) các hàm

từ U vào đoạn [0,1], một không gian tương đối giàu về cấu trúc tính toán mà nhiều

nhà nghiên cứu đã sử dụng cho việc mô phỏng phương pháp lập luận của con người

Thực tế các khái niệm mờ trong các bài toán ứng dụng rất đa dạng và khó để xác định được các hàm thuộc của chúng một cách chính xác, thông thường dựa trên ngữ cảnh mà khái niệm mờ đó đang được sử dụng.Một lớp rộng các khái niệm mờ

có thể mô hình qua các tập mờ mà L A Zadeh đã đưa ra gọi là biến ngôn ngữ 1.1.1.2 Logic mờ

Cùng với khái niệm biến ngôn ngữ, L A Zadeh đã phát triển lôgic mờ mà các

giá trị chân lý nhận trong T(Truth) = {true, very true, more false, possible false, very very false, }, tập các giá trị của biến ngôn ngữ Truth Khi đó, một mệnh đề

dạng “X is A”, với A là một khái niệm mờ, sẽ có giá trị chân lý thuộc T(Truth) và

đuợc biểu thị bởi một tập mờ có hàm thuộc µA trên không gian tham chiếu U

Lý thuyết tập mờ là cơ sở toán học cho việc phát triển các phuơng pháp mô

Trang 14

phỏng lập luận của con nguời Về nguyên tắc, vấn đề tư duy, lập luận của con nguời rất phức tạp và do đó không thể sử dụng một cấu trúc toán học duy nhất để mô phỏng Vì vậy, mục tiêu của chúng ta là càng xây dựng đuợc nhiều cấu trúc đại số các tập mờ càng tốt để linh hoạt trong tiếp cận các vấn đề ứng dụng Ở đây, chúng

ta sẽ định nghĩa một họ các cặp đối ngẫu t-norm và t-conorm cùng với phép phủ

định làm cơ sở cho lôgic mờ và lập luận xấp xỉ

Định nghĩa 1.3 Một hàm 2-biến T : [0,1]x[0,1] ^ [0,1] đuợc gọi là phép

i) Tính chất điều kiện biên: T(a,1)=a

Ngoài ra, một số tính chất khác cần đòi hỏi phải có trong nhiều ứng dụng đối

với phép t-norm bao gồm:

Định nghĩa 1.4 Một hàm 2-biến S : [0,1]x[0,1] → [0,1] được gọi là phép

Tính giới nội: S(a,0) = a

Tính giao hoán: S(a,b) = S(b,a)

Tính đơn điệu: a ≤ a’ => S(a,b) ≤ S(a’,b)

Tính kết hợp: S(a,S(b,c)) = S(S(a,b),c)

Như vậy, chỉ có hai tính chất điều kiện biên và giới nội làm nên sự khác biệt

giữa hai họ phép tính t-norm và t-conorm

Chúng ta cũng có thể mở rộng định nghĩa cho phép t-norm và t-conorm này

đối với trường hợp nhiều biến vào, tức là Tex : [0,1]n→ [0,1] và Sex : [0,1]n→ [0,1],

Trang 15

bằng cách áp dụng liến tiếp các phép t-norm và t-conorm ở trên

Định nghĩa 1.5 Hàm N : [0,1] ^ [0,1] được gọi là phép phủ định (negation)

nếu nó thỏa các tính chất sau với ∀a,a’∈[0,1]:

i)Tính đơn điệu giảm: a ≤ a’ => N(a) ≥N(a’)

Ví dụ 1.1 Các phép t-norm, t-conorm và phép phủ định hay được sử dụng

Định nghĩa 1.6 Ba phép tính t-normT, t-conormS và phép phủ định N được

gọi là một hệ đối ngẫu (T,S,N) nếu chúng thỏa điều kiện sau:

Việc áp dụng các phép t-norm, t-conorm và phép phủ định cho việc tính toán

các toán tử hội, tuyển và phủ định trong lôgic mờ làm tăng tính mềm dẻo trong ứng

dụng Thực vậy, khi hai mệnh đề “X is A” và “X is B” có giá trị chân lý được biểu

thị bởi hai hàm thuộc tương ứng µA và µB trên không gian tham chiếu U và V thì

Trang 16

mệnh đề mờ “X is A and B” có hàm thuộc biểu thị giá trị chân lý là∩) = T(µ A ,µ B ), với T là một t-norm nào đó Tương tự, mệnh đề “X is A or B” có hàm thuộc là

∪) = S(µ A ,µ B ) và mệnh đề “X is not A” có hàm thuộc là µ~ A = N(µ A ), ở đây S là một t-conorm và N là một phép phủ định được chọn nào đó

Các mệnh đề mờ cùng với giá trị chân lý của chúng là những đối tượng nghiên cứu chính của lôgíc mờ Trong đó, một dạng mệnh đề mờ thường biểu diễn cho tri thức dạng luật trong lập luận xấp xỉ và ứng dụng, đó là mệnh đề mờ có điều kiện

dạng “If X is A then Y is B” và được biểu diễn bằng toán tử kéo theo mờ

Ở đây, một cách tổng quát, chúng ta đưa ra một số tính chất cho một phép kéo theo mờ

Định nghĩa 1.7[1] Phép kéo theo là một hàm số I : [0,1]2→ [0,1] có các tính chất sau:

i)Tính đơn điệu giảm đối với biến thứ nhất

ii) Tính đơn điệu tăng đối với biến thứ hai

iii)Tính chi phối của giá trị chân lý sai

I(0,x) = 1 iv)Tính trung tính của giá trị chân lý đúng

I(1,x) = x v)Tính đồng nhất

I(x,x) = x vi)Tính chất hoán đổi

I(x,I(y,z)) = I(y,I(x,z)) vii)Tính chất về điều kiện giới nội

I(x,y) = 1 nếu và chỉ nếu x < y vii) Tính chất khái quát hóa của phép kéo theo kinh điển

Trang 17

I(x,y) = I(N(y),N(x)), trong đó N là phép phủ định ix)I là hàm liên tục theo cả hai biến

Rõ ràng mệnh đề điều kiện ở dạng “If X is A then Y is B” thể hiện mối quan hệ

giữa hai khái niệm mờ A và B Vì vậy, chúng cảm sinh một quan hệ mờ R thể hiện bởi một tập mờ trên không gian tích Đề-Các UxV được xác định bởi hàm thuộc

thông qua một phép kéo theo được chọn

Ví dụ 1.2 Một số dạng phép kéo theo thường dùng

Mamdani

I(x,y) = min{x,y}

Dạng khái quát từ phép kéo theo kinh điển

I(x,y) = S(N(x),y), hoặc I(x,y) = S(N(x),T(x,y)), hoặc I(x,y) = S(T(N(x),N(y)),y), với T, S và N là các phép t-norm, t-conorm và phép phủ định

Trang 18

tự nhiên chúng ta có những thuộc tính TUỔI, CHIỀU CAO, LƯƠNG, NĂNG LỰC Các thuộc tính này có thể được mô tả bằng giá trị ngôn ngữ như trẻ, già, rất trẻ, Vì lý do như vậy, Zadeh gọi các thuộc tính kiểu như vậy là biến ngôn ngữ và miền giá trị của chúng là giá trị ngôn ngữ hay gọi là miền ngôn ngữ (linguistic domain) Tuy nhiên, như chúng ta đã đề cập trong Mục 1.1, vì bản thân giá trị ngôn ngữ không phải là đối tượng toán học, ngữ nghĩa của chúng được biểu thị bằng các tập mờ hay hàm thuộc Để khái niệm biến ngôn ngữ trở thành một khái niệm toán học, Zadeh hình thức hóa khái niệm này như sau:

Định nghĩa 1.8 [4] Biến ngôn ngữ là một bộ năm (X, T (X), U, R, M), trong đó

X là tên biến, T(X) là tập các giá trị ngôn ngữ của biến X, U là không gian tham

chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn ngữ của T(X), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong T(X) với một tập mờ trên U

Ví dụ 1.3 [4] Cho X là biến ngôn ngữ có tên là AGE, biến cơ sở u lấy theo số

số tuổi có thang điểm trên miền xác định là U = [0,100] Tập các giá trị ngôn ngữ

T(AGE) = {good, very good, more or less bed, less bed, very bed } R là một qui

tắc sinh các giá trị này.M gán ngữ nghĩa mỗi tập mờ với một giá trị ngôn ngữ Chẳng hạn, đối với giá trị nguyên thủy good, quy tắc gắn ngữ nghĩa M cho good bằng tập mờ sau:

Trong đó µgood(u) = max(min(1,(u-50)/20),0), là một cách chọn hàm thuộc cho khái niệm mờ good

Các đặc trưng của biến ngôn ngữ

Trong thực tế có rất nhiều biến ngôn ngữ khác nhau về các giá trị nguyên thuỷ, chẳng hạn như biến ngôn ngữ số NGÀY LÀM VIỆC có giá trị nguyên thuỷ là

ít, nhiều, biến ngôn ngữ LƯƠNG có giá trị nguyên thuỷ là thấp, cao.Tuy nhiên, những kết quả nghiên cứu đối với một miền trị của một biến ngôn ngữ cụ thể vẫn giữ được ý nghĩa về mặt cấu trúc đối với miền giá trị của các biến còn lại.Đặc trưng

Trang 19

này được gọi là tính phổ quát của biến ngôn ngữ.Ngữ nghĩa của các gia tử và các liên từ hoàn toàn độc lập với ngữ cảnh, điều này khác với giá trị nguyên thủy của các biến ngôn ngữ lại phụ thuộc vào ngữ cảnh Ví dụ ta nói LƯƠNG của cán bộ An

là rất cao, khi đó được hiểu rằng LƯƠNG khoảng trên 8.000.000 đồng, nhưng ta nói CHIỀU CAO của cán bộ An là rất cao thì được hiểu rằng CHIỀU CAO khoảng trên 1.8 m Do đó khi tìm kiếm mô hình cho các gia tử và các liên từ chúng ta không quan tâm đến giá trị nguyên thuỷ của biến ngôn ngữ đang xét Đặc trưng này được gọi là tính độc lập ngữ cảnh của gia tử và liên từ.Các đặc trưng trên cho phép chúng ta sử dụng cùng một tập các gia tử và xây dựng một cấu trúc toán học duy nhất cho miền giá trị của các biến ngôn ngữ khác nhau

Xét một biến ngôn ngữ X như đã được định nghĩa ở trên Trước hết, chúng ta

có nhận xét rằng, nhìn chung, tập ảnh của tập T(X) qua ánh xạ M(X) không có cấu trúc đại số, trên đó chúng ta không định nghĩa được các phép u ∈ [0,50], u∈

[50,100] Một lý do nữa làm cho chúng ta không quan tâm đến điều này là cấu trúc đại số của tập gốc T(X) cũng chưa được phát hiện Trong khi chúng ta chưa phát

hiện ra cấu trúc đại số của miền T(X), trong mục này chúng ta sẽ định nghĩa trên tập F(U, [0,1]) một cấu trúc đại số Cũng cần nhấn mạnh rằng mục tiêu của lý thuyết

tập mờ là mô hình hóa toán học ngữ nghĩa của các khái niệm mờ và, quan trọng nhất, là mô hình hóa phương pháp lập luận của con người.Đây là một vấn đề cực kỳ khó và phức tạp vì những vấn đề này thuộc loại có cấu trúc yếu, hay khó có thể có một cấu trúc toán duy nhất mô hình hóa trọn vẹn những vấn đề nêu trên Như là một

hệ quả, khó lòng chúng ta tìm được một cấu trúc toán học chặt chẽ, đẹp của tập

F(U, [0, 1]) Chính vì vậy chúng ta không có một ràng buộc chặt chẽ, minh bạch trong định nghĩa các phép toán trong F(U, [0, 1]) Như chúng ta sẽ thấy dưới đây,

chúng ta có nhiều cách khác nhau để định nghĩa các phép tính và do đó nó tạo ra tính mềm dẻo, đa dạng trong tiếp cận, thích nghi với các bài toán ứng dụng khác nhau, miễn là nó cho phép giải quyết được các bài toán ứng dụng, đặc biệt các bài toán thuộc lĩnh vực trí tuệ nhân tạo

Trước khi định nghĩa các phép tính trong F(U, [0, 1]), chúng ta hãy xem đoạn

Trang 20

[0, 1] như là một cấu trúc dàn L[0, 1] = ([0, 1], ∪, ∩, -) với thứ tự tự nhiên trên đoạn [0, 1] Khi đó, với mọi a, b ∈ [0, 1], ta có:

a∪ b = max {a, b}, a ∩ b = min {a, b} và - a = 1 - b

Chúng ta có thể kiểm chứng rằng L[0, 1] = ([0, 1], ∪, ∩, -) là một đại số De Morgan, hơn nữa nó có các tính chất sau:

-Các phép tính hợp ∪ và giao ∩ có tính giao hoán

- Tính đơn điệu giảm : a < b => -a > -b

- Tính chất De Morgan : -(a ∪ b) = -a ∩ -b; -(a ∩ b) = -a ∪ -b

- Dựa trên cấu trúc L[0,1]chúng ta sẽ định nghĩa các phép tính trên tập mờ thông qua các phép tính của dàn L[0,1]

1.1.3 Đại số gia tử

Để xây dựng phương pháp luận tính toán nhằm giải quyết vấn đề mô phỏng các quá trình tư duy, suy luận của con người chúng ta phải thiết lập ánh xạ: gán mỗi khái niệm mờ một tập mờ trong không gian tất cả các hàm F(U, [0, 1]) Nghĩa là ta mượn cấu trúc tính toán rất phong phú của tập để mô phỏng phương pháp lập luận của con người thường vẫn được thực hiện trên nền ngôn ngữ tự nhiên

Vậy một vấn đề đặt ra là liệu bản thân ngôn ngữ có cấu trúc tính toán không? Nếu có thì các phương pháp lập luận xây dựng trên đó đem lại những lợi ích gì? Thông qua lý thuyết về đại số gia tử ta có thể thấy rằng tập các giá trị củamột biến ngôn ngữ (biến mà giá trị của nó được lấy trong miền ngôn ngữ) là một cấu trúc đại

Trang 21

số đủ mạnh để tính toán

Lý thuyết đại số gia tử đã cố gắng nhúng tập ngôn ngữ vào một cấu trúc đại số thích hợp và tìm cách xem chúng như là một đại số để tiên đề hóa sao cho cấu trúc thu được mô phỏng tốt ngữ nghĩa ngôn ngữ

Vấn đề sử dụng tập mờ để biểu diễn các giá trị ngôn ngữ và dùng các phép toán trên tập mờ để biểu thị các gia tử ngôn ngữ như +ấ- -+ẻ = ( -+ẻ)2

,+ấ- -+ẻ = ( -+ẻ)1/2 đã cho phép thực hiện các thao tác dữ liệu mờ, đáp ứng nhu cầu thực tế của con người Tuy nhiên, theo cách sử dụng tập mờ ta thấy có nhiều nhược điểm do việc xây dựng các hàm thuộc và xấp xỉ các giá trị ngôn ngữ bởi các tập mờ còn mang tính chủ quan, phụ thuộc nhiều vào ý kiến chuyên gia cho nên dễ mất mát thông tin và còn nhiều vấn đề đặt ra như việc phân chia miền mờ thế nào cho hợp

lý, làm sao xây dựng được các hàm thuộc nhanh chóng, phù hợp và cách xử lý các hàm thuộc này thế nào để giữ được ngữ nghĩa gắn với chúng Mặt khác, bản thân các giá trị ngôn ngữ có một cấu trúc thứ tự nhưng ánh xạ gán nghĩa sang tập mờ, không bảo toàn cấu trúc đó nữa Do đó, vấn đề đặt ra là có một cấu trúc toán học

mô phỏng chính xác hơn cấu trúc ngữ nghĩa của một khái niệm mờ N.C.Ho và cộng sự đưa ra ĐSGT và ĐSGT mở rộng và ĐSGT tuyến tính đầy đủ được giải đáp đầy đủ cho câu hỏi này

Đại số gia tử được ra đời do đề xuất của N.C Ho và W Wechler vào năm

1990, đến nay đã có nhiều nghiên cứu phát triển và ứng dụng thành công của các tác giả

Các tác giả đã chứng minh miền ngôn ngữ X = Dom(X) của một biến ngôn

ngữ X có thể được tiên đề hóa và được gọi là đại số gia tử và được ký hiệu là AX =

(X, G, H, ≤) trong đó G là tập các phần tử sinh, H là tập các gia tử (hedge) còn “≤”

là quan hệ cảm sinh ngữ nghĩa trên X Giả thiết trong G có chứa các phần tử hằng 0,1, Wvới ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hòa

(neutral) trong X Ta gọi mỗi giá trị ngôn ngữ x ∈X là một hạng từ (term)trong

ĐSGT [1]

Nếu tập X và H là các tập sắp thứ tự tuyến tính, khi đó AX= (X, G, H,≤) là

Trang 22

ĐSGT tuyến tính Hơn nữa, nếu được trang bị thêm hai gia tử tới hạn là ∑ và 0 với

ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi tác động lên x , thì ta

được ĐSGT tuyến tính đầy đủ, ký hiệu AX= (X, G,H, ∑, 0, ≤) Ngoài ra, thông thường trong các ứng dụng, miền giá trị của biến ngôn ngữ bao gồm từ sinh ra từ hai phần tử sinh đối xứng (như “cao” và “thấp”, “xa và “gần” ) Vì trong luận văn chỉ quan tâm đến ĐSGT tuyến tính kể từ đây nói ĐSGT cũng có nghĩa là ĐSGT tuyến tính.ĐSGT tuyến tính có hai phần tử sinh đối xứng ký hiệu là c+ và c- Như vậy, G={0, c+, W, c-,1}

Ví dụ ĐSGT có X là miền giá trị của biến ngôn ngữ “chiều cao”, là tập các từ như (“rất cao”, “thấp”, “rất rất thấp”, “tương đối thấp”, “tương đối rất thấp” }, với

G={0, cao, W, thấp,1} và H= (“rất”, “tương đối”, } có quan hệ < cảm sinh ngữ

nghĩa như “rất cao” > “thấp” > “rất rất thấp”> “tương đối thấp”> “tương đối rất thấp”

Khi tác động gia tử h ∈H vào phần tử x∈ X, thì thu được phần tử ký hiệu hx

Với mỗi x ∈X, ký hiệu H(x) là tập tất cả các hạng từ u∈ X sinh từ xbằng cách áp

dụng các gia tử trong H và viết u = h n h j x, với h n …h 1 ∈H

Tập H gồm các gia tử dương H + và gia tử âm H- Các gia tử dương làm tang thiên hướng ngữ nghĩa của một hạng từ mà nó tác động, còn gia tử âm làm giảm thiên hướng ngữ nghĩa của hạng từ Không mất tính tổng quát, ta luôn giả thiết rằng

H = {h -1 < h 2 < < h-q} vàH+ = {h 1 < h 2 < < h p }

Để ý rằng biểu thức hn „ h 1 u được gọi là một biểu diễn chính tắc của một hạng từ V đối với u nếu x = h n h j u và h i h 1 u ≠ h i-1 …h 1 u với i nguyên và i ≤ n Ta gọi độ dài của một hạng từ x là số gia tử trong biểu diễn chính tắc của nó đối với phần tử sinh cộng thêm 1, ký hiệu l(x)

Ví dụ 1.4Cho biến ngôn ngữ TRUTH, có G = {0, FALSE, W, TRUE, 1}, H

Trang 23

AX=(X, G, H, ≤) Khi đó ta có các khẳng định sau:

(1) Với mỗi u ∈ 1 thì H(u) là tập sắp thứ tự tuyến tính (2) Nếu X được sinh

từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X cũng là tập sắp thứ

tự tuyến tính Hơn nữa nếu u <v, và u,v là độc lập với nhau, tức là u ∈H(v) và

v ∉H(u), thì H(u) ≤ H(v)

Định lý tiếp theo xem xét việc so sánh của hai hạng từ trong miền ngôn ngữ

của biến x

Định lý 1.2[1] Cho x = hn h 1 uvà y = k m k 1 ulà hai biểu diễn chính tắc của x

và y đối với u Khi đó tồn tại chỉ số j ≤ min {n, m} + 1 sao cho h j' = k j' với mọi j'

Trong phần tiếp theo, chúng ta trình bày một số vần đề của đại số gia tử làm

cơ sở cho việc nghiên cứu và phát triển một số mô hình lập luận và ứng dụng về sau

1.2 Bài toán phân lớp trong khai phá dữ liệu

1.2.1 Mô tả bài toán

1.2.1.1 Phân lớp dữ liệu (classification)

Là một dạng của phân tích dữ liệu, thao tác với những đối tượng dữ liệu mà có

bộ giá trị biết trước dùng để trích ra những lớp dữ liệu quan trọng, hay dự đoán những khuynh hướng phát triển trong tương lai

Phân lớp dữ liệu là xếp đối tượng dữ liệu vào một trong các lớp đã được xác định trước Tức là có 1 tập các đối tượng và theo một tiêu chí nào đó chia các đối tượng này thành các lớp, sao cho các phần tử trong cùng một lớp thì được hiểu là tương đương nhau theo một nghĩa nào đó

Nhiều phương pháp phân lớp dữ liệu được đề xuất bởi các nhà nghiên cứu trong

Trang 24

các lĩnh vực như máy học (machine learning), hệ chuyên gia (expert system), thống

kê (statistics), hầu hết giải thuật sử dụng để phân lớp dữ liệu với kích thước nhỏ Các nghiên cứu về khai phá dữ liệu đã phát triển nhanh chóng, phù hợp phân lớp cho các gói cơ sở dữ liệu lớn

Một số kỹ thuật cơ bản để phân lớp dữ liệu: sử dụng phân lớp cây quyết định (decision tree classification), bộ phân lớp Bayesian (Bayesian classifier), mạng nơ ron(neural network), mô hình phân lớp K hàng xóm gần nhất (knearest neighbor classifier), phân tích thống kê, các thuật toán di truyền, phương pháp tập thô (rough set approach)

1.2.1.2 Các bước phân lớp dữ liệu

Bước 1: Xây dựng mô hình (learning)

Xây dựng mô hình mô tả một tập các dữ liệu hay các khái niệm định trước Đầu vào là một tập dữ liệu có cấu trúc mô tả bằng các thuộc tính và được tạo ra từ các

bộ giá trị của các thuộc tính

Mỗi bộ giá trị được gọi chung là một phần tử dữliệu (data tuple) hay các mẫu (samples), đối tượng (object) bản ghi (record)… hay truờng hợp case Trong tập dữ liệu này, mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class lable attribute) Đầu ra thường là các quy tắcluật phân lớp dưới dạng luật if - then, cây quyết định, công thức logic hay

mạng nơ-ron Mô hình mô tả như sau:

Trang 25

Hình 1.1: Mô hình huấn luyện

Mô tả một tập những lớp được định nghĩa trước trong đó: mỗi bộ hoặc mẫu được gán thuộc về một lớp được định nghĩa trước như là được xác định bởi thuộc tính nhãn lớp, tập hợp của những bộ được sử dụng trong việc sử dụng mô hình được gọi là tập huấn luyện Mô hình được biểu diễn là những luật phân lớp, cây quyết định và những công thức toán học

Bước 2: Sử dụng mô hình (classifìcation)

Sử dụng mô hình phục vụ cho mục đích phân lớp dữ liệu trong tương lai hoặc phân lớp cho những đối tượng chưa biết đến tức là dùng mô hình xây dựng ở bước trước để phân lớp dữ liệu mới Trước khi sử dụng mô hình người ta thường phải đánh giá tính chính xác của mô hình trong đó, nhãn được biết của mẫu kiểm tra được so sánh với kết quả phân lớp của mô hình, độ chính xác là phần trăm của tập hợp mẫu kiểm tra mà phân loại đúng bởi mô hình, tập kiểm tra là độc lập với tập huấn luyện

Trang 26

Phân lớp dữ liệu là một hình thức học có giám sát: tập dữ liệu huấn luyện (quan sát, thẩm định ) đi đôi với những nhãn lớp chỉ định quan sát, những dữ liệu mới được phân lớp dựa lên tập huấn luyện Ngược lại hình thức học không giám sát Dùng mô hình ở bước trước để phân lớp dữ liệu mới với độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng Holdout là một kĩ thuật đơn giản để ước lượng độ chính xác đó Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp.Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo Độ chính xác của mô hình trên tập dữ liệu kiểm tra là tỉ lệ phần trăm các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được khả quan vì mô hình luôn có xu hướng quá vừa dữ liệu tức là kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập

dữ liệu đó Do đó cần sử dụng một tập dữ liệu đào tạo Nếu như độ chính xác của

mô hình là chấp nhận được thì mô hình sẽ được sử dụng để phân lớp những dữ liệu tương lai hay những dữ liệu chưa biết giá trị của thuộc tính phân lớp

Hình 1.2: Mô hình kiểm tra đánh giá

Trong mô hình phân lớp, thuật toán phân lớp dữ liệu dữ vai trò trung tâm, quyết định sự thành công của mô hình phân lớp nên quan trọng là tìm ra được một

Trang 27

thuật toán phân lớp nhanh, hiệu quả có độ chính xác cao và có thể mở rộng

1.2.2 Một số phương pháp giải bài toán

1.2.2.1 Cây quyết định

Cây quyết định là cấu trúc cây trong đó có:

+ Nút trong bằng phép kiểm tra trên một thuộc tính hay tên thuộc tính được chọn để phân lớp

+ Nhánh của cây bằng đầu ra của một phép kiểm tra hay các giá trị tương ứng của thuộc tính được chọn ở bước đó

+ Nút lá là một nhãn phân lớp hoặc sự phân chia của lớp hay là một trong các giá trị của thuộc tính kết quả

Mỗi lá gắn với một nhãn lớp, mỗi nút quyết định mô tả một phép thử X nào đó, mỗi nhánh của nút này tương ứng với một khả năng của X Nút cao nhất được gọi là nút gốc Cách tạo cây quyết định bao gồm hai giai đoạn

Giai đoạn 1: Xây dựng cây

+ Bắt đầu tất cả các mẫu huấn luyện đều ở gốc

+ Phân chia các mẫu dựa trên giá trị của các thuộc tính được chọn

+ Kiểm tra các thuộc tính được chọn lựa trên một độ đo thống kê

Giai đoạn 2: Thu gọn cây, tiến hành xác định và loại bỏ những nhánh nhiễu hoặc tách khỏi nhóm

Đầu ra: Cây quyết định (Decision tree)

Xét ví dụ về mua máy tính sau:

Trang 28

Từ đó tập huấn luyện trên ta có thể phân lớp: tuổi, sinh viên, độ tín nhiệm thành cây quyết định như sau:

Hình 1.3: Cây quyết định mua máy tính của sinh viên

b Rút luật phân lớp từ cây quyết định

Bảng 1.1: Bảng mua máy tính của sinh viên

STT Tuổi Thu nhập Sinh viên Độ tín nhiệm Lớp mua máy tính

Trang 29

Rút luật từ cây quyết định:

+ Mỗi một đường dẫn từ gốc đến nút lá trong cây tạo thành một luật, luật này

có vế trái là một bộ giá trị của các thuộc tính được chọn để phân lớp, vế phải là một

trong các giá trị của thuộc tính kết quả

+ Tri thức từ cây quyết định có thể được trích và trình bày dưới dạng luật dưới

dạng các luật phân loại If - Then

+ Một luật tương ứng với một đường đi từ gốc tới các nút lá

+ Mỗi cặp thuộc tính - giá trị dọc theo đường đi tạo thành một luật liên kết

trong tiền đề luật (phần If) Nút lá là lớp dự đoán, thiết lập nên mệnh đề kết quả luật

(phần Then) Các luật If - Then giúp hiểu hơn, đặc biệt nếu cây cho trước là rất lớn

Luật được trích rút:

If tuổi=”< 30” And Sinh viên= “không” Then mua máy tính = “không”

If tuổi =”<30” And Sinh viên=”Có” Then mua máy tính = “có”

If tuổi = “30-40” Then mua máy tính = “có”

If tuổi =”>40” And độ tín nhiệm = “tốt” then mua máy tính = “Có”

If tuổi =”>40” And độ tín nhiệm = “khá tốt” then mua máy tính = “không”

c Độ lợi thông tin (Information gain)

Độ lợi thông tin (Information gain): được dùng để lựa chọn thuộc tính kiểm

định tại mỗi nút trên cây Phép đo như vậy được gọi là Độ lợi thông tin

(Information gain) hay phép đo chất lượng thông tin Chọn thuộc tính có chỉ số độ

lợi thông tin lớn nhất

Cho P và N là hai lớp và S là một tập dữ liệu có p phần tử của lớp P và n phần

tử của lớp N

Khối lượng thông tin cần thiết để quyết định một mẫu bất kỳ có thuộc về lớp

P hay N hay không là:

34, 5 = −4 + 5 log4 4

4 + 5 −4 + 5 log5 4 + 54Cho các tập { S1, S2, ,Sk) là một phân hoạch trên tập S, khi sử dụng thuộc

Formatted: Font: Not Bold, Font color: Auto, English (United States)

Trang 30

tính A Cho mỗi Si chứa pi mẫu lớp P và ni mẫu lớp N

Entropy hay thơng tin mong muốn cần thiết phân lớp các đối tượng trong tất

1.2.2.2 Bayer

Phân loại Bayes dựa trên định lý Bayes Một Classifier đơn giản của Bayes

đĩ là Nạve Bayesian So với việc thực thi trên mạng Nơ-ron, cây quyết định,

classifier Bayes cĩ độ chính xác cao và nhanh khi áp dụng vào cơ sở dữ liệu lớn hay

các tập huấn luyện lớn

Định lý Bayes

Định lý Bayes [7] cho phép tính xác suất ngẫu nhiên C khi biết sự kiện liên

quan tới X đã xảy ra được ký hiệu là P(C/X) được đọc là xác suất của C nếu cĩ X và

được gọi là xác suất cĩ điều kiện

P(C) bằng tần số liên quan thuộc lớp C

Phân loại Bayes ngây thơ (Bayes đơn giản)

Bayes ngây thơ làm việc như sau: Mỗi mẫu dữ liệu được đại diện bởi một

vector đặc trưng n-chiều, X=(x1, x2…xn) mơ tả n phép đo cĩ được trên mẫu n thuộc

tính tương ứng A1, A2,…,An Giả sử rằng cĩ m lớp C1, C2,…,Cn cho trước một

mẫu dữ liệu chưa biết cĩ nhãn là X, classifier sẽ dự đốn X thuộc về lớp cĩ xác suất

hậu nghiệm cao nhất, đối với điều kiện X Classifier Bayesian ngây thơ ấn định một

Formatted: Font: Not Bold, Italic, Font color: Auto, English (United States), Subscript Formatted: Font: Not Bold, Font color: Auto, English (United States), Subscript

Formatted: Font: Not Bold, Font color: Auto, English (United States), Subscript

Trang 31

mẫu không biết X vào một lớp Ci khi và chỉ khi:

+ Cho trước các tập dữ liệu với nhiều thuộc tính, việc tính P(X|Ci) sẽ rất tốn

kém Để giảm tính toán khi đánh giá P(X\C i ), giả định ngây thơ của độc lập có điều

kiện lớp được thiết lập Điều này làm cho giá trị của các thuộc tính là độc lập có điều kiện với nhau, cho trước nhãn lớp của mẫu, tức là không có mối quan hệ độc lập giữa các thuộc tính Vì thế,

B1\C?= F BGH

>

H@A

\C?

(a) Nếu A k là xác thực thì P(x k \C i )= s ik /s i với s ik là số lượng các mẫu huấn

luyện của lớp C i có giá trị x k tại A k và S i là số lượng các mẫu huấn luyện thuộc về C i

(b) Nếu A k là giá trị liên tục thì thuộc tính được giả định có phân phối Gaussian Bởi vậy,

√ ∏ MN OPQRSTO

Với g(x k , µ C i , IJ? ) là hàm mật độ( thông thường) Gaussian của thuộc tính A k, với

µC i, σcW đại diện cho các giá trị trung bình và độ lệch chuẩn của thuộc tính A k đối

với các mẫu huấn luyện ở lớp C i

+ Để phân loại một mẫu chưa biết X, với P(X\C i )P(C i ) được đánh giá cho lớp C i

Mẫu X được ấn định vào lớp C i khi và chỉ khi :

Hay nói cách khác nó được ấn định tới lớp Ci mà tại đó P(X\C i )P(C i ) cực đại

Trang 32

1.2.2.3 Phân lớp dữ liệu bằng Fuzzy C- MEANS (FCM)

Tập các đối tượng sẽ được sẽ được phân vùng

X = {xi, ,X N} (k = 1,2, , N) Trong một số trường hợp có thể X là đối tượng vector trong không gian p chiều.khi

đó ta kí hiệux = (x11, , xp) ∊ Rp

Việc phân vùng dữ liệu dựa trên 2 khái niệm căn bản : sự không đồng dạng và tâm

vùng Việc so sánh sự không đồng dạng giữa 2 đối tượng X và X’ được biểu thị bởi

quan hệ D(X,X’) trong đó đảm bảo tính đối xứng:

D(X,X’)= D(X’,X) Trong tính toán D(X,X’) sẽ cho chúng ta giá trị thực thể hiện mức độ “gần nhau”

giữa 2 đối tượng Một cách hiển nhiên:

D( x, x) = min D( x, x')

Việc đánh giá quan hệ không đồng dạng trong 1 không gian cho trước thường sử

dụng nhiều đến khái niệm metric, metric giữa 2 đối tượng x,y m(x,y) cần thỏa mãn :

(i) m(x, y) > 0 and m(x, y) = 0 ⟺ x = y;

(ii) m(x, y) = m(y, x);

(iii) m(x, y) < m(x, z) + m(z, y)

Khái niệm gần gũi chúng ta nhất là khoảng cách Euclid:

Bình phương khoảng cách Euclid:

x y x d y x D

1

2 2 2

),(Việc xây dựng các suy luận trong Fuzzy C-means được tiến hành phân chia

Formatted: Tab stops: 6.1", Right

Formatted: Font: Italic Formatted: Subscript

Trang 33

y x D V

G J

1

),()

,

2 2

),(x v i x v i

D = −

1.3 Kết luận

Trong chương 1 trình bày các khái niệm cơ sở về tập mờ và logic mờ, biến ngôn ngữ, đại số gia tử, khái niệm về bài toán phân lớp dữ liệu các bước thực hiện phân lớp dữ liệu và một số phương pháp giải bài toán phân lớp dữ liệu: Cây quyết định, Bayer, Fuzzy Trong chương tiếp theo sẽ trình bày về phương pháp sinh hệ luật mờ phân lớp dựa trên ĐSGT

Trang 34

CHƯƠNG 2:PHƯƠNG PHÁP SINH HỆ LUẬT MỜ PHÂN

LỚP DỰA TRÊN ĐẠI SỐ GIA TỬ

2.1 Hệ luật mờ phân lớp dựa trên đại số gia tử

2.1.1 Hệ luật mờ phân lớp

Bài toán phân lớp (classification) là một trong những bài toán đặc trưng của lĩnh vực khai phá dữ liệu, được nhiều tác giả nghiên cứu và ứng dụng khá thành công.Trong đó, các phương pháp được biết đến như là cây quyết định, mạng nơron, phương pháp.Bayes, Trong khi các phương pháp này tập trung giải quyết bài toán với mục tiêu đạt hiệu quả phân lớp cao nhất thì phương pháp dựa trên hệ mờ dạng luật (fuzzy rule-based classification systems - FRBCS), ngoài việc đạt hiệu quả phân lớp cao còn được nghiên cứu để đáp ứng cho người dùng một mô hình phân lớp dễ hiểu và trực quan Người dùng có thể sử dụng các luật mờ trong mô hình như là các tri thức của mình để chủ động áp dụng trong thực tế.Phương pháp FRBCS được nhiều tác giả nghiên cứu sử dụng để giải bài toán (chẳng hạn trong [8]

và chúng ta gọi đây là bài toán phân lớp mờ

Mô hình hệ mờ dạng luật, mỗi luật mờ thể hiện một tri thức của con nguời về

một bài toán ứng dụng và đuợc biểu diễn duới dạng “If Antecedents then Consequents”, trong đó Antecedents là các điều kiện chứa các từ ngôn ngữ thuờng

đuợc liên kết bởi liên từ “and” và Consequents là phần kết luận biểu thị qua các vị

từ mờ chứa khái niệm mờ hoặc vị từ kinh điển Nếu kết luận của luật là khái niệm

mờ thì hệ mờ ở dạng Mamdani, nguợc lại kết luận là giá trị rõ thì hệ mờ dạng Sugeno.Ví dụ về hai dạng luật mờ tuơng ứng [6]:

If X 1 is Large and X2is Very Small then Y is Normal,

If X 1 is Small and X2 is Large then Y = “Iris-Setosa”

Một hệ mờ dạng luật có n đầu vào 1 đầu ra (MISO) thường phát biểu như sau:

If x 1 is A 11 and andx n is A 1n then Yis B 1 ,

If x 2 is A 21 and andx n is A 2n then Yis B 2 ,

………

Trang 35

………

If x m is A m1 and andx n is A mn then Yis B m ,

Viết lại dưới dạng tổng quát như sau

ifx 1 is A i1 and andx n is A in then Yis B i ,(2.1)

Trong đó X 1 , X 2 , ., X n và Y là các biến ngôn ngữ thuộc không gian tham chiếu U 1 ,U 2 , , U n và V, Aịj, B i (i = 1,., m; j = 1,., n) là các giá trị ngôn ngữ tương

ứng

Các luật mờ này được xây dựng hoặc dựa trên ý kiến chuyên gia về bài toán ứng dụng hoặc sử dụng các kỹ thuật học máy để sinh trực tiếp từ các mẫu dữ liệu thu thập được Tuy nhiên, không phải bài toán nào cũng có chuyên gia với các ý kiến đủ để xây dựng một hệ luật, thường phải kết hợp các phương pháp sinh luật đảm bảo tính đầy đủ cho hệ luật đó

Bài toán phân lớp mờ có thể được phát biểu như sau: cho một tập các mẫu dữ

liệu D = { (P; C) }, trong đó P = { p i = (d i,1 , , d in ) | i=1, , N } là tập dữ liệu, C =

tích Đề-các của các miền của n thuộc tính x 1 , , x n tương ứng, m là số lớp và N là số mẫu dữ liệu, để ý rằng P ⊂U Mỗi dữ liệu p i thuộc một lớp c i ∈C tương ứng tạo thành từng cặp (p i , c i) ∈D Giải bài toán bằng FRBCS chính là xây dựng một hệ các

luật mờ, ký hiệu S, để phân lớp đóng vai trò như một ánh xạ từ tập dữ liệu vào tập nhãn:

Hệ các luật mờ này biểu diễn cho tri thức về bài toán, nó không chỉ phản ánh đúng với tập dữ liệu mẫu mà còn có khả năng dự đoán và cung cấp giúp cho người dùng phán đoán, ra quyết định Do đó, hệ luật phải tường minh, dễ hiểu đối với người dùng

Như vậy, hệ S phải đạt các mục tiêu như hiệu quả phân lớp cao, tức là sai số

phân lớp cho các dữ liệu ít nhất có thể, số lượng các luật nhỏ cũng như số điều kiện tham gia trong vế trái mỗi luật ít Mục tiêu về hiệu quả phân lớp nhằm đáp ứng tính đúng đắn của của hệ đối với tập dữ liệu mẫu được cho của bài toán, còn hai mục

Trang 36

tiêu sau với mong muốn hệ luật phải tường minh, các luật mờ trong S phải đơn giản

và dễ hiểu đối với người dùng Nếu f p (S) là hàm đánh giá hiệu quả phân lớp, f n (S) là

số luật và f a (S) là độ dài (hay số điều kiện tham gia) trung bình của vế trái trong hệ luật S thì mục tiêu là xây dựng hệ luật sao cho:

f p (S) →max, f n (S) và f a (S) →min (2.3)

Một số tác giả sử dụng hệ luật mờ như dạng (2.1) cho bài toán phân lớp, khi

đó kết quả lập luận đầu ra của hệ là một tập mờ B’ đối với một mẫu dữ liệu, do vậy phải giải mờ để xác định nhãn phân lớp cho mẫu dữ liệu tương ứng Một số tác giả thì sử dụng các luật mờ có phần kết luận của mỗi luật là một giá trị hằng số tương ứng với nhãn của một lớp, có dạng như sau:

If x 1 is A q1 and andx n is A qn then class C q with CF q , (2.4)

trong đó:

Aq,j giá trị ngôn ngữ của các biến ngôn ngữ tương ứng với các thuộc tính,

C q là nhãn phân lớp

CF q là trọng số của luật, q=1, …,M với M là số luật j=1,…n Thông

thường, trọng số của luật là số thực trong khoảng đơn vị, CF q∈ [0,1]

2.1.2 Phương pháp lập luận dựa trên hệ luật mờ

Bài toán lập luận mờ được phát biểu như sau: Cho trước mô hình ở dạng luật

mờ (2.4) Khi đó ứng với các giá trị (hoặc giá trị mờ, hoặc giá trị thực) của các điều kiện đầu (vế trái) vào đã cho, thực hiện tính toán và đưa ra giá trị đầu ra của biến Y (vế phải)

Mô hình luật mờ (2.4) có thể được xem như một tập hợp các “điểm mờ” và

có thể được biểu diễn thông qua một bảng (ma trận) nhiều chiều ứng với các biến ngôn ngữ, gọi là bảng FAM (Fuzzy Associate Memory) Với việc sử dụng đại số gia tử và ánh xạ ngữ nghĩa định lượng (SQM) các từ của biến ngôn ngữ được định lượng trong đoạn [0,1] và mỗi điểm của mô hình mờ trên có thể được biểu diễn bằng một “điểm thực” và tập các điểm thực này là một ma trận thực (bảng thực), gọi là bảng ngữ nghĩa định lượng SAM (Simanticization Associate Memory) Luật

mờ dạng (2.4) có thể viết gọn lại như sau:

Trang 37

A q =>C q with CF q (2.5)

Trong đó A q = (A q,1 , …, A q,n)

Tương tự như trong khai phá luật kết hợp, luật mờ (2.5) được đánh giá qua độ

tin cậy c(A q => C q ) và độ hỗ trợ s(A q => C q) bằng công thức sau

ClassC p

i Aq

q q

p

p C

A

1

)(

)()

A

i Aq

q q

)()

YZ4? = [, \]?,Ậ \]?,^ … [,a\]?,>^

Để đánh giá trọng số (CF) nhóm tác giả H.Ishibuchi [10] dựa trên độ tin cậy của luật đã đề xuất các phương pháp đánh giá trọng số luật như sau:

trong đó c q là độ tin cậy của luật có điều kiện A q và kết luận C q

c q,Ave là độ tin cậy trung bình của các luật có cùng điều kiện A q nhưng kết luận

h q Ave

q

q h

C A c m

Trang 38

;, ,1

|)max{(

h q Sum

q

q h

C A c C

1

Với hệ luật mờ S dạng (2.5), có thể áp dụng hai phương pháp lập luận

…,d n ’) ∈U khi đó:

Phương pháp lập luận single-winner rule (SWR)

Dựa trên độ đốt cháy các luật của mẫu dữ liệu (p’), kết quả lập luận là lớp là

chọn kết luận của luật bị đốt cháy cao nhất (mức độ phù hợp nhất)

Trong trường hợp có nhiều luật có cùng độ đốt cháy cao nhất thì chọn ngẫu nhiên một luật Ta có công thức lập luận như sau:

}

|)

'(max{

arg)'

A C

trong đó w là chỉ số tương ứng trọng số luật được chọn, w∈ {1,2,3,4} hoặc có thể áp

dụng với trọng số đồng nhất bằng 1 cho mọi luật, ký hiệu CF 0 =1

Phương pháp lập luận weighted vote (WV)

Dựa trên tổng độ đốt cháy (vote) các luật có cùng lớp kết luận của mẫu dữ liệu p’.Kết quả lập luận là lớp có tổng độ đốt cháy cao nhất.Công thức lập luận như

sau

} , , 1

| ) ' ( max{

arg ) '

V

h q q q

.)'()

Ở đây tác các giả đã phân tích và minh hoạ rằng hiệu quả phân lớp của

phương pháp lập luận weighted vote cao hơn single winner rule trong một số ví dụ mẫu Tuy nhiên, phương pháp lập luận single winner rule luôn đem lại tính trực

Trang 39

quan cao hơn, hơn nữa phương pháp này cho phép giảm (rút gọn) số luật trong hệ luật được sinh ra một cách dễ dàng

2.2 Phân hoạch hệ khoảng tính mờ của Đại số gia tử trên miền thuộc tính

Trong phần này chúng ta xem xét ba vấn đề cơ bản đó là độ đo tính mờ của các giá trị ngôn ngữ (hạng từ), phương pháp định lượng ngữ nghĩa và khoảng tính

mờ của các khái niệm mờ

Tính mờ của các giá trị ngôn ngữ xuất phát từ thực tế rằng một giá trị ngôn ngữ mang ý nghĩa mô tả cho nhiều sự vật và hiện tượng trong thế giới thực, với lý

do tập hữu hạn các giá trị ngôn ngữ không đủ để phản ánh thế giới vô hạn các sự vật hiện tượng Như vậy khái niệm tính mờ và độ đo tính mờ của một giá trị ngôn ngữ được hình thành và nó là một khái niệm rất khó xác định, đặc biệt trong lý thuyết

tập mờ Tuy nhiên, trong ĐSGT các tác giả đã cho thấy độ đo tính mờ của được xác định một cách hợp lý: “tính mờ của một hạng từ x được hiểu như là ngữ nghĩa của

nó vẫn có thể được thay đổi khi tác động vào nó bằng các gia tử” Do đó tập các hạng từ sinh từ x bằng các gia tử sẽ thể hiện cho tính mờ của x và do đó, H(x) có thể

sử dụng như là một mô hình biểu thị tính mờ của x và kích thước tập H(x) được

xem như độ đo tính mờ của x Ta có định nghĩa sau về độ đo tính mờ

Định nghĩa 2.1[1] Cho AX = (X, G, H, ∑, c, ≤) là một ĐSGT tuyến tính đầy

đủ Ánh xạ fm :X→ [0,1] được gọi là một đo tính mờ của các hạng từ trong X nếu:

(1) fm là đo mờ đầy đủ trên X, tức là fm(c-) + fm(c +) =1 và ∑g∈hde(ℎf) = fm(u),∀f ∈ i;

(2) fm(x) = 0, với các x thỏa H(x) = {x} Đặc biệt, fm(0) =fm(W) = fm(1) = 0; (3) ∀x,y ∈ X, h∈ H, jk(gl)

jk(l) = jk(gm)

jk(m)nghĩa là tỷ số này không phụ thuộc vào x

và y, vì vậy nó được gọi là độ đo tính mờ của các gia tử và được ký hiệu bởi µ(h)

Trong đó, điều kiện (1) thể hiện tính đầy đủ của các phần tử sinh và các gia tử cho việc biểu diễn ngữ nghĩa của miền thực đối với các biến (2) thể hiện tính rõ của các hạng từ và (3) có thể được chấp nhận vì chúng ta đã chấp nhận giả thiết rằng

LỚP DỰA TRÊN ĐẠI SỐ GIA TỬ

2.1 Hệ luật mờ phân lớp dựa đại số gia tử

2.1.1 Hệ luật mờ phân lớp

Bài toán phân lớp (classification)... tập mờ logic mờ, biến ngôn ngữ, đại số gia tử, khái niệm toán phân lớp liệu bước thực phân lớp liệu số phương pháp giải toán phân lớp liệu: Cây định, Bayer, Fuzzy Trong chương trình bày phương pháp. .. sử dụng để phân lớp liệu với kích thước nhỏ Các nghiên cứu khai phá liệu phát triển nhanh chóng, phù hợp phân lớp cho gói sở liệu lớn

Một số kỹ thuật để phân lớp liệu: sử dụng phân lớp

Định dạng
Số trang	78
Dung lượng	2,66 MB