1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Ứng dụng đại số gia tử để phân lớp và xây dựng bộ tìm kiếm mờ các trang web theo chuyên ngành

106 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng đại số gia tử để phân lớp và xây dựng bộ tìm kiếm mờ các trang web theo chuyên ngành
Tác giả Hoàng Nguyễn Vi Cam
Người hướng dẫn Tiến sĩ Lê Xuân Vinh
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2012
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 106
Dung lượng 50,96 MB

Nội dung

Tuy nhiên, nhậnthấy nhu cầu của con người không chỉ dừng lại ở đó; với ý tưởng hỗ trợ người dùngnhiều hơn nữa trong việc tìm kiếm trên dữ liệu số, tác giả đã đề xuất ra ý tưởng xây dựng

Trang 1

._ ỨNG DỤNG ĐẠI SÓ GIA TỬ DE PHAN LỚP

VÀ XÂY DUNG BỘ TÌM KIEM MỜ CÁC TRANG WEB

Trang 2

Hoang Nguyén Vi Cam

UNG DUNG DAISO GIA TỬ DE PHAN LỚP

VA XÂY DUNG BỘ TÌM KIEM MO CÁC TRANG WEB

THEO CHUYEN NGANH

LUẬN VĂN THẠC SI CÔNG NGHỆ THONG TIN(Luận văn đã được chỉnh sửa theo ý kiến của hội đồng phản biện

ngày 29/03/2012)

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1 Tiên sĩ Lê Xuân Vinh

TP Hồ Chí Minh - 2012

Trang 3

Luận văn được hoàn thành với sự chỉ dẫn tận tình và nghiêm khắc của TS.

Lê Xuân Vinh Lời đầu tiên, tác giả xin gởi đến Thay lời cảm ơn chân thành và sâusắc nhất

Xin gởi lời cảm ơn đến Quý Thầy, Cô trường Đại học Công nghệ thông tin —Đại học quốc gia Thành phố Hồ Chí Minh đã truyền đạt những kiến thức phong phú

và bỗ ích trong quá trình học tập giúp cho tác giả có thể hoàn thành tốt luận văn

này.

Trang 4

1.2 ĐỊNH NGHĨA ĐẠI SO GIA TU

1.3 CAC TINH CHAT

1.3.1 Độ do tính mờ

1.3.2 Hàm định lượng ngữ nghĩa

1.4 ĐẠI SÓ 2 GIA TỬ

1.5 KET LUẬN CHUONG 1

Chương 2 - Phương pháp xây dựng hệ mờ dang luật cho bài toán phân lớp

2.1 GIGI THIỆU

2.2 BÀI TOÁN PHAN LỚP

2.3 MÔ HÌNH MỜ DẠNG LUẬT CHO BÀI TOÁN PHÂN LỚP

2.4 PHƯƠNG PHÁP XÂY DỰNG HỆ LUẬT MỜ

2.4.1 Giải thuật sinh hệ luật mờ

2.4.2 Rút gọn hệ luật mờ bằng phép sàng

2.5 TÓI ƯU HỆ LUẬT

Trang 5

2.6.2 Phương pháp bình bầu theo trọng số luật

2.6.3 Phân lớp mẫu chưa được huấn luyện

2.7 KẾT LUẬN CHƯƠNG 2

Chương 3 - Xây dựng một bộ phân lớp các trang web

3.1 GIỚI THIỆU

3.2 BỘ PHAN LÓP CÁC TRANG WEB

3.3 XÁC ĐỊNH CÁC THUỘC TÍNH THƯỜNG XUÁT HIỆN CỦA CÁC

TRANG WEB

3.3.1 Tách các từ, cụm từ.

3.3.2 Dém tần suất xuất hiện của các từ và lưu trữ

3.4 MÔ HÌNH HÓA CÁC THUỘC TÍNH BẰNG ĐẠI SÓ GIA TỬ

3.4.1 Lựa chọn các tham số cho đại số gia tử

3.4.2 Phân hoạch miễn xác định các thuộc tính thành khoảng mờ

3.5 SINH LUẬT MỜ

3.5.1 Mô tả tập luật mờ

Trang 6

3.5.2.2 Sinh các tập luật mờ có độ dài nhỏ hơn k

3.5.2.3 Tinh giá trị hỗ trợ và tin cậy của mỗi luật

3.5.2.4 Tính giá trị trọng số của mỗi luật

3.5.2.5 Chọn lọc tập luật khởi đầu

3.5.3 Áp dụng giải thuật di truyền lai tối ưu hóa các luật

3.5.3.1 Mã hóa các luật

3.5.3.2 Tính toán giá trị thích nghi cho từng tập luật.

3.5.3.3 Sử dụng giải thuật di truyền lai dé chọn lọc tập luật tối ưu

3.6 XÁC ĐỊNH MỨC ĐỘ THUỘC CỦA TRANG WEB ỨNG VỚI CHUYÊN

NGÀNH

3.7 KET LUẬN CHƯƠNG 3

Chương 4 - Ứng dụng phát triển bộ tìm kiếm mờ theo chuyên ngành

4.1 GIỚI THIỆU

4.2 BO MAY TÌM KIEM GOOGLE SEARCH

4.2.1 Khởi tao câu lệnh tim kiếm

4.2.2 Trích rút dữ liệu từ kết quả trả về

4.3 LỌC CÁC TRANG WEB

4.3.1 Tìm kiếm đặc trưng của trang web

4.3.2 Phân lớp trang web

4.4 CAU TRÚC CHUONG TRÌNH UNG DUNG

4.5 CÀI ĐẶT UNG DUNG

4.5.1 Biên dịch ứng dụng

Trang 7

4.5.3.1 Thêm các trang web mẫu

4.5.3.2 Cấu hình các tham số hệ thống cho chương trình4.5.3.3 Cấu hình các tham số của DS2GT

4.5.3.4 Mô hình hóa các giá tri tần suất bằng DS2GT

4.5.3.5 Sinh tự động các luật phân lớp

4.6 SỬ DỤNG CHƯƠNG TRÌNH

4.7 TÓI ƯU CÁC THAM SO CHO BỘ TÌM KIEM MỜ

4.7.1 Tối ưu các tham số cho ĐS2GT

4.7.2 Tối ưu các tham số cho hệ thốn,

Trang 8

Độ đo tính mờ gia tử h và của hạng từ x

Giá trị định lượng theo điểm của giá trị ngôn ngữ

Hàm định lượng của giá trị ngôn ngữ A (đo độ thuộc của v) Khoảng tính mờ của giá trị ngôn ngữ

Khoảng tương tự của giá trị ngôn ngữ Tập các hang từ có độ dai đúng k

Tập các hạng từ có độ dài không quá k

HyperText Markup Language, ngôn ngữ đánh dấu siêu văn bảnSimulated Annealing - Genetic Algorithm, giải thuật di truyền lai

Trang 9

Giá trị của hàm dấu đối với các hang tir

Các giá tri tần suất của từ mẫu “chi định”

Giá trị hàm định lượng ngữ nghĩa của các hạng từ

Các khoảng tương tự của các hạng từ

Giá trị ngôn ngữ tương ứng của các giá trị tan suât

Giá trị tần suất của các từ đặc trưng trong một trang web mẫu

Giá trị tần suất tối đa của các từ đặc trưng trong các trang web mẫu 61Giá trị giá trị ngôn ngữ tương ứng với tần suất của các từ đặc trưng 61

Giá trị ham định lượng ngữ nghĩa của các giá trị ngôn ngữ.

Các thông số dé khởi tạo một câu lệnh tìm kiếm cho Google Search 84

Một kết quả mẫu của việc tìm kiếm các đặc trưng của trang web chưa

Các tham số dé cấu hình hệ théng

Các giá trị tham số mặc định của DS2GT của bộ tìm kiếm mờ

Hiệu suất phân lớp đối với mẫu hudn luyện

Trang 10

Danh mục các hình vẽ

Hình 1.1: Độ đo tính mờ của một số hạng tù

Hình 1.2: Mối tương quan giữa hàm dấu đối với vị tri các khoảng tính mờ

Hình 1.3: Khoảng tính mờ của các giá trị ngôn ngữ

Hình 2.1: Giá trị hàm định lượng ngữ nghĩa và các khoảng tương tự của X¿; 32

Hình 2.2: Sơ đồ mã hóa các cá thé chọn hệ luật cho giải thuật di truyền

Hình 2.3: Hàm thuộc của tập mờ Ay

Hình 3.1: Bộ tìm kiếm các thuộc tính thường xuất hiện trong trang web

Hình 3.2: Bộ phân tích thẻ HTML

Hình 3.3: Đếm các từ, cụm từ

Hình 3.4: Lưu trữ tần suất xuất hiện các từ, cụm từ

Hình 3.5: Các khoảng tương tự 6,(x) trong đoạn [0, 1]

Hình 3.6: Mô tả luật phân lớp

Hình 3.7: Mô tả luật cơ sở bằng lớp Rule và lớp Condition

Hình 3.8: Phương thức getCompatibilityGrade của Rule

Hình 3.9: Đối tượng HashMap để lưu trữ các giá trị của hàm thuộc

Hình 3.10: Sơ đồ cấu trúc giải thuật di truyền

Hình 3.11: Sơ đồ mã hóa các cá thé chọn hệ luật cho giải thuật di truy:

Hình 3.12: Lớp Chromosome dé mô tả một cá thê

Hình 3.13: Đối tượng HashMap lưu trữ giá trị độ dài của luật

Hình 3.15: Một cá thé trong quan thé khởi đầu

Hình 4.1: Quy trình xử lý của bộ tìm kiếm mờ theo chuyên ngành

Hình 4.2: Giao diện người sử dụng

Hình 4.3: Giao diện người quản trị hệ thông

Hình 4.4: Cấu trúc hệ thông chương trình ứng dụng

Hình 4.5: Giao diện thêm trang web mẫu huấn luyện

Trang 11

Hình 4.8: Giao điện mô hình hóa các giá trị tần suất

Hình 4.9: Giao diện sinh tự động các luật nên và luật phân lớp mờ

Hình 4.10: Giao diện chính cho người sử dung

Hình 4.11: Giao diện kết quả tìm kiếm và phân lớp

Trang 12

Mở đâu

Công nghệ thông tin đã có những bước tiến bộ vượt bậc kể từ khi chiếc máy

tính đầu tiên ENIAC vào năm 1946 Cùng với sự phát triển đó của phần cứng máytính, công nghệ phần mềm cũng có những bước nhảy tương xứng Tính tới thờiđiểm hiện tại, không ai có thé đếm hay nêu tên tat cả các phần mềm mà con người

đã tạo ra và sử dụng chúng Kết quả của sự phát triển vượt bậc đó là một khối lượng

dữ liệu không 16 được lưu trữ và luân chuyển giữa những hệ thống máy tính từ đơn

giản đến phức tạp Con người đã nhận ra được tầm quan trọng của việc tổ chức, xử

lý tìm kiếm dữ liệu từ rất lâu và đang cố gắng phát triển nó song song với sự pháttriển của phần cứng, phần mềm và dữ liệu

Tính tới thời điểm hiện tại, Google Search nổi lên như là một cỗ máy tìm

kiếm mang lại hiệu quả và tốc độ, phục vụ nhiều nhất các nhu cau tìm kiếm của con

người trên dữ liệu số Tuy có nhiều các bộ máy tìm kiếm song song khác như Bingcủa Microsoft và Yahoo Search thì Google vẫn là sự lựa chọn hàng đầu của những

tin dé online bởi tính chính xác và tốc độ thực thi vượt trội của nó Gần đây nhất có

sự xuất hiện của WolframAlpha một cổ máy tra lời tự động các truy van gan gũi vớingôn ngữ tự nhiên với hy vọng là sẽ thay đổi hoàn toàn cách con người tiếp xúc với

máy tính, với công nghệ thông tin Tuy nhiên, hiện tại vị trí của Google Search

trong lĩnh vực tìm kiếm dữ liệu số luôn ở vi tri cao nhất.

Cách Google xây dựng bộ máy tìm kiếm của mình dựa trên chỉ mục các từnội dung và xếp thứ hạng các trang web đã mang lại những thắng lợi không thé chối

cãi mà hãng đã và đang đạt được Với việc hỗ trợ tìm kiếm trên những trang web,

những hình ảnh, những video; Google đã đáp ứng phần lớn các nhu cầu của conngười khi có nhu cầu tìm kiếm một cái gì đó trên mạng internet Tuy nhiên, nhậnthấy nhu cầu của con người không chỉ dừng lại ở đó; với ý tưởng hỗ trợ người dùngnhiều hơn nữa trong việc tìm kiếm trên dữ liệu số, tác giả đã đề xuất ra ý tưởng xây

dựng một bộ mở rộng tìm kiếm dựa trên Google Search để cho ra kết quả đã được

phân loại theo chuyên ngành, giúp cho việc sàn lọc kết quả được thực hiện sâu hơn,

Trang 13

giảm thiểu thời gian cho người sử dụng phải tự thân làm lấy Ví dụ, khi người dùng

tìm kiếm từ “trái dita”, Google Search sẽ trả về khoảng 3 triệu kết quả với nhiều

loại khác nhau, có những trang web nói về tác dụng y học của trái dừa, có trang web.nói về lợi ích kinh tế của dita và có trang nói về một câu chuyện liên quan với tráidừa Và nếu người sử dụng chỉ quan tâm đến lợi ích đối với sức khỏe của trái dừa,thì người đó cần phải duyệt qua từng link của kết quả trả về và bằng các đọc nội

dung sẽ xác định nội dung đó có phù hợp với tiêu chí của mình không.

Với cô gắng giúp người sử dụng giảm thiểu việc phải duyệt qua những trangweb trước khi tìm được trang web mà mình thực sự cần, bộ mở rộng tìm kiếm sẽphân loại các kết quả trả về của Google Search và cho phép người sử dụng có thểlọc lại kết quả đó chỉ với tiêu chí là y học hoặc chỉ là kinh tế

Về cơ bản, bộ mở rộng các trang web là một bộ phân lớp các trang web theo

một tiêu chí nhất định là chuyên ngành của nội dung trang web đó Thông qua quátrình tim hiểu các bài viết [1], [2], [4], [5], [6] và [9] tác giả tim thấy được mộthướng để có thé hiện thực được bộ mở rộng tìm kiếm các trang web bằng việc ápdung dai số gia tử (ÐĐSGT) để mô hình hóa ngôn ngữ tự nhiên thành đại số Từ đó

xây dựng một bộ phân lớp mờ [2], [5], [9] từ dữ liệu mẫu huấn luyện Cudi cùng sử

dụng bộ phân lớp mờ đã xây dựng được dé phân loại các trang web chưa được huấn

luyện DSGT là một đại số trừu tượng được sử dụng dé đại số hóa, mờ hóa ngôn

ngữ tự nhiên đê phục vụ cho việc tính toán đại số dễ đàng mà vẫn đảm bảo được

tính thứ tự và ngữ nghĩa của các từ, cụm từ của ngôn ngữ tự nhiên Do đó tác giả đãchọn DSGT như một cơ sở dé hỗ trợ xây dựng bộ tìm kiếm phân loại theo chuyên

ngành.

Với ý nghĩa như vậy, luận văn đặt ra những mục tiêu cu thể sau đây:

1) Xây dựng một bộ phân lớp mờ các trang web dựa trên DSGT.

2) Ứng dụng bộ phân lớp mờ đã xây dựng được, loc theo chuyên ngành cáckết quả trả về từ Google Search đề hỗ trợ tốt hơn cho người sử dụng trongquá trình tìm kiếm dữ liệu trên internet

Trang 14

3) Tự động hóa quá trình xây dựng bộ phân lớp mờ các trang web từ dữ liệu

huấn luyện là các trang web mẫu

Với nhiệm vụ đã đặt ra, luận văn đã đạt được một số kết quả chứng minh

được tính khả thi của việc áp dụng DSGT trong việc xây dựng một ứng dụng phân

lớp mờ các trang web trong thực tế Có thé khái quát một số điểm chính như sau:

- Xây dựng được một bộ phân lớp mờ các trang web một cách tự động từ các

mẫu huấn luyện là những trang web mẫu đã được phân lớp bằng thực nghiệm Bộ

phân lớp mờ được xây dựng dựa trên cơ sở đại số hai gia tử (ĐS2GT) và các tínhchất của nó

- Ứng dụng bộ phân lớp mờ đề xây dựng một bộ mở rộng tìm kiếm các trangweb theo chuyên ngành y khoa và kinh tế Cho phép người sử dụng có thé tìm kiếm

các trang web theo từ khóa và theo chuyên ngành đã định trước mà không cần phải

duyệt qua nội dung của trang web.

Về bố cục, luận văn bao gồm phần mở dau, 4 chương, phan kết luận và tài

liệu tham khảo.

Chương 1: Trinh bày lý thuyết về ĐSGT, các định nghĩa, tính chat và các

công thức toán học có liên quan Mỗi mục được trình bày các khái niệm lý thuyết

song song với một số ví dụ có liên quan đến việc xây dựng một bộ phân lớp mờ các

trang web theo chuyên ngành.

Chương 2: Trình bày phương pháp xây dựng hệ mờ dạng luật cho bài toán

phân lớp; giới thiệu bài toán phân lớp, các lý thuyết toán học đề xây dựng một hệ

mờ dang luật dựa trên một tập các mẫu huấn luyện; giới thiệu về giải thuật di truyền

để tối ưu hóa hệ luật mờ phân lớp

Chương 3: Trình bày một phương án xây dựng bộ phân lớp mờ các trang

web bằng việc huấn luyện dựa trên các trang web mẫu, sinh các luật phân lớp mờdựa trên các lý thuyết ĐSGT và lý thuyết về bài toán phân lớp được trình bày ởchương | và chương 2 Giới thiệu phương pháp áp dụng bộ phân lớp mờ dé phânloại các trang web chưa được huấn luyện

Trang 15

Chương 4: Xây dựng một ứng dụng và đã triển khai thử nghiệm Các kết quả

đạt được cũng như hướng phát triển trong tương lai của bộ mở rộng tìm kiếm cáctrang web theo chuyên ngành cũng được trình bày.

Trang 16

Chương 1 - Lý thuyết đại số gia tử

1.1 GIỚI THIỆU

Các dữ liệu tri thức của nhân loại được khám phá và tạo ra mỗi ngày và số

lượng các dữ liệu này là vô cùng lớn Do đó việc lưu trữ và xử lý các dữ liệu tri thức

là một bài toán được đặt ra cho con người dé có thê giải quyết được các vấn đề hiện

có của con người Hiện nay phan lớn các tri thức đều được mô tả lại ở các dang

ngôn ngữ tự nhiên, các hình vẽ, các ký hiệu, dạng số và các cấu trúc phức tạp bao

gồm nhiều dạng cơ bản khác nhau Mặc dù dạng tri thức dễ xử lý nhất là dạng sốnhưng trong thực tế nhiều tri thức không thé biéu diễn chính xác bởi một số, chang

hạn sai số trong đo đạc dẫn đến giá trị thu được là một khoảng nào đó, nhưng bản

thân khoảng này cũng hàm chứa sự không chính xác Hơn nữa, một số dạng tri thức

khác lại không thể biểu diễn được bằng khoảng hay số chính xác, ví dụ: mức độ già

trẻ của một con người, khả năng an toàn của một hệ thống, sự tiện dụng của một

thiết bị, v.v Khi đó, các tri thức này được biểu diễn bằng ngôn ngữ tự nhiên mà

cụ thể là giá trị một biến ngôn ngữ nào đó là thích hợp nhất

Theo cách tiếp cận đại số, miền giá trị của một biến ngôn ngữ có thể xemnhư một đại số sinh ra từ các khái niệm nguyên thủy bởi các phép toán một ngôi làcác gia tử Chẳng hạn, nhiêu, rất nhiều, ít, hơi it, là các giá trị chân lý được sinh

ra từ khái niệm nhiêu, it bởi các gia tử rat, hoi Xét giá trị hơi nhiêu trong tập các

giá trị chân lý trên Theo ngữ nghĩa thông thường hoi không phải là một phép toán

logic phủ định là nó chỉ làm giảm mức độ khang định của khái niệm nhiéw một ít

Nhu vậy hoi rõ ràng là một gia tử.

Hiện nay đã có nhiều nghiên cứu phát triển và ứng dụng thành công đại số

gia tử vào các bài toán phân lớp [2], [4], [7], các bài toán lập luận mờ [2] và các ứng

dụng điều khiển hệ thống [3] Trong bài viết này tác giả sẽ trình bày về DSGT với

ứng dụng trong việc xây dựng một bộ phân lớp mờ các trang web.

Trang 17

ĐSGT được ra đời do đề xuất của N.C Ho và W Wechler vào năm 1990, là

một mô hình toán học về cấu trúc thứ tự ngữ nghĩa của miền giá trị của biến ngôn

ngữ Mỗi giá trị ngôn ngữ được biểu diễn bởi một phan tử trong một ĐSGT thíchhợp Chúng ta có thể định nghĩa một đại số gia tử như sau:

1.2 ĐỊNH NGHĨA ĐẠI SÓ GIA TỬ

Định nghĩa 1.1.1 [3]: Đại số gia tử là một đại số trừu tượng được ký hiệu:

AX = (X, G, C, H, 3)

Trong do:

Xià miễn giá trị của biến ngôn ngữ

G = [c*, e} là tập gdm hai phân tử sinh

C= (0, W, 1) là các hằng

H=H'UH là tập các gia tử

Ht = thị, hy, , hy} là tập các gia tử dương và hạ < hạ < < hp

H =({hị,h;, , hg} là các gia tứ âm và hị < hạ < <h„

với p,q là các số nguyên dương

Miền giá trị của biến ngôn ngữ X được sinh ra từ tập các phần tử sinh G bởi

sự tác động của các gia tử trong H Quan hệ thứ tự trên cấu trúc này được xác lập từ

ngữ nghĩa các từ ngôn ngữ Các giá trị 0, 7, W với ý nghĩa là phần tử bé nhất, phần

tử lớn nhất và phần tử trung hòa (neutral) trong X Ta gọi mỗi giá trị ngôn ngữ x €

X là một hạng từ (term) trong DSGT.

Trong H, các gia tử dương là những gia tử khi tác động thì có khuynh hướng

làm mạnh lên ngữ nghĩa của phần tử sinh nguyên thủy Các gia tử âm là những gia

tử khi tác động thì có khuynh hướng làm yếu đi ngữ nghĩa của các phần tử sinhnguyên thủy Ví dụ, nếu xem {True, False} là hai phần tử sinh nguyên thủy củabiến ngôn ngữ Truth thì với các gia tử (Very, Little} ta có thé nói Very là gia tử

dương vì True < Very True và Little là gia từ âm vì Little True < True.

Trang 18

Nếu tập X và tập H là các tập sắp thứ tự tuyến tính, khi đó AX = (X, G, C, H,

J là DSGT tuyến tính Hơn nữa nếu được trang bị thêm hai gia tử giới hạn là } và

@® với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi tác động lên x,

thì ta được ĐSGT truyền tính đầy đủ, ký hiệu AX = (X, G, H, 3; ở, <) Tuy nhiên

trong giới hạn của luận văn chúng ta chỉ quan tâm đến ĐSGT tuyến tính và mộtDSGT đặc biệt chỉ gồm có 2 gia tử còn được gọi là đại số hai gia tử (ĐS2GT), sẽ

được giới thiệu trong các mục sau.

Khi tác động gia tử h e H vào phan tử x e X, thì thu được phan tử ký hiệu

hx Với mỗi x e X, ký hiệu A(x) là tập tất cả các hạng từ w € X sinh từ x bằng cách

áp dụng các gia tử trong H và Viết u = hạ h„x, với hụ, , hy € H Biêu thức h, hpxđược gọi là một biểu diễn chính tắc của một hạng từ u đối với x nếu w = J„, h,x và

hị hịx # hị hịx với i nguyên va i <n Ta gọi độ dai của một hạng từ u là số gia tửtrong biểu diễn chính tắc của nó đối với phần tử sinh cộng thêm 1, ký hiệu /(w) hoặc

lui.

1.3 CÁC TÍNH CHÁT

1.3.1 Độ đo tính mờ

Theo trực giác trong ngôn ngữ tự nhiên, một từ hay cụm từ sẽ có một quan

hệ trên giá trị ngữ nghĩa đối với từ hay cụm từ với cùng phần tử sinh Ví dụ, cụm từ

Very True sẽ làm gia tăng giá trị hơn so với từ True Trong DSGT các gia tử cũng

thể hiện được mối quan hệ giữa các từ, cụm từ mà ở đó giá trị ngôn ngữ sẽ được xácđịnh bởi độ mờ của giá trị ngôn ngữ Ví du Very True sẽ có độ mờ thấp hơn True,

nghĩa là nó mang ý nghĩa chắc chắn hon so với True

Một cách tông quát hơn, chúng ta có thé thấy độ mờ hx luôn thấp hơn độ mờ

của x.

Nếu gọi H(x) là tập các phần tử được sinh ra bằng cách tác động liên tục cácgia tử lên phần tử x Thì ta có thể có các biểu thức sau:

(1) H(x) = { hịhạ hự Lhụ, hy hy CH: i e NJ

Trang 19

(2) X = H(G)

(3) H(hx) CH), với Wh EH vax EX

(4) H(hx) H(kx) = Ønếu h, k e H va hx #kx, nghĩa là lân cận của cácphân tử có độ dài bằng nhau sẽ rời nhau

(5) A(x) = Unenui H(hx), trong đó toán tử I được định nghĩa là Ix = x, Vx €

X, nghĩa là lân cận của tat cả các phan tử có dang hx là một phân hoạch trên lân

cận của x.

Như vậy tinh mờ của x liên quan đến kích thước của H(x)

Định nghĩa 1.3.1.1 [1]: Cho AX = (X, G, C, H, 5) là một đại số gia tử Ánh xạ fm:

X 0, 1] được gọi là độ đo tính mờ của các hạng từ trong X nếu:

(1) fin là day đủ, tức là fin(c*) + fim(€) = 1 và Linen fm(hx) = fm(x),

vx eX

(2),fim(x) = 0, vá mà Hộ) = fox} Đặc biệt fin(0) = fin(W) = fin(1) = 0

Í ƒm() _ ƒmW) peg na, no Ta

(3) tw,y EX, th EH, TmG) = THỜ)” Tỷ lệ này không phụ thuộc vào x, y

và nó được định nghĩa là độ mo của gia tử h, ký hiệu ph).

Với định nghĩa như trên của độ đo tính mờ trên AX chúng ta có một số tínhchất sau:

Mệnh đề 1.3.1.1 (1): Néu goi fm là độ do tính mo trên X va yh) là độ mờ của các

gia tử h, thì ta có các biểu thức sau:

(1) m(hx) = d(h)jm(x), Vx eX

(2) fin(c*) + jm(c) = 1

(3) D-gsispiso fm(hic) = fm(c), với e € {c*, c}

(4) Š~q<i<p¡zo fm(hix) =fm(x), voix EX

(5) De gsis-1 ƒm(h,) = & và Yiciey ƒm(h,) = B, trong doa, > Ovaat ÿ = 1

Trang 20

(6) Nếu x = hạh, ¡ hạc với e 6 {c*, e}là biểu diễn chính tắc của x thì fm(x)

= My) (Nn 1) t(hị)Jfim(c).

Vi dụ 1.3.1.1: Xét một dai số gia tử AX = (X, G, C, H, S) với G = (Nhiều, Ít) và H

= {Rat, Hoi} Bang việc tác động các gia tử thuộc H lên phần tử sinh thuộc G, ta có

thé có tập các biến ngôn ngữ

X' = (Ráti, Ít, Hoilt, HơiNhiều, Nhiều, RắtNhiêu) nêu chi tac động 1 lần và

ta Sẽ có

X''=/ RatRdtit, Rath, Hoikdtit, Ít, RdtHoilt, Hoift, HoiHoilt,

HoiHoiNhiéu, HoiNhiéu, RatHoiNhiéu, Nhiều, HơiRắtNhiễu,

RatNhiéu, RatRatNhiéu }nếu tác động 2 lần các gia tử lên các phan tử sinh

Giả sử fn(Nhiều) = 0.4, fin(/t) = 0.6, u(Rdt) = 0.48, (Hoi) = 0.52 Khi đó ta

có các giá tri tính được như sau cho các hạng từ sau:

không giúp ta có sự so sánh chắc chắn giữa hai biến ngôn ngữ Rdtit và Hoilt bởi vì

giá trị này phụ thuộc vào các giá trị ban đầu của các hàm độ đo tính mờ của cácphần tử sinh cũng như các gia tử Trong thực tế việc chọn các giá trị này sẽ đượcđiều chỉnh theo những tiêu chí mang tính thực nghiệm và rút kinh nghiệm để có sự

mô tả chính xác hơn Ví dụ trong thực tế nếu khoảng giá trị của RátNhiều được xem

là rộng hơn so với khoảng giá trị của HơiNhiêu thì chúng ta có xu hướng mô tả sự

Trang 21

khác biệt nay bằng giá trị s(Rd) > (Hoi) Tuy nhiên các giá trị này đều phải thỏa

của các hạng từ này Đối với DSGT, giá trị định lượng của các hạng từ được định

nghĩa dựa trên cấu trúc thứ tự ngữ nghĩa của miền giá trị của các biến ngôn ngữ, cụ

thể là độ đo tính mờ của các hạng từ và gia tử Để tiện cho việc xác định hàm định

lượng ngữ nghĩa cụ thé, chúng ta sử dụng định nghĩa về ham dau như sau:

Định nghĩa 1.3.2.1 [I]: Hàm dấu Sgn: X — {-1, 0, 1} được xác định đệ quy như

sau, ở đây h,h" eH,c €{c*,cj},x eX:

(1) Sgn(c’) = -1, Sgn(c*) = 1

(2) Sgn(hc) = -Sgn(c) nếu h âm đối với c

(3) Sgn(hc) = Sgn(c) nếu h dương đối với e

(4) Sgn(h’hx) = -Sgn(hx) nếu h’hx # hx và h’ âm đối với h

(5) Sgn(h’hx) = Sgn(hx) nếu h'hx # hx và h’ dương đối với h

(6) Sgn(h’hx) = 0 nếu h'hx = hx

Trang 22

Khái niệm âm, dương ở đây là dé chỉ ý nghĩa làm mạnh lên hay yếu lên ý

nghĩa của giá trị ngôn ngữ ban đầu nếu tiến hành tác động các gia tử lên giá trị ngônngữ đó.

Định nghĩa 1.3.2.2 [1]: Xét đại số gia tử AX = (X, G, C, H, s) với fin là độ đo tính

mờ trên X, pla độ do tính mo của gia tử trong H Khi đó hàm định lượng ngữ nghĩa 0: X— [0, 1] được định nghĩa đệ quy như sau:

Œ) 0W) = K = jjm(€), o(€) = K - afim(c) = Bfm(c),

v(c*) = K + afm(c*)

(2) (hips) = 064) + Sem(hpe) IZ) gn cqy Hed fmt) = cathy) gay fin(x)}

Trong đó: — ahjx) = z1 + Sgn(h,x)Sgn(h„h,x)(Ø — a], V7 e [-q, pI\(0}

Một khái niệm rất quan trọng làm cơ sở cho việc nghiên cứu và xây dựng các

mô hình ứng dụng về sau đó là khoảng tính mờ (fuzziness interval) của các khái

niệm mờ Trong DSGT, dựa trên độ đo tinh mờ fm, chúng ta sẽ định nghĩa khoảng

tính mờ của các hang từ Chúng ta cũng qui ước rằng đối với 2 tập U, V: US V thi

x<y, tw eUvà Vỹ eV.

Định nghĩa 1.3.2.3 [1]: Khoảng tinh mờ của các hang từ x € X, ký hiệu S(x), lamột đoạn con cua [0, 1], nó có độ dài bằng độ dài độ do tính mở |S(x)| = fim(x), vàđược xác định quy nạp theo độ dài của x như sau:

(1) Với độ dài của x bằng 1, tức lax € {c*, e2, khi đó | Sc )\ = fm(e),

I3(e`)I = fin(c*) và Hc) < He*) (2) Giả sử x có độ dain - 1, x = hy.jNy.2 hyc với e € {c*, c} và khoảng tính

mờ 3(x) đã được định nghĩa ở độ dài n-1 Khi đó tập các khoảng tính mo HX) = S(h„h„a hịc) là một phân hoạch của S{h„h, ¡ hịc), khoảng tính mờ của từ có độ dài n: x’ = h„hụ ¡ hịc, và thỏa mãn S(hạhụ„ hục)

= lfn(h„hụ,¡ hịc)| và có thứ tự tuyến tính tương ứng với thứ tự của tập

Trang 23

[MaghyepoB Cy heggilyep RIC, , Npltgep hic} Tức là nếu hilin.p hye > hÿhụ,

pechye thì S(hịhụ.¡ hịc) > S(hÿhụ.¡ hịc), trong đó —q Si, j <p; ij #0.

Dé thuận tiện về sau, chúng ta ký hiệu 3,(x) là khoảng tính mờ của x có độ

sâu k (hay khoảng tinh mờ mức k).

X, là tập các hang từ có độ dài đúng k.

Rõ ràng X = Uz, Xx

Tập X, có thé được sinh ra bằng cách tác động k-/ gia tử lên các phan tử sinh

nguyên tử.

Vi dụ 1.3.2.1: Xét một đại số gia tử AX = (X, G, C, H, S) với G = (Nhiều, Ít) và H

= (Rat, Hơi), ta có thé suy luận ra từ ý nghĩa của các biến ngôn ngữ như sau: Hoi là

âm đối với Nhiều bởi vì HoiNhiéu làm giảm đi ý nghĩa của từ Nhiéu, hay Rất là

dương đối với ft vì Rá: làm mạnh lên ý nghĩa của ft

Mục đích của hàm dấu Sgn là dé cho chúng ta biết được khoảng 5# #x) sẽ

là khoảng phân hoạch bên trái hoặc bên phải trong S(hx) Thật vậy, với đại số gia tửtrên ta có các kết quả sau:

e Rái là dương với Hoi và dương với Rat Ngược lai Hoi là âm với Rất và

âm với Hơi.

¢ Rat là dương đối với Ít và dương đối với Nhiều Ngược lai Hoi là âm đối

với Nhiéu và âm đối với Ít

¢ _ Ta có bảng giá trị hàm dau của các hang từ:

Ham dâu của hạng từ | Tương đương Giá trị hàm dâu Sgn(Nhiễu) 1

Sgn(/t) -1

Sgn(RatNhiéu) Sgn(Nhiêu) 1

Sgn(Ratit) Sgn() -1

Sgn(RGtRdtNhicu) Sgn(RẩrNhiễu) 1

Trang 24

Sgn(HơiHơili) -Sgn(Hoilt) -1

Bang 1.1: Gia tri của hàm dau đôi với các hạng từ

Ta có mối tương quan giữa hàm dấu đối với vị trí của các khoảng phân hoạch

như sau:

l

Soil) — -¬ ¬—~ = NS DE

<- 2 - xế Slt) ><= 5 (Nhiéu)

Hình 1.2: Mối tương quan giữa hàm dấu đối với vị trí các khoảng tính mờ

Giá trị của hàm định lượng ngữ nghĩa v(x) là điểm đầu mút của hai khoảngphân hoạch S(ñ.,x) và S(h)x).

Thực tế các biến ngôn ngữ nói chung và theo tiếp cận của đại số gia tử nói

riêng chỉ sai khác nhau các giá trị sinh nguyên thủy G = {c-, c+} và đây là đặc trưng

mang tính phô quát của DSGT Hơn nữa, tính độc lập ngữ cảnh của các gia tử và

Trang 25

liên từ như AND, OR, giúp chúng ta trong nghiên cứu và tìm kiếm mô hình cho

các gia tử mà không phải quan tâm nhiều đến giá trị sinh nguyên thủy của các biến

ngôn ngữ Dựa trên những đặc trưng này, nhiều tác giả nghiên cứu và xây dựng các

mô hình ứng dụng với tập các gia tử hầu như giống nhau và chỉ gồm một số ít các

gia tử như trong các nghiên cứu [1], [2] [4] [5] [9].

Một ĐSGT chỉ gồm hai gia tử, một gia tử dương và một gia tử âm là đại số 2

gia tử (ĐS2GT) và chúng ta ký hiệu đại số hạn chế này là AX’

Bởi vì số lượng gia tử đã được hạn chế ở mức 2, do đó DS2GT có những ưu

điểm so với DSGT tổng quát Ví dụ đối với việc áp dung các phương pháp tìm kiếm

tối ưu tham số mờ gia tử, ĐS2GT giúp giảm không gian tìm kiếm bởi vì số tham số

mờ ít hơn; của phần tử sinh ƒin(c) và độ đo tính mờ của gia tử 4(h’) (bởi vì ƒm(c”)

= 1— fm(€) và g(h*) = 1 - ph’) ) Miền giá trị của biến ngôn ngữ X được giảmđáng kể, hàm dấu trong công thức 1.3.2.1 được tính trực tiếp mà không cần sử dụng

dạng truy hồi như sau:

Sign(x) = Sign(hy hyc) = (-1)“Sign(c),Trong đó NL(x) là số lượng các gia tử # có trong hạng từ x

Một đặc trưng quan trọng khác của DS2GT là chúng ta có thê xây dựng hệ

phân hoạch các khoảng tương tự của tập các hạng từ có độ dài không quá k thay thếcho tập X; và khẳng định được sự tồn tại của hệ này

Gọi X¿ là tập các hạng từ có độ dai từ I đến k Tập Xj) có thê được sinh rabằng cách tác động &' gia tử lên phan tử sinh nguyên tử, trong đó 0 <k’ <k Rõ

ràng X„) = X; UX; UV LX¿.

Trên cơ sở phân hoạch hệ khoảng tương tự, phương pháp sinh hệ luật mờ

được xây dựng với ngữ nghĩa gồm tập các hạng từ có độ dài không quá k Điều nàykhắc phục được hạn chế của DSGT tuyến tính thông thường là chỉ áp dụng với tập

hạng từ độ dài đúng k [1], [2], [9] Việc xây dựng hệ phân hoạch các khoảng tương

tự của tập các hạng từ Xj) giúp cho chúng ta có thé xác định được khoảng mờ của

từ và có thể biểu diễn giá trị biến ngôn ngữ thành các khoảng Khi đó ta có tập các

Trang 26

khoảng tương tự mức k’ /ö¿{x): x e Xj} có thé được xác định từ các khoảng tính

mờ mức k’+2.

Vi dụ 1.4.1: Xét một đại số gia tử AX = (X, G, €, H, <) với G = (Nhiều, Ít} và H =(Rất, Hoi}, ta có:

Xo) = {0, Ri, i, Hi, W, Hn, n, Rn}

Trong đó i = Ít, n = Nhiều, R = Rat, H = Hơi

X, = {RRRi, HRRi, HHRi, RHRi, RHHi, HHHi, HRHi, RRHi, RRHn, HRHn, HHHn, RHHn, RHRn, HHRn, HRRn, RRRn}

Ta có mối quan hệ giữa các khoảng tương tự 6,(x) với các khoảng tính mờ

‹1(x) như sau:

1.5 KET LUẬN CHUONG 1

Chuong nay da trinh bay về DSGT, một mô hình toán học theo quan điểmđại số cho miền giá trị biến ngôn ngữ, các định nghĩa và tính chất của ĐSGT Sau

đó tác giả trình bày về DS2GT, một đại số hạn chế của DSGT, các tính chất đặctrưng của nó so với ĐSGT với nhiều ưu điểm đủ để sử dụng cho việc giải quyết bài

toán phân lớp dữ liệu Các công thức tính toán và các ví dụ minh hoa đã trình bay

được ý nghĩa cũng như cách áp dụng các tinh chất của DSGT và DS2GT trong việc

mô hình hóa theo quan điểm đại số cho các giá trị biến ngôn ngữ Tat cả các vấn đề

này là cơ sở dé ứng dụng trong các chương kế tiếp

Trang 27

Chương 2 - Phương pháp xây dựng hệ

mờ dạng luật cho bai toán phân lớp

2.1 GIỚI THIỆU

Trong cuộc sống, con người đã tạo ra nhiều dữ liệu nghiệp vụ thông qua các

hoạt động thường nhật như lao động sản xuất, mua bán, trao đổi, nghiên cứu, khám

pha, Các dữ liệu này được tích lũy và có kích thước ngày càng lớn, trong đó

chứa nhiều thông tin ẩn dưới dạng những quy luật chưa được khám phá Chính vìvậy, một nhu cầu đặt ra là cần tìm cách trích rút từ các dữ liệu đó các luật về phânlớp dữ liệu hay dự đoán những xu hướng dữ liệu tương lai Những quy tắc nghiệp

vụ thông minh được tạo ra sẽ phục vụ đắc lực cho các hoạt động thực tiễn, cũng như

phục vụ đắc lực cho quá trình nghiên cứu khoa học Công nghệ phân lớp và dự đoán

dữ liệu ra đời để đáp ứng mong muốn đó

Thông qua chương này, tác giả muốn giới thiệu một phương pháp dé rúttrích, sinh ra một cách tự động các luật phân lớp từ các dữ liệu huấn luyện bằng

cách áp dụng DS2GT.

2.2 BÀI TOÁN PHÂN LỚP

Phân lớp dữ liệu (data classification) là xếp đối tượng dữ liệu vào một trong

các lớp đã xác định trước Bằng cách mô tả các dữ liệu đã được định nghĩa trước

hoặc thu được từ thực nghiệm về một dang mà từ đó chúng ta có thé áp dụng các

giải thuật và tiên đoán được lớp của những dữ liệu tương lai, chưa được thực

nghiệm mà chỉ dựa trên những dữ liệu mẫu đã cho.

Bài toán phân lớp là một trong những bài toán đặc trưng của lĩnh vực khai

phá dữ liệu được nhiều tác giả nghiên cứu và ứng dụng như Abony [6], Ishibuchi[10], [11], [12] [13] [14] Khotanzad [15], Nếu một số phương pháp phân lớp

đã được biết đến như là cây quyết định, mang no ron, phương pháp Bayes, tập

trung giải quyết bài toán với mục đích đạt hiệu quả phân lớp cao nhất thì phương

pháp dựa trên hệ mờ dạng luật (fuzzy rule-based classification systems - FRBCS)

Trang 28

ngoài việc đạt hiệu quả phân lớp cao còn được nghiên cứu dé cung cấp cho ngườidùng mô hình phân lớp dễ hiểu và trực quan.

Chúng ta có thé phát biểu bài toán phân lớp như sau: Cho một tập gồm m

mẫu huấn luyện P = { (A, C) |i = 1, 2, m }, trong đó A; = (A¡, Ajz, « , Ain) lan

thuộc tinh của mẫu thứ i, A là các tập mờ cho trước và C; là nhãn lớp đã xác địnhcủa mẫu thứ i C; e C là tập gồm M phân tử, mỗi phan tử là tên của lớp xác định.Bai toán đặt ra là xác định lớp C; e C tương ứng với mẫu A; = (Aj), Ajo, Am) với

Jj> m là một mẫu chưa được huấn luyện.

Phương pháp giải bài toán phân lớp dựa trên FRBCS là xây dựng một hệ các

luật mờ để phân lớp, ký hiệu S, tức là:

S:U>C

Trong đó U = U; x U2 x x U, là tích Đề-các của các miền giá trị của n thuộc tinhcủa mẫu dữ liệu.

Hệ các luật mờ này biéu diễn cho tri thức về bài toán, nó không chỉ phản ánh

đúng với tập dữ liệu mẫu mà còn có khả năng dự đoán và cung cấp giúp cho ngườidùng phán đoán, ra quyết định Do đó, hệ luật phải tường minh, dễ hiểu đối với

người dùng.

Hệ luật mờ $ phải đạt các mục tiêu như hiệu quả phân lớp cao, tức là sốlượng các mẫu dữ liệu được phân lớp chính xác cao, số lượng các luật trong hệ Sphải nhỏ cũng như số các điều kiện của mỗi luật về trung bình phải ít Mục tiêu củahiệu quả phân lớp dé đảm bao cho hệ luật mờ S có tính đúng đắn cao mà vẫn dambảo được tính tường minh, các luật trong hệ luật mờ phải đơn giản và dễ hiểu đối

với người dùng và giúp cho quá trình phân lớp được thực thi nhanh chóng và hiệuquả Nếu dùng f,(S) là hàm đánh giá hiệu quả phân lớp, f,(S) là số luật và f,(S) là độ

đài trung bình của các điều kiện hay về trái của các luật trong hệ luật mờ S Thì mục

tiêu xây dựng hệ luật sao cho:

Jp(S) > max, ƒ(S) và ƒ,(S) > min (2.1)

Dé có thể xây dựng một hệ các luật mờ S giải quyết bài toán phân lớp, ta cần

mô hình hóa các luật phân lớp mờ như sau:

Trang 29

2.3 MÔ HINH MỜ DẠNG LUAT CHO BÀI TOÁN PHAN LỚP

Một luật mờ R, trong hệ luật mờ S$ được biểu diễn như sau:

Ry: IF xạ = Aq AND AND xạ, = Aqn THEN class Cụ (2.2)

Trong đó n là số các thuộc tính của mẫu, C, là nhãn phân lớp, g = 7, 2, , Ms; Ns là

số luật của hệ luật mờ Š; Agr A¿z, +» Aq là các tập mờ cho trước

Luật mờ R, có thể được phát biểu ngắn gọn như sau:

Ry: Ag => Cụ

Dé xây dựng hệ luật mờ S cho bài toán phân lớp với m mẫu huắn luyện thôngthường chúng ta tiễn hành hai bước sau:

Bước 1: Sinh luật mờ từ các mẫu huấn luyện

Bước 2: Chọn lọc và giữ lại những luật mờ thỏa mãn các điều kiện ràngbuộc để xây dựng S

Hệ luật mờ S được sinh ra cần phải thỏa mãn mục tiêu được đề ra ở (2.1) như

đã giới thiệu ở mục 2.2 Tuy nhiên trong thực tế ba mục tiêu được đặt ra không thểđồng thời đạt được Bởi vì khi chúng ta giảm số luật trong hệ luật phân lớp thì đồngnghĩa với việc giảm tri thức của bài toán dẫn đến sai số khi phân lớp là tăng lên,

ngược lại nếu số lượng luật quá nhiều cũng dẫn đến sự nhiễu loạn thông tin trong

quá trình phân lớp, chăng hạn nhiều luật với nhiều kết quả phân lớp khác nhau.Ngoài ra số lượng các điều kiện cũng ảnh hưởng đến tính phô quát hay cá thể của

luật, cụ thể nếu số lượng điều kiện ít sẽ làm tăng tính phô quát của luật và ngược lại

số điều kiện nhiều sẽ làm tăng tính cá thé của luật đó Tính phổ quát sẽ làm tăng khảnăng dự đoán của luật đối với các mẫu chưa được huấn luyện nhưng cũng đồng thờilàm tăng nguy cơ gây sai số lớn, trong khi đó nếu tính cá thể tăng làm tăng tínhđúng đắn của luật và giảm khả năng dự đoán của luật đó Do đó các phương phápgiải quyết bài toán xây dựng hệ luật mờ S cần phải có sự thỏa hiệp giữa các mục

tiêu này.

Trong [2], [6] [9], [10], [11] các tác giả mô hình hóa các luật theo (2.2) tuy

nhiên kèm theo nhãn kết quả là một giá trị hằng tượng trưng cho trọng số của luật

Trang 30

giúp cho việc đánh giá chọn lựa các luật trong quá trình xây dựng hệ luật mờ đạt hiệu quả cao và thỏa mãn (2.1):

Ry: IF Xq) = Agi AND AND Xqy = A¿, THEN class Cụ with CF, — (2.3)

Trong đó CF, là trọng, số của luật R, được xác định trong khoảng [0, 1] Luật mờ R,

có thể được viết gọn lại như sau:

Ry Aq => Cụ with CF,

Trong [2], [9], [10], [11] các tác giả đánh gia các luật mờ qua độ tin cậy

c(A¿=>€Œ,) và độ hỗ trợ s(A,=>C,) bằng hai công thức sau:

XŒp € lớp Cq) HAg Xp) 5(Ag=>C,) = (2.5)

m

Trong đó HẠ,(X,) = Haga (Xp) " Hagn(Xpn)i Magi) là hàm liên thuộc của tập mờ cho trước Ag;

Độ tin cậy có thể được xem như là đánh giá trong tính hợp lệ của luật

A¿=>(Œ Nó cũng có thê dược xem như là sự xấp xỉ số học của xác xuất có điềukiện Độ hỗ trợ có thé được xem như là đánh giá cho độ bao phủ của mẫu huấn

luyện bởi luật Ag=>C,

Trọng số của luật được Ishubuchi giới thiệu trong [10] và [11] va chứngminh tính hiệu quả của trọng số của luật trong bài toán phân lớp Trọng số của luật

có thể được xác định bằng các phương pháp sau:

Độ tin cậy c(A¿=>Œ,) có thể được dùng như là trọng số CF, của luật

A,=>Œự Do đó ta có:

CF = c(Ag=>C,) (2.6)Trong đó / chi ra rang CF’, là định nghĩa đầu của CF Một định nghĩa khác củatrọng số của luật là :

CF", = c(A, => Cy) - Cave (2.7)

trong đó ca„« là độ tin cậy trung bình trên các luật mờ với cùng A, cho trước nhưng

khác lớp kết quả từ C,

Trang 31

Cave = Gog Ua cpecg (Ay => Cụ)

Một định nghĩa khác dựa trên sự khác biệt giữa độ tin cậy lớn nhất và lớn nhì

đó là

CF", = c(A¿=> Cạ)— Cond (2.8)

trong đó C24 là độ tin cậy lớn nhì cho A, cho trước

Conq = max[c(A, => Cụ) | h = 1,2 M; Cị # Cy}

Chúng ta cũng có thể xác định được trọng số của luật bằng cách:

CF”, = c(A,=>C,) - Csum (2.9)

trong đó cs„„ là tông các độ tin cậy trên tat cả các luật mờ của các luật có cùng phân

điều kiện A, nhưng khác lớp kết quả C¿:

hiệu quả phân lớp cao hơn các định nghĩa còn lại Tuy nhiên trong giới hạn của luận văn, chúng ta không đi sâu vào việc phân tích này.

Phần tiếp theo tác giả sẽ trình bày một phương pháp xây dựng hệ luật mờ $

dựa trên hệ khoảng tương tự trong DS2GT mô hình mờ dạng luật (2.3) Tiếp theo

đó là phần trình bày phương pháp sàng dùng dé rút gọn hệ luật mờ được sinh ra và

cuối cùng là giải thuật di truyền lai và ứng dụng đê tôi ưu hóa việc chọn lọc các luật

trong hệ mờ S.

2.4 PHƯƠNG PHÁP XÂY DỰNG HỆ LUẬT MỜ

Dựa trên hệ khoảng tương tự của biến ngôn ngữ trong ĐS2GT đã được trìnhbày ở mục 1.4 Chúng ta sẽ xây dựng một giải thuật để sinh ra tập các luật mờ từ tậpcác mẫu huấn luyện dựa trên mô hình mờ được trình bày ở phần 2.3 Trước tiên, cáchang từ của tập X„¿ là các giá trị ngôn ngữ có chiều dài nhỏ hơn k được xác định bởi

các khoảng tương tự tương ứng 6,(x) bằng cách dựa trên các khoảng mờ mức k+2,

S1,z(x), như được trình bày trong mục 1.4 Trong đó giao điểm của hai khoảng mờ

Trang 32

mức k+2 chính là giá trị định lượng ngữ nghĩa của biến ngôn ngữ có chiều dài k+/

tương ứng Ví dụ đối với đại số gia tử bao gồm hai phan tử sinh {/t, Nhiéu} và hai

gia tử {Hơi, Rat}, ta có mỗi tương quan giữa các khoảng tương tự ỏ;(x), giá trị hàm

định lượng ngữ nghĩa v(x) và khoảng tính mờ (x) như sau:

0 v(RR) %(HRì) (HH) v(RHi) Wu(RHn) o(HHø) 0(HRø) (RRn) |

Việc xác định các khoảng tương tự giúp cho chúng ta xác định được các

khoảng giá trị của biến ngôn ngữ, từ đó chúng ta có thể tiến hành việc mờ hóa hoặcgiải mờ các giá trị mẫu huấn luyện Trong quá trình sinh ra hệ luật mờ từ các mẫu

huấn luyện thì việc mờ hóa các giá trị mẫu là cần thiết vì trong mô hình hệ luật mờ

phân lớp được giới thiệu ở phần 2.3 thì biến ngôn ngữ là một giá trị mờ và các giá

trị điều kiện của luật là các tập mờ được xác định trước Do đó đôi với mẫu huấn

luyện là các giá trị thực nghiệm thu được thông thường là các giá trị rõ Để có thể

xử lý được, rút ra được tri thức từ các giá trị thực nghiệm này, chúng ta cần tiến

hành mờ hóa bằng cách gán các giá trị rõ tương ứng với một giá trị của thang ngôn

ngữ được xác định bởi ĐSGT hoặc DS2GT Cụ thể chúng ta sẽ gán giá trị thangngôn ngữ tương ứng với khoảng tương tự mà giá trị rõ đó thuộc về:

(A=xlx EX vad €6,(x)}

Trong đó A là nhãn cua thang ngôn ngữ được xác định, Xj, là miền xác định củabiến ngôn ngữ có chiều dai nhỏ hơn hoặc bằng k, ở là giá trị rõ của mẫu huấn luyện

6,(x) là giá trị khoảng tương tự của biến ngôn ngữ x trong tập Xu Phần tiếp theo

chúng ta sẽ xây dựng giải thuật để sinh ra tập luật từ tập mẫu huấn luyện theohướng tiếp cận trên:

2.4.1 Giải thuật sinh hệ luật mờ

Giải thuật 2.4.1.1 [2]

Trang 33

Dữ liệu nhập:

- Tập dữ liệu mẫu P = { (dy, C) |i = 1, 2, N}, dị = (dị, dạ, đụ), C¡ €

C={C), C›, , Cụ), n là số thuộc tính, N là số mẫu hudn luyện, M là sốlóp.

- Bộ các tham số mờ của DS2GT cho mỗi thuộc tính: fim(€ ), u(t), i = 1,

3, ,Tn.

~ Mức phân hoạch k; hệ các khoảng tương tự trên miễn các thuộc tính

-_ Giới hạn độ dài tối đa của luật L

Kết quả:

- Tập các luật mờ So = {Rj, R›, Ryo}

Các bước tiến hành:

BỊ: Khởi tạo tập luật Sp = ØZ

B2: Tinh phân hoạch hệ các khoảng tương tự 64; dựa trên các giá trị định lượng ngữ nghĩa 0ụ,¡.

B3: Lặp trên mỗi mẫu dữ liệu (d, C;) e P và thực hiện như sau:

B3.1: Xác định giá trị ngôn ngữ Ay tương ứng với giá trị thuộc tính

dy e dj.

[Aj = Xụ¿* | xụ¡s € Xu; và dụ € Onl Xyj,i0), j = 1, 2, n}

B3.2: Xây dựng một luật nên có dạng như sau:

IF x, = Ai AND x2 = Aj AND AND x, = Aj, THEN lớp C;

Trong đó x = (X), Xa, , X„) là một vector mẫu n chiều trong miễn xác

định của bài toán.

B3.3: Sinh ra tất cả các luật có độ dài nhỏ hơn hoặc bằng L như sau:

IFExu = Ai, AND xị; = Aig AND AND xx = Aix THEN lớp C;

Trong đó l St, <tf;< <St¿<n, ISk<L.

Số các luật sinh ra được ở bước này sẽ là Mi XãB3.4: Voi mỗi luật sinh ra ở B3.3 có dang A; => C;, tính độ tin cậy và

độ hỗ trợ của mỗi luật: c(A, => C;) và s(A; => C))

B3.5: Bồ sung vào tập luật So luật A, => C¡ nếu luật thỏa mãn

Trang 34

=> €¡) = max{ c(A; => Cụ) với h = 1, 2, m }

Nếu có nhiễu hơn một luật thỏa mãn thì chọn ngẫu nhiên trong cácluật đó.

B4: Trả về tập Sp

2.4.2 Rút gọn hệ luật mờ bằng phép sàng

Chúng ta nhận thấy thuật toán này sinh ra các luật có độ dài về trái từ 1 đếngiới hạn L bằng cách lấy tổ hợp các điều kiện trong về trái của luật sinh ra từ mẫuhuấn luyện có ø thuộc tính Do đó thuật toán này sẽ chịu ảnh hưởng của sự bùng nỗ

tô hợp khi số thuộc tính lớn, hệ luật sinh ra có thé chứa một số lượng lớn các luật.Hơn nữa, hệ luật sinh ra bao gồm các luật có độ dài không giống nhau, từ một luậtnền ban đầu Do đó hệ luật sẽ chứa nhiều luật dư thừa bởi tính lặp lại các điều kiệncủa luật do phép lấy tô hợp Phần này tác giả sẽ trình bày phương pháp rút gọn hệluật mờ bằng phép sàng và ứng dụng dé rút gọn số lượng luật được sinh ra trong hệ

luật mờ khởi đầu Sy Có hai phép sàng được dé xuất là sàng cân bằng và sàng không

cân bằng

Đối với phép sàng cân bằng thì chúng ta chia nhóm các luật trong Sy theo

nhãn phân lớp là phan kết luận của luật, như vậy chúng ta có M (M là số lớp) nhóm

luật Chọn ra trong mỗi nhóm một số lượng luật như nhau sao cho các giá trị của

tiêu chuẩn sàng từ cao xuống thấp Phương pháp này yêu cầu chon ra một hệ luật $*

với số luật xác định trước, giả sử là Ngx Khi đó nếu Ns: chia hết cho M, thì tại mỗinhóm chúng ta sẽ lấy NMsx⁄M luật, ngược lại chúng ta sẽ lấy [Ns:/M] luật, trong đó [x]

ký hiệu cho phần nguyên của x Còn lại Ms: - M.[Ns:/M] luật sẽ được chọn theo giátrị tiêu chuẩn sàng từ cao xuống thấp trên tất cả các nhóm

Phương pháp sàng cân bằng sẽ không phù hợp đối với tập mẫu không cân

bằng số mẫu giữa các lớp Do đó phép sàng không cân bằng sẽ chọn ra các luật củamỗi nhóm tỷ lệ thuận với số mẫu trong lớp đó Nghĩa là lớp nào có nhiều mẫu sẽđược ưu tiên hơn các lớp có ít mẫu huấn luyện Giả sử te là tỷ lệ số mẫu dữ liệuthuộc lớp C trong tập mẫu, khi đó số luật được chọn trong nhóm của lớp C sẽ là

tc [Ns-/M] luật.

Trang 35

Các tiêu chuẩn sàng thường dùng là:

-_ Tiêu chuẩn sàng theo độ tin cậy của luật: SR! = c(A„ => Cy)

- Tiéu chuẩn sang theo độ hỗ trợ của luật: SR’ = s(Ay => C,)

- _ Tiêu chuẩn sang dang tích: SR? = c(A„ => Cy).8(Aq => Cy)

Trong [2], tác giả đã chỉ ra rằng tiêu chuẩn sang SR’ cho kết quả độ chínhxác phân lớp thấp hơn nhiều trong khi độ dài trung bình của hệ luật lại cao hơn so

với hai tiêu chuẩn còn lại (SR? và SR’) Trong đa số các trường hợp, kết quả phânlớp của hai tiêu chuẩn sàng SR? và SR? là như nhau Tuy nhiên trong một số trường

hợp tiêu chuẩn sàng SR’ sẽ đạt hiệu quả cao hơn, điều này đã được phân tích trong

[12].

2.5 TOI UU HE LUAT

Tập luật khởi đầu sinh bởi giải thuật 2.4.1.1 và áp dung phương pháp sàng

dựa trên tiêu chuẩn là độ tin cậy, độ hỗ trợ hoặc tích của chúng; tuy đã được rút gọnđáng kể nhưng vẫn còn chứa các luật dư thừa, nghĩa là các luật mà hiệu quả phânlớp của nó không cao Bởi vì lấy tô hợp các thuộc tính về trái của các luật cơ sởlàm bùng nỗ một số lượng lớn các luật Và việc sàn lọc dựa trên tiêu chuẩn đánh giá

độ quan trọng của luật vẫn chưa hoàn toàn đảm bảo việc loại bỏ được các luật màhiệu suất phân lớp của chúng là thấp Hay nói cách khác việc giữ lại các luật có giátrị tiêu chuẩn cao nhất vẫn chưa khẳng định được cho các mục tiêu đã đề ra ở (2.1)

là hiệu suất phân lớp cao và độ dai của các luật là nhỏ

Giải thuật di truyền là một giải thuật tìm kiếm heuristic mô phỏng quá trìnhtiến hóa của tự nhiên Thông thường giải thuật này được dùng đề tìm kiếm cácphương án tối ưu cho bài toán tìm kiếm Giải thuật di truyền là một bộ phận của giải

thuật tiến hóa, ở đó chúng ta có thể tìm ra các phương án tối ưu bằng cách mô

phỏng các quá trình tiến hóa của tự nhiên như thừa kế (inheritance), đột biến(mutation), chọn lọc (selection) và trao đổi chéo (crossover)

Trong [2], [6], [7], [9], [15] các tác giả đề xuất sử dung giải thuật di truyền

lai để tối ưu hóa hệ luật mờ được sinh ra Giải thuật di truyền lai kết hợp giải thuật

di truyền với sự tiến hóa của tự nhiên và sự mô phỏng của kỹ thuật tôi luyện mà

Trang 36

trong đó nhiệt độ tôi luyện được giảm từ từ để đạt đến một trạng thái rắn vững bền

của cấu trúc vật chất Kỹ thuật tôi luyện xử lý bằng cách giảm dần nhiệt độ của lò

nung đến khi vật chất đông lại và không có sự thay đổi nào xuất hiện nữa thì dừng.Việc kết hợp giải thuật di truyền với kỹ thuật tôi luyện cho phép việc tìm kiếm kếtquả tối ưu được thực hiện trong một thời gian được xác định và kiểm soát được chỉphí cần thiết của việc tìm kiếm phương án gan tối ưu của giải thuật di truyền Giúp

cho chúng ta kiểm soát được sự cân bằng giữa chỉ phí tiến hành tìm kiếm và kết quả

tối ưu của phương pháp

2.5.1 Hàm mục tiêu của giải thuật

Mục tiêu áp dụng giải thuật di truyền là để tìm một tập con Š của tập $%” màchúng ta đã xây dựng được trong bước xây dựng tập luật khởi đầu và áp dụng phépsàng với một hiệu suất cao, đơn giản và dé hiểu, mục tiêu này phù hợp với tiêu chí

(2.1) được đặt ra cho bài toán phân lớp dữ liệu Ví dụ tìm một hệ luật mờ con có độđài trung bình J, từ hệ luật mờ Š” mà đạt hiệu suất cao và độ dài trung bình của các

luật là nhỏ Một cách tổng quát N, << Ns: = IS” Hiệu suất phân lớp của S được đobằng phần trăm của các mẫu của dữ liệu thực nghiệm được S phân loại chính xác,được ký hiệu bằng perf(S):

perf(S) = CORR(S, P)ASI

trong đó CORR(S,P) là số các mẫu trong P mà S phân hoạch chính xác, dùng

phương pháp lập luận mờ đã xác định Trong phạm vi của đề tài, tác giả sẽ giớithiệu hai phương pháp lập luận mờ: phương pháp một luật thắng (single winner) vàbình bầu theo trọng số (weight voted) ở phần tiếp theo của chương

Độ dai trung bình của các luật trong S được ký hiệu là avg(S)

avg(S) = 5 Sres tength(r)

trong đó length(r) là số các điều kiện của luật r cho trước

Vấn đề mà giải thuật di truyền cần giải quyết là cực đại hóa giá trị củaperf(S) và cực tiểu hóa giá trị của avg(S)

Chúng ta ký hiệu hàm mục tiêu:

Trang 37

Fitness(S) = w;(1⁄avg(S)) + w2.perf(S), wị + w2= 1 (2.10)

Khi đó mục tiêu của giải thuật di truyền là tìm một tập S là tập con của Sp sao cho

cực đại hóa giá tri của ham Fitness.

2.5.2 Giái thuật đi truyền lai

Dé có thé áp dụng giải thuật di truyền lai, chúng ta mã hóa mỗi cá thé là một

tập luật con của Ss, ky hiệu là p; Mỗi gen của cá thể là một luật được chọn trong các

luật của S” Mỗi gen của cá thể được mã hóa bằng một số thực trong đoạn [0, 1],biểu diễn chỉ số của luật được chọn trong S”, ký hiệu số thực này là &; cho gen thứ j

Luật tương ứng được chon tại vị trí thứ j của cá thé p; có chỉ số trong tập S* là

round(g,lS”l) (hàm round(.) để làm tròn thành số nguyên) Trường hợpround(g; IS”) = 0, tức là không có luật được chọn Phương pháp mã hóa này có thé

có hai gen gj; và gj khác nhau (; # /z) nhưng cùng biểu diễn một chỉ số luật đượcchọn, khi đó chúng ta chỉ lấy một trong số chúng Hệ luật S; tương ứng với cá thé p;

được xác định như sau:

Si= {Rel gj € pp k= round(g;\SỈI), k > Ova Ry e S”}

Do đó một cá thé sẽ được biểu diễn bằng một mang các phan tử nguyên, magiá trị của mỗi phần tử sẽ định danh của luật tương ứng đã được mã hóa bởi gen

Trang 38

Giả sử các luật trong tập các ứng viên được sắp xép theo thứ tự giảm giần

theo giá trị của hàm mục tiêu Fitness Thành viên thứ i sẽ được chọn cho thế hệ kế

tiếp với một xác suất như sau:

To là nhiệt độ khởi đầu

Tị = Ton là nhiệt độ tôi luyện của thé hệ thứ k, 0 < œ < 1

k=1, 2, , G| G là số lan tiến hóa

6

Teng = Tọ.@

2.5.2.2 Phép trao đối chéo

Ký hiệu: SGA_Crossover.

Đối với hai ứng viên của giải thuật, sẽ xảy qua quá trình trao đổi hai đoạn

của hai ứng viên đó với nhau Ở đây ta có thé hiểu là trao đổi các điều kiện giữa các

luật Để sinh ra hai ứng viên, hai luật mới Các cách hiện thực sau có thể được áp

dụng cho giai đoạn này:

- Trao đổi chéo đơn giản: Đối với một ứng viên X, bằng ký hiệu XI; ta mô tả

cho phần đầu của ứng viên đó cho đến vị trí thứ ¡ và bằng ký hiệu ;lX ta mô tả cho.phan cuối của ứng viên đó bắt đầu từ vị trí (i+/) đến cuối Chúng ta có thể hiểu XI;

là phần bao gồm điều kiện thứ nhất cho đến điều kiện thứ ¿ của luật và ngược lại ;ÌX

là phần bao gồm điều kiện thứ (¡+7) cho đến điều kiện cuối của luật Hai luật mới

được sinh ra sau khi áp dụng phương thức trao đôi chéo này sẽ có dang

U=XI,AND,¡\Y và V= YI; AND |X

- Trao đổi chéo số hoc: Chọn một số thực a bất kỳ trong đoạn [0, 1] Các thế

hệ con của thế hệ bố mẹ X, Y sẽ có dang

U=aX+(l-a)Y vàV=(1-a)X+a.Y

Trang 39

Trong đó a.X có nghĩa là chúng ta lấy [a.IX1] điều kiện đầu tiên từ luật ứng viên X.

- Trao đổi chéo số học mở rộng: thực chat là sự kết hợp của hai phương pháp

trao đôi chéo ở trên

U =a.X\; + (1-a).Y|; AND a.j|X + (T-a).,|Y

V = (1-a).ÄXI; + a.Yl; AND (1-a).\X + a.|Y

2.5.2.3 Phép đột biến

Ký hiệu: SGA_Mutation.

Gia sử gen g; được cho trong khoảng [L,, Uj] thi g; được đột biến dé sinh ragen g;’ được tính như sau, với được chọn ngẫu nhiên trong đoạn [0, 1]:

¡ + z.(gi— Li) néuu < 0,5

{i + £(U,~ gi) néuu>0,5

Là phương pháp thay thế bố mẹ bằng các cá thể con, mỗi cá thể con sẽ cạnh

tranh với cá thé tốt nhất trong hai cá thể bố mẹ Gọi Spi» Sp2» Sc tương ứng là giá trịhàm mục tiêu của hai cá thể bố mẹ và cá thể con, đặt g* = max{&p\, 8,2}, khi đó cáthể con được chấp nhận với xác suất p = min{1, e '**°" 1, Trong trường hợp cáthể con không được chấp nhận, cá thé bố mẹ tương ứng với g* được chấp nhận đềđưa vào thé hệ tiếp theo

2.5.2.5 Giải thuật di truyền lai

Giải thuật 2.5.2.1 [2]

Dữ liệu nhập:

-_ Tập dữ liệu mẫu P = { (dy C) |i = 1, 2, N}, di = (din dạ, đụ), Ci €

C={C), C›, , Cụ), n là số thuộc tính, N là số mẫu huấn luyện, M là sốlớp.

Trang 40

- Hệ luật mo S` được sinh ra từ giải thuật 2.4.1.1 và áp dụng phép sàng để

đơn giản hóa hệ luật.

~ Giới hạn ràng buộc số luật tối da cần chọn tối wu: Nay

- Trọng số cho các mục tiêu của hàm thích nghỉ (2.10): 0 < w), wạ < 1, w)

+w2= 1.

Két qua:

- Hệ luật mở tối tru Sop

Các bước tiến hành:

BI: Khởi tạo quân thể xuất phát gâm MN cá thể Popo = Í Po,t Po ++» Po.np

}-Ký hiệu py; là cá thể thứ i của thế hệ thứ k, là sự mã hóa của tập chỉ số luật đượcchọn từ SẺ N„ là kích thước quan thé tại mỗi thé hệ trong giải thuật di truyén lai

B2: Với mỗi cá thể po € Popo, tính độ phù hợp Fit(po,) theo công thức (2.10)

và tính tham số nhiệt ban đầu:

B3: Dat k = 0 Lap theo mỗi k cho đến khi k = ma, Pope = {Pir Pi» -.-:

PLup} và thực hiện các bước sau:

B3.1: Tính tham số nhiệt của thé hệ thứ k+1, T,,¡ = &.T;, trong đó

œ< llà hệ số giảm nhiệt độ (thường chon a = 0.7)

B3.2: Tạo quan thé mới Popys1 cho thé hệ k+1 như sau:

Lặp theo ¡ cho đến khi |Popysil = Np,

Chon cặp cá thể bó mẹ Pq € Pop, sử dụng phép chọn lọc

SGA_Selection(Popy Tị.¡) Sau đó thực hiện các phép lai ghép, độ

biến và thay thé trên cặp bố mẹ này bằng các phép SGA_Crossover,SGA_Mutation, SGA_Replacement dé tạo cặp cá thé mới p; ạ và đưa

vào Popy¿.

Ngày đăng: 08/11/2024, 17:29

w