Tuy nhiên, nhậnthấy nhu cầu của con người không chỉ dừng lại ở đó; với ý tưởng hỗ trợ người dùngnhiều hơn nữa trong việc tìm kiếm trên dữ liệu số, tác giả đã đề xuất ra ý tưởng xây dựng
Trang 1._ ỨNG DỤNG ĐẠI SÓ GIA TỬ DE PHAN LỚP
VÀ XÂY DUNG BỘ TÌM KIEM MỜ CÁC TRANG WEB
Trang 2Hoang Nguyén Vi Cam
UNG DUNG DAISO GIA TỬ DE PHAN LỚP
VA XÂY DUNG BỘ TÌM KIEM MO CÁC TRANG WEB
THEO CHUYEN NGANH
LUẬN VĂN THẠC SI CÔNG NGHỆ THONG TIN(Luận văn đã được chỉnh sửa theo ý kiến của hội đồng phản biện
ngày 29/03/2012)
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 Tiên sĩ Lê Xuân Vinh
TP Hồ Chí Minh - 2012
Trang 3Luận văn được hoàn thành với sự chỉ dẫn tận tình và nghiêm khắc của TS.
Lê Xuân Vinh Lời đầu tiên, tác giả xin gởi đến Thay lời cảm ơn chân thành và sâusắc nhất
Xin gởi lời cảm ơn đến Quý Thầy, Cô trường Đại học Công nghệ thông tin —Đại học quốc gia Thành phố Hồ Chí Minh đã truyền đạt những kiến thức phong phú
và bỗ ích trong quá trình học tập giúp cho tác giả có thể hoàn thành tốt luận văn
này.
Trang 41.2 ĐỊNH NGHĨA ĐẠI SO GIA TU
1.3 CAC TINH CHAT
1.3.1 Độ do tính mờ
1.3.2 Hàm định lượng ngữ nghĩa
1.4 ĐẠI SÓ 2 GIA TỬ
1.5 KET LUẬN CHUONG 1
Chương 2 - Phương pháp xây dựng hệ mờ dang luật cho bài toán phân lớp
2.1 GIGI THIỆU
2.2 BÀI TOÁN PHAN LỚP
2.3 MÔ HÌNH MỜ DẠNG LUẬT CHO BÀI TOÁN PHÂN LỚP
2.4 PHƯƠNG PHÁP XÂY DỰNG HỆ LUẬT MỜ
2.4.1 Giải thuật sinh hệ luật mờ
2.4.2 Rút gọn hệ luật mờ bằng phép sàng
2.5 TÓI ƯU HỆ LUẬT
Trang 52.6.2 Phương pháp bình bầu theo trọng số luật
2.6.3 Phân lớp mẫu chưa được huấn luyện
2.7 KẾT LUẬN CHƯƠNG 2
Chương 3 - Xây dựng một bộ phân lớp các trang web
3.1 GIỚI THIỆU
3.2 BỘ PHAN LÓP CÁC TRANG WEB
3.3 XÁC ĐỊNH CÁC THUỘC TÍNH THƯỜNG XUÁT HIỆN CỦA CÁC
TRANG WEB
3.3.1 Tách các từ, cụm từ.
3.3.2 Dém tần suất xuất hiện của các từ và lưu trữ
3.4 MÔ HÌNH HÓA CÁC THUỘC TÍNH BẰNG ĐẠI SÓ GIA TỬ
3.4.1 Lựa chọn các tham số cho đại số gia tử
3.4.2 Phân hoạch miễn xác định các thuộc tính thành khoảng mờ
3.5 SINH LUẬT MỜ
3.5.1 Mô tả tập luật mờ
Trang 63.5.2.2 Sinh các tập luật mờ có độ dài nhỏ hơn k
3.5.2.3 Tinh giá trị hỗ trợ và tin cậy của mỗi luật
3.5.2.4 Tính giá trị trọng số của mỗi luật
3.5.2.5 Chọn lọc tập luật khởi đầu
3.5.3 Áp dụng giải thuật di truyền lai tối ưu hóa các luật
3.5.3.1 Mã hóa các luật
3.5.3.2 Tính toán giá trị thích nghi cho từng tập luật.
3.5.3.3 Sử dụng giải thuật di truyền lai dé chọn lọc tập luật tối ưu
3.6 XÁC ĐỊNH MỨC ĐỘ THUỘC CỦA TRANG WEB ỨNG VỚI CHUYÊN
NGÀNH
3.7 KET LUẬN CHƯƠNG 3
Chương 4 - Ứng dụng phát triển bộ tìm kiếm mờ theo chuyên ngành
4.1 GIỚI THIỆU
4.2 BO MAY TÌM KIEM GOOGLE SEARCH
4.2.1 Khởi tao câu lệnh tim kiếm
4.2.2 Trích rút dữ liệu từ kết quả trả về
4.3 LỌC CÁC TRANG WEB
4.3.1 Tìm kiếm đặc trưng của trang web
4.3.2 Phân lớp trang web
4.4 CAU TRÚC CHUONG TRÌNH UNG DUNG
4.5 CÀI ĐẶT UNG DUNG
4.5.1 Biên dịch ứng dụng
Trang 74.5.3.1 Thêm các trang web mẫu
4.5.3.2 Cấu hình các tham số hệ thống cho chương trình4.5.3.3 Cấu hình các tham số của DS2GT
4.5.3.4 Mô hình hóa các giá tri tần suất bằng DS2GT
4.5.3.5 Sinh tự động các luật phân lớp
4.6 SỬ DỤNG CHƯƠNG TRÌNH
4.7 TÓI ƯU CÁC THAM SO CHO BỘ TÌM KIEM MỜ
4.7.1 Tối ưu các tham số cho ĐS2GT
4.7.2 Tối ưu các tham số cho hệ thốn,
Trang 8Độ đo tính mờ gia tử h và của hạng từ x
Giá trị định lượng theo điểm của giá trị ngôn ngữ
Hàm định lượng của giá trị ngôn ngữ A (đo độ thuộc của v) Khoảng tính mờ của giá trị ngôn ngữ
Khoảng tương tự của giá trị ngôn ngữ Tập các hang từ có độ dai đúng k
Tập các hạng từ có độ dài không quá k
HyperText Markup Language, ngôn ngữ đánh dấu siêu văn bảnSimulated Annealing - Genetic Algorithm, giải thuật di truyền lai
Trang 9Giá trị của hàm dấu đối với các hang tir
Các giá tri tần suất của từ mẫu “chi định”
Giá trị hàm định lượng ngữ nghĩa của các hạng từ
Các khoảng tương tự của các hạng từ
Giá trị ngôn ngữ tương ứng của các giá trị tan suât
Giá trị tần suất của các từ đặc trưng trong một trang web mẫu
Giá trị tần suất tối đa của các từ đặc trưng trong các trang web mẫu 61Giá trị giá trị ngôn ngữ tương ứng với tần suất của các từ đặc trưng 61
Giá trị ham định lượng ngữ nghĩa của các giá trị ngôn ngữ.
Các thông số dé khởi tạo một câu lệnh tìm kiếm cho Google Search 84
Một kết quả mẫu của việc tìm kiếm các đặc trưng của trang web chưa
Các tham số dé cấu hình hệ théng
Các giá trị tham số mặc định của DS2GT của bộ tìm kiếm mờ
Hiệu suất phân lớp đối với mẫu hudn luyện
Trang 10Danh mục các hình vẽ
Hình 1.1: Độ đo tính mờ của một số hạng tù
Hình 1.2: Mối tương quan giữa hàm dấu đối với vị tri các khoảng tính mờ
Hình 1.3: Khoảng tính mờ của các giá trị ngôn ngữ
Hình 2.1: Giá trị hàm định lượng ngữ nghĩa và các khoảng tương tự của X¿; 32
Hình 2.2: Sơ đồ mã hóa các cá thé chọn hệ luật cho giải thuật di truyền
Hình 2.3: Hàm thuộc của tập mờ Ay
Hình 3.1: Bộ tìm kiếm các thuộc tính thường xuất hiện trong trang web
Hình 3.2: Bộ phân tích thẻ HTML
Hình 3.3: Đếm các từ, cụm từ
Hình 3.4: Lưu trữ tần suất xuất hiện các từ, cụm từ
Hình 3.5: Các khoảng tương tự 6,(x) trong đoạn [0, 1]
Hình 3.6: Mô tả luật phân lớp
Hình 3.7: Mô tả luật cơ sở bằng lớp Rule và lớp Condition
Hình 3.8: Phương thức getCompatibilityGrade của Rule
Hình 3.9: Đối tượng HashMap để lưu trữ các giá trị của hàm thuộc
Hình 3.10: Sơ đồ cấu trúc giải thuật di truyền
Hình 3.11: Sơ đồ mã hóa các cá thé chọn hệ luật cho giải thuật di truy:
Hình 3.12: Lớp Chromosome dé mô tả một cá thê
Hình 3.13: Đối tượng HashMap lưu trữ giá trị độ dài của luật
Hình 3.15: Một cá thé trong quan thé khởi đầu
Hình 4.1: Quy trình xử lý của bộ tìm kiếm mờ theo chuyên ngành
Hình 4.2: Giao diện người sử dụng
Hình 4.3: Giao diện người quản trị hệ thông
Hình 4.4: Cấu trúc hệ thông chương trình ứng dụng
Hình 4.5: Giao diện thêm trang web mẫu huấn luyện
Trang 11Hình 4.8: Giao điện mô hình hóa các giá trị tần suất
Hình 4.9: Giao diện sinh tự động các luật nên và luật phân lớp mờ
Hình 4.10: Giao diện chính cho người sử dung
Hình 4.11: Giao diện kết quả tìm kiếm và phân lớp
Trang 12Mở đâu
Công nghệ thông tin đã có những bước tiến bộ vượt bậc kể từ khi chiếc máy
tính đầu tiên ENIAC vào năm 1946 Cùng với sự phát triển đó của phần cứng máytính, công nghệ phần mềm cũng có những bước nhảy tương xứng Tính tới thờiđiểm hiện tại, không ai có thé đếm hay nêu tên tat cả các phần mềm mà con người
đã tạo ra và sử dụng chúng Kết quả của sự phát triển vượt bậc đó là một khối lượng
dữ liệu không 16 được lưu trữ và luân chuyển giữa những hệ thống máy tính từ đơn
giản đến phức tạp Con người đã nhận ra được tầm quan trọng của việc tổ chức, xử
lý tìm kiếm dữ liệu từ rất lâu và đang cố gắng phát triển nó song song với sự pháttriển của phần cứng, phần mềm và dữ liệu
Tính tới thời điểm hiện tại, Google Search nổi lên như là một cỗ máy tìm
kiếm mang lại hiệu quả và tốc độ, phục vụ nhiều nhất các nhu cau tìm kiếm của con
người trên dữ liệu số Tuy có nhiều các bộ máy tìm kiếm song song khác như Bingcủa Microsoft và Yahoo Search thì Google vẫn là sự lựa chọn hàng đầu của những
tin dé online bởi tính chính xác và tốc độ thực thi vượt trội của nó Gần đây nhất có
sự xuất hiện của WolframAlpha một cổ máy tra lời tự động các truy van gan gũi vớingôn ngữ tự nhiên với hy vọng là sẽ thay đổi hoàn toàn cách con người tiếp xúc với
máy tính, với công nghệ thông tin Tuy nhiên, hiện tại vị trí của Google Search
trong lĩnh vực tìm kiếm dữ liệu số luôn ở vi tri cao nhất.
Cách Google xây dựng bộ máy tìm kiếm của mình dựa trên chỉ mục các từnội dung và xếp thứ hạng các trang web đã mang lại những thắng lợi không thé chối
cãi mà hãng đã và đang đạt được Với việc hỗ trợ tìm kiếm trên những trang web,
những hình ảnh, những video; Google đã đáp ứng phần lớn các nhu cầu của conngười khi có nhu cầu tìm kiếm một cái gì đó trên mạng internet Tuy nhiên, nhậnthấy nhu cầu của con người không chỉ dừng lại ở đó; với ý tưởng hỗ trợ người dùngnhiều hơn nữa trong việc tìm kiếm trên dữ liệu số, tác giả đã đề xuất ra ý tưởng xây
dựng một bộ mở rộng tìm kiếm dựa trên Google Search để cho ra kết quả đã được
phân loại theo chuyên ngành, giúp cho việc sàn lọc kết quả được thực hiện sâu hơn,
Trang 13giảm thiểu thời gian cho người sử dụng phải tự thân làm lấy Ví dụ, khi người dùng
tìm kiếm từ “trái dita”, Google Search sẽ trả về khoảng 3 triệu kết quả với nhiều
loại khác nhau, có những trang web nói về tác dụng y học của trái dừa, có trang web.nói về lợi ích kinh tế của dita và có trang nói về một câu chuyện liên quan với tráidừa Và nếu người sử dụng chỉ quan tâm đến lợi ích đối với sức khỏe của trái dừa,thì người đó cần phải duyệt qua từng link của kết quả trả về và bằng các đọc nội
dung sẽ xác định nội dung đó có phù hợp với tiêu chí của mình không.
Với cô gắng giúp người sử dụng giảm thiểu việc phải duyệt qua những trangweb trước khi tìm được trang web mà mình thực sự cần, bộ mở rộng tìm kiếm sẽphân loại các kết quả trả về của Google Search và cho phép người sử dụng có thểlọc lại kết quả đó chỉ với tiêu chí là y học hoặc chỉ là kinh tế
Về cơ bản, bộ mở rộng các trang web là một bộ phân lớp các trang web theo
một tiêu chí nhất định là chuyên ngành của nội dung trang web đó Thông qua quátrình tim hiểu các bài viết [1], [2], [4], [5], [6] và [9] tác giả tim thấy được mộthướng để có thé hiện thực được bộ mở rộng tìm kiếm các trang web bằng việc ápdung dai số gia tử (ÐĐSGT) để mô hình hóa ngôn ngữ tự nhiên thành đại số Từ đó
xây dựng một bộ phân lớp mờ [2], [5], [9] từ dữ liệu mẫu huấn luyện Cudi cùng sử
dụng bộ phân lớp mờ đã xây dựng được dé phân loại các trang web chưa được huấn
luyện DSGT là một đại số trừu tượng được sử dụng dé đại số hóa, mờ hóa ngôn
ngữ tự nhiên đê phục vụ cho việc tính toán đại số dễ đàng mà vẫn đảm bảo được
tính thứ tự và ngữ nghĩa của các từ, cụm từ của ngôn ngữ tự nhiên Do đó tác giả đãchọn DSGT như một cơ sở dé hỗ trợ xây dựng bộ tìm kiếm phân loại theo chuyên
ngành.
Với ý nghĩa như vậy, luận văn đặt ra những mục tiêu cu thể sau đây:
1) Xây dựng một bộ phân lớp mờ các trang web dựa trên DSGT.
2) Ứng dụng bộ phân lớp mờ đã xây dựng được, loc theo chuyên ngành cáckết quả trả về từ Google Search đề hỗ trợ tốt hơn cho người sử dụng trongquá trình tìm kiếm dữ liệu trên internet
Trang 143) Tự động hóa quá trình xây dựng bộ phân lớp mờ các trang web từ dữ liệu
huấn luyện là các trang web mẫu
Với nhiệm vụ đã đặt ra, luận văn đã đạt được một số kết quả chứng minh
được tính khả thi của việc áp dụng DSGT trong việc xây dựng một ứng dụng phân
lớp mờ các trang web trong thực tế Có thé khái quát một số điểm chính như sau:
- Xây dựng được một bộ phân lớp mờ các trang web một cách tự động từ các
mẫu huấn luyện là những trang web mẫu đã được phân lớp bằng thực nghiệm Bộ
phân lớp mờ được xây dựng dựa trên cơ sở đại số hai gia tử (ĐS2GT) và các tínhchất của nó
- Ứng dụng bộ phân lớp mờ đề xây dựng một bộ mở rộng tìm kiếm các trangweb theo chuyên ngành y khoa và kinh tế Cho phép người sử dụng có thé tìm kiếm
các trang web theo từ khóa và theo chuyên ngành đã định trước mà không cần phải
duyệt qua nội dung của trang web.
Về bố cục, luận văn bao gồm phần mở dau, 4 chương, phan kết luận và tài
liệu tham khảo.
Chương 1: Trinh bày lý thuyết về ĐSGT, các định nghĩa, tính chat và các
công thức toán học có liên quan Mỗi mục được trình bày các khái niệm lý thuyết
song song với một số ví dụ có liên quan đến việc xây dựng một bộ phân lớp mờ các
trang web theo chuyên ngành.
Chương 2: Trình bày phương pháp xây dựng hệ mờ dạng luật cho bài toán
phân lớp; giới thiệu bài toán phân lớp, các lý thuyết toán học đề xây dựng một hệ
mờ dang luật dựa trên một tập các mẫu huấn luyện; giới thiệu về giải thuật di truyền
để tối ưu hóa hệ luật mờ phân lớp
Chương 3: Trình bày một phương án xây dựng bộ phân lớp mờ các trang
web bằng việc huấn luyện dựa trên các trang web mẫu, sinh các luật phân lớp mờdựa trên các lý thuyết ĐSGT và lý thuyết về bài toán phân lớp được trình bày ởchương | và chương 2 Giới thiệu phương pháp áp dụng bộ phân lớp mờ dé phânloại các trang web chưa được huấn luyện
Trang 15Chương 4: Xây dựng một ứng dụng và đã triển khai thử nghiệm Các kết quả
đạt được cũng như hướng phát triển trong tương lai của bộ mở rộng tìm kiếm cáctrang web theo chuyên ngành cũng được trình bày.
Trang 16Chương 1 - Lý thuyết đại số gia tử
1.1 GIỚI THIỆU
Các dữ liệu tri thức của nhân loại được khám phá và tạo ra mỗi ngày và số
lượng các dữ liệu này là vô cùng lớn Do đó việc lưu trữ và xử lý các dữ liệu tri thức
là một bài toán được đặt ra cho con người dé có thê giải quyết được các vấn đề hiện
có của con người Hiện nay phan lớn các tri thức đều được mô tả lại ở các dang
ngôn ngữ tự nhiên, các hình vẽ, các ký hiệu, dạng số và các cấu trúc phức tạp bao
gồm nhiều dạng cơ bản khác nhau Mặc dù dạng tri thức dễ xử lý nhất là dạng sốnhưng trong thực tế nhiều tri thức không thé biéu diễn chính xác bởi một số, chang
hạn sai số trong đo đạc dẫn đến giá trị thu được là một khoảng nào đó, nhưng bản
thân khoảng này cũng hàm chứa sự không chính xác Hơn nữa, một số dạng tri thức
khác lại không thể biểu diễn được bằng khoảng hay số chính xác, ví dụ: mức độ già
trẻ của một con người, khả năng an toàn của một hệ thống, sự tiện dụng của một
thiết bị, v.v Khi đó, các tri thức này được biểu diễn bằng ngôn ngữ tự nhiên mà
cụ thể là giá trị một biến ngôn ngữ nào đó là thích hợp nhất
Theo cách tiếp cận đại số, miền giá trị của một biến ngôn ngữ có thể xemnhư một đại số sinh ra từ các khái niệm nguyên thủy bởi các phép toán một ngôi làcác gia tử Chẳng hạn, nhiêu, rất nhiều, ít, hơi it, là các giá trị chân lý được sinh
ra từ khái niệm nhiêu, it bởi các gia tử rat, hoi Xét giá trị hơi nhiêu trong tập các
giá trị chân lý trên Theo ngữ nghĩa thông thường hoi không phải là một phép toán
logic phủ định là nó chỉ làm giảm mức độ khang định của khái niệm nhiéw một ít
Nhu vậy hoi rõ ràng là một gia tử.
Hiện nay đã có nhiều nghiên cứu phát triển và ứng dụng thành công đại số
gia tử vào các bài toán phân lớp [2], [4], [7], các bài toán lập luận mờ [2] và các ứng
dụng điều khiển hệ thống [3] Trong bài viết này tác giả sẽ trình bày về DSGT với
ứng dụng trong việc xây dựng một bộ phân lớp mờ các trang web.
Trang 17ĐSGT được ra đời do đề xuất của N.C Ho và W Wechler vào năm 1990, là
một mô hình toán học về cấu trúc thứ tự ngữ nghĩa của miền giá trị của biến ngôn
ngữ Mỗi giá trị ngôn ngữ được biểu diễn bởi một phan tử trong một ĐSGT thíchhợp Chúng ta có thể định nghĩa một đại số gia tử như sau:
1.2 ĐỊNH NGHĨA ĐẠI SÓ GIA TỬ
Định nghĩa 1.1.1 [3]: Đại số gia tử là một đại số trừu tượng được ký hiệu:
AX = (X, G, C, H, 3)
Trong do:
Xià miễn giá trị của biến ngôn ngữ
G = [c*, e} là tập gdm hai phân tử sinh
C= (0, W, 1) là các hằng
H=H'UH là tập các gia tử
Ht = thị, hy, , hy} là tập các gia tử dương và hạ < hạ < < hp
H =({hị,h;, , hg} là các gia tứ âm và hị < hạ < <h„
với p,q là các số nguyên dương
Miền giá trị của biến ngôn ngữ X được sinh ra từ tập các phần tử sinh G bởi
sự tác động của các gia tử trong H Quan hệ thứ tự trên cấu trúc này được xác lập từ
ngữ nghĩa các từ ngôn ngữ Các giá trị 0, 7, W với ý nghĩa là phần tử bé nhất, phần
tử lớn nhất và phần tử trung hòa (neutral) trong X Ta gọi mỗi giá trị ngôn ngữ x €
X là một hạng từ (term) trong DSGT.
Trong H, các gia tử dương là những gia tử khi tác động thì có khuynh hướng
làm mạnh lên ngữ nghĩa của phần tử sinh nguyên thủy Các gia tử âm là những gia
tử khi tác động thì có khuynh hướng làm yếu đi ngữ nghĩa của các phần tử sinhnguyên thủy Ví dụ, nếu xem {True, False} là hai phần tử sinh nguyên thủy củabiến ngôn ngữ Truth thì với các gia tử (Very, Little} ta có thé nói Very là gia tử
dương vì True < Very True và Little là gia từ âm vì Little True < True.
Trang 18Nếu tập X và tập H là các tập sắp thứ tự tuyến tính, khi đó AX = (X, G, C, H,
J là DSGT tuyến tính Hơn nữa nếu được trang bị thêm hai gia tử giới hạn là } và
@® với ngữ nghĩa là cận trên đúng và cận dưới đúng của tập H(x) khi tác động lên x,
thì ta được ĐSGT truyền tính đầy đủ, ký hiệu AX = (X, G, H, 3; ở, <) Tuy nhiên
trong giới hạn của luận văn chúng ta chỉ quan tâm đến ĐSGT tuyến tính và mộtDSGT đặc biệt chỉ gồm có 2 gia tử còn được gọi là đại số hai gia tử (ĐS2GT), sẽ
được giới thiệu trong các mục sau.
Khi tác động gia tử h e H vào phan tử x e X, thì thu được phan tử ký hiệu
hx Với mỗi x e X, ký hiệu A(x) là tập tất cả các hạng từ w € X sinh từ x bằng cách
áp dụng các gia tử trong H và Viết u = hạ h„x, với hụ, , hy € H Biêu thức h, hpxđược gọi là một biểu diễn chính tắc của một hạng từ u đối với x nếu w = J„, h,x và
hị hịx # hị hịx với i nguyên va i <n Ta gọi độ dai của một hạng từ u là số gia tửtrong biểu diễn chính tắc của nó đối với phần tử sinh cộng thêm 1, ký hiệu /(w) hoặc
lui.
1.3 CÁC TÍNH CHÁT
1.3.1 Độ đo tính mờ
Theo trực giác trong ngôn ngữ tự nhiên, một từ hay cụm từ sẽ có một quan
hệ trên giá trị ngữ nghĩa đối với từ hay cụm từ với cùng phần tử sinh Ví dụ, cụm từ
Very True sẽ làm gia tăng giá trị hơn so với từ True Trong DSGT các gia tử cũng
thể hiện được mối quan hệ giữa các từ, cụm từ mà ở đó giá trị ngôn ngữ sẽ được xácđịnh bởi độ mờ của giá trị ngôn ngữ Ví du Very True sẽ có độ mờ thấp hơn True,
nghĩa là nó mang ý nghĩa chắc chắn hon so với True
Một cách tông quát hơn, chúng ta có thé thấy độ mờ hx luôn thấp hơn độ mờ
của x.
Nếu gọi H(x) là tập các phần tử được sinh ra bằng cách tác động liên tục cácgia tử lên phần tử x Thì ta có thể có các biểu thức sau:
(1) H(x) = { hịhạ hự Lhụ, hy hy CH: i e NJ
Trang 19(2) X = H(G)
(3) H(hx) CH), với Wh EH vax EX
(4) H(hx) H(kx) = Ønếu h, k e H va hx #kx, nghĩa là lân cận của cácphân tử có độ dài bằng nhau sẽ rời nhau
(5) A(x) = Unenui H(hx), trong đó toán tử I được định nghĩa là Ix = x, Vx €
X, nghĩa là lân cận của tat cả các phan tử có dang hx là một phân hoạch trên lân
cận của x.
Như vậy tinh mờ của x liên quan đến kích thước của H(x)
Định nghĩa 1.3.1.1 [1]: Cho AX = (X, G, C, H, 5) là một đại số gia tử Ánh xạ fm:
X 0, 1] được gọi là độ đo tính mờ của các hạng từ trong X nếu:
(1) fin là day đủ, tức là fin(c*) + fim(€) = 1 và Linen fm(hx) = fm(x),
vx eX
(2),fim(x) = 0, vá mà Hộ) = fox} Đặc biệt fin(0) = fin(W) = fin(1) = 0
Í ƒm() _ ƒmW) peg na, no Ta
(3) tw,y EX, th EH, TmG) = THỜ)” Tỷ lệ này không phụ thuộc vào x, y
và nó được định nghĩa là độ mo của gia tử h, ký hiệu ph).
Với định nghĩa như trên của độ đo tính mờ trên AX chúng ta có một số tínhchất sau:
Mệnh đề 1.3.1.1 (1): Néu goi fm là độ do tính mo trên X va yh) là độ mờ của các
gia tử h, thì ta có các biểu thức sau:
(1) m(hx) = d(h)jm(x), Vx eX
(2) fin(c*) + jm(c) = 1
(3) D-gsispiso fm(hic) = fm(c), với e € {c*, c}
(4) Š~q<i<p¡zo fm(hix) =fm(x), voix EX
(5) De gsis-1 ƒm(h,) = & và Yiciey ƒm(h,) = B, trong doa, > Ovaat ÿ = 1
Trang 20(6) Nếu x = hạh, ¡ hạc với e 6 {c*, e}là biểu diễn chính tắc của x thì fm(x)
= My) (Nn 1) t(hị)Jfim(c).
Vi dụ 1.3.1.1: Xét một dai số gia tử AX = (X, G, C, H, S) với G = (Nhiều, Ít) và H
= {Rat, Hoi} Bang việc tác động các gia tử thuộc H lên phần tử sinh thuộc G, ta có
thé có tập các biến ngôn ngữ
X' = (Ráti, Ít, Hoilt, HơiNhiều, Nhiều, RắtNhiêu) nêu chi tac động 1 lần và
ta Sẽ có
X''=/ RatRdtit, Rath, Hoikdtit, Ít, RdtHoilt, Hoift, HoiHoilt,
HoiHoiNhiéu, HoiNhiéu, RatHoiNhiéu, Nhiều, HơiRắtNhiễu,
RatNhiéu, RatRatNhiéu }nếu tác động 2 lần các gia tử lên các phan tử sinh
Giả sử fn(Nhiều) = 0.4, fin(/t) = 0.6, u(Rdt) = 0.48, (Hoi) = 0.52 Khi đó ta
có các giá tri tính được như sau cho các hạng từ sau:
không giúp ta có sự so sánh chắc chắn giữa hai biến ngôn ngữ Rdtit và Hoilt bởi vì
giá trị này phụ thuộc vào các giá trị ban đầu của các hàm độ đo tính mờ của cácphần tử sinh cũng như các gia tử Trong thực tế việc chọn các giá trị này sẽ đượcđiều chỉnh theo những tiêu chí mang tính thực nghiệm và rút kinh nghiệm để có sự
mô tả chính xác hơn Ví dụ trong thực tế nếu khoảng giá trị của RátNhiều được xem
là rộng hơn so với khoảng giá trị của HơiNhiêu thì chúng ta có xu hướng mô tả sự
Trang 21khác biệt nay bằng giá trị s(Rd) > (Hoi) Tuy nhiên các giá trị này đều phải thỏa
của các hạng từ này Đối với DSGT, giá trị định lượng của các hạng từ được định
nghĩa dựa trên cấu trúc thứ tự ngữ nghĩa của miền giá trị của các biến ngôn ngữ, cụ
thể là độ đo tính mờ của các hạng từ và gia tử Để tiện cho việc xác định hàm định
lượng ngữ nghĩa cụ thé, chúng ta sử dụng định nghĩa về ham dau như sau:
Định nghĩa 1.3.2.1 [I]: Hàm dấu Sgn: X — {-1, 0, 1} được xác định đệ quy như
sau, ở đây h,h" eH,c €{c*,cj},x eX:
(1) Sgn(c’) = -1, Sgn(c*) = 1
(2) Sgn(hc) = -Sgn(c) nếu h âm đối với c
(3) Sgn(hc) = Sgn(c) nếu h dương đối với e
(4) Sgn(h’hx) = -Sgn(hx) nếu h’hx # hx và h’ âm đối với h
(5) Sgn(h’hx) = Sgn(hx) nếu h'hx # hx và h’ dương đối với h
(6) Sgn(h’hx) = 0 nếu h'hx = hx
Trang 22Khái niệm âm, dương ở đây là dé chỉ ý nghĩa làm mạnh lên hay yếu lên ý
nghĩa của giá trị ngôn ngữ ban đầu nếu tiến hành tác động các gia tử lên giá trị ngônngữ đó.
Định nghĩa 1.3.2.2 [1]: Xét đại số gia tử AX = (X, G, C, H, s) với fin là độ đo tính
mờ trên X, pla độ do tính mo của gia tử trong H Khi đó hàm định lượng ngữ nghĩa 0: X— [0, 1] được định nghĩa đệ quy như sau:
Œ) 0W) = K = jjm(€), o(€) = K - afim(c) = Bfm(c),
v(c*) = K + afm(c*)
(2) (hips) = 064) + Sem(hpe) IZ) gn cqy Hed fmt) = cathy) gay fin(x)}
Trong đó: — ahjx) = z1 + Sgn(h,x)Sgn(h„h,x)(Ø — a], V7 e [-q, pI\(0}
Một khái niệm rất quan trọng làm cơ sở cho việc nghiên cứu và xây dựng các
mô hình ứng dụng về sau đó là khoảng tính mờ (fuzziness interval) của các khái
niệm mờ Trong DSGT, dựa trên độ đo tinh mờ fm, chúng ta sẽ định nghĩa khoảng
tính mờ của các hang từ Chúng ta cũng qui ước rằng đối với 2 tập U, V: US V thi
x<y, tw eUvà Vỹ eV.
Định nghĩa 1.3.2.3 [1]: Khoảng tinh mờ của các hang từ x € X, ký hiệu S(x), lamột đoạn con cua [0, 1], nó có độ dài bằng độ dài độ do tính mở |S(x)| = fim(x), vàđược xác định quy nạp theo độ dài của x như sau:
(1) Với độ dài của x bằng 1, tức lax € {c*, e2, khi đó | Sc )\ = fm(e),
I3(e`)I = fin(c*) và Hc) < He*) (2) Giả sử x có độ dain - 1, x = hy.jNy.2 hyc với e € {c*, c} và khoảng tính
mờ 3(x) đã được định nghĩa ở độ dài n-1 Khi đó tập các khoảng tính mo HX) = S(h„h„a hịc) là một phân hoạch của S{h„h, ¡ hịc), khoảng tính mờ của từ có độ dài n: x’ = h„hụ ¡ hịc, và thỏa mãn S(hạhụ„ hục)
= lfn(h„hụ,¡ hịc)| và có thứ tự tuyến tính tương ứng với thứ tự của tập
Trang 23[MaghyepoB Cy heggilyep RIC, , Npltgep hic} Tức là nếu hilin.p hye > hÿhụ,
pechye thì S(hịhụ.¡ hịc) > S(hÿhụ.¡ hịc), trong đó —q Si, j <p; ij #0.
Dé thuận tiện về sau, chúng ta ký hiệu 3,(x) là khoảng tính mờ của x có độ
sâu k (hay khoảng tinh mờ mức k).
X, là tập các hang từ có độ dài đúng k.
Rõ ràng X = Uz, Xx
Tập X, có thé được sinh ra bằng cách tác động k-/ gia tử lên các phan tử sinh
nguyên tử.
Vi dụ 1.3.2.1: Xét một đại số gia tử AX = (X, G, C, H, S) với G = (Nhiều, Ít) và H
= (Rat, Hơi), ta có thé suy luận ra từ ý nghĩa của các biến ngôn ngữ như sau: Hoi là
âm đối với Nhiều bởi vì HoiNhiéu làm giảm đi ý nghĩa của từ Nhiéu, hay Rất là
dương đối với ft vì Rá: làm mạnh lên ý nghĩa của ft
Mục đích của hàm dấu Sgn là dé cho chúng ta biết được khoảng 5# #x) sẽ
là khoảng phân hoạch bên trái hoặc bên phải trong S(hx) Thật vậy, với đại số gia tửtrên ta có các kết quả sau:
e Rái là dương với Hoi và dương với Rat Ngược lai Hoi là âm với Rất và
âm với Hơi.
¢ Rat là dương đối với Ít và dương đối với Nhiều Ngược lai Hoi là âm đối
với Nhiéu và âm đối với Ít
¢ _ Ta có bảng giá trị hàm dau của các hang từ:
Ham dâu của hạng từ | Tương đương Giá trị hàm dâu Sgn(Nhiễu) 1
Sgn(/t) -1
Sgn(RatNhiéu) Sgn(Nhiêu) 1
Sgn(Ratit) Sgn() -1
Sgn(RGtRdtNhicu) Sgn(RẩrNhiễu) 1
Trang 24Sgn(HơiHơili) -Sgn(Hoilt) -1
Bang 1.1: Gia tri của hàm dau đôi với các hạng từ
Ta có mối tương quan giữa hàm dấu đối với vị trí của các khoảng phân hoạch
như sau:
l
Soil) — -¬ ¬—~ = NS DE
<- 2 - xế Slt) ><= 5 (Nhiéu)
Hình 1.2: Mối tương quan giữa hàm dấu đối với vị trí các khoảng tính mờ
Giá trị của hàm định lượng ngữ nghĩa v(x) là điểm đầu mút của hai khoảngphân hoạch S(ñ.,x) và S(h)x).
Thực tế các biến ngôn ngữ nói chung và theo tiếp cận của đại số gia tử nói
riêng chỉ sai khác nhau các giá trị sinh nguyên thủy G = {c-, c+} và đây là đặc trưng
mang tính phô quát của DSGT Hơn nữa, tính độc lập ngữ cảnh của các gia tử và
Trang 25liên từ như AND, OR, giúp chúng ta trong nghiên cứu và tìm kiếm mô hình cho
các gia tử mà không phải quan tâm nhiều đến giá trị sinh nguyên thủy của các biến
ngôn ngữ Dựa trên những đặc trưng này, nhiều tác giả nghiên cứu và xây dựng các
mô hình ứng dụng với tập các gia tử hầu như giống nhau và chỉ gồm một số ít các
gia tử như trong các nghiên cứu [1], [2] [4] [5] [9].
Một ĐSGT chỉ gồm hai gia tử, một gia tử dương và một gia tử âm là đại số 2
gia tử (ĐS2GT) và chúng ta ký hiệu đại số hạn chế này là AX’
Bởi vì số lượng gia tử đã được hạn chế ở mức 2, do đó DS2GT có những ưu
điểm so với DSGT tổng quát Ví dụ đối với việc áp dung các phương pháp tìm kiếm
tối ưu tham số mờ gia tử, ĐS2GT giúp giảm không gian tìm kiếm bởi vì số tham số
mờ ít hơn; của phần tử sinh ƒin(c) và độ đo tính mờ của gia tử 4(h’) (bởi vì ƒm(c”)
= 1— fm(€) và g(h*) = 1 - ph’) ) Miền giá trị của biến ngôn ngữ X được giảmđáng kể, hàm dấu trong công thức 1.3.2.1 được tính trực tiếp mà không cần sử dụng
dạng truy hồi như sau:
Sign(x) = Sign(hy hyc) = (-1)“Sign(c),Trong đó NL(x) là số lượng các gia tử # có trong hạng từ x
Một đặc trưng quan trọng khác của DS2GT là chúng ta có thê xây dựng hệ
phân hoạch các khoảng tương tự của tập các hạng từ có độ dài không quá k thay thếcho tập X; và khẳng định được sự tồn tại của hệ này
Gọi X¿ là tập các hạng từ có độ dai từ I đến k Tập Xj) có thê được sinh rabằng cách tác động &' gia tử lên phan tử sinh nguyên tử, trong đó 0 <k’ <k Rõ
ràng X„) = X; UX; UV LX¿.
Trên cơ sở phân hoạch hệ khoảng tương tự, phương pháp sinh hệ luật mờ
được xây dựng với ngữ nghĩa gồm tập các hạng từ có độ dài không quá k Điều nàykhắc phục được hạn chế của DSGT tuyến tính thông thường là chỉ áp dụng với tập
hạng từ độ dài đúng k [1], [2], [9] Việc xây dựng hệ phân hoạch các khoảng tương
tự của tập các hạng từ Xj) giúp cho chúng ta có thé xác định được khoảng mờ của
từ và có thể biểu diễn giá trị biến ngôn ngữ thành các khoảng Khi đó ta có tập các
Trang 26khoảng tương tự mức k’ /ö¿{x): x e Xj} có thé được xác định từ các khoảng tính
mờ mức k’+2.
Vi dụ 1.4.1: Xét một đại số gia tử AX = (X, G, €, H, <) với G = (Nhiều, Ít} và H =(Rất, Hoi}, ta có:
Xo) = {0, Ri, i, Hi, W, Hn, n, Rn}
Trong đó i = Ít, n = Nhiều, R = Rat, H = Hơi
X, = {RRRi, HRRi, HHRi, RHRi, RHHi, HHHi, HRHi, RRHi, RRHn, HRHn, HHHn, RHHn, RHRn, HHRn, HRRn, RRRn}
Ta có mối quan hệ giữa các khoảng tương tự 6,(x) với các khoảng tính mờ
‹1(x) như sau:
1.5 KET LUẬN CHUONG 1
Chuong nay da trinh bay về DSGT, một mô hình toán học theo quan điểmđại số cho miền giá trị biến ngôn ngữ, các định nghĩa và tính chất của ĐSGT Sau
đó tác giả trình bày về DS2GT, một đại số hạn chế của DSGT, các tính chất đặctrưng của nó so với ĐSGT với nhiều ưu điểm đủ để sử dụng cho việc giải quyết bài
toán phân lớp dữ liệu Các công thức tính toán và các ví dụ minh hoa đã trình bay
được ý nghĩa cũng như cách áp dụng các tinh chất của DSGT và DS2GT trong việc
mô hình hóa theo quan điểm đại số cho các giá trị biến ngôn ngữ Tat cả các vấn đề
này là cơ sở dé ứng dụng trong các chương kế tiếp
Trang 27Chương 2 - Phương pháp xây dựng hệ
mờ dạng luật cho bai toán phân lớp
2.1 GIỚI THIỆU
Trong cuộc sống, con người đã tạo ra nhiều dữ liệu nghiệp vụ thông qua các
hoạt động thường nhật như lao động sản xuất, mua bán, trao đổi, nghiên cứu, khám
pha, Các dữ liệu này được tích lũy và có kích thước ngày càng lớn, trong đó
chứa nhiều thông tin ẩn dưới dạng những quy luật chưa được khám phá Chính vìvậy, một nhu cầu đặt ra là cần tìm cách trích rút từ các dữ liệu đó các luật về phânlớp dữ liệu hay dự đoán những xu hướng dữ liệu tương lai Những quy tắc nghiệp
vụ thông minh được tạo ra sẽ phục vụ đắc lực cho các hoạt động thực tiễn, cũng như
phục vụ đắc lực cho quá trình nghiên cứu khoa học Công nghệ phân lớp và dự đoán
dữ liệu ra đời để đáp ứng mong muốn đó
Thông qua chương này, tác giả muốn giới thiệu một phương pháp dé rúttrích, sinh ra một cách tự động các luật phân lớp từ các dữ liệu huấn luyện bằng
cách áp dụng DS2GT.
2.2 BÀI TOÁN PHÂN LỚP
Phân lớp dữ liệu (data classification) là xếp đối tượng dữ liệu vào một trong
các lớp đã xác định trước Bằng cách mô tả các dữ liệu đã được định nghĩa trước
hoặc thu được từ thực nghiệm về một dang mà từ đó chúng ta có thé áp dụng các
giải thuật và tiên đoán được lớp của những dữ liệu tương lai, chưa được thực
nghiệm mà chỉ dựa trên những dữ liệu mẫu đã cho.
Bài toán phân lớp là một trong những bài toán đặc trưng của lĩnh vực khai
phá dữ liệu được nhiều tác giả nghiên cứu và ứng dụng như Abony [6], Ishibuchi[10], [11], [12] [13] [14] Khotanzad [15], Nếu một số phương pháp phân lớp
đã được biết đến như là cây quyết định, mang no ron, phương pháp Bayes, tập
trung giải quyết bài toán với mục đích đạt hiệu quả phân lớp cao nhất thì phương
pháp dựa trên hệ mờ dạng luật (fuzzy rule-based classification systems - FRBCS)
Trang 28ngoài việc đạt hiệu quả phân lớp cao còn được nghiên cứu dé cung cấp cho ngườidùng mô hình phân lớp dễ hiểu và trực quan.
Chúng ta có thé phát biểu bài toán phân lớp như sau: Cho một tập gồm m
mẫu huấn luyện P = { (A, C) |i = 1, 2, m }, trong đó A; = (A¡, Ajz, « , Ain) lan
thuộc tinh của mẫu thứ i, A là các tập mờ cho trước và C; là nhãn lớp đã xác địnhcủa mẫu thứ i C; e C là tập gồm M phân tử, mỗi phan tử là tên của lớp xác định.Bai toán đặt ra là xác định lớp C; e C tương ứng với mẫu A; = (Aj), Ajo, Am) với
Jj> m là một mẫu chưa được huấn luyện.
Phương pháp giải bài toán phân lớp dựa trên FRBCS là xây dựng một hệ các
luật mờ để phân lớp, ký hiệu S, tức là:
S:U>C
Trong đó U = U; x U2 x x U, là tích Đề-các của các miền giá trị của n thuộc tinhcủa mẫu dữ liệu.
Hệ các luật mờ này biéu diễn cho tri thức về bài toán, nó không chỉ phản ánh
đúng với tập dữ liệu mẫu mà còn có khả năng dự đoán và cung cấp giúp cho ngườidùng phán đoán, ra quyết định Do đó, hệ luật phải tường minh, dễ hiểu đối với
người dùng.
Hệ luật mờ $ phải đạt các mục tiêu như hiệu quả phân lớp cao, tức là sốlượng các mẫu dữ liệu được phân lớp chính xác cao, số lượng các luật trong hệ Sphải nhỏ cũng như số các điều kiện của mỗi luật về trung bình phải ít Mục tiêu củahiệu quả phân lớp dé đảm bao cho hệ luật mờ S có tính đúng đắn cao mà vẫn dambảo được tính tường minh, các luật trong hệ luật mờ phải đơn giản và dễ hiểu đối
với người dùng và giúp cho quá trình phân lớp được thực thi nhanh chóng và hiệuquả Nếu dùng f,(S) là hàm đánh giá hiệu quả phân lớp, f,(S) là số luật và f,(S) là độ
đài trung bình của các điều kiện hay về trái của các luật trong hệ luật mờ S Thì mục
tiêu xây dựng hệ luật sao cho:
Jp(S) > max, ƒ(S) và ƒ,(S) > min (2.1)
Dé có thể xây dựng một hệ các luật mờ S giải quyết bài toán phân lớp, ta cần
mô hình hóa các luật phân lớp mờ như sau:
Trang 292.3 MÔ HINH MỜ DẠNG LUAT CHO BÀI TOÁN PHAN LỚP
Một luật mờ R, trong hệ luật mờ S$ được biểu diễn như sau:
Ry: IF xạ = Aq AND AND xạ, = Aqn THEN class Cụ (2.2)
Trong đó n là số các thuộc tính của mẫu, C, là nhãn phân lớp, g = 7, 2, , Ms; Ns là
số luật của hệ luật mờ Š; Agr A¿z, +» Aq là các tập mờ cho trước
Luật mờ R, có thể được phát biểu ngắn gọn như sau:
Ry: Ag => Cụ
Dé xây dựng hệ luật mờ S cho bài toán phân lớp với m mẫu huắn luyện thôngthường chúng ta tiễn hành hai bước sau:
Bước 1: Sinh luật mờ từ các mẫu huấn luyện
Bước 2: Chọn lọc và giữ lại những luật mờ thỏa mãn các điều kiện ràngbuộc để xây dựng S
Hệ luật mờ S được sinh ra cần phải thỏa mãn mục tiêu được đề ra ở (2.1) như
đã giới thiệu ở mục 2.2 Tuy nhiên trong thực tế ba mục tiêu được đặt ra không thểđồng thời đạt được Bởi vì khi chúng ta giảm số luật trong hệ luật phân lớp thì đồngnghĩa với việc giảm tri thức của bài toán dẫn đến sai số khi phân lớp là tăng lên,
ngược lại nếu số lượng luật quá nhiều cũng dẫn đến sự nhiễu loạn thông tin trong
quá trình phân lớp, chăng hạn nhiều luật với nhiều kết quả phân lớp khác nhau.Ngoài ra số lượng các điều kiện cũng ảnh hưởng đến tính phô quát hay cá thể của
luật, cụ thể nếu số lượng điều kiện ít sẽ làm tăng tính phô quát của luật và ngược lại
số điều kiện nhiều sẽ làm tăng tính cá thé của luật đó Tính phổ quát sẽ làm tăng khảnăng dự đoán của luật đối với các mẫu chưa được huấn luyện nhưng cũng đồng thờilàm tăng nguy cơ gây sai số lớn, trong khi đó nếu tính cá thể tăng làm tăng tínhđúng đắn của luật và giảm khả năng dự đoán của luật đó Do đó các phương phápgiải quyết bài toán xây dựng hệ luật mờ S cần phải có sự thỏa hiệp giữa các mục
tiêu này.
Trong [2], [6] [9], [10], [11] các tác giả mô hình hóa các luật theo (2.2) tuy
nhiên kèm theo nhãn kết quả là một giá trị hằng tượng trưng cho trọng số của luật
Trang 30giúp cho việc đánh giá chọn lựa các luật trong quá trình xây dựng hệ luật mờ đạt hiệu quả cao và thỏa mãn (2.1):
Ry: IF Xq) = Agi AND AND Xqy = A¿, THEN class Cụ with CF, — (2.3)
Trong đó CF, là trọng, số của luật R, được xác định trong khoảng [0, 1] Luật mờ R,
có thể được viết gọn lại như sau:
Ry Aq => Cụ with CF,
Trong [2], [9], [10], [11] các tác giả đánh gia các luật mờ qua độ tin cậy
c(A¿=>€Œ,) và độ hỗ trợ s(A,=>C,) bằng hai công thức sau:
XŒp € lớp Cq) HAg Xp) 5(Ag=>C,) = (2.5)
m
Trong đó HẠ,(X,) = Haga (Xp) " Hagn(Xpn)i Magi) là hàm liên thuộc của tập mờ cho trước Ag;
Độ tin cậy có thể được xem như là đánh giá trong tính hợp lệ của luật
A¿=>(Œ Nó cũng có thê dược xem như là sự xấp xỉ số học của xác xuất có điềukiện Độ hỗ trợ có thé được xem như là đánh giá cho độ bao phủ của mẫu huấn
luyện bởi luật Ag=>C,
Trọng số của luật được Ishubuchi giới thiệu trong [10] và [11] va chứngminh tính hiệu quả của trọng số của luật trong bài toán phân lớp Trọng số của luật
có thể được xác định bằng các phương pháp sau:
Độ tin cậy c(A¿=>Œ,) có thể được dùng như là trọng số CF, của luật
A,=>Œự Do đó ta có:
CF = c(Ag=>C,) (2.6)Trong đó / chi ra rang CF’, là định nghĩa đầu của CF Một định nghĩa khác củatrọng số của luật là :
CF", = c(A, => Cy) - Cave (2.7)
trong đó ca„« là độ tin cậy trung bình trên các luật mờ với cùng A, cho trước nhưng
khác lớp kết quả từ C,
Trang 31Cave = Gog Ua cpecg (Ay => Cụ)
Một định nghĩa khác dựa trên sự khác biệt giữa độ tin cậy lớn nhất và lớn nhì
đó là
CF", = c(A¿=> Cạ)— Cond (2.8)
trong đó C24 là độ tin cậy lớn nhì cho A, cho trước
Conq = max[c(A, => Cụ) | h = 1,2 M; Cị # Cy}
Chúng ta cũng có thể xác định được trọng số của luật bằng cách:
CF”, = c(A,=>C,) - Csum (2.9)
trong đó cs„„ là tông các độ tin cậy trên tat cả các luật mờ của các luật có cùng phân
điều kiện A, nhưng khác lớp kết quả C¿:
hiệu quả phân lớp cao hơn các định nghĩa còn lại Tuy nhiên trong giới hạn của luận văn, chúng ta không đi sâu vào việc phân tích này.
Phần tiếp theo tác giả sẽ trình bày một phương pháp xây dựng hệ luật mờ $
dựa trên hệ khoảng tương tự trong DS2GT mô hình mờ dạng luật (2.3) Tiếp theo
đó là phần trình bày phương pháp sàng dùng dé rút gọn hệ luật mờ được sinh ra và
cuối cùng là giải thuật di truyền lai và ứng dụng đê tôi ưu hóa việc chọn lọc các luật
trong hệ mờ S.
2.4 PHƯƠNG PHÁP XÂY DỰNG HỆ LUẬT MỜ
Dựa trên hệ khoảng tương tự của biến ngôn ngữ trong ĐS2GT đã được trìnhbày ở mục 1.4 Chúng ta sẽ xây dựng một giải thuật để sinh ra tập các luật mờ từ tậpcác mẫu huấn luyện dựa trên mô hình mờ được trình bày ở phần 2.3 Trước tiên, cáchang từ của tập X„¿ là các giá trị ngôn ngữ có chiều dài nhỏ hơn k được xác định bởi
các khoảng tương tự tương ứng 6,(x) bằng cách dựa trên các khoảng mờ mức k+2,
S1,z(x), như được trình bày trong mục 1.4 Trong đó giao điểm của hai khoảng mờ
Trang 32mức k+2 chính là giá trị định lượng ngữ nghĩa của biến ngôn ngữ có chiều dài k+/
tương ứng Ví dụ đối với đại số gia tử bao gồm hai phan tử sinh {/t, Nhiéu} và hai
gia tử {Hơi, Rat}, ta có mỗi tương quan giữa các khoảng tương tự ỏ;(x), giá trị hàm
định lượng ngữ nghĩa v(x) và khoảng tính mờ (x) như sau:
0 v(RR) %(HRì) (HH) v(RHi) Wu(RHn) o(HHø) 0(HRø) (RRn) |
Việc xác định các khoảng tương tự giúp cho chúng ta xác định được các
khoảng giá trị của biến ngôn ngữ, từ đó chúng ta có thể tiến hành việc mờ hóa hoặcgiải mờ các giá trị mẫu huấn luyện Trong quá trình sinh ra hệ luật mờ từ các mẫu
huấn luyện thì việc mờ hóa các giá trị mẫu là cần thiết vì trong mô hình hệ luật mờ
phân lớp được giới thiệu ở phần 2.3 thì biến ngôn ngữ là một giá trị mờ và các giá
trị điều kiện của luật là các tập mờ được xác định trước Do đó đôi với mẫu huấn
luyện là các giá trị thực nghiệm thu được thông thường là các giá trị rõ Để có thể
xử lý được, rút ra được tri thức từ các giá trị thực nghiệm này, chúng ta cần tiến
hành mờ hóa bằng cách gán các giá trị rõ tương ứng với một giá trị của thang ngôn
ngữ được xác định bởi ĐSGT hoặc DS2GT Cụ thể chúng ta sẽ gán giá trị thangngôn ngữ tương ứng với khoảng tương tự mà giá trị rõ đó thuộc về:
(A=xlx EX vad €6,(x)}
Trong đó A là nhãn cua thang ngôn ngữ được xác định, Xj, là miền xác định củabiến ngôn ngữ có chiều dai nhỏ hơn hoặc bằng k, ở là giá trị rõ của mẫu huấn luyện
6,(x) là giá trị khoảng tương tự của biến ngôn ngữ x trong tập Xu Phần tiếp theo
chúng ta sẽ xây dựng giải thuật để sinh ra tập luật từ tập mẫu huấn luyện theohướng tiếp cận trên:
2.4.1 Giải thuật sinh hệ luật mờ
Giải thuật 2.4.1.1 [2]
Trang 33Dữ liệu nhập:
- Tập dữ liệu mẫu P = { (dy, C) |i = 1, 2, N}, dị = (dị, dạ, đụ), C¡ €
C={C), C›, , Cụ), n là số thuộc tính, N là số mẫu hudn luyện, M là sốlóp.
- Bộ các tham số mờ của DS2GT cho mỗi thuộc tính: fim(€ ), u(t), i = 1,
3, ,Tn.
~ Mức phân hoạch k; hệ các khoảng tương tự trên miễn các thuộc tính
-_ Giới hạn độ dài tối đa của luật L
Kết quả:
- Tập các luật mờ So = {Rj, R›, Ryo}
Các bước tiến hành:
BỊ: Khởi tạo tập luật Sp = ØZ
B2: Tinh phân hoạch hệ các khoảng tương tự 64; dựa trên các giá trị định lượng ngữ nghĩa 0ụ,¡.
B3: Lặp trên mỗi mẫu dữ liệu (d, C;) e P và thực hiện như sau:
B3.1: Xác định giá trị ngôn ngữ Ay tương ứng với giá trị thuộc tính
dy e dj.
[Aj = Xụ¿* | xụ¡s € Xu; và dụ € Onl Xyj,i0), j = 1, 2, n}
B3.2: Xây dựng một luật nên có dạng như sau:
IF x, = Ai AND x2 = Aj AND AND x, = Aj, THEN lớp C;
Trong đó x = (X), Xa, , X„) là một vector mẫu n chiều trong miễn xác
định của bài toán.
B3.3: Sinh ra tất cả các luật có độ dài nhỏ hơn hoặc bằng L như sau:
IFExu = Ai, AND xị; = Aig AND AND xx = Aix THEN lớp C;
Trong đó l St, <tf;< <St¿<n, ISk<L.
Số các luật sinh ra được ở bước này sẽ là Mi XãB3.4: Voi mỗi luật sinh ra ở B3.3 có dang A; => C;, tính độ tin cậy và
độ hỗ trợ của mỗi luật: c(A, => C;) và s(A; => C))
B3.5: Bồ sung vào tập luật So luật A, => C¡ nếu luật thỏa mãn
Trang 34=> €¡) = max{ c(A; => Cụ) với h = 1, 2, m }
Nếu có nhiễu hơn một luật thỏa mãn thì chọn ngẫu nhiên trong cácluật đó.
B4: Trả về tập Sp
2.4.2 Rút gọn hệ luật mờ bằng phép sàng
Chúng ta nhận thấy thuật toán này sinh ra các luật có độ dài về trái từ 1 đếngiới hạn L bằng cách lấy tổ hợp các điều kiện trong về trái của luật sinh ra từ mẫuhuấn luyện có ø thuộc tính Do đó thuật toán này sẽ chịu ảnh hưởng của sự bùng nỗ
tô hợp khi số thuộc tính lớn, hệ luật sinh ra có thé chứa một số lượng lớn các luật.Hơn nữa, hệ luật sinh ra bao gồm các luật có độ dài không giống nhau, từ một luậtnền ban đầu Do đó hệ luật sẽ chứa nhiều luật dư thừa bởi tính lặp lại các điều kiệncủa luật do phép lấy tô hợp Phần này tác giả sẽ trình bày phương pháp rút gọn hệluật mờ bằng phép sàng và ứng dụng dé rút gọn số lượng luật được sinh ra trong hệ
luật mờ khởi đầu Sy Có hai phép sàng được dé xuất là sàng cân bằng và sàng không
cân bằng
Đối với phép sàng cân bằng thì chúng ta chia nhóm các luật trong Sy theo
nhãn phân lớp là phan kết luận của luật, như vậy chúng ta có M (M là số lớp) nhóm
luật Chọn ra trong mỗi nhóm một số lượng luật như nhau sao cho các giá trị của
tiêu chuẩn sàng từ cao xuống thấp Phương pháp này yêu cầu chon ra một hệ luật $*
với số luật xác định trước, giả sử là Ngx Khi đó nếu Ns: chia hết cho M, thì tại mỗinhóm chúng ta sẽ lấy NMsx⁄M luật, ngược lại chúng ta sẽ lấy [Ns:/M] luật, trong đó [x]
ký hiệu cho phần nguyên của x Còn lại Ms: - M.[Ns:/M] luật sẽ được chọn theo giátrị tiêu chuẩn sàng từ cao xuống thấp trên tất cả các nhóm
Phương pháp sàng cân bằng sẽ không phù hợp đối với tập mẫu không cân
bằng số mẫu giữa các lớp Do đó phép sàng không cân bằng sẽ chọn ra các luật củamỗi nhóm tỷ lệ thuận với số mẫu trong lớp đó Nghĩa là lớp nào có nhiều mẫu sẽđược ưu tiên hơn các lớp có ít mẫu huấn luyện Giả sử te là tỷ lệ số mẫu dữ liệuthuộc lớp C trong tập mẫu, khi đó số luật được chọn trong nhóm của lớp C sẽ là
tc [Ns-/M] luật.
Trang 35Các tiêu chuẩn sàng thường dùng là:
-_ Tiêu chuẩn sàng theo độ tin cậy của luật: SR! = c(A„ => Cy)
- Tiéu chuẩn sang theo độ hỗ trợ của luật: SR’ = s(Ay => C,)
- _ Tiêu chuẩn sang dang tích: SR? = c(A„ => Cy).8(Aq => Cy)
Trong [2], tác giả đã chỉ ra rằng tiêu chuẩn sang SR’ cho kết quả độ chínhxác phân lớp thấp hơn nhiều trong khi độ dài trung bình của hệ luật lại cao hơn so
với hai tiêu chuẩn còn lại (SR? và SR’) Trong đa số các trường hợp, kết quả phânlớp của hai tiêu chuẩn sàng SR? và SR? là như nhau Tuy nhiên trong một số trường
hợp tiêu chuẩn sàng SR’ sẽ đạt hiệu quả cao hơn, điều này đã được phân tích trong
[12].
2.5 TOI UU HE LUAT
Tập luật khởi đầu sinh bởi giải thuật 2.4.1.1 và áp dung phương pháp sàng
dựa trên tiêu chuẩn là độ tin cậy, độ hỗ trợ hoặc tích của chúng; tuy đã được rút gọnđáng kể nhưng vẫn còn chứa các luật dư thừa, nghĩa là các luật mà hiệu quả phânlớp của nó không cao Bởi vì lấy tô hợp các thuộc tính về trái của các luật cơ sởlàm bùng nỗ một số lượng lớn các luật Và việc sàn lọc dựa trên tiêu chuẩn đánh giá
độ quan trọng của luật vẫn chưa hoàn toàn đảm bảo việc loại bỏ được các luật màhiệu suất phân lớp của chúng là thấp Hay nói cách khác việc giữ lại các luật có giátrị tiêu chuẩn cao nhất vẫn chưa khẳng định được cho các mục tiêu đã đề ra ở (2.1)
là hiệu suất phân lớp cao và độ dai của các luật là nhỏ
Giải thuật di truyền là một giải thuật tìm kiếm heuristic mô phỏng quá trìnhtiến hóa của tự nhiên Thông thường giải thuật này được dùng đề tìm kiếm cácphương án tối ưu cho bài toán tìm kiếm Giải thuật di truyền là một bộ phận của giải
thuật tiến hóa, ở đó chúng ta có thể tìm ra các phương án tối ưu bằng cách mô
phỏng các quá trình tiến hóa của tự nhiên như thừa kế (inheritance), đột biến(mutation), chọn lọc (selection) và trao đổi chéo (crossover)
Trong [2], [6], [7], [9], [15] các tác giả đề xuất sử dung giải thuật di truyền
lai để tối ưu hóa hệ luật mờ được sinh ra Giải thuật di truyền lai kết hợp giải thuật
di truyền với sự tiến hóa của tự nhiên và sự mô phỏng của kỹ thuật tôi luyện mà
Trang 36trong đó nhiệt độ tôi luyện được giảm từ từ để đạt đến một trạng thái rắn vững bền
của cấu trúc vật chất Kỹ thuật tôi luyện xử lý bằng cách giảm dần nhiệt độ của lò
nung đến khi vật chất đông lại và không có sự thay đổi nào xuất hiện nữa thì dừng.Việc kết hợp giải thuật di truyền với kỹ thuật tôi luyện cho phép việc tìm kiếm kếtquả tối ưu được thực hiện trong một thời gian được xác định và kiểm soát được chỉphí cần thiết của việc tìm kiếm phương án gan tối ưu của giải thuật di truyền Giúp
cho chúng ta kiểm soát được sự cân bằng giữa chỉ phí tiến hành tìm kiếm và kết quả
tối ưu của phương pháp
2.5.1 Hàm mục tiêu của giải thuật
Mục tiêu áp dụng giải thuật di truyền là để tìm một tập con Š của tập $%” màchúng ta đã xây dựng được trong bước xây dựng tập luật khởi đầu và áp dụng phépsàng với một hiệu suất cao, đơn giản và dé hiểu, mục tiêu này phù hợp với tiêu chí
(2.1) được đặt ra cho bài toán phân lớp dữ liệu Ví dụ tìm một hệ luật mờ con có độđài trung bình J, từ hệ luật mờ Š” mà đạt hiệu suất cao và độ dài trung bình của các
luật là nhỏ Một cách tổng quát N, << Ns: = IS” Hiệu suất phân lớp của S được đobằng phần trăm của các mẫu của dữ liệu thực nghiệm được S phân loại chính xác,được ký hiệu bằng perf(S):
perf(S) = CORR(S, P)ASI
trong đó CORR(S,P) là số các mẫu trong P mà S phân hoạch chính xác, dùng
phương pháp lập luận mờ đã xác định Trong phạm vi của đề tài, tác giả sẽ giớithiệu hai phương pháp lập luận mờ: phương pháp một luật thắng (single winner) vàbình bầu theo trọng số (weight voted) ở phần tiếp theo của chương
Độ dai trung bình của các luật trong S được ký hiệu là avg(S)
avg(S) = 5 Sres tength(r)
trong đó length(r) là số các điều kiện của luật r cho trước
Vấn đề mà giải thuật di truyền cần giải quyết là cực đại hóa giá trị củaperf(S) và cực tiểu hóa giá trị của avg(S)
Chúng ta ký hiệu hàm mục tiêu:
Trang 37Fitness(S) = w;(1⁄avg(S)) + w2.perf(S), wị + w2= 1 (2.10)
Khi đó mục tiêu của giải thuật di truyền là tìm một tập S là tập con của Sp sao cho
cực đại hóa giá tri của ham Fitness.
2.5.2 Giái thuật đi truyền lai
Dé có thé áp dụng giải thuật di truyền lai, chúng ta mã hóa mỗi cá thé là một
tập luật con của Ss, ky hiệu là p; Mỗi gen của cá thể là một luật được chọn trong các
luật của S” Mỗi gen của cá thể được mã hóa bằng một số thực trong đoạn [0, 1],biểu diễn chỉ số của luật được chọn trong S”, ký hiệu số thực này là &; cho gen thứ j
Luật tương ứng được chon tại vị trí thứ j của cá thé p; có chỉ số trong tập S* là
round(g,lS”l) (hàm round(.) để làm tròn thành số nguyên) Trường hợpround(g; IS”) = 0, tức là không có luật được chọn Phương pháp mã hóa này có thé
có hai gen gj; và gj khác nhau (; # /z) nhưng cùng biểu diễn một chỉ số luật đượcchọn, khi đó chúng ta chỉ lấy một trong số chúng Hệ luật S; tương ứng với cá thé p;
được xác định như sau:
Si= {Rel gj € pp k= round(g;\SỈI), k > Ova Ry e S”}
Do đó một cá thé sẽ được biểu diễn bằng một mang các phan tử nguyên, magiá trị của mỗi phần tử sẽ định danh của luật tương ứng đã được mã hóa bởi gen
Trang 38Giả sử các luật trong tập các ứng viên được sắp xép theo thứ tự giảm giần
theo giá trị của hàm mục tiêu Fitness Thành viên thứ i sẽ được chọn cho thế hệ kế
tiếp với một xác suất như sau:
To là nhiệt độ khởi đầu
Tị = Ton là nhiệt độ tôi luyện của thé hệ thứ k, 0 < œ < 1
k=1, 2, , G| G là số lan tiến hóa
6
Teng = Tọ.@
2.5.2.2 Phép trao đối chéo
Ký hiệu: SGA_Crossover.
Đối với hai ứng viên của giải thuật, sẽ xảy qua quá trình trao đổi hai đoạn
của hai ứng viên đó với nhau Ở đây ta có thé hiểu là trao đổi các điều kiện giữa các
luật Để sinh ra hai ứng viên, hai luật mới Các cách hiện thực sau có thể được áp
dụng cho giai đoạn này:
- Trao đổi chéo đơn giản: Đối với một ứng viên X, bằng ký hiệu XI; ta mô tả
cho phần đầu của ứng viên đó cho đến vị trí thứ ¡ và bằng ký hiệu ;lX ta mô tả cho.phan cuối của ứng viên đó bắt đầu từ vị trí (i+/) đến cuối Chúng ta có thể hiểu XI;
là phần bao gồm điều kiện thứ nhất cho đến điều kiện thứ ¿ của luật và ngược lại ;ÌX
là phần bao gồm điều kiện thứ (¡+7) cho đến điều kiện cuối của luật Hai luật mới
được sinh ra sau khi áp dụng phương thức trao đôi chéo này sẽ có dang
U=XI,AND,¡\Y và V= YI; AND |X
- Trao đổi chéo số hoc: Chọn một số thực a bất kỳ trong đoạn [0, 1] Các thế
hệ con của thế hệ bố mẹ X, Y sẽ có dang
U=aX+(l-a)Y vàV=(1-a)X+a.Y
Trang 39Trong đó a.X có nghĩa là chúng ta lấy [a.IX1] điều kiện đầu tiên từ luật ứng viên X.
- Trao đổi chéo số học mở rộng: thực chat là sự kết hợp của hai phương pháp
trao đôi chéo ở trên
U =a.X\; + (1-a).Y|; AND a.j|X + (T-a).,|Y
V = (1-a).ÄXI; + a.Yl; AND (1-a).\X + a.|Y
2.5.2.3 Phép đột biến
Ký hiệu: SGA_Mutation.
Gia sử gen g; được cho trong khoảng [L,, Uj] thi g; được đột biến dé sinh ragen g;’ được tính như sau, với được chọn ngẫu nhiên trong đoạn [0, 1]:
¡ + z.(gi— Li) néuu < 0,5
{i + £(U,~ gi) néuu>0,5
Là phương pháp thay thế bố mẹ bằng các cá thể con, mỗi cá thể con sẽ cạnh
tranh với cá thé tốt nhất trong hai cá thể bố mẹ Gọi Spi» Sp2» Sc tương ứng là giá trịhàm mục tiêu của hai cá thể bố mẹ và cá thể con, đặt g* = max{&p\, 8,2}, khi đó cáthể con được chấp nhận với xác suất p = min{1, e '**°" 1, Trong trường hợp cáthể con không được chấp nhận, cá thé bố mẹ tương ứng với g* được chấp nhận đềđưa vào thé hệ tiếp theo
2.5.2.5 Giải thuật di truyền lai
Giải thuật 2.5.2.1 [2]
Dữ liệu nhập:
-_ Tập dữ liệu mẫu P = { (dy C) |i = 1, 2, N}, di = (din dạ, đụ), Ci €
C={C), C›, , Cụ), n là số thuộc tính, N là số mẫu huấn luyện, M là sốlớp.
Trang 40- Hệ luật mo S` được sinh ra từ giải thuật 2.4.1.1 và áp dụng phép sàng để
đơn giản hóa hệ luật.
~ Giới hạn ràng buộc số luật tối da cần chọn tối wu: Nay
- Trọng số cho các mục tiêu của hàm thích nghỉ (2.10): 0 < w), wạ < 1, w)
+w2= 1.
Két qua:
- Hệ luật mở tối tru Sop
Các bước tiến hành:
BI: Khởi tạo quân thể xuất phát gâm MN cá thể Popo = Í Po,t Po ++» Po.np
}-Ký hiệu py; là cá thể thứ i của thế hệ thứ k, là sự mã hóa của tập chỉ số luật đượcchọn từ SẺ N„ là kích thước quan thé tại mỗi thé hệ trong giải thuật di truyén lai
B2: Với mỗi cá thể po € Popo, tính độ phù hợp Fit(po,) theo công thức (2.10)
và tính tham số nhiệt ban đầu:
B3: Dat k = 0 Lap theo mỗi k cho đến khi k = ma, Pope = {Pir Pi» -.-:
PLup} và thực hiện các bước sau:
B3.1: Tính tham số nhiệt của thé hệ thứ k+1, T,,¡ = &.T;, trong đó
œ< llà hệ số giảm nhiệt độ (thường chon a = 0.7)
B3.2: Tạo quan thé mới Popys1 cho thé hệ k+1 như sau:
Lặp theo ¡ cho đến khi |Popysil = Np,
Chon cặp cá thể bó mẹ Pq € Pop, sử dụng phép chọn lọc
SGA_Selection(Popy Tị.¡) Sau đó thực hiện các phép lai ghép, độ
biến và thay thé trên cặp bố mẹ này bằng các phép SGA_Crossover,SGA_Mutation, SGA_Replacement dé tạo cặp cá thé mới p; ạ và đưa
vào Popy¿.