Tìm hiểu một số phương pháp phân cụm mờ và ứng dụng vào phân tích thông tin rủi ro trong quản lý thuế doanh nghiệp

Khi đĩ DAvemax4” được định nghĩa như sau: umin + umax Davemax 41 = 5 Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của X mà tại đĩ nĩ phù hợp hay tương thích với n

Trang 1

BO GIAO DUC VA DAO TAO

ĐẠI HỌC HUẾ

TRƯỜNG ĐẠI HỌC KHOA HỌC

NGUYÊN TRUNG HIẾU

TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP

PHAN CUM MO VA UNG DUNG VAO PHAN TICH THONG TIN RUI RO TRONG

QUAN LY THUE DOANH NGHIEP CHUYEN NGANH: KHOA HOC MAY TINH

MA SO: 8.48.01.01

LUAN VAN THAC SI KHOA HOC DINH HUGNG UNG DUNG

NGƯỜI HƯỚNG DAN KHOA HOC TS NGUYEN CONG HAO

Thừa Thiên Huế, 2020

Trang 2

Lkhix €A

As (x) = (1.1)

0 khix €A

Mic da Aa va A la hai déi tuong toan hoc hoan toan khac nhau, nhung chung đều biểu diễn cùng một khái niệm về tập hop: x € A khi va chi khi Aa (x) = 1, hay x thuộc vào tập A với “độ thuộc vào” bằng 1, vi vay ham Aa duoc gọi là hàm đặc trưng của tập A Như vậy tập hợp A co thể được biểu thị bằng mot ham ma gia tri

của nĩ là độ thuộc về hay đơn giản là độ thuộc của phần tử trong X vào tập hợp A:

Néu Aa (x) = 1 thì x € A với độ thuộc là 1 hay 100% thudc vao A, con néu Aa (x) =

0 thi x £ A với độ thuộc là 0 hay khơng thuộc vao A

1.1.1 Khái niệm tập mờ

Định nghĩa 1.1 Cho một tập vũ trụ X Tập hợp A~ được xác định bởi đẳng thức: A“={z(u)/u:u€X,/-(u) €[0, I]} được gọi là một tập hợp mờ trên tập X

Biến z lẫy giá trị trong X được gọi là biển cơ sở và vì vậy tập X cịn được gọi là tập tham chiếu hay miễn cơ sở

Hàm ¿4~ : X [0 1] được gọi là hàm thuộc (membership function) và giá tri a-{0) tại u được gọi là độ thuộc của phan tử u, thuộc về tap hop mo A” Néu khơng

gây nhằm lẫn, hàm thuộc a- cũng được ký hiệu là A“() nếu biến cơ sở khơng biểu thị hay A*(u) nếu biến u xuất hiện

Lưu ý rằng về phải của định nghĩa A~ là một tập kinh điển và do đĩ định nghĩa

trên là hồn chỉnh họ tất cả các tập mờ trên miễn cơ sở X được ký hiệu là FX),

F(X) = {wa XD [0, 1] } = [0, IP}

Cĩ nhiều cách biểu diễn hình thức một tập mờ trong trường hợp X là một tập

hữu hạn đếm được hay vơ hạn liên tục tập mờ A“ cĩ thể được biểu diễn bằng các

biểu thức như sau:

Trong trường hợp X hữu hạn, X = {u¡ :1= l1,2, }, ta cĩ thể viết:

Trang 3

(cực đại tồn phần), ký hiệu giá trị khử ở của 4“ theo phương pháp cực đại trung bình là DAvemax(A^) Khi đĩ DAvemax(4”) được định nghĩa như sau:

umin + umax Davemax (41) = 5

Ý tưởng của phương pháp này là chúng ta chỉ quan tâm đến các giá trị của X mà tại đĩ nĩ phù hợp hay tương thích với ngữ nghĩa của tập mờ 4” nhất tại đĩ độ

thuộc là cực đại tồn phân, những giá trị khác của X mà tại đĩ độ thuộc nhỏ hơn 1 đều bị bỏ qua Vì vậy, một khả năng lựa chọn giá trị khử mờ là giá trị trung bình của

giá trị nhỏ nhất và giá trị lớn nhất tại đĩ độ thuộc vào tập mờ là lớn nhất đĩ chính là

lý do người ta gọi phương pháp khử mờ này là phương pháp cực đại trung bình b) Phương pháp cực đại trung bình cĩ trọng số

Ý tưởng của phương pháp này là tìm những đoạn tại đĩ hàm thuộc /4 đạt

cực đại địa phương, nghĩa là tại các giá trị của miễn cơ sở mà độ thuộc của chúng đạt cực đại địa phương Nĩi khác đi các giá trị đĩ của u thuộc về tập mờ 4“ với độ tin cậy cĩ độ trội nhất, các giá trị như vậy cần được tham gia “đĩng gĩp” vào việc

xác định giá trị khử mờ của tập 4F với trọng số đĩng gĩp chính là độ thuộc của chúng vào tập 4” Chúng ta chọn cách đĩng gĩp như vậy bằng phương pháp lấy trung bình cĩ trọng số (weighted average maxima method) vì vậy cách tính giá trị khử mờ của tập mờ 4” như sau:

Xác định các giá trị của u mả tại đĩ hàm thuộc /4~ đạt giá trị cực đại địa

phương ký hiệu zmin; và mai là giá trị nhỏ nhất và lớn nhất trong các giá trị của X

ma tai do ham thuộc đạt cực đại địa phương, giá trị trung bình cộng của ¡wim¡ và

umaxi sẽ được ký hiệu là „avemaxi trong đĩ chỉ số 7 chỉ nĩ là giá trị tương ứng với

giá trị cực đại địa phương thứ 7

Giả sử hàm thuộc #4 cĩ m giá trị cực đại địa phương, ? = 1, 2, , 7

Khi đĩ giá trị khử mờ của tập mờ 4ˆ được tính theo cơng thức trung bình cộng cĩ trọng số như sau:

m -(uavemax) uavemax

Dự w-AveMax = diy dig XZ, u(wavemax)

Trang 4

Điều kiện dừng: các trọng tâm của cụm khơng thay đổi - Đánh giá thuật tốn:

Độ phức tạp tính tốn là O((3»kđ) z 7°) Trong đĩ, ø là số đối tượng dữ

liệu, là số cụm dữ liệu, đ là số chiều, 7 là số vịng lặp, 7 là thời gian dé thực

hiện một phép tính cơ sở như phép tính nhân, chia

- Ưu điểm: K-means phân tích phân cụm đơn giản nên cĩ thê áp đụng đối với

tập dữ liệu lớn

- Nhược điểm: K-means khơng khắc phục được nhiễu và giá trị & phải được

cho bởi người đùng chỉ thích hợp áp dụng với dữ liệu cĩ thuộc tính số và khám phá

ra các cụm cĩ dạng hình cầu

b) Thuật tốn K_MEDOIDS (PAM)

Giải thuật K-means rất nhạy với các phần tử ngoại lai, do vậy một đối tượng

giá trị cực lớn về cơ bản sẽ làm thay đổi tâm cụm và cĩ thể bĩp méo phân bồ của dữ

liệu ban đầu

Tâm cụm khơng cĩ phần tử ngoại lai Tâm cụm khi cĩ phản tử ngoại lai

Hình 2.4: Sự thay đơi tâm cụm trong K-means khi cĩ phân tử ngoại lai Ý tưởng của K-medoids thay vì lấy giá trị trung bình của các đối tượng trong

cụm như một điểm tham khảo, K-medoids lay một đối tượng đại diện trong cụm, gọi là međọd nĩ là điểm đại diện được định vị trung tâm nhất trong cụm Do vậy,

phương pháp phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hố tổng các độ khơng tương đồng giữa mỗi đối tượng với điểm tham khảo tương ứng của nĩ điểm này thiết lập nên cơ sở của phương phap K-mediods

Trang 5

Bang 3.1: Bang 3.2: Bang 3.3: Bang 3.4: Bang 3.5: DANH MUC BANG BIEU Trang Mơ tả thơng tin các chỉ tiêu các cột dữ liệu thuộc tập dữ liệu J1 HỤE2019:5]SXeserssgeicniciotittibtÐEttlefÐttflGGEIESIGENISIIGHSNISUSMSINEAIGuB3x0ninai 53 Kết quả tính F với số cụm e = [3,Š] -©22222222222221211222122112112 xe 57

Kết quả phân cụm doanh nghiệp trên tập dữ liệu THUE2019.xlsx 57 So sánh kết quả phân cụm dữ liệu THUE2019.xlsx với thơng tin rủi ro vi phạm thuế 22: 2s 221221122112111211111211111121121121121222222 re 58

Xác định doanh nghiệp thuộc cum 2.0 ccc eececeeeeeeeeeeneeneeseeeeeens 59

Trang 6

Hinh 1.1: Hinh 1.2: Hinh 2.1: Hinh 2.2: Hinh 2.3: Hinh 2.4: Hinh 2.5: Hinh 2.6: Hinh 2.7: Hinh 2.8: Hinh 2.9: Hinh 2.10: Hinh 2.11: Hinh 2.12: Hinh 3.1: Hinh 3.2: Hinh 3.3: Hinh 3.4: Hinh 3.5: Hinh 3.6: DANH MỤC HÌNH Trang Biểu diễn hàm số Âa 22222 22122212211221211211211222222 e6 3 l1] -daaii.A 11

Ví dụ về phân cụm dữ liệu . S2: Seo 16

Ví dụ phân cụm các ngơi nhà dựa trên khoảng cách 18

Vi dụ phân cụm các ngơi nhà dựa trên kích cở ccccccsccsc°: 18

Sự thay đổi tâm cụm trong K-means khi cĩ phần tử ngoại lai 24 Phân cụm phân cấp Top-down và Bottom-up 2ss22szs2szszsccz 26

Liên kết đơn 5c 222221 t2 HH re Ø7 kể KƠNHÏinunnunsgnsnrntnottiDnfingotDERHGHEJ004000DB0/080000010000000005700:008.701N00910000n80 27

Khái quát thuật toan CHAMELEON

Cấu trúc phân cụm dựa trên lưới - ¿+ sc St ‡sEsrstxsreerrerrrrsres Vi dụ phân cụm dựa trên mơ hình [Š] c5: 5S ‡sxsvsrxsrrersrrsres 33 Quá trình ước lượng số cụm tối ưu dựa trên độ chồng và độ nén của

dỮ THẾ 20106600115 SLTDEBSEGNBEEEEHEUEEIEHEEETEEGSIEERSBEHEEISDSNSERSHBIPSEplleell 46 Đề xuất phương án lựa chọn nhĩm doanh nghiệp rủi ro vi phạm thuế cao 49

Trang 7

DANH MUC CAC KY HIEU VA CAC TU VIET TAT TIENG VIET

Viết tắt Thuật ngữ Tiếng Việt Giải thích

GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng MST Mã số thuế Mã số thuế doanh nghiệp HTM Hàm mục tiêu DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TAT TIENG ANH

Viết tắt Thuật ngữ Tiếng Anh Giải thích

FCM Fuzzy C-Means Một thuật tốn phân cụm mờ EM Epsilon Giá trị mục tiêu tối thiểu CURE | Clustering Using Representatives | Phan cum dữ liệu sử dụng đại diện

KFCM | Kernel Fuzzy Clustering Means Phương tiện phân cụm mờ PAM Partitioning Around Methoids Phân vùng xung quanh Methoids

STatistical Information Grip pak

Trang 8

MO DAU

Nộp thuế vừa là trách nhiệm vừa là nghĩa vụ của mỗi cơng dân để gĩp phần xây dựng đất nước Đề tránh xảy ra các vi phạm về nghĩa vụ của đối tượng nộp thuế gây thất thốt nguồn thu cho ngân sách, tạo sự bình đẳng và cơng bằng xã hội về nghĩa vụ nộp thuế thì cơng tác thanh, kiểm tra thuế cần tăng cường hơn nữa nhằm ngăn ngừa, phát hiện và xử lý kịp thời những vi phạm vẻ thuế Việc thanh, kiểm tra

cần hiện đại hĩa từ khâu quản lý thuế, đặc biệt là trong thời kỳ 4.0 như hiện nay thì

các hành vi trốn tránh nghĩa vụ nộp thuế ngày càng tỉnh vi Với tính chất đa dạng và phức tạp của dữ liệu trong kho dữ liệu người nộp thuế, cần thiết phải cĩ hướng nghiên cứu và cách tổ chức các kho dữ liệu để trích xuất thơng tin phù hợp Phân cụm là một trong những phương pháp nghiên cứu phơ biến hiện nay, và phân cụm mờ là cơng cụ hữu hiệu trong các bài tốn phân tích thơng tin

Mục tiêu của phân cụm là chia nhỏ các đối tượng vào các cụm sao cho các

đối tượng cùng cụm là tương đồng với nhau nhất Phân cụm cĩ nhiều ứng dụng trong thương mại, giúp các nhà cung cấp biết được nhĩm khách hàng quan trọng cĩ các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu trong cơ sở dữ liệu khách hàng Phân cụm mờ là phương pháp phân cụm đữ liệu mở rộng trong đĩ mỗi điểm

dữ liệu cĩ thể thuộc về hai hay nhiều cụm với các gia tri ham thuộc tương ứng Năm 1969, Ruspini[9] đã giới thiệu khái niệm phân hoạch mờ để mơ tả cấu trúc của một

cụm mờ, đến năm 1973, Dunn[10] đã mở rộng phương pháp phân cụm và đã phát triển thuật tốn phân cụm mờ, ý tưởng của thuật tốn là xây đựng một phương pháp

phân cụm mờ dựa trên tối thiểu hĩa hàm mục tiêu Sau đĩ, Bezdek[8] đã cải tiến và

tổng quát hĩa hàm mục tiêu mờ bằng cách thêm trọng số mũ, cho đến nay cĩ rất nhiều biến thể của phân cụm mờ được ứng dụng trong các bài tốn khác nhau

Mục tiêu của đề tài là ứng dụng thuật tốn phân cụm mờ trong phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một cơ sở đữ liệu mẫu về thơng tin tờ khai thuế,

Trang 9

dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng phương pháp phân cụm mờ hệ thống phân tích sẽ được triển khai xây dựng và thử nghiệm kiểm chứng

Các phần chính trong luận văn:

Chương 1: Tổng quan lý thuyết tập mờ

Chương này giới thiệu một cách khái quát nhất về lý thuyết tập mờ, các giai đoạn của tập mờ trên dữ liệu, biến ngơn ngữ và các phép tốn trên tập mờ

Chương 2: Một số phương pháp phân cụm mờ

Chương này sẽ giới thiệu về phân cụm dữ liệu, các mục tiêu, một số yêu cầu của phân cụm dữ liệu và một số kỹ thuật tiếp cận trong phân cụm dữ liệu Đồng

thời, đề cập đến thuật tốn phân cụm mờ trong đĩ cĩ thuật tốn Fuzzy Clustering Means (FCM) và các phương pháp xác định số cụm trong gom cụm dữ liệu

Chương 3: Ứng dụng vào phân tích thơng tin rủi ro trong quản lý thuế doanh nghiệp

Trang 10

Chuong 1: TONG QUAN LY THUYET TAP MO

Người ta hay nhằm lẫn mức độ đúng với xác suất, tuy nhiên hai khái niệm

này khác han nhau, độ đúng đẫn của logic mo biểu diễn độ liên thuộc với các tập

được định nghĩa khơng rõ ràng chứ khơng phải khả năng xảy ra một biến cố hay điều kiện nào đĩ Logie mờ cho phép độ liên thuộc cĩ giá trị trong khoảng đĩng 0

và 1, và ở hình thức ngơn từ, các khái niệm khơng chính xác như "hơi hơi", "oan

như", "khá là" và "rất", cu thể nĩ cho phép quan hệ thành viên khơng đầy đủ giữa thành viên và tập hợp Tính chất này cĩ liên quan đến tập mờ và lý thuyết xác suất,

logic mo đã được đưa ra lần đầu tiên vào năm 1965 bởi GS Lotfi Zadeh tại Đại học California, Berkeley Mặc dù được chấp nhận rộng rãi và cĩ nhiều ứng dụng thành

cơng, nhưng logie mờ vẫn bị phê phán tại một số cộng đồng nghiên cứu

1.1 TAP MO VA THONG TIN KHONG CHAC CHAN

L Zadeh là người sáng lập ra lý thuyết tập mờ với hàng loạt bài báo mở đường cho sự phát triển và ứng dụng của lý thuyết này, khởi đầu là bai bao “Fuzzy

Sets” trên Tạp chí Information and Control, 8, 1965 Y tuong nổi bật của khái niệm

tập mờ của Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa của thơng tin mờ,

khơng chắc chăn như trẻ, nhanh, cao-thấp, xinh đẹp , ơng đã tìm ra cách biểu diễn nĩ bằng một khái niệm tốn học, được gọi là tập mờ, như là một sự khái quát trực

tiếp của khái niệm tập hợp kinh điển (tập cơ điển) [1]

Đề dễ hiểu chúng ta hãy nhớ lại cách nhìn khái niệm tập hợp kinh điển như là

khái niệm các hàm số

Cho một tập vũ trụ X tập tất cả các tập con i(a)=l của X ký hiệu là P(A) và nĩ trở thành một đại số | aT

tập hợp với các phép tính hợp U , giao 1, hiéu \

và lấy phan bu -, (P(X), U,0, \, -) Bây giờ mỗi

tap hop A € P(X) c6 thể được xem như là một hàm số 4A : X > {0, 1} được xác định như sau: ()

Trang 11

Lkhix €A

As (x) = (1.1)

0 khix €A

Mic da Aa va A la hai déi tuong toan hoc hoan toan khac nhau, nhung chung đều biểu diễn cùng một khái niệm về tập hop: x € A khi va chi khi Aa (x) = 1, hay x thuộc vào tập A với “độ thuộc vào” bằng 1, vi vay ham Aa duoc gọi là hàm đặc trưng của tập A Như vậy tập hợp A co thể được biểu thị bằng mot ham ma gia tri

của nĩ là độ thuộc về hay đơn giản là độ thuộc của phần tử trong X vào tập hợp A:

Néu Aa (x) = 1 thì x € A với độ thuộc là 1 hay 100% thudc vao A, con néu Aa (x) =

0 thi x £ A với độ thuộc là 0 hay khơng thuộc vao A

1.1.1 Khái niệm tập mờ

Định nghĩa 1.1 Cho một tập vũ trụ X Tập hợp A~ được xác định bởi đẳng thức: A“={z(u)/u:u€X,/-(u) €[0, I]} được gọi là một tập hợp mờ trên tập X

Biến z lẫy giá trị trong X được gọi là biển cơ sở và vì vậy tập X cịn được gọi là tập tham chiếu hay miễn cơ sở

Hàm ¿4~ : X [0 1] được gọi là hàm thuộc (membership function) và giá tri a-{0) tại u được gọi là độ thuộc của phan tử u, thuộc về tap hop mo A” Néu khơng

gây nhằm lẫn, hàm thuộc a- cũng được ký hiệu là A“() nếu biến cơ sở khơng biểu thị hay A*(u) nếu biến u xuất hiện

Lưu ý rằng về phải của định nghĩa A~ là một tập kinh điển và do đĩ định nghĩa

trên là hồn chỉnh họ tất cả các tập mờ trên miễn cơ sở X được ký hiệu là FX),

F(X) = {wa XD [0, 1] } = [0, IP}

Cĩ nhiều cách biểu diễn hình thức một tập mờ trong trường hợp X là một tập

hữu hạn đếm được hay vơ hạn liên tục tập mờ A“ cĩ thể được biểu diễn bằng các

biểu thức như sau:

Trong trường hợp X hữu hạn, X = {u¡ :1= l1,2, }, ta cĩ thể viết:

Trang 12

hay AX =Nisiso Ma-(ui)/ vi

Trong trường hợp này được gọi là tập mo roi rac (discrete fuzzy)

Trong trường hợp X là vơ hạn đếm được, X= {ui:1= 1,2, }, ta cĩ thể viết: AW = 1<i<e /,-(0)/ Ui Trong trường hợp X là vơ hạn liên tục, X = [a, b] ta cĩ thể viết: 4= Ẹ Ha~ (H)⁄ Định nghĩa 1.2 Tập mờ A“ xác định bởi 4 giá trị (a,b,c,d) ký hiệu 4ˆ = (a,b,c,d) và được xác định: 0 nếu x<a (x=a)/(b-a) néua<x<b b-a Ma-(X) = 1 néu b<x<c (d-x)/(d-c) néu c<x<d 0 néu x>d 1.1.2 Cách biểu điễn tập mờ

Ở trên chúng ta thấy khái niệm tập mờ là một sự khái quát trực tiếp của khái niệm tập kinh điển điều này cho phép hy vọng nĩ sẽ đặt cơ sở cho mối liên hệ chặt chẽ giữa hai khái niệm tập hợp này Đề dẫn đến việc nghiên cứu đĩ, trước hết chúng

ta đưa ra khái niệm fap lat cắt œ của một tập mờ

Định nghĩa 1.3 Cho một tập mờ A” trên tập vũ trụ X và a € [0, 1] Tap lat cắt ơ (hoặc œ') của tập A” là một tập kinh điển, ký hiệu là Aa (hoặc Au+” ), được

xác định bằng đẳng thức sau:

Aa = {u EX: pa (u) > 0} (hodc Au” = {u EX: pa- (u ) > a })

Trang 13

Đề đơn giản ký hiệu, ta viết họ các tập kinh điển như vậy bằng h(A>) = {Aa : 0 <a< 1}, Av € FX)

Ho cac tap hop nhu vay co cac tinh chất sau:

Định ly 1.1 Cho Av, B~ € F(X), h 1a anh xa duoc cho trong (1.2) và

h(A>) = {Aw :0<a<1}, ACB) = {Bu : 0 <a< 1} Khi do,

- Mỗi họ h(A~) như vậy 1a day don diéu gidm, néu a <f, thi A,” > Ag”:

- Nếu A“ #B' thi {Aw 0<a<1} 4 {Bu 0<a< lh

Nghia la tồn tại một song ánh từ họ các tap mo F(X) vào họ của những họ tập kinh điển P(X) ở đạng (1.2) 1.2.3 Một số đặc trưng của tập mờ Định nghĩa 1.4 - Giả của tập mờ A”, ký hiệu là Suppor1(), là tập con của X trên đĩ HẠ~ (u) #0, Support(A”) = u: HẠ (u)> 0}

- D6 cao của tập mờ: Độ cao của tập mờ A”, ky hiéu la hight(A~), la can trén

dung cua ham thudc pa- trén X, hight(A~) = Sup{ pa- (u): u € X}

- Tập mờ chuẩn (normal): Tập mờ A” duoc goi la chudn néu hight(A*) = 1

Trai lai, tập mờ được gọi là đưới chuẩn (subnormal)

- Lối của tập mờ: Lõi của tập mờ A”, ký hiệu là Core(A”), là một tập con của

X được xác định như sau: Cøre(A”)= {u€ X: /-.(uU)= highf(A”)} Định nghĩa 1.5 Lực lượng của tập mờ

Cho A“ là một tập mờ trên X

- Lực lượng vơ hướng (scalar cardinality): Lực lượng hay bản số thực của tập

4F, ký hiệu là Cown(1"), được tính theo cơng thức đếm sau (đơi khi được gọi là

Trang 14

arith Count (A~) = Đụ (u), nếu X là tập hữu hạn hay đếm được ueU arith , Count (A~) = >0) du , nêu X là tập vơ hạn liên tục ueU arith là tổng và tích số học Ở đây S””.Í

- Luc long mé (fuzzy cardinality): Luc long hay ban sé mo cia tập A~ là một tập mờ trên tập các số nguyên khơng âm N duge dinh nghĩa như sau:

Card (1) = | ,„„.„ (n)dn

trong đĩ /cza a~ )(n) được xác định theo cơng thức sau, với | Ar | là lực lượng của tập mức //caa 4~)(n) = suppremum {t € [0, 1]: | A%| =n}

C6 thé xem céng thite tinh Count(A”) ở trên như là cơng thức “đếm” số phần tử trong X Thực vậy, nếu tập 4“ trở về tập kinh điển thì ¿ (z) = 1 trên X và do đĩ cơng thức Cowz#(1) trên chính là bộ đếm số phân tử Khi ø¿ (u) #Z 1, thì u chỉ thuộc về tập ⁄4“ với tỷ lệ phan tram bang jas (u) va do dé phan tử u chỉ được “đếm” vào số lượng các phần tử một đại lượng bằng /4~ (u)

Lưu ý rằng, khác với trường hợp tập kinh điển, dù tập X là vơ hạn đếm được hay vơ han (continuum), thi luc luong cua tap mo A~ vẫn cĩ thể là hữu hạn, tùy theo

dáng điệu của hàm /4~ (u)

1.2 BIEN NGON NGU

1.2.1 Khái niệm biến ngơn ngữ

Biến ngơn ngữ là một bộ năm (Š, 74Š), X, R, A⁄ ), trong đĩ S là tên biến, T(S)

Trang 15

1.2.2 Các đặc trưng của biến ngơn ngữ

Trong thực tế cĩ rất nhiều biến ngơn ngữ khác nhau về các giá trị nguyên thuỷ, chẳng hạn như biến ngơn ngữ SỐ NGÀY LLÌM VIỆC cĩ giá trị nguyên thuỷ là ít, nhiễu, biên ngơn ngữ LƯƠNG cĩ giá trị nguyên thuỷ là Øấp, cao Tuy nhiên, những kết quả nghiên cứu đối với một miễn trị của một biến ngơn ngữ cụ thể vẫn giữ được ý nghĩa về mặt cấu trúc đối với miễn giá trị của các biến cịn lại đặc trưng này được gọi là fính phổ quát của biến ngơn ngữ

Do đĩ, khi tìm kiếm mơ hình cho các gia tử và các liên từ chúng ta khơng quan tâm đến giá trị nguyên thuỷ của biến ngơn ngữ đang xét đặc trưng này được gọi là fính độc lập ngữ cảnh của gia tử và liên từ

Các đặc trưng trên cho phép chúng ta sử dụng cùng một tập các gia tử và xây dựng một cấu trúc tốn học đuy nhất cho miễn giá trị của các biến ngơn ngữ khác nhau

1.3 CÁC PHÉP TỐN TRÊN TẬP MỜ

Xét một biến ngơn ngữ § như đã được định nghĩa ở trên, chúng ta cĩ nhận

xét rằng tập ảnh của tập 7/5) qua ánh xạ ÄZ/Š) khơng cĩ cấu trúc đại số, trên đĩ chúng ta khơng định nghĩa được các phép tính trên tập mờ Một lý do nữa làm cho chúng ta khơng quan tâm đến điều này là cấu trúc đại số của tập gốc 7Š) cũng chưa

được phát hiện Trong khi chúng ta chưa phát hiện ra cấu trúc đại số của miễn 7 (S), trong mục nay ching ta sé dinh nghia trén tap F(X, [0, 1]) mot cấu trúc đại số

Trước khi định nghĩa các phép tính trong #2, [0, I]), chúng ta hãy xem đoạn

[0 1] như là một cấu trúc dàn Lo = (0 1], 1,U, /, -) với thứ tự tự nhiên trên đoạn [0 1] Khi đĩ, với mọi a, b €[0, I], ta cĩ:

a U b= max {a, b}, aM b= min {a, b} va-a=1Nb

Chúng ta cĩ thể kiểm ching rang Lp.) = ((0, 1], đ,U, -) là một đại số DeMorgan, hon nữa nĩ cĩ các tính chất sau:

- Các phép tính hop U va giao M co tinh giao hốn

Trang 16

- Các phép tính hợp U và giao f1 cĩ tính chat phân phối lẫn nhau aU(bfc)=(aUb)N@Uc) vaaN (bUc)=(aNb) U (anc) - Tính chất nuốt (absorption) và nuốt déi ngau (dual absorption): Tính chất nuốt > aN(aUb)=a,

Tính chất nuốt đối ngẫu : a U (aN b)=a, Tính lũy đẳng : a Ua=avàafìa=a Tính chất phủ phủ định : -(-a)=a

Tính đơn điệu giảm > ax<b>-a>-b

- Tinh chat DeMorgan : -(aUb)=-aN-b; -(aNb)=-aU-b

Dựa trên cấu trúc oan chúng ta sẽ định nghĩa các phép tính trên tập mờ thơng qua các phép tính của dàn Lyo,1

1.3.1 Phép Hợp (U)

Cho hai tập mờ A~ và Br trên tập vũ trụ X hợp của hai tập mờ này là một tập mờ ký hiệu là A“ U B, mà hàm thuộc của nĩ được định nghĩa theo điểm

(pointwise) như sau: /~ U z~(u) = 4~ (u) U /z~ (u) hay trong trường hợp X là hữu

hạn hay đếm được

AUB - 3i<<eMa- 0/0 U 3«<i<e Ha» (00):

=~ 311<i<e [u4~ (ui)/ui U HB~ (0M) ]/ tị

hay, trong trường hợp u là tập continuum

AUB = J M,.(u)du U J Me (u)du = ueU [Z2„„ (0)©222;„ (0) lẩu Một cách tổng quát cho 4/7 € Ƒ(), ¡ €7 với 7 là tập chỉ số hữu hạn hay vơ

hạn nào đĩ Khi đĩ, hợp của các tập mờ như vậy ký hiệu là U¡ei 47 được định nghĩa bằng hàm thuộc như sau: ;e; 4Z(u) = Sup;er 47 (u)

Một cách tổng quát nếu cho trước các tập mờ 17 ,1= 1,2 , m, thì hợp của

Trang 17

1.3.2 Phép Giao (f\)

Cho hai tập mờ 44” và Z” trên tập vũ trụ X hợp của hai tập mờ này là một tập mờ ký hiệu là 4“ í1 # mà hàm thuộc của nĩ được định nghĩa theo điểm (pointwise) nhu sau:

a~n 2-8) = gu (8) M1 fp (u)

hay trong trường hợp X là hữu hạn hay đếm được

4đ = 31<i<eHa~(M)mi (Ì 31<i<e Ha~ (M)/th

= X1«i<e|[MaA-(M)(M Ì Ma- (M1 ]/ tí hay, trong trường hợp X là tập continuum,

ANB = i= (u)du TL): Xa [2L ()tz„ (0) lẩu

ueU ueU

Một cách tổng quát cho 447 € Ƒ(X), ¡ €7, voi J la tap chi số hữu hạn hay vơ hạn nào đĩ Khi đĩ, hợp của các tập mờ như vậy ký hiệu là f1; r A, được định

nghĩa bằng hàm thuộc như sau: đ¡cz⁄4ƒ(u) = Inf ier APU)

1.3.3 Phép tơng đại số

Cho hai tập mờ 4“ và Ð' trên tập vũ trụ X tơng đại số của hai tập mờ này là

mot tap mo ky hiéu la A~ © B được định nghĩa bởi dang thức sau:

Trong trường hợp X là hữu hạn hay vơ hạn đếm được

4 @B =3 „eu|Ma- (1) + Mg~(H) - Ma~ (1) ta~(M) | t

Trong trường hợp X là vơ hạn continuum

A B= | [9+ ma-(M)- Hào (0) ta-(M)] du

Lưu ý rằng giá trị biểu thức gưa- (w) + ,a~ (M) - tla~ (M) ta (w) luơn luơn thuộc [0 1] và do đĩ các định nghĩa của phép tính @ trên là đúng đắn

Trang 18

1.3.4 Phép tích hai đại số Nhân đại số hai tập mờ A“ và B“ là một tập mờ ký hiệu là A~ @ Bo duoc xác định như sau: Trong trường hợp X là hữu hạn hay vơ hạn đếm được 4® =3xeu[H4-(M) ta~(M) ]/ 1, Trong trường hợp X là vơ hạn continuum, 4®B=[_ [ma-(@).ma-(0)] du 1.3.5 Phép co (concentration)

Cho tập mờ 4“ trên X phép tập trung tập mờ 4 là tập mờ ký hiệu là

CON(1), được định nghĩa như sau:

CON (4°) =f us (du = (4) *, voi a> 1

Vi a> 1 nén w%4 (u) < + (u) va do dé mién gidi hạn bởi hàm ¿/24- (u) sẽ nằm

tron trong mién giới hạn bởi hàm /⁄¿-.(u) hàm thuộc /⁄4„(u) của tập mờ bi co lai sau phép tập trung Nĩi khác đi tập mờ CON/1) biểu thị một khái niệm đặc tả hơn khái

niệm gốc biêu thị bởi tập mờ 4“ (xem Hình 1.2) về trực quan chúng ta thấy khái niệm mờ cảng đặc tả thì nĩ càng chính xác hơn, ít mờ hơn va gần giá trị kinh điển hơn

Thơng thường người ta sử dụng phét tập trung để biêu thị ngữ nghĩa tác động của gia tử rấï (very) vì ngữ nghĩa chẳng hạn của khái niệm rất trẻ là đặc tả hay ít mờ

hơn so với khái niệm tre 1.3.6 Phép dãn (Dilation)

Ngược với phép ứập rung là phép đãn phép dãn khi tác động vào một trong trường

hợp này ta thấy tạp mờ A~ ký hiệu là DIL (Aˆ)

được xác định bởi đẳng thức sau: 0 15 25 35 45 5 Hinh 1.2 Phép tap trung

Trang 19

DIL (4°) = iz wa (udu = (AYP , voi B<1

Trong trường hợp này ta thấy #4 (u) > /4 (u) và đo đĩ phép dãn sẽ làm

hàm thuộc của tập mờ đĩ đẩn nở ra, hàm thuộc của tập mờ thu được sẽ xác định một miễn thực sự bao hàm miễn giới hạn bởi hàm thuộc của tập mờ gốc Trên Hình

1.2, ta thấy đường cong nét chấm biểu thị hàm thuộc ¿¿ (u) cịn đường cong nét

liền biểu thị hàm thuộc /4- (u) Ngữ nghĩa của khái niệm mờ biểu thị bởi tập mờ kết

quả ít đặc tả hơn hay ngữ nghĩa của nĩ càng mờ hơn

Ngược với hay đối ngẫu với việc sử dụng phép CON, phép DIL được sử dụng để biểu thị ngữ nghĩa của gia tử cĩ ?hê hay xấp xỉ vì ngữ nghĩa của khái niệm cĩ thể trẻ ít đặc tả hơn hay tính mờ của nĩ lớn hơn

1.3.7 Phép mờ hĩa (Euzzification) Việc mờ hĩa cĩ hai bài tốn:

- Tìm tập mờ biểu thị một tập kinh điển hay một cách tổng quát hơn là mờ

hĩa một tập mờ đã cho A~

- Tìm độ thuộc của giá trị ngơn ngữ của một biến ngơn ngữ tương ứng với

một dữ liệu đầu vào là thực hoặc mờ

Theo nghĩa thứ nhất ta định nghĩa phép mị hĩa như sau :

Phép mờ hĩa #' của một tập mờ 4“ trên tập vũ trụ X sẽ cho ta một tập mờ F(A~,K~) được xác định theo cơng thức sau:

FT, K)= |, ma- (0) K (0)đu

trong đĩ Kˆ(ø) là một tập mờ trên X, u € X, được gọi là nhân (kernel) của #'

Nếu ø¿- (u) là hàm thuộc của tập kinh điển 1 phần tử {u}, /4 (z) chỉ bằng 1 tại phần tử u cịn lại là bằng 0 hay ta cĩ tập “mờ” {1/u}, thì ta cĩ

F({ Lm}, K“(w)) = KT(w)

Nếu A” la tập kinh điển 4, ø¿ (ø) = 1 trên 44 và bằng 0 ngồi 4, thì mờ hĩa của 4 với nhân K”(ø) sẽ là tập mờ sau: #4, K”) = [4 K~ (w)du

Trang 20

1.3.8 Phép khử mờ

Trong điều khiển mờ cũng như trong lập luận các chuyên gia với các luật tri thức mờ, đữ liệu đầu ra nhìn chung đều là những tập mờ Thực tế chúng ta cũng thường gặp nhu cầu chuyên đổi dữ liệu mờ đầu ra thành giá trị thực một cách phù hợp, phương pháp chuyển đổi như vậy được gọi là phương pháp khử mờ (defuzzification) Nhu cầu này thường gặp nhất trong điều khiển mờ vì đầu ra địi

hỏi là giá trị thực để tác động vào một quá trinh thực nào đĩ

Tuy nhiên, về trực quan chúng ta cĩ thê đưa ra những yêu cầu để một phương pháp khử mờ được xem là tốt Hellendoorn and Thomas (năm 1993) đã đưa ra 5 tiêu chuẩn trực quan sau [2]:

- Tính liên tục, nghĩa là một sự thay đổi nhỏ của dữ liệu đầu vào của phương

pháp nĩ cũng chỉ tạo ra những thay đổi nhỏ ở đữ liệu đầu ra;

- Tính khơng nhập nhằng (disambiguity), nghĩa là phương pháp chỉ sinh ra

một giá trị đầu ra duy nhất,

- Tính hợp lý (plausibility) địi hỏi rằng giá trị đầu ra phải nằm ở vùng trung

tâm của tập mờ và độ thuộc hay giá trị hàm thuộc tại đĩ phải lớn (khơng nhất thiết lớn nhất);

- Độ phức tạp tính đơn giản (computational simplicity), một địi hỏi tự nhiên và Tính trọng số của phương pháp (weighting methođ) địi hỏi phương pháp tính đến trọng số hay “sự ưu tiên” của các tập mờ kết quả đầu ra (đối với trường hợp bài tốn cho nhiều kết quả đầu ra như đối với một số phương pháp lập luận mờ đa điều kiện)

Nĩi chung, chúng ta cĩ thể hiểu các tiêu chuẩn cần bảo đâm giá trị khử mờ

của tap mo A” la phan từ thực đại điện một cach hop ly cua A”

Sau đây chúng ta nghiên cứu một vài phương pháp khử mờ: a) Phương pháp cực đại trung bình (average maximum)

Cho tập mờ 4ˆ với hàm thuộc /4-~ goi umin va umax tuong tng là hai giá trị

nhỏ nhất và lớn nhất của miễn cơ sở u mà tại đĩ hàm thuộc HA~ nhận giá trị lớn nhất

Trang 21