Kết luận suy diễn với tiền đề không chắc chắn- 123docz.net

chuyên gia

2.2.1. Kết luận suy diễn với tiền đề không chắc chắn

ở đây giả sử rằng các mệnh đề trong câu hỏi là rõ ràng, nh−ng cơ sở tri thức, có thể đáp ứng việc thiết lập tính đúng đắn của câu hỏi, là không đầy đủ. Nh− trong đoạn 1.4, sự không chắc chắn về tính đúng đắn của mệnh đề p đ−ợc đánh giá giá trị theo nghĩa của một độ đo confidence có thể là độ đo khả năng hoặc cần thiết. Sự không chắc chắn đối với tiền đề “nếu p thì q” sẽ đ−ợc đánh giá dựa trên cách nhìn, t−ơng đ−ơng với mệnh đề p → q = ơp ∨ q, hoặc nh− là sự không chắc chắn về điều kiện của q bởi p.

2.2.1.1.Modus ponens và modus tollens với các tiền đề không chắc chắn

Giả sử Π là một độ đo khả năng trên l−ới Boolean P của các mệnh đề , và giả sử N là phép đo cần thiết đối ngẫu của Π. Chúng ta đ−a ra các mở rộng đối với Modus ponens và modus tollens:

Modus ponens Modus tollens

N(p → q) ≥ a N(p) ≥ b (I) N(p → q) ≥ a N(q) ≤ b (IV) N(q) ≥ min(a, b) N(p) ≤ 1 nếu a ≤ b ≤ b nếu a ≥ b N(p → q) ≥ a Π(p) ≥ b (II) N(p → q) ≥ a Π(q) ≤ b (V) Π(q) ≥ b.v(a+b > 1) Π(p) ≤ max(1-a, b) Π(p → q) ≥ a N(p) ≥ b (III)

Trong đó v(a+b>1) = 1 nếu a+b >1 = 0 nếu a+b ≤1 Π(q) ≥ a.v(a+b > 1)

N(p∧q) = min(N(p → q), N(p)) = min(a, b). • b ≥ N(q) ≥ N(p∧q) = min(N(p → q), N(p)) ⇒ nếu a ≤ b thì N(p) ≤ 1 nếu a ≥ b thì N(p) ≤ b Do đó ta nhận đ−ợc (IV) • (II) nhận đ−ợc từ chú ý rằng (ơp) ∧ (ơq) = (ơq) ∧ (ơp ∨ q), do đó N(ơp) ≥ N(ơp ∧ơq) = min(N(ơq), N(p → q)), chúng cuối cùng đ−a ra b ≤Π(p) ≤ max(Π(q), 1 - N(p → q)) ≤ max(Π(q), 1 - a)

khi Π(q) < 1 - a thì b ≤ 1- a hay a + b ≤ 1⇒ v(a + b >1) = 0 còn nếu b > 1- a thì rõ ràng Π(q) ≥ b

⇒ Π(q) ≥ b.v(a+b > 1)

• Từ Π(p) ≤ max(Π(q), 1 - N(p → q)) ta có: Π(p) ≤ max(Π(q), 1 - N(p → q)) ≤ max(b, 1- a)

• (III) có thể dễ dàng kiểm tra vì Π(p → q)= max(1-N(p),Π(q)) (nhờ 2.24)

⇒ a ≤Π(p → q)= max(1-N(p),Π(q)) ≤ max(1-b,Π(q)) ⇒Π(q) ≥ a.v(a+b > 1)

Từ (I), (II), và (III) ta có một dạng tổ hợp nh− sau: N(p → q) ≥ a, N(p) ≥ b Π(p → q) ≥ A Π(p) ≥ B (max(1-a, A) = 1) (max(1-b, B) = 1) (VI)

N(q) ≥ min(a, b) Π(q) ≥ max(A.v(A+b >1)), B.v(a+B >1)) mà trong mọi tr−ờng hợp max(Π(q), 1- N(q)) = 1.

Trong tr−ờng hợp của các phép đo xác suất, các qui luật suy diễn t−ơng ứng với (VI), và với (IV) và (V) đ−ợc biết:

P(p → q) ≥ a (VII) P(p) ≥ b

P(p → q) ≥ a (VIII) P(q) ≤ b

P(q) ≥ max(0, a+b - 1) P(p) ≤ min(1, 1- a + b)

L−ợc đồ (IV) và (V) đối với modus tollens cũng có thể đ−ợc tập hợp lại theo một cách t−ơng tự. Một l−ợc đồ nữa có thể đ−ợc tạo nhờ việc tổ hợp (I), (II), (IV), và (V) d−ới dạng:

N(p → q) ≥ a (IX) N(q → p) ≥ a’

N(p) ∈ [b, b’], Π(p) ∈ [c, c’] và max(1-b, c’) = 1 N(q) ∈ [min(a, b), 1] nếu a’ ≤ b’

N(q) ∈ [min(a, b), b’] nếu a’ > b’ Π(q) ∈ [c.v(a+c>1), max(1-a’, c’)]

2.2.1.2.Điều kiện đối với các mệnh đề không chắc chắn

Qui luật “nếu p thì q” là một sự đặc tr−ng từng phần của một hàm từ P

vào P d−ới dạng một độ đo khả năng điều kiện Π(.| p), trong đó Π(q| p) đo khả năng mà q có thể suy ra từ p. Π(.| p) xác là định hoàn toàn qua bất đẳng thức (2. 23):

Π(p∧q) ≥Π(q| p) * Π(p) (2.25) (ta có ph−ơng trình 2.25 là do min là phép toán giao lớn nhất)

Một khi ta có một độ đo khả năng Π trên P biểu diễn kiến thức của chúng ta liên quan đến tính đúng đắn của các mệnh đề. * là một phép toán kiểu kết hợp (conjunction), chẳng hạn là minimum, hoặc tổng quát hơn là:

1/ Nếu r = s và t = u, thì r*t = s*u (đơn điệu) 2/ ∀s ∈ [0, 1], s*0 = 0*s = 0

3/ ∀s ∈ [0, 1], s*1 = 1*s = s

cho ví dụ, * có thể là một dạng triangular norm nh− min, hoặc s*t = max(0, s+t-1)...

Độ đo khả năng kém rõ ràng nhất thoả mãn (2.25) đạt tới các biên của sự cân bằng do Π(p) ≥Π(p∧q). vì vậy có thể vì vậy định nghĩa Π(.| p) bởi

Π(p∧r) = Π(r| p)* Π(p), r=q,ơq (2.26) Vì p và q là các mệnh đề truyền thống, q = (p∧q)∨(ơp∧q), từ (2.25) cho:

-Ph−ơng trình (2.26) đem lại bất ph−ơng trình Π(q) ≥ Π(q| p)*Π(p), từ đó ta có thể lấy đ−ợc từ các l−ợc đồ suy luận của modus ponens và modus tollens, t−ơng ứng là:

Π(q| p) ≥ a (X) Π(p) ≥ b

Π(q| p) ≥ a (XI) Π(p) ≤ b

Π(q) ≥ a*b Π(q) ≤ sup{s ∈ [0, 1], a*s = b} đ−ợc định nghĩa a*→ b Các l−ợc đồ này có thể đ−ợc tổ hợp vào l−ợc đồ khác, t−ơng tự nh− (IX): Π(q| p) ≥ a (XII)

Π(p| q) ≥ a’ Π(p) ∈ [b, b’]

Π(q) ∈ [a*b, a’ *→b’]

Ph−ơng trình (2.28) có thể đ−ợc viết d−ới dạng các độ đo cần thiết qua phép đặt Π(q| p) = 1 - Π(ơq| p), ấy là:

N(q) = min(N(q| p) ⊥ N(ơp), N(q|ơp) ⊥ N(p)) (2.29) trong đó s ⊥ t = 1 - (1- s)*(1- t). Khi * là min, ⊥ là max. Tổng quát hơn, ⊥ là phép toán thoả mãn các điều kiện:

1/ Nếu r = s và t = u, thì r ⊥ t = s ⊥ u (đơn điệu) 2/ ∀s ∈ [0, 1], s ⊥ 1 = 1 ⊥ s = 1

3/ ∀s ∈ [0, 1], s ⊥ 0 = 0 ⊥ s = s

Ph−ơng trình (2.29) đem lại bất ph−ơng trình N(q)≥min(N(q| p), N(p)), cho ta các l−ợc đồ modus ponens và modus tollens t−ơng ứng sau:

N(q| p) ≥ a N(p) ≥ b (XIII) N(q| p) ≥ a N(q) ≤ b (XIV) N(q) ≥ min(a, b) N(p) ≤ 1 nếu a ≤ b ≤ b nếu a > b

Chúng có thể lại đ−ợc tổ hợp lại phụ thuộc vào l−ợc đồ lập luận bởi sự t−ơng đ−ơng:

N(q| p) ≥ a (XV) N(p| q) ≥ a’

N(p) ∈ [b, b’]

N(q) ∈ [min(a, b), 1] nếu a’ ≤ b’ N(q) ∈ [min(a, b), b’] nếu a’ > b’

Chú ý rằng các l−ợc đồ (XIII) - (XV) không phụ thuộc vào phép toán * trong xác định điều kiện. Tồn tại các l−ợc đồ suy luận probabilistic t−ơng tự nh− (XIII) và (XIV), dựa trên xác suất điều kiện :

P(q| p) ≥ a (XVI) P(p) ≥ b

P(q| p) ≥ a (XVII) P(q) ≤ b

P(q) ≥ a.b P(p) ≤ 1 nếu a=0 min(1, a/b) nếu a≠0

Giả sử mệnh đề p là kết hợp của hai (hay nhiều hơn các) mệnh đề sơ cấp p1 và p2. Nếu chúng ta giả sử rằng các biến ẩn t−ơng ứng trong p1 và p2, lần l−ợt, là khác biệt và không liên kết (điều kiện kiên quyết), thì từ (2.16) chúng ta có thể viết:

Π(p1∧p2) = min(Π(p1), Π(p2)) (2.30) hơn nữa, chúng ta luôn có:

N(p1∧p2) = min(N(p1), N(p2)) (2.31) Các kết quả t−ơng tự là vẫn đúng nếu p là phép toán ∨ của hai mệnh đề, từ các công thức (2.18).

Π(p1∨p2) = max(Π(p1), Π(p2)) (2.32) 2.2.3. Tổ hợp các mức độ quan hệ không chắc chắn vào cùng mệnh đề dựa trên cách Tiếp cận lý thuyết khả năng:

Giả sử rằng mức độ không chắc chắn đối với một mệnh đề p đ−ợc đ−a d−ới dạng mức độ khả năng ∏i(p), và t−ơng ứng với mức độ cần thiết Ni(p), liên quan đến nguồn i (chúng có thể là qui luật “nếu qi thì p”). Khi có n

nguồn, ta mong muốn có thể tổ hợp các cặp (∏i(p),Ni(p)) vào một dạng (Π(p), N(p)). Chú ý rằng luôn có :

max(∏i(p), 1-Ni(p)) = 1 (2.32) Một ý t−ởng tự nhiên là khai thác các thành phần không xung đột với nhau của dữ liệu từ các nguồn khác nhau. Ta có thể xem dữ liệu từ nguồn i nh− là một tập mờ trên tập tham khảo {p, ơp}, Fi:

)p p ( i F à = ∏i(p), ( p) i F ơ à = 1- Ni(p)= ∏i(ơp)

Tập mờ này luôn luôn đ−ợc chuẩn hoá vì luôn thoả mãn (2.32). Tập mờ t−ơng ứng tới (Π(p), N(p)) có thể định nghĩa bởi:

In1 1 i F F i = =

trong đó giao đ−ợc thực hiện bởi phép toán min (ch−ơng 1, phần 1.4 (1.30)): Khi đó ta có: ∏(p) = (p) n F 2 F 1 F à ∩ ∩K∩ =min( (p) 1 F à , (p) 2 F à ,..., (p) n F à ) = ∏i(p) i min N(p) = 1-∏i(ơp)=1- ∏i(p) i min = ) i(p) 1 ( i max −∏ = Ni(p) i max

Tuy nhiên ta không thể chắc chắn rằng điều kiện max(Π(p), 1- N(p)) = 1 vẫn đúng. Điều đó không đúng khi có một xung đột giữa các nguồn, ví dụ, khi một nguồn p là có khả năng hơn ơp và đối với một nguồn khác lại có điều ng−ợc lại ơp là có khả năng hơn p. Trong tr−ờng hợp nh− vậy, ta kh−ớc từ tổ hợp dữ liệu và bắt đầu hỏi các câu hỏi về sự đáng tin cậy của các nguồn. Nếu các nguồn là tin cậy và dữ liệu của chúng có liên quan tới cùng một vấn đề, thì ta chuẩn hoá F bằng cách chia hàm thành viên của nó bởi max(Π(p), 1- N(p)). Từ đó ta nhận đ−ợc các công thức sau: ∏ = ∏ ∏ − ))) p ( i N 1 ( i min i(p), i max(min ip i min ) p ( (2.33) )) p ( i N i min , i(p) i max(min )) p ( i N 1 ( i min ) p ( N ∏ − = (2.34)

Một vấn đề quan trọng là tìm ra dữ liệu từ một vài nguồn cung cấp trộn lẫn nhau hoặc không. Vấn đề này đ−ợc bắt gặp khi ta mong muốn tổ hợp hai qui luật giống nh− “nếu p1 thì q” và “nếu p2 thì q” d−ới dạng “Nếu r thì q” trong đó r là tổ hợp của p1 và p2. Cho ví dụ, Π(q| p1∧p2) không thể biểu diễn

Trong các hệ chuyên gia, vấn đề suy luận không chắc chắn là một trong các vấn đề quan trọng. Việc dựa trên mô hình lý thuyết xác xuất đã đ−ợc ch−ơng hai chỉ ra là không thích ứng, do đó đòi hỏi phải có các mô hình toán học không chắc chắn mới. Mà một trong các mô hình toán học không chắc chắn đó là mô hình lý thuyết khả năng đã đ−ợc trình bầy ở trên. Trong ch−ơng này, ta đã đ−a ra đ−ợc một số các đặc tr−ng trong vấn đề suy luận không chính xác và không chắc chắn, nh− ta đã xây dựng đ−ợc các khái niệm về tập các mệnh đề logic P, và các độ đo trên không gian P, đo mức độ đúng đắn của các mệnh đề trong P. Từ đó ta trong một số điều kiện và ph−ơng pháp ta đã chỉ ra rằng xây dựng đ−ợc các mô hình độ đo khả năng, độ đo cần thiết t−ơng ứng với ch−ơng 1. Đặc biệt là xây dựng đ−ợc khái niệm về mệnh đề không rõ ràng và các khái niệm hàm đặc tr−ng, độ đo khả năng t−ơng ứng. Thông qua đó ta đã xây dựng đ−ợc các độ đo khả năng, độ đo cần thiết xác định mức độ đúng đắn của một sự kiện thông qua một sự kiện tri thức khác để đ−a ra đ−ợc các công thức toán học mô tả mức độ đúng đắn của một mệnh đề hay một luật trong P. Hai cách tiếp cận hàm và tiếp cận logic sử dụng hai qui tắc Modú ponens và Modus tollens cũng đã đ−ợc trình bầy trong ch−ơng này. Đây là hai mô hình suy diễn trong điều kiện không chắc chắn và không chính xác. Mục tiêu của hai mô hình suy diễn này là đã chỉ ra đ−ợc các khoảng tốt nhất xác định mức độ đúng đắn của một mệnh đề thuộc vào với sự biết tr−ớc các mức

độ đúng đắn của các mệnh đề, luật suy diễn ban đầu. Các khoảng này luôn luôn có dạng [a*b, a’ *→ b’], trong đó * luôn luôn là phép toán kiểu kết hợp. Dựa trên đó rất nhiều dạng của mô hình modus ponens tổng quát khác nhau đ−ợc thiết lập bằng cách áp dụng các lựa chọn phép toán *→ khác nhau, đ−ợc sử dụng trong các mô hình hệ chuyên gia khác nhau. Ngoài ra trong ch−ơng này, ta cũng đã đ−a ra đ−ợc một số cách giải quyết trong mô hình suy luận không chắc chắn đối với các tr−ờng hợp các tiền đề tổ hợp và một cách tiếp cận dựa trên lý thuyết khả năng để tổ hợp các mức độ không chắc chắn vào cùng một mệnh đề. Tuy đã giải quyết đ−ợc nhiều vấn đề, nh−ng trong ch−ơng này ta vẫn còn có một số vấn đề ch−a đ−ợc giải quyết nh−: vấn đề trình bầy mô hình modus ponens tổng quát dựa trên các luật “if...then...”, hay vấn đề tổ hợp các phân phối khả năng...

Ch−ơng 3

Tìm kiếm tri thức và độ đo gần đúng

Trong thực tế, con ng−ời th−ờng thu nhập và l−u trữ rất nhiều dữ liệu, với suy nghĩ rằng tồn tại thông tin có giá trị trong đó. Nh−ng dữ liệu thu đ−ợc ban đầu hiếm khi có lợi ích trực tiếp. Trong một số tr−ờng hợp, dữ liệu có dung l−ợng tạo nên không gian tìm kiếm quá lớn, chẳng hạn khi phải tính toán trên một CSDL có hàng triệu bản ghi và mỗi bản ghi có hàng nghìn hay hàng vạn tr−ờng. Khi đó việc phân tích các khối dữ liệu này để tìm các mẫu bằng các ph−ơng pháp truyền thống sẽ vô cùng khó khăn. Khi một hệ thống CSDL phát triển, khả năng hỗ trợ phân tích và ra quyết định sử dụng các câu hỏi truyền thống là không thể làm đ−ợc. Đặc biệt đối với các câu hỏi về sở thích (của con ng−ời) hay vấn đề trình bầy chính xác các câu hỏi là rất khó khăn. Việc tìm ra giá trị có ích thực sự phụ thuộc vào khả năng rút ra đ−ợc các thông tin hữu ích hỗ trợ cho việc ra quyết định. Hơn nữa, chỉ một phần nhỏ dữ liệu (khoảng 5%-10%) đ−ợc thu thập là đã từng đ−ợc phân tích. Và có một khối l−ợng dữ liệu không nhỏ có thể không bao giờ đ−ợc phân tích tiếp nh−ng vẫn đ−ợc thu thập, l−u trữ vì sợ rằng một vài điều có thể quan trọng cho t−ơng lai là bị mất hoặc thiếu. Việc thu thập các dữ liệu này đã gây ra các phí tổn rất lớn.

Trong một số lĩnh vực, đặc biệt trong lĩnh vực tài chính đã có các công cụ tài chính đặc biệt đ−ợc phát triển giúp nhận dạng và trả lời nhanh chóng đ−ợc một số câu hỏi để phát hiện ra các cơ hội tr−ớc khi b−ớc vào cạnh tranh thực sự. Ví dụ nh− các hệ thống quản lý thông tin MIS, hệ thống hỗ trợ quyết định DSS. Nhờ các hệ thống này, những ng−ời sử dụng cuối, thông th−ờng không phải là một ng−ời làm công tác thống kê, mà là một ng−ời sử dụng cuối bình th−ờng nh−

các chuyên gia, các kỹ s−, các nhà phân tích,..., có thể rút ra đ−ợc một số tri thức nhanh chóng, dễ dàng giúp đỡ cho công việc của mình.

Ch−ơng này tập trung chủ yếu vào việc hệ thống hoá quá trình khai phá dữ liệu và phát hiện tri thức, giới thiệu một số độ đo thông dụng và công thức của chúng nh− độ đo Gain-ratio, độ đo Gini-index, độ đo Relevance, độ đo X2. Cuối ch−ơng sẽ xây dựng một độ đo mới đo sự phụ thuộc thuộc tính của một tập các đối t−ợng và chứng minh một số tính chất của độ đo này, có so sánh sơ bộ với độ đo thô của Pawlak và độ đo R.

Kết luận suy diễn với tiền đề không chắc chắn

Các mệnh đề không rõ ràng (vague proposition)

Một số độ đo lựa chọn thuộc tính