Lý thuyết tập mờ

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung saii (Trang 64 - 70)

Zadeh đĩ đưa ra một hướng tiếp cận hồn tồn mới cho khỏi niệm “vagueness” bằng việc đưa ra lý thuyết tập mờ - fuzzy sets theory [3][12]. Trong lý thuyết tập mờ, một phần tử thuộc về một tập hợp với độk thỏa mĩn (0 ≤ k ≤ 1), điều này là trỏi với lý thuyết tập hợp cổđiển trong đú một phần tử phải được định nghĩa thuộc hay khụng thuộc một tập hợp.

Trong lý thuyết tập mờ, hàm thành viờn mờ (fuzzy membership function) được biểu diễn dưới dạng:

Trong đú X là một tập hợp và x là một phần tử của tập hợp đú. Điều này cho thấy rằng, việc định nghĩa tập mờ bao gồm nhiều khỏi niệm toỏn học phức tạp hơn (chẳng hạn cú cả số thực và hàm) trong khi lý thuyết tập hợp cổ điển lại xem tập hợp là một khỏi niệm nền tảng trong toỏn học và sử dụng nú để nhận được cỏc khỏi niệm khỏc (chẳng hạn số và hàm). Bởi vậy, lý thuyết tập mờ khụng thể thay thế lý thuyết tập hợp cổđiển, lý thuyết tập hợp cổđiển là cần thiết đểđịnh nghĩa lý thuyết tập mờ.

Hàm thành viờn mờ cú cỏc tớnh chất sau [3]:

Như vậy, thành viờn của một phần tử thuộc hợp và giao của cỏc tập hợp được định nghĩa một cỏch duy nhất bởi cỏc thành viờn của cỏc tập cấu thành, tớnh chất này cho phộp thực hiện cỏc phộp toỏn rất đơn giản trờn lý thuyết tập mờ và là một đặc trưng quan trọng trong cả lý thuyết lẫn thực hành.

(3.6)

Cho một tập gồm M văn bản D = {d1, d2,…, dM}, và tập N thuật ngữT = {t1,

t2,…,tN}. Mối liờn hệ giữa cỏc từ khúa với một văn bản được xỏc định bằng cỏch sử dụng một phương phỏp đỏnh chỉ số nào đú đĩ biết:

à(T) = {àT(t1), àT(t2), …, àT(tN)} Sau đú chuẩn húa cỏc giỏ trị của à(T) vào [0, 1].

Với một chủđề cụ thể, giả sử cú một tập cỏc khỏi niệm liờn quan tới chủ đề này, ký hiệu là K = {k1, k2, …, kn}. Xột một khỏi niệm k nào đú trong tập cỏc khỏi niệm K, khi đú một khỏi niệm cú thể bao gồm một số thuật ngữ và được xỏc định như sau:

k = {t1, t2,…, tm}

Từ đú cú thể xõy dựng một khỏi niệm mờ là một tập mờ tương ứng với khỏi niệm trong đú hàm thuộc của nú được xỏc định bằng độ quan trọng của cỏc từ cú liờn quan tới khỏi niệm đú. Mức độ quan trọng của một khỏi niệm mờ khi đú được xỏc định bằng một hàm tớch hợp mờ, ký hiệu là à( ~ k). Khi đú, một văn bản d cú thể được biểu diễn dưới dạng: d = {à( ~ k1), à( ~ k2), …, à( ~ ki)}

Bài toỏn biểu diễn văn bản quay về việc lưu trữ và xử lý trờn tập mờ hay núi chớnh xỏc hơn là lưu trữ và xử lý trờn cỏc khỏi niệm thay vỡ phải làm việc trờn cỏc thuật ngữ. Việc lưu trữ và xử lý trờn cỏc khỏi niệm sẽ cho ra cỏc kết quả tốt hơn và hiệu quả hơn, tuy nhiờn vấn đề tớnh hàm phụ thuộc giữa cỏc khỏi niệm và thuật ngữ là tương đối khú.

3.1.3. Mụ hỡnh xỏc sut – Probabilistic Model

Mụ hỡnh Probabilistic[4] thường được dựng để giải quyết bài toỏn IR (Information Retrieval – thu hồi thụng tin) dựa trờn lý thuyết xỏc suất thống kờ. Về cơ bản, ý tưởng của nú như sau: với một truy vấn người dựng sẽ cú một tập cỏc tài liệu hồn tồn phự hợp với truy vấn đú (khụng tồn tại những cỏi khỏc) và ta xem tập cỏc tài liệu này như là “tập trả lời lý tưởng” – ideal answer set. Với tập trả lời lý

(3.8)

(3.9)

tưởng sẽ khụng cú vấn đề gỡ trong việc thu hồi cỏc tài liệu của nú, vỡ vậy cú thể xem cỏc quỏ trỡnh truy vấn như là việc đặc tả ra cỏc thuộc tớnh của một tập trả lời lý tưởng (điều này cũng tương tự như việc diễn dĩi bài toỏn IR như là bài toỏn phõn cụm – clustering). Tuy nhiờn chỳng ta khụng thể biết một cỏch chớnh xỏc cỏc thuộc tớnh này là những gỡ mặc dầu sẽ cú cỏc thuật ngữ đỏnh chỉ mục (index terms) mà ngữ nghĩa của nú cú thể được sử dụng để nhận biết cỏc thuộc tớnh đú. Bởi vỡ cỏc thuộc tớnh chưa được biết đến tại thời điểm thực hiện truy vấn cho nờn sẽ mất khỏ nhiều cụng sức trong việc đoỏn nhận ban đầu về cỏc thuộc tớnh này.Việc đoỏn nhận ban đầu cho phộp chỳng ta tạo ra một mụ tả xỏc suất ban đầu cho tập trả lời lý tưởng, nú được sử dụng để thu về tập tài liệu đầu tiờn.

Người sử dụng tập trung vào cỏc tài liệu thu nhận được và quyết định những gỡ trong chỳng là phự hợp hay khụng phự hợp (thực tế thỡ chỉ những tài liệu đầu tiờn là cần được xem xột). Hệ thống sau đú sẽ sử dụng cỏc thụng tin này để lọc qua mụ tả của tập trả lời lý tưởng. Lặp lại quỏ trỡnh này nhiều lần với hi vọng sẽ cú một mụ tả gần với mụ tả thực của tập trả lời lý tưởng. Như vậy cần phải đoỏn nhận ban đầu về mụ tả của tập trả lời lý tưởng. Mụ hỡnh xỏc suất dựa trờn những giả thiết cơ bản sau đõy.

Gi thiết: gọi q là một truy vấn người dựng và dj là một tài liệu trong tập hợp; mụ hỡnh xỏc suất cố gắng ước lượng xỏc suất người dựng tỡm thấy dj là tài liệu tương xứng (phự hợp) với truy vấn đú. Mụ hỡnh này giảđịnh rằng xỏc suất phự hợp chỉ phụ thuộc vào truy vấn và cỏc mụ tả của tài liệu. Hơn nữa mụ hỡnh giảđịnh rằng cú một tập con của tồn bộ cỏc tài liệu mà người dựng ưa thớch hơn tập trả lời cho truy vấn q. Mỗi tập trả lời lý tưởng được gỏn nhĩn là R và cực đại húa tồn bộ khả năng phự hợp cho người dựng. Cỏc tài liệu trong tập R được xem như là phự hợp với truy vấn; cỏc tài liệu khụng nằm trong tập này xem như là khụng phự hợp (giả thiết trờn hơi khú hiểu vỡ khụng đưa ra được một phỏt biểu rừ ràng bằng cỏch nào cú thể tớnh toỏn được khả năng xảy ra sự phự hợp).

Với mỗi truy vấn q, mụ hỡnh probabilistic gỏn cho mỗi tài liệu dj một độ đo tương đồng với truy vấn, là tỉ lệP(dj relevant-to q)/P(dj non-relevant-to q), nú cho thấy tỉ lệ tài liệu dj phự hợp với truy vấn q.

Định nghĩa: với mụ hỡnh probabilistic, trọng số của cỏc biến thuật ngữ chỉ mục đều là nhị phõn: . Một truy vấn q là một tập con của cỏc thuật ngữ đỏnh chỉ mục. Gọi R là tập cỏc tài liệu phự hợp (đĩ được đoỏn nhận vào lỳc ban đầu). Gọi là phần bự của R (là tập cỏc tài liệu khụng phự hợp). Gọi

là xỏc suất tài liệu dj phự hợp với truy vấn q và là xỏc suất tài liệu

dj khụng phự hợp với truy vấn q. Độ tương đồng của tài liệu dj với truy vấn qđược định nghĩa bằng tỉ lệ:

Áp dụng luật Bayes, ta cú:

là xỏc suất ngẫu nhiờn lựa chọn tài liệu dj từ tập cỏc tài liệu phự hợp R. Hơn nữa, P(R) là xỏc suất mà một tài liệu được lựa chọn một cỏch ngẫu nhiờn từ tồn bộ tập tài liệu phự hợp.

Vỡ P(R) và là như nhau đối với tất cả tài liệu trong tập hợp, do vậy viết lại:

P(ki|R) là xỏc suất mà thuật ngữđỏnh chỉ mục ki hiện đang nằm trong một tài liệu được lựa chọn ngẫu nhiờn từ tập R. là xỏc suất mà thuật ngữđỏnh chỉ mục

(3.12)

(3.13)

(3.14)

ki hiện khụng nằm trong một tài liệu được lựa chọn ngẫu nhiờn từ tập R. Xỏc suất liờn đới với tập mang một ý nghĩa tương tự.

Ta biết rằng:

và loại đi cỏc yếu tố là hằng số đối với tất cả cỏc tài liệu trong ngữ cảnh với cựng truy vấn, cuối cựng ta cú thể viết lại:

Đõy là biểu thức chủ chốt cho tớnh toỏn sắp xếp trong mụ hỡnh Probabilistic.

3.2. Cụng thc xỏc định hiu năng x lý văn bn

Trong xử lý văn bản, hiệu năng xử lý văn bản được xỏc định thụng qua hai đại lượng precision (độ chớnh xỏc) và recall (độ hồi tưởng) được định nghĩa như sau[4]: b a b precision + = , và c b b recall + = Trong đú:

số văn bản tỡm được = a+b

số văn bản đỳng = b+c.

Hỡnh 3.2: Minh họa cỏch tớnh precision và recall

Tổng số văn bản Tổng số văn bản tỡm được nhưng khụng đỳng Số văn bản đỳng nhưng khụng tỡm được Số văn bản tỡm được và đỳng a b c (3.16)

• Khi đại lượng precision càng tiệm cận đến 1 thỡ tập văn bản tỡm được càng cú nhiều phần tử thuộc tập văn bản đỳng, nghĩa là độ chớnh xỏc càng cao.

• Khi đại lượng recall càng tiệm cận đến 1 thỡ tập hợp văn bản đỳng càng cú nhiều phần tử thuộc tập tỡm được.

• Khi precision = 1 thỡ tập văn bản tỡm được là tập con của tập văn bản đỳng,

• Khi recall = 1 thỡ tập văn bản đỳng là tập con của tập văn bản tỡm được.

• Khi precision = recall = 1, đõy là trường hợp lý tưởng, tập văn bản tỡm được và tập văn bản đỳng hồn tồn trựng nhau, khi đú ta núi kết quả xử lý văn bản chớnh xỏc tuyệt đối.

Ngồi ra cũn cú đại lượng đỏnh giỏ hiệu suất xử lý văn bản dựa trờn thời gian hay tốc độ thực hiện bài toỏn với lượng dữ liệu đầu vào lớn. Đại lượng này chủ yếu đỏnh giỏ hiệu suất về mặt tốc độ, để đỏnh giỏ chất lượng thực sự của hệ thống thỡ cần kết hợp giữa tốc độ của thuật toỏn với hai đại lượng precisionrecall.

3.3. Phõn nhúm văn bn – Text Clustering

3.3.1. Gii thiu

Document clustering [7][8] là việc tựđộng gom nhúm cỏc văn bản vào trong cỏc cluster theo cỏch mà cỏc văn bản thuộc cựng một cluster thỡ rất giống nhau trong khi cỏc văn bản thuộc về cỏc cluster khỏc nhau thỡ sẽ rất khỏc nhau. Khụng giống với trường hợp phõn lớp dữ liệu, trong clustering văn bản khụng cú nhĩn của cỏc văn bản, do vậy clustering cũn được biết đến như là học khụng giỏm sỏt.

Số lượng cỏc nhúm văn bản được tạo ra ởđõy là chưa biết trước, người dựng cú thể chỉ ra số lượng cỏc nhúm cần phõn nhúm hoặc hệ thống sẽ tự phõn nhúm. Một trong những đặc trưng của bài toỏn này là kết quả của nú chỉ mang tớnh tương đối bởi nhiều nguyờn nhõn: Số chủ đề cú thể khụng bị hạn chế, ngồi ra mỏy chưa hềđược “học” để phõn nhúm. Bài toỏn phõn nhúm văn bản sử dụng một số phương phỏp clustering như đĩ trỡnh bày trong chương 1, tuy nhiờn trước khi thực hiện clustering cần phải biểu diễn văn bản theo một mụ hỡnh nào đú phự hợp với từng giải thuật, cỏc phương phỏp biểu diễn văn bản cũng vừa được trỡnh bày ở trờn.

Trong chương 4, ta sẽ quay lại với bài toỏn clustering sử dụng mụ hỡnh tập thụ dung sai.

3.3.2. Cỏc ng dng ca phõn nhúm văn bn

Nõng cao hiu qu thu thp tài liu: ứng dụng đầu tiờn của phõn nhúm tài liệu đĩ tồn tại trong bài toỏn thu thập tài liệu; cỏc tài liệu liờn quan đến nhau cú khuynh hướng phự hợp với cựng một truy vấn. Clustering đĩ được ỏp dụng vào một tập cỏc tài liệu trước quỏ trỡnh tỡm kiếm để phỏt hiện sự tương tự của cỏc nhúm tài liệu. Khi người dựng đưa vào một truy vấn thỡ một giải thuật thu thập thụng tin sẽ thu về cỏc tài liệu phự hợp với truy vấn đú bờn trong cỏc cluster để nõng cao tớnh gọi lại (recall).

T chc mt lượng ln cỏc tài liu: bài toỏn thu thập tài liệu hướng đến việc tỡm kiếm cỏc tài liệu phự hợp với một truy vấn đặc biệt nào đú nhưng nú khụng giải quyết được bài toỏn tạo lập ngữ nghĩa của một tập rất lớn cỏc tài liệu chưa được phõn loại. Clustering nhằm tổ chức cỏc tài liệu này theo một cỏch phõn loại chớnh xỏc.

Phỏt hin cỏc ni dung trựng lp: trong nhiều ứng dụng cần phải tỡm ra sự trựng lặp hoặc gần trựng lặp trong một lượng lớn cỏc tài liệu. Clustering nhằm phỏt hiện ra cỏc trựng lặp này, gom nhúm cỏc tin tức liờn quan và sắp xếp lại thứ tự phự hợp. Trong cỏc ứng dụng thế này thỡ mụ tả của cỏc cluster là cần thiết.

Tớch hp vi search engine: clustering cỏc kết quả tỡm kiếm được từ cỏc hệ thống tỡm kiếm khỏc như google, yahoo…, gọi là search result clustering.

3.4. Phõn loi văn bn – Text Classification

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung saii (Trang 64 - 70)

Tải bản đầy đủ (PDF)

(127 trang)