Phương phỏp biểu diễn văn bản dựa trờn khỏi niệm mờ

Một phần của tài liệu XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT (Trang 30)

4 Chương 2 Bài toỏn phõn loại văn bản

4.3.2Phương phỏp biểu diễn văn bản dựa trờn khỏi niệm mờ

Trong phạm vi của đề tài này tỏc giả khụng đi chi tiết vào rất nhiều khỏi niệm cơ bản trong tập mờ nờn chỉ xin phộp giới thiệu qua phương phỏp này.

Xột tập cỏc văn bản D = {d1, d2,…dn} và tập cỏc thuật ngữ K = {k1, k2,…km}. Sự liờn quan của cỏc thuật ngữ tới một văn bản được xỏc định tương ứng bằng cỏch sử dụng một phương phỏp đỏnh chỉ số thụng qua một giỏ trị gọi là hàm thuộc

(membership function) μA(x) nào đú đó biết:

)} ( μ ),... ( μ ), ( {μK 1 K 2 K m K = k k k à

Giỏ trị của hàm àK thường được chuẩn húa cỏc vào khoảng [0,1]. Dựa trờn cỏc

hàm thuộc này người ta xõy dựng hàm tớch hợp khỏi niệm mờ F để biểu diễn văn bản.

Vớ dụ: Xột cỏc thuật ngữ: “mỏy tớnh”, “phần cứng”, “phần mềm”, “CPU”, “chuột”, “thiết kế”, “cài đặt” trong văn bản sau.

Sinh viờn thực hiện : Trần Quý Giỏp K47 Lớp CNPM Trang

wij Mỏy tớnh Internet Thịt gà Quần bũ Cỏ Lụng cừu

d0(CNTT) 2 3 0 0 0 0

d1(Nụng nghiệp) 0 0 4 0 1 1

d2(Cụng nghiệp) 0 0 0 6 0 2

30

Ngày nay, mỏy tớnh đó xõm nhập rất sõu vào cuộc sống của chỳng ta. Với sự phỏt triển mạnh mẽ của khoa học kỹ thuật, cỏc linh kiện

phần cứng như chuột, CPU, …ngày càng rẻ đi đó làm cho giỏ thành của mỏy tớnh rẻ hơn rất nhiều. Bờn cạnh đú, những phần mềm mỏy tớnh ngày càng tinh vi, phức tạp hỗ trợ rất nhiều cho phần cứng làm cho cả hệ thống trở nờn mạnh mẽ hơn. Song song với nú, việc cài đặt cỏc

“linh kiện” “phần mềm” 0.45 0.375 “mỏy tớnh” “phần cứng” “phần mềm” 0.3 0.5 0.4 “CPU” “chuột” “thiết kế” 0.1 0.9 0.2 “cài đặt” 0.6

Hỡnh 2.6. Vớ dụ biểu diễn văn bản dựa trờn khỏi niệm mờ Giả sử xột:

K = {“mỏy tớnh”, “phần cứng”, “phần mềm”, “CPU”, “chuột”, “thiết kế”, “cài đặt”}

μ = {μ(“mỏy tớnh”), μ(“phần cứng”), μ(“phần mềm”), μ(“CPU”),

μ(“chuột”), μ(“thiết kế”), μ(“cài đặt”)} = {0.3, 0.5, 0.4, 0.1, 0.9, 0.2, 0.6}.

Khi đú:

 Xột khỏi niệm ~t= “linh kiện”= {“ mỏy tớnh”, “phần cứng”, “CPU”, “chuột”}. Độ quan trọng của khỏi niệm “linh kiện” đối với văn bản được xỏc định là:

μ(“linh kiện”) = F(μ(“mỏy tớnh”), μ(“phần cứng”), μ(“CPU”), μ(“chuột”))

μ(“linh kiện”)=AVEG(0.3, 0.5, 0.1, 0.9)=0.45 (với hàm tớch hợp trung

bỡnh )

 Xột khỏi niệm ~t= “phần mềm” := {“ mỏy tớnh”, “phần mềm”, “thiết kế”, “cài

đặt”}. Độquan trọng của khỏi niệm “phần mềm” đối với văn bản được xỏc định

là:

μ(“phần mềm”) = F(μ(“mỏy tớnh”), μ(“phần mềm”), μ(“thiết kế”), μ(“cài đặt”))

μ(“phần mềm”)=AVEG(0.3, 0.4, 0.2, 0.6)=0.375.

Như vậy, bài toỏn xử lý văn bản trờn tập mờ núi chớnh xỏc hơn chớnh là lưu trữ và xử lý trờn cỏc khỏi niệm thay vỡ phải làm việc trờn cỏc thuật ngữ. Việc lưu trữ và xử lý trờn cỏc khỏi niệm sẽ cho ra cỏc kết quả tốt hơn và hiệu quả hơn, giải quyết rất nhiều vấn đề, chẳng hạn như từ đồng nghĩa, tuy nhiờn vấn đề tớnh hàm phụ thuộc giữa cỏc khỏi niệm và thuật ngữ vẫn cũn là một vấn đề khụng dễ giải quyết.

4.4 Kết chương

Trong chương này chỳng ta vẫn ở mức độ tổng quan tỡm hiểu về cỏc thuật toỏn sử dụng trong cỏc bài toỏn xử lý văn bản. Những thuật toỏn này tuy vào cỏc bài toỏn khỏc nhau mà được sử dụng phự hợp với nú. Chỳng ta đặc biệt quan tõm đến “phõn

lý vector thưa”. Những giải thuật này được sử dụng trong chương trỡnh chớnh của đồ ỏn.

Một phần của tài liệu XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT (Trang 30)