4 Chương 2 Bài toỏn phõn loại văn bản
4.3.2 Phương phỏp biểu diễn văn bản dựa trờn khỏi niệm mờ
Trong phạm vi của đề tài này tỏc giả khụng đi chi tiết vào rất nhiều khỏi niệm cơ bản trong tập mờ nờn chỉ xin phộp giới thiệu qua phương phỏp này.
Xột tập cỏc văn bản D = {d1, d2,…dn} và tập cỏc thuật ngữ K = {k1, k2,…km}. Sự liờn quan của cỏc thuật ngữ tới một văn bản được xỏc định tương ứng bằng cỏch sử dụng một phương phỏp đỏnh chỉ số thụng qua một giỏ trị gọi là hàm thuộc
(membership function) μA(x) nào đú đó biết:
)} ( μ ),... ( μ ), ( {μK 1 K 2 K m K = k k k à
Giỏ trị của hàm àK thường được chuẩn húa cỏc vào khoảng [0,1]. Dựa trờn cỏc
hàm thuộc này người ta xõy dựng hàm tớch hợp khỏi niệm mờ F để biểu diễn văn bản.
Vớ dụ: Xột cỏc thuật ngữ: “mỏy tớnh”, “phần cứng”, “phần mềm”, “CPU”, “chuột”, “thiết kế”, “cài đặt” trong văn bản sau.
Sinh viờn thực hiện : Trần Quý Giỏp K47 Lớp CNPM Trang
wij Mỏy tớnh Internet Thịt gà Quần bũ Cỏ Lụng cừu
d0(CNTT) 2 3 0 0 0 0
d1(Nụng nghiệp) 0 0 4 0 1 1
d2(Cụng nghiệp) 0 0 0 6 0 2
30
Ngày nay, mỏy tớnh đó xõm nhập rất sõu vào cuộc sống của chỳng ta. Với sự phỏt triển mạnh mẽ của khoa học kỹ thuật, cỏc linh kiện
phần cứng như chuột, CPU, …ngày càng rẻ đi đó làm cho giỏ thành của mỏy tớnh rẻ hơn rất nhiều. Bờn cạnh đú, những phần mềm mỏy tớnh ngày càng tinh vi, phức tạp hỗ trợ rất nhiều cho phần cứng làm cho cả hệ thống trở nờn mạnh mẽ hơn. Song song với nú, việc cài đặt cỏc
“linh kiện” “phần mềm” 0.45 0.375 “mỏy tớnh” “phần cứng” “phần mềm” 0.3 0.5 0.4 “CPU” “chuột” “thiết kế” 0.1 0.9 0.2 “cài đặt” 0.6
Hỡnh 2.6. Vớ dụ biểu diễn văn bản dựa trờn khỏi niệm mờ Giả sử xột:
K = {“mỏy tớnh”, “phần cứng”, “phần mềm”, “CPU”, “chuột”, “thiết kế”, “cài đặt”}
μ = {μ(“mỏy tớnh”), μ(“phần cứng”), μ(“phần mềm”), μ(“CPU”),
μ(“chuột”), μ(“thiết kế”), μ(“cài đặt”)} = {0.3, 0.5, 0.4, 0.1, 0.9, 0.2, 0.6}.
Khi đú:
Xột khỏi niệm ~t= “linh kiện”= {“ mỏy tớnh”, “phần cứng”, “CPU”, “chuột”}. Độ quan trọng của khỏi niệm “linh kiện” đối với văn bản được xỏc định là:
μ(“linh kiện”) = F(μ(“mỏy tớnh”), μ(“phần cứng”), μ(“CPU”), μ(“chuột”))
μ(“linh kiện”)=AVEG(0.3, 0.5, 0.1, 0.9)=0.45 (với hàm tớch hợp trung
bỡnh )
Xột khỏi niệm ~t= “phần mềm” := {“ mỏy tớnh”, “phần mềm”, “thiết kế”, “cài
đặt”}. Độquan trọng của khỏi niệm “phần mềm” đối với văn bản được xỏc định
là:
μ(“phần mềm”) = F(μ(“mỏy tớnh”), μ(“phần mềm”), μ(“thiết kế”), μ(“cài đặt”))
μ(“phần mềm”)=AVEG(0.3, 0.4, 0.2, 0.6)=0.375.
Như vậy, bài toỏn xử lý văn bản trờn tập mờ núi chớnh xỏc hơn chớnh là lưu trữ và xử lý trờn cỏc khỏi niệm thay vỡ phải làm việc trờn cỏc thuật ngữ. Việc lưu trữ và xử lý trờn cỏc khỏi niệm sẽ cho ra cỏc kết quả tốt hơn và hiệu quả hơn, giải quyết rất nhiều vấn đề, chẳng hạn như từ đồng nghĩa, tuy nhiờn vấn đề tớnh hàm phụ thuộc giữa cỏc khỏi niệm và thuật ngữ vẫn cũn là một vấn đề khụng dễ giải quyết.
4.4 Kết chương
Trong chương này chỳng ta vẫn ở mức độ tổng quan tỡm hiểu về cỏc thuật toỏn sử dụng trong cỏc bài toỏn xử lý văn bản. Những thuật toỏn này tuy vào cỏc bài toỏn khỏc nhau mà được sử dụng phự hợp với nú. Chỳng ta đặc biệt quan tõm đến “phõn
lý vector thưa”. Những giải thuật này được sử dụng trong chương trỡnh chớnh của đồ ỏn.