4 Chương 2 Bài toỏn phõn loại văn bản
4.3.1.1 Mụ hỡnh Boolean
Một mụ hỡnh biểu diễn vector với hàm f cho ra giỏ trị rời rạc với duy nhất hai giỏ trị đỳng và sai (true và false, hoặc 0 và 1) gọi là mụ hỡnh Boolean. Hàm f tương ứng với thuật ngữ ti sẽ cho ra giỏ trị đỳng nếu và chỉ nếu thuật ngữ ti xuất hiện trong văn bản đú.
Mụ hỡnh Boolean được định nghĩa như sau:
“Giả sử cú một cơ sở dữ liệu gồm m văn bản, D= {d1, d2,… dm}. Mỗi văn bản được biểu diễn dưới dạng một vector gồm n thuật ngữ T= {t1, t2,…tn}. Gọi W= {wij}
là ma trận trọng số, trong đú wij là giỏ trị trọng số của thuật ngữ ti trong văn bản dj. Mụ hỡnh Boolean là mụ hỡnh đơn giản nhất được xỏc định như sau:
= lại ng ợc nếu trong mặt có nếu 0 d t 1 wij i j (1.1) 4.3.1.2 Mụ hỡnh tần số
Trong mụ hỡnh tần số, ma trận W = {wij} được xỏc định dựa trờn tần số xuất hiện của thuật ngữ ti trong văn bản dj hoặc tần số xuất hiện của thuật ngữ ti trong toàn bộ cơ sở dữ liệu.
Cú ba phương phỏp:
1. Phương phỏp dựa trờn tần số thuật ngữ TF (Term Frequency)
2. Phương phỏp dựa trờn nghịch đảo tần số văn bản IDF (Inverse Document Frequency)
1. Phương phỏp dựa trờn tần số thuật ngữ TF (Term Frequency)
Cỏc giỏ trị wij được tớnh dựa trờn tần số xuất hiện của thuật ngữ trong văn bản. Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj, khi đú wij được tớnh bởi một trong ba cụng thức (1.2), (1.3), (1.4):
wij = fij (1.2)
wij = 1 + log(fij) (1.3)
wij = fij
(1.4)
Trong phương phỏp này, trọng số wij tỷ lệ thuận với số lần xuất hiện của thuật ngữ ti trong văn bản dj. Khi số lần xuất hiện thuật ngữ ti trong văn bản dj càng lớn thỡ điều đú cú nghĩa là văn bản dj càng phụ thuộc vào thuật ngữ ti, hay núi cỏch khỏc thuật ngữ ti mang nhiều thụng tin trong văn bản dj. Vớ dụ: khi văn bản xuất hiện nhiều thuật ngữ mỏy tớnh, điều đú cú nghĩa là văn bản đang xột chủ yếu liờn quan đến lĩnh vực tin học.
Phương phỏp dựa trờn nghịch đảo tần số văn bản IDF(Inverse Document Frequency)
Trong phương phỏp này, giỏ trị wij được tớnh theo cụng thức (1.5) sau:
= − = lại ng ợc nếu liệu tài trong xuất hiện thuật ng nếu 0 d t h m h m
wij log i log( ) log( i) i j (1.5)
trong đú m là số lượng văn bản và hi là số văn bản mà thuật ngữ ti xuất hiện.
Trọng số wij trong cụng thức này được tớnh dựa trờn độ quan trọng của thuật ngữ ti trong văn bản dj. Nếu ti xuất hiện trong càng ớt văn bản, điều đú cú nghĩa là nếu nú xuất hiện trong dj thỡ trọng số của nú đối với văn bản dj càng lớn hay nú là điểm quan trọng để phõn biệt văn bản dj với cỏc văn bản khỏc và hàm lượng thụng tin trong nú càng lớn. Vớ dụ: cỏc thuật ngữ “tiền đạo”, “hậu vệ”, “thủ mụn” chỉ xuất hiện trong cỏc bài bỏo núi về lĩnh vực búng đỏ. Như vậy, hàm lượng thụng tin về
búng đỏ chứa đựng trong cỏc thuật ngữ trờn là rất lớn.
Phương phỏp TF ì IDF
Phương phỏp này là tổng hợp của hai phương phỏp TF và IDF, giỏ trị của ma trận trọng số được tớnh như (1.6) (tổ hợp của cỏc cụng thức (1.3) và (1.5)).
≥ + = lại ng ợc nếu nếu 1 0 h h m f w ij i ij ij 1 log )] log( [ (1.6)
Phương phỏp này kết hợp được ưu điểm của cả hai phương phỏp trờn. Trọng số
wij được tớnh bằng tần số xuất hiện của thuật ngữ ti trong văn bản dj và độ hiếm của thuật ngữ ti trong toàn bộ cơ sở dữ liệu. Đõy cũng chớnh là phương phỏp biểu diễn văn bản tỏc giả sử dụng trong luận văn nghiờn cứu này
4.3.1.3 Phương phỏp xử lý vector thưa
Theo mụ hỡnh vector chuẩn, việc xử lý cỏc phộp toỏn trờn vector sẽ phụ thuộc vào độ lớn của ma trận Wnm, ở đõy n là số lượng thuật ngữ hay số chiều của vector và m là số lượng văn bản cú trong cơ sở dữ liệu. Trờn thực tế, số lượng thuật ngữ và số văn bản cú thể lờn đến vài chục nghỡn. Khi đú số lượng phần tử trong ma trận
Wnm sẽ lờn đến con số trăm triệu và việc lưu trữ ma trận Wnm sẽ tốn quỏ nhiều tài nguyờn bộ nhớ đồng thời cỏc phộp toỏn trờn cỏc vector sẽ rất phức tạp. Để khắc phục vấn đề này cú thể sử dụng kỹ thuật xử lý trờn vector thưa thay vỡ việc lưu trữ và xử lý trờn cỏc vector chuẩn.
Cỏc điều kiện để cú thể ỏp dụng phương phỏp vector thưa:
Cỏc vector thực sự thưa: số phần tử cú trọng số khỏc 0 nhỏ hơn rất nhiều so với số thuật ngữ trong cơ sở dữ liệu.
Phộp xử lý vector là đơn giản nhất: số vector cựng bị tỏc động trong một phộp xử lý cơ bản là nhỏ nhất. Thường số vector bị tỏc động này được quy định tối đa là 3 hoặc 4.
Trờn thực tế, số thuật ngữ xuất hiện trong một văn bản thường dưới 1000. Đối với cỏc văn bản dài và đa chủ đề thỡ số thuật ngữ xuất hiện cú thể nhiều hơn. Trong khi đú, số lượng thuật ngữ cú trong từ điển cú thể đến 100,000 từ. Đõy chớnh là điều kiện để ỏp dụng phương phỏp vector thưa đối với điều kiện đầu tiờn. Việc thỏa món điều kiện thứ hai cũn phụ thuộc vào thuật toỏn ỏp dụng trong quỏ trỡnh xử lý.
Bảng 2.2.Vớ dụ biểu diễn vector thưa
Đối với vector chuẩn:
d0 =(2, 3, 0, 0, 0, 0); d1 = (0, 0, 4, 0, 1, 1); d2 = (0, 0, 0, 6, 0, 2)
Đối với vector thưa:
d0 =((1, 2), (2, 3)); d1 = ((3,4), (5,1), (6,1)); d2 = ((4,6), (6,2))
Kiểu phần tử của vector thưa cú thay đổi so với vector chuẩn. Mỗi phần tử gồm hai giỏ trị là mó biểu diễn thuật ngữ và giỏ trị trọng số tương ứng thuật ngữ đú. Vớ dụ: phần tử(6, 2) trong văn bản d2 chỉ ra thuật ngữ cú mó 6(“lụng cừu”)cú trọng số là 2
4.3.2 Phương phỏp biểu diễn văn bản dựa trờn khỏi niệm mờ
Trong phạm vi của đề tài này tỏc giả khụng đi chi tiết vào rất nhiều khỏi niệm cơ bản trong tập mờ nờn chỉ xin phộp giới thiệu qua phương phỏp này.
Xột tập cỏc văn bản D = {d1, d2,…dn} và tập cỏc thuật ngữ K = {k1, k2,…km}. Sự liờn quan của cỏc thuật ngữ tới một văn bản được xỏc định tương ứng bằng cỏch sử dụng một phương phỏp đỏnh chỉ số thụng qua một giỏ trị gọi là hàm thuộc
(membership function) μA(x) nào đú đó biết:
)} ( μ ),... ( μ ), ( {μK 1 K 2 K m K = k k k à
Giỏ trị của hàm àK thường được chuẩn húa cỏc vào khoảng [0,1]. Dựa trờn cỏc
hàm thuộc này người ta xõy dựng hàm tớch hợp khỏi niệm mờ F để biểu diễn văn bản.
Vớ dụ: Xột cỏc thuật ngữ: “mỏy tớnh”, “phần cứng”, “phần mềm”, “CPU”, “chuột”, “thiết kế”, “cài đặt” trong văn bản sau.
Sinh viờn thực hiện : Trần Quý Giỏp K47 Lớp CNPM Trang
wij Mỏy tớnh Internet Thịt gà Quần bũ Cỏ Lụng cừu
d0(CNTT) 2 3 0 0 0 0
d1(Nụng nghiệp) 0 0 4 0 1 1
d2(Cụng nghiệp) 0 0 0 6 0 2
30
Ngày nay, mỏy tớnh đó xõm nhập rất sõu vào cuộc sống của chỳng ta. Với sự phỏt triển mạnh mẽ của khoa học kỹ thuật, cỏc linh kiện
phần cứng như chuột, CPU, …ngày càng rẻ đi đó làm cho giỏ thành của mỏy tớnh rẻ hơn rất nhiều. Bờn cạnh đú, những phần mềm mỏy tớnh ngày càng tinh vi, phức tạp hỗ trợ rất nhiều cho phần cứng làm cho cả hệ thống trở nờn mạnh mẽ hơn. Song song với nú, việc cài đặt cỏc
“linh kiện” “phần mềm” 0.45 0.375 “mỏy tớnh” “phần cứng” “phần mềm” 0.3 0.5 0.4 “CPU” “chuột” “thiết kế” 0.1 0.9 0.2 “cài đặt” 0.6
Hỡnh 2.6. Vớ dụ biểu diễn văn bản dựa trờn khỏi niệm mờ Giả sử xột:
K = {“mỏy tớnh”, “phần cứng”, “phần mềm”, “CPU”, “chuột”, “thiết kế”, “cài đặt”}
μ = {μ(“mỏy tớnh”), μ(“phần cứng”), μ(“phần mềm”), μ(“CPU”),
μ(“chuột”), μ(“thiết kế”), μ(“cài đặt”)} = {0.3, 0.5, 0.4, 0.1, 0.9, 0.2, 0.6}.
Khi đú:
Xột khỏi niệm ~t= “linh kiện”= {“ mỏy tớnh”, “phần cứng”, “CPU”, “chuột”}. Độ quan trọng của khỏi niệm “linh kiện” đối với văn bản được xỏc định là:
μ(“linh kiện”) = F(μ(“mỏy tớnh”), μ(“phần cứng”), μ(“CPU”), μ(“chuột”))
μ(“linh kiện”)=AVEG(0.3, 0.5, 0.1, 0.9)=0.45 (với hàm tớch hợp trung
bỡnh )
Xột khỏi niệm ~t= “phần mềm” := {“ mỏy tớnh”, “phần mềm”, “thiết kế”, “cài
đặt”}. Độquan trọng của khỏi niệm “phần mềm” đối với văn bản được xỏc định
là:
μ(“phần mềm”) = F(μ(“mỏy tớnh”), μ(“phần mềm”), μ(“thiết kế”), μ(“cài đặt”))
μ(“phần mềm”)=AVEG(0.3, 0.4, 0.2, 0.6)=0.375.
Như vậy, bài toỏn xử lý văn bản trờn tập mờ núi chớnh xỏc hơn chớnh là lưu trữ và xử lý trờn cỏc khỏi niệm thay vỡ phải làm việc trờn cỏc thuật ngữ. Việc lưu trữ và xử lý trờn cỏc khỏi niệm sẽ cho ra cỏc kết quả tốt hơn và hiệu quả hơn, giải quyết rất nhiều vấn đề, chẳng hạn như từ đồng nghĩa, tuy nhiờn vấn đề tớnh hàm phụ thuộc giữa cỏc khỏi niệm và thuật ngữ vẫn cũn là một vấn đề khụng dễ giải quyết.
4.4 Kết chương
Trong chương này chỳng ta vẫn ở mức độ tổng quan tỡm hiểu về cỏc thuật toỏn sử dụng trong cỏc bài toỏn xử lý văn bản. Những thuật toỏn này tuy vào cỏc bài toỏn khỏc nhau mà được sử dụng phự hợp với nú. Chỳng ta đặc biệt quan tõm đến “phõn
lý vector thưa”. Những giải thuật này được sử dụng trong chương trỡnh chớnh của đồ ỏn.
5 Chương 3. Tổng quan về tập mẫu
5.1 Khỏi niệm về tập mẫu
Test collection – tập mẫu là một khỏi niệm rất rừ ràng. Tập mẫu cú thể là một tập hợp cỏc văn bản trong bài toỏn về xử lý văn bản, cú thể là một tập hợp cỏc hỡnh ảnh trong bài toỏn xử lý hỡnh ảnh, hay đơn giản hơn, là một tập hợp cỏc file õm thanh giọng núi trong bài toỏn xử lý tiếng núi… Trong bất kỳ một bài toỏn nào, từ xử lý văn bản đến xử lý ngụn ngữ, một hệ thống chỉ được coi là tốt nếu như ta cú thể đỏnh giỏ được tớnh chớnh xỏc của nú. Chớnh vỡ vậy mà tập mẫu được xõy dựng để đỏp ứng yờu cầu đú. Một tập mẫu sẽ cung cấp cỏc tập dữ liệu khỏc nhau, bao gồm tập dữ liệu học và tập dữ liệu kiểm tra. Một hệ thống chỉ cú thể coi là hoạt động tốt nếu như nú được kiểm nghiệm là đỳng trờn một tập mẫu tốt.
Xột một cỏch cụ thể, trong bài toỏn thu thập thụng tin (Information Retrieval - IR), một hệ thống IR cú thể là cỏc ứng dụng cụ thể, cỏc hệ thống hoạt động trong phũng thớ nghiệm hay cỏc thuật toỏn. Để đỏp ứng được nhu cầu kiểm thử cỏc hệ thống này ta cần phải xõy dựng cỏc văn bản kiểm tra và cỏc văn bản học. Nhưng quỏ trỡnh xõy dựng văn bản học này rất khú khăn. Ta khụng thể với mỗi hệ thống lại xõy dựng một tập cỏc văn bản mới như vậy, do đú chỳng ta cần một tập mẫu chuẩn,
một tập mẫu cú thể đỏp ứng sử dụng trong nhiều hệ thống. Như vậy, ta cú thể định nghĩa tập mẫu chuẩn như sau:
Tập mẫu –test collection là một tập hợp dữ liệu, thuộc về một lĩnh vực nghiờn
cứu cụ thể (văn bản, ngụn ngữ hay tiếng núi), được tạo ra với mục đớch nghiờn cứu nhằm chuẩn húa và kiểm nghiệm tớnh chớnh xỏc của một bài toỏn, một thuật toỏn chưa xỏc định trước. Tập dữ liệu của tập mẫu bao gồm cỏc dữ liệu học (tranning) và dữ liệu kiểm tra (test). Tập mẫu cũng cú thể đưa ra cỏc đỏnh giỏ liờn quan đến bài toỏn hay thuật toỏn xỏc định.
Nội dung :
3.1. Khỏi niệm về tập mẫu. 3.2. Đặc điểm của tập mẫu.
3.3.Cỏc tập mẫu xử lý văn bản tiếng anh. 3.4 Kết chương.
5.2 Đặc điểm của tập mẫu
Như vậy, một tập mẫu cú thể hiểu đơn giản là một tập hợp cỏc dữ liệu cú thể được sử dụng để học (training) và kiểm nghiệm (test). 0Chỳng ta đó cú tập mẫu, nhưng để đảm bảo độ chớnh xỏc cao trong kết quả cuối cựng thỡ khụng chỉ cần một thuật toỏn tốt, đỏng tin cậy mà cũn phải cú cần cú một tập mẫu tốt hay núi cỏch khỏc tập mẫu đú phải đạt được cỏc điều kiện quy định về tập mẫu. Điều kiện đủ của một tập mẫu tốt cũn là: nguồn gốc, tớnh đầy đủ và cuối cựng là tớnh hiệu quả.
5.2.1 Nguồn gốc
Một vấn đề luụn luụn được đặt ra khi xõy dựng một tập mẫu, cho dự là tập mẫu về văn bản, hỡnh ảnh hay tiếng núi, đú là dữ liệu sẽ được lấy ở đõu? Nguồn gốc của một tập mẫu chớnh là nơi mà người xõy dựng tập mẫu lấy về từ đú cỏc dữ liệu thụ để tinh chỉnh thành cỏc dữ liệu dựng trong tập mẫu. Do đú, nếu nguồn gốc của dữ liệu cú được là một nơi đỏng tin cậy, cơ sở dữ liệu lớn(vớ dụ: Reuter hay AFP) thỡ tập mẫu chắc chắn sẽ cú cỏc văn bản đầy đủ và khỏ chớnh xỏc.
5.2.2 Tớnh đầy đủ
Nhưng nếu như tập mẫu chỉ cú nguồn dữ liệu tốt và chớnh xỏc, một nguồn dữ liệu tin cậy được như đó núi ở trờn thỡ vẫn khụng thể khẳng định được tập mẫu của ta đó tốt. Chớnh quỏ trỡnh xõy dựng tập mẫu sẽ quyết định tập mẫu tốt hay khụng. Một tập mẫu tốt nếu như tập mẫu đú cung cấp đủ cỏc thành phần mà người dựng cần. Tức là tập mẫu của ta phải cú văn bản học thỡ đỳng là văn bản học, văn bản để kiểm tra thỡ đỳng là văn bản kiểm tra. Cỏc dữ liệu trong tập mẫu phải cú nhiệm vụ và vị trớ rừ ràng, khụng cú sự mập mờ cũng như dư thừa hay thiếu sút.
5.2.3 Tớnh hiệu quả
Đõy là điều kiện quan trọng vào bậc nhất của một tập mẫu. Một tập mẫu chỉ cú thể được coi là tốt và được khuyến khớch sử dụng nếu như cỏc dữ liệu của nú thực sự đem lại hiệu quả. Tớnh hiệu quả được đỏnh giỏ trờn hai mặt: đú là tốc độ và sự chớnh xỏc. Với hai tập mẫu như nhau, nếu ta cựng kiểm nghiệm một thuật toỏn hay một thuật toỏn thỡ việc sử dụng tập mẫu với thời gian tớnh nhanh hơn sẽ giỳp ta tiết kiệm thời gian. Nhưng nếu chỉ nhanh thỡ khụng đủ. Điều ta cần là phải chớnh xỏc. Do đú hai điều kiện này luụn đi với nhau.
Tớnh hiệu quả của một tập mẫu sẽ được tăng lờn qua một thời gian dài sử dụng và liờn tục chỉnh sửa. Để thu được một phiờn bản tập mẫu hoàn chỉnh và cú hiệu quả cao cần cú một thời gian dài nghiờn cứu, xõy dựng và phỏt triển. Và chớnh cỏc kết quả thực nghiệm tập mẫu sẽ khẳng định tập mẫu cú hiệu quả hay khụng, và cụ thể hơn, cú dựng được hay khụng
Kiểm nghiệm thực tế sẽ cho ta biết một tập mẫu cú thể được coi là tốt hay khụng. Ta sẽ kiểm nghiệm tập mẫu cú hoạt động chớnh xỏc với cỏc thuật toỏn đó được chứng minh là đỳng hay khụng. Hay núi khỏc đi, ta sẽ dựng chớnh thuật toỏn để kiểm nghiệm tập mẫu. Hầu hết cỏc ứng dụng hay thuật toỏn đều dựa trờn một
nghiờn cứu hay thuật toỏn đó cú trước đú. Vỡ vậy, kết quả thực nghiệm trờn một thuật toỏn phổ biến sẽ đem lại sự đỏnh giỏ chớnh xỏc về tập mẫu và giỳp ta xem xột cần phải chỉnh sửa những gỡ cho phự hợp với yờu cầu.
5.3 Cỏc tập mẫu xử lý văn bản tiếng anh.
Phõn lớp văn bản - text categorization là quỏ trỡnh tự động phõn chia cỏc văn bản ngụn ngữ tự nhiờn vào cỏc cỏc phõn lớp dựa trờn nội dung và được ứng dụng nhiều trong xử lý thụng tin như đỏnh chỉ số từ vựng cú điều khiển (controlled vocabulary indexing), định hướng và đúng gúi thụng tin, lọc nội dung, an toàn thụng tin … Bài toỏn phõn lớp cũn liờn quan nhiều đến cỏc bài toỏn khỏc như trộn thụng tin, khai phỏ dữ liệu…
Khi tiến hành nghiờn cứu và ứng dụng cỏc bài toỏn phõn lớp văn bản, một yờu cầu đặt ra là cần cú một tập mẫu để kiểm thử kết quả. Tập mẫu cho bài toỏn phõn lớp đó được hỡnh thành để đỏp ứng yờu cầu đú
Cỏc bài toỏn phõn lớp văn bản, cũng như cỏc bài toỏn xử lý ngụn ngữ tự nhiờn khỏc, rất cần cú một tập mẫu chuẩn để cú thể kiểm nghiệm tớnh đỳng đắn cũng như