5.3.1. C i đặt chà ơng trình
Chơng trình đợc cài đặt trên ngôn ngữ Java, lý do em chọn ngôn ngữ này vì tốc độ xử lý nhanh, và có khả năng hỗ trợ cho nhiều loại font văn bản. và có thể lấy trên nhiều trang web
5.3.2. Lựa chọn và tính trọng số của từ đặc trng trong văn bản tiếng Việt
Kết quả phân tích, đánh giá hai phơng pháp tách từ trong chơng 2, cho thấy phơng pháp tách từ sử dụng mô hình Markov ẩn cho kết quả phân loại chính xác hơn. Nên em sử dụng kết quả tách từ trrong văn bản tiếng Việt
của phơng pháp này nh là đầu vào của bài toán phân loại.
Số lợng từ trong từ điển tiếng Việt là rất lớn (hơn 70. 000 từ), nhng không phải tất cả các từ có mặt trong từ điển đều xuất hiện trong tập văn bản huấn luyện. Ngợc lại, có nhiều từ xuất hiện trong văn bản, có ý nghĩa quan trọng đối với việc phân loại văn bản, nhng lại không có trong từ điển, ví dụ nh unesco, HTX (hợp tác xã), Euro, France 98, world cup,... Do đó để giảm số chiều trong quá trình tính toán, và tăng chất lợng các từ đặc trng, em xin đề xuất một phơng pháp để giảm số chiều khi biểu diẽn các văn bản tiếng Việt nh sau:
- Bớc 1: Vì các dấu câu (nh,. () ?... ), các con số, và các phụ từ, trợ từ là những từ xuất hiện trong hầu hết các văn bản nên không đợc coi là các đặc trng để phân biệt văn bản này với văn bản khác. Do đó, với mỗi văn bản chúng tôi chỉ chọn những từ, trợ từ, không phải là con số hay dấu câu. Tập tất cả các từ xuất hiện trong cac văn bản huâns luyện mà không phải phụ từ, trợ từ, con số hay dấu câu đợc gọi là tập từ điển ban đầu, kí hiệu Dr
- Bớc 2: Với số lợng văn bản lớn, thì những từ có tần xuất văn bản thấp không đợc coi là đặc trng để biểu diễn văn bản đối với bài toán phân loại văn bản. Bởi vậy trong bớc này, chúng tôi thực hiện lựa chọn tập từ đặc trng T, từ tập từ điển ban đầu Dr nh sau: T = {t∈Dr\#t ≥ k và IG (t, c) ≥ θ}, trong đó #t là số lần suất hiện của t trong toàn bộ tập huấn luyện, IG (t, c) là lợi nhuận thôngg tin của từ t đối với phân loại c (tính theo công thc Information Gain), k là ngỡng chỉ xuất hiện của t trong tập dữ liệu huấn luyện, θ là ngỡng để đánh giá lợi nhuận thông tin của từ t đối với phân loại c. Tập các từ trong T, đợc coi là các đặc trng để biểu diễn các văn bản của tập dữ liệu huấn luyện cũng nh tập dữ liệu kiểm tra - Bớc 3: Mỗi văn bản diđợc biểu diễn tơng ứng với một vector xi= (wi1, wi2,..., wi|T|), trong đó wij là trọng số của từ tj trong văn bản di, (tj∈T).
Nhận xét: Quá trình huấn luyện để lựa tron các từ đặc trng, và biểu diễn văn bản huấn luyện chỉ đợc thực hiện một lần, nhng kết quả của nó phải dùng đợc cho rất nhiều tập dữ liệu kiểm tra khác. Hơn nữa, chỉ các từ trong tập T mới đợc dùng làm đặc trng để biểu diễn các văn bản trong tập dữ liệu kiểm tra.
Bởi vậy, trong chơng trình của em, quá trình mô tả lại các văn bản huấn luyện, sử dụng các đặc trng này để biểu diễn văn bản huấn luyện, và sử dụng các từ đặc trng T từ tập các văn bản huấn luyện, và sử dụng các từ đặc trng này để biểu diễn các văn bản huấn luyện. Modul thứ 2, sử dụng các từ đặc trng T để biểu diễn các văn bản của tập huấn luyện. Cụ thể cách thực hiện của hai modul này nh sau:
Modul 1:
Input: Tập các văn bản trong tập huấn luyện đã đợc tách từ, ngỡng k để xác định tần xuất văn bản của từ trong tập dữ liệu huấn luyện, ngỡng θ để đánh giá lợi nhuận thông tin của các từ trong tập văn bản huấn luyện.
Thuật toán:
Bớc1: Với mỗi văn bản, đọc các từ trong văn bản đếm số lần xuất hiện của mỗi từ (mà không phải là phụ từ, trợ từ, dấu câu, con số,... ) trong văn bản, và lu các từ này vào danh sách từ điển ban đầu Dr.
Bớc2: Chọn tập đặc trng T
T={t∈ Dr\#t≥k và IG (t, c) ≥ θ}, trong đó #t là tần số xuất hiện cảu t trong toàn bộ tập dữ liệu huấn luyện IG (t, c) là lợi nhậu thông tin của từ t đối với phân loại c (tính theo công thức Information Gain), k là ngỡng chỉ số lần xuất hiện của t trong tập dữ liệu huấn luyện, θ là ngỡng để đánh giá lợi nhuận thông tin của từ t đối với phân loại c.
Bớc 3: Tính trọng số của các từ t∈T trong mỗi văn bản của tập huấn luyện, bằng công thức (2.10). Mỗi văn bản di đợc biểu diễn băng 1 vector
xi= (wi1, wi2,..., win), trong đó wij là trọng số của từ tj trong văn bản di. Bớc 4: Lu lại tập các từ đặc trng T, và tập các vector biểu diễn văn bản huấn luyện VTr
Modul 2:
Input: Các văn bản của tập dữ liệu kiểm tra đã đợc tách từ. Tập các từ đặc tr- ng T ={t1, t2,... tn} (kết quả lựa chọn của modul).
Output: Tập các vector biểu diễn văn bản của tập dữ liệu kiểm tra VTs. thuật toán:
Bớc 2: Tính trọng số của các từ t∈T trong mỗi văn bản bằng công thức (2.10). Mỗi văn bản di đợc biểu diễn bằg một vector
xi= (wi1, wi2,..., win), trong đó wij là trọng số của từ tj trong văn bản di. Bớc 3: Lu lại tập các vector biểu diễn các văn bản kiểm tra VTs.
Đánh giá: Sau khi thực hiện modul 1, các thuật ngữ trong T đợc giảm đáng kể so với Dr. Ví dụ, trong thực nghiệm của em với 700 văn bản huấn luyện, thì số đặc trng trong T là 1336 từ, trong khi đó số từ trong Dr là 26886 từ. Vì số chiều trong T đợc giảm nhiều, nên việc biểu diễn các văn bản kiểm tra trong modul 2, đợc thực hiện đơn giản, góp phần tối thiểu thời gian phân loại văn bản và tăng tốc độ chính xác của chơng trinh phân loại.
5.3.3. Phân loại văn bản sử dụng phơng pháp K- NN
Phân loại văn bản sử dụng phơng pháp K- NN mất nhiều thời gian ở giai đoạn huấn luyện, khi đã có kết qủa của quá trình huấn luyên rồi thì việc ra quyết định phân loại đối với một văn bản kiểm tra chỉ cần một công thức tính toán đơn giản. Vì vậy, để giảm thời gian khi thực hiện phân loại văn bản, chung tôi đề xuất một mô hình phân loại văn bản sử dụng phơng pháp KNN gôm hai modul, dữ liệu đầu vào của hai modul này là kết quả của các modul 1 và modul 2, đã trình bày trong phần 4. 1.1
5.3.4. Phơng pháp đánh giá hiệu quả phân loại
Giả sử:
TP: là số văn bản đợc gán nhãn là 1và việc đợc gán nhãn này là đúng. FP: là số văn bản đợc gán nhãn là 1 nhng việc gán nhãn là sai.
FN: là số văn bản đợc gán nhãn là - 1 nhng việc gán nhãn là sai. TN: là số văn bản đợc gán nhãn là - 1 và việc gán nhãn này là đúng.
Hiệu quả (hay độ chính xác ) của hệ thống phân loại, đợc đánh giá bởi công thức sau: Precision FP TP TP + (5. 1) Recall= FN TP TP + (5. 2) F- score= precision recall precsion recall + * * 2 (5. 3) 5.4. Kết qủa thực nghiệm
Phần này em tiến hành một số thực nghiệm với nhiều bộ số và nhiều bộ dữ liệu kiểm tra khác nhau, để kiểm tra và đánh giá hiệu quả thực hiện của chơng chình phân loại.
5.4.1. Phân loại văn bản khoa học:
Với bộ dữ liệu gồm 50 văn bản và 35 văn bản không phải khoa học. Kết quả phân loại nh sau:
Lần 1: Thực hiện lựa chọn tất cả các từ có tần xuất văn bản thấp nhất là 1
(k=1) và ngỡng lợi nhuận cho thông tin của các từ là 0. 005, chúng tôi lựa chọn đợc 4500 từ đặc trng và kết quả gán nhãn cho 48 văn bản kiểm tra là:
Precision = 0. 7059 Recall = 1
F- score ≈ 0. 828
Lần 2: Thực hiện lựa chọn tất cả các từ có tần xuất văn bản thấp nhất l 1à
(k=2) và ngỡng lợi nhuận thông tin của các từ là 0. 005, chúng tôi lựa chọn đợc 1912 t đặc trng và thực hiện gán nhãn cho 48 văn bản tét giống trong lần 1, thì kết quả nh sau:
Precision = 0. 8846 Recall = 0. 9583 F- score ≈ 0. 92
So sánh kết quả lần 1, em thấy, chất lợng phân loại đợc cải tiến đáng kể. Điều đó chứng tỏ việc lựa chất lợng các từ đặc trng đợc chọn trong lân 2 là tốt hơn lần 1, và việc giảm số chiều khi biểu diễn văn bản với một ngữ nào đó cũng là độ chính xác của chơng trình phân loại văn bản.
Với bộ dữ liệu gồm 392 văn bản, trong đó có 262 văn bản khoa học và 130 văn bản không phải khhoa học, với ngỡng v=0. 001, qua nhiều lần thực hiện em thây phân loại đạt hiệu quả cao nhất trong trờng hợp tỷ lệ văn bản huấn luyện là 180 văn bản thuộc lớp khoa học và 100 văn bản không thuộc lớp khoa học, hệ số v=0. 001, và ngỡng xuất hiện của mỗi từ là 3, ngỡng thuận lợi cho thông tin của mỗi từ là 0. 1.Với tỷ lệ này chúng tôi thực hiện 6 lần huấn luyện và kiểm tra kết quả. Kết quả cụ thể nh sau:
Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Lần 6 Trungbình Precision 0. 9625 0. 9518 0. 975 0. 975 1 0. 9878 0. 9754
Recall 0. 9625 0. 9634 0. 9512 0. 9512 0. 9024 0. 9878 0. 953
F- score 0. 9625 0. 9576 0. 963 0. 963 0. 9487 0. 9878 0. 9573 Kết quả trên cho thấy độ chính xác của phân loại với nhóm văn bản khoa học l cao. à
5.4.2. Phõn loại văn bản thể thao
Chỳng tụi thực hiện huấn luyện và kiếm tra trờn tập dữ liệu gồm 1000 văn bản (500 văn bản thuộc lớp thể thao và 500 văn bản khụng thuộc lớp thể thao), với hệ số v=0.001.Chỳng tụi chia tập văn bản này thành 2 tập, tập huấn luyện VTr và tập kiểm tra VTs, theo tỉ lệ VTr: VTs=70: 10. Qua nhiều lần thực nghiệm chỳng tụi thấy rằng kết quả phõn loại đạt độ chớnh xỏc cao nhất khi tỷ lệ dữ liệu trong tập huấn luyện là 1: 1, nghĩa là số văn bản thuộc lớp văn bản thể thao và số văn bản khụng thuộc lớp thể thao trong tập huấn luyện là bằng nhau. Cụ thể, mỗi lần thực nghiệm, em sử dụng 350 văn bản thuộc lớp thể thao và 350 văn bản khụng thuộc lớp thể thao để huấn luyện và sử dụng 300 văn bản con lại để kiểm tra. kết quả thực nghiệm của chỳng em là:
Bảng 5.2 Kết quả phõn loại văn bản thể thao
Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bỡnh
Precision 0.9136 0.8315 0.8352 0.8655 0.8167 0.8525
Recall 0.9867 0.9867 0.98 0.9867 0.98 0.984
Cũng với bộ dữ liệu như trờn chỳng em thực hiện với cỏc giỏ trị khỏc nhau của v, kết quả như sau: (với mỗi giỏ trị của v, kết quả ở đõy là tớnh trung bỡnh của 6 bộ dữ liệu tương ứng với cỏc lần thực nghiệm 1, 2, ...,6)
Bảng 5.3 Kết quả phõn loại văn bản thể thao với một số giỏ trị của v
v=0.001 v=0.03 v=0.2 v=0.5 v=0.7 v=0.9 v=1 Rrecision 0.8504 0.8523 0.907 0.9323 0.95295 0.95795 0.9578 Recall 0.9834 0.98 0.9734 0.9634 0.9434 0.9369 0.9369 F- score 0.912 0.9117 0.939 0.9476 0.9481 0.9315 0.9315
Nhận xet: Từ bảng trờn ta thấy, khi giỏ trị của v tăng thỡ giỏ trị của Recall
giảm dần và nhỡn chung độ chớnh xỏc đạt cao nhất khi v∈[0.5,0.7].
Qua nhiều thực nghiệm, chỳng em thấy răng việc chọn tỷ lệ giữa số văn bản được gỏn nhón 1 với số văn bản được gỏn nhón - 1 trong tập dữ liệu huấn luyện cú ảnh hưởng rất nhiều đến độ chớnh xỏc của chương trỡnh phõn loại văn bản. Ngoài ra chất lượng phõn loại văn bản cũn phụ thuộc vào tham số lụa chọn v.
5.5. Kết luận
Chương này chỳng em chỡnh bày một số kết quả thực nghiệm của chương trỡnh phõn loại văn bản bằng phương phỏp K- NN. Chung em chỳng em đó thực hiện được một số thực nghiệm và thấy rằng phương phỏp lựa chọn từ đặc trưng của chỳng em đó cải thiện đỏng kể chất lượng phõn loại. Trong chương này chỳng em cũng đó đưa ra một số nhận xột khi lựa chọn tập dữ liệu để huấn luyện, để đạt được hiệu quả phõn loại văn bản cao hơn.
CHƯƠNG VI:
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN
6.1. Kết luận
Trong luận văn chỳng em đó trỡnh bày cỏc bước cơ bản cần thực hiện để xõy dựng hệ thụng phõn loại văn bản dựa trờn cỏch tiếp cận K- Nearest Neighbor. Xõy dựng một chương trỡnh phõn loại văn bản tiếng Việt sử dụng phương phỏp K- Nearest Neighbor. Cụ thể :
Chỳng em đó trỡnh bay tỏch từ trong văn bản tiếng Việt, cỏc bước trớch chọn đặc đặc trưng để biểu diễn văn bản, làm thế nào để lựa chọn được cỏc từ đặc trưng tốt nhất.
Với phương phỏp K- Nearest Neighbor chỳng em đó trỡnh bày chi tiết về mụ hỡnh cũng như thuật toỏn để xõy dựng chương trỡnh phõn loại văn bản. Đồng thời đưa ra một số đỏnh giỏ phương phỏp K- Nearest Neighbor, so sỏnh độ chớnh xỏc khi phõn loại văn bản của nú với một số văn bản khỏc.
Chỳng em đó đề xuất một phương phỏp lựa chọn cỏc từ đặc trưng để biểu diễn văn bản tiếng Việt nhằm tăng tốc độ xử lý, tăng độ chớnh xỏc khi thực hiện phõn loại văn bản. Kết quả thực nghiệm cho thấy phương phỏp của chỳng em cú khả năng lựa chọn những đặc trưng tốt nhất để biểu diễn văn bản và giảm đỏng kể số chiều của văn bản mà khụng gõy mất thụng tin, thậm chớ cũn tăng độ chớnh xỏc khi thực hiện phõn loại văn bản.
Chỳng em cũng đưa ra một phương phỏp xõy dựng hệ thống phõn loại văn bản dựa trờn cỏch tiếp cận K- Nearest Neighbor. Với Phương phỏp này, thời gian để đưa ra quyết định phõn loại là khụng đỏng kể, chỳng ta chỉ mất nhiều thời gian để huấn luyện, mà cú thể thực hiện phõn loại nhiều lần với nhiều văn bản khỏc nhau.
Cuối cựng, chỳng tụi xõy dựng chương trỡnh thực nghiệm để kiểm nghiệm và đỏnh giỏ hiệu quả của phương phỏp phõn loại văn bản K- Nearest Neighbor đối với cỏc văn bản tiếng Việt. Chỳng em đó thử nghiệm chương trỡnh nhiều lần với nhiều bộ dữ liệu khỏc nhau. Với một bộ dữ liệu gồm 1000 văn bản (7000 văn bản huấn luyện và 300 văn bản kiểm tra), độ chớnh xỏc của chương trỡnh phõn loại đạt 90%. Kết quả này cho thấy chương trỡnh phõn loại văn bản của chỳng tụi, cú khả năng phõn loại văn bản với độ chớnh xỏc cao.
6.2. Hướng phỏt triển của luận văn
Hoàn thiện chương trỡnh phõn loại văn bản trong chương V để cú thể sử dụng vào thực tiễn như phõn loại văn bản tự động trong cỏc cơ quan hành chớnh nhà nước, tự động phõn loại, tổ chứ và tỡm kiếm thụng tin tiếng Việt trờn Web,... Trong văn bản núi chung và văn bản tiếng Việt núi riờng xuất hiện nhiều từ đồng nghĩa và từ gần nghĩa, nếu chỳng ta cú một cỏch để đỏnh giỏ độ tương tự về giỏ trị thụng tin của cỏc từ này thỡ hiệu quả phõn loại văn bản sẽ cao hơn. Bởi vậy, một hướng nghiờn cứu tiếp theo của luận văn là nghiờn cứu phương phỏp đỏnh giỏ độ tương tự về giỏ trị thụng tin giữa cỏc từ đồng nghĩa, từ gần nghĩa để ỏp dụng cho bài toỏn phõn loại văn bản.
Sử dụng kết quả phõn loại văn bản để nghiờn cứu cỏc bỡa toỏn khai phỏ văn bản khỏc như : túm tắt văn bản, dịch tự động văn bản, ...
Xung quanh bài toỏn phõn loại văn bản núi riờng và khai phỏ dữ liệu núi chung cú rất nhiều vấn đề chưa được giải quyết hoặc giải quyết chưa triệt để.