Với 5 thuộc tính ở trên, phương pháp phân cụm ở đây sẽ sử dụng đữ liệu đã huấn
luyện để học một mô hình hồi qui. Từ đó tính ra điểm quan trọng của mỗi cụm từ, và
dựa vào điểm quan trọng để xếp hạng cụm từ.
Hồi qui [10] là một bài toán thống kê kinh điển xác định mối quan hệ giữa hai
biến ngẫu nhiên x = (x¡,X¿,...,xa) và y. Trong phương pháp phân cụm này, biến độc lập
x là vector của Š5 thuộc tính đã miêu tả ở trên x = (TFIDF,LEN, ISC, CE, IND) và biến độc lập y là một giá trị thực nào đó. Ở đây, y là điểm của các cụm từ, y càng cao thì độ
quan trọng của cụm từ càng cao.
Một vài kiểu hồi qui có thể được sử dụng như hồi qui tuyến tính (linear
regression), hồi qui logistic (logistic regression) và hồi qui hỗ trợ vector (support vector regression). Dưới đây sẽ trình bày sơ lược về các mô hình hồi qui.
3.3.1. Hồi qui tuyến tính
Mô hình hồi qui tuyến tính tìm mối quan hệ của x và y với một đường thắng phù hợp với đữ liệu. Mô hình hồi qui tuyến tính đưa ra là:
v=b +» bx +e N
Với sai số e là một biến ngẫu nhiên độc lập, phân phối theo luật phân phối chuẩn, có giá trị trung bình là 0. Hệ số b¡ (0<=J<=p) được xác định là tổng của bình phương
phần dư nhỏ nhất có thể được. Vì vậy, kết hợp tuyến tính với bị tốt hơn bất cứ hệ số
nào khác. Biến xj có thê lấy trực tiếp từ inputs hoặc một vài biến đổi, như log hoặc đa
thức, của inputs.
3.3.2. Hỗi qui logistic
Khi biến độc lập y không phải là biến liên tục mà là biến mang tính đo lường nhị
phân: có giá trị là 0 hoặc 1, mô hình hồi qui logistic phù hợp hơn vì những gì cần chính xác không phải là một giá trị số rõ ràng của biến độc lập, nhưng khả năng xảy ra giá trị là I, còn lại là 0 (q=P(y=1)).
Trong [5] trình bày về hồi qui logistic như sau: giả sử một tần số biến cố x ghi
nhận từ n đôi tượng, xác suât của biên cô đó là:
q=x/n
q có thê xem là một chỉ sô đo lường nguy cơ của một biên cô. Một cách thê hiện nguy cơ khác là odds (khả năng). Khả năng của một biên cô được định nghĩa đơn giản là tỉ sô xác suât biên cô xảy ra trên xác suât biên cô không xảy ra:
odds = p/p-]
Hàm logit của odds được định nghĩa như sau:
: f `.
logil@)=log- =b, + Š b,x,+e
q có thể chỉ trong giải từ 0 đến 1, logit(q) chạy từ âm vô cùng đến đương vô cùng. Hỗi qui logistic có gắng tìm hệ số b¡ (0<=J<=p) phù hợp với x.
Thay cho việc sử dụng một bình phương nhỏ nhất độ lệch tiêu chuẩn cho phù hợp nhất, hồi qui logistic sử dụng một phương thức có thể xảy ra lớn nhất với khả năng lớn nhất của việc lẫy các kết quả quan sát đưa ra hệ số hồi quy.
3.3.3. Hỏi qui hỗ trợ vector (Support vector regression)
Trong hồi qui hỗ trợ vecto, x đưa vào được sắp xếp lên trên một không gian đặc
trưng nhiều chiều (hight dimensional feature space) sử dụng một vài sắp xếp không tuyến tính, và sau đó một mô hình tuyến tính được xây dựng trong không gian riêng
này. Hồi qui hỗ trợ vector sử dụng một kiêu mới của hàm hao phí gọi là hàm hao phí epstlon-insensItive:
Ũ if|y— #I x.0|| 3T
con Ì
E_ív.f(X.øH=+
Hồi qui hỗ trợ vector cố gắng làm nhỏ ||@|JÍ. Điều này có thể được mô tả bởi
việc đưa vào các biên slack (không âm) Gị, Gị* với i=1, 2,..., n, để đo độ lệch của mẫu
huân luyện bên ngoài miên epsilon-sensitive. Do đó mô hình hồ trợ vecto được chính thức hóa (formalized) như giá trị nhỏ nhât của hàm dưới đây:
`: SƯ - nwn ˆ l|l° +? > (Z rể} " hư an ” . _~ [ +, — f(x,.) < rể St, Ì [(Xuf)—+y, S£+6, : bruêp CD =k:.; ụ
Bài toán tôi ưu hóa này có thê được chuyên vào bài toán đôi ngầu (dual) và vì
vậy các hàm nhân non-linear có thê được sử dụng đê làm mô hình non-Ìinear.
Trên đây là mô tả bài toán cũng như kỹ thuật phân cụm dựa theo các cụm từ quan trọng. Trong phần tiếp theo, khóa luận sẽ trình bày phần thực nghiệm đã được tiến
hành dựa theo kỹ thuật phân cụm dựa vào các cụm từ quan trọng thực hiện trên các tài
liệu tiếng Việt. Các tài liệu được lẫy từ kết quả trả về của máy tìm kiếm Google [14].
Sau đó là kết quả của thực nghiệm và đánh giá hiệu quả phương pháp cũng như kết quả của của thực nghiệm.
Chương 4. Thực nghiệm và đánh giá 4.1. Dữ liệu của thực nghiệm
Dữ liệu của thực nghiệm được lấy từ danh sách các kết quả trả về của máy tìm kiếm google [14]. Thực hiện gán nhãn đữ liệu cho 10 truy vấn. 10 truy vấn được chọn
thuộc ba loại truy vẫn: truy vẫn nhập nhằng, tên thực thể, các cụm từ chung. Các truy vẫn này được lựa chọn bởi chúng có nhiều chủ đề nhỏ, sẽ có lợi cho việc phân cụm các
kết quả tìm kiếm. 10 truy vẫn được liệt kê trong bảng:
Loại truy vấn Truy vấn Truy vẫn nhập nhằng Ma trận, thăng long
Tên thực thể Việt Nam, Hà Nội, Nguyễn Trãi
Quôc gia, công nghệ, tài khoản,
Cụm từ chun .
l 5 thị trường, mùa hè
Bảng 4: Các truy vẫn trong tập huấn luyện
Với mỗi truy vấn, thực hiện tìm kiếm trên máy tìm kiếm google[14] và lẫy về 50 kết quả đầu tiên bao gồm tiêu đề và đoạn tóm tắt của tài liệu. Sử dụng phần mềm
JVnTextPro (của Nguyễn Câm Tú và Phan Xuân Hiếu, đại học Công nghệ, đại học
quốc gia Hà Nội) để phân tích cú pháp và tách từ tiếng việt. Ví dụ về tách từ:
(tiêu đề): việt nam — wikipedia tiếng việt
(tóm tắt): Để tìm hiểu các chính thể trước đây, xin xem việt nam (định hướng). Đê tìm hiêu vê quôc_ hiệu việt nam, xem bài quôc_ hiệu việt _nam.
Sau đó trích tất cả các n-prams (n<=3), loại bỏ các cụm từ có số tần số nhỏ hơn 3. Với mỗi truy vấn sẽ thu được khoảng từ 100 đến 150 cụm từ. Tập huấn luyện gồm
10 truy vẫn với 1386 cụm từ.
Đưa các cụm từ này tới 3 người hỏi để lựa chọn các “good phrases” và “medium phrases”. Mỗi người được hỏi sẽ lựa chọn ra 10 “goođ phrases” (ấn định 100 điểm cho các cụm từ này), 10 “medium phrases” (ấn định 50 điểm cho các cụm từ này). Các
cụm từ khác sẽ có điểm là 0. Cuối cùng cộng 3 điểm này lại với nhau. Các cụm từ với điểm từ 100 trở lên thì y sẽ được gán giá trị là 1, các cụm từ khác giá trị của y là 0.
STT Truy vẫn Số cụm từ Số giá trị y=l
1 Việt Nam 85 19 2 Máy tính 163 23 3 Quốc gia 123 22 4 Thị trường 122 21 5 Ma trận 196 22 6 Tài khoản 165 29 7 Mùa hè 164 21 § Nguyễn Trãi 139 21 9 Hà Nội 106 26 10 Công nghệ 123 35
Bảng 5: Số cụm từ và số giá trị y=1 trong tập dữ liệu huấn luyện
Ở đây giá trị của y được gán là 0 hoặc 1 nhưng ở đầu ra của mô hình hồi qui hỗ trợ vector (cụ thể là SVM rank [19]) thì điểm quan trọng của các cụm từ có giá trị từ
âm vô cùng đến dương vô cùng. Với mỗi cụm từ, thực hiện tính toán 4 đặc trưng
TFIDE, LEN, ICS, CE.
4.2. Cài đặt thực nghiệm
4.2.1. Phần cứng
Mô trường thực nghiệm:
- _ Hệ điều hành Windows XP - _ VỊ xử lý Pentium 4
- RAM 256
4.2.2. Phần mềm
- Khóa luận sử dụng phần mềm tách từ tiếng Việt JvnTextPro của tác giả Nguyên Câm Tú và Phan Xuân Hiệu (trường đại học Công nghệ, đại học quôc gia Hà Nội).
- _ Khóa luận xây dựng chương trình sinh n-gram và tính các đặc trưng của các cụm từ. Chương trình được việt băng ngôn ngữ python phiên bản 2.6. l. - _ Bộ mã nguồn mở SVM rank - Support Vector Machine for Ranking của tác
giả Thorsten Joachims [19] được sử dụng để xếp hạng các cụm tử quan trọng. Thông số được thiết lập cho mô hình hồi qui hỗ trợ vector nảy là thông số -c (được gán giá trị là 3) là giá trị chuyển đôi giữa lỗi của tập huấn
luyện và độ lệch chuẩn. Tham số epsilon được đặt mặc định.
4.3. Phương pháp đánh giá
Thuật toán phân cụm truyền thống rất khó đánh giá, tuy nhiên với phương pháp
phân cụm trong khóa luận, việc đánh giá tương đối dễ vì bài toán phân cụm được đưa
về bài toán xếp hạng. Vì vậy, có thể sử dụng phương pháp đánh giá kinh điển trong tìm kiếm thông tin.
Sử dụng đúng (P) @) trong N kết quả đầu để đánh giá kết quả thực nghiệm. P@N = |C ñ R|/JRỊ
Với R là tập hợp của top N từ khóa quan trọng đã trả về bởi thực nghiệm trong khóa luận và C là tập hợp các từ khóa quan trọng đúng. Trong khóa luận sẽ sử dụng
P@5, P@10 và P@15 để đánh giá
4.4. Kết quả thực nghiệm và đánh giá
Kết quả huấn luyện với SVM-rank như sau: Epsilon: 2.807000
Thời gian huấn luyện: 109.92 giây
Số bước lặp: 16
Đầu tiên sử dụng mỗi đặc trưng đã nêu ở chương 3 của khóa luận (4 đặc trưng
là TFIDF, LEN, ICS, CE) để xếp hạng các cụm từ, và đánh giá độ chính xác của 10
truy vẫn. Độ chính xác trung bình của 5, 10,15 kết quả đầu được thê hiện ở bảng và
biểu đồ. Vì rất nhiều từ có cùng giá trị LEN nên TFIDF được sử dụng như là tiêu chuẩn thứ hai để xếp hạng trong việc đánh giá của LEN.
P@5 P@10 P@15 TFIDF 0.3 0.35 0.24 LEN 0.26 0.22 0.26 ICS 0.12 0.11 0.06 CE 0.24 0.13 0.18 Bảng 6: Độ chính xác khi sử dụng từng đặc trưng để xếp hạng mN "#35 N*¿*1U 8 *f*l 5 IFlt LEh l:.5 CE
Hình 8: Biểu đỗ độ chính xác khi sử dụng từng đặc trưng để xếp hạng
Như biểu đồ trên ta thấy mỗi đặc trưng thể hiện không tốt trong việc xếp hạng
các cụm từ khi thực hiện riêng. Xét trong 4 đặc trưng thì TFIDF và LEN tỏ ra tốt hơn trong việc xác định độ quan trọng của cụm từ. Trong khi đó, đặc trưng ICS tỏ ra không tốt để xác định độ quan trọng của cụm từ. Điều này có thê là do mỗi tài liệu chỉ gồm
có tiêu đề và đoạn tóm tắt rất ngắn nên không gian vecto dựa vào độ tương tự có lỗi khá lớn.
Lẫy 5 truy vẫn trong tập huấn luyện để đánh giá độ chính xác, kết quả được mô tả trong bảng và biểu đồ.
ViệtNam | Thị trường | Quốcgia | Công nghệ | Nguyễn trãi
P@S 0.8 0.4 0.8 1 0.8 P@10 0.8 0.5 0.7 0.8 0.7 P@15 0.73 0.53 0.73 0.67 0.67 Bảng 7: Độ chính xác của từng truy vẫn 12 1 08 mg Eứ2h: GB B lứ¿ 11 li 8# F¿315 0.2 1
việt Mam Thịttởng Ođỗcg#¿ Côngnnhệ Nguy-atrể
Hình 9: Biểu đỗ độ chính xác của từng truy vẫn
Có thể nhận thấy độ chính xác ở đây là khá cao song không đều do có sự khác nhau về độ chính xác khá rõ giữa các truy vấn. Với truy vấn “thị trường” độ chính xác thấp, bởi vì top các cụm từ quan trọng có chứa từ truy vấn như “thị trường vàng”, “thị trường bất động sản”,”thông tin thị trường”. Các truy vấn “công nghệ” và “việt nam”
có độ chính xác cao hơn, top các cụm từ quan trọng miêu tả các chủ đề nhỏ rõ ràng. Ví
dụ với truy vẫn là “việt nam” thì top các cụm từ quan trọng theo thứ tự là: phật giáo,
khoa học, kinh tế, trực tuyến, lịch sử, tiếng Việt, diễn đàn, thể giới, quốc tế, lĩnh vực.
Từ phần thực nghiệm trên có thể thấy phương pháp phân cụm tài liệu dựa vào các cụm từ quan trọng áp dụng trên các văn bản tiếng Việt có kết quả khá khả quan.
Các cụm từ quan trọng mô tả khá tôt cho một cụm. Trong môi cụm, các tài liệu nhìn
chung có liên quan đến cùng chủ đề. Tuy nhiên việc tách các từ tiếng Việt vẫn còn hạn
chế nên trong các cụm từ sinh ra vẫn còn nhiều cụm từ có cùng nội dung, ví dụ như
“việt nam” ,“viet nam” (đúng dạng phải là “việt nam”, “viet nam”). Do đó thực
nghiệm vẫn chưa thực hiện được bước xử lý sau, đó là loại bỏ các cụm chỉ có từ dừng,
loại bỏ các từ truy vấn, và gộp các cụm có phần giao nhau vượt qua một ngưỡng định trước (ví dụ là 75%).
Kết luận
Từ việc nghiên cứu bài toán và kỹ thuật phần cụm văn bản dựa vào các cụm từ
quan trọng trên các tài liệu tiếng việt, có thể thấy phương pháp phân cụm cho kết quả
khá tốt khi các cụm từ mô tả khá tốt cho một cụm có độ quan trọng khá cao. Về mặt nội dung, khóa luận đã đạt được những kết quả sau:
Tổng hợp có hệ thống các nội dung cơ bản nhất về phân cụm văn bản (khái niệm, đặc trưng, các kỹ thuật phân cụm phổ biến và đánh giá các kỹ thuật phân cụm).
Đề cập được ảnh hưởng đặc điểm của từ tiếng Việt, kỹ thuật tách từ tiếng Việt vào phân cụm văn bản tiếng Việt.
Phân tích kỹ lưỡng kỹ thuật phần cụm dựa vào cụm từ quan trọng và những
đặc trưng của cụm từ tiếng Việt cần đánh giá, lựa chọn để sử dụng trong thuật toán phân cụm.
Xây dựng chương trình trên ngôn ngữ python phiên bản 2.6.l sinh n-pram
và tính các đặc trưng được lựa chọn của các cụm từ để xác định độ quan
trọng tích hợp với phần mềm tách từ tiếng Việt JVnTextPro và khai thác mã
nguồn mở SVM-rank để tiễn hành thực nghiệm xác định độ quan trọng của
các cụm từ và cho kết quả về ảnh hưởng của các đặc trưng cụm từ vào phân
cụm, trong đó các đặc trưng TEIDF và LEN có ánh hưởng lớn hơn.
Bên cạnh đó, do thời gian và kiên thức có hạn nên khóa luận vân còn một vài hạn
chê sau:
Theo trực quan thì các từ tiếng Việt vẫn chưa được tách một cách chính xác hoàn toàn.
Kỹ thuật phân cụm dựa vào cụm từ quan trọng được đưa ra cần tính 5 đặc trưng là TEIDF, LEN, ICS, CE, và IND. Tuy nhiên, chương trình được xây dựng để tính các đặc trưng mới chỉ dừng lại ở việc tính 4 đặc trưng là
TFIDF, LEN, ICS, CE.
Tập huấn luyện với các truy vấn khá tốt, song lượng truy vẫn chưa nhiều (10
truy vẫn) và mới mỗi truy vấn chỉ lẫy 50 kết quả trả về từ máy tìm kiếm.
điều này cũng ảnh hưởng độ chính xác của kết quả thực nghiệm.
Thực nghiệm mới chỉ dừng lại ở bước tính ra điểm quan trọng của cụm từ,
chưa xây dựng được chương trình xử lý sau khi có độ quan trọng của cụm
từ. VÌ vậy việc tạo ra các cụm cũng như đánh giá kết quả thực nghiệm vẫn
phải thực hiện bằng tay.
Trong tương lai, khóa luận có thể tiếp tục được hoàn thiện theo các hướng sau: Thử nghiệm trên nhiêu bộ dữ liệu khác nhau và với các mô hình hôi qui khác.
Xây dựng chương trình xử lý sau khi có được độ quan trọng của các cụm từ, từ đó đưa ra các cụm với các tài liệu có chứa cụm từ.
Tài liệu tham khảo Tiếng Việt
[1] Nguyễn Thị Thu Chung, Nguyễn Thu Trang, Hà Quang Thụy, “Đánh giá chất lượng phân cụm trong máy tìm kiếm tiếng Việt”, Hội thảo Quốc gia lần thứ XI,
Huế, Việt Nam
[2] Nguyễn Lê Minh, Hoàng Cao Trụ, “Phân cụm từ tiếng Việt bằng phương pháp
học máy cấu trúc”, thực hiện trong khuôn khổ đề tài Nhà nước “Nghiên cứu
phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt” mã số KC01.01/06-10
[3] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng, “gom cụm đồ thị và ứng
dụng vào việc trích rút nội dung chính của khối thông điệp trên diễn đàn thảo
luận”, Tợp chí phát triển KH & CN, tập 11, số 05-2008.
[4] Lê Quyết Thắng, Phan Tấn Tài, Dương Văn Hiếu, “Giáo trình lý thuyết thông