Trong hồi qui hỗ trợ vecto, x đưa vào được sắp xếp lên trên một không gian đặc trưng nhiều chiều (hight dimensional feature space) sử dụng một vài sắp xếp không tuyến tính, và sau đó một mô hình tuyến tính được xây dựng trong không gian riêng 37
này. Hồi qui hỗ trợ vector sử dụng một kiểu mới của hàm hao phí gọi là hàm hao phí epsilon-insensitive:
Hồi qui hỗ trợ vector cố gắng làm nhỏ ||ω||2. Điều này có thể được mô tả bởi
việc đưa vào các biến slack (không âm) ξi, ξi* với i=1, 2,..., n, để đo độ lệch của mẫu huấn luyện bên ngoài miền epsilon-sensitive. Do đó mô hình hỗ trợ vecto được chính thức hóa (formalized) như giá trị nhỏ nhất của hàm dưới đây:
Bài toán tối ưu hóa này có thể được chuyển vào bài toán đối ngẫu (dual) và vì vậy các hàm nhân non-linear có thể được sử dụng để làm mô hình non-linear. Trên đây là mô tả bài toán cũng như kỹ thuật phân cụm dựa theo các cụm từ quan trọng. Trong phần tiếp theo, khóa luận sẽ trình bày phần thực nghiệm đã được tiến hành dựa theo kỹ thuật phân cụm dựa vào các cụm từ quan trọng thực hiện trên các tài liệu tiếng Việt. Các tài liệu được lấy từ kết quả trả về của máy tìm kiếm Google [14]. Sau đó là kết quả của thực nghiệm và đánh giá hiệu quả phương pháp cũng như kết quả của của thực nghiệm.
38
Chương 4. Thực nghiệm và đánh giá 4.1. Dữ liệu của thực nghiệm
Dữ liệu của thực nghiệm được lấy từ danh sách các kết quả trả về của máy tìm
kiếm google [14]. Thực hiện gán nhãn dữ liệu cho 10 truy vấn. 10 truy vấn được chọn thuộc ba loại truy vấn: truy vấn nhập nhằng, tên thực thể, các cụm từ chung. Các truy vấn này được lựa chọn bởi chúng có nhiều chủ đề nhỏ, sẽ có lợi cho việc phân cụm các
kết quả tìm kiếm. 10 truy vấn được liệt kê trong bảng: Loại truy vấn Truy vấn
Truy vấn nhập nhằng Ma trận, thăng long Tên thực thể Việt Nam, Hà Nội, Nguyễn Trãi Cụm từ chung
Quốc gia, công nghệ, tài khoản, thị trường, mùa hè
Bảng 4: Các truy vấn trong tập huấn luyện
Với mỗi truy vấn, thực hiện tìm kiếm trên máy tìm kiếm google[14] và lấy về 50 kết quả đầu tiên bao gồm tiêu đề và đoạn tóm tắt của tài liệu. Sử dụng phần mềm JVnTextPro (của Nguyễn Cẩm Tú và Phan Xuân Hiếu, đại học Công nghệ, đại học
quốc gia Hà Nội) để phân tích cú pháp và tách từ tiếng việt. Ví dụ về tách từ: (tiêu đề): việt_nam – wikipedia tiếng_việt
(tóm tắt): Để tìm_hiểu các chính_thể trước đây, xin xem việt_nam (định hướng). Để tìm_hiểu về quốc_hiệu việt_nam, xem bài quốc_hiệu việt_nam.
Sau đó trích tất cả các n-grams (n<=3), loại bỏ các cụm từ có số tần số nhỏ hơn 3. Với mỗi truy vấn sẽ thu được khoảng từ 100 đến 150 cụm từ. Tập huấn luyện gồm 10 truy vấn với 1386 cụm từ.
Đưa các cụm từ này tới 3 người hỏi để lựa chọn các “good phrases” và “medium phrases”. Mỗi người được hỏi sẽ lựa chọn ra 10 “good phrases” (ấn định 100 điểm cho
các cụm từ này), 10 “medium phrases” (ấn định 50 điểm cho các cụm từ này). Các cụm từ khác sẽ có điểm là 0. Cuối cùng cộng 3 điểm này lại với nhau. Các cụm từ với điểm từ 100 trở lên thì y sẽ được gán giá trị là 1, các cụm từ khác giá trị của y là 0. 39
STT Truy vấn Số cụm từ Số giá trị y=1 1 Việt Nam 85 19 2 Máy tính 163 23 3 Quốc gia 123 22 4 Thị trường 122 21 5 Ma trận 196 22 6 Tài khoản 165 29 7 Mùa hè 164 21 8 Nguyễn Trãi 139 21 9 Hà Nội 106 26 10 Công nghệ 123 35
Bảng 5: Số cụm từ và số giá trị y=1 trong tập dữ liệu huấn luyện
Ở đây giá trị của y được gán là 0 hoặc 1 nhưng ở đầu ra của mô hình hồi qui hỗ trợ vector (cụ thể là SVM rank [19]) thì điểm quan trọng của các cụm từ có giá trị từ âm vô cùng đến dương vô cùng. Với mỗi cụm từ, thực hiện tính toán 4 đặc trưng TFIDF, LEN, ICS, CE.
4.2. Cài đặt thực nghiệm4.2.1. Phần cứng 4.2.1. Phần cứng
Mô trường thực nghiệm: - Hệ điều hành Windows XP - Vi xử lý Pentium 4
- RAM 256 40
- Khóa luận sử dụng phần mềm tách từ tiếng Việt JvnTextPro của tác giả Nguyễn Cẩm Tú và Phan Xuân Hiếu (trường đại học Công nghệ, đại học quốc gia Hà Nội).
- Khóa luận xây dựng chương trình sinh n-gram và tính các đặc trưng của các cụm từ. Chương trình được viết bằng ngôn ngữ python phiên bản 2.6.1. - Bộ mã nguồn mở SVM rank - Support Vector Machine for Ranking của tác giả Thorsten Joachims [19] được sử dụng để xếp hạng các cụm từ quan trọng. Thông số được thiết lập cho mô hình hồi qui hỗ trợ vector này là thông số -c (được gán giá trị là 3) là giá trị chuyển đổi giữa lỗi của tập huấn luyện và độ lệch chuẩn. Tham số epsilon được đặt mặc định.
4.3. Phương pháp đánh giá
Thuật toán phân cụm truyền thống rất khó đánh giá, tuy nhiên với phương pháp phân cụm trong khóa luận, việc đánh giá tương đối dễ vì bài toán phân cụm được đưa về bài toán xếp hạng. Vì vậy, có thể sử dụng phương pháp đánh giá kinh điển trong tìm kiếm thông tin.
Sử dụng đúng (P) @ trong N kết quả đầu để đánh giá kết quả thực nghiệm. P@N = |C ∩ R|/|R|
Với R là tập hợp của top N từ khóa quan trọng đã trả về bởi thực nghiệm trong khóa luận và C là tập hợp các từ khóa quan trọng đúng. Trong khóa luận sẽ sử dụng P@5, P@10 và P@15 để đánh giá
4.4. Kết quả thực nghiệm và đánh giá
Kết quả huấn luyện với SVM-rank như sau: Epsilon: 2.807000
Thời gian huấn luyện: 109.92 giây Số bước lặp: 16
Đầu tiên sử dụng mỗi đặc trưng đã nêu ở chương 3 của khóa luận (4 đặc trưng là TFIDF, LEN, ICS, CE) để xếp hạng các cụm từ, và đánh giá độ chính xác của 10 truy vấn. Độ chính xác trung bình của 5, 10,15 kết quả đầu được thể hiện ở bảng và 41
biểu đồ. Vì rất nhiều từ có cùng giá trị LEN nên TFIDF được sử dụng như là tiêu chuẩn thứ hai để xếp hạng trong việc đánh giá của LEN.
P@5 P@10 P@15 TFIDF 0.3 0.35 0.24 LEN 0.26 0.22 0.26 ICS 0.12 0.11 0.06 CE 0.24 0.13 0.18 Bảng 6: Độ chính xác khi sử dụng từng đặc trưng để xếp hạng
Như biểu đồ trên ta thấy mỗi đặc trưng thể hiện không tốt trong việc xếp hạng
các cụm từ khi thực hiện riêng. Xét trong 4 đặc trưng thì TFIDF và LEN tỏ ra tốt hơn trong việc xác định độ quan trọng của cụm từ. Trong khi đó, đặc trưng ICS tỏ ra không
tốt để xác định độ quan trọng của cụm từ. Điều này có thể là do mỗi tài liệu chỉ gồm có tiêu đề và đoạn tóm tắt rất ngắn nên không gian vecto dựa vào độ tương tự có lỗi khá lớn.
42
Lấy 5 truy vấn trong tập huấn luyện để đánh giá độ chính xác, kết quả được mô tả trong bảng và biểu đồ.
Việt Nam Thị trường Quốc gia Công nghệ Nguyễn trãi P@5 0.8 0.4 0.8 1 0.8
P@10 0.8 0.5 0.7 0.8 0.7
P@15 0.73 0.53 0.73 0.67 0.67
Bảng 7: Độ chính xác của từng truy vấn
Hình 9: Biểu đồ độ chính xác của từng truy vấn
Có thể nhận thấy độ chính xác ở đây là khá cao song không đều do có sự khác
nhau về độ chính xác khá rõ giữa các truy vấn. Với truy vấn “thị trường” độ chính xác thấp, bởi vì top các cụm từ quan trọng có chứa từ truy vấn như “thị trường vàng”, “thị trường bất động sản”,”thông tin thị trường”. Các truy vấn “công nghệ” và “việt nam” có độ chính xác cao hơn, top các cụm từ quan trọng miêu tả các chủ đề nhỏ rõ ràng. Ví
dụ với truy vấn là “việt nam” thì top các cụm từ quan trọng theo thứ tự là: phật giáo,
khoa học, kinh tế, trực tuyến, lịch sử, tiếng Việt, diễn đàn, thế giới, quốc tế, lĩnh vực.
Từ phần thực nghiệm trên có thể thấy phương pháp phân cụm tài liệu dựa vào các cụm từ quan trọng áp dụng trên các văn bản tiếng Việt có kết quả khá khả quan. Các cụm từ quan trọng mô tả khá tốt cho một cụm. Trong mỗi cụm, các tài liệu nhìn 43
chung có liên quan đến cùng chủ đề. Tuy nhiên việc tách các từ tiếng Việt vẫn còn hạn
chế nên trong các cụm từ sinh ra vẫn còn nhiều cụm từ có cùng nội dung, ví dụ như “việt nam” ,“viet nam” (đúng dạng phải là “việt_nam’, “viet_nam”). Do đó thực
nghiệm vẫn chưa thực hiện được bước xử lý sau, đó là loại bỏ các cụm chỉ có từ dừng, loại bỏ các từ truy vấn, và gộp các cụm có phần giao nhau vượt qua một ngưỡng định trước (ví dụ là 75%).
44
Kết luận
quan trọng trên các tài liệu tiếng việt, có thể thấy phương pháp phân cụm cho kết quả khá tốt khi các cụm từ mô tả khá tốt cho một cụm có độ quan trọng khá cao.
Về mặt nội dung, khóa luận đã đạt được những kết quả sau:
- Tổng hợp có hệ thống các nội dung cơ bản nhất về phân cụm văn bản (khái niệm, đặc trưng, các kỹ thuật phân cụm phổ biến và đánh giá các kỹ thuật phân cụm).
- Đề cập được ảnh hưởng đặc điểm của từ tiếng Việt, kỹ thuật tách từ tiếng Việt vào phân cụm văn bản tiếng Việt.
- Phân tích kỹ lưỡng kỹ thuật phân cụm dựa vào cụm từ quan trọng và những đặc trưng của cụm từ tiếng Việt cần đánh giá, lựa chọn để sử dụng trong thuật toán phân cụm.
- Xây dựng chương trình trên ngôn ngữ python phiên bản 2.6.1 sinh n-gram và tính các đặc trưng được lựa chọn của các cụm từ để xác định độ quan trọng tích hợp với phần mềm tách từ tiếng Việt JVnTextPro và khai thác mã nguồn mở SVM-rank để tiến hành thực nghiệm xác định độ quan trọng của các cụm từ và cho kết quả về ảnh hưởng của các đặc trưng cụm từ vào phân cụm, trong đó các đặc trưng TFIDF và LEN có ánh hưởng lớn hơn.
Bên cạnh đó, do thời gian và kiến thức có hạn nên khóa luận vẫn còn một vài hạn chế sau:
- Theo trực quan thì các từ tiếng Việt vẫn chưa được tách một cách chính xác hoàn toàn.
- Kỹ thuật phân cụm dựa vào cụm từ quan trọng được đưa ra cần tính 5 đặc trưng là TFIDF, LEN, ICS, CE, và IND. Tuy nhiên, chương trình được xây dựng để tính các đặc trưng mới chỉ dừng lại ở việc tính 4 đặc trưng là TFIDF, LEN, ICS, CE.
- Tập huấn luyện với các truy vấn khá tốt, song lượng truy vấn chưa nhiều (10 truy vấn) và mới mỗi truy vấn chỉ lấy 50 kết quả trả về từ máy tìm kiếm. điều này cũng ảnh hưởng độ chính xác của kết quả thực nghiệm.
45
- Thực nghiệm mới chỉ dừng lại ở bước tính ra điểm quan trọng của cụm từ, chưa xây dựng được chương trình xử lý sau khi có độ quan trọng của cụm từ. Vì vậy việc tạo ra các cụm cũng như đánh giá kết quả thực nghiệm vẫn phải thực hiện bằng tay.
Trong tương lai, khóa luận có thể tiếp tục được hoàn thiện theo các hướng sau: - Thử nghiệm trên nhiều bộ dữ liệu khác nhau và với các mô hình hồi qui khác.
- Xây dựng chương trình xử lý sau khi có được độ quan trọng của các cụm từ, từ đó đưa ra các cụm với các tài liệu có chứa cụm từ.
46
Tài liệu tham khảo Tiếng Việt
[1] Nguyễn Thị Thu Chung, Nguyễn Thu Trang, Hà Quang Thụy, “Đánh giá chất lượng phân cụm trong máy tìm kiếm tiếng Việt”, Hội thảo Quốc gia lần thứ XI, Huế, Việt Nam
[2] Nguyễn Lê Minh, Hoàng Cao Trụ, “Phân cụm từ tiếng Việt bằng phương pháp học máy cấu trúc”, thực hiện trong khuôn khổ đề tài Nhà nước “Nghiên cứu
phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt” mã số KC01.01/06-10
[3] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng, “gom cụm đồ thị và ứng dụng vào việc trích rút nội dung chính của khối thông điệp trên diễn đàn thảo luận”, Tạp chí phát triển KH & CN, tập 11, số 05-2008.
[4] Lê Quyết Thắng, Phan Tấn Tài, Dương Văn Hiếu, “Giáo trình lý thuyết thông tin”, Khoa CNTT & truyền thông, đại học Cần Thơ, 2007,
http://ebook.edu.net.vn/resources/iportal/ebook/uploads/File/DHCantho/ltthong
tin31/GT_LTTT.pdf
[5] Nguyễn Văn Tuấn, “Phân tích số liệu và tạo biểu đồ bằng R”, nhà xuất bản
Khoa học kỹ thuật, tr 94-101
[6] Hà Quang Thụy, “Khai phá dữ liệu Web”, Bài giảng, Trường Đại học Công nghệ, ĐHQGHN, 2008.
[7] Trung tâm ngôn ngữ học Việt Nam. “Đặc điểm tiếng Việt”, http://www.vietlex.com/vietnamese.htm
Tiếng Anh
[8] Chien L. F. "PAT-Tree-Based Adaptive Keyphrase Extraction for Intelligent Chinese Information Retrieval". Proceedings of the 20th Annual International
ACM/SIGIR Conference on Research and Development in Information Retrieval (SIGIR'97), pages 50-58, Phliadelphia, 1997.
47
[9] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze, “An introduction to Information Retrival”, Cambridge University, 2007, page 349- 400
[10] Hua-jun zeng, Qi-cai He, Zheng Chen, Wei-Ying Ma, Jinwen Ma. "Learning to Cluster Web Search Results". Proceedings of SIGIR-04, 27th
ACM International Conference on Re-search and Development in Information Retrieval, 2004, Sheffield, South Yorkshire, UK
[11] Paolo Ferragina, Dino Pedreschi, Francesco Romani, “On two web IR Boosting tools: Clustering and Ranking”, PhD. Thesis, University of Pisa May
6, 2006, page 34-38.
[12] Thanh V. Nguyen, Hoang K. Tran, Thanh T.T. Nguyen and Hung Nguyen, “Word Segmentation for Vietnamese Text Categorization: An online corpus approach”, IEEE RIVF2006 - Research, Innovation and Vision of the Future -
The 4rd IEEE International Conference in Computer Science, Ho Chi Minh
City, Vietnam, 2/2006
[13] Zamir O., Etzioni O. Web Document Clustering: "Web Document
Clustering: A Feasibility Demonstration", Proceedings of SIGIR 1998: 46-54 [14] Máy tìm kiếm google, http://www.google.com
[15] Máy tìm kiếm vivisimo, http://www.vivisimo.com [16] Máy tìm kiếm yahoo, http://www.yahoo.com [17] Máy tìm kiếm MSN, http://www.msn.com [18] Entropy, http://wikipedia.org/wiki/Entropy [19] Support Vector Machine for Ranking,