Cài đặt thực nghiệm

4.2.1. Phần cứng

Mô trường thực nghiệm: - Hệ điều hành Windows XP - Vi xử lý Pentium 4

- RAM 256 40

- Khóa luận sử dụng phần mềm tách từ tiếng Việt JvnTextPro của tác giả Nguyễn Cẩm Tú và Phan Xuân Hiếu (trường đại học Công nghệ, đại học quốc gia Hà Nội).

- Khóa luận xây dựng chương trình sinh n-gram và tính các đặc trưng của các cụm từ. Chương trình được viết bằng ngôn ngữ python phiên bản 2.6.1. - Bộ mã nguồn mở SVM rank - Support Vector Machine for Ranking của tác giả Thorsten Joachims [19] được sử dụng để xếp hạng các cụm từ quan trọng. Thông số được thiết lập cho mô hình hồi qui hỗ trợ vector này là thông số -c (được gán giá trị là 3) là giá trị chuyển đổi giữa lỗi của tập huấn luyện và độ lệch chuẩn. Tham số epsilon được đặt mặc định.

4.3. Phương pháp đánh giá

Thuật toán phân cụm truyền thống rất khó đánh giá, tuy nhiên với phương pháp phân cụm trong khóa luận, việc đánh giá tương đối dễ vì bài toán phân cụm được đưa về bài toán xếp hạng. Vì vậy, có thể sử dụng phương pháp đánh giá kinh điển trong tìm kiếm thông tin.

Sử dụng đúng (P) @ trong N kết quả đầu để đánh giá kết quả thực nghiệm. P@N = |C ∩ R|/|R|

Với R là tập hợp của top N từ khóa quan trọng đã trả về bởi thực nghiệm trong khóa luận và C là tập hợp các từ khóa quan trọng đúng. Trong khóa luận sẽ sử dụng P@5, P@10 và P@15 để đánh giá

4.4. Kết quả thực nghiệm và đánh giá

Kết quả huấn luyện với SVM-rank như sau: Epsilon: 2.807000

Thời gian huấn luyện: 109.92 giây Số bước lặp: 16

Đầu tiên sử dụng mỗi đặc trưng đã nêu ở chương 3 của khóa luận (4 đặc trưng là TFIDF, LEN, ICS, CE) để xếp hạng các cụm từ, và đánh giá độ chính xác của 10 truy vấn. Độ chính xác trung bình của 5, 10,15 kết quả đầu được thể hiện ở bảng và 41

biểu đồ. Vì rất nhiều từ có cùng giá trị LEN nên TFIDF được sử dụng như là tiêu chuẩn thứ hai để xếp hạng trong việc đánh giá của LEN.

P@5 P@10 P@15 TFIDF 0.3 0.35 0.24 LEN 0.26 0.22 0.26 ICS 0.12 0.11 0.06 CE 0.24 0.13 0.18 Bảng 6: Độ chính xác khi sử dụng từng đặc trưng để xếp hạng

Như biểu đồ trên ta thấy mỗi đặc trưng thể hiện không tốt trong việc xếp hạng

các cụm từ khi thực hiện riêng. Xét trong 4 đặc trưng thì TFIDF và LEN tỏ ra tốt hơn trong việc xác định độ quan trọng của cụm từ. Trong khi đó, đặc trưng ICS tỏ ra không

tốt để xác định độ quan trọng của cụm từ. Điều này có thể là do mỗi tài liệu chỉ gồm có tiêu đề và đoạn tóm tắt rất ngắn nên không gian vecto dựa vào độ tương tự có lỗi khá lớn.

Lấy 5 truy vấn trong tập huấn luyện để đánh giá độ chính xác, kết quả được mô tả trong bảng và biểu đồ.

Việt Nam Thị trường Quốc gia Công nghệ Nguyễn trãi P@5 0.8 0.4 0.8 1 0.8

P@10 0.8 0.5 0.7 0.8 0.7

P@15 0.73 0.53 0.73 0.67 0.67

Bảng 7: Độ chính xác của từng truy vấn

Hình 9: Biểu đồ độ chính xác của từng truy vấn

Có thể nhận thấy độ chính xác ở đây là khá cao song không đều do có sự khác

nhau về độ chính xác khá rõ giữa các truy vấn. Với truy vấn “thị trường” độ chính xác thấp, bởi vì top các cụm từ quan trọng có chứa từ truy vấn như “thị trường vàng”, “thị trường bất động sản”,”thông tin thị trường”. Các truy vấn “công nghệ” và “việt nam” có độ chính xác cao hơn, top các cụm từ quan trọng miêu tả các chủ đề nhỏ rõ ràng. Ví

dụ với truy vấn là “việt nam” thì top các cụm từ quan trọng theo thứ tự là: phật giáo,

khoa học, kinh tế, trực tuyến, lịch sử, tiếng Việt, diễn đàn, thế giới, quốc tế, lĩnh vực.

Từ phần thực nghiệm trên có thể thấy phương pháp phân cụm tài liệu dựa vào các cụm từ quan trọng áp dụng trên các văn bản tiếng Việt có kết quả khá khả quan. Các cụm từ quan trọng mô tả khá tốt cho một cụm. Trong mỗi cụm, các tài liệu nhìn 43

chung có liên quan đến cùng chủ đề. Tuy nhiên việc tách các từ tiếng Việt vẫn còn hạn

chế nên trong các cụm từ sinh ra vẫn còn nhiều cụm từ có cùng nội dung, ví dụ như “việt nam” ,“viet nam” (đúng dạng phải là “việt_nam’, “viet_nam”). Do đó thực

nghiệm vẫn chưa thực hiện được bước xử lý sau, đó là loại bỏ các cụm chỉ có từ dừng, loại bỏ các từ truy vấn, và gộp các cụm có phần giao nhau vượt qua một ngưỡng định trước (ví dụ là 75%).

Kết luận

quan trọng trên các tài liệu tiếng việt, có thể thấy phương pháp phân cụm cho kết quả khá tốt khi các cụm từ mô tả khá tốt cho một cụm có độ quan trọng khá cao.

Về mặt nội dung, khóa luận đã đạt được những kết quả sau:

- Tổng hợp có hệ thống các nội dung cơ bản nhất về phân cụm văn bản (khái niệm, đặc trưng, các kỹ thuật phân cụm phổ biến và đánh giá các kỹ thuật phân cụm).

- Đề cập được ảnh hưởng đặc điểm của từ tiếng Việt, kỹ thuật tách từ tiếng Việt vào phân cụm văn bản tiếng Việt.

- Phân tích kỹ lưỡng kỹ thuật phân cụm dựa vào cụm từ quan trọng và những đặc trưng của cụm từ tiếng Việt cần đánh giá, lựa chọn để sử dụng trong thuật toán phân cụm.

- Xây dựng chương trình trên ngôn ngữ python phiên bản 2.6.1 sinh n-gram và tính các đặc trưng được lựa chọn của các cụm từ để xác định độ quan trọng tích hợp với phần mềm tách từ tiếng Việt JVnTextPro và khai thác mã nguồn mở SVM-rank để tiến hành thực nghiệm xác định độ quan trọng của các cụm từ và cho kết quả về ảnh hưởng của các đặc trưng cụm từ vào phân cụm, trong đó các đặc trưng TFIDF và LEN có ánh hưởng lớn hơn.

Bên cạnh đó, do thời gian và kiến thức có hạn nên khóa luận vẫn còn một vài hạn chế sau:

- Theo trực quan thì các từ tiếng Việt vẫn chưa được tách một cách chính xác hoàn toàn.

- Kỹ thuật phân cụm dựa vào cụm từ quan trọng được đưa ra cần tính 5 đặc trưng là TFIDF, LEN, ICS, CE, và IND. Tuy nhiên, chương trình được xây dựng để tính các đặc trưng mới chỉ dừng lại ở việc tính 4 đặc trưng là TFIDF, LEN, ICS, CE.

- Tập huấn luyện với các truy vấn khá tốt, song lượng truy vấn chưa nhiều (10 truy vấn) và mới mỗi truy vấn chỉ lấy 50 kết quả trả về từ máy tìm kiếm. điều này cũng ảnh hưởng độ chính xác của kết quả thực nghiệm.

- Thực nghiệm mới chỉ dừng lại ở bước tính ra điểm quan trọng của cụm từ, chưa xây dựng được chương trình xử lý sau khi có độ quan trọng của cụm từ. Vì vậy việc tạo ra các cụm cũng như đánh giá kết quả thực nghiệm vẫn phải thực hiện bằng tay.

Trong tương lai, khóa luận có thể tiếp tục được hoàn thiện theo các hướng sau: - Thử nghiệm trên nhiều bộ dữ liệu khác nhau và với các mô hình hồi qui khác.

- Xây dựng chương trình xử lý sau khi có được độ quan trọng của các cụm từ, từ đó đưa ra các cụm với các tài liệu có chứa cụm từ.

Tài liệu tham khảo Tiếng Việt

[1] Nguyễn Thị Thu Chung, Nguyễn Thu Trang, Hà Quang Thụy, “Đánh giá chất lượng phân cụm trong máy tìm kiếm tiếng Việt”, Hội thảo Quốc gia lần thứ XI, Huế, Việt Nam

[2] Nguyễn Lê Minh, Hoàng Cao Trụ, “Phân cụm từ tiếng Việt bằng phương pháp học máy cấu trúc”, thực hiện trong khuôn khổ đề tài Nhà nước “Nghiên cứu

phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt” mã số KC01.01/06-10

[3] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng, “gom cụm đồ thị và ứng dụng vào việc trích rút nội dung chính của khối thông điệp trên diễn đàn thảo luận”, Tạp chí phát triển KH & CN, tập 11, số 05-2008.

[4] Lê Quyết Thắng, Phan Tấn Tài, Dương Văn Hiếu, “Giáo trình lý thuyết thông tin”, Khoa CNTT & truyền thông, đại học Cần Thơ, 2007,

http://ebook.edu.net.vn/resources/iportal/ebook/uploads/File/DHCantho/ltthong

tin31/GT_LTTT.pdf

[5] Nguyễn Văn Tuấn, “Phân tích số liệu và tạo biểu đồ bằng R”, nhà xuất bản

Khoa học kỹ thuật, tr 94-101

[6] Hà Quang Thụy, “Khai phá dữ liệu Web”, Bài giảng, Trường Đại học Công nghệ, ĐHQGHN, 2008.

[7] Trung tâm ngôn ngữ học Việt Nam. “Đặc điểm tiếng Việt”, http://www.vietlex.com/vietnamese.htm

Tiếng Anh

[8] Chien L. F. "PAT-Tree-Based Adaptive Keyphrase Extraction for Intelligent Chinese Information Retrieval". Proceedings of the 20th Annual International

ACM/SIGIR Conference on Research and Development in Information Retrieval (SIGIR'97), pages 50-58, Phliadelphia, 1997.

[9] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze, “An introduction to Information Retrival”, Cambridge University, 2007, page 349- 400

[10] Hua-jun zeng, Qi-cai He, Zheng Chen, Wei-Ying Ma, Jinwen Ma. "Learning to Cluster Web Search Results". Proceedings of SIGIR-04, 27th

ACM International Conference on Re-search and Development in Information Retrieval, 2004, Sheffield, South Yorkshire, UK

[11] Paolo Ferragina, Dino Pedreschi, Francesco Romani, “On two web IR Boosting tools: Clustering and Ranking”, PhD. Thesis, University of Pisa May

6, 2006, page 34-38.

[12] Thanh V. Nguyen, Hoang K. Tran, Thanh T.T. Nguyen and Hung Nguyen, “Word Segmentation for Vietnamese Text Categorization: An online corpus approach”, IEEE RIVF2006 - Research, Innovation and Vision of the Future -

The 4rd IEEE International Conference in Computer Science, Ho Chi Minh

City, Vietnam, 2/2006

[13] Zamir O., Etzioni O. Web Document Clustering: "Web Document

Clustering: A Feasibility Demonstration", Proceedings of SIGIR 1998: 46-54 [14] Máy tìm kiếm google, http://www.google.com

[15] Máy tìm kiếm vivisimo, http://www.vivisimo.com [16] Máy tìm kiếm yahoo, http://www.yahoo.com [17] Máy tìm kiếm MSN, http://www.msn.com [18] Entropy, http://wikipedia.org/wiki/Entropy [19] Support Vector Machine for Ranking,

Mô tả bài toán và thuật toán

Hồi qui hỗ trợ vector (Support vector regression)