Dữ liệu của thực nghiệm 38

Dữ liệu của thực nghiệm được lấy từ danh sách các kết quả trả về của máy tìm kiếm google [14]. Thực hiện gán nhãn dữ liệu cho 10 truy vấn. 10 truy vấn được chọn thuộc ba loại truy vấn: truy vấn nhập nhằng, tên thực thể, các cụm từ chung. Các truy vấn này được lựa chọn bởi chúng có nhiều chủđề nhỏ, sẽ có lợi cho việc phân cụm các kết quả tìm kiếm. 10 truy vấn được liệt kê trong bảng:

Loại truy vấn Truy vấn

Truy vấn nhập nhằng Ma trận, thăng long

Tên thực thể Việt Nam, Hà Nội, Nguyễn Trãi

Cụm từ chung Quốc gia, công nghệ, tài khoản,

thị trường, mùa hè

Bảng 4: Các truy vấn trong tập huấn luyện

Với mỗi truy vấn, thực hiện tìm kiếm trên máy tìm kiếm google[14] và lấy về 50 kết quả đầu tiên bao gồm tiêu đề và đoạn tóm tắt của tài liệu. Sử dụng phần mềm

JVnTextPro (của Nguyễn Cẩm Tú và Phan Xuân Hiếu, đại học Công nghệ, đại học

quốc gia Hà Nội) để phân tích cú pháp và tách từ tiếng việt. Ví dụ về tách từ: (tiêu đề): việt_nam – wikipedia tiếng_việt

(tóm tắt): Để tìm_hiểu các chính_thể trước đây, xin xem việt_nam (định hướng).

Để tìm_hiểu về quốc_hiệu việt_nam, xem bài quốc_hiệu việt_nam.

Sau đó trích tất cả các n-grams (n<=3), loại bỏ các cụm từ có số tần số nhỏ hơn 3. Với mỗi truy vấn sẽ thu được khoảng từ 100 đến 150 cụm từ. Tập huấn luyện gồm 10 truy vấn với 1386 cụm từ.

Đưa các cụm từ này tới 3 người hỏi để lựa chọn các “good phrases” và “medium phrases”. Mỗi người được hỏi sẽ lựa chọn ra 10 “good phrases” (ấn định 100 điểm cho

các cụm từ này), 10 “medium phrases” (ấn định 50 điểm cho các cụm từ này). Các

cụm từ khác sẽ có điểm là 0. Cuối cùng cộng 3 điểm này lại với nhau. Các cụm từ với

STT Truy vấn Số cụm từ Số giá trị y=1

1 Việt Nam 85 19 2 Máy tính 163 23 3 Quốc gia 123 22 4 Thị trường 122 21 5 Ma trận 196 22 6 Tài khoản 165 29 7 Mùa hè 164 21 8 Nguyễn Trãi 139 21 9 Hà Nội 106 26 10 Công nghệ 123 35

Bảng 5: Số cụm từ và số giá trị y=1 trong tập dữ liệu huấn luyện

Ở đây giá trị của y được gán là 0 hoặc 1 nhưng ở đầu ra của mô hình hồi qui hỗ

trợ vector (cụ thể là SVM rank [19]) thì điểm quan trọng của các cụm từ có giá trị từ

âm vô cùng đến dương vô cùng. Với mỗi cụm từ, thực hiện tính toán 4 đặc trưng

TFIDF, LEN, ICS, CE.

4.2. Cài đặt thực nghiệm

4.2.1. Phần cứng

Mô trường thực nghiệm:

- Hệđiều hành Windows XP

- Vi xử lý Pentium 4

4.2.2. Phần mềm

- Khóa luận sử dụng phần mềm tách từ tiếng Việt JvnTextPro của tác giả

Nguyễn Cẩm Tú và Phan Xuân Hiếu (trường đại học Công nghệ, đại học

quốc gia Hà Nội).

- Khóa luận xây dựng chương trình sinh n-gram và tính các đặc trưng của các

cụm từ. Chương trình được viết bằng ngôn ngữ python phiên bản 2.6.1.

- Bộ mã nguồn mở SVM rank - Support Vector Machine for Ranking của tác

giả Thorsten Joachims [19] được sử dụng để xếp hạng các cụm từ quan

trọng. Thông số được thiết lập cho mô hình hồi qui hỗ trợ vector này là

thông số -c (được gán giá trị là 3) là giá trị chuyển đổi giữa lỗi của tập huấn luyện và độ lệch chuẩn. Tham số epsilon được đặt mặc định.

4.3. Phương pháp đánh giá

Thuật toán phân cụm truyền thống rất khó đánh giá, tuy nhiên với phương pháp phân cụm trong khóa luận, việc đánh giá tương đối dễ vì bài toán phân cụm được đưa về bài toán xếp hạng. Vì vậy, có thể sử dụng phương pháp đánh giá kinh điển trong

tìm kiếm thông tin.

Sử dụng đúng (P) @ trong N kết quảđầu đểđánh giá kết quả thực nghiệm.

P@N = |C ∩ R|/|R|

Với R là tập hợp của top N từ khóa quan trọng đã trả về bởi thực nghiệm trong khóa luận và C là tập hợp các từ khóa quan trọng đúng. Trong khóa luận sẽ sử dụng

P@5, P@10 và P@15 đểđánh giá

4.4. Kết quả thực nghiệm và đánh giá

Kết quả huấn luyện với SVM-rank như sau: Epsilon: 2.807000

Thời gian huấn luyện: 109.92 giây Số bước lặp: 16

Đầu tiên sử dụng mỗi đặc trưng đã nêu ở chương 3 của khóa luận (4 đặc trưng

là TFIDF, LEN, ICS, CE) để xếp hạng các cụm từ, và đánh giá độ chính xác của 10

biểu đồ. Vì rất nhiều từ có cùng giá trị LEN nên TFIDF được sử dụng như là tiêu chuẩn thứ hai để xếp hạng trong việc đánh giá của LEN.

P@5 P@10 P@15 TFIDF 0.3 0.35 0.24 LEN 0.26 0.22 0.26 ICS 0.12 0.11 0.06 CE 0.24 0.13 0.18 Bảng 6: Độ chính xác khi sử dụng từng đặc trưng để xếp hạng

Hình 8: Biểu đồ độ chính xác khi sử dụng từng đặc trưng để xếp hạng

Như biểu đồ trên ta thấy mỗi đặc trưng thể hiện không tốt trong việc xếp hạng các cụm từ khi thực hiện riêng. Xét trong 4 đặc trưng thì TFIDF và LEN tỏ ra tốt hơn trong việc xác định độ quan trọng của cụm từ. Trong khi đó, đặc trưng ICS tỏ ra không tốt để xác định độ quan trọng của cụm từ. Điều này có thể là do mỗi tài liệu chỉ gồm có tiêu đề và đoạn tóm tắt rất ngắn nên không gian vecto dựa vào độ tương tự có lỗi khá lớn.

Lấy 5 truy vấn trong tập huấn luyện để đánh giá độ chính xác, kết quả được mô tả trong bảng và biểu đồ.

Việt Nam Thị trường Quốc gia Công nghệ Nguyễn trãi

P@5 0.8 0.4 0.8 1 0.8

P@10 0.8 0.5 0.7 0.8 0.7

P@15 0.73 0.53 0.73 0.67 0.67

Bảng 7: Độ chính xác của từng truy vấn

Hình 9: Biểu đồ độ chính xác của từng truy vấn

Có thể nhận thấy độ chính xác ở đây là khá cao song không đều do có sự khác

nhau vềđộ chính xác khá rõ giữa các truy vấn. Với truy vấn “thị trường” độ chính xác thấp, bởi vì top các cụm từ quan trọng có chứa từ truy vấn như “thị trường vàng”, “thị

trường bất động sản”,”thông tin thị trường”. Các truy vấn “công nghệ” và “việt nam” có độ chính xác cao hơn, top các cụm từ quan trọng miêu tả các chủđề nhỏ rõ ràng. Ví dụ với truy vấn là “việt nam” thì top các cụm từ quan trọng theo thứ tự là: phật giáo, khoa học, kinh tế, trực tuyến, lịch sử, tiếng Việt, diễn đàn, thế giới, quốc tế, lĩnh vực.

Từ phần thực nghiệm trên có thể thấy phương pháp phân cụm tài liệu dựa vào các cụm từ quan trọng áp dụng trên các văn bản tiếng Việt có kết quả khá khả quan. Các cụm từ quan trọng mô tả khá tốt cho một cụm. Trong mỗi cụm, các tài liệu nhìn

chung có liên quan đến cùng chủđề. Tuy nhiên việc tách các từ tiếng Việt vẫn còn hạn chế nên trong các cụm từ sinh ra vẫn còn nhiều cụm từ có cùng nội dung, ví dụ như

“việt nam” ,“viet nam” (đúng dạng phải là “việt_nam’, “viet_nam”). Do đó thực

nghiệm vẫn chưa thực hiện được bước xử lý sau, đó là loại bỏ các cụm chỉ có từ dừng, loại bỏ các từ truy vấn, và gộp các cụm có phần giao nhau vượt qua một ngưỡng định trước (ví dụ là 75%).

Kết luận

Từ việc nghiên cứu bài toán và kỹ thuật phân cụm văn bản dựa vào các cụm từ

quan trọng trên các tài liệu tiếng việt, có thể thấy phương pháp phân cụm cho kết quả

khá tốt khi các cụm từ mô tả khá tốt cho một cụm có độ quan trọng khá cao. Về mặt nội dung, khóa luận đã đạt được những kết quả sau:

- Tổng hợp có hệ thống các nội dung cơ bản nhất về phân cụm văn bản (khái niệm, đặc trưng, các kỹ thuật phân cụm phổ biến và đánh giá các kỹ thuật phân cụm).

- Đề cập được ảnh hưởng đặc điểm của từ tiếng Việt, kỹ thuật tách từ tiếng Việt vào phân cụm văn bản tiếng Việt.

- Phân tích kỹ lưỡng kỹ thuật phân cụm dựa vào cụm từ quan trọng và những

đặc trưng của cụm từ tiếng Việt cần đánh giá, lựa chọn để sử dụng trong thuật toán phân cụm.

- Xây dựng chương trình trên ngôn ngữ python phiên bản 2.6.1 sinh n-gram

và tính các đặc trưng được lựa chọn của các cụm từ để xác định độ quan trọng tích hợp với phần mềm tách từ tiếng Việt JVnTextPro và khai thác mã nguồn mở SVM-rank để tiến hành thực nghiệm xác định độ quan trọng của các cụm từ và cho kết quả vềảnh hưởng của các đặc trưng cụm từ vào phân cụm, trong đó các đặc trưng TFIDF và LEN có ánh hưởng lớn hơn.

Bên cạnh đó, do thời gian và kiến thức có hạn nên khóa luận vẫn còn một vài hạn chế sau:

- Theo trực quan thì các từ tiếng Việt vẫn chưa được tách một cách chính xác hoàn toàn.

- Kỹ thuật phân cụm dựa vào cụm từ quan trọng được đưa ra cần tính 5 đặc

trưng là TFIDF, LEN, ICS, CE, và IND. Tuy nhiên, chương trình được xây

dựng để tính các đặc trưng mới chỉ dừng lại ở việc tính 4 đặc trưng là TFIDF, LEN, ICS, CE.

- Tập huấn luyện với các truy vấn khá tốt, song lượng truy vấn chưa nhiều (10 truy vấn) và mới mỗi truy vấn chỉ lấy 50 kết quả trả về từ máy tìm kiếm.

- Thực nghiệm mới chỉ dừng lại ở bước tính ra điểm quan trọng của cụm từ, chưa xây dựng được chương trình xử lý sau khi có độ quan trọng của cụm từ. Vì vậy việc tạo ra các cụm cũng như đánh giá kết quả thực nghiệm vẫn phải thực hiện bằng tay.

Trong tương lai, khóa luận có thể tiếp tục được hoàn thiện theo các hướng sau:

- Thử nghiệm trên nhiều bộ dữ liệu khác nhau và với các mô hình hồi qui

khác.

- Xây dựng chương trình xử lý sau khi có được độ quan trọng của các cụm từ, từđó đưa ra các cụm với các tài liệu có chứa cụm từ.

Tài liệu tham khảo

Tiếng Việt

[1]Nguyễn Thị Thu Chung, Nguyễn Thu Trang, Hà Quang Thụy, “Đánh giá chất

lượng phân cụm trong máy tìm kiếm tiếng Việt”, Hội thảo Quốc gia lần thứ XI, Huế, Việt Nam

[2]Nguyễn Lê Minh, Hoàng Cao Trụ, “Phân cụm từ tiếng Việt bằng phương pháp

học máy cấu trúc”, thực hiện trong khuôn khổ đề tài Nhà nước “Nghiên cứu

phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt”

mã số KC01.01/06-10

[3]Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng, “gom cụm đồ thị và ứng

dụng vào việc trích rút nội dung chính của khối thông điệp trên diễn đàn thảo luận”, Tạp chí phát triển KH & CN, tập 11, số 05-2008.

[4]Lê Quyết Thắng, Phan Tấn Tài, Dương Văn Hiếu, “Giáo trình lý thuyết thông

tin”, Khoa CNTT & truyền thông, đại học Cần Thơ, 2007,

http://ebook.edu.net.vn/resources/iportal/ebook/uploads/File/DHCantho/ltthong

tin31/GT_LTTT.pdf

[5]Nguyễn Văn Tuấn, “Phân tích số liệu và tạo biểu đồ bằng R”, nhà xuất bản Khoa học kỹ thuật, tr 94-101

[6]Hà Quang Thụy, “Khai phá dữ liệu Web”, Bài giảng, Trường Đại học Công

nghệ, ĐHQGHN, 2008.

[7]Trung tâm ngôn ngữ học Việt Nam. “Đặc điểm tiếng Việt”,

http://www.vietlex.com/vietnamese.htm

Tiếng Anh

[8]Chien L. F. "PAT-Tree-Based Adaptive Keyphrase Extraction for Intelligent

Chinese Information Retrieval". Proceedings of the 20th Annual International

ACM/SIGIR Conference on Research and Development in Information Retrieval (SIGIR'97), pages 50-58, Phliadelphia, 1997.

[9]Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze, “An

introduction to Information Retrival”, Cambridge University, 2007, page 349-

400

[10] Hua-jun zeng, Qi-cai He, Zheng Chen, Wei-Ying Ma, Jinwen Ma.

"Learning to Cluster Web Search Results". Proceedings of SIGIR-04, 27th

ACM International Conference on Re-search and Development in Information

Retrieval, 2004, Sheffield, South Yorkshire, UK

[11] Paolo Ferragina, Dino Pedreschi, Francesco Romani, “On two web IR

Boosting tools: Clustering and Ranking”, PhD. Thesis, University of Pisa May

6, 2006, page 34-38.

[12] Thanh V. Nguyen, Hoang K. Tran, Thanh T.T. Nguyen and Hung Nguyen,

“Word Segmentation for Vietnamese Text Categorization: An online corpus

approach”, IEEE RIVF2006 - Research, Innovation and Vision of the Future -

The 4rd IEEE International Conference in Computer Science, Ho Chi Minh

City, Vietnam, 2/2006

[13] Zamir O., Etzioni O. Web Document Clustering: "Web Document

Clustering: A Feasibility Demonstration", Proceedings of SIGIR 1998: 46-54

[14] Máy tìm kiếm google, http://www.google.com

[15] Máy tìm kiếm vivisimo, http://www.vivisimo.com

[16] Máy tìm kiếm yahoo, http://www.yahoo.com

[17] Máy tìm kiếm MSN, http://www.msn.com

[18] Entropy, http://wikipedia.org/wiki/Entropy

[19] Support Vector Machine for Ranking,

Đánh giá các thuật toán phân cụm 18

Đặc trưng của tiếng Việ t 19