Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
847,09 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Tâm SỬ DỤNG PHƯƠNG PHÁP XẾP HẠNG TRONG BÀI TOÁN PHÂN CỤM TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin \ HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phạm Thị Tâm SỬ DỤNG PHƯƠNG PHÁP XẾP HẠNG TRONG BÀI TOÁN PHÂN CỤM TIẾNG VIỆT KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: Th.S Trần Thị Oanh Cán đồng hướng dẫn: CN Nguyễn Minh Tuấn HÀ NỘI - 2009 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Thị Oanh Cử nhân Nguyễn Minh Tuấn, người tận tình bảo hướng dẫn tơi suốt q trình thực khóa luận tốt nghiệp Tôi chân thành cảm ơn thầy cô tạo cho điều kiện thuận lợi để học tập nghiên cứu trường đại học Công nghệ Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên phịng Cơng nghệ tri thức tương tác người máy – trường ĐH Công nghệ - ĐHQGHN tạo điều kiện giúp tơi tiến hành thực nghiệm khóa luận Cuối cùng, muốn gửi lời cảm ơn vô hạn tới gia đình, bạn bè ln bên cạnh động viên tạo điều kiện tốt cho suốt q trình thực khóa luận tốt nghiệp Sinh viên Phạm Thị Tâm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt Cùng với gia tăng nhanh chóng số lượng trang Web nhu cầu khai phá liệu Web ngày nhận quan tâm nhà khoa học nhóm nghiên cứu Trong lĩnh vực khai phá Web phân cụm Web tốn quan trọng Đây thành phần chịu nhiều ảnh hưởng đặc trưng ngôn ngữ Khóa luận tập trung nghiên cứu tốn phân cụm Web sử dụng phương pháp xếp hạng Trên sở lý thuyết phân cụm Web lựa chọn đặc trưng tiếng Việt, khóa luận sử dụng phương pháp xếp hạng cụm từ quan trọng vào phân cụm tài liệu Web tiếng Việt tiến hành thực nghiệm Kết thực nghiệm đánh giá theo đặc trưng TFDF, độ dài (LEN), tương tự nội (ICS), entropy nội cụm văn (CE) cho thấy đặc trưng TFIDF LEN có ảnh hưởng lớn so với đặc trưng khác i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Tóm tắt i Mục lục ii Danh sách bảng iv Danh sách hình v Lời mở đầu .1 Chương Khái quát phân cụm Web 2 1.1. Giới thiệu phân cụm Web .2 1.1.1. Đặc điểm toán phân cụm web 3 1.1.2. Các yêu cầu phân cụm web 4 1.1.3. Một số độ đo độ đánh giá 5 1.2. Một số thuật toán phân cụm web 6 1.2.1. Thuật toán phân cụm bottom-up (HAC - Hierarchical Agglomeraltive Clustering) .7 1.2.2. Thuật toán phân cụm top-down 9 1.3. Đánh giá thuật toán phân cụm 18 Chương 2: Phân cụm văn tiếng Việt .19 2.1. Đặc trưng tiếng Việt tách từ tiếng việt 19 2.1.1. Đặc trưng tiếng Việt 19 2.1.2. Tách từ tiếng Việt 21 2.2. Một số nghiên cứu phân cụm tiếng Việt 23 2.2.1. Phân cụm từ tiếng Việt phương pháp học máy cấu trúc .23 2.2.2. Đánh giá chất lượng phân cụm máy tìm kiếm tiếng Việt 24 2.2.3. Gom cụm đồ thị ứng dụng vào việc rút trích nội dung khối thơng điệp diễn đàn thảo luận 26 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Phân cụm văn sử dụng 27 phương pháp xếp hạng cụm từ quan trọng 27 3.1. Khái quát toán .27 3.1.1. Nhu cầu phân cụm kết tìm kiếm 27 3.1.2. Mơ tả tốn thuật tốn 29 3.2. Trích cụm từ quan trọng .31 3.2.1. Đặc trưng TFIDF .32 3.2.2. Đặc trưng độ dài 33 3.2.3. Đặc trưng tương tự nội cụm .33 3.2.4. Đặc trưng entropy nội cụm .34 3.2.5. Đặc trưng độc lập cụm từ 34 3.3. Xếp hạng cụm từ quan trọng .35 3.3.1. Hồi qui tuyến tính 35 3.3.2. Hồi qui logistic 36 3.3.3. Hồi qui hỗ trợ vector (Support vector regression) 36 Chương Thực nghiệm đánh giá 38 4.1. Dữ liệu thực nghiệm 38 4.2. Cài đặt thực nghiệm 39 4.2.1. Phần cứng 39 4.2.2. Phần mềm 40 4.3. Phương pháp đánh giá .40 4.4. Kết thực nghiệm đánh giá 40 Kết luận 44 Tài liệu tham khảo 46 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng Bảng 1: Kết phân cụm với truy vấn “Việt Nam” [15] .4 Bảng 2: Các tài liệu chứa cụm từ node .16 Bảng 3: So sánh số đặc điểm tiếng Việt tiếng Anh .21 Bảng 4: Các truy vấn tập huấn luyện 38 Bảng 5: Số cụm từ số giá trị y=1 tập liệu huấn luyện .39 Bảng 6: Độ xác sử dụng đặc trưng để xếp hạng 41 Bảng 7: Độ xác truy vấn .42 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình Hình 1: Minh họa để tính cosin hai vector .6 Hình 2: Cây hậu tố mở rộng 16 Hình 3: Kết sau trộn tài liệu 17 Hình 4: Thống kê tách từ tiếng Hoa tiếng Việt [12] 22 Hình 5: Hệ thống phân cụm từ tiếng Việt theo phương pháp học máy cầu trúc 24 Hình 6: Ví dụ với truy vấn “Việt Nam” máy tìm kiếm google[14] 28 Hình 7: Ví dụ với truy vấn “Việt Nam” máy tìm kiếm Vivisimo[15] 28 Hình 8: Biểu đồ độ xác sử dụng đặc trưng để xếp hạng .41 Hình 9: Biểu đồ độ xác truy vấn 42 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời mở đầu Internet phát triển nhanh chóng sinh khối lượng khổng lồ liệu dạng siêu văn (dữ liệu Web), trở thành kênh quan trọng thơng tin đời sống Chính vậy, lĩnh vực khai phá Web có tốc độ phát triển vượt bậc, nhận nhiều quan tâm nhà khoa học nhóm nghiên cứu Một tốn quan trọng lĩnh vực khai phá Web phân cụm Web [6] Số lượng trang Web lớn luôn thay đổi, tài liệu khơng liên quan đến khía cạnh mà cịn đề cập đến nhiều khía cạnh khác dẫn đến trùng lặp thông tin tài liệu Xuất phát từ đặc điểm mà phân cụm Web nên thực tài liệu Web truy vấn trả từ máy tìm kiếm Sau kết tổ chức lại cho người dùng theo cụm Khóa luận với đề tài “Sử dụng phương pháp xếp hạng toán phân cụm tiếng Việt” nghiên cứu phân cụm Web, phân cụm tiếng Việt toán phân cụm tài liệu Web dựa vào việc xếp hạng cụm từ quan trọng Khóa luận trình bày kết đánh giá ban đầu thực nghiệm ứng dụng kỹ thuật phân cụm tài liệu web tiếng Việt Khóa luận gồm chương với nội dung chương miêu tả đây: Chương 1: Khái quát phân cụm Web Chương trình bày nét toán phân cụm Web gồm: định nghĩa đặc điểm toán, số độ đo độ đánh giá, phương pháp phân cụm phổ biến, đánh giá phương pháp Chương 2: Phân cụm văn tiếng Việt Chương trình bày đặc điểm tiếng Việt hướng tiếp cận việc tách từ tiếng Việt, đồng thời nêu số đề tài nghiên cứu phân cụm tiếng Việt Chương 3: Phân cụm văn sử dụng phương pháp xếp hạng cụm từ quan trọng Nội dung chương kỹ thuật phân cụm kết trả máy tìm kiếm dựa vào việc xếp hạng cụm từ quan trọng Chương đưa nhu cầu phân cụm kết tìm kiếm, mơ tả tốn thuật tốn tính toán để giải toán Chương 4: Thực nghiệm đánh giá trình bày bước tiến hành thực nghiệm tài liệu Web tiếng Việt, việc thu thập liệu huấn luyện, cài đặt thực nghiệm Sau đưa kết thực nghiệm đánh giá kết LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Khái quát phân cụm Web 1.1 Giới thiệu phân cụm Web Trong thời gian gần đây, phát triển nhanh chóng mạng Internet tạo nên khối lượng khổng lồ liệu dạng siêu văn Vì vậy, nội dung khai phá Web quan tâm Và toán quan trọng lĩnh vực khai phá Web tốn phân cụm Web [6] Phân cụm Web - nói cách khái quát - việc tự động sinh lớp tài liệu dựa vào tương tự tài liệu Các lớp tài liệu chưa biết trước, người dùng yêu cầu số lượng lớp cần phân loại, hệ thống đưa tài liệu theo tập hợp, cụm, tập hợp chứa tài liệu tương tự Phân cụm Web – hiểu cách đơn giản - phân cụm tập tài liệu lấy từ Web Theo [6] có hai tình phân cụm tài liệu, là: • Tình thứ việc phân cụm tồn sở liệu (CSDL) có sẵn gồm nhiều tài liệu Web Thuật toán phân cụm cần tiến hành việc phân cụm toàn tập liệu thuộc CSDL Tình thường gọi phân cụm khơng trực tuyến (off-line) • Tình thứ hai thường áp dụng tập tài liệu nhỏ tập hợp tài liệu máy tìm kiếm trả theo truy vấn người dùng Trong trường hợp này, giải pháp phân cụm tiến hành kiểu trực tuyến (on-line) theo nghĩa việc phân cụm tiến hành theo phận tài liệu nhận Khi đó, thuật tốn phải có tính chất “gia tăng” để tiến hành phân cụm chưa có đủ tài liệu phân cụm cần không tiến hành với liệu phân cụm Do tập tài liệu Web vô lớn cách phân cụm trực tuyến thích hợp phải địi hỏi tính "gia tăng" thuật toán phân cụm Việc xử lý truy vấn xếp hạng kết trả máy tìm kiếm phụ thuộc vào tính tốn độ tương tự tài liệu truy vấn, tài liệu với Mặc dù truy vấn liên quan phần đến tài liệu cần tìm, thường ngắn dễ xảy nhập nhằng Như biết, trung bình truy vấn Web gồm hai đến ba từ gây nên độ nhập nhằng Chẳng hạn, truy vấn star dẫn đến nhập nhằng cao, tài liệu lấy liên quan đến astronomy, plants, animals, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.2.2 Đặc trưng độ dài Đặc trưng số lượng từ cụm từ Ví dụ: LEN(“nhà”) = LEN(“việt nam”) = Trong trình sinh n-gram từ tiêu đề đoạn tóm tắt, giá trị n nằm khoảng từ đến Như từ tiếng Việt số lượng từ cụm từ thường có giá trị từ đến Đối với người sử dụng, thường cụm từ dài mang ý nghĩa rõ ràng hơn, thuận lợi cho người sử dụng trình tìm kiếm cụm liên quan đến vấn đề cần tìm Do đó, cụm từ có giá trị LEN lớn có độ quan trọng lớn LEN = n 3.2.3 Đặc trưng tương tự nội cụm Một yêu cầu phân cụm tài liệu cụm phải có độ tương tự lớn so với tài liệu cụm khác Nếu cụm từ mô tả tốt cho chủ đề riêng tài liệu có chứa cụm từ có độ tương tự với Đặc trưng dùng để đo độ chặt (compaccnes) tài liệu chứa cụm từ với cụm từ Đầu tiên, tài liệu chuyển thành vector không gian vector: di = (xi1, xi2,…) Mỗi thành phần vector mơ tả unigram riêng có giá trị TFIDF unigram Số chiều vecto tổng số unigram toàn liệu Khi biểu diễn tài liệu, unigram khơng có tài liệu giá trị Với cụm ban đầu, trọng tâm tính theo cơng thức: Với di tài liệu có chứa cụm từ w ICS độ lệch tài liệu với trọng tâm cụm 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Với cos(di,o) = di.o/||di||.||o|| 3.2.4 Đặc trưng entropy nội cụm Theo Lê Quyết Thắng cộng [4], entropy định nghĩa sau “entropy đại lượng toán học dùng để đo lượng tin không chắc( hay lượng tin ngẫu nhiên) kiện hay phân phối ngẫu nhiên cho trước” Giả sử x biến ngẫu nhiên không gian mẫu x=(x1, x2,…, xn) với độ đo xác suất P(xn)=pn Entropy x định nghĩa là: H(x)= - ∑ pilogpi i≤n Với pn=0 H(x) có giá trị xlog(x)->0 x->0 Một số đặc tính entropy[18]: - entropy tỉ lệ thuận liên tục với xác suất xuất phần tử ngẫu nhiên Thay đổi nhỏ xác suất phải dẫn đến thay đổi nhỏ entropy - Nếu phần tử ngẫu nhiên có xác suất xuất việc tăng số lượng phần tử ngẫu nhiên làm tăng entropy Trong toán phân cụm đây, xét với cụm từ w, tập tài liệu có chứa w D(w) có phần giao với tập tài liệu D(wi) chứa cụm từ wi với wi khác w Với trường hợp D(w) phân bố D(wi), tức có nhiều tài liệu chứa hai cụm từ w wi w cụm có độ quan trọng cao Với trường hợp D(w) chồng lên với D(wi) w mang nghĩa riêng Sử dụng đặc trưng entropy để mơ tả tính riêng cụm từ Trong cơng thức này, khơng có tài liệu chứa hai cụm từ w t tức D(w) giao với D(t) xuất log0 Vì coi 0log0=0 3.2.5 Đặc trưng độc lập cụm từ Theo [8], cụm từ độc lập entropy ngữ cảnh cao Ký hiệu IND tính độc lập cụm từ INDl giá trị độc lập ngữ cảnh trái 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com cụm từ w, INDr giá trị độc lập ngữ cảnh phải cụm từ w Các cơng thức tính giá trị INDl, INDr, IND lấy từ [10] l(w) tập từ liền kề trái w tập tài liệu, r(w) tập từ liền kề phải w tập tài liệu Giá trị độc lập ngữ cảnh trái w xác định cơng thức INDr tính tương tự INDl Giá trị IND cuối w trung bình INDl INDr 3.3 Xếp hạng cụm từ quan trọng Với thuộc tính trên, phương pháp phân cụm sử dụng liệu huấn luyện để học mơ hình hồi qui Từ tính điểm quan trọng cụm từ, dựa vào điểm quan trọng để xếp hạng cụm từ Hồi qui [10] toán thống kê kinh điển xác định mối quan hệ hai biến ngẫu nhiên x = (x1,x2,…,xn) y Trong phương pháp phân cụm này, biến độc lập x vector thuộc tính miêu tả x = (TFIDF,LEN, ISC, CE, IND) biến độc lập y giá trị thực Ở đây, y điểm cụm từ, y cao độ quan trọng cụm từ cao Một vài kiểu hồi qui sử dụng hồi qui tuyến tính (linear regression), hồi qui logistic (logistic regression) hồi qui hỗ trợ vector (support vector regression) Dưới trình bày sơ lược mơ hình hồi qui 3.3.1 Hồi qui tuyến tính Mơ hình hồi qui tuyến tính tìm mối quan hệ x y với đường thẳng phù hợp với liệu Mơ hình hồi qui tuyến tính đưa là: 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Với sai số e biến ngẫu nhiên độc lập, phân phối theo luật phân phối chuẩn, có giá trị trung bình Hệ số bj (0