Output file ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Ngọc Hà ỨNG DỤNG TẬP THÔ VÀO TÌM KIẾM WEB LUẬN VĂN THẠC SĨ Hà Nội 2010 Mục lục MỞ ĐẦU 6 Danh sách bảng biểu 4 Danh sách hình vẽ 5 Chươ[.]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Ngọc Hà ỨNG DỤNG TẬP THƠ VÀO TÌM KIẾM WEB LUẬN VĂN THẠC SĨ Hà Nội 2010 Mục lục MỞ ĐẦU Danh sách bảng biểu Danh sách hình vẽ Chương 1: GIỚI THIỆU TỔNG QUAN 1.1 Lý chọn đề tài .9 1.2 Phạm vi công việc 10 1.3 Cấu trúc luận văn 10 Chương 2: MÁY TÌM KIẾM WEB 12 2.1 Khái niệm 12 2.2 Cấu trúc máy tìm kiếm web 13 2.3 Biểu diễn kết tìm kiếm 15 2.4 Đánh giá chất lượng tìm kiếm 17 Chương 3: PHÂN CỤM TÀI LIỆU VÀ VẤN ĐỀ TÁCH TỪ TIẾNG VIỆT 19 3.1 Phân cụm 19 3.1.1.Khái niệm 19 3.1.2.Ứng dụng phân cụm tài liệu thu thập tổ chức thông tin 20 3.2 Mơ hình khơng gian vector trình bày văn 21 3.2.1.Các kỹ thuật tiền xử lý tài liệu 22 3.2.2.Bảng trọng số 23 3.2.3.Độ đo tương tự 26 3.2.4.Biểu diễn cụm 27 3.3 Các giải thuật phân cụm 27 3.3.1.Phương pháp phân cụm phân cấp 28 3.3.2.Phương pháp phân cụm phân hoạch 29 3.3.3.Thuật toán phân cụm bán giám sát Seeded - KMeans 30 3.3.4.Tiêu chuẩn tối ưu 32 3.3.5.Gán cứng gán mềm 33 3.4 Các bước thực phân cụm 34 3.5 Đánh giá kết phân cụm 34 3.6 Phân cụm kết tìm kiếm web 34 3.7 Các phương pháp tách từ tiếng Việt 35 3.7.1.Đặc điểm từ tiếng Việt 35 3.7.2.Phương pháp so khớp cực đại 36 3.7.3.Phương pháp học cải biến 37 3.7.4.Mơ hình tách từ WFST mạng Neural 37 3.7.5.Phương pháp tách tách từ tiếng Việt dựa thống kê từ Internet thuật giải di truyền 38 Chương 4: LÝ THUYẾT TẬP THÔ 39 4.1 Giới thiệu 39 4.2 Hệ thông tin 40 4.3 Quan hệ bất khả phân biệt 42 4.3.1.Quan hệ tương đương - Lớp tương đương 43 4.4 Xấp xỉ tập hợp 44 4.5 Hàm thuộc thô 50 4.6 Mơ hình tập thô dung sai 52 4.6.1.Không gian dung sai từ mục 53 4.6.2.Nâng cao chất lượng biểu diễn tài liệu 55 4.6.3.Mở rộng lược đồ trọng số cho xấp xỉ 55 Chương 5: ÁP DỤNG LÝ THUYẾT TẬP THÔ VÀO PHÂN CỤM KẾT QUẢ TÌM KIẾM WEB 57 5.1 Vấn đề phân cụm kết tìm kiếm web 57 5.2 Các thuật toán phân cụm tài liệu dựa TRSM 58 5.2.1.Biểu diễn cụm 58 5.2.2.Thuật toán phân cụm không phân cấp dựa TRSM 60 5.2.3.Thuật toán phân cụm phân cấp dựa TRSM 62 5.3 Thuật toán TRC 62 5.3.1.Tiền xử lý 63 5.3.2.Xây dựng ma trận từ - tài liệu 63 5.3.3.Tạo lớp dung sai 64 5.3.4.Thuật toán phân cụm Seeded - KMeans cải tiến 68 Chương 6: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM 71 6.1 Xác định yêu cầu 71 6.2 Các thành phần ứng dụng thử nghiệm 71 6.3 Xây dựng thành phần chức 72 6.3.1.Trình thu thập nội dung web 72 6.3.2.Bộ tách từ tiếng Việt 75 6.3.3.Bộ xử lý truy vấn 76 6.3.4.Biểu diễn kết tìm kiếm web 76 6.4 Triển khai ứng dụng thử nghiệm 77 KẾT LUẬN 84 Tài liệu tham khảo 86 Danh sách bảng biểu Bảng 3-1 Ví dụ bảng trọng số nhị phân tài liệu .24 Bảng 3-2 Ví dụ bảng trọng số tài liệu .24 Bảng 3-3 Ví dụ trọng số cho tài liệu bảng 3-2 Trọng số vector tài liệu chuẩn hóa độ dài .25 Bảng 3-4 Một số phép đo độ tương tự hai vectơ tài liệu X, Y Trong đó, xi, yi trọng số thành phần thứ i vectơ .26 Bảng 3-5 So sánh đặc điểm khác tiếng Anh tiếng Việt 36 Bảng 4-1 Một hệ thông tin đơn giản 41 Bảng 4-2 Một bảng định đơn giản 42 Bảng 4-3 Bảng định dùng minh hoạ hàm thuộc thô 52 Bảng 4-4 Các lớp dung sai quan trọng từ sinh từ 200 snippets trả từ máy tìm kiếm Google với từ khóa “jaguar” ngưỡng đồng xuất = 55 Danh sách hình vẽ Hình 2-1 Giao diện biểu diễn kết tìm kiếm Web Google .12 Hình2-2 Cấu trúc bên của máy tìm kiếm Web 13 Hình 2-3 Cấu trúc liệu inverted index 14 Hình 3-1 Mơ tả phân cụm 20 Hình 3-2 Tiến trình phân cụm tài liệu 20 Hình 3-3 So sánh phân cụm tài liệu phân cụm kết tìm kiếm web .35 Hình 4- Hình ảnh minh họa khái niệm tập thô 40 Hình 4-2 Xấp xỉ tập đối tượng Bảng 4-2 thuộc tính điều kiện Age LEMS Mỗi vùng thể kèm theo tập lớp tương đương tương ứng .46 Hình 5-1 Các bước thật toán TRC 62 Hình 5-2 Sơ đồ bước thuật toán tạo lớp dung sai .65 Hình 6-1 Qui trình thu thập nội dung web 73 Hình 6-2 Nhận dạng tiêu đề viết addon Firebug trình duyệt Firefox 74 Hình 6-3 Giao diện quản trị mẫu nhận dạng .75 Hình 6-4 Website http://doctinnhanh.net .78 Hình 6-5 Giao diện biểu diễn kết tìm kiếm chia theo chủ đề 81 Hình 6-6 Website Bách khoa tồn thư văn hóa Việt 83 MỞ ĐẦU Những năm gần giới nói chung Việt Nam nói riêng, với phát triển công nghệ web 2.0, hệ thống wiki mạng xã hội có phát triển nhảy vọt số lượng chất lượng Có thể nói chưa có việc đưa thơng tin lên mạng lại dễ dàng giai đoạn Bất cá nhân tham gia vào cộng đồng mạng đóng góp viết vào kho thơng tin khổng lồ nhân loại Chính phát triển mà vấn đề mà ta quan tâm sử dụng máy tìm kiếm để tìm kiếm Internet Tuy nhiên việc khai thác thông tin cần thiết kho liệu khổng lồ cho tiện lợi chuẩn xác vấn đề cần phải giải Hiện khai thác tìm kiếm thơng tin Internet vấn đề nhiều nhà nghiên cứu quan tâm Trong khối lượng thông tin Web khổng lồ, mà câu hỏi truy vấn người sử dụng thường xác, nên số kết trả từ máy tìm kiếm lên đến hàng trăm hay hàng ngàn tài liệu Do đó, tìm xác tài liệu quan tâm khó tốn nhiều thời gian Thực nghiệm cho thấy, nội dung chia thành nhóm chủ đề giúp người dùng nhanh chóng tìm kết cần Vì vậy, cách tiếp cận để giải vấn đề khai thác hiệu kết từ máy tìm kiếm thông tin sử dụng kĩ thuật phân cụm kết tìm kiếm theo chủ đề tạo nên cách biểu diễn kết tìm kiếm Web đọng rõ ràng Đây vấn đề nhận quan tâm nhiều tác giả, họ đề nhiều cách tiếp cận khác để giải tốn Trong đề tài chúng tơi áp dụng lý thuyết tập thô vào phân cụm kết tìm kiếm Web tiếng Việt Cách tiếp cận chúng tơi sử dụng mơ hình tập thơ dung sai để tăng chất lượng việc biểu diễn tài liệu cụm từ làm tăng hiệu việc phân cụm; đồng thời sử dụng phương pháp phân cụm bán giám sát Seeded - KMeans để phân cụm xác định chủ đề tài liệu Mục tiêu đề tài xây dựng thử nghiệm cơng cụ tìm kiếm web tiếng Việt có khả phân cụm tài liệu vào chủ đề khác giúp người dùng nhanh chóng tìm kết cần nhờ cách biểu diễn kết tìm kiếm rõ ràng đọng Với mục tiêu đó, sau q trình làm việc, chúng tơi xây dựng cơng cụ tìm kiếm web tiếng Việt gồm thành phần sau: Trình thu thập web tiếng Việt, trình thu thập có đặc điểm bật có khả phân tích cấu trúc trang web thành phần tiêu đề, tóm tắt viết, nội dung viết,… nhờ mẫu nhận dạng cấu trúc người dùng đưa vào Thành phần thứ sử dụng để phân tích trang web thành từ tiếng Việt biểu diễn tài liệu thu thập dạng vector tài liệu không gian vector Thành phần thứ thành phần xử lý truy vấn người dùng trả kết tìm kiếm thỏa mãn truy vấn người dùng Thành phần thứ biểu diễn kết tìm kiếm web, mục tiêu xây dựng thành phần thể kết tìm kiếm web cách rõ ràng cô đọng cách gán chúng vào chủ đề tạo thuận lợi cho người sử dụng việc tìm kiếm thơng tin Vì chúng tơi áp dụng mơ hình tập thơ dung sai thuật tốn phân cụm bán giám sát Seeded – Kmeans để phân cụm kết tìm kiếm web Các kết tìm kiếm phân thành chủ đề khác có nhãn định sẵn dựa mẫu tài liệu gán nhãn Mặc dù thân nỗ lực cố gắng, giúp đỡ đồng nghiệp đặc biệt hướng dẫn bảo tận tình PGS TS Hồng Xn Huấn, thời gian có hạn nên đề tài khơng tránh khỏi thiếu sót, mong nhận đóng góp ý kiến chuyên gia, bạn bè đồng nghiệp Qua đây, xin gửi lời cảm ơn sâu sắc tới PGS TS Hoàng Xuân Huấn, tận tình hướng dẫn cho tơi định hướng ý kiến quý báu suốt trình thực luận văn Tơi xin chân thành cảm ơn thầy, cô giáo Bộ môn Truyền liệu Mạng máy tính, Khoa Cơng nghệ thơng tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học Đồng thời, tơi xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp tạo điều kiện cho tơi suốt q trình học tập làm luận văn Chương 1: GIỚI THIỆU TỔNG QUAN 1.1 Lý chọn đề tài Sự phát triển không ngừng Word Wide Web (WWW) giai đoạn mang lại cho lồi người nguồn thơng tin khổng lồ Hầu thông tin lĩnh vực sống tìm thấy Web Cùng với bùng nổ thơng tin đó, cơng cụ tìm kiếm web khơng ngừng phát triển để phục vụ cho nhu cầu tìm kiếm thơng tin người Hiện có nhiều cơng cụ tìm kiếm web mạnh giúp tìm kiếm thơng tin nhanh chóng Google, Yahoo, Answer, Altavista, … Đặc điểm cơng cụ tìm kiếm thực việc tìm kiếm dựa phương pháp xếp hạng tài liệu (Document Ranking) biểu diễn kết tìm kiếm theo thứ tự hạng xuất Với bùng nổ thông tin nay, cơng cụ tìm kiếm có nhiều cải tiến cách tiếp cận có số hạn chế đây: Do bùng nổ thông tin WWW, tính chất động trang web nên máy tìm kiếm khơng thể thực tính hạng cho tất tài liệu mà tính hạng cho phần tài liệu Khi có ý định tìm thơng tin WWW, suy nghĩ người dùng hình thành khái niệm họ cần tìm, khái niệm chuyển thành tập từ khóa sử dụng để đặt câu hỏi truy vấn Tuy nhiên kinh nghiệm sử dụng hạn chế, từ khóa người dùng nhập thường ngắn cho kết tìm kiếm chung chung, lên đến hàng trăm hàng ngàn kết Trong người sử dụng lại có thói quen xem kết trang người duyệt đến trang sau, bỏ qua số kết tìm kiếm cần thiết Với lý ta thấy phát triển giao diện tương tác thông minh người máy, hỗ trợ người sử dụng việc tìm kiếm thơng tin việc làm cần thiết Đây vấn đề nhiều nhà nghiên cứu quan tâm Mặc cách cực tiểu hóa độ tương tự với trọng tâm toàn tập tài liệu đề xuất [22]: k nr (Cr , C ) r 1 Trong C tâm tồn tập văn 3.3.5 Gán cứng gán mềm Đối với số ứng dụng, đặc biệt với văn bản, gán tài liệu vào cụm, ta muốn định lượng tài liệu có quan hệ với cụm giá trị thực phù hợp Giá trị gọi mức độ thành viên (the membership degree) Trong phân cụm tài liệu coi cụm tập tài liệu thuộc chủ đề chất tài liệu nói vài chủ đề gán vào vài cụm Thuật toán sử dụng quan điểm gọi sử dụng phép gán mềm mờ với cụm phủ Ngược lại thuật toán với phép gán cứng cho phép văn thuộc vào cụm mà không quan tâm đến độ định lượng quan hệ 3.4 Các bước thực phân cụm Xây dựng thủ tục biểu diễn đối tượng, Xây dựng hàm tính độ tương tự, Xây dựng tiêu chuẩn phân cụm, Xây dựng mô hình cho cấu trúc cụm liệu, Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo, Đánh giá kết phân cụm 3.5 Đánh giá kết phân cụm Làm để đánh giá chất lượng cụm? Trong thực tế, tiêu chuẩn tuyệt đối nào, tùy theo mục đích phân cụm có tiêu chuẩn cụm khác phù hợp với yêu cầu sử dụng Các tiêu chuẩn người sử dụng đưa tùy theo toán phân cụm cụ thể Tuy nhiên, nhìn chung phương thức phân cụm đánh giá tốt tạo cụm có chất lượng cao, tức đối tượng cụm có mức tương tự với cao, cịn đối tượng không cụm mức tương tự thấp (phi tương tự) Ngoài ra, chất lượng phương pháp phân cụm đánh giá khả khám phá vài tất cấu trúc ẩn bên Ta tổng quát rằng, chất việc phân cụm xác định đối tượng tương tự để nhóm lại thành cụm Do đó, chất lượng kết phân cụm phụ thuộc chủ yếu hàm độ đo tương tự Vậy hàm độ đo tương tự đóng vai trị định chất lượng cụm liệu 3.6 Phân cụm kết tìm kiếm web Mặc dù xuất phát từ phân cụm tài liệu, phương pháp phân cụm kết tìm kiếm web lại khác so với thuật tốn phân cụm trước nhiều mặt Đáng ý nhất, thuật toán phân cụm tài liệu làm việc tập liệu văn dài (hay văn tóm tắt) với số lượng lớn Ngược lại, thuật toán phân cụm kết tìm kiếm web làm việc tập tài liệu có độ dài trung bình (khoảng vài trăm phần tử với độ dài từ 10-20 từ) Trong phân cụm tài liệu, yếu tố quan trọng chất lượng cụm khả mở rộng với độ lớn số lượng tài liệu thường sử dụng để phân cụm toàn tập tài liệu Đối với phân cụm kết tìm kiếm web, ngồi việc cung cấp cụm chất lượng tốt, cịn cần tạo mơ tả ngắn gọn xúc tích có ý nghĩa cho nhóm Ngồi ra, thuật tốn phải nhanh, cho kết (vì phải xử lý kết tìm kiếm trước hiển thị đến người sử dụng) phải mở rộng qui mô với gia tăng yêu cầu người sử dụng Phân cụm tài liệu Phân cụm kết tìm kiếm web Các tài liệu dài (hoặc văn tóm Các đoạn văn tóm tắt ngắn tắt) Xử lý liệu offline tập liệu Xử lý trực tuyến tập liệu trung lớn bình Chất lượng cụm Chất lượng cụm mơ tả có ý nghĩa cho cụm Khả mở rộng với số lượng tài Khả mở rộng với số truy vấn liệu người dùng Hình 3- So sánh phân cụm tài liệu phân cụm kết tìm kiếm web 3.7 Các phương pháp tách từ tiếng Việt 3.7.1 Đặc điểm từ tiếng Việt Khác với Tiếng Anh, từ nhóm ký tự liên tiếp có ý nghĩa phân cách khoảng trắng dấu câu, đơn vị Tiếng Việt tiếng từ, từ tiếng Việt gồm nhiều tiếng Từ tiếng Việt có số đặc điểm sau: - Từ dạng nguyên thể, hình thức ý nghĩa từ độc lập với cú pháp - Từ cấu trúc từ “tiếng” - Từ bao gồm từ đơn (từ tiếng) từ phức (n-tiếng, với n