1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web

89 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng tập thô vào tìm kiếm web
Tác giả Trần Ngọc Hà
Trường học Đại học Quốc gia Hà Nội, Trường Đại học Công nghệ
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2010
Thành phố Hà Nội
Định dạng
Số trang 89
Dung lượng 5,07 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Ngọc Hà ỨNG DỤNG TẬP THƠ VÀO TÌM KIẾM WEB LUẬN VĂN THẠC SĨ Hà Nội 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục MỞ ĐẦU Danh sách bảng biểu Danh sách hình vẽ Chương 1: GIỚI THIỆU TỔNG QUAN 1.1 Lý chọn đề tài .9 1.2 Phạm vi công việc 10 1.3 Cấu trúc luận văn 10 Chương 2: MÁY TÌM KIẾM WEB 12 2.1 Khái niệm 12 2.2 Cấu trúc máy tìm kiếm web 13 2.3 Biểu diễn kết tìm kiếm 15 2.4 Đánh giá chất lượng tìm kiếm 17 Chương 3: PHÂN CỤM TÀI LIỆU VÀ VẤN ĐỀ TÁCH TỪ TIẾNG VIỆT 19 3.1 Phân cụm 19 3.1.1.Khái niệm 19 3.1.2.Ứng dụng phân cụm tài liệu thu thập tổ chức thơng tin 20 3.2 Mơ hình khơng gian vector trình bày văn 21 3.2.1.Các kỹ thuật tiền xử lý tài liệu 22 3.2.2.Bảng trọng số 23 3.2.3.Độ đo tương tự 26 3.2.4.Biểu diễn cụm 27 3.3 Các giải thuật phân cụm 27 3.3.1.Phương pháp phân cụm phân cấp 28 3.3.2.Phương pháp phân cụm phân hoạch 29 3.3.3.Thuật toán phân cụm bán giám sát Seeded - KMeans 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3.3.4.Tiêu chuẩn tối ưu 32 3.3.5.Gán cứng gán mềm 33 3.4 Các bước thực phân cụm 34 3.5 Đánh giá kết phân cụm 34 3.6 Phân cụm kết tìm kiếm web 34 3.7 Các phương pháp tách từ tiếng Việt 35 3.7.1.Đặc điểm từ tiếng Việt 35 3.7.2.Phương pháp so khớp cực đại 36 3.7.3.Phương pháp học cải biến 37 3.7.4.Mơ hình tách từ WFST mạng Neural 37 3.7.5.Phương pháp tách tách từ tiếng Việt dựa thống kê từ Internet thuật giải di truyền 38 Chương 4: LÝ THUYẾT TẬP THÔ 39 4.1 Giới thiệu 39 4.2 Hệ thông tin 40 4.3 Quan hệ bất khả phân biệt 42 4.3.1.Quan hệ tương đương - Lớp tương đương 43 4.4 Xấp xỉ tập hợp 44 4.5 Hàm thuộc thô 50 4.6 Mơ hình tập thơ dung sai 52 4.6.1.Không gian dung sai từ mục 53 4.6.2.Nâng cao chất lượng biểu diễn tài liệu 55 4.6.3.Mở rộng lược đồ trọng số cho xấp xỉ 55 Chương 5: ÁP DỤNG LÝ THUYẾT TẬP THÔ VÀO PHÂN CỤM KẾT QUẢ TÌM KIẾM WEB 57 5.1 Vấn đề phân cụm kết tìm kiếm web 57 5.2 Các thuật toán phân cụm tài liệu dựa TRSM 58 5.2.1.Biểu diễn cụm 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.2.2.Thuật tốn phân cụm khơng phân cấp dựa TRSM 60 5.2.3.Thuật toán phân cụm phân cấp dựa TRSM 62 5.3 Thuật toán TRC 62 5.3.1.Tiền xử lý 63 5.3.2.Xây dựng ma trận từ - tài liệu 63 5.3.3.Tạo lớp dung sai 64 5.3.4.Thuật toán phân cụm Seeded - KMeans cải tiến 68 Chương 6: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM 71 6.1 Xác định yêu cầu 71 6.2 Các thành phần ứng dụng thử nghiệm 71 6.3 Xây dựng thành phần chức 72 6.3.1.Trình thu thập nội dung web 72 6.3.2.Bộ tách từ tiếng Việt 75 6.3.3.Bộ xử lý truy vấn 76 6.3.4.Biểu diễn kết tìm kiếm web 76 6.4 Triển khai ứng dụng thử nghiệm 77 KẾT LUẬN 84 Tài liệu tham khảo 86 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng biểu Bảng 3-1 Ví dụ bảng trọng số nhị phân tài liệu .24 Bảng 3-2 Ví dụ bảng trọng số tài liệu .24 Bảng 3-3 Ví dụ trọng số cho tài liệu bảng 3-2 Trọng số vector tài liệu chuẩn hóa độ dài .25 Bảng 3-4 Một số phép đo độ tương tự hai vectơ tài liệu X, Y Trong đó, xi, yi trọng số thành phần thứ i vectơ .26 Bảng 3-5 So sánh đặc điểm khác tiếng Anh tiếng Việt 36 Bảng 4-1 Một hệ thông tin đơn giản 41 Bảng 4-2 Một bảng định đơn giản 42 Bảng 4-3 Bảng định dùng minh hoạ hàm thuộc thô 52 Bảng 4-4 Các lớp dung sai quan trọng từ sinh từ 200 snippets trả từ máy tìm kiếm Google với từ khóa “jaguar” ngưỡng đồng xuất  = 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ Hình 2-1 Giao diện biểu diễn kết tìm kiếm Web Google .12 Hình2-2 Cấu trúc bên của máy tìm kiếm Web 13 Hình 2-3 Cấu trúc liệu inverted index 14 Hình 3-1 Mơ tả phân cụm 20 Hình 3-2 Tiến trình phân cụm tài liệu 20 Hình 3-3 So sánh phân cụm tài liệu phân cụm kết tìm kiếm web .35 Hình 4- Hình ảnh minh họa khái niệm tập thô 40 Hình 4-2 Xấp xỉ tập đối tượng Bảng 4-2 thuộc tính điều kiện Age LEMS Mỗi vùng thể kèm theo tập lớp tương đương tương ứng .46 Hình 5-1 Các bước thật toán TRC 62 Hình 5-2 Sơ đồ bước thuật toán tạo lớp dung sai .65 Hình 6-1 Qui trình thu thập nội dung web 73 Hình 6-2 Nhận dạng tiêu đề viết addon Firebug trình duyệt Firefox 74 Hình 6-3 Giao diện quản trị mẫu nhận dạng .75 Hình 6-4 Website http://doctinnhanh.net .78 Hình 6-5 Giao diện biểu diễn kết tìm kiếm chia theo chủ đề 81 Hình 6-6 Website Bách khoa tồn thư văn hóa Việt 83 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Những năm gần giới nói chung Việt Nam nói riêng, với phát triển công nghệ web 2.0, hệ thống wiki mạng xã hội có phát triển nhảy vọt số lượng chất lượng Có thể nói chưa có việc đưa thơng tin lên mạng lại dễ dàng giai đoạn Bất cá nhân tham gia vào cộng đồng mạng đóng góp viết vào kho thơng tin khổng lồ nhân loại Chính phát triển mà vấn đề mà ta quan tâm sử dụng máy tìm kiếm để tìm kiếm Internet Tuy nhiên việc khai thác thông tin cần thiết kho liệu khổng lồ cho tiện lợi chuẩn xác vấn đề cần phải giải Hiện khai thác tìm kiếm thông tin Internet vấn đề nhiều nhà nghiên cứu quan tâm Trong khối lượng thông tin Web khổng lồ, mà câu hỏi truy vấn người sử dụng thường xác, nên số kết trả từ máy tìm kiếm lên đến hàng trăm hay hàng ngàn tài liệu Do đó, tìm xác tài liệu quan tâm khó tốn nhiều thời gian Thực nghiệm cho thấy, nội dung chia thành nhóm chủ đề giúp người dùng nhanh chóng tìm kết cần Vì vậy, cách tiếp cận để giải vấn đề khai thác hiệu kết từ máy tìm kiếm thơng tin sử dụng kĩ thuật phân cụm kết tìm kiếm theo chủ đề tạo nên cách biểu diễn kết tìm kiếm Web đọng rõ ràng Đây vấn đề nhận quan tâm nhiều tác giả, họ đề nhiều cách tiếp cận khác để giải toán Trong đề tài áp dụng lý thuyết tập thơ vào phân cụm kết tìm kiếm Web tiếng Việt Cách tiếp cận sử dụng mơ hình tập thơ dung sai để tăng chất lượng việc biểu diễn tài liệu cụm từ làm tăng hiệu việc phân cụm; đồng thời sử dụng phương pháp phân cụm bán giám sát Seeded - KMeans để phân cụm xác định chủ đề tài liệu Mục tiêu đề tài xây dựng thử nghiệm công cụ tìm kiếm web tiếng Việt có khả phân cụm tài liệu vào chủ đề khác giúp người dùng nhanh chóng tìm kết cần nhờ cách biểu diễn kết tìm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com kiếm rõ ràng đọng Với mục tiêu đó, sau q trình làm việc, xây dựng công cụ tìm kiếm web tiếng Việt gồm thành phần sau:  Trình thu thập web tiếng Việt, trình thu thập có đặc điểm bật có khả phân tích cấu trúc trang web thành phần tiêu đề, tóm tắt viết, nội dung viết,… nhờ mẫu nhận dạng cấu trúc người dùng đưa vào  Thành phần thứ sử dụng để phân tích trang web thành từ tiếng Việt biểu diễn tài liệu thu thập dạng vector tài liệu không gian vector  Thành phần thứ thành phần xử lý truy vấn người dùng trả kết tìm kiếm thỏa mãn truy vấn người dùng  Thành phần thứ biểu diễn kết tìm kiếm web, mục tiêu xây dựng thành phần thể kết tìm kiếm web cách rõ ràng đọng cách gán chúng vào chủ đề tạo thuận lợi cho người sử dụng việc tìm kiếm thơng tin Vì chúng tơi áp dụng mơ hình tập thơ dung sai thuật tốn phân cụm bán giám sát Seeded – Kmeans để phân cụm kết tìm kiếm web Các kết tìm kiếm phân thành chủ đề khác có nhãn định sẵn dựa mẫu tài liệu gán nhãn Mặc dù thân nỗ lực cố gắng, giúp đỡ đồng nghiệp đặc biệt hướng dẫn bảo tận tình PGS TS Hồng Xn Huấn, thời gian có hạn nên đề tài khơng tránh khỏi thiếu sót, mong nhận đóng góp ý kiến chuyên gia, bạn bè đồng nghiệp Qua đây, xin gửi lời cảm ơn sâu sắc tới PGS TS Hồng Xn Huấn, tận tình hướng dẫn cho định hướng ý kiến quý báu suốt trình thực luận văn Tôi xin chân thành cảm ơn thầy, cô giáo Bộ môn Truyền liệu Mạng máy tính, Khoa Cơng nghệ thơng tin, trường Đại học Công nghệ - Đại học Quốc gia Hà Nội tạo điều kiện tốt để tơi hồn thành khóa học LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đồng thời, tơi xin cảm ơn gia đình, bạn bè, người ln khuyến khích giúp đỡ tơi hồn cảnh khó khăn Tơi xin cảm ơn quan đồng nghiệp tạo điều kiện cho tơi suốt q trình học tập làm luận văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 1: GIỚI THIỆU TỔNG QUAN 1.1 Lý chọn đề tài Sự phát triển không ngừng Word Wide Web (WWW) giai đoạn mang lại cho lồi người nguồn thơng tin khổng lồ Hầu thông tin lĩnh vực sống tìm thấy Web Cùng với bùng nổ thơng tin đó, cơng cụ tìm kiếm web khơng ngừng phát triển để phục vụ cho nhu cầu tìm kiếm thơng tin người Hiện có nhiều cơng cụ tìm kiếm web mạnh giúp tìm kiếm thơng tin nhanh chóng Google, Yahoo, Answer, Altavista, … Đặc điểm cơng cụ tìm kiếm thực việc tìm kiếm dựa phương pháp xếp hạng tài liệu (Document Ranking) biểu diễn kết tìm kiếm theo thứ tự hạng xuất Với bùng nổ thông tin nay, cơng cụ tìm kiếm có nhiều cải tiến cách tiếp cận có số hạn chế đây: Do bùng nổ thông tin WWW, tính chất động trang web nên máy tìm kiếm khơng thể thực tính hạng cho tất tài liệu mà tính hạng cho phần tài liệu Khi có ý định tìm thơng tin WWW, suy nghĩ người dùng hình thành khái niệm họ cần tìm, khái niệm chuyển thành tập từ khóa sử dụng để đặt câu hỏi truy vấn Tuy nhiên kinh nghiệm sử dụng hạn chế, từ khóa người dùng nhập thường ngắn cho kết tìm kiếm chung chung, lên đến hàng trăm hàng ngàn kết Trong người sử dụng lại có thói quen xem kết trang người duyệt đến trang sau, bỏ qua số kết tìm kiếm cần thiết Với lý ta thấy phát triển giao diện tương tác thông minh người máy, hỗ trợ người sử dụng việc tìm kiếm thơng tin việc làm cần thiết Đây vấn đề nhiều nhà nghiên cứu quan tâm Mặc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com web hành, … trình thu thập web phải xác định loại bỏ siêu liên kết để tránh việc thu thập nội dung không hữu ích làm giảm hiệu hệ thống Vì siêu liên kết có hai kiểu đường dẫn tuyệt đối đường dẫn tương đối, thành phần thu thập nội dung cần phải xây dựng thư viện để chuẩn hóa lại siêu liên kết, thư viện có nhiệm vụ biến đổi tồn siêu liên kết dạng địa tuyệt đối để đảm bảo việc thu thập nội dung xác Điểm đặc biệt trình thu thập nội dung mà chúng tơi xây dựng khả bóc tách nội dung tài liệu thành trường thông tin Điều thực tính có cấu trúc tài liệu html trang web đa phần web động có cấu trúc trình bày tài liệu thống Ví dụ phần tiêu đề, tóm tắt hay nội dung viết ln phân biệt với thẻ HTML chứa chúng (hình 6-2) Hình 6-2 Nhận dạng tiêu đề viết addon Firebug trình duyệt Firefox LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Việc bóc tách thơng tin thực xác người dùng cung cấp cho trình thu thập nội dung đặc điểm nhận dạng trường thông tin tài liệu (hình 6-3) Chúng tơi sử dụng biểu thức qui phép tốn xử lý chuỗi để bóc tách nội dung Hình 6-3 Giao diện quản trị mẫu nhận dạng 6.3.2 Bộ tách từ tiếng Việt Để phân cụm tài liệu, phải biểu diễn tài liệu dạng vector tài liệu không gian vector Ứng dụng mà xây dựng cho phép người dùng tìm kiếm thơng tin theo chủ đề nhờ ứng dụng lý thuyết tập thô vào vấn đề phân cụm kết tìm kiếm web, cần xây dựng tách từ tiếng Việt để biểu diễn nội dung trang web dạng vector tài liệu Thành phần tách từ xây dựng phải có số chức loại bỏ thẻ HTML, loại bỏ ký tự đặc biệt, phân tích nội dung tài liệu thành câu sau tách câu thành từ để việc tách từ có độ xác cao LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Để xây dựng thành phần này, sử dụng thuật toán tách từ tiếng Việt giới thiệu mục 3.7 Vì ứng dụng tìm kiếm thực trực tuyến, nên việc tìm kiếm phải thực gần tức thời Do việc tách từ u cầu xác cần có tốc độ xử lý nhanh Để thỏa mãn yêu cầu đó, lựa chọn phương pháp tách từ tiếng Việt dựa từ điển Việc phân tách từ thực khoảng thời gian ngắn thực việc chia nhỏ từ điển thành nhiều file dựa độ dài từ cần tách Các từ điển load vào nhớ thực tìm kiếm để tránh việc truy cập file nhiều lần làm giảm tốc độ tìm kiếm Ngồi kỹ thuật tìm kiếm nhị phân giúp tăng hiệu trình tìm kiếm 6.3.3 Bộ xử lý truy vấn Như trình bày phần xác định yêu cầu, xây dựng thành phần để xử lý yêu cầu tìm kiếm người dùng Bộ xử lý phải xử lý số phép tốn tìm kiếm tương tự máy tìm kiếm khác tìm kiếm theo từ, tìm kiếm xác cụm từ,… 6.3.4 Biểu diễn kết tìm kiếm web Tiêu chí để đánh giá chất lượng máy tìm kiếm web giao diện biểu diễn kết tìm kiếm web tương tác với người dùng Giao diện thực việc tìm kiếm đơn giản dễ sử dụng, kết trả tổ chức khoa học Vì số lượng kết tìm kiếm trả lớn nên đến hàng trăm hàng nghìn tài liệu, chúng tơi sử dụng kỹ thuật phân trang để người dùng duyệt qua trang kết tìm kiếm, điều khơng giúp tốc độ thực việc tìm kiếm tăng tốc đáng kể mà khiến người dùng dễ dàng việc tiếp cận với kết trả Trong trang kết quả, chúng tơi cịn phân kết thành cụm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com kết để người dùng dễ dàng xác định nội dung cần tìm Chi tiết kỹ thuật áp dụng cho việc phân cụm kết tìm kiếm chúng tơi trình bày chương Các giao diện thực tế chúng tơi xây dựng tham khảo thực tế website http://doctinnhanh.net 6.4 Triển khai ứng dụng thử nghiệm Toàn ứng dụng thử nghiệm mà xây dựng triển khai địa http://doctinnhanh.net Đây trang web tổng hợp tin tức từ báo điện tử lớn Việt Nam http://dantri.com.vn, http://vnexpress.net, http://vietnamnet.vn, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 6-4 Website http://doctinnhanh.net LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Đến với website người dùng cập thông tin nhất, viết tổ chức theo chủ đề giúp người dùng tiếp cận nhanh chóng đến thơng tin mà mong muốn mà khơng phải vào nhiều trang web lúc Đặc biệt, nhờ ứng dụng lý thuyết tập thô vào việc phân cụm kết tìm kiếm web nên đến với website, người dùng tìm kiếm thơng tin cách nhanh chóng thuận tiện nhất, khơng cần nhớ nhiều từ khóa liên quan đến tài liệu cần tìm, người dùng cần nhập từ khóa cần tìm chương trình tìm kiếm trả kết tìm kiếm chia thành chủ đề khác giúp tiếp cận thơng tin cách nhanh chóng Hình 6.5 giao diện kết tìm kiếm tương ứng với từ khóa “tin”, ứng dụng thử nghiệm trả 2.126 viết có chứa từ khóa tin chia thành 20 chủ đề Hình vẽ thể giao diện tìm kiếm người dùng chọn xem chủ đề “vi tính” LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 6- Giao diện biểu diễn kết tìm kiếm chia theo chủ đề Bên cạnh chức website tổng hợp thơng tin, chúng tơi có dự định xây dựng thêm cơng cụ tiện ích cho người dùng nhận tin qua email theo chuyên mục, đăng ký từ khóa để nhận tin qua email giống công cụ Google Alert, xây dựng widget cho phép người dùng sử dụng lại thông tin tổng hợp website riêng mình,… Ngồi thành phần chúng tơi cịn sử dụng trình thu thập nội dung Web xây dựng việc tổng hợp nội dung cho website Bách khoa toàn thư văn hóa Việt địa http://vhv.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 6-6 Website Bách khoa tồn thư văn hóa Việt Nhờ ứng dụng thu thập nội dung web, xây dựng hệ thống nội dung phong phú, chia thành nhiều chủ đề thuộc lĩnh vực văn hóa Việt Nam như: Văn hóa nghệ thuật, lịch sử, trang phục, dân tộc, phong tục,… Ngoài thu thập nội dung web cịn có thay đổi phù hợp để tổng hợp kiểu liệu khác hình ảnh, âm nhạc, video clip giúp người dùng có nhìn đa chiều sinh động văn hóa Việt Nam LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Trong giai đoạn bùng nổ thông tin nay, người dùng có hội để tiếp cận với kho tri thức khổng lồ nhân loại Các cơng cụ tìm kiếm giúp người dùng thuận tiện trình tìm kiếm tri thức Để thuận tiện cho việc tìm kiếm xây dựng cơng cụ tìm kiếm biểu diễn kết tìm kiếm theo cụm chủ để Đã có nhiều cơng trình nghiên cứu thành công lĩnh vực này, đặc biệt với ngôn ngữ tiếng Anh Tuy nhiên, tiếng Việt có đặc thù riêng biệt mà cơng cụ tìm kiếm tiếng Anh xử lý khơng cho kết xác Chính cần xây dựng cơng cụ riêng việc tìm kiếm thơng tin tiếng Việt cho thuận tiện với người dùng Việt Đây việc làm cần thiết có nhiều ý nghĩa khoa học thực tiễn Trong luận văn này, xây dựng thử nghiệm công cụ tìm kiếm web, cho phép người dùng tìm kiếm web theo chủ đề Nhờ việc vận dụng thuật toán tách từ giành cho tiếng Việt lý thuyết tập thơ cho việc phân cụm kết tìm kiếm, thử nghiệm chúng tơi cho thấy giải tốt tính chất phức tạp tiếng Việt để xây dựng nên cơng cụ tìm kiếm web tiếng Việt phục vụ cho người Việt Tuy nhiên, hạn chế thời gian trình độ có hạn nên cố gắng, thử nghiệm chúng tơi cịn tồn số vấn đề chưa giải triệt để Chính xác định số hướng nghiên cứu mà nhận cần thực tương lai:  Nghiên cứu thuật toán tách từ tiếng Việt kết tách từ xác tốc độ thuật toán thực nhanh  Vận dụng triệt để lý thuyết tập thô để thu gọn số chiều vector biểu diễn tài liệu đặc trưng cụm góp phần nâng cao tốc độ xử lý kết tìm kiếm web  Phát triển cơng cụ thu thập web có tính tùy biến cao cho phép thu thập web theo kiểu trường hóa giúp người dùng tìm kiếm thơng tin với độ xác cao LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com  Thực nghiệm chương trình diện rộng thu thập ý kiến đánh giá người dùng để có kết đánh giá chất lượng xác phát triển cơng cụ tìm kiếm thuận tiện LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Tiếng Việt Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), "Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt", kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội Trịnh Quốc Sơn, “Nghiên cứu phân loại văn tiếng Việt”, khóa luận mơn Data mining Tiếng Anh Baeza-Yates, R., and Ribeiro-Neto, B (1999) Modern Information Retrieval, 1st ed Addison Wesley Longman Publishing Co Inc Basu, S., Banerjee, A., & Mooney, R J (2002) Semi-supervised clustering by seeding In Proceedings of 19th International Conference on Machine Learning (ICML-2002), pp 19–26 Basu, S., Banerjee, A., & Mooney, R J (2003) Active semi-supervision for pairwise constrained clustering Submitted for publication, available at http://www.cs.utexas.edu/˜sugato/ Basu Sugato (2004) Semi-supervised Clustering with Limited Background Knowledge Proceedings of the Ninth AAAI/SIGART Doctoral Consortium, pp 979-980, San Jose, CA, July 2004 Bilenko Mikhail, Basu Sugato, and Mooney Raymond J (2004) Integrating Constraints and Metric Learning in Semi-Supervised Clustering Proceedings of the 21st International Conference on Machine Learning (ICML-2004), pp 81-88, Banff, Canada, July 2004 Gautam Pant, Padmini Srinivasan, and Filippo Menczer (2008), Crawling the Web Jiawei Han, M K (2000), Data Mining: Concepts and Techniques, 1st ed LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Morgan Kaufmann 10 Jan Komorowski, Lech Polkowski, Andrzej Skowron, Rough sets: A Tutorial 11 Kaufman, L and Rousseeuw (1990) Finding groups in data: an introduction to cluster analysis, John Wiley and Sons, New York 12 Ngo Chi Lang (2003), A tolerance rough set approach to clustering web search results, Master's thesis 13 S.Chakrabarti (2003), Mining the Web Morgan Kaufmann 14 Saori Kawasaki, Ngoc Binh Nguyen, T B H (2000), Hierarchical document clustering based on tolerance rough set model In Principles of Data Mining and Knowledge Dis-covery, 4th European Conference, PKDD 2000, Lyon, France, September 13-16 Proceedings (2000), D A Zighed, H J Komorowski, and J M Zytkow, Eds., vol 1910 of Lecture Notes in Computer Science, Springer 15 G.Salton (1989), Automatic text processing: the transformation, analysis, and retrieval of information by computer Addison-Wesley Longman Publishing Co., Inc 16 Soumen Chakrabarti, Martin van den Berg, Byron Dom (1999), Focused crawling: a new approach to topic-specific Web resource discovery, Toronto 17 Tu Bao Ho, N B N (2002) Nonhierarchical document clustering based on a tolerance rough set model International Journal of Intelligent Systems 18 Z Pawlak (1991), Rough sets: Theoretical aspects of reasoning about data Kluwer Dordrecht 19 Zifeng Cui, Baowen Xu, Weifeng Zhang, Junling Xu (2005), Web Documents Clustering with Interest Links, IEEE 20 D Zhang (2002), Towards Web Information Clustering PhD thesis, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Southeast University, Nanjing, China 21 Zdravko Markov and Daniel T Larose (2007), Data mining the web Uncovering Patterns in Web Content, Structure, and Usage, Wiley & Sons, Inc., Publication 22 Y.Zhao, and G.Karypis (2001), Criterion functions for document clustering: Experiments and analysis 23 Zdravko Markov and Daniel T Larose (2007), Data mining the web Uncovering Patterns in Web Content, Structure, and Usage, Wiley & Sons, Inc., Publication 24 W.Ziarko (1993) Variable precision rough set model Journal of Computer and System Sciences LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... nghiệm luận văn Và phần cuối kết luận luận văn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương 2: MÁY TÌM KIẾM WEB 2.1 Khái niệm Máy tìm kiếm Web cơng cụ giúp người sử dụng tìm kiếm. .. đầy đủ Máy tìm kiếm web tương tác với người sử dụng thông qua giao diện đơn giản thân thiện Người sử dụng cần đặt câu hỏi truy vấn vấn đề quan tâm, máy tìm kiếm web trả tập kết tìm kiếm (snippets)... kết tìm kiếm Web Google LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.2 Cấu trúc máy tìm kiếm web Cấu trúc máy tìm kiếm web thể hình 2-2 Hình2- Cấu trúc bên của máy tìm kiếm Web

Ngày đăng: 05/12/2022, 17:58

HÌNH ẢNH LIÊN QUAN

Thành phần lập chỉ mục tài liệu thực hiện chức năng xõy dựng bảng chỉ số tài liệu hỗ trợ cụng việc tỡm kiếm - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
h ành phần lập chỉ mục tài liệu thực hiện chức năng xõy dựng bảng chỉ số tài liệu hỗ trợ cụng việc tỡm kiếm (Trang 15)
3.2.2.Bảng trọng số - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
3.2.2. Bảng trọng số (Trang 24)
Bảng 3- 2: Vớ dụ bảng trọng số của cỏc tài liệu. - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
Bảng 3 2: Vớ dụ bảng trọng số của cỏc tài liệu (Trang 25)
Bảng 3- 1: Vớ dụ bảng trọng số nhị phõn của cỏc tài liệu. - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
Bảng 3 1: Vớ dụ bảng trọng số nhị phõn của cỏc tài liệu (Trang 25)
Bảng 3- 3: Vớ dụ trọng số cho cỏc tài liệu trong bảng 3-2. Trọng số của vector tài liệu được chuẩn húa bằng độ dài của nú - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
Bảng 3 3: Vớ dụ trọng số cho cỏc tài liệu trong bảng 3-2. Trọng số của vector tài liệu được chuẩn húa bằng độ dài của nú (Trang 26)
Bảng 3-4. Một số phộp đo độ tương tự giữa hai vectơ tài liệu X, Y. Trong đú, xi, yi là trọng số thành phần thứ i của vectơ  - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
Bảng 3 4. Một số phộp đo độ tương tự giữa hai vectơ tài liệu X, Y. Trong đú, xi, yi là trọng số thành phần thứ i của vectơ (Trang 27)
Bảng 3-5. So sỏnh cỏc đặc điểm khỏc nhau giữa tiếng Anh và tiếng Việt - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
Bảng 3 5. So sỏnh cỏc đặc điểm khỏc nhau giữa tiếng Anh và tiếng Việt (Trang 37)
Một tập dữ liệu thể hiện dưới dạng bảng, trong đú mỗi dũng thể hiện cho một trường  hợp,  một sự kiện,  một bệnh  nhõn  hay đơn  giản  là  một đối tượng - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
t tập dữ liệu thể hiện dưới dạng bảng, trong đú mỗi dũng thể hiện cho một trường hợp, một sự kiện, một bệnh nhõn hay đơn giản là một đối tượng (Trang 41)
Bảng 4-1. Một hệ thụng tin đơn giản - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
Bảng 4 1. Một hệ thụng tin đơn giản (Trang 42)
Bảng 4-2. Một bảng quyết định đơn giản - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
Bảng 4 2. Một bảng quyết định đơn giản (Trang 43)
Hỡnh 4-2. Xấp xỉ tập đối tượng trong Bảng 4-2 bằng cỏc thuộc tớnh điều kiện Age và LEMS - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
nh 4-2. Xấp xỉ tập đối tượng trong Bảng 4-2 bằng cỏc thuộc tớnh điều kiện Age và LEMS (Trang 47)
Vớ dụ 4-8: Xột bảng quyết định dưới đõy - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
d ụ 4-8: Xột bảng quyết định dưới đõy (Trang 52)
Bảng 4-3. Bảng quyết định dựng minh hoạ hàm thuộc thụ - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
Bảng 4 3. Bảng quyết định dựng minh hoạ hàm thuộc thụ (Trang 53)
Bảng 4-4. Cỏc lớp dung sai quan trọng của cỏc từ được sinh ra từ 200 snippets trả về từ mỏy tỡm kiếm Google với từ khúa “jaguar” và ngưỡng đồng xuất hiện  = 9  - Luận văn thạc sĩ VNU UET ứng dụng tập thô vào tìm kiếm web
Bảng 4 4. Cỏc lớp dung sai quan trọng của cỏc từ được sinh ra từ 200 snippets trả về từ mỏy tỡm kiếm Google với từ khúa “jaguar” và ngưỡng đồng xuất hiện  = 9 (Trang 56)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w