Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI TRẦN BÌNH THÀNH ỨNG DỤNG KỸ THUẬT HỌC MÁY TRONG CƠNG CỤ TÌM KIẾM THƠNG TIN THEO LĨNH VƯC CHUYÊN SÂU CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: Tiến sĩ: TRẦN ĐỨC KHÁNH Hà Nội – Năm 2010 MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Lịch sử tìm hiểu Mục đích tìm hiểu, đối tượng, phạm vi tìm hiểu luận văn 3.1 Mục đích tìm hiểu 3.2 Đối tượng tìm hiểu 3.3 Phạm vi tìm hiểu .3 Các luận điểm đóng góp luận văn 4.1 Các luận điểm 4.2 Đóng góp luận văn Phương pháp tìm hiểu 5.1 Phương pháp đọc tìm hiểu tài liệu .5 5.2 Phương pháp thực nghiệm khoa học .5 5.3 Phương pháp so sánh - đối chiếu Cấu trúc luận văn .5 NỘI DUNG CHƯƠNG I TỔNG QUAN VỀ MÁY TÌM KIẾM THƠNG TIN THEO LĨNH VỰC CHUYÊN SÂU .7 1.1 Hệ thống tìm kiếm tổng quát .8 1.1.1 Kiến trúc chung hệ thống tìm kiếm .8 1.1.1.1 Bộ thu thập thông tin (Crawler) 1.1.1.2 Bộ lập mục (Indexer) .8 1.1.1.3 Bộ tìm kiếm thơng tin (Searcher) 1.1.2 Nguyên lý làm việc chung hệ thống tìm kiếm 1.1.2.1 Web crawling (Thu thập thông tin) .9 1.1.2.2 Indexing (Đánh mục) .9 1.1.2.3 Searching (Tìm kiếm) 10 1.1.3 Các vấn đề cần phải giải hệ thống tìm kiếm 10 1.2 Một số cách đánh giá chất lượng crawler 10 1.3 Hệ thống tìm kiếm theo lĩnh vực chuyên sâu 11 1.3.1 Tại phải xây dựng hệ thống tìm kiếm theo lĩnh vực chuyên sâu .11 1.3.2 Nguyên lý kiến trúc hệ thống tìm kiếm theo lĩnh vực chuyên sâu 13 1.3.2.1 Nguyên lý 13 1.3.2.2 Kiến trúc chung 13 CHƯƠNG II 17 CƠ SỞ LÝ THUYẾT VÀ GIẢI PHÁP ĐỂ XÂY DỰNG CÔNG CỤ THU THẬP THÔNG TIN THEO LĨNH VỰC CHUYÊN SÂU 17 2.1 Tổng quan Học tăng cường thuật toán Q-learning 17 2.1.1 Khái niệm học tăng cường 17 2.1.2 Thuật toán Q-learning 19 2.1.3 Ví dụ minh họa cho thuật tốn Q-learning 22 2.1.4 Nhận xét .30 2.1.5 Quan hệ học tăng cường tốn crawler 30 2.1.6 Các khó khăn áp dụng Học tăng cường vào thực tế 30 2.1.7 Giải thuật Crawling theo lĩnh vực chuyên sâu 32 2.1.7.1 Anchor text đặc trưng để phân biệt trang web 33 2.1.7.2 Ánh xạ: Tập từ → giá trị Q 34 2.1.7.3 Xây dựng tập huấn luyện crawler dựa Hadoop Nutch 35 2.1.7.4 Huấn luyện crawler .41 2.1.7.5 Quá trình hoạt động crawler 41 2.2 Phân loại văn phương pháp vector hỗ trợ 43 2.2.1 Khái niệm phân loại văn .43 2.2.2 Vai trò phân loại văn yếu tố tác động đến kết phân loại văn toán crawl .43 2.2.3 Các vấn đề phân loại văn .44 2.2.3.1 Biểu diễn văn 44 2.2.3.2 Trích rút đặc trưng .48 2.2.4 Bộ phân loại vector hỗ trợ (Support Vector Machine – SVM) 50 2.2.4.1 Trường hợp phân tách tuyến tính 52 2.2.4.2 Siêu phẳng lề mềm 53 2.2.4.3 Tách phi tuyến .54 2.2.4.3 Ví dụ 56 2.2.4.4 Huấn luyện SVM .57 2.2.4.5 Giải tốn tối ưu hóa phương pháp Sequential Minimal Optimization (SMO) 58 2.2.4.6 Phân loại đa lớp phương pháp Direct Acyclic Graph Support Vector Machines 58 2.2.5 Xây dựng phân loại tài liệu với SVM ứng dụng cho crawler hệ thống tìm kiếm thơng tin theo lĩnh vực chuyên sâu 60 2.2.5.1 Các giải thuật phương pháp sử dụng để phát triển mơ hình 60 2.2.5.2 Các biện pháp nâng cao hiệu cho máy phân lớp 61 2.3 Sử dụng automata kết hợp xác suất thống kê để tách từ tiếng Việt 62 2.3.1 Các hướng tiếp cận để tách từ 62 2.3.2 Khái quát automata hữu hạn trạng thái xác định 62 2.3.3 Xây dựng đồ thị biểu diễn cụm từ .64 2.3.4 Giải nhập nhằng .66 2.3.5 Xây dựng tách từ tiếng Việt 68 2.3.5.1 Xây dựng từ điển từ vựng tiếng Việt 68 2.3.5.2 Xây dựng automata đoán nhận âm tiết tiếng Việt 69 2.3.5.3 Xây dựng automata đoán nhận từ vựng tiếng Việt 70 2.3.5.4 Xây dựng automata để mã hóa từ láy .70 2.3.5.5 Xây dựng automata đoán nhận tên riêng 72 2.3.5.6 Xây dựng modul cắt cụm từ 73 2.3.6.7 Kiến trúc tổng thể tách từ tiếng Việt 74 CHƯƠNG III 77 CÀI ĐẶT THỬ NGHIỆM CÔNG CỤ THU THẬP THÔNG TIN THEO LĨNH VỰC CHUYÊN SÂU VÀ BÀN LUẬN 77 3.1 Phương hướng cài đặt hệ thống tìm kiếm thơng tin theo lĩnh vực chun sâu 77 3.2 Kiến trúc Nutch .78 3.3 Hoạt động Nutch crawler 78 3.3.1 Cấu trúc thư mục làm việc Nutch 79 3.3.2 Phiên làm việc Nutch Crawler 82 3.3.3 Phiên làm việc Nutch Crawler có ứng dụng học tăng cường 83 3.4 Kết thử nghiệm bàn luận 85 3.4.1 Kết thử nghiệm việc tách từ tiếng Việt 85 3.4.1.1 Kết Dantri 85 3.4.1.2 Kết VnExpress 86 3.1.4.3 Kết Vietnamnet 86 3.4.1.4 Kết trung bình 87 3.4.2 Kết thử nghiệm với phân loại tài liệu với SVM cho tài liệu tiếng Việt 87 3.4.2.1 Bộ liệu tin tức gồm chủ đề: "pháp luật", "đời sống" "giáo dục", lấy từ báo điện tử vnexpress.net 88 3.4.2.2 Phân loại lớp với liệu lấy từ trang Dantri .89 3.4.3 Kết thử nghiệm cho hệ thống thu thập thông tin .89 3.4.3.1 Thử nghiệm trang báo điện tử VNExpress với chuyên mục sức khỏe 90 3.4.3.2 Thử nghiệm 24h với chuyên mục tuyển dụng Công nghệ thông tin 91 KẾT LUẬN VÀ KIẾN NGHỊ 94 TÀI LIỆU THAM KHẢO .95 DANH MỤC BẢNG BIỂU Bảng 1.1: Kết tách từ trung bình với liệu từ Dantri 86 Bảng 1.2: Kết tách từ trung bình với liệu từ VnEpxress .86 Bảng 1.3: Kết tách từ trung bình với liệu từ Vietnamnet 86 Bảng 1.4: Kết trung bình việc tách từ tiếng Việt, từ hai nguồn liệu Vietnamnet VnExpress .87 Bảng 1.5: Kết thử nghiệm SVM với chủ đề Pháp luật, Đời sống Giáo dục .88 Bảng 1.6: Kết thử nghiệm phân loại tài liệu tiếng Việt lớp .89 DANH MỤC HÌNH VẼ Hình 1.1: Kiến trúc tổng qt hệ thống tìm kiếm .8 Hình 1.2: Minh họa cho hiệu hệ thống tìm kiếm theo lĩnh vực chuyên sâu 12 Hình 1.3: Minh họa hoạt động loại crawler đồ thị link 13 Hình 1.4: Mơ hình kiến trúc hệ thống tìm kiếm theo lĩnh vực chuyên sâu nhóm SE2010 đề xuất 16 Hình 2.1: Quan hệ tác tử môi trường học tăng cường .17 Hình 2.2: Đồ thị mơ hình hóa trạng thái 22 Hình 2.3: Đồ thị trạng thái khởi động ban đầu .22 Hình 2.4: Đồ thị trạng thái sau kết thúc giải thuật 29 Hình 2.5: Minh họa việc chuyển trạng thái Crawler 31 Hình 2.6: Ví dụ quan hệ anchor text URL .33 Hình 2.7: Mô giá trị Q cho link 34 Hình 2.8: Mơ hình thuật tốn MapReduce 35 Hình 2.9: Minh họa Out-link In-link 38 Hình 2.10: Minh họa cho việc cập nhật Score cho Inlink (đường nét đứt) 39 Hình 2.11: Sơ đồ bước xây dựng tập huấn luyện huấn luyện 40 Hình 2.12: Quá trình hoạt động crawl .42 Hình 2.13: Mơ hình tốn phân loại văn .43 Hình 2.14: Minh học cách biểu diễn văn theo vector trọng số .45 Hình 2.15: Mơ hình khơng gian vector với tài liệu khái niệm 45 Hình 2.16: Minh họa góc vector tài liệu 47 Hình 2.17: Ý tưởng phương pháp Support Vector Machine 51 Hình 2.18: Mặt siêu phẳng tách mẫu dương khỏi mẫu âm 52 Hình 2.19: Minh họa cho trường hợp siêu phẳng lề mềm 53 Hình 2.20: Minh họa cho việc sử dụng ánh xạ phi tuyến φ 54 Hình 2.21: Đồ thị hàm phân biệt lớp 57 Hình 2.22: Ý tưởng giải thuật Direct Acyclic Graph Support Vector Machines 59 Hình 2.23: Mơ hình phân loại tài liệu với SVM 60 Hình 2.24: Mơ hình tiền xử lý mẫu huấn luyện .61 Hình 2.25: Đồ thị biểu diễn cụm từ có nhập nhằng 64 Hình 2.26: Một tình nhập nhằng cần xử lý 65 Hình 2.27: Từ điển biễu diễn dạng 68 Hình 2.28: Từ điển tối thiếu hóa 69 Hình 2.29: Mơ hình xây dựng automata đốn nhận âm tiết tiếng Việt 70 Hình 2.30: Mơ hình xây dựng automata đoán nhận từ vựng tiếng Việt 70 Hình 2.31: Minh họa chuyển trạng thái hữu hạn f1 cho lớp a 71 Hình 2.32: Minh họa chuyển trạng thái hữu hạn f với từ láy thuộc lớp b .71 Hình 2.33: Minh họa chuyển trạng thái hữu hạn f với từ láy thuộc lớp b .71 Hình 2.34: Minh họa chuyển trạng thái hữu hạn f với từ láy thuộc lớp c 72 Hình 2.35: Mơ hình q trình đốn nhận tên riêng sử dụng automata .73 Hình 2.36: Minh họa cho hoạt động modul cắt cụm từ 74 Hình 2.37: Kiến trúc tách từ tiếng Việt 75 Hình 3.1: Kiến trúc máy tìm kiếm dựa Nutch 78 Hình 3.2: Sơ đồ hoạt động crawler .79 Hình 3.3: Cấu trúc thư mục làm việc Nutch Crawler 80 Hình 3.4: Phiên làm việc Nutch Crawler 82 Hình 3.5: Phiên làm việc Nutch Crawler có ứng dụng học tăng cường .84 Hình 3.6: Biểu đồ kết tách từ với liệu từ Dantri 85 Hình 3.7: Biểu đồ kết tách từ với liệu từ VnExpress 86 Hình 3.8: Biểu đồ kết tách từ với liệu từ Vietnamnet 87 Hình 3.9: Biểu đồ kết phân loại văn lớp .89 Hình 3.10: Kết thử nghiệm VNExpress với chuyên mục sức khỏe 91 Hình 3.11: Kết thử nghiệm 24h với chuyên mục "tuyển dụng công nghệ thông tin" .92 Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chuyên sâu DANH MỤC THUẬT NGỮ ĐƯỢC SỬ DỤNG Thuật ngữ Ý nghĩa Agent Tác tử/ tác nhân Anchor Text Đoạn văn nhúng vào địa liên kết Breadth-First Crawler Bộ (hệ thống) thu thập thông tin cách tìm kiếm theo chiều rộng Classification/ classifier Phân lớp/ lớp Crawler Bộ thu thập thông tin Direct Acyclic Graph Support Vector Machines (DAGSVM) Phương pháp vector hỗ trợ đồ thị khơng tuần hồn hồn tồn Document Tài liệu Domain-specific seach engine Máy tìm kiếm thơng tin theo lĩnh vực chuyên sâu Focused Crawler Hệ thống thu thập thông tin tập trung giới thiệu [3] General search engine Máy tìm kiếm tổng qt Hadoop Thư viện cho mơ hình lập trình MapReduce Indexer Bộ đánh mục In-link Địa liên kết trỏ tới trang web Intelligent crawler intelligent spider Bộ tìm kiếm thơng minh Karash – Kuhn – Tucker (KKT) Điều kiện để toán tối ưu hóa có nghiệm Link Địa liên kết trang web Map File Định dạng lưu trữ đánh mục Hadoop MapReduce Một mơ hình lập trình song song Minimal Deterministic Finitestate Automata (MDFA) Automata hữu hạn trạng thái xác định tối thiểu Nutch Thư viện mã nguồn mở ngôn ngữ Java để xây dựng máy tìm kiếm hãng Apache Online search Tìm kiếm trực tuyến Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chun sâu Optimal Orthogonal Centroid Feature Selection (OCFS) Phương pháp lựa chọn đặc trưng trọng tâm trực giao tối ưu Out-link Địa liên kết xuất phát từ trang web Reinforcement learning (RL) (Phương pháp) học tăng cường Retrieval system rank Thứ hạng hệ thống sau cập nhật Score Điểm (độ ưu tiên) cho liên kết trang web Search engine Máy tìm kiếm thơng tin Searcher Bộ tìm kiếm thơng tin đánh mục seed URLs Các URL hạt giống Sequence File Định dạng liệu theo kiểu Hadoop Sequential Minimal Optimization (SMO) Phương pháp tối ưu hóa cực tiểu Support Vector Machine (SVM) Phương pháp phân loại vector hỗ trợ Term Khái niệm/ đặc trưng Text Đoạn văn Uniform Resource Locator (URL) Đường dẫn, cấu tạo thành phần chính, bao gồm: tên giao thức, dịch vụ World Wide Web (www), tên miền, cổng phần phụ Vector Space Model (VSM) Mơ hình khơng gian vector Ứng dụng kỹ thuật học máy công cụ tìm kiếm thơng tin theo lĩnh vực chun sâu Seed urls Injector Segment N Generator CrawlDb Crawl_generate Bỏ qua Updater S Đ Đúng chủ đề Fetcher Crawl_fetch Content Parse segment Crawl_parse Parse_data Parse_text LinkDb invertlinks LinkDb Tính độ quan trọng tài liệu anchor text Indexer Lucene index VnTokenizer SVM Hình 3.5: Phiên làm việc Nutch Crawler có ứng dụng học tăng cường 84 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy công cụ tìm kiếm thơng tin theo lĩnh vực chun sâu 3.4 Kết thử nghiệm bàn luận Để đánh giá hiệu hệ thống tìm kiếm thơng tin, người ta dựa vào hai độ đo là: Độ xác (presicion - P) độ bao phủ (recall - R) 3.4.1 Kết thử nghiệm việc tách từ tiếng Việt Trong tách từ thì, độ xác Precision: P = ( b − c ) b ; độ bao phủ Recall: R = ( b − c ) a Với: a: tổng số từ có file mẫu; b: tổng số từ có file sau tách máy; c: tổng số từ sai khác file mẫu file tách máy Ngồi chúng tơi cịn dùng thêm số cân độ đo trên, F1, để định việc lựa chọn khả chấp nhận tập ngữ liệu mẫu trình huấn luyện modul tách từ: F = 2× P× R P+R Chúng tiến hành thử nghiệm việc tách từ tiếng Việt với liệu trang báo điện tử thuộc website VnExpress(25), Vietnamnet(26) Dantri(27) Mỗi trang web lấy ngẫu nhiên 50 báo nhất, với chủ đề tổng cộng có 250 báo trang web, tiến hành tách từ tay tách từ chương trình Sau tiến hành so sánh kết tách từ đưa độ xác 3.4.1.1 Kết Dantri Tỷ lệ % đạt 0,99 0,98 Precision (P) 0,97 Recall (R) 0,96 Độ cân (F1) 0,95 0,94 Giáo dục Pháp luật Sức khỏe Thế giới Thể thao Các chủ đề Hình 3.6: Biểu đồ kết tách từ với liệu từ Dantri (25) http:// VnExpress.net http:// Vietnamnet.vn 27 http://Dantri.com.vn (26) 85 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu Giáo dục Pháp luật Sức khỏe Thế giới Thể thao Precision (P) 0,9752 0,9855 0,9756 0,9692 0,9766 Recall (R) 0,9676 0,9926 0,9645 0,9593 0,9847 Độ cân (F1) 0,9714 0,9890 0,9700 0,9642 0,9806 Bảng 1.1: Kết tách từ trung bình với liệu từ Dantri 3.4.1.2 Kết VnExpress Tỷ lệ % đạt 0,99 0,98 Precision (P) Recall (R) Độ cân (F1) 0,97 0,96 0,95 0,94 Giáo dục Pháp luật Sức khỏe Thế giới Thể thao Các chủ đề Hình 3.7: Biểu đồ kết tách từ với liệu từ VnExpress Giáo dục Pháp luật Sức khỏe Thế giới Thể thao Precision (P) 0,9824 0,9755 0,9867 0,9692 0,9826 Recall (R) 0,9756 0,9876 0,9754 0,9563 0,9777 Độ cân (F1) 0,9790 0,9815 0,9810 0,9627 0,9801 Bảng 1.2: Kết tách từ trung bình với liệu từ VnEpxress 3.1.4.3 Kết Vietnamnet Giáo dục Pháp luật Sức khỏe Thế giới Thể thao Precision (P) 0,9722 0,9834 0,9679 0,9763 0,9768 Recall (R) 0,9814 0,9867 0,9777 0,9898 0,9854 Độ cân (F1) 0,9768 0,9850 0,9728 0,9830 0,9811 Bảng 1.3: Kết tách từ trung bình với liệu từ Vietnamnet 86 Machine Learning Techniques for Domain specific Search Engine Tỷ lệ % đạt Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chuyên sâu 0,995 0,99 0,985 0,98 0,975 0,97 0,965 0,96 0,955 Precision (P) Recall (R) Độ cân (F1) Giáo dục Pháp luật Sức khỏe Thế giới Thể thao Các chủ đề Hình 3.8: Biểu đồ kết tách từ với liệu từ Vietnamnet 3.4.1.4 Kết trung bình Giáo dục Pháp luật Sức khỏe Thế giới Thể thao Precision (P) 0,9766 0,98147 0,97673 0,97157 0,97867 Recall (R) 0,97487 0,98897 0,97253 0,96847 0,9826 Độ cân (F1) 0,9757 0,9852 0,9746 0,9700 0,9806 Bảng 1.4: Kết trung bình việc tách từ tiếng Việt, từ hai nguồn liệu Vietnamnet VnExpress Trung bình ta thu kết quả: Precision : 97,70% ; Recall: 97,75% ; F1: 97,72% Lý có khác biết tỷ lệ % đạt tiêu trí đánh giá chủ đề trang web khác từ điển xây dựng chưa thực hoàn thiện, từ điển tên riêng 3.4.2 Kết thử nghiệm với phân loại tài liệu với SVM cho tài liệu tiếng Việt Trong phân loại văn bản, Precision : P = a a+b ; cịn Recall: R = với tập thử nghiệm chủ đề có tổng số tài liệu (a+b) a:- Số văn nhận biết; b:- Số văn bị phân loại sai; c:- Số văn bị phân loại sai từ chủ đề khác Chúng tiến hành thử nghiệm số liệu sau: 87 Machine Learning Techniques for Domain specific Search Engine a a+c Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chuyên sâu 3.4.2.1 Bộ liệu tin tức gồm chủ đề: "pháp luật", "đời sống" "giáo dục", lấy từ báo điện tử vnexpress.net Bộ mẫu huấn luyện tập thử nghiệm gồm 900 báo, chủ đề 300 bài, n số đặc trưng, kết thể Bảng 1.5: C 0.1 100 1000 Pháp luật Đời sống Giáo dục n P R P R P R 100 0.82 0.94 0.82 0.83 0.72 500 0.86 0.98 0.87 0.88 0.93 1000 0.93 0.98 0.96 0.95 0.95 2000 0.97 0.99 0.98 0.98 0,95 3000 0.93 0.98 0.98 0.98 0.95 100 0.84 0.94 0.81 0.84 0.73 500 0.88 0.93 0.88 0.89 0.89 1000 0.92 0.98 0.96 0.95 0.96 2000 0.97 0.99 0.98 0.98 0.96 3000 0.94 0.98 0.98 0,98 0.96 100 0.82 0.98 0.85 0.83 0.73 500 0.90 0.97 0.92 0.94 0.96 1000 0.96 0.98 0.98 0.97 0.98 2000 0.97 0.99 0.98 0.98 0.98 3000 0.97 0.96 0.98 0.98 0.98 100 0.84 0.98 0.88 0.88 0.73 500 0.92 0.97 0.96 0.92 0.96 1000 0.96 0.98 0.98 0.97 0.98 2000 0.97 0.99 0.98 0.98 0.98 3000 0.97 0.96 0.98 0.98 0.98 Bảng 1.5: Kết thử nghiệm SVM với chủ đề Pháp luật, Đời sống Giáo dục Qua Bảng 1.5, ta thấy với phương pháp SVM, số đặc trưng lớn (3000) nhỏ (100 500) độ xác SVM giảm Kết tốt thu với 2000 đặc trưng C = 100 Kết cho thấy với C nhỏ làm tăng số lỗi huấn luyện 88 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chuyên sâu 3.4.2.2 Phân loại lớp với liệu lấy từ trang Dantri Để thực phân loại lớp: Một lớp chủ đề "sức khỏe" lớp lại (lớp khác chủ đề) tất tin thuộc chủ đề khác trang web Dantri Với tỷ lệ số mẫu chủ đề chiếm 10% tổng số mẫu huấn luyện (thử nghiệm); số mẫu huấn luyện số mẫu thử nghiệm Kết thử nghiệm, với C = 100, số đặc trưng n = 2000 (Bảng 1.6): Tổng số mẫu 120 240 360 600 1200 1320 1920 2040 3360 Đúng chủ đề 0,805 0,825 0,863 0,895 0,903 0,922 0,946 0,945 0,945 Khác chủ đề 0,615 0,650 0,727 0,790 0,806 0,843 0,882 0,891 0,897 Bảng 1.6: Kết thử nghiệm phân loại tài liệu tiếng Việt lớp Từ kết cho thấy, phân loại lớp, độ xác thấp so với trường hợp phân loại chủ đề rõ ràng rộng (như thử nghiệm trên), lý chủ đề cần phân loại hẹp mẫu huấn luyện chưa chuẩn đầy đủ Ngoài mẫu huấn luyện download tự động nên không tránh khỏi trường hợp có thơng tin ngắn mang nhiều thông tin gây nhiễu huấn luyện Đúng chủ đề Khác chủ đề Độ xác 1,0000 0,8000 0,6000 0,4000 0,2000 0,0000 120 240 360 600 1200 1320 1920 2040 3360 Số mẫu huấn luyện thử nghiệm Hình 3.9: Biểu đồ kết phân loại văn lớp 3.4.3 Kết thử nghiệm cho hệ thống thu thập thông tin Chúng tiến hành cài đặt chạy thử nghiệm máy tính có cấu sau: - Bộ vi xử: Intel Dual-Core Xeon 3065; tốc độ CPU 2.33GHz; - Bộ nhớ trong: 8GB RAM; 89 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu - Tốc độ đường truyền Internet: 4.096/640 Kbps Để kiểm chứng hiệu việc ứng dụng học tăng cường vào toán thu thập tài liệu theo lĩnh vực chuyên sâu, tiến hành cài đặt tiến hành so sánh với hai hệ thống kinh điển giới: - Hệ thống Breadth-First crawler (vét cạn theo chiều rộng) sử dụng máy tìm kiếm tổng quát - Hệ thống focused crawler [24] hệ thống thường đem so sánh với phương pháp nhiều báo khoa học [4],[10],[14],[19] Hiệu suất phương pháp đánh giá dựa số tài liệu chủ đề tổng số tài liệu download tồn q trình Hệ thống ứng dụng học tăng cường cần hai tham số phải lựa chọn γ số lớp phân loại tài liệu Do thời gian có hạn khuôn khổ thử nghiệm luận văn nên tiến hành với γ = 0.5 sử dụng phân loại tài liệu lớp Trong đó, hệ thống focused crawler sử dụng phân loại lớp Tuy nhiên, focused crawler cần phải download trang đánh giá đó, phương pháp học tăng cường sử dụng anchor text text trang web chứa link để đánh chưa cần download Sau tích hợp phân loại SVM tách từ tiếng Việt vào hệ thống thu thập thông tin theo lĩnh vực chuyên sâu tiến hành thử nghiệm trang web uy tín có lưu lượng truy cập hàng đầu Việt Nam, như: Báo điện tử VNExpress (www.vnexpress.net) Cổng thông tin trực tuyến 24h (www.24h.com.vn), trang web tiến thử nghiệm với chủ đề (chuyên mục) có đặc trưng số lượng độ sâu khác nhằm đánh giá hiệu hệ thống cách toàn diện 3.4.3.1 Thử nghiệm trang báo điện tử VNExpress với chuyên mục sức khỏe Ba hệ thống hoạt động lấy 2000 tài liệu: Hệ thống Breadth-First Crawler lấy 1084 tài liệu chủ đề Trong đó, hệ thống Focused Crawler thu thập 1740 tài liệu chủ đề Một tín hiệu đáng mừng hệ thống ứng dụng học tăng cường tỏ vượt trội hai phương pháp lại, lấy 1937 tài liệu chủ đề 90 Machine Learning Techniques for Domain specific Search Engine Số tài liệu chủ đề Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chuyên sâu 2500 2000 1500 1000 500 0 400 800 1000 1400 1600 1800 2000 2200 2521 Số tài liệu tải Breadth-first Focused Reinforcement Hình 3.10: Kết thử nghiệm VNExpress với chuyên mục sức khỏe Trang VNExpress chia tin tức thành chuyên mục Sức khỏe chuyên đề (chuyên mục) chủ đề Đời sống thơng dụng có nhiều viết Chuyên mục xếp thành vùng riêng coi “mỏ” tài liệu Focused crawler học tăng cường có khả khai thác tài liệu hiệu tìm đến vùng mỏ Do vậy, thực nghiệm hệ thống tìm chuyên mục sức khỏe sớm có hội lấy nhiều tài liệu chủ đề Ở giai đoạn đầu Focused Crawler phải download hết trang tiến hành phân tích với số lượng out-link trang lớn Trong đó, học tăng cường sử dụng khả phân tích anchor text text trang web chứa link để nhanh tróng tiếp cận trực tiếp chuyên mục sức khỏe Mặc dù, chuyên mục sức khỏe không xuất trang chủ không xuất đầu chủ đề đời sống, điều khẳng định khả thích ứng hệ thống học tăng cường Nếu Breadth-First Crawler đánh đồng tất out-link xuất phát từ Điều dẫn hệ thống tới trang không thuộc chủ đề có nhiều out-link trang quảng cáo trỏ tới chuyên mục khác Còn với hệ thống học tăng cường tiếp cận mỏ link với khả phân tích anchor text trang web chứa link đó, hệ thống học tăng cường đánh giá out-link cách độc lập từ tránh trang “nhiễu” nằm mỏ link 3.4.3.2 Thử nghiệm 24h với chuyên mục tuyển dụng Công nghệ thông tin Chuyên mục thứ hai tuyển dụng công nghệ thông tin (tuyển dụng việc làm) ngành Công nghệ thông tin (CNTT) – chuyên mục hẹp có số lượng 91 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chun sâu Ngồi phân biệt với chủ đề khác biệt khác, Crawler phải phân biệt với tin tức CNTT tuyển dụng việc làm ngành khác tài ngân hàng, y khoa, marketing… Thử nghiệm dừng hệ thống download 22668 tài liệu Phương pháp học tăng cường tiếp tục thể hiệu suất vượt trội so với hai phương pháp khác giai đoạn ban đầu Cụ thể, với 1500 tài liệu chủ đề đầu tiên, hệ thống học tăng cường cần duyệt khoảng 7500 trang focused crawler cần khoảng 10500 trang breadth-first crawler cần khoảng 16500 trang Tuy nhiên, tới cuối thử Số tài liệu chủ đề nghiệm, focused crawler tỏ hiệu so với phương pháp học tăng cường 5000 4000 3000 2000 1000 0 1000 5000 10000 15000 20000 22668 Số tài liệu tải Breadth-first Focused Reinforcement Hình 3.11: Kết thử nghiệm 24h với chuyên mục "tuyển dụng công nghệ thông tin" Lý mà focused crawler tỏ hiệu so với phương pháp học tăng cường cuối thử nghiệm là: Để tìm "mỏ" link, từ trang chủ, Crawler phải theo chủ đề tuyển dụng thông thường tới chuyên mục CNTT Điều phương pháp học tăng cường làm hiệu bắt đầu khai thác mỏ link tìm sớm Tới tìm mỏ link, focused crawler tỏ khả khai thác hiệu mỏ link trang 24h, có quảng cáo link trỏ tới chuyên mục khác Việc đánh đồng link mỏ thể hợp lý có nhiễu, học tăng cường tiếp tục phải phân tích anchor text link text tồn trang web chứa link Ngoài sai số phân loại văn trường hợp khiến cho học tăng cường không khai thác hiệu 92 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chuyên sâu 93 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy công cụ tìm kiếm thơng tin theo lĩnh vực chun sâu KẾT LUẬN VÀ KIẾN NGHỊ Các kết thử nghiệm thu cho thấy việc tích hợp modul phân loại văn dùng vector hỗ trợ modul tách từ tiếng Việt sử dụng automata hữu hạn trạng thái xác định kết hợp xác suất thống kê với modul thu thập thông tin dùng ý tưởng lý thuyết học tăng cường đáp ứng mục đích luận văn đề Mục đích phần đề xuất phương pháp việc thu thập tài liệu có tài liệu tiếng Việt theo lĩnh vực chuyên sâu Kết thử nghiệm chứng cho thấy việc ứng dụng kỹ thuật học máy (qua phương pháp học tăng cường kết hợp với SVM) hoàn toàn phù hợp với tốn thu thập thơng tin hệ thống tìm kiếm thơng tin theo lĩnh vực chun sâu Hệ thống có khả hoạt động mơi trường tiếng Việt Do đó, hệ thống phục vụ tốt cho người dùng tiếng Việt Cùng với chi phí đầu tư chấp nhận khả linh hoạt hệ thống hồn tồn giúp cho quan, tổ chức xây dựng trì cổng thơng tin điện tử để tìm kiếm thơng tin lĩnh vực chuyên sâu có nhu cầu Với đề tài này, mong muốn thời gian tới, nhóm làm việc hồn thiện nâng cao độ xác tách từ nâng cao hiệu cho phân loại văn cách kết hợp ưu điểm phương pháp có; tiếp tục tìm hiểu phát triển ranking Indexer kết hợp với AIR để tính điểm xếp hạng cho tài liệu theo câu truy vấn; bổ sung chức khôi phục dấu tiếng Việt chuyển đổi định dạng văn với bảng mã khác bảng mã UTF-8 cho Searcher Đặc biệt, thực hướng xây dựng Crawler có khả học trực tuyến (online) tích hợp modul crawler tập trung với modul crawler học tăng cường hoạt động Điều hứa hẹn cải thiện hiệu suất độ xác hệ thống thu thập thơng tin theo lĩnh vực chuyên sâu tương lai gần 94 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chuyên sâu TÀI LIỆU THAM KHẢO [1] Andrew McCallum, Kamal Nigam, Jason Rennie, and Kristie Seymore (1999), Building domain-specific search engines with machine learning techniques, In AAAI-99 Sping sumposium on Intelligent Agents in Cyberspace [2] Aixin Sun, EePeng Lim and WeeKeong Ng (2002), "Web Classification Using Support Vector Machine", WIDM'02, McLean, Virginia, USA Copyright 2002 ACM 1-58113-492-4/02/0011 , trang [3] Babaria Rashmin N (2007), Focused Crawling, A Project Report SubMitted In Partial Fulfilment of the Requirements for the Degree of Master of Engineering [4] Ching-Chi Hsu, Fan Wu (2006), "Topic-specific crawling on the Web with the measurements of the relevancy context graph", Inf Syst 31(4-5), 232-246 [5] Chih-Hao Tsai (2006), "MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm", Copyright © 1996-2006 Chih-Hao Tsai (Email: hao520@yahoo.com) [6] Chih-Wei Hsu and Chih-Jen Lin (2002), "A Comparison of Methods for Multiclass Support Vector Machines", IEEE Transactions On Neural Networks, Vol 13, No 2, March 2002 [7] Doug Cutting, 2004, Lucene in Action, A guide to the Java search engine, Printed in the United States of America [8] Eyal Even-Dar and Yishay Mansour (2003), "Learning Rates for Q-learning", Journal of Machine Learning Research (2003) 1-25, trang [9] Filippo Menczer, Gautam Pant and Padmini Srinivasan (2004), Topical Web Crawlers: Evaluating Adaptive Algorithms, ACM Transactions on Internet Technology, Vol 4, No 4, Pages 378–419, trang 388-392 [10] Filippo Menczer, Gautam Pant, Padmini, Srinivasan, Miguel E Ruiz (2001), "Evaluating topic-driven web crawlers", Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information, (New Orleans, Louisiana, United States), 241-249 95 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy công cụ tìm kiếm thơng tin theo lĩnh vực chun sâu [11] Gautam Pant (2004), Learning to crawler: Classifier-Guided Topical Crawlers, Of a thesis submitted in partial fulfillment of the requirements for the Doctor of Philosophy degree in Business Administration in the Graduate College of The University of Iowa, trang 36 [12] Ginny Mak (2000), The Implementation of Support Vector Machines using the Sequential Minimal Optimization Algorithm, School of Computer Science McGill University, Montreal, Canada, A Master’s Project Submitted in Partial Fulfilment of Requirements for the Master of Science Degree, Copyright c 2000 by Ginny Mak All rights reserved [13] Jan Daciuk, Bruce W Watson, Stoyan Mihov, Richard E Watson (2000), "Incremental Construction of Minimal Acyclic Finite-State Automata", Association for Computational Linguistics, Volume 26, Number 1, trang 51- 52 [14] Jason Rennie and Andrew Kachites McCallum (1999), "Using Reinforcement Learning to Spider the Web Efficiently", Proceedings of the Sixteenth International Conference on Machine Learning (ICML) [15] John C Platt (1998), Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, In Technical Report MST-TR-98-14 Microsoft research, trang 3-4 [16] John C Platt, Nello Cristianini, John Shawe-Taylor (2000), "Large margin DAG’s for multiclass classification", S.A Solla, T.K Leen and K.-R Măuller (eds.), 547–553, MIT Press [17] Jun Yan, Ning Liu, Benyu Zhang, Shuicheng Yan, Zheng Chen, Qian sheng Cheng, Weiguo Fan, Wei-Ying Ma (2005), "OCFS: Optimal Orthogonal Centroid Feature Selection for Text Categorization", SIGIR’05, Salvador, Brazil Copyright 2005 ACM 1-59593-034-5/05/0008 [18] Ls Torgo and Jỗo Gama (1997), "Regression using classification algorithms", Intelligent Data Analysis, 1(4), LIACC - University of Porto [19] Michelangelo Diligenti, Frans Coetzee, Steve Lawrence, C Lee Giles, Marco Gori (2000), "Focused Crawling Using Context Graphs", Proceedings of the 26th International Conference on Very Large Data Bases, (Sept.2000) 527-534 96 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu [20] Porter, (1980), Porter stemmer in Java - An algorithm for suffix stripping, Program, Vol 14, No 3, pp 130-137 [21] Qiang Wu Ding-Xuan Zhou (2005), "SVM Soft Margin Classifiers: Linear Programming versus Quadratic Programming", [22] Richard S Sutton and Andrew G Barto (2005), Reinforcement Learning: An Introduction, A Bradford Book, The MIT Press Cambridge, Massachusetts London, England [23] Stoyan Mihov, Sv Kliment Ohridski, Fakultet Po, Matematika I Informatika, Kniga Matematika I Mehanika, Annuaire De, L'universite De Sofia, St Kliment Ohridski (1997), Direct building of minimal automata for given list, In Annuaire de l'Universitd de Sofia "St KI Ohridski", volume 91, book 1, pages 38-40 [24] Soumen Chakrabarti, Martin Van Den Berg, Byron Dom (1999), "Focused crawling: A new approach to topic-specific web resource discovery Computer Networks, 31(11-16):1623 – 1640, Published by Elsevier Science B.V All rights reserved, at http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.83.9370 [25] Tom M Mitchell (1997), Machine Learning, New York, trang 374-383 [26] Tom White, foreword by Doug Cutting (2009), Hadoop: The Definitive Guide, Copyright © 2009 Tom White All rights reserved Printed in the United States of America, trang [27] (26), trang 18-31 [28] (26), trang 428, [29] Watson, Bruce W (1995), Taxonomies and Toolkits of Regular Language Algorithms, Ph.D thesis, Eindhoven University of Technology, the Netherlands Available at www.OpenFIRE.org, trang 26//43 [30] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly (2009), "Finitestate description of Vietnamese reduplication", The 7th Workshop on Asian Language Resources, In conjunction with ACL-IJCNLP 2009, Suntec City, Singapore, , trang 4-6 97 Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chuyên sâu [31] Dinh Dien, Hoang Kiem, Nguyen Van Toan (2001), "Vietnamese Word Segmentation" Faculty of Information Technology National University of HCM City [32] Lê Hà An (2003), "A method for word segmentation in Vietnamese", [33] Nguyễn Linh Giang, Nguyễn Mạnh Hiển (2006), "Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM", Tạp chí BCVT & CNTT [34] Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú (2008), "Gán nhãn từ loại tiếng Việt dựa phương pháp học máy thống kê", [35] Nguyễn Thanh Hùng (2006), "Hướng tiếp cận việc tách từ để phân loại văn tiếng Việt sử dụng giải thuật di truyền thống kê Internet", Tạp chí BCVT & CNTT [36] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), "Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt", kỷ yếu Hội thảo ICT.rda’03, Việt Nam, Hà Nội, , trang 6,7 [37] Lê Hồng Phương, Nguyễn Thị Minh Huyền, Azim Roussanaly, Hồ Tường Vinh (2008), A Hybrid Approach to Word Segmentation of Vietnamese Texts, C Martín-Vide, F Otto, and H Fernau (Eds.): LATA 2008, LNCS 5196, pp 240– 249 © Springer-Verlag Berlin Heidelberg 2008 [38] Vũ Đình Thi, Nguyễn Ngọc Đức, Lê Đại Dương, Trần Đức Khánh (2010), "Efficiently Crawl Topical Vietnamese Web Pages using Machine Learning Techniques", IEEE – RIVF ( Submitted) 98 Machine Learning Techniques for Domain specific Search Engine ... Engine Ứng dụng kỹ thuật học máy công cụ tìm kiếm thơng tin theo lĩnh vực chun sâu thông tin theo lĩnh vực chuyên sâu (theo chủ đề/ chuyên mục) hợp lý Đây lý mà luận văn lựa chọn đề tài Lịch sử tìm. .. Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu Chương II CƠ SỞ LÝ THUYẾT VÀ GIẢI PHÁP ĐỂ XÂY DỰNG CÔNG CỤ THU THẬP THÔNG TIN THEO LĨNH VỰC CHUYÊN SÂU Ở chương... công cụ thu thập thông tin theo lĩnh vực chuyên sâu Machine Learning Techniques for Domain specific Search Engine Ứng dụng kỹ thuật học máy cơng cụ tìm kiếm thơng tin theo lĩnh vực chuyên sâu

Ứng dụng kỹ thuật học máy trong công cụ tìm kiếm thông tin theo lĩnh vực chuyên sâu

Quá trình hoạt động của crawler

Xây dựng automata để mã hĩa từ láy