Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
1,29 MB
Nội dung
i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - HỒNG MINH THỦY NGHIÊN CỨU CÁC PHƢƠNG PHÁP TRÍCH CHỌN THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THƠNG TIN DU LỊCH TRONG VĂN BẢN TIẾNG VIỆT a lu n va n Chuyên ngành: KHOA HỌC MÁY TÍNH tn to Mã số: 60 48 01 01 p ie gh oa nl w LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH d a nv a lu ll u nf NGƢỜI HƢỚNG DẪN KHOA HỌC m tz n oi z GS VŨ ĐỨC THI m co l gm @ Thái Nguyên – 2015 an Lu n va http://www.ltc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si ii LỜI CAM ĐOAN Tác giả Hoàng Minh Thủy xin cam kết nội dung Luận văn chƣa đƣợc nộp cho chƣơng trình cấp cao học nhƣ chƣơng trình đào tạo cấp khác Ngoài ra, tác giả xin cam kết Luận văn thạc sĩ nỗ lực riêng cá nhân tác giả Các kết quả, phân tích, kết luận Luận văn thạc sĩ (ngồi phần đƣợc trích dẫn) kết làm việc cá nhân tác giả Thái Nguyên, ngày 10 tháng 11 năm 2015 a lu Tác Giả n n va p ie gh tn to Hoàng Minh Thủy d oa nl w a nv a lu ll u nf m tz n oi z m co l gm @ an Lu n va http://www.ltc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si iii LỜI CẢM ƠN Lời em xin gửi lời cảm ơn chân thành đến Các quý thầy cô giáo, Tổ chuyên môn Trƣờng Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tận tình giảng dạy, truyền đạt kiến thức, kinh nghiệm quý báu suốt thời gian em theo học trƣờng Các kiến thức, kinh nghiệm quý báu Quý thầy cô giáo không giúp cá nhân em hoàn thiện hệ thống kiến thức học tập mà giúp em ứng dụng kiến thức cơng tác tại đơn vị Đặc biệt, em xin chân thành cảm ơn thầy giáo GS Vũ Đức Thi nhiệt a lu n tình tâm huyết việc định hƣớng giúp đỡ em hoàn thành luận văn n va Ngoài ra, em xin chân thành cảm ơn Ban lãnh đạo cán viên tn to chức Trƣờng Đại học Lâm nghiệp tạo điều kiện cung cấp ý kiến quý p ie gh báu kiến thức thực tiễn cho em thực luận văn tốt nghiệp Em xin đƣợc bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè oa nl w tạo điều kiện để cá nhân em dành thời gian cho khóa học Xin chân thành cảm ơn ngƣời bạn lớp cao học CK13, năm qua ln d ln động viên, khích lệ hỗ trợ em trình học tập a lu a nv Trong trình thực Luận văn cố gắng hết mình, song u nf chắn luận văn em nhiều thiếu sót Em mong nhận đƣợc ll bảo vào đóng góp tận tình thầy để luận văn em đƣợc m n oi hoàn thiện tz Thái Nguyên, ngày 10 tháng 11 năm 2015 Tác Giả z m co l gm @ an Lu Hoàng Minh Thủy n va http://www.ltc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH .viii MỞ ĐẦU 1.1.Sự cần thiết lựa chọn đề tài 1.2.Mục tiêu đề tài a lu n 1.3.Đối tƣợng phạm vi nghiên cứu n va 1.4.Phƣơng pháp nghiên cứu tn to 1.5.Cấu trúc luận văn p ie gh Chƣơng TỔNG QUAN VỀ TRÍCH CHỌN THƠNG TIN VÀ BÀI TỐN TRÍCH CHỌN THÔNG TIN DU LỊCH oa nl w 1.1.Tổng quan trích chọn thơng tin d 1.1.1 Bài tốn trích chọn thực thể a lu 1.1.2 Bài tốn trích chọn quan hệ .7 a nv 1.1.3 Bài tốn trích chọn cụm từ khóa u nf 1.2.Bài tốn trích chọn thơng tin du lịch ll m 1.3.Ý nghĩa tốn trích chọn thơng tin du lịch 10 n oi 1.3.1 Ý nghĩa khoa học 10 tz 1.3.2 Ý nghĩa thực tế 10 z 1.4.Ứng dụng tốn trích chọn thơng tin du lịch 10 @ gm 1.4.1 Hệ thống tìm kiếm tư vấn du lịch 10 l 1.4.2 Bài toán dự đoán xu hướng du lịch 11 m co 1.5.Kết luận chƣơng 11 Lu Chƣơng 12 an MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN THƠNG TIN 12 n va http://www.ltc.tnu.edu.vn ac th Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an v 2.1.Trích chọn thơng tin dựa vào DOM 12 2.1.1 Khái niệm DOM 12 2.1.2 Xây dựng DOM 13 2.1.3 Sử dụng DOM để trích chọn thông tin 14 2.2.Trích chọn thơng tin dựa tập luật 15 2.2.1 Hình thức biểu diễn luật .16 2.2.2 Đặc trưng từ tố (token) .16 2.2.3 Tập luật xác định thực thể đơn 16 2.2.4 Các luật đánh dấu biên thực thể .18 a lu 2.2.5 Các luật xác định nhiều thực thể .18 n 2.2.6 Đánh giá phương pháp tiếp cận dựa luật 19 n va 2.3.Trích chọn thơng tin dựa học máy 19 tn to 2.4.Phƣơng pháp kết hợp phân tích mã HTML luật 20 p ie gh 2.5.Kết luận chƣơng 21 Chƣơng 22 oa nl w BÀI TỐN TRÍCH CHỌN TOUR DU LỊCH TRÊN MỘT SỐ TRANG THÔNG TIN ĐIỆN TỬ TIẾNG VIỆT 22 d a lu 3.1.Bài tốn trích chọn thơng tin du lịch số trang thông tin điện tử a nv tiếng Việt 22 u nf 3.1.1 Phát biểu toán 22 ll 3.1.2 Ý tưởng giải 23 m n oi 3.2.Phƣơng pháp giải toán 23 tz 3.2.1 Bộ thu thập liệu 25 3.2.2 Bộ lọc liệu 26 z @ 3.2.3 Bộ trích chọn tour 27 gm 3.2.4 Bộ trích chọn thuộc tính 29 co l Chƣơng 38 m THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 38 an Lu 4.1.Bài toán thử nghiệm 38 http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an vi 4.2.Môi trƣờng công cụ thử nghiệm 38 4.2.1 Môi trường thử nghiệm 38 4.2.2 Công cụ phần mềm sử dụng để thử nghiệm .39 4.3.Xây dựng sở liệu 39 4.4.Thử nghiệm quy trình trích chọn tour du lịch 41 4.4.1 Thu thập liệu (Web Crawler) 41 4.4.2 Lọc liệu .44 4.4.3 Trích chọn tour du lịch thuộc tính 46 4.5.Phân tích lỗi 49 a lu 4.5.1 Phân tích lỗi lọc liệu .49 n 4.5.2 Phân tích lỗi q trình trích chọn .51 n va 4.6.Một số ứng dụng kết trích chọn tour du lịch 51 4.6.2 Thống kê theo giá tour .54 p ie gh tn to 4.6.1 Thống kê theo định danh 52 4.6.3 Thống kê theo thời gian 55 oa nl w 4.7.Kết luận chƣơng 57 KẾT LUẬN .58 d TÀI LIỆU THAM KHẢO 59 a nv a lu ll u nf m tz n oi z m co l gm @ an Lu http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an vii DANH MỤC CÁC BẢNG Bảng 1.1 Bảng phân loại thực thể Bảng 4.1 Cấu hình hệ thống thử nghiêm 38 Bảng 4.2 Cơng cụ phần mềm có sẵn 39 Bảng 4.3 Kết lọc viết chứa thông tin tour du lịch 45 Bảng 4.4 Kết trích chọn tour du lịch trích chọn thuộc tính 47 a lu Bảng 4.5 Bảng thống kê số tour theo địa danh du lịch 52 n Bảng 4.6 Bảng thống kê số tour theo giá 54 n va p ie gh tn to Bảng 4.7 Bảng thống kê số tour theo thời gian du lịch 56 d oa nl w a nv a lu ll u nf m tz n oi z m co l gm @ an Lu http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an viii DANH MỤC CÁC HÌNH Hình 2.1 Mơ hình biểu diễn DOM 12 Hình 2.2 Minh họa sử dụng visual cue 14 Hình 2.3 Minh họa DOM dùng mẫu trích chọn 15 Hình 3.1 Mơ hình tốn trích chọn 25 Hình3.2 Mơ hình làm việc thu thập liệu 25 Hình 3.3 Mơ hình làm việc lọc liệu 26 a lu Hình 3.4 Các thông tin chi tiết tour website Du lịch Dấu Chân 30 n Hình 3.5 Các thơng tin chi tiết tour website Du lịch Năm Châu 30 n va Hình 3.6 Các thơng tin chi tiết tour website Du lịch Quốc tế Nét Việt 31 tn to Hình 3.7 Các thơng tin chi tiết tour website Du lịch AMI TOUR 31 p ie gh Hình 3.8 Các thơng tin chi tiết tour website Du lịch Giấc Mơ Việt 32 oa nl w Hình 3.9 Các thông tin chi tiết tour website Du lịch Việt 33 Hình 3.10 Các thơng tin chi tiết tour website Du lịch Á Châu 34 d Hình 3.11 Mơ hình làm việc trích chọn thuộc tính 35 a lu Hình 4.1 Thu thập liệu từ trang www.dulichnamchau.vn 43 a nv u nf Hình 4.2 Quá trình thu thập liệu từ trang www.dulichnamchau.vn 44 ll Hình 4.3 Kết lọc viết chứa thông tin tour du lịch 46 m n oi Hình 4.4 Kết trích chọn tour du lịch 48 tz Hình 4.5 Giao diện tra cứu tour du lịch 49 z Hình 4.6 Lỗi lọc liệu thông tin dạng lựa chọn 50 @ gm Hình 4.7 Lỗi lọc liệu khơng có thơng tin tour du lịch 50 l Hình 4.8 Biểu đồ thống kê số tour theo địa danh du lịch 53 m co Hình 4.9 Biểu đồ thống kê số tour theo giá tiền 55 an Lu Hình 4.10 Biểu đồ thống kê số tour theo thời gian 56 http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Trích chọn thơng tin (IE - Information Extraction) lĩnh vực nghiên cứu quan trọng khai phá liệu văn [3, 4] Trích chọn thơng tin q trình thu thập thơng tin từ nguồn liệu theo nhiều định dạng khác nhau, không đồng nhất, chí khơng có định dạng cụ thể, sau chuyển thành dạng đồng Dữ liệu sau trích chọn đƣợc lƣu vào sở liệu để xử lý hay đƣợc sử dụng cho hệ thống khai phá liệu a lu Từ liệu, thơng tin đƣợc trích chọn sử dụng kỹ thuật phân tích, n khai phá để khám phá mẫu thơng tin có ích, tiềm ẩn liệu n va Ngày nay, với phát triển công nghệ thông tin, Tin học tn to dần đƣợc ứng dụng rộng rãi nhiều lĩnh vực nhƣ kinh tế, du lịch, thƣơng p ie gh mại, y tế, ngân hàng mang lại nhiều lợi ích to lớn Nền kinh tế khơng ngừng phát triển, đời sống văn hoá - xã hội ngày đƣợc nâng cao du oa nl w lịch trở thành nhu cầu thiếu sống ngƣời dân, trang web du lịch hàng loạt thông tin tour du lịch nƣớc d a lu nƣớc Tuy nhiên lƣợng thông tin tour du lịch Internet a nv vơ lớn, gây khó khăn cho ngƣời có nhu cầu du lịch việc lựa chọn u nf địa điểm tham quan, lựa chọn công ty cung cấp dịch vụ,… Do vậy, ll toán đặt cần phải xây dựng hệ thống tìm kiếm tƣ vấn du lịch, giúp m n oi ngƣời dùng lựa chọn đƣợc tour du lịch phù hợp với yêu cầu tz đề Để có hệ thống tìm kiếm tƣ vấn tốt trƣớc tiên ta phải xây z dựng đƣợc tập liệu có độ xác cao Cùng với tốn trích gm @ chọn thông tin du lịch văn tiếng Việt l Để tiến đến tìm hiểu đƣợc vấn đề trên, em lựa chọn đề tài m co “Nghiên cứu phương pháp trích chọn thơng tin ứng dụng trích chọn Lu thơng tin du lịch văn Tiếng Việt” làm luận văn tốt nghiệp Thạc sĩ an http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 1.2 Mục tiêu đề tài Tìm hiểu phƣơng phƣơng pháp trích chọn thơng tin xây dựng mơ hình giải tốn trích chọn thơng tin tour du lịch từ trang thông tin điện tử tiếng Việt Internet 1.3 Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu đề tài phƣơng pháp tiếp cận giải tốn trích chọn thơng tin văn tiếng Việt trang thông tin điện tử tiếng Việt mạng Internet lĩnh vực du lịch a lu n Phạm vi nghiên cứu đề tài tốn trích chọn thơng tin n va tour du lịch số trang thôn tin điện tử tiếng Việt (website) mạng tn to Internet p ie gh 1.4 Phƣơng pháp nghiên cứu oa nl w Phƣơng pháp nghiên cứu đề tài nghiên cứu lý thuyết nghiên cứu thực nghiệm d Về nghiên cứu lý thuyết, đề tài tổng hợp kết nghiên cứu a lu phƣơng pháp trích chọn thơng tin từ văn tiếng Việt phục vụ phân tích, a nv thống kê, báo cáo, định Về nghiên cứu thực nghiệm, đề tài xây dựng u nf ll cài đặt, thử nghiệm mơ hình trích chọn thơng tin du lịch từ số trang m tz 1.5 Cấu trúc luận văn n oi web du lịch tiếng Việt mạng Internet z Cấu trúc luận văn gồm: mở đầu, bốn chƣơng chính, kết luận tài liệu @ gm tham khảo co l Phần mở đầu: Lý chọn đề tài bố cục luận văn m Chương 1: Giới thiệu tổng quan tốn trích chọn thông tin số an Lu lĩnh vực nghiên cứu liên quan http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 47 tour du lịch thuộc tính nhƣ khơng có đầy đủ liệu phụ thuộc vào website Để tiến hành thực nghiệm, với website Bảng 4.3, tác giả lấy ngẫu nhiên 50 viết chứa thông tin tour du lịch đƣợc lọc để thực cơng cụ trích chọn tour du lịch trích chọn thuộc tính tour du lịch Kết trích chọn đƣợc mô tả Bảng 4.4 sau đây: Bảng 4.4 Kết trích chọn tour du lịch trích chọn thuộc tính a lu Số viết chứa thơng tin tour Số tour đƣợc trích chọn Số tour có thuộc tính đƣợc trích chọn Dulichnamchau 50 47 44 Dulichviet 50 38 33 Dulichachau 50 45 42 43 41 46 43 50 34 32 50 40 34 Tên website STT n n va p ie gh tn to Dreamtravel 50 Dulichhn 50 Dulichmienbac Dulichnetviet d oa nl w a nv a lu ll u nf m n oi tz Kết thử nghiệm cho thấy, số tour đƣợc trích chọn nhỏ số viết chứa thông tin tour du lịch số tour có thuộc tính đƣợc trích chọn z gm @ nhỏ số tour đƣợc trích chọn, nghĩa số tour đƣợc trích chọn khơng trích chọn đƣợc thuộc tính Ngun nhân lỗi, luật l co chƣa bao hết trƣờng hợp, website Vấn đề lỗi đƣợc phân m tích mục sau Hơn nữa, ta thấy có khác số lƣợng tour đƣợc Lu an trích chọn website thiết kế website Có website thiết http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 48 kế theo kiểu List Page nhƣ website dulichnamchau, dulichviet, dulichachau, dulichmienbac, dulichnetviet có website thiết kế theo kiểu Detail Page nhƣ website dreamtravel, dulichhn Trong đó: List Page: trang chứa vài danh sách đối tƣợng Có hai dạng trang list, trang list bố trí theo chiều ngang chiều dọc Detail Page: trang giới thiệu đối tƣợng đơn Nó chứa đựng tất thông tin tour du lịch nhƣ: tên tour, mã tour, thời gian, giá a lu tour … [6] n n va Hình 4.4 giao diện kết trích chọn tour du lịch trích chọn p ie gh tn to thuộc tính d oa nl w a nv a lu ll u nf m tz n oi z l gm @ m co Hình 4.4 Kết trích chọn tour du lịch an Lu http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 49 Hình 4.5 giao diện tra cứu tour du lịch sau đƣợc trích chọn lƣu vào sở liệu a lu n n va p ie gh tn to oa nl w Hình 4.5 Giao diện tra cứu tour du lịch 4.5 Phân tích lỗi d a nv a lu 4.5.1 Phân tích lỗi lọc liệu u nf Trong q trình phát thơng tin tour du lịch, kết Bảng ll 4.3 lọc liệu hoạt động không tốt số trƣờng hợp m n oi Kết phân tích cho thấy trƣờng hợp lọc liệu hoạt động không tz tốt luật lọc liệu theo thẻ tiêu đề bắt đầu “Tour” “Du lịch” z nhƣng số trƣờng hợp thơng tin tour lại dạng hình ảnh gm @ dạng lựa chọn (nhƣ Hình 4.6) Hoặc luật lọc theo thẻ div từ l khóa nhƣ “Mã tour”, “Thời gian”, “Giá tour”… xảy lỗi viết nói m co dịch vụ khác nhƣ cho thuê xe du lịch hay đặt vé máy bay… (nhƣ an Lu Hình 4.7) http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 50 a lu n va n Hình 4.6 Lỗi lọc liệu thông tin dạng lựa chọn p ie gh tn to d oa nl w a nv a lu ll u nf m tz n oi z m co l gm @ Lu an Hình 4.7 Lỗi lọc liệu khơng có thơng tin tour du lịch http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 51 4.5.2 Phân tích lỗi q trình trích chọn Trong pha trích chọn thơng tin khả trích chọn thơng tin trang Du Lịch AMI TOUR thấp nhất, tác giả tìm hiểu nguyên nhân thấy nguyên nhân trang Du Lịch AMI TOUR cho kết trích chọn thấp có khơng đồng viết du lịch website này, dẫn đến luật dùng cho website khơng bao phủ đƣợc tồn liệu Ví dụ: Cùng viết website dulichmienbac.com, nhƣng có viết chứa thơng tin {tên tour, thời gian, giá} Có viết lại chứa đầy đủ a lu thông tin nhƣ {tên tour, thời gian, khởi hành, giá tour, phƣơng tiện, điện n n va thoại, hotline, email} tn to Với website khác, trích chọn làm việc sai viết bị sai tả nên khơng khớp với luật mà tác giả xây dựng p ie gh Ví dụ: Với luật xác định giá ta có: oa nl w GIÁ TOUR = + + Trong đó: d Tiền tố: “Giá tour:”, “Giá: ”, “Giá từ”, “Giá khuyến mãi”, “Price” a lu Định dạng giá: Dạng số, bao gồm ký tự {0, 1, 2,…, 9, “,”, “.”} a nv Hậu tố: “VNĐ”, “VND/ KHÁCH”, “Đ”, “vnđ / khách” u nf ll Nhƣng viết nhƣ sau: Trọn gói: 4.200.000 VNĐ, Gia tour: m n oi 3.800.000 VNĐ, Gái: 10.450.000 VND… dẫn đến trích chọn khơng trích tz đƣợc thuộc tính giá tour Tƣơng tự nhƣ với thuộc tính cịn lại z 4.6 Một số ứng dụng kết trích chọn tour du lịch @ gm Để có báo cáo tổng hợp tƣơng đối đầy đủ số liệu 07 website co l du lịch nêu trên, với website luận văn thực thu thập liệu (web m crawler) 4000 viết, nhƣ sau thu thập liệu ta có 28.000 viết an Lu từ 07 website du lịch Kết thúc trình thu thập, lọc liệu, trích http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 52 chọn tour, trích chọn thuộc tính ta thu đƣợc tour du lịch thuộc tính đƣợc lƣu trữ sở liệu phục vụ thống kê, báo cáo 4.6.1 Thống kê theo định danh Sau q trình trích chọn thơng tin từ website, ta thống kê đƣợc số tour đến địa danh du lịch Từ kết thống kê ta có vài nhận xét nhƣ: Địa danh du lịch đƣợc du khách quan tâm (thể chỗ có nhiều tour) a lu n Địa danh mạnh website n va Do số lƣợng địa danh du lịch nhiều nên tác giả lựa chọn số tn to địa danh điển hình p ie gh Bảng 4.5 Bảng thống kê số tour theo địa danh du lịch oa nl w WEBSITE Hồ Hà Hạ Đà Hội Đà Thái SaPa Huế Chí Singapore Malaysia Nội Long Nẵng An Lạt Lan Minh 27 244 110 3112 489 652 1104 390 375 329 4562 488 1140 1682 d Dulichnamchau 998 467 190 118 219 85 188 a nv a lu Dulichviet 66 48 u nf Dreamtravel 24 20 10 Dulichhn 81 11 Dulichmienbac 312 Dulichnetviet 69 41 37 21 15 12 15 10 12 13 15 12 11 15 16 8 16 90 38 6 25 18 45 37 19 16 11 15 14 82 59 49 1503 1877 ll 40 z 56 tz Dulichachau m n oi 18 co l gm @ 4641 1144 855 1377 596 662 483 4834 670 m Tổng số 58 an Lu http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 53 a lu n n va p ie gh tn to oa nl w Hình 4.8 Biểu đồ thống kê số tour theo địa danh du lịch d Nhận xét Theo Hình 4.8 ta thấy địa danh nƣớc có số lƣợng tour nhiều a nv a lu là: Thành phố Hồ Chí Minh (tổng số tour 4834), Hà Nội (4641 tour), u nf ll Huế (1377 tour) địa danh đƣợc mạng thông tin du lịch điện tử m quốc tế Touropia (touropia.com) bình chọn địa điểm khơng thể bỏ n oi tz qua tới Việt Nam địa điểm quốc tế có lƣợng tour nhiều Malaysia (1877 tour) Singapore (1503 tour) địa điểm đƣợc z thay đổi sống bạn” l Bảng 4.5 cho thấy website Du Lịch Việt, Du lịch Năm Châu có co gm @ Huffingtonpost xếp vào danh sách điểm đến Đơng Nam Á “có thể m số lƣợng tour nhiều hẳn website du lịch khác qua ta nhận an Lu http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 54 định website có uy tín, lựa chọn tour du lịch website đƣợc cung cấp dịch vụ tốt Qua Hình 4.8 ta biết đƣợc địa điểm mạnh website Ví dụ nhƣ trang Du Lịch Việt, số tour đến thành phố Hồ Chí Minh 4562 tour lớn gấp 326 lần so với trang Du Lịch Nét Việt, muốn đến địa điểm Hồ Chí Minh chọn tour trang Du Lịch Việt có giá hợp lý dịch vụ tốt 4.6.2 Thống kê theo giá tour a lu Sau trích chọn thơng tin tour, ta thống kê đƣợc số lƣợng n n va tour với mức giá cụ thể Từ kết có vài nhận xét nhƣ: Giá tiền phổ biến tour thuộc website bao nhiêu? Nên lựa chọn tour thuộc website cho phù hợp với số tiền p ie gh tn to có? oa nl w Liên Dƣới Từ - Từ - Từ - 10 Từ 10 - 20 Từ 20 - 30 Trên 30 hệ (triệu) (triệu) (triệu) (triệu) (triệu) (triệu) (triệu) d Tên website Bảng 4.6 Bảng thống kê số tour theo giá 44 a nv a lu Dulichnamchau 522 141 115 178 25 488 878 924 246 835 123 40 17 99 43 236 15 1 10 1 26 297 873 553 55 Dulichachau 126 25 49 Dreamtravel 46 11 17 Dulichhn 28 25 119 Dulichmienbac 24 46 236 110 Dulichnetviet 35 16 57 129 36 1334 222 748 1750 1135 ll Dulichviet @ u nf 129 565 m tz n oi z l gm 118 m co Tổng số 1257 an Lu http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 55 a lu n n va p ie gh tn to oa nl w Hình 4.9 Biểu đồ thống kê số tour theo giá tiền Nhận xét a lu Hình 4.9, ta thấy mức giá có nhiều tour từ - triệu (1750 tour) d Bảng 4.6 cho ta biết số tour mức giá website Từ a nv u nf kết Bảng 4.6 ta biết đƣợc website mạnh tour ll mức Ví dụ với website Du Lịch AMI TOUR tour mức m nên chọn tour trang z 4.6.3 Thống kê theo thời gian tz n oi từ 1- triệu tour mạnh Nếu ta có số tiền khoảng từ 1- triệu @ gm Từ kết q trình trích chọn thơng tin, ta thống kê đƣợc thời co l gian du lịch phổ biến Qua có nhận định nhƣ: Số m lƣợng tour du lịch khoảng thời gian bao nhiêu? Thời gian phổ an Lu biến tour ngày? http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 56 Bảng 4.7 Bảng thống kê số tour theo thời gian du lịch 10 ngày ngày ngày ngày Tên website a lu 67 272 416 646 489 258 379 122 23 Dulichviet 123 518 565 1162 1816 1023 871 338 378 432 Dulichachau 83 118 169 185 158 80 63 73 43 43 Dreamtravel 85 69 61 82 71 42 26 46 15 16 Dulichhn 22 33 21 34 17 11 11 Dulichmienbac 85 118 101 114 53 17 33 52 52 100 325 352 168 370 105 51 57 517 1180 1433 2548 2956 1599 1753 692 510 575 n Dulichnamchau n va tn to Dulichnetviet p ie gh Tổng số d oa nl w a nv a lu ll u nf m tz n oi z m co l gm @ Lu an Hình 4.10 Biểu đồ thống kê số tour theo thời gian http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 57 Nhận xét Từ Hình 4.10 ta thấy khoảng thời gian có nhiều tour ngày (2956 tour) ngày (2548 tour) Bảng 4.7 cho ta biết số tour khoảng thời gian website Từ kết Bảng 4.7 ta biết đƣợc website mạnh tour khoảng thời gian Ví dụ với website Du Lịch Năm Châu tour khoảng ngày (416 tour), ngày (646 tour), ngày (489 tour) tour mạnh a lu 4.7 Kết luận chƣơng n n va Chƣơng trình bày kết thử nghiệm mơ hình trích chọn thơng tin 1) Sử dụng công cụ (web crawler) thu thập viết chứa thông p ie gh tn to tour du lịch 07 website du lịch đƣợc chọn Bao gồm công việc sau: tin tour du lịch từ 07 website oa nl w 2) Lọc viết chứa thơng tin tour du lịch 3) Trích chọn tour du lịch từ viết theo tập luật đƣợc định d a lu nghĩa trƣớc u nf định nghĩa trƣớc a nv 4) Trích chọn thuộc tính tour du lịch theo tập luật đƣợc ll 5) Lƣu kết trích chọn vào sở liệu m tz n oi 6) Lập số báo cáo, thống kê phục vụ công tác quản lý z m co l gm @ an Lu http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 58 KẾT LUẬN Những kết luận văn Luận văn đạt đƣợc mục tiêu đề ban đầu: 1) Tìm hiểu tổng quan phƣơng pháp trích chọn thơng tin, tìm hiểu tốn trích chọn thông tin tour du lịch từ website tiếng Việt, đƣa phƣơng pháp, mơ hình giải tốn 2) Thử nghiệm mơ hình trích chọn thông tin tour du lịch 07 website du lịch, lập số báo cáo, thống kê phục vụ công tác quản lý, a lu điều hành n Một số hạn chế va n Luận văn số hạn chế nhƣ sau: p ie gh tn to 1) Khơng tự động trích chọn thơng tin đƣa vào viết thuộc website 2) Tập luật đƣợc xây dựng thủ công, khó bao phủ tới tồn oa nl w miền liệu Điều dẫn tới tập luật bỏ sót liệu có liên quan tới miền liệu d thông tin du lịch a nv a lu 3) Kết lọc liệu chƣa cao, bỏ qua nhiều viết chứa u nf Định hƣớng tƣơng lai ll m Định hƣớng nghiên cứu thời gian tới luận văn tiếp tục hoàn n oi tz thiện phát triển mơ hình trích chọn thơng tin du lịch văn tiếng Việt, tập trung vào phƣơng pháp trích chọn tự động, từ thơng tin trích z chọn đƣợc xây dựng đƣợc hệ thống tƣ vấn du lịch dự đoán xu hƣớng du @ l gm lịch Do hạn chế thời gian kiến thức khó khăn q co trình thu thập tiền xử lý liệu nên luận văn chƣa sử dụng phƣơng m pháp tự động Vì vậy, nghiên cứu tập trung vào việc sử dụng Lu an phƣơng pháp tự động trích chọn phát triển ứng dụng http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 59 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam Tài liệu tiếng Anh [2] Alexander Yates Information Extraction from the Web: Techniques and Applications Phd thesis, University of Washington, 2007 a lu [3] Adam Berger The Improved Iterative Scaling Algorithm: A gentle n Introduction School of Computer Science, Carnegie Mellon University n va [4] A McCallum, D Freitag, and F Pereia Maximum entropy markov p ie gh tn to models for information extraction and segmentation In Proc Interational Conference on Machine Learning, 2000 [5] A Rauber, D Merkl, and M Dittenbach: The Growing Hierarchical Self- oa nl w Organizing Map: Exploratory Analysis of High-Dimensional Data in: IEEE Transactions on Neural Networks, Vol 13, No 6, pp 1331-1341, d a nv a lu IEEE, November 2002 [6] Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage u nf Data, http://www.cs.uic.edu/~liub/WebMiningBook.html, December, ll m n oi 2006 tz [7] F Ciravegna, "Adaptive information extraction from text by rule induction and generalisation," in Proceedings of the 17th International z gm @ Joint Conference on Artificial Intelligence (IJCAI2001), 2001 [8] I Muslea, S Minton, and C A Knoblock, "A hierarchical approach to l co wrapper induction," in Proceedings of the Third International m Conference on Autonomous Agents, Seattle, WA, 1999 an Lu http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 60 [9] J Blitzer, R McDonald, and F Pereira, "Domain adaptation with structural correspondence learning," in Proceedings of the Empirical Methods in Natural Language Processing (EMNLP), 2006 [10] Michael Dittenbach, Andreas Rauber, Dieter Merkl, Uncovering Hierarchical Struture in Data Using the Growing Hierarchical SelfOrganizing Map, Institute of Software Technology, Vienna University of Technology, Vienna Austria, 24 July 2002 [11] Minh-Tien Nguyen and Tri-Thanh Nguyen “Extraction of Disease a lu Events for a Real-time Monitoring System”, SoICT'2013, Da Nang, n Vietnam, Decem- ber 5-6, 2013 n va [12] M E Calif and R J Mooney, "Relational learning of pattern-match rules p ie gh tn to for information extraction," in Proceedings of the Sixteenth Nation Conference on Artificial Intelligence (AAAI-99), pp 328-334, July 1999 [13] N Kushmerick, "Wrapper induction for information extraction," PhD oa nl w thesis, University of Washington, 1997 [14] Scott Miller, Heidi Fox, et al A Novel use of statistical parsing to extract d a nv a lu information from Text, In 6th Applied Natural Language Processing Conference, 2000 u nf [15] S Soderland, "Learning information extraction rules for semi-structured ll m and free text," Machine Learning, vol 34, 1999 n oi tz [16] Sunita Sarawagi (2008) Information Extraction [17] Teuvo Kohonen, et al Self-Organizing Maps, Third edition, Springer, z gm @ 2002 [18] Yi-fang Brook Wu, Quanzhi Li Document keyphrases as subject l m Retrieval -Springer 2008 co metadata: incorporating document key concepts in search results Inf an Lu http://www.ltc.tnu.edu.vn ac th Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si C.vT.Bg.Jy.Lj.Tai lieu Luan vT.Bg.Jy.Lj van Luan an.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Stt.010.Mssv.BKD002ac.email.ninhd.vT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.LjvT.Bg.Jy.Lj.dtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn