Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
1,65 MB
Nội dung
i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - HỒNG MINH THỦY NGHIÊN CỨU CÁC PHƢƠNG PHÁP TRÍCH CHỌN THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THƠNG TIN DU LỊCH TRONG VĂN BẢN TIẾNG VIỆT lu an va n Chuyên ngành: KHOA HỌC MÁY TÍNH to p ie gh tn Mã số: 60 48 01 01 d oa nl w LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH va an lu ll u nf NGƢỜI HƢỚNG DẪN KHOA HỌC oi m z at nh z GS VŨ ĐỨC THI m co l gm @ Thái Nguyên – 2015 an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si ii LỜI CAM ĐOAN Tác giả Hoàng Minh Thủy xin cam kết nội dung Luận văn chƣa đƣợc nộp cho chƣơng trình cấp cao học nhƣ chƣơng trình đào tạo cấp khác Ngoài ra, tác giả xin cam kết Luận văn thạc sĩ nỗ lực riêng cá nhân tác giả Các kết quả, phân tích, kết luận Luận văn thạc sĩ (ngồi phần đƣợc trích dẫn) kết làm việc cá nhân tác giả Thái Nguyên, ngày 10 tháng 11 năm 2015 lu Tác Giả an n va gh tn to p ie Hoàng Minh Thủy d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si iii LỜI CẢM ƠN Lời em xin gửi lời cảm ơn chân thành đến Các quý thầy cô giáo, Tổ chuyên môn Trƣờng Đại học Công nghệ thông tin Truyền thơng - Đại học Thái Ngun tận tình giảng dạy, truyền đạt kiến thức, kinh nghiệm quý báu suốt thời gian em theo học trƣờng Các kiến thức, kinh nghiệm quý báu Quý thầy giáo khơng giúp cá nhân em hồn thiện hệ thống kiến thức học tập mà giúp em ứng dụng kiến thức cơng tác tại đơn vị Đặc biệt, em xin chân thành cảm ơn thầy giáo GS Vũ Đức Thi nhiệt lu an tình tâm huyết việc định hƣớng giúp đỡ em hoàn thành luận văn n va Ngoài ra, em xin chân thành cảm ơn Ban lãnh đạo cán viên tn to chức Trƣờng Đại học Lâm nghiệp tạo điều kiện cung cấp ý kiến quý Em xin đƣợc bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè p ie gh báu kiến thức thực tiễn cho em thực luận văn tốt nghiệp w tạo điều kiện để cá nhân em dành thời gian cho khóa học Xin chân oa nl thành cảm ơn ngƣời bạn lớp cao học CK13, năm qua d ln động viên, khích lệ hỗ trợ em trình học tập lu va an Trong trình thực Luận văn cố gắng hết mình, song u nf chắn luận văn em cịn nhiều thiếu sót Em mong nhận đƣợc ll bảo vào đóng góp tận tình thầy cô để luận văn em đƣợc oi m hoàn thiện z at nh Thái Nguyên, ngày 10 tháng 11 năm 2015 Tác Giả z m co l gm @ an Lu Hoàng Minh Thủy ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH .viii MỞ ĐẦU 1.1.Sự cần thiết lựa chọn đề tài 1.2.Mục tiêu đề tài lu an 1.3.Đối tƣợng phạm vi nghiên cứu n va 1.4.Phƣơng pháp nghiên cứu tn to 1.5.Cấu trúc luận văn gh Chƣơng p ie TỔNG QUAN VỀ TRÍCH CHỌN THƠNG TIN VÀ BÀI TỐN TRÍCH CHỌN THƠNG TIN DU LỊCH w oa nl 1.1.Tổng quan trích chọn thơng tin d 1.1.1 Bài tốn trích chọn thực thể lu an 1.1.2 Bài toán trích chọn quan hệ .7 u nf va 1.1.3 Bài toán trích chọn cụm từ khóa 1.2.Bài tốn trích chọn thơng tin du lịch ll oi m 1.3.Ý nghĩa toán trích chọn thơng tin du lịch 10 z at nh 1.3.1 Ý nghĩa khoa học 10 1.3.2 Ý nghĩa thực tế 10 z 1.4.Ứng dụng tốn trích chọn thơng tin du lịch 10 @ gm 1.4.1 Hệ thống tìm kiếm tư vấn du lịch 10 l 1.4.2 Bài toán dự đoán xu hướng du lịch 11 m co 1.5.Kết luận chƣơng 11 an Lu Chƣơng 12 MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN THÔNG TIN 12 ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si v 2.1.Trích chọn thơng tin dựa vào DOM 12 2.1.1 Khái niệm DOM 12 2.1.2 Xây dựng DOM 13 2.1.3 Sử dụng DOM để trích chọn thơng tin 14 2.2.Trích chọn thông tin dựa tập luật 15 2.2.1 Hình thức biểu diễn luật .16 2.2.2 Đặc trưng từ tố (token) .16 2.2.3 Tập luật xác định thực thể đơn 16 2.2.4 Các luật đánh dấu biên thực thể .18 lu 2.2.5 Các luật xác định nhiều thực thể .18 an 2.2.6 Đánh giá phương pháp tiếp cận dựa luật 19 va n 2.3.Trích chọn thơng tin dựa học máy 19 tn to 2.4.Phƣơng pháp kết hợp phân tích mã HTML luật 20 ie gh 2.5.Kết luận chƣơng 21 p Chƣơng 22 nl w BÀI TỐN TRÍCH CHỌN TOUR DU LỊCH TRÊN MỘT SỐ TRANG d oa THÔNG TIN ĐIỆN TỬ TIẾNG VIỆT 22 an lu 3.1.Bài tốn trích chọn thơng tin du lịch số trang thông tin điện tử va tiếng Việt 22 u nf 3.1.1 Phát biểu toán 22 ll 3.1.2 Ý tưởng giải 23 m oi 3.2.Phƣơng pháp giải toán 23 z at nh 3.2.1 Bộ thu thập liệu 25 3.2.2 Bộ lọc liệu 26 z @ 3.2.3 Bộ trích chọn tour 27 gm 3.2.4 Bộ trích chọn thuộc tính 29 m co l Chƣơng 38 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 38 an Lu 4.1.Bài toán thử nghiệm 38 ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si vi 4.2.Môi trƣờng công cụ thử nghiệm 38 4.2.1 Môi trường thử nghiệm 38 4.2.2 Công cụ phần mềm sử dụng để thử nghiệm .39 4.3.Xây dựng sở liệu 39 4.4.Thử nghiệm quy trình trích chọn tour du lịch 41 4.4.1 Thu thập liệu (Web Crawler) 41 4.4.2 Lọc liệu .44 4.4.3 Trích chọn tour du lịch thuộc tính 46 4.5.Phân tích lỗi 49 lu 4.5.1 Phân tích lỗi lọc liệu .49 an va 4.5.2 Phân tích lỗi q trình trích chọn .51 n 4.6.Một số ứng dụng kết trích chọn tour du lịch 51 to 4.6.2 Thống kê theo giá tour .54 ie gh tn 4.6.1 Thống kê theo định danh 52 p 4.6.3 Thống kê theo thời gian 55 nl w 4.7.Kết luận chƣơng 57 oa KẾT LUẬN .58 d TÀI LIỆU THAM KHẢO 59 ll u nf va an lu oi m z at nh z m co l gm @ an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si vii DANH MỤC CÁC BẢNG Bảng 1.1 Bảng phân loại thực thể Bảng 4.1 Cấu hình hệ thống thử nghiêm 38 Bảng 4.2 Cơng cụ phần mềm có sẵn 39 Bảng 4.3 Kết lọc viết chứa thông tin tour du lịch 45 Bảng 4.4 Kết trích chọn tour du lịch trích chọn thuộc tính 47 lu Bảng 4.5 Bảng thống kê số tour theo địa danh du lịch 52 an n va Bảng 4.6 Bảng thống kê số tour theo giá 54 p ie gh tn to Bảng 4.7 Bảng thống kê số tour theo thời gian du lịch 56 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si viii DANH MỤC CÁC HÌNH Hình 2.1 Mơ hình biểu diễn DOM 12 Hình 2.2 Minh họa sử dụng visual cue 14 Hình 2.3 Minh họa DOM dùng mẫu trích chọn 15 Hình 3.1 Mơ hình tốn trích chọn 25 Hình3.2 Mơ hình làm việc thu thập liệu 25 Hình 3.3 Mơ hình làm việc lọc liệu 26 lu Hình 3.4 Các thông tin chi tiết tour website Du lịch Dấu Chân 30 an Hình 3.5 Các thơng tin chi tiết tour website Du lịch Năm Châu 30 va n Hình 3.6 Các thơng tin chi tiết tour website Du lịch Quốc tế Nét Việt 31 gh tn to Hình 3.7 Các thơng tin chi tiết tour website Du lịch AMI TOUR 31 p ie Hình 3.8 Các thơng tin chi tiết tour website Du lịch Giấc Mơ Việt 32 w Hình 3.9 Các thơng tin chi tiết tour website Du lịch Việt 33 oa nl Hình 3.10 Các thơng tin chi tiết tour website Du lịch Á Châu 34 d Hình 3.11 Mơ hình làm việc trích chọn thuộc tính 35 lu va an Hình 4.1 Thu thập liệu từ trang www.dulichnamchau.vn 43 u nf Hình 4.2 Quá trình thu thập liệu từ trang www.dulichnamchau.vn 44 ll Hình 4.3 Kết lọc viết chứa thông tin tour du lịch 46 m oi Hình 4.4 Kết trích chọn tour du lịch 48 z at nh Hình 4.5 Giao diện tra cứu tour du lịch 49 z Hình 4.6 Lỗi lọc liệu thơng tin dạng lựa chọn 50 @ gm Hình 4.7 Lỗi lọc liệu khơng có thơng tin tour du lịch 50 l Hình 4.8 Biểu đồ thống kê số tour theo địa danh du lịch 53 m co Hình 4.9 Biểu đồ thống kê số tour theo giá tiền 55 an Lu Hình 4.10 Biểu đồ thống kê số tour theo thời gian 56 ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Trích chọn thơng tin (IE - Information Extraction) lĩnh vực nghiên cứu quan trọng khai phá liệu văn [3, 4] Trích chọn thơng tin q trình thu thập thông tin từ nguồn liệu theo nhiều định dạng khác nhau, khơng đồng nhất, chí khơng có định dạng cụ thể, sau chuyển thành dạng đồng Dữ liệu sau trích chọn đƣợc lƣu vào sở liệu để xử lý hay đƣợc sử dụng cho hệ thống khai phá liệu lu Từ liệu, thơng tin đƣợc trích chọn sử dụng kỹ thuật phân tích, an va khai phá để khám phá mẫu thông tin có ích, tiềm ẩn liệu n Ngày nay, với phát triển công nghệ thông tin, Tin học gh tn to dần đƣợc ứng dụng rộng rãi nhiều lĩnh vực nhƣ kinh tế, du lịch, thƣơng ie mại, y tế, ngân hàng mang lại nhiều lợi ích to lớn Nền kinh tế khơng p ngừng phát triển, đời sống văn hố - xã hội ngày đƣợc nâng cao du nl w lịch trở thành nhu cầu thiếu sống ngƣời dân, d oa trang web du lịch hàng loạt thông tin tour du lịch nƣớc an lu ngồi nƣớc Tuy nhiên lƣợng thơng tin tour du lịch Internet va vô lớn, gây khó khăn cho ngƣời có nhu cầu du lịch việc lựa chọn u nf địa điểm tham quan, lựa chọn công ty cung cấp dịch vụ,… Do vậy, ll toán đặt cần phải xây dựng hệ thống tìm kiếm tƣ vấn du lịch, giúp m oi ngƣời dùng lựa chọn đƣợc tour du lịch phù hợp với yêu cầu z at nh đề Để có hệ thống tìm kiếm tƣ vấn tốt trƣớc tiên ta phải xây z dựng đƣợc tập liệu có độ xác cao Cùng với tốn trích gm @ chọn thơng tin du lịch văn tiếng Việt l Để tiến đến tìm hiểu đƣợc vấn đề trên, em lựa chọn đề tài m co “Nghiên cứu phương pháp trích chọn thơng tin ứng dụng trích chọn an Lu thông tin du lịch văn Tiếng Việt” làm luận văn tốt nghiệp Thạc sĩ ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 1.2 Mục tiêu đề tài Tìm hiểu phƣơng phƣơng pháp trích chọn thơng tin xây dựng mơ hình giải tốn trích chọn thông tin tour du lịch từ trang thông tin điện tử tiếng Việt Internet 1.3 Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu đề tài phƣơng pháp tiếp cận giải tốn trích chọn thơng tin văn tiếng Việt trang thông tin điện tử tiếng Việt mạng Internet lĩnh vực du lịch lu an Phạm vi nghiên cứu đề tài tốn trích chọn thơng tin va n tour du lịch số trang thôn tin điện tử tiếng Việt (website) mạng gh tn to Internet p ie 1.4 Phƣơng pháp nghiên cứu w Phƣơng pháp nghiên cứu đề tài nghiên cứu lý thuyết nghiên oa nl cứu thực nghiệm d Về nghiên cứu lý thuyết, đề tài tổng hợp kết nghiên cứu lu an phƣơng pháp trích chọn thơng tin từ văn tiếng Việt phục vụ phân tích, u nf va thống kê, báo cáo, định Về nghiên cứu thực nghiệm, đề tài xây dựng ll cài đặt, thử nghiệm mơ hình trích chọn thơng tin du lịch từ số trang m oi web du lịch tiếng Việt mạng Internet z at nh 1.5 Cấu trúc luận văn z Cấu trúc luận văn gồm: mở đầu, bốn chƣơng chính, kết luận tài liệu gm @ tham khảo m co l Phần mở đầu: Lý chọn đề tài bố cục luận văn Chương 1: Giới thiệu tổng quan tốn trích chọn thơng tin số an Lu lĩnh vực nghiên cứu liên quan ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 47 tour du lịch thuộc tính nhƣ khơng có đầy đủ liệu phụ thuộc vào website Để tiến hành thực nghiệm, với website Bảng 4.3, tác giả lấy ngẫu nhiên 50 viết chứa thông tin tour du lịch đƣợc lọc để thực cơng cụ trích chọn tour du lịch trích chọn thuộc tính tour du lịch Kết trích chọn đƣợc mơ tả Bảng 4.4 sau đây: Bảng 4.4 Kết trích chọn tour du lịch trích chọn thuộc tính lu Số viết chứa thơng tin tour Số tour đƣợc trích chọn Số tour có thuộc tính đƣợc trích chọn Dulichnamchau 50 47 44 Dulichviet 50 38 33 50 45 42 43 41 46 43 50 34 32 50 40 34 Tên website an STT n va gh tn to p ie Dulichachau Dreamtravel 50 Dulichhn 50 Dulichmienbac Dulichnetviet d oa nl w ll u nf va an lu oi m z at nh Kết thử nghiệm cho thấy, số tour đƣợc trích chọn nhỏ số viết chứa thông tin tour du lịch số tour có thuộc tính đƣợc trích chọn z gm @ nhỏ số tour đƣợc trích chọn, nghĩa số tour đƣợc trích chọn khơng trích chọn đƣợc thuộc tính Nguyên nhân lỗi, luật l m co chƣa bao hết trƣờng hợp, website Vấn đề lỗi đƣợc phân tích mục sau Hơn nữa, ta thấy có khác số lƣợng tour đƣợc an Lu trích chọn website thiết kế website Có website thiết ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 48 kế theo kiểu List Page nhƣ website dulichnamchau, dulichviet, dulichachau, dulichmienbac, dulichnetviet có website thiết kế theo kiểu Detail Page nhƣ website dreamtravel, dulichhn Trong đó: List Page: trang chứa vài danh sách đối tƣợng Có hai dạng trang list, trang list bố trí theo chiều ngang chiều dọc Detail Page: trang giới thiệu đối tƣợng đơn Nó chứa đựng tất thông tin tour du lịch nhƣ: tên tour, mã tour, thời gian, giá lu tour … [6] an n va Hình 4.4 giao diện kết trích chọn tour du lịch trích chọn p ie gh tn to thuộc tính d oa nl w ll u nf va an lu oi m z at nh z l gm @ m co Hình 4.4 Kết trích chọn tour du lịch an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 49 Hình 4.5 giao diện tra cứu tour du lịch sau đƣợc trích chọn lƣu vào sở liệu lu an n va p ie gh tn to nl w Hình 4.5 Giao diện tra cứu tour du lịch d oa 4.5 Phân tích lỗi va an lu 4.5.1 Phân tích lỗi lọc liệu u nf Trong q trình phát thơng tin tour du lịch, kết Bảng ll 4.3 lọc liệu hoạt động không tốt số trƣờng hợp m oi Kết phân tích cho thấy trƣờng hợp lọc liệu hoạt động không z at nh tốt luật lọc liệu theo thẻ tiêu đề bắt đầu “Tour” “Du lịch” z nhƣng số trƣờng hợp thơng tin tour lại dạng hình ảnh gm @ dạng lựa chọn (nhƣ Hình 4.6) Hoặc luật lọc theo thẻ div từ l khóa nhƣ “Mã tour”, “Thời gian”, “Giá tour”… xảy lỗi viết nói an Lu Hình 4.7) m co dịch vụ khác nhƣ cho thuê xe du lịch hay đặt vé máy bay… (nhƣ ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 50 lu an va n Hình 4.6 Lỗi lọc liệu thơng tin dạng lựa chọn p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 4.7 Lỗi lọc liệu khơng có thơng tin tour du lịch ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 51 4.5.2 Phân tích lỗi trình trích chọn Trong pha trích chọn thơng tin khả trích chọn thơng tin trang Du Lịch AMI TOUR thấp nhất, tác giả tìm hiểu nguyên nhân thấy nguyên nhân trang Du Lịch AMI TOUR cho kết trích chọn thấp có khơng đồng viết du lịch website này, dẫn đến luật dùng cho website khơng bao phủ đƣợc tồn liệu Ví dụ: Cùng viết website dulichmienbac.com, nhƣng có viết chứa thơng tin {tên tour, thời gian, giá} Có viết lại chứa đầy đủ lu thông tin nhƣ {tên tour, thời gian, khởi hành, giá tour, phƣơng tiện, điện an Với website khác, trích chọn làm việc sai viết bị sai n va thoại, hotline, email} Ví dụ: Với luật xác định giá ta có: p ie gh tn to tả nên khơng khớp với luật mà tác giả xây dựng w GIÁ TOUR = + + oa nl Trong đó: d Tiền tố: “Giá tour:”, “Giá: ”, “Giá từ”, “Giá khuyến mãi”, “Price” lu an Định dạng giá: Dạng số, bao gồm ký tự {0, 1, 2,…, 9, “,”, “.”} u nf va Hậu tố: “VNĐ”, “VND/ KHÁCH”, “Đ”, “vnđ / khách” ll Nhƣng viết nhƣ sau: Trọn gói: 4.200.000 VNĐ, Gia tour: m oi 3.800.000 VNĐ, Gái: 10.450.000 VND… dẫn đến trích chọn khơng trích z at nh đƣợc thuộc tính giá tour Tƣơng tự nhƣ với thuộc tính cịn lại z 4.6 Một số ứng dụng kết trích chọn tour du lịch @ gm Để có báo cáo tổng hợp tƣơng đối đầy đủ số liệu 07 website m co l du lịch nêu trên, với website luận văn thực thu thập liệu (web crawler) 4000 viết, nhƣ sau thu thập liệu ta có 28.000 viết an Lu từ 07 website du lịch Kết thúc trình thu thập, lọc liệu, trích ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 52 chọn tour, trích chọn thuộc tính ta thu đƣợc tour du lịch thuộc tính đƣợc lƣu trữ sở liệu phục vụ thống kê, báo cáo 4.6.1 Thống kê theo định danh Sau q trình trích chọn thơng tin từ website, ta thống kê đƣợc số tour đến địa danh du lịch Từ kết thống kê ta có vài nhận xét nhƣ: Địa danh du lịch đƣợc du khách quan tâm (thể chỗ có nhiều tour) lu an Địa danh mạnh website n va Do số lƣợng địa danh du lịch nhiều nên tác giả lựa chọn số tn to địa danh điển hình p ie gh Bảng 4.5 Bảng thống kê số tour theo địa danh du lịch oa nl w WEBSITE Hồ Hà Hạ Đà Hội Đà Thái SaPa Huế Chí Singapore Malaysia Nội Long Nẵng An Lạt Lan Minh 27 244 110 3112 489 652 1104 390 375 329 4562 488 1140 1682 d Dulichnamchau 998 467 190 118 219 85 188 56 48 Dreamtravel 24 20 10 Dulichhn 81 11 15 Dulichmienbac 312 90 38 Dulichnetviet 19 16 69 41 37 21 15 12 15 12 13 15 12 11 ll 40 z at nh Dulichachau u nf va an lu Dulichviet 66 m oi 8 16 6 25 18 45 37 11 15 14 82 59 49 1503 1877 18 m co l gm @ 16 z Tổng số 58 10 4641 1144 855 1377 596 662 483 4834 670 an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 53 lu an n va p ie gh tn to oa nl w Hình 4.8 Biểu đồ thống kê số tour theo địa danh du lịch d Nhận xét Theo Hình 4.8 ta thấy địa danh nƣớc có số lƣợng tour nhiều an lu u nf va là: Thành phố Hồ Chí Minh (tổng số tour 4834), Hà Nội (4641 tour), ll Huế (1377 tour) địa danh đƣợc mạng thông tin du lịch điện tử oi m quốc tế Touropia (touropia.com) bình chọn địa điểm bỏ z at nh qua tới Việt Nam địa điểm quốc tế có lƣợng tour nhiều Malaysia (1877 tour) Singapore (1503 tour) địa điểm đƣợc z thay đổi sống bạn” l Bảng 4.5 cho thấy website Du Lịch Việt, Du lịch Năm Châu có m co gm @ Huffingtonpost xếp vào danh sách điểm đến Đông Nam Á “có thể số lƣợng tour nhiều hẳn website du lịch khác qua ta nhận an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 54 định website có uy tín, lựa chọn tour du lịch website đƣợc cung cấp dịch vụ tốt Qua Hình 4.8 ta biết đƣợc địa điểm mạnh website Ví dụ nhƣ trang Du Lịch Việt, số tour đến thành phố Hồ Chí Minh 4562 tour lớn gấp 326 lần so với trang Du Lịch Nét Việt, muốn đến địa điểm Hồ Chí Minh chọn tour trang Du Lịch Việt có giá hợp lý dịch vụ tốt 4.6.2 Thống kê theo giá tour lu an Sau trích chọn thơng tin tour, ta thống kê đƣợc số lƣợng n va tour với mức giá cụ thể Từ kết có vài nhận xét nhƣ: Giá tiền phổ biến tour thuộc website bao nhiêu? Nên lựa chọn tour thuộc website cho phù hợp với số tiền ie gh tn to p có? Liên Dƣới Từ - Từ - Từ - 10 Từ 10 - 20 Từ 20 - 30 Trên 30 hệ (triệu) (triệu) (triệu) (triệu) (triệu) (triệu) (triệu) Tên website d oa nl w Bảng 4.6 Bảng thống kê số tour theo giá 565 115 178 25 488 878 924 246 835 123 40 17 99 43 236 15 1 10 1 118 26 m co 141 297 873 553 55 129 Dulichachau 126 25 49 Dreamtravel 46 11 17 Dulichhn 28 25 119 Dulichmienbac 24 46 236 110 Dulichnetviet 35 16 57 129 36 1334 222 748 1750 1135 ll Dulichviet @ u nf va 44 z at nh an lu Dulichnamchau 522 oi m z l gm Tổng số 1257 an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 55 lu an n va p ie gh tn to w Hình 4.9 Biểu đồ thống kê số tour theo giá tiền oa nl Nhận xét Hình 4.9, ta thấy mức giá có nhiều tour từ - triệu (1750 tour) Bảng 4.6 cho ta biết số tour mức giá website Từ d va an lu u nf kết Bảng 4.6 ta biết đƣợc website mạnh tour ll mức Ví dụ với website Du Lịch AMI TOUR tour mức m oi từ 1- triệu tour mạnh Nếu ta có số tiền khoảng từ 1- triệu z at nh nên chọn tour trang z 4.6.3 Thống kê theo thời gian @ gm Từ kết q trình trích chọn thông tin, ta thống kê đƣợc thời m co l gian du lịch phổ biến Qua có nhận định nhƣ: Số lƣợng tour du lịch khoảng thời gian bao nhiêu? Thời gian phổ an Lu biến tour ngày? ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 56 Bảng 4.7 Bảng thống kê số tour theo thời gian du lịch 10 ngày ngày ngày ngày Tên website lu 67 272 416 646 489 258 379 122 23 Dulichviet 123 518 565 1162 1816 1023 871 338 378 432 Dulichachau 83 118 169 185 158 80 63 73 43 43 Dreamtravel 85 69 61 82 71 42 26 46 15 16 Dulichhn 22 33 21 34 17 11 11 Dulichmienbac 85 118 101 114 53 17 33 Dulichnetviet 52 52 100 325 352 168 370 105 51 57 517 1180 1433 2548 2956 1599 1753 692 510 575 an Dulichnamchau n va p ie gh tn to Tổng số d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu Hình 4.10 Biểu đồ thống kê số tour theo thời gian ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 57 Nhận xét Từ Hình 4.10 ta thấy khoảng thời gian có nhiều tour ngày (2956 tour) ngày (2548 tour) Bảng 4.7 cho ta biết số tour khoảng thời gian website Từ kết Bảng 4.7 ta biết đƣợc website mạnh tour khoảng thời gian Ví dụ với website Du Lịch Năm Châu tour khoảng ngày (416 tour), ngày (646 tour), ngày (489 tour) tour mạnh lu 4.7 Kết luận chƣơng an n va Chƣơng trình bày kết thử nghiệm mơ hình trích chọn thông tin tn to tour du lịch 07 website du lịch đƣợc chọn Bao gồm công việc sau: ie gh 1) Sử dụng công cụ (web crawler) thu thập viết chứa thông p tin tour du lịch từ 07 website w 2) Lọc viết chứa thông tin tour du lịch d lu nghĩa trƣớc oa nl 3) Trích chọn tour du lịch từ viết theo tập luật đƣợc định u nf định nghĩa trƣớc va an 4) Trích chọn thuộc tính tour du lịch theo tập luật đƣợc ll 5) Lƣu kết trích chọn vào sở liệu m oi 6) Lập số báo cáo, thống kê phục vụ công tác quản lý z at nh z m co l gm @ an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 58 KẾT LUẬN Những kết luận văn Luận văn đạt đƣợc mục tiêu đề ban đầu: 1) Tìm hiểu tổng quan phƣơng pháp trích chọn thơng tin, tìm hiểu tốn trích chọn thơng tin tour du lịch từ website tiếng Việt, đƣa phƣơng pháp, mơ hình giải tốn 2) Thử nghiệm mơ hình trích chọn thơng tin tour du lịch 07 website du lịch, lập số báo cáo, thống kê phục vụ công tác quản lý, lu điều hành an Một số hạn chế va n Luận văn số hạn chế nhƣ sau: to gh tn 1) Không tự động trích chọn thơng tin đƣa vào viết thuộc 2) Tập luật đƣợc xây dựng thủ công, khó bao phủ tới tồn p ie website oa nl w miền liệu Điều dẫn tới tập luật bỏ sót liệu có liên quan tới miền liệu d u nf va thông tin du lịch an lu 3) Kết lọc liệu chƣa cao, bỏ qua nhiều viết chứa Định hƣớng tƣơng lai ll oi m Định hƣớng nghiên cứu thời gian tới luận văn tiếp tục hoàn z at nh thiện phát triển mơ hình trích chọn thông tin du lịch văn tiếng Việt, tập trung vào phƣơng pháp trích chọn tự động, từ thơng tin trích z chọn đƣợc xây dựng đƣợc hệ thống tƣ vấn du lịch dự đoán xu hƣớng du @ l gm lịch Do hạn chế thời gian kiến thức khó khăn m co trình thu thập tiền xử lý liệu nên luận văn chƣa sử dụng phƣơng pháp tự động Vì vậy, nghiên cứu tập trung vào việc sử dụng an Lu phƣơng pháp tự động trích chọn phát triển ứng dụng ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 59 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam Tài liệu tiếng Anh [2] Alexander Yates Information Extraction from the Web: Techniques and Applications Phd thesis, University of Washington, 2007 lu [3] Adam Berger The Improved Iterative Scaling Algorithm: A gentle an Introduction School of Computer Science, Carnegie Mellon University va n [4] A McCallum, D Freitag, and F Pereia Maximum entropy markov to Interational Conference on Machine Learning, 2000 p ie gh tn models for information extraction and segmentation In Proc [5] A Rauber, D Merkl, and M Dittenbach: The Growing Hierarchical Self- oa nl w Organizing Map: Exploratory Analysis of High-Dimensional Data in: IEEE Transactions on Neural Networks, Vol 13, No 6, pp 1331-1341, d an lu IEEE, November 2002 u nf va [6] Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html, December, ll oi m 2006 z at nh [7] F Ciravegna, "Adaptive information extraction from text by rule induction and generalisation," in Proceedings of the 17th International z gm @ Joint Conference on Artificial Intelligence (IJCAI2001), 2001 [8] I Muslea, S Minton, and C A Knoblock, "A hierarchical approach to l m co wrapper induction," in Proceedings of the Third International Conference on Autonomous Agents, Seattle, WA, 1999 an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 60 [9] J Blitzer, R McDonald, and F Pereira, "Domain adaptation with structural correspondence learning," in Proceedings of the Empirical Methods in Natural Language Processing (EMNLP), 2006 [10] Michael Dittenbach, Andreas Rauber, Dieter Merkl, Uncovering Hierarchical Struture in Data Using the Growing Hierarchical SelfOrganizing Map, Institute of Software Technology, Vienna University of Technology, Vienna Austria, 24 July 2002 [11] Minh-Tien Nguyen and Tri-Thanh Nguyen “Extraction of Disease lu Events for a Real-time Monitoring System”, SoICT'2013, Da Nang, an Vietnam, Decem- ber 5-6, 2013 va n [12] M E Calif and R J Mooney, "Relational learning of pattern-match rules to Conference on Artificial Intelligence (AAAI-99), pp 328-334, July 1999 p ie gh tn for information extraction," in Proceedings of the Sixteenth Nation [13] N Kushmerick, "Wrapper induction for information extraction," PhD oa nl w thesis, University of Washington, 1997 [14] Scott Miller, Heidi Fox, et al A Novel use of statistical parsing to extract d an lu information from Text, In 6th Applied Natural Language Processing u nf va Conference, 2000 [15] S Soderland, "Learning information extraction rules for semi-structured ll oi m and free text," Machine Learning, vol 34, 1999 z at nh [16] Sunita Sarawagi (2008) Information Extraction [17] Teuvo Kohonen, et al Self-Organizing Maps, Third edition, Springer, z gm @ 2002 [18] Yi-fang Brook Wu, Quanzhi Li Document keyphrases as subject l Retrieval -Springer 2008 m co metadata: incorporating document key concepts in search results Inf an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si 61 [19] Zhou GuoDong, Su Jian, et al Exploring Various Knowledge in Relation Extraction Proceedings of the 43rd Annual Meeting of ACL, pages 427 - 434, Association for computational linguitics, 2005 [20] http://www.w3.org/DOM/ [21] http://www.w3.org/TR/xpath [22] http://www.dcs.bbk.ac.uk/~ptw/teaching/ssd/toc.html lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu ac th http://www.ltc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN si