Nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng việt

69 15 0
Nghiên cứu các phương pháp trích chọn thông tin và ứng dụng trích chọn thông tin du lịch trong văn bản tiếng việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG - HỒNG MINH THỦY NGHIÊN CỨU CÁC PHƢƠNG PHÁP TRÍCH CHỌN THƠNG TIN VÀ ỨNG DỤNG TRÍCH CHỌN THƠNG TIN DU LỊCH TRONG VĂN BẢN TIẾNG VIỆT Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC GS VŨ ĐỨC THI Thái Nguyên – 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn ii LỜI CAM ĐOAN Tác giả Hoàng Minh Thủy xin cam kết nội dung Luận văn chƣa đƣợc nộp cho chƣơng trình cấp cao học nhƣ chƣơng trình đào tạo cấp khác Ngoài ra, tác giả xin cam kết Luận văn thạc sĩ nỗ lực riêng cá nhân tác giả Các kết quả, phân tích, kết luận Luận văn thạc sĩ (ngồi phần đƣợc trích dẫn) kết làm việc cá nhân tác giả Thái Nguyên, ngày 10 tháng 11 năm 2015 Tác Giả Hoàng Minh Thủy Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn iii LỜI CẢM ƠN Lời em xin gửi lời cảm ơn chân thành đến Các quý thầy cô giáo, Tổ chuyên môn Trƣờng Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên tận tình giảng dạy, truyền đạt kiến thức, kinh nghiệm quý báu suốt thời gian em theo học trƣờng Các kiến thức, kinh nghiệm quý báu Quý thầy cô giáo không giúp cá nhân em hoàn thiện hệ thống kiến thức học tập mà cịn giúp em ứng dụng kiến thức công tác tại đơn vị Đặc biệt, em xin chân thành cảm ơn thầy giáo GS Vũ Đức Thi nhiệt tình tâm huyết việc định hƣớng giúp đỡ em hoàn thành luận văn Ngoài ra, em xin chân thành cảm ơn Ban lãnh đạo cán viên chức Trƣờng Đại học Lâm nghiệp tạo điều kiện cung cấp ý kiến quý báu kiến thức thực tiễn cho em thực luận văn tốt nghiệp Em xin đƣợc bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè tạo điều kiện để cá nhân em dành thời gian cho khóa học Xin chân thành cảm ơn ngƣời bạn lớp cao học CK13, năm qua luôn động viên, khích lệ hỗ trợ em trình học tập Trong trình thực Luận văn cố gắng hết mình, song chắn luận văn em cịn nhiều thiếu sót Em mong nhận đƣợc bảo vào đóng góp tận tình thầy để luận văn em đƣợc hoàn thiện Thái Nguyên, ngày 10 tháng 11 năm 2015 Tác Giả Hồng Minh Thủy Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii MỤC LỤC iv DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH .viii MỞ ĐẦU 1.1.Sự cần thiết lựa chọn đề tài 1.2.Mục tiêu đề tài 1.3.Đối tƣợng phạm vi nghiên cứu 1.4.Phƣơng pháp nghiên cứu 1.5.Cấu trúc luận văn Chƣơng TỔNG QUAN VỀ TRÍCH CHỌN THƠNG TIN VÀ BÀI TỐN TRÍCH CHỌN THƠNG TIN DU LỊCH 1.1.Tổng quan trích chọn thơng tin 1.1.1 Bài toán trích chọn thực thể 1.1.2 Bài tốn trích chọn quan hệ .7 1.1.3 Bài tốn trích chọn cụm từ khóa 1.2.Bài tốn trích chọn thơng tin du lịch 1.3.Ý nghĩa tốn trích chọn thơng tin du lịch 10 1.3.1 Ý nghĩa khoa học 10 1.3.2 Ý nghĩa thực tế 10 1.4.Ứng dụng tốn trích chọn thơng tin du lịch 10 1.4.1 Hệ thống tìm kiếm tư vấn du lịch 10 1.4.2 Bài toán dự đoán xu hướng du lịch 11 1.5.Kết luận chƣơng 11 Chƣơng 12 MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN THƠNG TIN 12 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn v 2.1.Trích chọn thơng tin dựa vào DOM 12 2.1.1 Khái niệm DOM 12 2.1.2 Xây dựng DOM 13 2.1.3 Sử dụng DOM để trích chọn thơng tin 14 2.2.Trích chọn thơng tin dựa tập luật 15 2.2.1 Hình thức biểu diễn luật .16 2.2.2 Đặc trưng từ tố (token) .16 2.2.3 Tập luật xác định thực thể đơn 16 2.2.4 Các luật đánh dấu biên thực thể .18 2.2.5 Các luật xác định nhiều thực thể .18 2.2.6 Đánh giá phương pháp tiếp cận dựa luật 19 2.3.Trích chọn thơng tin dựa học máy 19 2.4.Phƣơng pháp kết hợp phân tích mã HTML luật 20 2.5.Kết luận chƣơng 21 Chƣơng 22 BÀI TỐN TRÍCH CHỌN TOUR DU LỊCH TRÊN MỘT SỐ TRANG THÔNG TIN ĐIỆN TỬ TIẾNG VIỆT 22 3.1.Bài tốn trích chọn thơng tin du lịch số trang thông tin điện tử tiếng Việt 22 3.1.1 Phát biểu toán 22 3.1.2 Ý tưởng giải 23 3.2.Phƣơng pháp giải toán 23 3.2.1 Bộ thu thập liệu 25 3.2.2 Bộ lọc liệu 26 3.2.3 Bộ trích chọn tour 27 3.2.4 Bộ trích chọn thuộc tính 29 Chƣơng 38 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 38 4.1.Bài toán thử nghiệm 38 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn vi 4.2.Môi trƣờng công cụ thử nghiệm 38 4.2.1 Môi trường thử nghiệm 38 4.2.2 Công cụ phần mềm sử dụng để thử nghiệm .39 4.3.Xây dựng sở liệu 39 4.4.Thử nghiệm quy trình trích chọn tour du lịch 41 4.4.1 Thu thập liệu (Web Crawler) 41 4.4.2 Lọc liệu .44 4.4.3 Trích chọn tour du lịch thuộc tính 46 4.5.Phân tích lỗi 49 4.5.1 Phân tích lỗi lọc liệu .49 4.5.2 Phân tích lỗi q trình trích chọn .51 4.6.Một số ứng dụng kết trích chọn tour du lịch 51 4.6.1 Thống kê theo định danh 52 4.6.2 Thống kê theo giá tour .54 4.6.3 Thống kê theo thời gian 55 4.7.Kết luận chƣơng 57 KẾT LUẬN .58 TÀI LIỆU THAM KHẢO 59 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn vii DANH MỤC CÁC BẢNG Bảng 1.1 Bảng phân loại thực thể Bảng 4.1 Cấu hình hệ thống thử nghiêm 38 Bảng 4.2 Công cụ phần mềm có sẵn 39 Bảng 4.3 Kết lọc viết chứa thông tin tour du lịch 45 Bảng 4.4 Kết trích chọn tour du lịch trích chọn thuộc tính 47 Bảng 4.5 Bảng thống kê số tour theo địa danh du lịch 52 Bảng 4.6 Bảng thống kê số tour theo giá 54 Bảng 4.7 Bảng thống kê số tour theo thời gian du lịch 56 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn viii DANH MỤC CÁC HÌNH Hình 2.1 Mơ hình biểu diễn DOM 12 Hình 2.2 Minh họa sử dụng visual cue 14 Hình 2.3 Minh họa DOM dùng mẫu trích chọn 15 Hình 3.1 Mơ hình tốn trích chọn 25 Hình3.2 Mơ hình làm việc thu thập liệu 25 Hình 3.3 Mơ hình làm việc lọc liệu 26 Hình 3.4 Các thơng tin chi tiết tour website Du lịch Dấu Chân 30 Hình 3.5 Các thơng tin chi tiết tour website Du lịch Năm Châu 30 Hình 3.6 Các thông tin chi tiết tour website Du lịch Quốc tế Nét Việt 31 Hình 3.7 Các thơng tin chi tiết tour website Du lịch AMI TOUR 31 Hình 3.8 Các thơng tin chi tiết tour website Du lịch Giấc Mơ Việt 32 Hình 3.9 Các thơng tin chi tiết tour website Du lịch Việt 33 Hình 3.10 Các thông tin chi tiết tour website Du lịch Á Châu 34 Hình 3.11 Mơ hình làm việc trích chọn thuộc tính 35 Hình 4.1 Thu thập liệu từ trang www.dulichnamchau.vn 43 Hình 4.2 Quá trình thu thập liệu từ trang www.dulichnamchau.vn 44 Hình 4.3 Kết lọc viết chứa thông tin tour du lịch 46 Hình 4.4 Kết trích chọn tour du lịch 48 Hình 4.5 Giao diện tra cứu tour du lịch 49 Hình 4.6 Lỗi lọc liệu thông tin dạng lựa chọn 50 Hình 4.7 Lỗi lọc liệu khơng có thơng tin tour du lịch 50 Hình 4.8 Biểu đồ thống kê số tour theo địa danh du lịch 53 Hình 4.9 Biểu đồ thống kê số tour theo giá tiền 55 Hình 4.10 Biểu đồ thống kê số tour theo thời gian 56 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn MỞ ĐẦU 1.1 Sự cần thiết lựa chọn đề tài Trích chọn thơng tin (IE - Information Extraction) lĩnh vực nghiên cứu quan trọng khai phá liệu văn [3, 4] Trích chọn thơng tin q trình thu thập thơng tin từ nguồn liệu theo nhiều định dạng khác nhau, khơng đồng nhất, chí khơng có định dạng cụ thể, sau chuyển thành dạng đồng Dữ liệu sau trích chọn đƣợc lƣu vào sở liệu để xử lý hay đƣợc sử dụng cho hệ thống khai phá liệu Từ liệu, thơng tin đƣợc trích chọn sử dụng kỹ thuật phân tích, khai phá để khám phá mẫu thơng tin có ích, tiềm ẩn liệu Ngày nay, với phát triển công nghệ thông tin, Tin học dần đƣợc ứng dụng rộng rãi nhiều lĩnh vực nhƣ kinh tế, du lịch, thƣơng mại, y tế, ngân hàng mang lại nhiều lợi ích to lớn Nền kinh tế khơng ngừng phát triển, đời sống văn hố - xã hội ngày đƣợc nâng cao du lịch trở thành nhu cầu thiếu sống ngƣời dân, trang web du lịch hàng loạt thông tin tour du lịch nƣớc ngồi nƣớc Tuy nhiên lƣợng thơng tin tour du lịch Internet vô lớn, gây khó khăn cho ngƣời có nhu cầu du lịch việc lựa chọn địa điểm tham quan, lựa chọn công ty cung cấp dịch vụ,… Do vậy, toán đặt cần phải xây dựng hệ thống tìm kiếm tƣ vấn du lịch, giúp ngƣời dùng lựa chọn đƣợc tour du lịch phù hợp với yêu cầu đề Để có hệ thống tìm kiếm tƣ vấn tốt trƣớc tiên ta phải xây dựng đƣợc tập liệu có độ xác cao Cùng với tốn trích chọn thơng tin du lịch văn tiếng Việt Để tiến đến tìm hiểu đƣợc vấn đề trên, em lựa chọn đề tài “Nghiên cứu phương pháp trích chọn thơng tin ứng dụng trích chọn thơng tin du lịch văn Tiếng Việt” làm luận văn tốt nghiệp Thạc sĩ Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 1.2 Mục tiêu đề tài Tìm hiểu phƣơng phƣơng pháp trích chọn thơng tin xây dựng mơ hình giải tốn trích chọn thông tin tour du lịch từ trang thông tin điện tử tiếng Việt Internet 1.3 Đối tƣợng phạm vi nghiên cứu Đối tƣợng nghiên cứu đề tài phƣơng pháp tiếp cận giải tốn trích chọn thơng tin văn tiếng Việt trang thông tin điện tử tiếng Việt mạng Internet lĩnh vực du lịch Phạm vi nghiên cứu đề tài tốn trích chọn thông tin tour du lịch số trang thôn tin điện tử tiếng Việt (website) mạng Internet 1.4 Phƣơng pháp nghiên cứu Phƣơng pháp nghiên cứu đề tài nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết, đề tài tổng hợp kết nghiên cứu phƣơng pháp trích chọn thơng tin từ văn tiếng Việt phục vụ phân tích, thống kê, báo cáo, định Về nghiên cứu thực nghiệm, đề tài xây dựng cài đặt, thử nghiệm mơ hình trích chọn thông tin du lịch từ số trang web du lịch tiếng Việt mạng Internet 1.5 Cấu trúc luận văn Cấu trúc luận văn gồm: mở đầu, bốn chƣơng chính, kết luận tài liệu tham khảo Phần mở đầu: Lý chọn đề tài bố cục luận văn Chương 1: Giới thiệu tổng quan tốn trích chọn thơng tin số lĩnh vực nghiên cứu liên quan Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 47 tour du lịch thuộc tính nhƣ khơng có đầy đủ liệu phụ thuộc vào website Để tiến hành thực nghiệm, với website Bảng 4.3, tác giả lấy ngẫu nhiên 50 viết chứa thông tin tour du lịch đƣợc lọc để thực cơng cụ trích chọn tour du lịch trích chọn thuộc tính tour du lịch Kết trích chọn đƣợc mơ tả Bảng 4.4 sau đây: Bảng 4.4 Kết trích chọn tour du lịch trích chọn thuộc tính STT Tên website Số viết chứa thơng tin tour Số tour đƣợc trích chọn Số tour có thuộc tính đƣợc trích chọn Dulichnamchau 50 47 44 Dulichviet 50 38 33 Dulichachau 50 45 42 Dreamtravel 50 43 41 Dulichhn 50 46 43 Dulichmienbac 50 34 32 Dulichnetviet 50 40 34 Kết thử nghiệm cho thấy, số tour đƣợc trích chọn nhỏ số viết chứa thơng tin tour du lịch số tour có thuộc tính đƣợc trích chọn nhỏ số tour đƣợc trích chọn, nghĩa số tour đƣợc trích chọn khơng trích chọn đƣợc thuộc tính Nguyên nhân lỗi, luật chƣa bao hết trƣờng hợp, website Vấn đề lỗi đƣợc phân tích mục sau Hơn nữa, ta thấy có khác số lƣợng tour đƣợc trích chọn website thiết kế website Có website thiết Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 48 kế theo kiểu List Page nhƣ website dulichnamchau, dulichviet, dulichachau, dulichmienbac, dulichnetviet có website thiết kế theo kiểu Detail Page nhƣ website dreamtravel, dulichhn Trong đó:  List Page: trang chứa vài danh sách đối tƣợng Có hai dạng trang list, trang list bố trí theo chiều ngang chiều dọc  Detail Page: trang giới thiệu đối tƣợng đơn Nó chứa đựng tất thông tin tour du lịch nhƣ: tên tour, mã tour, thời gian, giá tour … [6] Hình 4.4 giao diện kết trích chọn tour du lịch trích chọn thuộc tính Hình 4.4 Kết trích chọn tour du lịch Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 49 Hình 4.5 giao diện tra cứu tour du lịch sau đƣợc trích chọn lƣu vào sở liệu Hình 4.5 Giao diện tra cứu tour du lịch 4.5 Phân tích lỗi 4.5.1 Phân tích lỗi lọc liệu Trong trình phát thông tin tour du lịch, kết Bảng 4.3 lọc liệu hoạt động không tốt số trƣờng hợp Kết phân tích cho thấy trƣờng hợp lọc liệu hoạt động không tốt luật lọc liệu theo thẻ tiêu đề bắt đầu “Tour” “Du lịch” nhƣng số trƣờng hợp thông tin tour lại dạng hình ảnh dạng lựa chọn (nhƣ Hình 4.6) Hoặc luật lọc theo thẻ div từ khóa nhƣ “Mã tour”, “Thời gian”, “Giá tour”… xảy lỗi viết nói dịch vụ khác nhƣ cho thuê xe du lịch hay đặt vé máy bay… (nhƣ Hình 4.7) Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 50 Hình 4.6 Lỗi lọc liệu thông tin dạng lựa chọn Hình 4.7 Lỗi lọc liệu khơng có thơng tin tour du lịch Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 51 4.5.2 Phân tích lỗi q trình trích chọn Trong pha trích chọn thơng tin khả trích chọn thơng tin trang Du Lịch AMI TOUR thấp nhất, tác giả tìm hiểu nguyên nhân thấy nguyên nhân trang Du Lịch AMI TOUR cho kết trích chọn thấp có khơng đồng viết du lịch website này, dẫn đến luật dùng cho website không bao phủ đƣợc tồn liệu Ví dụ: Cùng viết website dulichmienbac.com, nhƣng có viết chứa thơng tin {tên tour, thời gian, giá} Có viết lại chứa đầy đủ thông tin nhƣ {tên tour, thời gian, khởi hành, giá tour, phƣơng tiện, điện thoại, hotline, email} Với website khác, trích chọn làm việc sai viết bị sai tả nên khơng khớp với luật mà tác giả xây dựng Ví dụ: Với luật xác định giá ta có: GIÁ TOUR = + + Trong đó: Tiền tố: “Giá tour:”, “Giá: ”, “Giá từ”, “Giá khuyến mãi”, “Price” Định dạng giá: Dạng số, bao gồm ký tự {0, 1, 2,…, 9, “,”, “.”} Hậu tố: “VNĐ”, “VND/ KHÁCH”, “Đ”, “vnđ / khách” Nhƣng viết nhƣ sau: Trọn gói: 4.200.000 VNĐ, Gia tour: 3.800.000 VNĐ, Gái: 10.450.000 VND… dẫn đến trích chọn khơng trích đƣợc thuộc tính giá tour Tƣơng tự nhƣ với thuộc tính cịn lại 4.6 Một số ứng dụng kết trích chọn tour du lịch Để có báo cáo tổng hợp tƣơng đối đầy đủ số liệu 07 website du lịch nêu trên, với website luận văn thực thu thập liệu (web crawler) 4000 viết, nhƣ sau thu thập liệu ta có 28.000 viết từ 07 website du lịch Kết thúc trình thu thập, lọc liệu, trích Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 52 chọn tour, trích chọn thuộc tính ta thu đƣợc tour du lịch thuộc tính đƣợc lƣu trữ sở liệu phục vụ thống kê, báo cáo 4.6.1 Thống kê theo định danh Sau q trình trích chọn thơng tin từ website, ta thống kê đƣợc số tour đến địa danh du lịch Từ kết thống kê ta có vài nhận xét nhƣ:  Địa danh du lịch đƣợc du khách quan tâm (thể chỗ có nhiều tour)  Địa danh mạnh website Do số lƣợng địa danh du lịch nhiều nên tác giả lựa chọn số địa danh điển hình Bảng 4.5 Bảng thống kê số tour theo địa danh du lịch WEBSITE Hồ Hà Hạ Đà Hội Đà Thái SaPa Huế Chí Singapore Malaysia Nội Long Nẵng An Lạt Lan Minh Dulichnamchau 998 467 Dulichviet 66 190 118 219 85 188 27 244 110 3112 489 652 1104 390 375 329 4562 488 1140 1682 Dulichachau 56 48 69 41 40 37 21 15 12 15 Dreamtravel 24 20 10 10 12 13 15 12 11 Dulichhn 81 11 15 16 8 16 Dulichmienbac 312 90 38 6 25 18 45 37 Dulichnetviet 19 16 11 15 18 14 82 59 49 1503 1877 Tổng số 58 4641 1144 855 1377 596 662 483 4834 670 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 53 Hình 4.8 Biểu đồ thống kê số tour theo địa danh du lịch Nhận xét  Theo Hình 4.8 ta thấy địa danh nƣớc có số lƣợng tour nhiều là: Thành phố Hồ Chí Minh (tổng số tour 4834), Hà Nội (4641 tour), Huế (1377 tour) địa danh đƣợc mạng thông tin du lịch điện tử quốc tế Touropia (touropia.com) bình chọn địa điểm khơng thể bỏ qua tới Việt Nam địa điểm quốc tế có lƣợng tour nhiều Malaysia (1877 tour) Singapore (1503 tour) địa điểm đƣợc Huffingtonpost xếp vào danh sách điểm đến Đơng Nam Á “có thể thay đổi sống bạn”  Bảng 4.5 cho thấy website Du Lịch Việt, Du lịch Năm Châu có số lƣợng tour nhiều hẳn website du lịch khác qua ta nhận Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 54 định website có uy tín, lựa chọn tour du lịch website đƣợc cung cấp dịch vụ tốt  Qua Hình 4.8 ta biết đƣợc địa điểm mạnh website Ví dụ nhƣ trang Du Lịch Việt, số tour đến thành phố Hồ Chí Minh 4562 tour lớn gấp 326 lần so với trang Du Lịch Nét Việt, muốn đến địa điểm Hồ Chí Minh chọn tour trang Du Lịch Việt có giá hợp lý dịch vụ tốt 4.6.2 Thống kê theo giá tour Sau trích chọn thơng tin tour, ta thống kê đƣợc số lƣợng tour với mức giá cụ thể Từ kết có vài nhận xét nhƣ:  Giá tiền phổ biến tour thuộc website bao nhiêu?  Nên lựa chọn tour thuộc website cho phù hợp với số tiền có? Bảng 4.6 Bảng thống kê số tour theo giá Tên website Liên Dƣới Từ - Từ - Từ - 10 Từ 10 - 20 Từ 20 - 30 Trên 30 hệ (triệu) (triệu) (triệu) (triệu) (triệu) (triệu) (triệu) Dulichnamchau 522 44 141 565 115 178 25 Dulichviet 553 55 129 488 878 924 246 835 Dulichachau 126 25 49 123 40 17 Dreamtravel 46 11 17 99 43 Dulichhn 28 25 119 236 15 1 Dulichmienbac 24 46 236 110 10 1 Dulichnetviet 35 16 57 129 36 118 26 1334 222 748 1750 1135 1257 297 873 Tổng số Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 55 Hình 4.9 Biểu đồ thống kê số tour theo giá tiền Nhận xét  Hình 4.9, ta thấy mức giá có nhiều tour từ - triệu (1750 tour)  Bảng 4.6 cho ta biết số tour mức giá website Từ kết Bảng 4.6 ta biết đƣợc website mạnh tour mức Ví dụ với website Du Lịch AMI TOUR tour mức từ 1- triệu tour mạnh Nếu ta có số tiền khoảng từ 1- triệu nên chọn tour trang 4.6.3 Thống kê theo thời gian Từ kết q trình trích chọn thông tin, ta thống kê đƣợc thời gian du lịch phổ biến Qua có nhận định nhƣ: Số lƣợng tour du lịch khoảng thời gian bao nhiêu? Thời gian phổ biến tour ngày? Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 56 Bảng 4.7 Bảng thống kê số tour theo thời gian du lịch Tên website 10 ngày ngày ngày ngày Dulichnamchau 67 272 416 379 122 23 Dulichviet 123 518 565 1162 1816 1023 871 338 378 432 Dulichachau 83 118 169 185 158 80 63 73 43 43 Dreamtravel 85 69 61 82 71 42 26 46 15 16 Dulichhn 22 33 21 34 17 11 11 Dulichmienbac 85 118 101 114 53 17 33 Dulichnetviet 52 52 100 325 352 168 370 105 51 57 517 1180 1433 2548 2956 1599 1753 692 510 575 Tổng số 646 489 258 Hình 4.10 Biểu đồ thống kê số tour theo thời gian Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 57 Nhận xét  Từ Hình 4.10 ta thấy khoảng thời gian có nhiều tour ngày (2956 tour) ngày (2548 tour)  Bảng 4.7 cho ta biết số tour khoảng thời gian website Từ kết Bảng 4.7 ta biết đƣợc website mạnh tour khoảng thời gian Ví dụ với website Du Lịch Năm Châu tour khoảng ngày (416 tour), ngày (646 tour), ngày (489 tour) tour mạnh 4.7 Kết luận chƣơng Chƣơng trình bày kết thử nghiệm mơ hình trích chọn thơng tin tour du lịch 07 website du lịch đƣợc chọn Bao gồm công việc sau: 1) Sử dụng công cụ (web crawler) thu thập viết chứa thông tin tour du lịch từ 07 website 2) Lọc viết chứa thơng tin tour du lịch 3) Trích chọn tour du lịch từ viết theo tập luật đƣợc định nghĩa trƣớc 4) Trích chọn thuộc tính tour du lịch theo tập luật đƣợc định nghĩa trƣớc 5) Lƣu kết trích chọn vào sở liệu 6) Lập số báo cáo, thống kê phục vụ cơng tác quản lý Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 58 KẾT LUẬN Những kết luận văn Luận văn đạt đƣợc mục tiêu đề ban đầu: 1) Tìm hiểu tổng quan phƣơng pháp trích chọn thơng tin, tìm hiểu tốn trích chọn thơng tin tour du lịch từ website tiếng Việt, đƣa phƣơng pháp, mơ hình giải tốn 2) Thử nghiệm mơ hình trích chọn thơng tin tour du lịch 07 website du lịch, lập số báo cáo, thống kê phục vụ công tác quản lý, điều hành Một số hạn chế Luận văn số hạn chế nhƣ sau: 1) Khơng tự động trích chọn thơng tin đƣa vào viết thuộc website 2) Tập luật đƣợc xây dựng thủ cơng, khó bao phủ tới toàn miền liệu Điều dẫn tới tập luật bỏ sót liệu có liên quan tới miền liệu 3) Kết lọc liệu chƣa cao, bỏ qua nhiều viết chứa thông tin du lịch Định hƣớng tƣơng lai Định hƣớng nghiên cứu thời gian tới luận văn tiếp tục hoàn thiện phát triển mơ hình trích chọn thơng tin du lịch văn tiếng Việt, tập trung vào phƣơng pháp trích chọn tự động, từ thơng tin trích chọn đƣợc xây dựng đƣợc hệ thống tƣ vấn du lịch dự đoán xu hƣớng du lịch Do hạn chế thời gian kiến thức khó khăn trình thu thập tiền xử lý liệu nên luận văn chƣa sử dụng phƣơng pháp tự động Vì vậy, nghiên cứu tập trung vào việc sử dụng phƣơng pháp tự động trích chọn phát triển ứng dụng Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 59 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web, Nhà xuất giáo dục Việt Nam Tài liệu tiếng Anh [2] Alexander Yates Information Extraction from the Web: Techniques and Applications Phd thesis, University of Washington, 2007 [3] Adam Berger The Improved Iterative Scaling Algorithm: A gentle Introduction School of Computer Science, Carnegie Mellon University [4] A McCallum, D Freitag, and F Pereia Maximum entropy markov models for information extraction and segmentation In Proc Interational Conference on Machine Learning, 2000 [5] A Rauber, D Merkl, and M Dittenbach: The Growing Hierarchical SelfOrganizing Map: Exploratory Analysis of High-Dimensional Data in: IEEE Transactions on Neural Networks, Vol 13, No 6, pp 1331-1341, IEEE, November 2002 [6] Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html, December, 2006 [7] F Ciravegna, "Adaptive information extraction from text by rule induction and generalisation," in Proceedings of the 17th International Joint Conference on Artificial Intelligence (IJCAI2001), 2001 [8] I Muslea, S Minton, and C A Knoblock, "A hierarchical approach to wrapper induction," in Proceedings of the Third International Conference on Autonomous Agents, Seattle, WA, 1999 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 60 [9] J Blitzer, R McDonald, and F Pereira, "Domain adaptation with structural correspondence learning," in Proceedings of the Empirical Methods in Natural Language Processing (EMNLP), 2006 [10] Michael Dittenbach, Andreas Rauber, Dieter Merkl, Uncovering Hierarchical Struture in Data Using the Growing Hierarchical SelfOrganizing Map, Institute of Software Technology, Vienna University of Technology, Vienna Austria, 24 July 2002 [11] Minh-Tien Nguyen and Tri-Thanh Nguyen “Extraction of Disease Events for a Real-time Monitoring System”, SoICT'2013, Da Nang, Vietnam, Decem- ber 5-6, 2013 [12] M E Calif and R J Mooney, "Relational learning of pattern-match rules for information extraction," in Proceedings of the Sixteenth Nation Conference on Artificial Intelligence (AAAI-99), pp 328-334, July 1999 [13] N Kushmerick, "Wrapper induction for information extraction," PhD thesis, University of Washington, 1997 [14] Scott Miller, Heidi Fox, et al A Novel use of statistical parsing to extract information from Text, In 6th Applied Natural Language Processing Conference, 2000 [15] S Soderland, "Learning information extraction rules for semi-structured and free text," Machine Learning, vol 34, 1999 [16] Sunita Sarawagi (2008) Information Extraction [17] Teuvo Kohonen, et al Self-Organizing Maps, Third edition, Springer, 2002 [18] Yi-fang Brook Wu, Quanzhi Li Document keyphrases as subject metadata: incorporating document key concepts in search results Inf Retrieval -Springer 2008 Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn 61 [19] Zhou GuoDong, Su Jian, et al Exploring Various Knowledge in Relation Extraction Proceedings of the 43rd Annual Meeting of ACL, pages 427 - 434, Association for computational linguitics, 2005 [20] http://www.w3.org/DOM/ [21] http://www.w3.org/TR/xpath [22] http://www.dcs.bbk.ac.uk/~ptw/teaching/ssd/toc.html Số hóa Trung tâm Học liệu – ĐHTN http://www.ltc.tnu.edu.vn ... tốn trích chọn thơng tin du lịch văn tiếng Việt Để tiến đến tìm hiểu đƣợc vấn đề trên, em lựa chọn đề tài ? ?Nghiên cứu phương pháp trích chọn thơng tin ứng dụng trích chọn thơng tin du lịch văn Tiếng. .. tốn trích chọn thơng tin du lịch Bài tốn ? ?Trích chọn thơng tin du lịch? ?? phần tốn trích chọn thơng tin, ta sử dụng phƣơng pháp trích chọn miền liệu du lịch Mục tiêu tốn trích chọn thơng tin du lịch. .. THƠNG TIN VÀ BÀI TỐN TRÍCH CHỌN THƠNG TIN DU LỊCH Chƣơng giới thiệu tổng quan trích chọn thơng tin tốn trích chọn thơng tin du lịch văn tiếng Việt 1.1 Tổng quan trích chọn thơng tin Trích chọn

Ngày đăng: 26/03/2021, 14:02

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan