1. Trang chủ
  2. » Tất cả

1.1 Noi dung luan van_v0.3.1

70 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá MỤC LỤC MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ CHƯƠNG MỞ ĐẦU 1.1 Lý chọn đề tài 1.2 Mục đích nghiên cứu .9 1.3 Nội dung nghiên cứu 10 1.4 Bố cục luận văn 11 1.5 Các kết đạt luận văn 11 1.6 Ý nghĩa luận văn 12 CHƯƠNG KHÁI QT VỀ TRÍCH RÚT THƠNG TIN 13 2.1 Bài tốn trích rút thơng tin 13 2.2 Trích rút thông tin từ môi trường Web 14 2.2.1 Hệ thống KnowItAll 16 2.2.2 Hệ thống TextRunner 26 2.2.3 So sánh KnowItAll TextRunner 33 CHƯƠNG MƠ TẢ BÀI TỐNVÀ PHƯƠNG PHÁP GIẢI QUYẾT 35 3.1 Mơ tả tốn 35 3.1.1 u cầu trích rút thơng tin doanh nghiệp cung cấp dịch vụ thương mại điện tử 35 3.1.2 u cầu trích rút thơng tin người tiêu dùng thương mại điện tử 37 3.2 Phương pháp giải .39 Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá 3.2.1 Trích rút thơng tin bán cấu trúc 40 3.2.2 Trích rút thơng tin phi cấu trúc 43 CHƯƠNG THIẾT KẾ VÀ XÂY DỰNG HỆ THỐNGTRÍCH RÚT VÀ ỨNG DỤNG VÀO CÁC DỊCH VỤ DỰA TRÊN GIÁ 48 4.1 Thiết kế hệ thống 48 4.1.1 Kiến trúc hệ thống 48 4.1.2 Nền tảng công nghệ 51 4.2 Chức hệ thống .53 4.2.1 Phân hệ trích rút thông tin 54 4.2.2 Phân hệ FrontEnd 54 4.2.3 Phân hệ BackEnd 62 4.2.4 Phân hệ Mobile 64 4.3 Đánh giá kết trích rút 66 CHƯƠNG KẾT QUẢ VÀ BÀN LUẬN 67 5.1 Các kết đạt luận văn 67 5.1.1 Về lý thuyết 67 5.1.2 Về thực nghiệm 67 5.2 Hướng nghiên cứu tiếp 68 KẾT LUẬN VÀ KIẾN NGHỊ 69 TÀI LIỆU THAM KHẢO 70 Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá LỜI CAM ĐOAN Tôi xin cam đoan, luận văn tốt nghiệp Thạc sỹ cơng trình nghiên cứu thân hướng dẫn PGS TS Lê Thanh Hương Các kết luân văn tốt nghiệp trung thực, khơng phải chép tồn văn cơng trình khác Tơi xin chịu hồn tồn trách nhiệm nội dung luận văn Tác giả Nguyễn Hồng Nghi Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá LỜI CẢM ƠN Luận văn hoàn thành trường Đại học Bách khoa Hà Nội Để hoàn thành luận văn này, tác giả nhận bảo tận tình, yêu cầu nghiêm khắc PGS.TS Lê Thanh Hương, người truyền đạt nhiều kiến thức quí báu kinh nghiệm nghiên cứu khoa học suốt thời gian tác giả theo học nghiên cứu Tác giả xin chân thành gửi lời biết ơn đến Ban lãnh đạo Viện Công nghệ thông tin Truyền thông, Viện Đào tạo Sau đại học Bộ môn Hệ thống Thông tin, thuộc trường Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi q trình học tập, nghiên cứu hồn thành luận văn Với lực hạn chế thân nguyên nhân chủ quan, khách quan, luận văn khơng tránh thiếu sót Tác giả mong góp ý q thầy cơ, bạn bè đồng nghiệp để luận văn hoàn thiện Tác giả Nguyễn Hồng Nghi Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Ký hiệu Ý nghĩa IE Information Extraction – Trích rút thông tin CSDL Cơ sở liệu WIE Web Information Extraction – Trích rút thơng tin từ mơi trường Web PMI-IR Pointwise Mutual Information for Information Retrieval OIE Open Information Extraction – Trích rút thơng tin mở NBC Nạve Bayes Classifier – Bộ phân loại Naïve Bayes RE Regular Expression – Biểu thức quy SOA Service Oriented Architect – Kiến trúc hướng dịch vụ Ứng dụng trích rút thông tin xây dựng dịch vụ dựa giá DANH MỤC CÁC BẢNG Bảng Giả ngôn ngữ KnowItAll .18 Bảng Một luật trích rút tạo thay tên lớp “Thành-Phố” số nhiều lớp có nhãn “thành phố” thành mẫu luật chung .19 Bảng Ví dụ vị từ cho lĩnh vực địa lý lĩnh vực phim 21 Bảng Tám mẫu trích rút chung sử dụng cho luật trích rút đơn, hai mẫu cho mẫu trích rút nhị phân .22 Bảng Một ví dụ luật trích rút ngơi để tìm CEO cơng ty 24 Bảng Ví dụ đặc trưng sử dụng Bộ phân loại tự giám sát TextRunner 30 Bảng Ví dụ ràng buộc đường cú pháp trích rút quan hệ 31 Bảng Mười vị từ sử dụng so sánh KnowItAll TextRunner .33 Bảng So sánh kết thử nghiệm TextRunner KnowItAll 34 Bảng 10 Kết trích rút 66 Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình Mơ hình trích rút thơng tin 14 Hình Biểu đồ trình tự thành phần KnowItAll 17 Hình Trình tự xử lý thành phần TextRunner 29 Hình Mơ hình nghiệp vụ theo dõi giá truyền thống doanh nghiệp thương mại điện tử 36 Hình Nhu cầu giải toán doanh nghiệp .37 Hình Nhu cầu theo dõi giá người tiêu dùng 38 Hình Nhu cầu người tiêu dùng thông tin giá 39 Hình Thơng tin trang Web doanh nghiệp thương mại điện tử 41 Hình Cơng cụ biểu thức quy RegexBuddy 42 Hình 10 Trích rút thơng tin giá OIE 43 Hình 11 Quá trình tiền xử lý .44 Hình 12 Bộ trích rút duyệt lần 45 Hình 13 Bộ phân loại tự giám sát 46 Hình 14 Bộ đánh giá dựa dư thừa 46 Hình 15 Lịch sử phát triển kiến trúc ứng dụng 48 Hình 16 Kiến trúc hệ thống .49 Hình 17 Mơ hình triển khai hệ thống 50 Hình 18 Nền tảng công nghệ hệ thống 51 Hình 19 Chức hệ thống 53 Hình 20 Đăng ký tài khoản thức hệ thống .55 Hình 21 Đăng nhập vào hệ thống 55 Hình 22 Trang chủ hệ thống .56 Hình 23 Thơng tin sản phẩm .56 Hình 24 Thơng tin sản phẩm biểu đồ so sánh giá nhà cung cấp 57 Hình 25 Thông tin sản phẩm biểu biến động giá nhà cung cấp 57 Hình 26 Gian hàng ảo nhà cung cấp 58 Ứng dụng trích rút thông tin xây dựng dịch vụ dựa giá Hình 27 Bản đồ nhà cung cấp hệ thống .58 Hình 28 Diễn đàn trao đổi thông tin 59 Hình 29 Thơng tin topic diễn đàn 59 Hình 30 Quản lý thơng tin tài khoản cá nhân 60 Hình 31 Đăng ký nhận biến động giá sản phẩm .61 Hình 32 Bảng quản lý doanh nghiệp 62 Hình 33 Phân hệ BackEnd 63 Hình 34 Cấu hình thơng tin sản phẩm .64 Hình 35 Thơng tin đợt giảm giá .65 Hình 36 Xem thông tin chi tiết sản phẩm 65 Hình 37 Tìm sản phẩm giá tốt 65 Hình 38 Tích hợp với mạng xã hội Facebook 65 Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá CHƯƠNG MỞ ĐẦU 1.1 Lý chọn đề tài Trong năm qua, nghiên cứu trích rút thơng tin từ môi trường Web đạt nhiều thành tựu đáng kể Sự đời hàng loạt phương pháp trích rút mở hội thách thức cho việc phát triển hệ thống ứng dụng cho toán cụ thể Đặc biệt, chúng mở hội để tạo hệ thống dựa tri thức (knowledge-based) mà độc lập với miền tri thức Tuy nhiên, điều đặt nhiều thử thách kỹ thuật để vượt qua Trong thời đại bùng nổ cơng nghệ thơng tin nói chung thương mại điện tử nói riêng, hàng loạt trang web, diễn đàn thương mại điện tử mở với số lượng ngày tăng Trước lượng liệu khổng lồ thông tin giá sản phẩm, người tiêu dùng khó khăn để lựa chọn sản phẩm với giá tốt hàng loạt trang web, diễn đàn Bên cạnh đó, doanh nghiệp tốn nhiều thời gian, công sức tiền bạc việc theo dõi thông tin giá biến động không ngừng đối thủ cạnh tranh để đưa chiến lược giá cho doanh nghiệp nhằm nâng cao vị cạnh tranh Thông tin giá trang web, diễn đàn tổ chức đa dạng từ có cấu trúc, bán cấu trúc đến phi cấu trúc, việc thu thập thông tin giá cách tự động khó khăn với doanh nghiệp người tiêu dùng Đứng trước thực trạng đó, tác giả chọn đề tài với mong muốn nghiên cứu, xây dựng giải pháp trích rút thơng tin giá cho dịch vụ thương mại điện tử dựa thơng tin giá 1.2 Mục đích nghiên cứu Thơng qua nghiên cứu đề tài “Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá”, tác giả mong muốn đạt kết quả: Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá  Nghiên cứu phương pháp trích rút thơng tin nói chung trích rút thơng tin từ mơi trường Web nói riêng từ lựa chọn phương pháp phù hợp với toán  Xây dựng giải pháp trích rút thơng tin giá từ trang Web, diễn đàn thương mại điện tử  Xây dựng giải pháp cho người tiêu dùng dễ dàng lựa chọn sản phẩm quan tâm với giá tốt Bên cạnh đó, cung cấp dịch vụ tiện ích khác dựa thông tin giá  Xây dựng giải pháp cho doanh nghiệp thương mại điện tử dễ dàng theo dõi biến động giá đối thủ, nhà cung cấp khác để hỗ trợ doanh nghiệp đưa chiến lược giá cạnh tranh Đối tượng nghiên cứu đề tài tốn trích rút thơng tin liệu có cấu trúc, bán cấu trúc phi cấu trúc Phạm vi nghiên cứu luận văn tập trung vào việc trích rút thực thể quan hệ chúng (quan hệ giá cả) từ văn phi cấu trúc thuộc lĩnh vực thương mại điện tử môi trường Web Các tập liệu thử nghiệm thu thập từ trang web, diễn đàn thương mại điện tử Do kết việc xử lý ngôn ngữ Tiếng Việt đạt nhiều thành tựu với độ xác cao, nên tác giả sử dụng lại kết số tác giả vấn đề liên quan 1.3 Nội dung nghiên cứu Trong luận văn này, tác giả nghiên cứu phương pháp trích rút thơng tin từ môi trường Web như: phương pháp KnowItAll; phương pháp TextRunner Trong đó, tập trung nghiên cứu kỹ phương pháp TextRunner để ứng dụng vào tốn trích rút thơng tin giá Bên cạnh đó, tác giả nghiên cứu kiến trúc, mơ hình hệ thống, phương pháp kỹ thuật để xây dựng hệ thống khai thác thông tin giá 10 ... RÚT VÀ ỨNG DỤNG VÀO CÁC DỊCH VỤ DỰA TRÊN GIÁ 48 4.1 Thiết kế hệ thống 48 4 .1.1 Kiến trúc hệ thống 48 4.1.2 Nền tảng công nghệ 51 4.2 Chức hệ thống ... trích rút 66 CHƯƠNG KẾT QUẢ VÀ BÀN LUẬN 67 5.1 Các kết đạt luận văn 67 5 .1.1 Về lý thuyết 67 5.1.2 Về thực nghiệm 67 5.2 Hướng nghiên cứu tiếp ... luân văn tốt nghiệp trung thực, chép tồn văn cơng trình khác Tơi xin chịu hồn tồn trách nhiệm nội dung luận văn Tác giả Nguyễn Hồng Nghi Ứng dụng trích rút thơng tin xây dựng dịch vụ dựa giá LỜI

Ngày đăng: 12/10/2018, 15:45

Xem thêm:

TỪ KHÓA LIÊN QUAN

w