1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các kỹ thuật rút trích thông tin web và phát triển hệ thống tư vấn tuyển sinh tự động

81 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN NGHIÊN CỨU CÁC KỸ THUẬT RÚT TRÍCH THƠNG TIN WEB VÀ PHÁT TRIỂN HỆ THỐNG TƯ VẤN TUYỂN SINH TỰ ĐỘNG TP.Hồ Chí Minh, Tháng 04/2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN NGHIÊN CỨU CÁC KỸ THUẬT RÚT TRÍCH THƠNG TIN WEB VÀ PHÁT TRIỂN HỆ THỐNG TƯ VẤN TUYỂN SINH TỰ ĐỘNG Chủ nhiệm đề tài: Nguyễn Thị Bích Mi Khoa: Công nghệ thông tin Các thành viên: Phan Thị Tường Vi Người hướng dẫn: ThS.Dương Hữu Thành TP.Hồ Chí Minh, Tháng 04/2018 Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành MỤC LỤC NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN DANH MỤC CÁC THUẬT NGỮ TIẾNG ANH VÀ CHỮ VIẾT TẮT .4 DANH MỤC HÌNH DANH MỤC BẢNG BIỂU CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Giới thiệu tổng quan 1.2 Các nghiên cứu liên quan 1.3 Lý chọn đề tài 1.4 Mục tiêu phương pháp nghiên cứu 1.4.1 Mục tiêu nghiên cứu 1.4.2 Phương pháp nghiên cứu 1.5 Đối tượng phạm vi nghiên cứu 1.6 Đóng góp khoa học đề tài 1.7 Bố cục báo cáo CHƯƠNG 2: HỆ THỐNG TƯ VẤN TUYỂN SINH TỰ ĐỘNG 2.1 Giới thiệu 2.2 Cơ sở lý thuyết 2.2.1 Rút trích liệu 2.2.2 Xử lý ngôn ngữ tự nhiên 24 2.3 Full text search 42 2.3.1 Tính độ tương đồng câu sử dụng độ đo Cosine 46 2.4 Kiến trúc hệ thống 52 2.5 Cài đặt 53 2.5.1 Phần mềm: Yêu cầu phần mềm 53 2.5.2 Cấu trúc chương trình 53 CHƯƠNG 3: THỰC NGHIỆM, KẾT LUẬN, HƯỚNG PHÁT TRIỂN 55 3.1 Thực nghiệm ứng dụng 55 3.1.1 Thiết lập môi trường (Virtual Environment) 55 3.1.2 Bảng thư packages dùng hệ thống 55 3.1.3 Rút trích liệu 56 3.1.4 Tách từ 61 3.1.5 Đánh mục tìm kiếm 63 2|Trang Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành 3.1.6 Tính độ tương đồng 66 3.2 Kết thực nghiệm 67 3.3 Kết đạt 68 3.4 Những vấn đề tồn 69 3.5 Hướng phát triển 69 TÀI LIỆU THAM KHẢO 70 3|Trang Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành DANH MỤC CÁC THUẬT NGỮ TIẾNG ANH VÀ CHỮ VIẾT TẮT STT Kí hiệu NLP NLTK Natural Language Toolkit: Bộ công cụ ngôn ngữ tự nhiên XML Extensible MarkupLanguage: ngôn ngữ đánh dấu mở rộng XSL Extensible Stylesheet Language: ngôn ngữ mở rộng chuyển đổi file XML HTML HyperText Markup Language: ngôn ngữ đánh dấu siêu văn TF Term Frequency : Tần số văn IDF Inverse Document Frequency: Nghịch đảo tần số văn Regex Database Cơ sở liệu 10 Collection Bộ sưu tập 11 Document Tài liệu 12 Python Ngôn ngữ lập trình Python 13 Ubuntu Hệ điều hành ubuntu 14 Windows 15 Project | Trang Diễn giải Natural Language Processing : Xử lý ngôn ngữ tự nhiên Regular expression: Biểu thức quy Hệ điều hành Windows Dự án Nghiên cứu khoa học 16 GVHD: ThS.Dương Hữu Thành Virtual Mơi trường ảo Environment 17 Crawl 18 Package Gói 19 Requests Yêu cầu 20 Website Trang web/ Trang mạng 21 Url 22 Response 5|Trang Thu thập thông tin Uniform Resource Locator: Định vị Tài nguyên thống Trả Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành DANH MỤC HÌNH Hình 2.1 Cách lấy XPath Hình 2.2 Sao chép XPath từ trình duyệt Chrome 10 Hình 2.3 Các quy tắc xác định CSS Selector 11 Hình 2.4: Một số ví dụ module re python 16 Hình 2.5: Những thành phần cách thức hoạt động Scrapy framework 17 Hình 2.6: Cấu trúc scrapy project 19 Hình 2.7: Các phần selenium 20 Hình 2.8: Ví dụ sử dụng selenium 23 Hình 2.9: Kết thực ví dụ sử dụng selenium 23 Hình 2.10: Mơ hình Parse tree 26 Hình 2.11: Ví dụ Information Extraction 27 Hình 2.12: Ví dụ NER 27 Hình 2.13: Ví dụ Sentiment Analysis 28 Hình 2.14: Ví dụ Bag of Words 28 Hình 2.15: Ví dụ Latent Dirichlet Allocation 29 Hình 2.16: Chính sách mà package Book nltk cung cấp 33 Hình 2.17: Tìm từ văn phương thức concordance() 34 Hình 2.18: Tìm từ xuất ngữ cảnh tương tự 34 Hình 2.19: Hiển thị sentence 34 Hình 2.20: Lấy tần xuất từ 35 Hình 2.21: Hiển thị biểu đồ tần xuất 35 Hình 2.22: Biểu đồ thể tần xuất 30 từ dùng nhiều text1 36 Hình 2.23: Sử dụng bigtams 36 Hình 2.24: Lấy collocations 37 Hình 2.25: Lấy stop words tiếng Anh 37 Hình 2.26: Lọc stop words 38 Hình 2.27: Kết lọc stop words 38 Hình 2.28: Sentence Tokenization nltk 38 Hình 2.29: Word Tokenization nltk 39 Hình 2.30: POS tagging nltk 39 Hình 2.31: NE Chunk nltk 39 Hình 2.32: Parse tree 39 Hình 2.33: Phương thức word_sent under the sea 40 Hình 2.34: Phương thức pos_tag under the sea 40 Hình 2.35: Phương thức chunk under the sea 41 Hình 2.36: Phương thức ner under the sea 41 Hình 2.37: Phương thức classify under the sea 41 Hình 2.38: Tạo Schema 44 Hình 2.39: Tạo đối tượng index 44 Hình 2.40: Lưu document vào mục 44 Hình 2.41: tạo đối tượng Searcher 45 6|Trang Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành Hình 2.42: Đối tượng truy vấn trực tiếp “apple and bear” 45 Hình 2.43: Bộ phân tích truy vấn QueryParser 45 Hình 2.44: Bộ phân tích truy vấn QueryParser kết nối thuật ngữ nhóm 45 Hình 2.45: Đối tượng Results 46 Hình 2.46: Mơ hình truy vấn vector 47 Hình 2.47: Kiến trúc hệ thống 52 Hình 2.48: Mơ hình chương trình tư vấn tuyển sinh tự động 53 Hình 3.1: Trang web hỏi đáp tuyển sinh 57 Hình 3.2: Trang web bigschool 58 Hình 3.3: Mơ hình rút trích liệu từ trang web 59 Hình 3.4: Dữ liệu trình tiền xử lý 60 Hình 3.5: Dữ liệu rút trích 60 Hình 3.6: Dữ liệu rút trích database 61 Hình 3.7: Mơ hình thực tách từ cho liệu rút trích 61 Hình 3.8: Thực tách từ 62 Hình 3.9: Dữ liệu tách từ 63 Hình 3.10: Mơ hình đánh mục 63 Hình 3.11: Thư mục lưu trữ mục 64 Hình 3.12: Mơ hình hoạt động tìm kiếm 64 Hình 3.13: Danh sách stop word từ vựng 65 Hình 3.14: Kết thực tìm kiếm 66 Hình 3.15: Kết thực tính độ tương đồng 67 7|Trang Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành DANH MỤC BẢNG BIỂU Bảng Một số pattern sử dụng python 13 Bảng Một số flags sử dụng python 14 Bảng Một số phương thức sử dụng chủ yếu module re python 15 Bảng 4: Các phương thức định vị phần tử selenium 22 Bảng 5: Thuật ngữ xử lý ngôn ngữ tự nhiên 31 Bảng 6: Ví dụ từ kho liệu Reuters 48 Bảng 7: Bảng số liệu thành phần để tính Cosine 50 Bảng 8: ác packages sử dụng hệ thống 56 Bảng 9: Collection AnswerQuestion 60 Bảng 10: Collection WordSegmentation 62 Bảng 11: Thử nghiệm với câu truy vấn 68 8|Trang BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI Thông tin chung: - Tên đề tài: Nghiên cứu kỹ thuật rút trích thơng tin web phát triển hệ thống tư vấn tuyển sinh tự động - Sinh viên thực hiện: Nguyễn Thị Bích Mi - Lớp: DH14TH04 Khoa: CNTT Năm thứ: Số năm đào tạo: - Người hướng dẫn: ThS.Dương Hữu Thành Mục tiêu đề tài: xây dựng hệ thống tư vấn tuyển sinh tự động với độ chính xác cao dựa liệu rút trích tự động từ trang web Tính sáng tạo: Bổ xung stop words tiếng Việt Kết nghiên cứu: –Rút trích liệu từ trang web –Tách từ tiếng Việt –Tiền xử lý liệu rút trích –Đánh mục tìm kiếm –Tính độ tương đồng hai văn Đóng góp mặt kinh tế - xã hội, giáo dục đào tạo, an ninh, quốc phòng khả áp dụng đề tài: Nếu xây dựng hệ thống thành công rút ngắn thời gian công sức cho người dùng phải chờ đợi câu trả lời, tổng hợp thông tin từ nguồn khác giúp người dùng dễ theo dõi Hỗ trợ định hướng lựa chọn ngành nghề học sinh phổ thông đặc biệt lớp 12 Công bố khoa học sinh viên từ kết nghiên cứu đề tài (ghi rõ tên tạp chí có) nhận xét, đánh giá sở áp dụng kết nghiên cứu (nếu có): Ngày tháng năm Sinh viên chịu trách nhiệm thực đề tài (ký, họ tên)

Ngày đăng: 11/10/2023, 20:52

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w