1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các kỹ thuật rút trích thông tin web và phát triển hệ thống tư vấn tuyển sinh tự động nghiên cứu khoa học

81 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 4,35 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN NGHIÊN CỨU CÁC KỸ THUẬT RÚT TRÍCH THƠNG TIN WEB VÀ PHÁT TRIỂN HỆ THỐNG TƯ VẤN TUYỂN SINH TỰ ĐỘNG TP.Hồ Chí Minh, Tháng 04/2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC SINH VIÊN NGHIÊN CỨU CÁC KỸ THUẬT RÚT TRÍCH THƠNG TIN WEB VÀ PHÁT TRIỂN HỆ THỐNG TƯ VẤN TUYỂN SINH TỰ ĐỘNG Chủ nhiệm đề tài: Nguyễn Thị Bích Mi Khoa: Công nghệ thông tin Các thành viên: Phan Thị Tường Vi Người hướng dẫn: ThS.Dương Hữu Thành TP.Hồ Chí Minh, Tháng 04/2018 Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành MỤC LỤC NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN DANH MỤC CÁC THUẬT NGỮ TIẾNG ANH VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH DANH MỤC BẢNG BIỂU .8 CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI .1 1.1 Giới thiệu tổng quan 1.2 Các nghiên cứu liên quan 1.3 Lý chọn đề tài 1.4 Mục tiêu phương pháp nghiên cứu 1.4.1 Mục tiêu nghiên cứu .5 1.4.2 Phương pháp nghiên cứu 1.5 Đối tượng phạm vi nghiên cứu 1.6 Đóng góp khoa học đề tài 1.7 Bố cục báo cáo CHƯƠNG 2: HỆ THỐNG TƯ VẤN TUYỂN SINH TỰ ĐỘNG 2.1 Giới thiệu 2.2 Cơ sở lý thuyết 2.2.1 Rút trích liệu 2.2.2 Xử lý ngôn ngữ tự nhiên .24 2.3 Full text search 42 2.3.1 Tính độ tương đồng câu sử dụng độ đo Cosine 46 2.4 Kiến trúc hệ thống 52 2.5 Cài đặt 53 2.5.1 Phần mềm: Yêu cầu phần mềm 53 2.5.2 Cấu trúc chương trình 53 CHƯƠNG 3: THỰC NGHIỆM, KẾT LUẬN, HƯỚNG PHÁT TRIỂN 55 3.1 Thực nghiệm ứng dụng 55 3.1.1 Thiết lập môi trường (Virtual Environment) 55 3.1.2 Bảng thư packages dùng hệ thống 55 3.1.3 Rút trích liệu 56 3.1.4 Tách từ 61 3.1.5 Đánh mục tìm kiếm 63 2|Trang Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành 3.1.6 Tính độ tương đồng 66 3.2 Kết thực nghiệm 67 3.3 Kết đạt 68 3.4 Những vấn đề tồn 69 3.5 Hướng phát triển 69 TÀI LIỆU THAM KHẢO 70 3|Trang GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học DANH MỤC CÁC THUẬT NGỮ TIẾNG ANH VÀ CHỮ VIẾT TẮT STT Kí hiệu Diễn giải NLP NLTK Natural Language Toolkit: Bộ công cụ ngôn ngữ tự nhiên XML Extensible MarkupLanguage: ngôn ngữ đánh dấu mở rộng XSL Extensible Stylesheet Language: ngôn ngữ mở rộng chuyển Natural Language Processing : Xử lý ngôn ngữ tự nhiên đổi file XML HTML HyperText Markup Language: ngôn ngữ đánh dấu siêu văn TF Term Frequency : Tần số văn IDF Inverse Document Frequency: Nghịch đảo tần số văn Regex Database Cơ sở liệu 10 Collection Bộ sưu tập 11 Document Tài liệu 12 Python Ngôn ngữ lập trình Python 13 Ubuntu Hệ điều hành ubuntu 14 Windows 15 Project 4|Trang Regular expression: Biểu thức quy Hệ điều hành Windows Dự án GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học 16 Virtual Môi trường ảo Environment 17 Crawl 18 Package Gói 19 Requests Yêu cầu 20 Website Trang web/ Trang mạng 21 Url 22 Response 5|Trang Thu thập thông tin Uniform Resource Locator: Định vị Tài nguyên thống Trả Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành DANH MỤC HÌNH Hình 2.1 Cách lấy XPath Hình 2.2 Sao chép XPath từ trình duyệt Chrome 10 Hình 2.3 Các quy tắc xác định CSS Selector .11 Hình 2.4: Một số ví dụ module re python .16 Hình 2.5: Những thành phần cách thức hoạt động Scrapy framework 17 Hình 2.6: Cấu trúc scrapy project 19 Hình 2.7: Các phần selenium 20 Hình 2.8: Ví dụ sử dụng selenium 23 Hình 2.9: Kết thực ví dụ sử dụng selenium 23 Hình 2.10: Mơ hình Parse tree .26 Hình 2.11: Ví dụ Information Extraction 27 Hình 2.12: Ví dụ NER 27 Hình 2.13: Ví dụ Sentiment Analysis 28 Hình 2.14: Ví dụ Bag of Words .28 Hình 2.15: Ví dụ Latent Dirichlet Allocation 29 Hình 2.16: Chính sách mà package Book nltk cung cấp 33 Hình 2.17: Tìm từ văn phương thức concordance() .34 Hình 2.18: Tìm từ xuất ngữ cảnh tương tự 34 Hình 2.19: Hiển thị sentence 34 Hình 2.20: Lấy tần xuất từ 35 Hình 2.21: Hiển thị biểu đồ tần xuất .35 Hình 2.22: Biểu đồ thể tần xuất 30 từ dùng nhiều text1 .36 Hình 2.23: Sử dụng bigtams 36 Hình 2.24: Lấy collocations 37 Hình 2.25: Lấy stop words tiếng Anh 37 Hình 2.26: Lọc stop words 38 Hình 2.27: Kết lọc stop words 38 Hình 2.28: Sentence Tokenization nltk 38 Hình 2.29: Word Tokenization nltk .39 Hình 2.30: POS tagging nltk 39 Hình 2.31: NE Chunk nltk 39 Hình 2.32: Parse tree .39 Hình 2.33: Phương thức word_sent under the sea .40 Hình 2.34: Phương thức pos_tag under the sea 40 Hình 2.35: Phương thức chunk under the sea 41 Hình 2.36: Phương thức ner under the sea 41 Hình 2.37: Phương thức classify under the sea 41 Hình 2.38: Tạo Schema 44 Hình 2.39: Tạo đối tượng index 44 Hình 2.40: Lưu document vào mục 44 Hình 2.41: tạo đối tượng Searcher 45 6|Trang Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành Hình 2.42: Đối tượng truy vấn trực tiếp “apple and bear” 45 Hình 2.43: Bộ phân tích truy vấn QueryParser .45 Hình 2.44: Bộ phân tích truy vấn QueryParser kết nối thuật ngữ nhóm .45 Hình 2.45: Đối tượng Results 46 Hình 2.46: Mơ hình truy vấn vector 47 Hình 2.47: Kiến trúc hệ thống .52 Hình 2.48: Mơ hình chương trình tư vấn tuyển sinh tự động 53 Hình 3.1: Trang web hỏi đáp tuyển sinh .57 Hình 3.2: Trang web bigschool .58 Hình 3.3: Mơ hình rút trích liệu từ trang web 59 Hình 3.4: Dữ liệu trình tiền xử lý 60 Hình 3.5: Dữ liệu rút trích 60 Hình 3.6: Dữ liệu rút trích database .61 Hình 3.7: Mơ hình thực tách từ cho liệu rút trích 61 Hình 3.8: Thực tách từ 62 Hình 3.9: Dữ liệu tách từ 63 Hình 3.10: Mơ hình đánh mục 63 Hình 3.11: Thư mục lưu trữ mục .64 Hình 3.12: Mơ hình hoạt động tìm kiếm .64 Hình 3.13: Danh sách stop word từ vựng .65 Hình 3.14: Kết thực tìm kiếm 66 Hình 3.15: Kết thực tính độ tương đồng 67 7|Trang Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành DANH MỤC BẢNG BIỂU Bảng Một số pattern sử dụng python .13 Bảng Một số flags sử dụng python 14 Bảng Một số phương thức sử dụng chủ yếu module re python 15 Bảng 4: Các phương thức định vị phần tử selenium 22 Bảng 5: Thuật ngữ xử lý ngôn ngữ tự nhiên 31 Bảng 6: Ví dụ từ kho liệu Reuters 48 Bảng 7: Bảng số liệu thành phần để tính Cosine 50 Bảng 8: ác packages sử dụng hệ thống 56 Bảng 9: Collection AnswerQuestion 60 Bảng 10: Collection WordSegmentation .62 Bảng 11: Thử nghiệm với câu truy vấn 68 8|Trang BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU CỦA ĐỀ TÀI Thông tin chung: - Tên đề tài: Nghiên cứu kỹ thuật rút trích thơng tin web phát triển hệ thống tư vấn tuyển sinh tự động - Sinh viên thực hiện: Nguyễn Thị Bích Mi - Lớp: DH14TH04 Khoa: CNTT Năm thứ: Số năm đào tạo: - Người hướng dẫn: ThS.Dương Hữu Thành Mục tiêu đề tài: xây dựng hệ thống tư vấn tuyển sinh tự động với độ chính xác cao dựa liệu rút trích tự động từ trang web Tính sáng tạo: Bổ xung stop words tiếng Việt Kết nghiên cứu: – Rút trích liệu từ trang web – Tách từ tiếng Việt – Tiền xử lý liệu rút trích – Đánh mục tìm kiếm – Tính độ tương đồng hai văn Đóng góp mặt kinh tế - xã hội, giáo dục đào tạo, an ninh, quốc phòng khả áp dụng đề tài: Nếu xây dựng hệ thống thành công rút ngắn thời gian công sức cho người dùng phải chờ đợi câu trả lời, tổng hợp thông tin từ nguồn khác giúp người dùng dễ theo dõi Hỗ trợ định hướng lựa chọn ngành nghề học sinh phổ thông đặc biệt lớp 12 Công bố khoa học sinh viên từ kết nghiên cứu đề tài (ghi rõ tên tạp chí có) nhận xét, đánh giá sở áp dụng kết nghiên cứu (nếu có): Ngày tháng năm Sinh viên chịu trách nhiệm thực đề tài (ký, họ tên) GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học future 0.16.0 joblib 0.11 languageflow 1.1.6rc2 nltk 3.2.5 numpy 1.14.2 pandas 0.22.0 pkg-resources 0.0.0 pymongo 3.6.1 10 python-crfsuite 0.9.5 11 python-dateutil 2.7.2 12 pytz 2018.4 13 scikit-learn 0.19.0 14 scipy 1.0.1 15 selenium 3.11.0 16 six 1.11.0 17 underthesea 1.1.6 18 Whoosh 2.7.4 19 xgboost 0.71 Bảng 8: ác packages sử dụng hệ thống 3.1.3 Rút trích liệu Thơng qua việc tìm hiểu phương pháp thư viện hỗ trợ, Em sử dụng thư viện Selenium cho việc rút trích áp dụng số phương pháp xpath, css selector, regular expression,… Các trang web tiến hành rút trích: http://hoidap.thongtintuyensinh.vn 56 | T r a n g Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành Hình 3.1: Trang web hỏi đáp tuyển sinh https://bigschool.vn/hoi-dap-ve-quy-che-tuyen-sinh-2017 57 | T r a n g GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học Hình 3.2: Trang web bigschool Sử dụng WebDriver trình duyệt Chrome, download qua đường link: https://sites.google.com/a/chromium.org/chromedriver/downloads Tiến hành rút trích liệu hai trang web trang web “hỏi đáp tuyển sinh” có 10 trang cần rút trích 58 | T r a n g Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành Hình 3.3: Mơ hình rút trích liệu từ trang web Bước 1: Tiến trình rút trích mở trình duyệt Chrome truy cập vào trang web URL Bước 2: Dựa vào xpath css selector để rút câu hỏi câu trả lời từ trang web, trang web hỏi đáp tuyển sinh(http://hoidap.thongtintuyensinh.vn) có 10 trang, click vào trang thông qua xpath 59 | T r a n g GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học Hình 3.4: Dữ liệu trình tiền xử lý Dữ liệu rút trích tiền xử lý với thao tác: loại bỏ thẻ HTML cịn xót lại câu hỏi câu trả lời đồng thời xử lý chữ viết tắt thuộc lĩnh vực tuyển sinh Hình 3.5: Dữ liệu rút trích Bước 3: Lưu liệu xuống collection AnswerQuestion database DBTuyenSinh STT Tên Cột _id(database tự sinh) Questions Answers Dates Bảng 9: Collection AnswerQuestion 60 | T r a n g GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học Hình 3.6: Dữ liệu rút trích database 3.1.4 Tách từ Thực tách từ với thư viện Under the sea Python để tách từ cho tiếng Việt Hình 3.7: Mơ hình thực tách từ cho liệu rút trích Bước 1: Lấy liệu bao gồm câu hỏi, trả lời ngày tháng từ collection AnswerQuestion database DBTuyenSinh Thực tách từ với phương thức word_sent() thư viện Under the sea 61 | T r a n g GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học Hình 3.8: Thực tách từ Bước 2: Lưu liệu tách từ xuống collection WordSegmentation database DBTuyenSinh STT Tên Cột _id(database tự sinh) Questions answers dates Bảng 10: Collection WordSegmentation 62 | T r a n g GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học Hình 3.9: Dữ liệu tách từ 3.1.5 Đánh mục tìm kiếm Thực trình đánh mục tìm kiếm thư viện Whoosh Python Quá trình đánh mục: Hình 3.10: Mơ hình đánh mục Bước 1: Lấy liệu từ collection WordSegmentation database DBTuyenSinh tạo thư mục Data_index để lưu mục Bước 2: thực đánh mục nội dung bao gồm câu hỏi trả lời, sau lưu document vào index thư mục Data_index 63 | T r a n g GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học Hình 3.11: Thư mục lưu trữ mục Quá trình tìm kiếm: Hình 3.12: Mơ hình hoạt động tìm kiếm Bước 1: Người dùng nhập câu hỏi vấn đề tuyển sinh Hệ thống tiếp nhận câu hỏi Bước 2: Thực tách từ cho câu hỏi người dùng Bước 3: Loại bỏ stop word câu hỏi người dùng Nếu liệu stop word chưa có vào console python để download: 64 | T r a n g - Import nltk - nltk.download('stopwords') Nghiên cứu khoa học GVHD: ThS.Dương Hữu Thành Hình 3.13: Danh sách stop word từ vựng Stop word download có chứa file stop word số tiếng Anh, Pháp, Itali, không may lại khơng có stopwword tiếng Việt Chúng bổ xung thêm vào danh sách stop word tiếng Việt như: ['bị', 'bởi', 'cả', 'các', 'cái', 'cần', 'càng', 'chỉ', 'chiếc', 'cho', 'chứ', 'chưa', 'chuyện', 'có', 'có_thể', 'cứ', 'của', 'cùng', 'cũng', 'đã', 'đang', 'đây', 'để', 'đến_nỗi', 'đều', 'điều', 'do', 'đó', 'được', 'dưới', 'gì', 'khi', 'khơng', 'lại', 'lên', 'lúc', 'mà', 'mỗi', 'một_cách', 'này', 'nên', 'nếu', 'ngay', 'nhiều', 'như', 'nhưng', 'những', 'nơi', 'nữa', 'phải', 'qua', 'ra', 'rằng', 'rất', 'rồi', 'sau', 'sẽ', 'so', 'sự', 'tại', 'theo', 'thì', 'trên', 'trước', 'từ', 'từng', 'và', 'vẫn', 'vào', 'vậy', 'vì', 'việc', 'với', 'vừa'] Bước 4: Truyền câu hỏi qua xử lý bước vào câu query dùng phương thức search() để thực tìm kiếm liệu đánh mục trả kết tìm thấy 65 | T r a n g GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học Bước 5: Lấy kết có sau thực tìm kiếm để tiến hành tính độ tương đồng Ví dụ người dùng nhập vào câu hỏi sau: “Cho em hỏi điểm thi đại học em điểm sàn có nộp nguyện vọng vào trường cao đẳng không ?” Tiền xử lý câu hỏi với việc tách từ, loại bỏ stop word câu hỏi cho kết quả: “điểm thi đại_học điểm sàn nộp nguyện_vọng trường cao_đẳng” Và có kết trả sau thực tìm kiếm thư viện whoosh: Hình 3.14: Kết thực tìm kiếm 3.1.6 Tính độ tương đồng Khi thực tìm kiếm dựa mục trả nhiều kết có lẫn kết có độ xác gần kết không phù hợp, để đạt hiệu tối đa việc xuất kết cho người dùng cần qua bước chọn lọc tài liệu có liên quan phương pháp tính độ tương đồng, hệ thống thực phương pháp tính độ đo Cosine Tiến hành tính độ tương đồng cần: Bước 1: Nhận tài liệu trả từ việc tìm kiếm thư viện whoosh Bước 2: Tính độ tương đồng tài liệu trả về: 66 | T r a n g GVHD: ThS.Dương Hữu Thành Nghiên cứu khoa học 0.0

Ngày đăng: 12/01/2022, 23:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w