Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
5,94 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN NGỌC DUNG PHAN MINH TỒN KHĨA LUẬN TỐT NGHIỆP XÂY DỰNG WEBSITE TÌM KIẾM TÀI LIỆU PHÁP LÝ VIỆT NAM Build a tool to look up information from the legal document corpus KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN NGỌC DUNG PHAN MINH TỒN KHĨA LUẬN TỐT NGHIỆP XÂY DỰNG WEBSITE TÌM KIẾM TÀI LIỆU PHÁP LÝ VIỆT NAM Build a tool to look up information from the legal document corpus KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN THS HUỲNH NGUYỄN KHẮC HUY TP HỒ CHÍ MINH, 2021 DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………… ngày ……………… Hiệu trưởng Trường Đại học Công nghệ Thông tin ………………………………………… – Chủ tịch ………………………………………… – Thư ký ………………………………………… – Ủy viên ………………………………………… – Ủy viên LỜI CẢM ƠN Sau trình học tập rèn luyện khoa Công nghệ phần mềm trường Đại học Công nghệ Thông tin – ĐHQG TP.HCM chúng em trang bị kiến thức bản, kỹ thực tế để hồn thành Khóa luận tốt nghiệp Để hồn thành khóa luận này, chúng em xin gửi lời cảm ơn chân thành đến: Ban Giám hiệu trường Đại học Cơng nghệ Thơng tin – ĐHQG TP.HCM tạo điều kiện sở vật chất với hệ thống thư viện đại, đa dạng loại sách, tài liệu thuận lợi cho việc tìm kiếm, nghiên cứu thơng tin Chúng em xin gửi lời cảm ơn chân thành đến thầy Huỳnh Nguyễn Khắc Huy tận tình giúp đỡ, định hướng cách tư cách làm việc khoa học Đó góp ý quý báu khơng q trình thực luận văn mà hành trang tiếp bước cho chúng em trình học tập lập nghiệp sau Và cuối cùng, chúng em xin gửi lời cảm ơn đến gia đình, tất thầy khoa, bạn bè, tập thể lớp PMCL2016 người sẵn sàng sẻ chia giúp đỡ học tập sống Mong rằng, mãi gắn bó với Trong q trình làm khóa luận chúng em khơng tránh khỏi sai sót, chúng em kính mong nhận dẫn góp ý q thầy để khóa luận hoàn thiện Chúng em xin chân thành cảm ơn Xin chúc điều tốt đẹp đồng hành người Thành phố Hồ Chí Minh, 20 tháng năm 2021 Sinh viên NGUYỄN NGỌC DUNG PHAN MINH TOÀN MỤC LỤC Chương GIỚI THIỆU CHUNG 13 1.1 Lý chọn đề tài 13 1.2 Mục đích 14 1.3 Đối tượng .14 1.4 Phạm vi thực 14 Chương TỔNG KẾT .16 2.1 Thư viện pháp luật https://thuvienphapluat.vn/ 16 2.1.1 Tìm hiểu Website 16 2.1.2 Ưu điểm .19 2.1.3 Nhược điểm .19 2.2 Văn pháp luật http://vbpl.vn/ 20 2.2.1 Tìm hiểu Website 20 2.2.2 Ưu điểm .23 2.2.3 Nhược điểm .23 2.3 Văn pháp luật https://vanbanphapluat.co/ 24 2.3.1 Tìm hiểu Website 24 2.3.2 Ưu điểm .28 2.3.3 Nhược điểm .28 2.4 Bảng tổng hợp so sánh Website hỗ trợ tìm kiếm tài liệu pháp lý 29 Chương NGHIÊN CỨU THỰC NGHIỆM HOẶC LÝ THUYẾT 32 3.1 Tìm hiểu cơng cụ tìm kiếm tìm kiếm 32 3.1.1 Khái niệm 32 3.1.2 Nguyên lý hoạt động 32 3.1.2.1 Bộ thu thập thông tin – Web crawling 33 3.1.2.2 Bộ lập mục – Indexing .33 3.1.2.3 Bộ tìm kiếm thơng tin – Searching 33 3.2 Tìm hiểu Elastic Search .34 3.2.1 Khái niệm 34 3.2.2 Cách thức hoạt động 35 3.2.3 Ưu, nhược điểm Elastic Search .35 3.2.3.1 Ưu điểm 35 3.2.3.2 Nhược điểm 35 3.2.4 Các khái niệm Elastic Search 36 3.2.4.1 Documents .37 3.2.4.2 Index 37 3.2.4.3 Shard 37 3.2.4.4 Node .38 3.2.4.5 Cluster 38 3.2.5 Cài đặt Elastic Search 38 3.2.5.1 Yêu cầu cài đặt .38 3.2.5.2 Cài đặt Windows .39 3.2.5.3 Cài đặt Linux .40 3.2.6 Sử dụng API để thêm, xóa, sửa, tìm kiếm liệu Elastic Search 41 3.2.6.1 Index 42 3.2.6.2 Document .45 3.2.7 Bulk API 48 3.3 Thu thập liệu crawler .50 3.3.1 Thư viện Axios Cheerio .50 3.3.1.1 Axios 50 3.3.1.2 Cheerio 50 3.3.2 Bóc tách liệu trang vanbanphapluat.co 50 3.3.3 Trình phân tích từ Analyer 53 3.3.3.1 Trình phân tích từ có sẵn ElasticSearch: 53 3.3.3.2 Trình phân tích từ tùy chỉnh 54 3.4 Tạo mục Index để lưu liệu 54 3.5 Tạo Website hỗ trợ tìm kiếm .56 3.5.1 Tạo Form tìm kiếm 56 3.5.2 Phân trang 60 3.5.3 Hiển thị kết tìm kiếm 61 3.6 Xử lý câu truy vấn .62 Chương TRÌNH BÀY, ĐÁNH GIÁ BÀN LUẬN VỀ CÁC KẾT QUẢ 64 4.1 Hiệu suất việc thu thập liệu Crawler .64 4.2 Độ xác việc thu thập liệu Crawler 65 4.3 Độ xác kết câu truy vấn 70 Chương KẾT LUẬN .82 5.1 Ưu điểm .82 5.2 Nhược điểm 82 Chương HƯỚNG PHÁT TRIỂN 83 Chương TÀI LIỆU THAM KHẢO 84 DANH MỤC HÌNH Hình 1.1 Bảng số liệu thống kê Tòa án nhân dân tối cao xét xử hình sơ thẩm, mức độ tình hình tội phạm Việt Nam từ năm 1986 đến năm 2008 .13 Hình 2.1 Giao diện Website thuvienphapluat.vn 17 Hình 2.2 Website yêu cầu người dùng sử dụng tài khoản thành viên 17 Hình 2.3 Hướng dẫn tìm kiếm tài liệu văn pháp luật 18 Hình 2.4 Kết tìm kiếm văn Website thuvienphapluat.vn 18 Hình 2.5 Hiển thị nội dung văn Website 18 Hình 2.6 Website yêu cầu người dùng trả phí để sử dụng 19 Hình 2.7 Giao diện Website vbpl.vn 20 Hình 2.8 Kết tìm kiếm đơn giản 21 Hình 2.9 Kết tìm kiếm nâng cao 21 Hình 2.10 Nội dung văn hiển thị Website 22 Hình 2.11 Kết tìm kiếm với từ khóa “đèn đỏ” 22 Hình 2.12 Giao diện Website vanbanphapluat.co 24 Hình 2.13 Hướng dẫn tìm kiếm với “từ khóa” 25 Hình 2.14 Hướng dẫn lọc kết tìm kiếm 25 Hình 2.15 Kết tìm kiếm Website vanbanphapluat.co .26 Hình 2.16 Hiển thị nội dung văn file PDF .26 Hình 2.17 Hiển thị nội dung văn Website 27 Hình 2.18 Kết tìm kiếm với từ khóa “vượt đèn đỏ” 27 Hình 2.19 Kết tìm kiếm xác với từ khóa “vượt đèn đỏ” .28 Hình 3.1 Nguyên lý hoạt động Elastic Search 32 Hình 3.2 Cách thức hoạt động Elastic Search .35 Hình 3.3 Các thành phần Elastic Search 36 Hình 3.4 Hình ảnh mơ tả Cluster, Node Elastic Search .38 Hình 3.5 File dùng để kích hoạt Elastic Search Service 39 Hình 3.6 Service Elastic Search với port mặc định 9200 39 Hình 3.7 Sử dụng Addon Chrome Elastic Search Head 40 Hình 3.8 Demo Run Elastic Search Linux OS 41 Hình 3.9 Các mối quan hệ tương ứng Database Elastic Search 41 Hình 3.10 Index tạo thành công 42 Hình 3.11 Index tạo khơng thành cơng, Index tồn .42 Hình 3.12 Các thành phần bên Index 43 Hình 3.13 Số Replica, Shard mặc định tạo Index 44 Hình 3.14 Xóa Index khơng thành cơng, Index khơng tồn .45 Hình 3.15 Xóa Index thành cơng 45 Hình 3.16 Các hàm sử dụng để thu thập liệu 51 Hình 3.17 Element http://vanbanphapluat.co 52 Hình 3.18 Sử dụng Bulk Client Helper để đánh mục 55 Hình 3.19 Các thuộc tính input sử dụng web 56 Hình 3.20 Giao diện tìm kiếm nâng cao 57 Hình 3.21 Sugestion tìm kiếm với từ khóa “quyết đinh 38/” 58 Hình 3.22 Kết tìm kiếm văn với từ khóa “quyết định” 58 Hình 3.23 Nội dung văn 59 Hình 3.24 Tìm kiếm với từ khóa “luật covid” 62 Hình 3.25 Kết tìm kiếm với từ khóa “luật covid” 63 Hình 3.26 Lọc kết tìm kiếm theo số tiêu chí 63 Hình 4.1 Kết File thứ với số trường 65 Hình 4.2 Nghị 04/NQ-CP trang vanbanphapluat.co 65 Hình 4.3 Kết File thứ hai với số trường .66 Hình 4.4 Quyết định 1921/QĐ-TLĐ trang vanbanphapluat.co 66 Hình 4.5 Kết File thứ ba với số trường 67 Hình 4.6 Thơng báo 06/TB-VPCP trang vanbanphapluat.co .67 Hình 4.7 Kết File thứ tư với số trường .68 Hình 4.8 Quyết định 141/QĐ-BYT trang vanbanphapluat.co 68 Hình 4.9 Kết File thứ năm với số trường 69 Hình 4.10 Quyết định 39/QĐ-TTg trang vanbanphapluat.co .69 Một số câu hỏi liệu câu hỏi kết thực nghiệm: Câu hỏi đầu tiên: “chính sách thay đổi tên đơn vị hành cấp huyện, cấp xã thơn gì” Kết câu truy vấn văn bản: Nghị 04/NQ-CP 2021 Kết truy vấn website nằm top Hình 4.11 Kết câu hỏi 72 Câu hỏi thứ hai: “người lao động bị ảnh hưởng dịch Covid-19 hỗ trợ nào” Kết câu truy vấn là: Quyết định 1921/QĐ-TLĐ 2021 Kết truy vấn website nằm top Hình 4.12 Kết câu hỏi thứ hai 73 Câu hỏi thứ ba: “Làm để đảm bảo an toàn thực phẩm” Kết câu truy vấn là: Quyết đinh 184/QĐ-BNN-QLCL 2021 Kết truy vấn website nằm top Hình 4.13 Kết câu hỏi thứ ba 74 Câu hỏi thứ tư: “vi phạm pháp luật chứng khoán bị sao” Kết câu truy vấn là: Thông tư 117/2020/TT-BTC Kết truy vấn website nằm top Hình 4.14 Kết câu hỏi thứ tư 75 Câu hỏi thứ năm: ”Làm để phịng chơng hiv aids?” Kết câu truy vấn là: Quyết định 141/QĐ-BYT Kết truy vấn website nằm top Hình 4.15 Kết câu hỏi thứ năm 76 Câu hỏi thứ sáu: ”quy đinh nộp phí dịch vụ” Kết câu truy vấn là: Thông tư 115/2020/TT-BTC Kết truy vấn website nằm top Hình 4.16 Kết câu hỏi thứ sáu 77 Câu hỏi thứ bảy: “Việc đăng ký tàu biển Việt Nam thực theo nguyên tắc nào” Kết câu truy vấn là: Chỉ thị 49/CT-BNN-TCTS 2021 Kết truy vấn website nằm top Hình 4.17 Kết câu hỏi thứ bảy 78 Câu hỏi thứ tám: “lịch nghỉ tết năm 2021 nào” Kết câu truy vấn là: Thông báo 585/TB-VP Kết truy vấn website nằm top Hình 4.18 Kết câu hỏi thứ tám 79 Câu hỏi thứ chín: Doanh nghiệp cấp Giấy chứng nhận đăng ký doanh nghiệp Kết câu truy vấn là: Điều 28 Luật Doanh Nghiệp 2014 Kết truy vấn website nằm top Hình 4-1 Kết câu hỏi thứ chín 80 Câu hỏi thứ mười: Hồ sơ đề nghị cấp giấy phép xây dựng nhà riêng lẻ gồm Kết câu truy vấn là: Điều 95 Luật Xây dựng 2014 Kết truy vấn website nằm top Hình 4-2 Kết câu hỏi thứ mười 81 Chương KẾT LUẬN 5.1 Ưu điểm • Hồn thành u cầu phần mềm đặt ban đầu, có đầy đủ tính cần thiết ứng dụng Website hỗ trợ tìm kiếm văn pháp lý Việt Nam • Giao diện đẹp, bố cục hợp lý, người dùng dễ dàng theo tác ứng dụng • Tốc độ phản hồi thao tác nhanh, tối ưu hóa suất người dùng • Sinh viên thực nắm cách thức làm Website bản, hiểu biết ngôn ngữ NodeJS • Ứng dụng triển khai nghiệm thu thành cơng máy thật • Hồn thành việc áp dụng thuật toán gợi ý Suggestion, phục vụ việc gợi ý văn pháp lý cho người dùng tìm kiếm Gợi ý văn dựa từ khóa tìm kiếm để giảm thiểu thời gian tìm kiếm cho người dùng 5.2 Nhược điểm Còn hạn chế số tính năng: • Chưa tích hợp tốn trực tuyến cho thành viên sử dụng gói dịch vụ tìm kiếm, tải nội dụng văn pháp lý • Tối ưu code chưa tốt nên tốc độ tương tác ứng dụng cịn chậm • Chưa phát triển tính xác thực qua email, số điện thoại • Hệ thống chưa tự tạo văn pháp lý thân mà phải crawler liệu từ Website http://vanbanphapluat.co • Chưa pháp triển ứng dụng di động 82 Chương HƯỚNG PHÁT TRIỂN • Xây dựng chứa cịn thiếu, hồn thiện chức có • Xây dựng đội ngũ thu thập nhập liệu văn • Xây dựng ứng dụng thiết bị di động số thiết bị khác • Tích hợp tốn trực tuyến liên kết tài khoản ngân hàng, cho phép người dùng đăng nhập đăng kí gói văn • Tối ưu hóa code để tăng tốc độ tương tác 83 Chương TÀI LIỆU THAM KHẢO [1] Website http://thuvienphapluat.vn [2] Website http://vbpl.vn [3] Website http://vanbanphaplat.co [4] Một số tiêu chí đánh giá Website https://vinaweb.vn/hoat-dong-132/tu-van-thiet-ke-website-157/6-tieu-chi-quantrong-danh-gia-1-website-chat-luong-136-2.html [5] Khái niệm hệ thống tìm kiếm (Web search engine): https://en.wikipedia.org/wiki/Web_search_engine [6] Khái niệm thu thập liệu (Web crawling): https://en.wikipedia.org/wiki/Web_crawler [7] Khái niệm lập mục (Indexing) https://en.wikipedia.org/wiki/Search_engine_indexing [8] Khái niệm tìm kiếm thơng tin (Searching) https://en.wikipedia.org/wiki/Web_search_query [9] Khái niệm ElasticSearch: https://en.wikipedia.org/wiki/ElasticSearch https://www.udemy.com/course/ [10] Các khái niệm ElasticSearch: https://www.elastic.co/guide/en/ElasticSearch/reference/6.2/_basic_concepts.html https://www.elastic.co/guide/en/ElasticSearch/reference/current/docs– index_.html?fbclid=IwAR272spRymbT6R2K0LixQh1Hbi– 5Ig5Hy2Q3wvjshBkLjIHQyw1pvEBTX54 [11] Index ElasticSearch: 84 https://www.elastic.co/guide/en/ElasticSearch/reference/7.x/index-modules.html [12] Index API ElasticSearch https://www.elastic.co/guide/en/elasticsearch/reference/7.x/docs-index_.html [13] Search API ElasticSearch: https://www.elastic.co/guide/en/elasticsearch/reference/7.x/search-search.html [14] Update API ElasticSearch: https://www.elastic.co/guide/en/ElasticSearch/reference/7.x/docs– update.html [15] Delete API ElasticSearch https://www.elastic.co/guide/en/elasticsearch/reference/7.x/docs-delete.html [16] Bulk API ElasticSearch: https://www.elastic.co/guide/en/ElasticSearch/reference/7.x/docs– bulk.html [17] Bulk Helper https://www.elastic.co/guide/en/elasticsearch/client/JavaScript-api/current/clienthelpers.html?fbclid=IwAR0Ii2p1Ejltg1q7HnNa2TiW7fqQYdrPso7OFJmMOQcUECntxNBFdte4Cc [18] Thư viện Axios https://www.npmjs.com/package/axios#features [19] Thư viện Cheerio Cheerio https://www.npmjs.com/package/cheerio [20] Sử dụng thư viện Cheerio Axios để thu thập liệu Crawler https://browntreelabs.com/scraping-sites-with-node/ [21] Stardard Analyzor https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-standardanalyzer.html 85 [22] Keyword Analyzor https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-keywordanalyzer.html Elastic search: https://www.elastic.co/guide/en/elasticsearch/reference/current/paginate-searchresults.html [23] Đánh mục Index https://www.elastic.co/guide/en/elasticsearch/client/JavaScript-api/current/apireference.html?fbclid=IwAR3ZNswJXdC5xBuSkUbpXlO6b1xtzI3sfJTa1g42Wxu HGMv7rDm8yBabCPY#_index [24] PUG template engine https://pugjs.org/api/getting-started.html [25] Khái niệm CSS https://vi.wikipedia.org/wiki/CSS [26] Khái niệm JavaScript https://developer.mozilla.org/vi/docs/Learn/Getting_started_with_the_web/JavaScri pt_basics [27] Paginate search result https://www.elastic.co/guide/en/elasticsearch/reference/current/paginate-searchresults.html [28] Compound queries https://www.elastic.co/guide/en/elasticsearch/reference/current/compoundqueries.html [29] Full text queries https://www.elastic.co/guide/en/elasticsearch/reference/current/full-textqueries.html 86 ... kiếm thơng tin pháp lý lúc, nơi, việc xây dựng Website tìm kiếm văn pháp lý cập nhật liên tục giải nhu cầu thực tế 1.2 Mục đích Website tìm kiếm tài liệu pháp lý Việt Nam xây dựng dựa ba mục... TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN NGỌC DUNG PHAN MINH TỒN KHĨA LUẬN TỐT NGHIỆP XÂY DỰNG WEBSITE TÌM KIẾM TÀI LIỆU PHÁP LÝ VIỆT NAM Build a tool to look up information from the legal document... Phương pháp thực hiện: Tìm hiểu ngơn ngữ lập trình JavaScript, NodeJS Lấy văn pháp lý Việt Nam từ Website có sẵn (Crawler) Tạo mục văn pháp lý tìm kiếm Elastic Search Thống kê “từ khóa? ?? tìm kiếm