1. Trang chủ
  2. » Luận Văn - Báo Cáo

2020 httt tranthituyethoa ttlv 3491

30 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 549,62 KB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG TRẦN THỊ TUYẾT HOA XÂY DỰNG HỆ THỐNG TRUY HỒI HỌC LIỆU CHO SINH VIÊN NGÀNH ĐIỆN - ĐIỆN TỬ Chuyên ngành: Hệ thống thơng tin Mã số: 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ TPHCM - NĂM 2022 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS TÂN HẠNH Phản biện 1: ………………………………………………… Phản biện 2: ………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Hiện nay, với phát triển không ngừng ngành công nghệ thông tin nên nhu cầu tìm kiếm liệu, tài liệu mơn học sinh viên phát triển theo Một sinh viên không cần phải nhiều thời gian công sức đến thư viện trường học để tìm kiếm tài liệu môn học trước nữa, mà cách tìm kiếm thay đổi hồn tồn nhanh chóng vài click chuột bàn phím máy vi tính thơng qua Google hay địa Web thơng dụng Bên cạnh bối cảnh Thế giới tại, tình hình dịch Covid vấn đề đáng quan tâm lo ngại nên môi trường học tập sinh viên – học sinh dần chuyển sang hình thức học trực tuyến phổ biến rộng khắp trường học Việt Nam Với hình thức học trực tuyến – online nhu cầu tìm kiếm thơng tin, tài liệu xác mơn học nâng cao theo Khi học sinh tìm lại liệu Web mạng có hàng loạt nội dung liên quan có đúng, gần đúng, khơng xác có nhiều địa truy cập xấu Lý phải đối mặt với nhiều nguồn tài liệu, hệ thống truy hồi thơng tin dựa vào từ khóa khơng mang đến kết xác chuẩn mong muốn Trước vấn đề đó, thân giáo viên ngành điện – điện tử trường Trung cấp Kinh tế - kỹ thuật Tây Ninh mong muốn xây dựng hệ thống truy hồi cho sinh viên ngành truy nhập tìm kiếm học liệu cách hiệu xác thơng qua nguồn thư viện tài liệu tin cậy trường Từ mong muốn ý tưởng ủng hộ đồng ý hướng dẫn TS Tân Hạnh chọn đề tài luận văn: “Xây dựng hệ thống truy hồi học liệu cho sinh viên ngành điện – điện tử”, luận văn hồn thành góp phần vào việc giải vấn đề cần thiết cấp bách thực tế Tổng quan vấn đề nghiên cứu Đề tài hướng đến xây dựng áp dụng có hiệu hệ thống tìm kiếm học liệu cho sinh viên ngành điện – điện tử nhằm hỗ trợ kịp thời cho sinh viên làm tài liệu tham khảo học trực tuyến tình hình chung theo đạo thủ tướng phủ việc giãn cách xã hội kế hoạch đào tạo cần phải hoàn thành trường Để thực mục tiêu ý tưởng đề ra, đề tài cần phải nghiên cứu tiến hành nội dung sau: o Tìm hiểu phân tích nhu cầu nội dung môn học liên quan đến ngành điện – điện tử o Nghiên cứu từ sở lý thuyết hệ thống tìm kiếm, truy hồi thơng tin, phân loại thể loại văn tìm kiếm Từ áp dụng làm tảng để xây dựng triển khai ứng dụng hệ thống tìm kiếm thơng tin Mục tiêu nghiên cứu - Mục tiêu chính: xây dựng hệ thống truy hồi học liệu cho sinh viên ngành điện – điện tử - Mục tiêu cụ thể hệ thống gồm có chức năng: o Truy hồi thơng tin theo từ khóa o Truy hồi thơng tin theo từ khóa loại văn o Chức học phân loại văn theo thể loại học liệu o Chức học phân loại theo chủ đề thuộc lĩnh vực điện - điện tử Đối tượng phạm vi nghiên cứu 4.1 Đối tượng: o Các lý thuyết truy hồi thông tin (Information Retrieval - IR) o Hệ thống tìm kiếm thông tin (Information Retrieval Systems- IRS) o Nghiên cứu q trình truy hồi thơng tin, hướng tiếp cận giải tốn truy hồi thơng tin o Nghiên cứu phân loại ngữ nghĩa văn tự động dựa kỹ thuật máy học (machine learning techniques) o Phân tích, khảo sát xây dựng hệ thống truy hồi học liệu cho sinh viên ngành điện – điện tử trường trung cấp kinh tế kỹ thuật Tây Ninh 4.2 Phạm vi: - Học liệu thuộc ngành điện – điện tử - Ngôn ngữ tiếng Anh, Việt - Thể loại học liệu: giáo trình, sách tham khảo Phương pháp nghiên cứu - Phương pháp phân tích tổng hợp lý thuyết truy hồi thông tin, phân loại văn dựa học máy - Phương pháp thực nghiệm khoa học: Xây dựng mơ hình ứng dụng nhằm đánh giá hiệu giải pháp đánh giá kết thực nghiệm Chương 1: TỔNG QUAN VỀ TRUY HỒI THÔNG TIN Hiện nay, truy hồi thông tin vấn đề phổ biến tồn Thế giới Nó đã, ứng dụng rộng rãi tất lĩnh vực có nhu cầu tìm kiếm truy hồi thơng tin Qua q trình tìm hiểu từ sở lý thuyết đến thực tiễn truy hồi thông tin, xây dựng giải pháp nhằm giải yêu cầu toán đặt với trình tự phương pháp sau Tổng quan q trình truy hồi thơng tin, chia làm giai đoạn: Giai đoạn tiền xử lý + Xử lý ngôn ngữ tự nhiên + Chỉ mục đánh trọng số thuật ngữ liên quan Giai đoạn thu thập + Xử lý truy vấn ứng dụng mơ hình Boolean + Tìm kiếm thơng qua thuật ngữ liên quan có 12 ○ Thêm tài liệu ○ Xóa tài liệu (Remove Document) ○ Cập nhật tài liệu 1.3.4 Tối ưu hóa đánh mục 1.3.5 Bộ phân tích Analyzer 1.4 Các phương pháp giải vấn đề truy hồi thông tin - Các phương pháp tiếp cận dựa thống kê, tài liệu thu thập xếp hạng cao tài liệu xác định phù hợp cho truy vấn - Các loại hướng tiếp cận Mơ hình truy hồi Boolean (Boolean Retrieval Model) mơ hình khơng gian Vec-tơ (Vector Space Model) + Truy hồi Boolean dựa mệnh đề logic + Mơ hình Vec-tơ không gian, tài liệu truy vấn biểu diễn dạng Vec-tơ 1.5 Đánh giá hiệu việc truy hồi thông tin Việc đánh giá mức độ xác kết gọi đánh giá truy hồi thông tin Cùng với thước đo hiệu 13 suất phần mềm, hiệu suất truy hồi vấn đề then chốt hệ thống IR Hình 1.3: Các tài liệu thu nhận so với tài liệu liên quan Nhận xét: Phần giao hai hình trịn nhỏ bên phần mà liệu tối ưu hóa chọn 14 Chương 2: CHỈ MỤC VĂN BẢN TỰ ĐỘNG Trong chương nhằm mục đích phân loại tự động văn thành danh mục xác định trước xếp chúng việc truy hồi linh hoạt hiệu 2.1 Học máy Học máy ứng dụng Trí tuệ nhân tạo, lĩnh vực giúp hệ thống tự động hiểu liệu từ liệu đào tạo mà khơng cần lập trình cụ thể Học máy chia làm phần: học có giám sát, học bán giám sát học không giám sát Trong nghiên cứu này, tơi chọn phương pháp học máy có giám sát để áp dụng phân tích nội dung văn trả kết có nội dung liên quan đến truy vấn 2.2 Phân loại văn Phân loại văn áp dụng số miền như: lập mục tài liệu dựa vốn từ vựng kiểm soát, lọc tài liệu, phân loại cảm giác tài liệu Cách tiếp cận chủ đạo để phân loại văn dựa vào kỹ thuật máy học: quy trình quy nạp chung tự tạo phân loại cách học từ tập hợp tài liệu 15 phân loại trước dựa vào đặc điểm danh mục 2.2.1 Xử lý ngôn ngữ tự nhiên – thuật toán tách từ (tokenizer) 2.2.2 Loại bỏ từ dừng 2.3 Chỉ mục văn 2.3.1 Tổng quan Các bước xây dựng mục: → Thu thập tài liệu cần mục → Mã hóa văn → Thực tiền xử lý ngơn ngữ mã thông báo → Lập mục tài liệu thuật ngữ xuất 2.3.2 Xác định từ, cụm từ quan trọng để lập mục Từ, cụm từ quan trọng từ có khả đại diện cho nội dung tài liệu hay gọi mục từ Mục từ đơn vị sở cho trình lập mục 2.3.3 Lập mục với Lucene Lucene quản lý mục thư viện tài liệu động, cập nhật nhanh thêm xóa bỏ tài liệu khỏi thư viện 16 2.4 Đánh trọng số Tiêu chí tầm quan trọng thuật ngữ sử dụng để xếp hạng mức độ liên quan tài liệu với truy vấn có chứa thuật ngữ 2.5 Các mơ hình xếp hạng truyền thống Mơ hình xếp hạng hệ thống giải xây dựng vấn đề IR khác Thơng thường, mơ hình xếp hạng viết vắn tắt bốn chữ D, Q, F, R 2.5.1 Mơ hình Boolean 2.5.2 Mơ hình khơng gian Vec-tơ 2.6 Đánh giá hệ thống thông qua độ đo Độ đo Precision (Mức xác) Độ đo Recall (Độ bao phủ, độ nhạy độ triệu hồi) Độ đo Accuracy (Độ xác) Độ đo Specificity (Độ đặc hiệu) 17 Chương 3: XÂY DỰNG THỰC NGHIỆM HỆ THỐNG TRUY HỒI THƠNG TIN Nội dung chương: mơ tả chế làm việc hệ thống truy hồi thông tin; giới thiệu thư viện mã nguồn mở Lucene phần chạy demo thực nghiệm hệ thống 3.1 Mô tả hệ thống Hình 3.1: Mơ tả hệ thống truy hồi thơng tin 18 Hệ thống truy hồi thông tin mô tả qua thành phần sau: - Xây dựng sở liệu - Bước xử lý liệu - Thành phần lập mục 3.2 Dữ liệu 3.2.1 Loại tài liệu Nguồn liệu xây dựng dùng việc thử nghiệm file tài liệu chuyên ngành điện - điện tử thể tập tin word, ppt, pdf 3.2.2 Khối lượng tài liệu Thư viện lưu trữ 511 file liệu, bao gồm 220 file tài liệu tiếng việt, 291 file tiếng anh Được xây dựng từ thực tế giảng dạy cá nhân giáo viên trường, lại nguồn tài liệu sưu tầm từ Internet 3.3 Tiền xử lý liệu - Giai đoạn xử lý liệu trình xử lý liệu gốc nhằm nâng cao chất lượng liệu nâng cao 19 hiệu việc tìm kiếm liệu - Để Lucene dễ dàng phân tích đánh mục, trước hết ta phải chuyển tài liệu dạng văn túy (.txt) từ tài liệu đầu vào nhiều định dạng khác word, pdf… Hình 3.2: Mơ hình chuyển file văn 3.4 Chỉ mục Lucene Sau tiền xử lý liệu ta tiến hành lập mục Để chuẩn bị cho việc lập mục, Lucene phân tích liệu, phân chia liệu thành chuỗi ký tự thông qua lựa chọn toán tử thực thi loại bỏ từ khơng có nghĩa Kế đến, Lucene lưu liệu theo cấu trúc mục Cấu trúc cho phép thực 20 tìm kiếm nhanh từ khóa q trình tìm kiếm Hình 3.3: Quy trình lập mục Lucene 3.5 Thử nghiệm Phần trình duyệt tìm kiếm xây dựng dạng giao diện Web Cho phép người dùng nhập từ khóa tìm kiếm, hệ thống thực tìm kiếm từ khóa file mục, xếp kết trả danh sách kết theo mức độ phù hợp truy vấn tài liệu 21 sở liệu mục Hình 3.4: Giao diện hệ thống sau truy hồi thông tin 3.6 Đánh giá Trong truy hồi thơng tin, độ xác (Precision) độ bao phủ (Recall) xác định theo nghĩa tập hợp tài liệu truy hồi [15] 3.6.1 Độ xác (P) 3.6.2 Độ bao phủ (R) 3.6.3 Đánh giá kết thực nghiệm Để minh họa thực nghiệm sử dụng 10 câu truy vấn 22 gồm tiếng anh tiếng việt nhằm trải nghiệm độ tin cậy hệ thống truy hồi Bảng 3.1: Thống kê độ xác độ bao phủ hệ thống ST T Truy vấn Tài liệu tìm Tài liệu liên quan P (%) R (%) Diode 47 35 41 74 Điện tử 64 22 57 34 Scada 19 15 82 79 PLC 59 51 62 86 Mạch điện 57 48.5 61 Electrical 43 14 50 56 circuits Vẽ điện 13 10 65 77 Circuit 27 60 70 23 theory 89C51 38.8 63 10 Sensors 59 35.8 76 54% 71.2% Giá trị trung bình Trong truy hồi văn tập hợp tài liệu độ xác số kết chia cho số tất kết trả Độ xác tính đến tất tài liệu truy hồi nhiên đánh giá thứ hạn định, nên xem xét kết cao hệ thống trả 24 KẾT LUẬN Kết đạt Bài tốn giải vấn đề tìm kiếm truy hồi thông tin mang lại hiệu việc tập trung vào liệu lĩnh vực nhằm tránh xử lý nguồn liệu lớn không liên quan Luận văn tiếp cận đến nghiên cứu vấn đề truy hồi thông tin, đánh giá hệ truy hồi thơng tin giúp xác định khả tự tìm kiếm truy hồi thông tin; nghiên cứu kỹ thuật lập mục mơ hình truy hồi thơng tin; phân loại văn dựa vào kỹ thuật máy học (Machine learning techniques) Từ thực tốn “Xây dựng hệ thống truy hồi học liệu cho sinh viên ngành điện – điện tử” Luận văn tìm hiểu cách hệ thống tính hoạt động mã nguồn mở Lucene như: Lucene cung cấp khả phân tích liệu, tiền xử lý, tạo mục cho tài liệu để xây dựng nên hệ thống mục, cung cấp khả tiếp nhận câu truy vấn người dùng, thực tìm kiếm dựa hệ thống 25 mục có truy hồi kết tìm kiếm Hạn chế Bên cạnh kết đạt luận văn có mặc hạn chế sau: - Phần trình bày nội dung luận văn tương đối hạn chế dẫn đến tính thuyết phục tốn chưa cao - Khả áp dụng phương pháp IF IDF để đánh trọng số xếp hạng liên quan tài liệu với truy vấn chưa phân tích hết mức độ liên quan thuật ngữ tài liệu mà dựa số lần từ xuất văn bản, dẫn đến kết độ xác độ bao phủ chưa cao Hướng phát triển - Tìm hiểu sở lý thuyết liên quan kỹ thuật học máy ứng dụng giải pháp giải tốn mang tính thuyết phục cao - Áp dụng kết hợp kỹ thuật phân tích ngữ nghĩa tiềm ẩn (LSA) tự nhiên lập mục ngữ nghĩa 26 tiềm ẩn (LSI) với phương pháp TF IDF việc đánh trọng số lập mục để mang lại kết tìm kiếm truy hồi liệu có độ xác Thơng qua sở lý thuyết tốn thực nghiệm, đề xuất áp dụng đề tài vào thực tế trường trung cấp kinh tế kỹ thuật Tây Ninh nơi tơi cơng tác, cóthể phát triển, thay đổi hệ thống để đưa khả tìm kiếm thơng tin tốt Khi đề tài áp dụng cho sinh viên ngành điện – điện tử mà áp dụng cho tất ngành nghề đào tạo trường hay trường học khác nhằm đáp ứng nhu cầu học tập sinh viên học sinh

Ngày đăng: 07/08/2023, 07:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN