1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng mô hình sequence to sequence vào xây dựng hệ thống trả lời tự động cho thư viện

9 27 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Ngày nay, chất lượng của các dịch vụ trong thư viện không ngừng được nâng cao nhờ sự phát triển của công nghệ và thiết bị máy tính. Một trong các ưu điểm nổi bật là sự thu hẹp khoảng cách về không gian, cũng như mở rộng thời gian hoạt động của thư viện đối với người dùng.

ỨNG DỤNG MƠ HÌNH SEQUENCE TO SEQUENCE VÀO XÂY DỰNG HỆ THỐNG TRẢ LỜI TỰ ĐỘNG CHO THƯ VIỆN Vũ Đình Minh* - Nguyễn Thị Thu Thủy** Tóm tắt: Ngày nay, chất lượng dịch vụ thư viện không ngừng nâng cao nhờ phát triển cơng nghệ thiết bị máy tính Một ưu điểm bật thu hẹp khoảng cách không gian, mở rộng thời gian hoạt động thư viện người dùng Cụ thể là, bạn đọc gửi yêu cầu tới cán thư viện mà khơng bị giới hạn thời gian không gian thông qua mạng Internet Tuy nhiên, yêu cầu thực thời gian hoạt động thư viện Để nâng cao khả trả lời thắc mắc bạn đọc, đề xuất phương pháp tự động phản hồi dựa yêu cầu bạn đọc Thông qua thử nghiệm, kết cho thấy phương pháp đề xuất trả lời xác yêu cầu bạn đọc dựa tập liệu câu trả lời có sẵn GIỚI THIỆU Trong năm gần đây, ảnh hưởng công nghệ thiết bị máy tính vơ rõ ràng tới nhiều lĩnh vực Trong lĩnh vực thư viện, dịch vụ thư viện truyền thống dần chuyển đổi sang thư viện điện tử ưu điểm Thơng qua mạng Internet, người dùng dễ dàng gửi yêu cầu tới thư viện nhằm thu thập truy xuất thông tin từ hệ thống phần mềm Với ưu * Tiến sĩ, Trung tâm Mạng thông tin, Trường Đại học Bách Khoa Hà Nội ** Thạc sĩ, Thư viện Tạ Quang Bửu, Trường Đại học Bách Khoa Hà Nội 660 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM điểm không bị giới hạn không gian thời gian, người dùng kết nối với hệ thống cách dễ dàng thuận lợi Bên cạnh nhu cầu sử dụng tài liệu, nhu cầu bạn đọc yêu cầu tư vấn hỗ trợ để sử dụng thư viện hiệu Để sử dụng hệ thống phần mềm thư viện với nghiệp vụ phức tạp, người dùng đơi có thắc mắc cần giải đáp Có hai phương pháp sử dụng để giải vấn đề là: trực tiếp liên hệ với cán thư viện gián tiếp liên hệ với cán thư viện thông qua hệ thống phần mềm Phương pháp thứ có ưu điểm độ xác thắc mắc tình bạn đọc giải trực tiếp với nhân viên có kiến thức thư viện Tuy nhiên, phân tích trên, phương pháp có hạn chế mặt thời gian không gian Để thực giải pháp này, bạn đọc bắt buộc phải có mặt thư viện khoảng thời gian phục vụ Phương pháp thứ hai giải vấn đề yêu cầu phản hồi thông qua mạng Internet hình thức hệ thống phần mềm, fanpage,… Tuy nhiên, phương pháp có hạn chế nguồn nhân lực cho việc phản hồi thông tin Thêm vào đó, câu hỏi nhiều người dùng đơi đơn giản thường trùng lặp trình khai thác liệu thông tin thư viện Trong đó, hệ thống tự động trả lời câu hỏi giải vấn đề dựa kỹ thuật học sâu lĩnh vực trí tuệ nhân tạo Thông qua việc ánh xạ câu hỏi tới câu trả lời, hệ thống nhanh chóng phản hồi yêu cầu người dùng mà khơng địi hỏi trợ giúp từ người Trong viết này, đề xuất phương pháp sử dụng kỹ thuật học máy để xây dựng hệ thống tự động trả lời câu hỏi người dùng Cấu trúc viết trình bày gồm mục Trong mục tiếp theo, cung cấp khảo sát nghiên cứu liên quan đến việc trả lời câu hỏi người dùng Trong mục 3, sở lý thuyết kỹ thuật lĩnh vực học máy trình bày nhằm giúp người đọc dễ dàng việc hiểu phương pháp đề xuất Trong mục 4, phương pháp học máy trình bày Mục mơ tả Ứng dụng mơ hình Sequence to Sequence vào xây dựng hệ thống trả lời tự động cho thư viện thí nghiệm việc áp dụng mơ hình đề xuất vào việc trả lời câu hỏi liên quan đến lĩnh vực thư viện bạn đọc Kết thảo luận trình bày mục Cuối cùng, thống kê lại vấn đề đề xuất hướng phát triển tương lai CÁC GIẢI PHÁP ĐỂ GIẢI QUYẾT VẤN ĐỀ Như trình bày mục 1, nhu cầu giải đáp thắc mắc người dùng hoạt động thư viện yếu tố cần cải thiện để nâng cao chất lượng dịch vụ Để giải vấn đề này, có hai hướng tiếp cận chính: phương pháp truyền thống thực người hệ thống trả lời tự động câu hỏi từ người dùng • Đối với hướng tiếp cận thứ nhất, câu trả lời phản hồi cán thư viện có trách nhiệm, phân công cho nhiệm vụ trả lời câu hỏi Các phương pháp hướng tiếp cận có ưu điểm độ xác cao câu trả lời thực nguồn nhân lực chất lượng cao Các phương pháp kể đến là: fanpage Facebook, Website thư viện phương pháp khác Tuy nhiên, phương pháp có nhược điểm tính qn câu trả lời thực nhiều người khác Bên cạnh đó, yêu cầu người dùng khơng thể thực bên ngồi thời gian hoạt động thư viện • Đối với hướng tiếp cận thứ hai, hệ thống tự động phản hồi câu trả lời dựa kho liệu câu hỏi thư viện xây dựng Cụ thể là, thông qua việc tự động ánh xạ câu hỏi tới câu trả lời, yêu cầu người dùng thực vào khoảng thời gian Thêm vào đó, giải pháp cịn giúp giảm chi phí nhân lực q trình vận hành hệ thống thư viện Với phát triển không ngừng ứng dụng công nghệ thông tin lợi ích việc áp dụng hệ thống tự động trả lời câu hỏi, báo này, đề xuất hệ thống trả lời câu hỏi tự động dựa trí tuệ nhân tạo áp dụng cho Thư viện Tạ Quang Bửu Trường Đại học Bách Khoa Hà Nội để góp phần nâng cao chất lượng phục vụ bạn đọc 661 662 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM CƠ SỞ LÝ THUYẾT 3.1 Machine learning gì? Hình Quy trình mơ hình học máy Trong năm gần đây, Machine learning (học máy) thuật ngữ phổ biến với bùng nổ ứng dụng cơng nghệ thơng tin Có nhiều vấn đề giải là: xe tự lái, dịch máy, hay phân loại dịch bệnh Về mặt định nghĩa, học máy nhánh nhỏ trí tuệ nhân tạo, giúp máy tính tự học dựa liệu mà khơng cần phải lập trình cụ thể [1] Nói cách khác, học máy bao gồm mơ hình thống kê để khái qt đặc tính tập liệu huấn luyện thực dự đoán cho liệu chưa biết tương lai Hình mơ tả qui trình mơ hình học máy Cụ thể là, mơ hình học máy thường bao gồm hai giai đoạn bản: giai đoạn huấn luyện giai đoạn kiểm tra đánh giá Dựa tập liệu bao gồm: thuộc tính kết quả, giai đoạn giúp tìm hàm số để ánh xạ hai thành phần lại với Trong đó, giai đoạn hai hướng Ứng dụng mơ hình Sequence to Sequence vào xây dựng hệ thống trả lời tự động cho thư viện đến việc kiểm tra khả ứng dụng hàm số thực tế, thông qua việc áp dụng tập liệu khác có cấu trúc tương ứng Hai giai đoạn có chung hai thành phần chính: trích xuất đặc trưng thuật tốn Trong bước thứ nhất, sau tiền xử lý liệu thơ để chuẩn hóa liệu, q trình trích xuất đặc trưng giúp cho máy tính loại thành phần thuộc tính khơng cần thiết tìm thuộc tính có ảnh hưởng quan trọng đến việc tính tốn kết Trong bước thứ hai, dựa đặc trưng trích xuất, thuật tốn phân loại thường sử dụng để tìm hàm số giúp cho việc ánh xạ từ thuộc tính đầu vào tới kết Từ đó, hàm số sử dụng để dự đoán cho toán với đầu vào tương ứng Trong phần tiếp theo, mơ hình deep learning (học sâu) – nhánh Machine learning trình bày, nhằm giúp cho người đọc dễ dàng làm quen với mơ hình đề xuất 3.2 Mơ hình sequence to sequence (seq2seq) Như biết, xử lý ngôn ngữ tự nhiên thử thách lớn khoa học máy tính Lý máy tính làm việc với tín hiệu số hiểu ngôn ngữ người Với mục tiêu giúp cho máy tính hiểu ngôn ngữ người, tác giả đề xuất mơ hình Sequence to sequence [2] nhằm chuyển ngôn ngữ người thành ngôn ngữ máy tính Seq2seq[2] mơ hình deep learning (học sâu) – nhánh học máy đạt nhiều thành tựu ấn tượng lĩnh vực là: dịch máy, tóm tắt văn bản, dán nhãn văn bản… Thông thường, đầu vào mơ hình seq2seq chuỗi từ, ký tự, đầu chuỗi khác Mơ hình seq2seq thường gồm hai thành phần sau đây: encoder (bộ mã hóa) decoder (bộ giải mã) Encoder có nhiệm vụ mã hóa câu đầu vào thành vector mạng nơron hồi quy decoder giải mã vector thành câu đầu dựa mạng nơron hồi quy khác 663 664 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Hình mơ tả q trình để ánh xạ từ câu hỏi đến câu trả lời Cụ thể là, bước mã hóa (encoder), với đầu vào câu hỏi, câu tách thành từ Mỗi từ sau đại diện vector đưa vào mạng nơron để tính tốn tìm trạng thái ẩn Tiếp theo đó, trạng thái ẩn cuối sử dụng đại diện cho câu đầu vào, hay gọi vector trung gian Vector có chức gói gọn thơng tin câu đầu vào giúp cho giải mã (decoder) dự đốn thơng tin xác Trong bước giải mã, mạng nơron khác sử dụng nhận vector trung gian thành phần đầu vào thứ để dự đoán từ câu đầu Kết sau đánh giá dựa so sánh từ câu dự đốn câu trả lời thật có sẵn tập liệu sử dụng để huấn luyện Hình Mơ hình sequence to sequence GIẢI QUYẾT VẤN ĐỀ Trong mục này, chúng tơi trình bày chi tiết việc áp dụng mơ hình seq2seq vào việc xây dựng hệ thống trả lời tự động câu hỏi liên quan đến lĩnh vực thư viện Như biết, hàng năm thư viện tiếp nhận số lượng lớn tân sinh viên Chính thế, trùng lặp thắc mắc sinh viên sinh viên cũ thường xảy Điều gây không thống câu trả lời yếu tố thời gian người Ứng dụng mơ hình Sequence to Sequence vào xây dựng hệ thống trả lời tự động cho thư viện Để giải vấn đề này, đề xuất giải pháp sử dụng mơ hình seq2seq để ánh xạ câu hỏi tới câu trả lời Cụ thể là, câu hỏi người dùng chuyển đổi thành vector, sau đó, câu trả lời sinh dựa vector THÍ NGHIỆM Để kiểm tra khả việc áp dụng mơ hình seq2seq vào việc xây dựng hệ thống tự động trả lời câu hỏi, áp dụng tập liệu câu hỏi Thư viện Tạ Quang Bửu Tập liệu bao gồm 100 cặp câu hỏi trả lời chủ đề thống kê bảng Sau tiến hành tiền xử lý liệu, liệu đưa vào mơ hình để dự đoán câu trả lời dựa câu hỏi Độ xác mơ hình đánh giá dựa so sánh độ sai lệch câu trả lời dự đoán câu trả lời thực tế Kết cho thấy xác việc dự đốn câu trả lời khả quan đáp ứng nhu cầu bạn đọc trình bày hình Hình Thí nghiệm áp dụng mơ hình seq2seq vào tập liệu câu hỏi trả lời Thư viện Tạ Quang Bửu Bảng Dữ liệu câu hỏi câu trả lời thư viện Tạ Quang Bửu Loại câu hỏi Câu hỏi chung Phòng đọc Câu hỏi Câu trả lời Thời gian làm việc thư viện? Sáng: 8h đến 11h Chiều: 13h30 đến 17h Khi vào phòng đọc, em Bạn đọc phép mang theo giấy, vở, bút vào mang gì? phịng đọc Thư viện khơng chịu trách nhiệm đồ vật quý hiếm, có giá trị tiền bạc, điện thoại, máy ảnh bạn đọc 665 666 PHÁT TRIỂN MƠ HÌNH TRUNG TÂM TRI THỨC SỐ CHO CÁC THƯ VIỆN VIỆT NAM Phòng mượn tài liệu Sau mượn, trả máy tự Bạn hoàn tồn kiểm tra tài khoản ln động, em kiểm tra tài máy mượn trả, máy tra cứu khoản khơng? Gia hạn tài liệu Có cách gia hạn tài liệu? Có cách gia hạn tài liệu: Gia hạn trực tiếp cách đến phòng mượn thư viện để cán thư viện thực Gia hạn trang http://libopac.hust.edu.vn Link hướng dẫn http://library.hust.edu.vn/node/183 Tra cứu tài liệu Gia hạn qua email tvtqb@hust.edu.vn điện thoại cách gửi thông tin cá nhân vào mail yêu cầu hỗ trợ Làm để tra cứu tài liệu Bạn tìm liệu theo hai cách: thư viện? Qua hệ thống mục lục số phòng Phòng mượn sách tham khảo 102 Báo, tạp chí Tìm kiếm tài liệu qua trang tìm kiếm http:// libopac.hust.edu.vn/ Báo, tạp chí lưu trữ đâu? Báo, tạp chí xếp giá phịng Báo - Tạp chí Báo, tạp chí cũ xếp kho THẢO LUẬN Trong viết này, phương pháp đề xuất xây dựng giải pháp tự động phản hồi câu trả lời cho người dùng dựa yêu cầu cụ thể Điều hiểu việc ánh xạ câu hỏi người dùng vào tập câu trả lời có sẵn thư viện Hình việc áp dụng mơ hình seq2seq vào tập liệu câu hỏi trả lời Thư viện Tạ Quang Bửu đạt kết khả quan việc nâng cao chất lượng phục vụ bạn đọc Hệ thống tự động trả lời câu hỏi xây dựng nhằm mục đích sau: - Tăng thời gian phục vụ, giải đáp yêu cầu người dùng - Giảm chi phí nhân lực chất lượng cao Từ đó, thư viện có thêm nguồn lực để thực hoạt động khác - Câu trả lời có tính thống Ứng dụng mơ hình Sequence to Sequence vào xây dựng hệ thống trả lời tự động cho thư viện Tuy nhiên, phương pháp đề xuất áp dụng tập liệu nhỏ cần đánh giá tập liệu lớn Bên cạnh đó, mơ hình đề xuất cịn thiếu đánh giá từ phía người sử dụng chất lượng câu trả lời Chính thế, mơ hình đề xuất cần tích hợp vào hệ thống thư viện để nhận phản hồi từ phía người sử dụng Trong tương lai, chúng tơi áp dụng mơ hình đề xuất vào hệ thống sẵn có thư viện để đánh giá chất lượng mơ hình đề xuất KẾT LUẬN Trong viết này, để nâng cao chất lượng dịch vụ thư viện, đề xuất xây dựng hệ thống tự động trả lời câu hỏi người dùng Để làm điều này, sử dụng mơ hình phổ biến học máy seq2seq để ánh xạ câu hỏi câu trả lời Tuy nhiên, đánh giá người dùng hiệu mơ hình đánh giá tập liệu nhỏ Trong tương lai, chúng tơi tích hợp phương pháp đề xuất vào dịch vụ thư viện để thu thập đánh giá từ phía người sử dụng TÀI LIỆU THAM KHẢO Tiếng Việt https://github.com/tiepvupsu/ebookMLCB Tiếng Anh Sutskever, Ilya, Oriol Vinyals, and Quoc V Le (2014), “Sequence to sequence learning with neural networks.” Advances in neural information processing systems 667 ... mơ tả Ứng dụng mơ hình Sequence to Sequence vào xây dựng hệ thống trả lời tự động cho thư viện thí nghiệm việc áp dụng mơ hình đề xuất vào việc trả lời câu hỏi liên quan đến lĩnh vực thư viện. .. lượng cao Từ đó, thư viện có thêm nguồn lực để thực hoạt động khác - Câu trả lời có tính thống Ứng dụng mơ hình Sequence to Sequence vào xây dựng hệ thống trả lời tự động cho thư viện Tuy nhiên,... sinh viên sinh viên cũ thư? ??ng xảy Điều gây không thống câu trả lời yếu tố thời gian người Ứng dụng mơ hình Sequence to Sequence vào xây dựng hệ thống trả lời tự động cho thư viện Để giải vấn đề

Ngày đăng: 21/04/2021, 10:13

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w