1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận Văn Hệ Thống Trả Lời Tự Động Tiếng Việt Cho Công Tác Tuyển Sinh Đại Học.pdf

134 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Trang TRƢỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƢ LIỆU  BÁO CÁO NGHIÊN CỨU KHOA HỌC GIÁO VIÊN ĐỀ TÀI HỆ THỐNG TRẢ LỜI TỰ ĐỘNG TIẾNG VIỆT CHO CÔNG TÁC TUYỂN SINH ĐẠI HỌC NGUYỄN BÌNH TRỌNG ĐỒNG NA[.]

TRƢỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƢ LIỆU - - BÁO CÁO NGHIÊN CỨU KHOA HỌC GIÁO VIÊN ĐỀ TÀI: HỆ THỐNG TRẢ LỜI TỰ ĐỘNG TIẾNG VIỆT CHO CÔNG TÁC TUYỂN SINH ĐẠI HỌC NGUYỄN BÌNH TRỌNG ĐỒNG NAI, THÁNG 5/2012 TRƢỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƢ LIỆU - - BÁO CÁO NGHIÊN CỨU KHOA HỌC GIÁO VIÊN ĐỀ TÀI: HỆ THỐNG TRẢ LỜI TỰ ĐỘNG TIẾNG VIỆT CHO CÔNG TÁC TUYỂN SINH ĐẠI HỌC Thực hiện: Nguyễn Đình Liên Lƣơng Quốc Sơn Nguyễn Bình Trọng ĐỒNG NAI, THÁNG 5/2012 MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC HÌNH CHƢƠNG 1: TỔNG QUAN 1.1 Mục tiêu đề tài 1.1.1 Đặt vấn đề 1.1.2 Mục tiêu đề tài 1.2 Phạm vi nghiên cứu 1.3 Phương pháp nghiên cứu 1.3.1 Các nội dung cần triển khai 1.3.2 Điểm đề tài 1.3.3 Kết dự kiến đạt đề tài 1.4 Bố cục đề tài CHƢƠNG 2: KIẾN TRÚC HỆ THỐNG 2.1 Mô hình chức hệ thống 2.2 Các thành phần hệ thống 2.2.1 Thành phần liệu 2.2.2 Thành phần xử lý 10 2.2.3 Thành phần giao tiếp người dùng 10 2.3 Quy trình xử lý câu hỏi .11 2.3.1 Tiền xử lý câu hỏi 11 2.3.2 Phân tích câu hỏi 12 2.3.3 Tổng hợp liệu truy vấn để tiến hành truy vấn CSDL 13 2.3.4 Nhận kết hiển thị lên cho người dùng .13 CHƢƠNG 3: PHÂN TÍCH CÚ PHÁP CÂU HỎI DỰA TRÊN DCG 14 3.1 Cơ CFG DCG .14 3.1.1 Cơ CFG .14 3.1.1.1 Định nghĩa 14 3.1.1.2 Cây cú pháp 15 3.1.1.3 Sự mơ hồ (nhập nhằng) văn phạm phi ngữ cảnh 16 3.1.2 Cơ DCG 20 3.1.2.1 Định nghĩa 20 3.1.2.2 Quy tắc cú pháp: .20 3.1.2.3 Đối số DCG 21 3.1.2.4 Cây cú pháp DCG 21 3.2 Xây dựng cú pháp câu hỏi tuyển sinh dựa DCG .21 3.2.1 Ý tưởng xây dựng cú pháp .21 3.2.2 Xây dựng thành phần cho việc xây dựng cú pháp 39 3.2.2.1 Từ điển từ đơn 40 3.2.2.2 Định nghĩa từ tổ từ ghép .41 3.2.2.3 Định nghĩa từ “khuyết” 42 3.2.2.4 Định nghĩa nhóm từ đại diện cho từ đồng nghĩa .43 3.2.2.5 Định nghĩa thành phần “tên” “giá trị” cho đối tượng câu hỏi 45 3.2.2.6 Định nghĩa thành phần WHERE 47 3.2.2.7 Định nghĩa thành phần mặc định .47 3.2.2.8 Định nghĩa thành phần SELECT .47 3.2.2.9 Định nghĩa thành phần sử dụng chung câu hỏi 48 3.2.2.10 Các thành phần chung khác 49 3.2.2.11 Định nghĩa thành phần đại diện chung cho đối tượng nghi vấn 50 3.3 Cú pháp câu hỏi sử dụng hệ thống 51 CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH .52 4.1 Các thành phần hệ thống 52 4.2 Thành phần liệu .52 4.3 Thành phần xử lý 54 4.3.1 Tiền xử lý câu hỏi 54 4.3.1.1 Loại bỏ ký tự thừa 55 4.3.1.2 Chuyển mã tiếng việt 55 4.3.2 Phân tích cú pháp câu hỏi .57 4.3.4 Tổng hợp liệu để tiến hành truy vấn CSDL 58 4.3.4.1 Tổng hợp nút lại nút WHERE .59 4.3.4.2 Phát sinh câu truy vấn SQL 62 4.3.5 Xử lý kết trả lời 63 4.3.5.1 Câu lệnh SQL trả giá trị 64 4.3.5.2 Lệnh SQL không trả giá trị 64 4.3.5.3 Tìm cấu trúc gần 64 4.3.5.4 Khơng tìm cấu trúc gần 65 4.3.6 Ví dụ mô tả lại bước thành phần xử lý 65 4.4 Thành phần giao diện người dùng 67 4.4.1 Các công nghệ tảng mà hệ thống sử dụng 67 4.4.2 Giao diện hệ thống 68 4.5 Thử nghiệm đánh giá .71 4.5.1 Một số câu hỏi thử nghiệm hệ thống 71 4.5.2 Đánh giá hệ thống 72 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 74 5.1 Kết đạt hệ thống 74 5.2 Những điểm hạn chế hệ thống 75 5.3 Hướng phát triển 75 TÀI LIỆU THAM KHẢO PHỤ LỤC 1: ĐỊNH NGHĨA CÚ PHÁP CHO CÁC THÀNH PHẦN CỦA CÂU HỎI PHỤ LỤC 2: ĐỊNH NGHĨA CÚ PHÁP CHO CÁC DẠNG CÂU HỎI TRONG HỆ THỐNG PHỤ LỤC 3: CÁC LƢU ĐỒ XỬ LÝ TRONG HỆ THỐNG PHỤ LỤC 4: CÁC CÂU HỎI CHUẨN CỦA HỆ THỐNG DANH MỤC TỪ VIẾT TẮT CFG: Context Free Grammar DCG: Definite Clause Grammar CSDL: Cơ Sở Dữ Liệu SQL: Structured Query Language DANH MỤC HÌNH Hình 2.1: Mơ hình chức hệ thống Hình 2.2: Quy trình xử lý câu hỏi 11 Hình 2.3: Công đoạn tiền xử lý .11 Hình 2.4: Cơng đoạn phân tích câu hỏi 12 Hình 2.5: Cơng đoạn tổng hợp liệu truy vấn liệu 13 Hình 2.6: Cơng đoạn hiển thị kết .13 Hình 3.1 Cây cú pháp câu hỏi 16 Hình 3.2 Cây cú pháp câu hỏi – dạng thứ 17 Hình 3.3 Cây cú pháp câu hỏi – dạng thứ hai .18 Hình 3.4 Cây cú pháp câu hỏi – dạng thứ ba .18 Hình 3.5 Cây cú pháp câu hỏi – dạng thứ tư 19 Hình 3.6 Cây cú pháp câu hỏi 24 Hình 3.7 Cây truy vấn câu hỏi 30 Hình 3.8 Cây truy vấn câu hỏi – tối ưu 32 Hình 3.9 Cây truy vấn câu hỏi 37 Hình 3.10 Cây truy vấn câu hỏi .39 Hình 4.1 Các thành phần hệ thống .52 Hình 4.2 Mơ hình sở liệu hệ thống 53 Hình 4.3 Mơ hình quy trình xử lý công việc hệ thống .54 Hình 4.6 Cây truy vấn câu hỏi 59 Hình 4.7 Kết trả dạng danh sách 69 Hình 4.8 Trả lời cho dạng câu hỏi “có/khơng” .69 Hình 4.9 Khi câu hỏi nhập vào với tham số xác định bị sai 70 Hình 4.10 Thơng báo khơng phân tích câu hỏi 70 Hình 4.11 Gợi ý câu hỏi liên quan đến từ nhập 71 CHƢƠNG 1: TỔNG QUAN 1.1 Mục tiêu đề tài 1.1.1 Đặt vấn đề Thông tin tuyển sinh trường đại học phổ biến rộng rãi internet số tờ báo mạng, diễn đàn đưa lên website trường Tuy nhiên, thơng tin diễn đàn báo mạng thường ý kiến nhiều người nên trái chiều gây cảm giác ngờ vực, phân vân nơi người sử dụng Mặt khác, cách trình bày nội dung website trường lại khác nên gây khó khăn cho người quan tâm muốn có câu trả lời mong muốn Người dùng tốn nhiều thời gian công sức để truy cập website trường, duyệt qua nội dung trang web website đó, mong muốn tìm câu trả lời cần thiết Hiện chưa có cơng cụ tìm kiếm chun dụng cho thông tin tuyển sinh trường Học sinh phụ huynh học sinh muốn tìm kiếm thơng tin trường học ngành nghề tương lai dùng cơng cụ tìm kiếm web để tìm kiếm thơng tin Nhưng để có câu trả lời ưng ý địi hỏi nhiều thời gian cơng sức để duyệt qua câu gợi ý từ hệ thống tìm kiếm Đề tài “Hệ thống trả lời tự động tiếng Việt cho công tác tuyển sinh đại học” đưa giải pháp cho vấn đề tìm kiếm thơng tin dựa ngơn ngữ tự nhiên tiếng Việt nhằm giúp giải cho nhu cầu Người dùng cần đưa câu hỏi ngôn ngữ tự nhiên, hệ thống đáp trả lại câu trả lời tương ứng với câu hỏi cho người dùng Hệ thống đời với mục đích làm giảm cơng việc cho phận tuyển sinh trường đại học giúp cho em học sinh lớp 12 tìm hiểu, lựa chọn ngành nghề trường phù hợp với tương lai Việc xây dựng hệ thống tìm kiếm ngữ nghĩa tiếng việt hướng nghiên cứu cơng trình [1], [2], [3], [4], [5], [6], [7], [8], [9] 1.1.2 Mục tiêu đề tài Đề tài tập trung xây dựng mơ hình cơng cụ tìm kiếm truy vấn tiếng Việt cho vấn đề liên quan đến tuyển sinh, áp dụng cho trường Đại học Lạc Hồng mở rộng thêm cho nhiều trường khác Đề tài khơng tìm kiếm dựa từ khố hay cụm từ, khơng trả nội dung chứa từ khố hay cụm từ đó, mà nhận câu hỏi tiếng Việt người dùng nhập vào phân tích, xử lý để trả câu trả lời xác câu hỏi đặt Hệ thống cho phép người dùng đặt câu hỏi tiếng Việt để tìm kiếm thơng tin tuyển sinh Đó câu hỏi đơn liên quan đến thông tin mô tả ngành học, khoa, điểm chuẩn, khối thi, chuẩn đầu ra, chuyển ngành, Câu hỏi đặt cho hệ thống phải thỏa điều kiện sau: - Là câu hỏi đơn liên quan đến vấn đề tuyển sinh như: thông tin trường, ngành, khoa, điểm chuẩn, chuẩn đầu ra, học phí, - Câu hỏi phải chuẩn cú pháp ngôn ngữ tự nhiên không chứa từ viết tắt - Hệ thống không xử lý câu hỏi đa nghĩa câu hỏi có nhiều điều kiện lọc kết hợp “OR” với Việc hỗ trợ người dùng tìm kiếm thơng tin tuyển sinh câu truy vấn dạng ngơn ngữ tự nhiên có thuận lợi sau: - Người dùng dễ dàng đưa câu hỏi mức đơn giản phù hợp với nhu cầu thân - Các câu hỏi ngơn ngữ tự nhiên diễn đạt thơng tin cần tìm kiếm xác việc dùng từ khóa - Câu trả lời hệ thống đưa đáp ứng theo yêu cầu câu hỏi đặt ban đầu - Tập câu hỏi liên quan đến lĩnh vực tuyển sinh tác giả tham khảo [15], [16], [18], [19], Dưới số ví dụ câu hỏi mà hệ thống xử lý:  Trường đại học Lạc Hồng có ngành?  Trường đại học Lạc Hồng có dạy Ngành cơng nghệ Thơng tin không?  Điểm chuẩn ngành công nghệ thông tin năm 2011 trường đại học lạc hồng hệ đại học điểm?  Chuẩn đầu ngành cơng nghệ thơng tin gì?  1.2 Phạm vi nghiên cứu Như mục tiêu đề tài xác định trên, hệ thống giới hạn việc truy vấn tiếng Việt thông tin vấn đề tuyển sinh như: thông tin trường, ngành học, điểm chuẩn, khối thi, chuẩn đầu ra, Kết tìm kiếm câu trả lời tương ứng với nội dung truy vấn liệu có liên quan (nếu có) Nội dung câu truy vấn tiếng Việt phải đáp ứng yêu cầu sau: - Mỗi câu hỏi hỏi vấn đề trường, khoa, ngành, điểm chuẩn, dạng câu hỏi khẳng định “có/khơng” - Chỉ xử lý dạng câu hỏi đề cập trực tiếp, không xử lý câu hỏi có tính gián tiếp chứa ẩn ý - Chỉ xử lý câu truy vấn có cấu trúc đơn, câu không chứa nhiều thành phần ghép với liên từ “và”, “hoặc”, “hay”, … - Chỉ xử lý câu truy vấn có nghĩa rõ ràng, không nhập nhằng, không Lƣu đồ chuyển ký từ dạng mã kiểu gõ VNI ký tự tiếng việt có dấu thành strCH, KTUnicode, KTVNI idx=0; F idx

Ngày đăng: 19/06/2023, 09:53

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w