Luận văn công nghệ thông tin hệ thống trả lời tự động tiếng việt cho công tác tuyển sinh

134 638 0
Luận văn công nghệ thông tin hệ thống trả lời tự động tiếng việt cho công tác tuyển sinh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƢỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƢ LIỆU  BÁO CÁO NGHIÊN CỨU KHOA HỌC GIÁO VIÊN ĐỀ TÀI: HỆ THỐNG TRẢ LỜI TỰ ĐỘNG TIẾNG VIỆT CHO CÔNG TÁC TUYỂN SINH ĐẠI HỌC NGUYỄN BÌNH TRỌNG ĐỒNG NAI, THÁNG 5/2012 TRƢỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƢ LIỆU  BÁO CÁO NGHIÊN CỨU KHOA HỌC GIÁO VIÊN ĐỀ TÀI: HỆ THỐNG TRẢ LỜI TỰ ĐỘNG TIẾNG VIỆT CHO CÔNG TÁC TUYỂN SINH ĐẠI HỌC Thực hiện: Nguyễn Đình Liên Lƣơng Quốc Sơn Nguyễn Bình Trọng ĐỒNG NAI, THÁNG 5/2012 MỤC LỤC DANH MỤC TỪ VIẾT TẮT DANH MỤC HÌNH CHƢƠNG 1: TỔNG QUAN 1 1.1 Mục tiêu của đề tài 1 1.1.1 Đặt vấn đề 1 1.1.2 Mục tiêu của đề tài 2 1.2 Phạm vi nghiên cứu 3 1.3 Phương pháp nghiên cứu 4 1.3.1 Các nội dung cần triển khai 4 1.3.2 Điểm mới của đề tài 5 1.3.3 Kết quả dự kiến đạt được của đề tài 5 1.4 Bố cục của đề tài 5 CHƢƠNG 2: KIẾN TRÚC HỆ THỐNG 7 2.1 Mô hình chức năng của hệ thống 7 2.2 Các thành phần cơ bản của hệ thống 8 2.2.1 Thành phần dữ liệu 8 2.2.2 Thành phần xử lý 10 2.2.3 Thành phần giao tiếp người dùng. 10 2.3 Quy trình xử lý câu hỏi 11 2.3.1 Tiền xử lý câu hỏi 11 2.3.2 Phân tích câu hỏi 12 2.3.3 Tổng hợp dữ liệu trên cây truy vấn để tiến hành truy vấn CSDL 13 2.3.4 Nhận kết quả và hiển thị lên cho người dùng 13 CHƢƠNG 3: PHÂN TÍCH CÚ PHÁP CÂU HỎI DỰA TRÊN DCG 14 3.1 Cơ bản về CFG và DCG 14 3.1.1 Cơ bản về CFG 14 3.1.1.1 Định nghĩa 14 3.1.1.2 Cây cú pháp 15 3.1.1.3 Sự mơ hồ (nhập nhằng) trong văn phạm phi ngữ cảnh. 16 3.1.2 Cơ bản về DCG 20 3.1.2.1 Định nghĩa 20 3.1.2.2 Quy tắc cú pháp: 20 3.1.2.3 Đối số trong DCG. 21 3.1.2.4 Cây cú pháp trong DCG. 21 3.2 Xây dựng cú pháp các câu hỏi tuyển sinh dựa trên DCG. 21 3.2.1 Ý tưởng xây dựng cây cú pháp 21 3.2.2 Xây dựng các thành phần cơ bản cho việc xây dựng cú pháp 39 3.2.2.1 Từ điển từ đơn 40 3.2.2.2 Định nghĩa các từ tổ và từ ghép 41 3.2.2.3 Định nghĩa từ có thể “khuyết” 42 3.2.2.4 Định nghĩa nhóm từ đại diện cho các từ đồng nghĩa 43 3.2.2.5 Định nghĩa thành phần “tên” hoặc “giá trị” cho một đối tượng trong câu hỏi. 45 3.2.2.6 Định nghĩa các thành phần WHERE. 47 3.2.2.7 Định nghĩa các thành phần mặc định 47 3.2.2.8 Định nghĩa các thành phần SELECT 47 3.2.2.9 Định nghĩa các thành phần sử dụng chung của các câu hỏi 48 3.2.2.10 Các thành phần chung khác 49 3.2.2.11 Định nghĩa thành phần đại diện chung cho đối tượng nghi vấn 50 3.3 Cú pháp các câu hỏi sử dụng trong hệ thống 51 CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH 52 4.1 Các thành phần trong hệ thống 52 4.2 Thành phần dữ liệu 52 4.3 Thành phần xử lý 54 4.3.1 Tiền xử lý câu hỏi 54 4.3.1.1 Loại bỏ các ký tự thừa 55 4.3.1.2 Chuyển mã tiếng việt 55 4.3.2 Phân tích cú pháp câu hỏi 57 4.3.4 Tổng hợp dữ liệu để tiến hành truy vấn CSDL 58 4.3.4.1 Tổng hợp các nút lá lại trên mỗi nút WHERE 59 4.3.4.2 Phát sinh câu truy vấn SQL 62 4.3.5 Xử lý kết quả trả lời 63 4.3.5.1 Câu lệnh SQL trả về giá trị 64 4.3.5.2 Lệnh SQL không trả về giá trị 64 4.3.5.3 Tìm được cấu trúc gần đúng 64 4.3.5.4 Không tìm được cấu trúc gần đúng 65 4.3.6 Ví dụ mô tả lại các bước của thành phần xử lý 65 4.4 Thành phần giao diện người dùng 67 4.4.1 Các công nghệ và nền tảng mà hệ thống sử dụng 67 4.4.2 Giao diện của hệ thống 68 4.5 Thử nghiệm và đánh giá 71 4.5.1 Một số câu hỏi thử nghiệm trong hệ thống 71 4.5.2 Đánh giá hệ thống 72 CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 74 5.1 Kết quả đạt được của hệ thống 74 5.2 Những điểm hạn chế của hệ thống 75 5.3 Hướng phát triển 75 TÀI LIỆU THAM KHẢO PHỤ LỤC 1: ĐỊNH NGHĨA CÚ PHÁP CHO CÁC THÀNH PHẦN CỦA CÂU HỎI PHỤ LỤC 2: ĐỊNH NGHĨA CÚ PHÁP CHO CÁC DẠNG CÂU HỎI TRONG HỆ THỐNG PHỤ LỤC 3: CÁC LƢU ĐỒ XỬ LÝ TRONG HỆ THỐNG PHỤ LỤC 4: CÁC CÂU HỎI CHUẨN CỦA HỆ THỐNG DANH MỤC TỪ VIẾT TẮT CFG: Context Free Grammar DCG: Definite Clause Grammar CSDL: Cơ Sở Dữ Liệu SQL: Structured Query Language DANH MỤC HÌNH Hình 2.1: Mô hình chức năng của hệ thống. 7 Hình 2.2: Quy trình xử lý câu hỏi. 11 Hình 2.3: Công đoạn tiền xử lý. 11 Hình 2.4: Công đoạn phân tích câu hỏi. 12 Hình 2.5: Công đoạn tổng hợp dữ liệu và truy vấn dữ liệu. 13 Hình 2.6: Công đoạn hiển thị kết quả. 13 Hình 3.1 Cây cú pháp câu hỏi 16 Hình 3.2 Cây cú pháp câu hỏi – dạng cây thứ nhất. 17 Hình 3.3 Cây cú pháp câu hỏi – dạng cây thứ hai 18 Hình 3.4 Cây cú pháp câu hỏi – dạng cây thứ ba 18 Hình 3.5 Cây cú pháp câu hỏi – dạng cây thứ tư 19 Hình 3.6 Cây cú pháp câu hỏi. 24 Hình 3.7 Cây truy vấn của câu hỏi. 30 Hình 3.8 Cây truy vấn của câu hỏi – đã được tối ưu 32 Hình 3.9 Cây truy vấn của câu hỏi. 37 Hình 3.10 Cây truy vấn của câu hỏi. 39 Hình 4.1 Các thành phần trong hệ thống 52 Hình 4.2 Mô hình cơ sở dữ liệu của hệ thống. 53 Hình 4.3 Mô hình quy trình xử lý công việc của hệ thống. 54 Hình 4.6 Cây truy vấn của câu hỏi. 59 Hình 4.7 Kết quả trả về dưới dạng một danh sách. 69 Hình 4.8 Trả lời cho dạng câu hỏi “có/không”. 69 Hình 4.9 Khi câu hỏi nhập vào với tham số xác định bị sai. 70 Hình 4.10 Thông báo khi không phân tích được câu hỏi. 70 Hình 4.11 Gợi ý những câu hỏi liên quan đến từ được nhập. 71 1 CHƢƠNG 1: TỔNG QUAN 1.1 Mục tiêu của đề tài 1.1.1 Đặt vấn đề Thông tin tuyển sinh của các trường đại học đều được phổ biến rộng rãi trên internet ở một số tờ báo mạng, diễn đàn và được đưa lên website chính của từng trường. Tuy nhiên, các thông tin trên các diễn đàn và các báo mạng thường là ý kiến của nhiều người nên có thể sẽ trái chiều nhau gây ra cảm giác ngờ vực, phân vân nơi người sử dụng. Mặt khác, cách trình bày nội dung của mỗi website của từng trường lại khác nhau nên sẽ gây khó khăn cho người quan tâm muốn có được câu trả lời mong muốn. Người dùng sẽ tốn nhiều thời gian và công sức để truy cập mỗi website của từng trường, duyệt qua nội dung của các trang web trong mỗi website đó, mong muốn tìm được câu trả lời cần thiết. Hiện nay chưa có công cụ tìm kiếm chuyên dụng nào cho các thông tin tuyển sinh của các trường. Học sinh và phụ huynh của học sinh muốn tìm kiếm thông tin về trường học và ngành nghề tương lai thì có thể dùng các công cụ tìm kiếm web để tìm kiếm thông tin. Nhưng để có được câu trả lời ưng ý cũng đòi hỏi nhiều thời gian và công sức để duyệt qua các câu gợi ý từ những hệ thống tìm kiếm trên. Đề tài “Hệ thống trả lời tự động tiếng Việt cho công tác tuyển sinh đại học” đưa ra một giải pháp cho vấn đề tìm kiếm thông tin dựa trên ngôn ngữ tự nhiên bằng tiếng Việt nhằm giúp giải quyết cho những nhu cầu trên. Người dùng chỉ cần đưa ra những câu hỏi bằng ngôn ngữ tự nhiên, hệ thống sẽ đáp trả lại câu trả lời tương ứng với câu hỏi cho người dùng. Hệ thống ra đời cũng với mục đích làm giảm công việc cho bộ phận tuyển sinh của trường đại học và cũng giúp cho các em học sinh lớp 12 có thể tìm hiểu, lựa chọn được ngành nghề và trường phù hợp với mình trong tương lai. 2 Việc xây dựng các hệ thống tìm kiếm ngữ nghĩa bằng tiếng việt cũng là hướng nghiên cứu của các công trình [1], [2], [3], [4], [5], [6], [7], [8], [9]. 1.1.2 Mục tiêu của đề tài Đề tài tập trung xây dựng mô hình công cụ tìm kiếm bằng truy vấn tiếng Việt cho các vấn đề liên quan đến tuyển sinh, áp dụng cho trường Đại học Lạc Hồng và có thể mở rộng thêm cho nhiều trường khác. Đề tài không tìm kiếm dựa trên từ khoá hay cụm từ, do đó sẽ không trả về nội dung chứa từ khoá hay cụm từ đó, mà sẽ nhận một câu hỏi bằng tiếng Việt do người dùng nhập vào phân tích, xử lý để trả về câu trả lời chính xác đối với câu hỏi đặt ra. Hệ thống cho phép người dùng đặt ra các câu hỏi bằng tiếng Việt để tìm kiếm thông tin về tuyển sinh. Đó là các câu hỏi đơn liên quan đến những thông tin mô tả về ngành học, khoa, điểm chuẩn, khối thi, chuẩn đầu ra, chuyển ngành, Câu hỏi đặt cho hệ thống phải thỏa những điều kiện sau: - Là câu hỏi đơn liên quan đến vấn đề tuyển sinh như: thông tin về trường, ngành, khoa, điểm chuẩn, chuẩn đầu ra, học phí, - Câu hỏi phải đúng chuẩn cú pháp của ngôn ngữ tự nhiên không chứa các từ viết tắt. - Hệ thống không xử lý câu hỏi đa nghĩa hoặc các câu hỏi có nhiều điều kiện lọc kết hợp “OR” với nhau. Việc hỗ trợ người dùng tìm kiếm các thông tin tuyển sinh bằng các câu truy vấn dưới dạng ngôn ngữ tự nhiên có những thuận lợi sau: - Người dùng dễ dàng đưa ra các câu hỏi ở mức đơn giản phù hợp với nhu cầu hiện tại của bản thân. - Các câu hỏi bằng ngôn ngữ tự nhiên có thể diễn đạt được các thông tin 3 cần tìm kiếm chính xác hơn việc dùng các từ khóa. - Câu trả lời hệ thống đưa ra đáp ứng đúng theo yêu cầu của câu hỏi đặt ra ban đầu. - Tập các câu hỏi liên quan đến lĩnh vực tuyển sinh được tác giả tham khảo tại [15], [16], [18], [19], Dưới đây là số ví dụ về các câu hỏi mà hệ thống sẽ xử lý:  Trường đại học Lạc Hồng có bao nhiêu ngành?  Trường đại học Lạc Hồng có dạy Ngành công nghệ Thông tin không?  Điểm chuẩn của ngành công nghệ thông tin năm 2011 của trường đại học lạc hồng ở hệ đại học là bao nhiêu điểm?  Chuẩn đầu ra của ngành công nghệ thông tin là gì?  1.2 Phạm vi nghiên cứu Như mục tiêu của đề tài đã xác định ở trên, hệ thống chỉ giới hạn trong việc truy vấn bằng tiếng Việt các thông tin về vấn đề tuyển sinh như: các thông tin về trường, ngành học, điểm chuẩn, khối thi, chuẩn đầu ra, Kết quả tìm kiếm vì vậy sẽ là một câu trả lời tương ứng với nội dung truy vấn được và các dữ liệu có liên quan (nếu có). Nội dung của các câu truy vấn bằng tiếng Việt phải đáp ứng được các yêu cầu sau: - Mỗi câu hỏi sẽ hỏi một vấn đề về trường, khoa, ngành, điểm chuẩn, hoặc là một dạng câu hỏi khẳng định “có/không”. - Chỉ xử lý các dạng câu hỏi được đề cập trực tiếp, không xử lý các câu hỏi có tính gián tiếp hoặc chứa ẩn ý. - Chỉ xử lý các câu truy vấn có cấu trúc đơn, câu không chứa nhiều thành phần ghép với nhau bởi các liên từ như “và”, “hoặc”, “hay”, … - Chỉ xử lý các câu truy vấn có nghĩa rõ ràng, không nhập nhằng, không [...]... các điều kiện OR với nhau Bộ văn phạm xây dựng cho hệ thống này do đó cũng chỉ được giới hạn trong phạm vi truy tìm thông tin về vấn đề tuyển sinh và đáp ứng các câu hỏi tuân thủ các yêu cầu đặt ra 1.3 Phƣơng pháp nghiên cứu 1.3.1 Các nội dung cần triển khai Để xây dựng hệ thống trả lời tự động bằng ngôn ngữ tự nhiên tiếng Việt cho các câu hỏi liên quan đến vấn đề tuyển sinh như yêu cầu đặt ra, đề tài... đơn liên quan đến vấn đề tuyển sinh nhằm xác định chính xác các thông tin, từ đó sẽ tiến hành xây dựng một CSDL để lưu trữ các thông tin cung cấp cho câu trả lời của hệ thống - Dựa vào thông tin khảo sát trên tiến hành xây dựng tập các câu hỏi tự nhiên bằng tiếng Việt phù hợp với thông tin lưu trữ trong CSDL - Dựa trên tập câu hỏi đã xác định được, tiến hành định nghĩa một bộ văn phạm cú pháp hạn chế... triển hệ thống tra cứu các dữ liệu liên quan quan đến tuyển sinh với một số đặc thù riêng: - Xây dựng mới hoàn toàn bộ văn phạm phân tích cú pháp cho các câu hỏi trong phạm vi ứng dụng là các thông tin mô tả về vấn đề tuyển sinh của trường Bộ văn phạm được định nghĩa dựa trên DCG thay vì UBG hay CFG như các hệ thống khác có chức năng trả lời tự động tương tự - Sử dụng ngôn ngữ Prolog để biểu diễn bộ văn. .. việc tìm ra kết quả trả lời cho câu hỏi do người dùng nhập vào hệ thống Với hệ thống trả lời tự động các câu hỏi liên quan đến vấn đề tuyển sinh, các thông tin, dữ liệu được lưu trong hệ quản trị cơ sở dữ liệu SQL server nên việc truy xuất dữ liệu chủ yếu dựa trên câu lệnh SQL Câu lệnh SQL có cấu trúc như sau: SELECT [cho biết những dữ liệu cần lấy ra] FROM [các bảng dữ liệu có quan hệ với nhau] WHERE... thị lên cho người dùng Đặt câu hỏi Nhận câu trả lời Trả về kết quả Hình 2.1: Mô hình chức năng của hệ thống Hệ thống chỉ hỗ trợ xử lý những câu hỏi đơn và “thuần” với ngôn ngữ tự nhiên Những câu hỏi mà hệ thống hỗ trợ được là các câu hỏi đơn về thông tin của trường đại học, khoa, ngành học, thông tin về điểm chuẩn, về khối thi, về chuẩn đầu ra, Ví dụ một số câu hỏi sử dụng hỏi đáp trong hệ thống: -... Trình bày từng bước để xây dựng hoàn thiện hệ thống Giới thiệu chương trình thử nghiệm của hệ thống Tiến hành đánh giá hệ thống - Chương 5: Kết luận và hƣớng phát triển - Phần tài liệu tham khảo và phụ lục 7 CHƢƠNG 2: KIẾN TRÚC HỆ THỐNG 2.1 Mô hình chức năng của hệ thống Với tập cú pháp được định nghĩa trước, hệ thống tiếp nhận câu hỏi tiếng việt từ người dùng thông qua giao diện chương trình(Web) Tiến... Nghiên cứu các giải pháp tiền xử lý câu hỏi nhằm tách các thành phần của câu, đồng thời giải quyết các vấn đề phát sinh khi hệ thống xử lý tiếng Việt - Phân tích kết quả trả về sau khi phân tích cú pháp, từ đó tiến hành tổng hợp dữ liệu và truy vấn CSDL để tìm ra câu trả lời - Xử lý dữ liệu trả về sau khi truy vấn CSDL, phát sinh câu trả lời cùng các thông tin liên quan, phù hợp với câu hỏi người dùng... nghiên cứu 6 - Chương 2 Kiến trúc hệ thống: Trình bày tổng quát về hệ thống gồm chức năng, kiến trúc và đề ra các giải pháp để giải quyết vấn đề đặt ra - Chương 3 Phân tích cú pháp câu hỏi tuyển sinh bằng DCG: Đi sâu phân tích phương pháp xây dựng bộ văn phạm hạn chế cho hệ thống bằng văn phạm DCG Đây là thành phần quan trọng nhất trong các hệ thống xử lý ngôn ngữ tự nhiên - Chương 4 Xây dựng chƣơng... ngữ tự nhiên Tức là loại bỏ những ký tự đặc biệt, loại bỏ những khoảng trắng thừa, có trong câu hỏi 2.2.3 Thành phần giao tiếp ngƣời dùng - Người dùng và hệ thống giao tiếp với nhau thông qua giao diện Web - Hệ thống được xây dựng dựa trên Microsoft Studio 2010 với nền NET Frameworks 4.0 - Sử dụng thư viện JQuery để xử lý các thao tác trên web browser, làm giảm công việc cho server - Sử dụng công nghệ. .. khác quan tâm, 8 2.2 Các thành phần cơ bản của hệ thống 2.2.1 Thành phần dữ liệu Sau khi tiến hành khảo sát tổng thể thành phần dữ liệu phục vụ trả lời cho các câu hỏi liên quan đến vấn đề tuyển sinh Thành phần dữ liệu chủ yếu cần lưu trữ để trả lời là: các thông tin về Trường, khoa, ngành, chuyển ngành, khối thi, điểm chuẩn, chuẩn đầu ra, Các trường thông tin cụ thể của các đối tượng được liệt kê trong . tài Hệ thống trả lời tự động tiếng Việt cho công tác tuyển sinh đại học” đưa ra một giải pháp cho vấn đề tìm kiếm thông tin dựa trên ngôn ngữ tự nhiên bằng tiếng Việt nhằm giúp giải quyết cho. Ngành công nghệ Thông tin không?  Điểm chuẩn của ngành công nghệ thông tin năm 2011 của trường đại học lạc hồng ở hệ đại học là bao nhiêu điểm?  Chuẩn đầu ra của ngành công nghệ thông tin. ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƢ LIỆU  BÁO CÁO NGHIÊN CỨU KHOA HỌC GIÁO VIÊN ĐỀ TÀI: HỆ THỐNG TRẢ LỜI TỰ ĐỘNG TIẾNG VIỆT CHO CÔNG TÁC TUYỂN SINH ĐẠI HỌC NGUYỄN

Ngày đăng: 07/10/2014, 10:51

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan