Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
1,36 MB
Nội dung
TRƢỜNG ĐẠI HỌC VINH KHOA CÔNG NGHỆ THÔNG TIN TRỊNH THỊ HƢƠNG BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Tên đồ án: XÂY DỰNG WEBSITE DỰ ĐOÁN LỖI TỪ VỰNG CỦA VĂN BẢN TIẾNG VIỆT Nghệ An, tháng 01 năm 2016 TRƢỜNG ĐẠI HỌC VINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Tên đồ án: XÂY DỰNG WEBSITE DỰ ĐOÁN LỖI TỪ VỰNG CỦA VĂN BẢN TIẾNG VIỆT Sinh viên thực hiện: Lớp: Trịnh Thị Hƣơng – 1151073747 52k2 - CNTT Giáo viên hướng dẫn: ThS Phạm Trà My Nghệ An, tháng 01 năm 2016 Đồ án tốt nghiệp đại học LỜI CẢM ƠN Ngày nay, công nghệ thông tin ngày phát triển tỏ rõ tầm quan trọng tất lĩnh vực, nói cơng nghệ thơng tin trở thành thƣớc đo để đánh giá phát triển xã hội đại - nơi mà ngƣời dần khỏi cách làm việc thủ cơng, thơ sơ dần tiến đến tin học hóa tất lĩnh vực để cơng việc có hiệu hơn, tiết kiệm thời gian nhân lực Việc nghiên cứu giải thuật, ứng dụng điều hƣớng tới sinh viên theo học công nghệ thông tin Trong đề tài trình bày kết trình nghiên cứu “Xây dựng website dự đốn lỗi từ vựng văn tiếng Việt” Trong trình thực tơi nhận đƣợc giúp đỡ nhiệt tình từ giảng viên Khoa công nghệ thông tin Nhân dịp xin gửi lời cảm ơn đến Khoa Công nghệ Thông tin tạo hội giúp đƣợc tham gia học hỏi, rèn luyện kỹ cần thiết để thực đồ án tốt nghiệp cuối khóa Đặc biệt tơi xin gửi lời cảm ơn đến ThS Phạm Trà My quan tâm góp ý cho đề tài sẵn sàng trả lời tất thắc mắc cần thiết, giúp tơi hồn thành tốt làm Mặc dù có nhiều cố gắng nhƣng kiến thức hạn chế với kinh nghiệm chƣa có nên khơng tránh khỏi thiếu sót Vì tơi mong nhận đƣợc ý kiến đóng góp bổ sung thầy giáo bạn để đề tài tơi đƣợc hồn thiện Tôi xin chân thành cảm ơn! Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT Đồ án tốt nghiệp đại học LỜI MỞ ĐẦU Hiện nay, vấn đề kiểm tra lỗi tả từ vựng văn tiếng Việt vấn đề quan trọng, đƣợc nhiều cá nhân, đơn vị giới quan tâm, nghiên cứu triển khai Hiện phần mềm Tiếng Anh có cơng cụ hỗ trợ nhƣ Microsoft Office Word, Word Perfect, Vietkey Office… Đối với Tiếng Việt, tốn kiểm lỗi tả từ vựng cịn ít, chƣa đáp ứng hết nhu cầu ngƣời dùng Vì vậy, với mong muốn xây dựng ứng dụng thử nghiệm, đồ án này, thực kiểm tra lỗi tả từ vựng văn tiếng Việt thực thi website Để xây dựng tốn phát triển đề tài này, tơi sử dụng ngơn ngữ lập trình Java Servlet-JSP với hệ sở liệu MySQL, Apache TomCat server Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT Đồ án tốt nghiệp đại học MỤC LỤC LỜI CẢM ƠN LỜI MỞ ĐẦU MỤC LỤC CHƢƠNG 1: TIẾNG VIỆT 1 Giới thiệu .5 1 Bài toán kiểm lỗi tả .5 1 Một số phƣơng pháp kiểm lỗi tả Một số đặc điểm tiếng Việt Đặc điểm tiếng Việt 2 Các đơn vị tiếng Việt Mơ hình âm tiết tiếng Việt thành tố Error! Bookmark not defined Một số lỗi tả phƣơng pháp kiểm lỗi mức độ âm tiết Lỗi đánh máy Lỗi phát âm 3 Một số phƣơng pháp kiểm lỗi mức độ âm tiết Mục tiêu đề tài CHƢƠNG 2: XÂY DỰNG ỨNG DỤNG KIỂM TRA LỖI TỪ VỰNG CỦA TIẾNG VIỆT 10 Bài toán 10 2 Ý tƣởng giải 11 Thiết kế sở liệu 11 Thuật tốn 13 2.4.1 Thuật toán tách từ 13 2.4.2 Thuật tốn tìm kiếm liệu 14 2.4.3 Thuật toán đọc xử lý file 15 CHƢƠNG 3: KẾT QUẢ 16 Giao diện chƣơng trình 17 Kết chƣơng trình 20 Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT Đồ án tốt nghiệp đại học Thực kiểm lỗi cho đoạn văn đƣợc nhập từ bàn phím 20 2 Thực kiểm lỗi tả cho tệp văn *.pdf 21 3 Kiểm lỗi cho file MS-Word .22 Kiểm lỗi cho file txt 23 KẾT LUẬN 24 TÀI LIỆU THAM KHẢO 27 Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT Đồ án tốt nghiệp đại học CHƢƠNG 1: TIẾNG VIỆT 1 Giới thiệu 1 Bài toán kiểm lỗi tả Bài tốn kiểm lỗi tả tốn phức tạp, đƣợc khơng đơn vị nghiên cứu, phát triển có tính ứng dụng cao, đặc biệt ứng dụng soạn thảo hay nhận dạng văn Chƣơng trình kiểm lỗi tả cần có hai chức chính, lỗi sai đƣa gợi ý sửa lỗi Tuy nhiên, chức kiểm lỗi tả đƣợc tích hợp nhiều ứng dụng soạn thảo tiếng Việt (Vietkey, Unikey) không đƣa gợi ý cho ngƣời dùng lựa chọn Đề giải tồn này, có số cá nhân nhóm nghiên cứu phát triển phần mềm kiểm lỗi tả nhƣ: - Kiểm lỗi tả hệ soạn thảo ngoại tuyến (offline): Chƣơng trình kiểm lỗi tả CopCon ThS Mai Tuấn Khơi - Giảng viên khoa CNTT ĐH Sƣ Phạm Kỹ Thuật TPHCM; Chƣơng trình kiểm lỗi tả Cú Mèo Cơng ty cổ phần đầu tƣ phát triển công nghệ SOBIC phát triển Các phần mềm có khả sửa lỗi tả mức độ từ ghép hai ba âm tiết - Kiểm lỗi tả trực tuyến hầu hết cho tiếng Anh Các chƣơng trình kiểm lỗi tả trực tuyến đa số chƣa hồn chỉnh, dừng lại mức độ kiểm lỗi âm tiết 1 Một số phương pháp kiểm lỗi tả Ta tạm chia hai phƣơng pháp dựa vào luật dựa vào thống kê Các phƣơng pháp dựa theo luật có ƣu điểm không tốn nhiều tài nguyên thiết bị, nhiên chƣơng trình sử dụng phƣơng pháp khơng có khả học, kết chƣa cao nhiều ngôn ngữ Có nhiều phƣơng pháp dựa vào thống kê khác đƣợc đƣa để kiểm lỗi tả tiếng Anh Trong phạm vi giới hạn đồ án này, xin liệt kê vài phƣơng pháp đƣợc đánh giá bật "Một số nghiên cứu sử dụng mơ hình kênh nhiễu nhƣ Mays cộng (1990), Church Gale (1991), Brill Moore (2001)" "Phƣơng pháp lai Bayes, sử dụng hàm phân loại Naive Bayes" "Kết hợp mơ hình trigram từ loại hàm phân loại Bayes" Các phƣơng pháp: "học dựa biến đổi (Mangu Brill, 1997), phân tích nghĩa ẩn Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT Đồ án tốt nghiệp đại học (Jones Martin, 1997), differential-grammars (Powers, 1997), Winnow - based (Golding Roth, 1999), khôi phục cố kết từ vựng (Hirst Budanitsky, 2001)" Tuy nhiên với đồ án này, chọn phƣơng pháp để xây dựng web tìm kiếm Từ điển từ tiếng Việt mà không dùng phƣơng pháp học hay tính khoảng cách từ Một số đặc điểm tiếng Việt Đặc điểm tiếng Việt Tiếng Việt ngôn ngữ đơn lập, có tính độc lập cao, có khả biểu ý nghĩa, có cấu trúc chặt chẽ, quan hệ từ đƣợc biểu thị phƣơng tiện nằm từ nhƣ trật tự từ, hƣ từ Đặc điểm đƣợc áp dụng cho ngữ âm, ngữ pháp ngữ nghĩa 2 Các đơn vị tiếng Việt Tiếng (âm tiết) Âm tiết đơn vị phát âm tự nhiên nhỏ ngôn ngữ Trong tiếng Việt, âm tiết đƣợc phát với điệu, viết đƣợc tách rời với âm tiết khác khoảng trống Trên chữ viết, âm tiết tiếng Việt đƣợc ghi thành "chữ" đọc thành "tiếng" Có nhiều cách mơ tả cấu trúc âm tiết tiếng Việt khác nhau: thành phần, hay thành phần Từ Từ đơn vị ngôn ngữ có nghĩa hồn chỉnh Từ tiếng Việt bao gồm hay nhiều âm tiết xếp theo thứ tự định Có từ đơn, từ ghép từ láy Từ tiếng Việt có khả hoạt động tự độc lập mặt cú pháp Từ tiếng Việt khơng có biến dạng (số nhiều, ngơi thứ, bị động) nhƣ nhiều ngôn ngữ khác Câu Câu từ hợp thành theo quy tắc định Trong tiếng Việt, quy tắc đa dạng Dấu Tiếng Việt gồm có điệu: ngang, huyền, hỏi, ngã, sắc, nặng Trong có dấu thanh, ngang khơng đƣợc biểu diễn dấu Trong văn viết tay, dấu đƣợc đánh tùy tiện, không đặt vào vị trí âm Tuy nhiên, văn đánh máy, việc đánh dấu cần tuân thủ số Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT Đồ án tốt nghiệp đại học quy tắc sau: - Với âm tiết có chữ nguyên âm, dấu đƣợc đặt vào chữ ngun âm Vd: à, ì ạch, ọ ẹ, ủ rũ, ọp ẹp, ục ịch, hà, lán, giá, giục, quả, quỹ, quỵt (Chú ý: gi qu đƣợc coi phụ âm) - Với âm tiết, mà âm tiết cần có chữ nguyên âm mang dấu phụ (Ă, Â, Ê, Ô, Ơ, Ƣ) không kể kết thúc chữ gì, dấu đặt chữ (riêng ƢƠ, dấu đặt Ơ) Vd: thuyền, trƣờng - Với âm tiết có hai chữ nguyên âm kết thúc chữ phụ âm tổ hợp chữ phụ âm, dấu đƣợc đặt vào chữ nguyên âm cuối - Với trƣờng hợp cịn lại dấu đƣợc đặt vào chữ nguyên âm áp chót Hiện với trƣờng hợp nguyên âm oa, oe, uy mà khơng có phụ âm kết thúc nhƣ hịa, hịe, thùy có hai cách đánh dấu là: hịa hoà Ở đề tài thống cách viết thứ - hòa - giống nhƣ quy tắc đánh dấu Một số lỗi tả phƣơng pháp kiểm lỗi mức độ âm tiết Các vấn đề tả tiếng Việt gặp phải gồm có: sai cấu tạo, cấu tạo nhƣng khơng có từ điển, có từ điển nhƣng sai ngữ nghĩa, sai cấu tạo nhƣng từ tiếng nƣớc ngồi Các lỗi sai cấu tạo âm tiết dễ dàng phát cách sử dụng từ điển, tập âm tiết Dƣới tập trung đến lỗi sai nghĩa từ âm tiết có từ điển Có nhiều nguyên nhân khác dẫn đến lỗi trên, luận văn xét đến hai nguyên nhân: đánh máy lỗi phát âm (tiếng địa phƣơng) Lỗi đánh máy Đây loại lỗi phổ biến, hầu hết mức âm tiết Loại lỗi gây lỗi sai tả đơn lỗi tả phức Có bốn loại lỗi tả đơn: - Chèn: nhƣ nhầm “việt” thành “việtt” - Xoá: nhƣ nhầm “nguời" thành “ngƣờ" - Thay thế: nhƣ nhầm "vào" thành “fào" - Hoán vị: nhƣ nhầm “vui” thành “viu” - Thừa kí tự dấu: nhƣ “hƣơng” thành “huongw”, “hóa” thành “hoas” - Sai luật: nhƣ “hóa” thành “hố” Lỗi tả phức kết hợp liên tiếp số lỗi tả đơn Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT Đồ án tốt nghiệp đại học Để phát đƣợc lỗi đƣa gợi ý sửa lỗi, cần xác định đƣợc tập nhầm lẫn âm tiết âm tiết mà ta xét Với lỗi đánh máy, tập nhầm lẫn âm tiết đƣợc sinh gồm âm tiết có "khoảng cách soạn thảo" (edit distance) so với âm tiết xét nhỏ ngƣỡng chọn trƣớc Khoảng cách soạn thảo cho biết mức độ khác xâu ban đầu xâu bị biến đổi Lỗi phát âm Lỗi phát âm xảy văn viết tay văn đánh máy Lỗi xảy thói quen "đọc nhƣ viết nhƣ thế", lỗi thƣờng gắn liền với phƣơng ngữ VD: nhiều → nhìu; hỏi → họi; ngủ → ngũ; yêu → iu; → củng thế; chiếu → chíu… Tập nhầm lẫn phát âm có tính đối xứng, tức âm tập nhầm lẫn với Để đƣa đề nghị cho loại lỗi cần tra âm tiết dựa vào bảng lỗi phát âm 3 Một số phương pháp kiểm lỗi mức độ âm tiết Văn tiếng Việt đặt dấu cách âm tiết từ Một từ có một, hai nhiều âm tiết nên có nhiều cách phân chia âm tiết thành từ, gây nhập nhằng Việc phân giải nhập nhằng gọi tốn tách từ Tiêu chí quan trọng toán tách từ đƣơng nhiên độ xác Hiện ngƣời ta đạt đƣợc độ xác lên đến 97% tính theo từ Tuy nhiên tính theo câu (số câu đƣợc tách hồn tồn đúng/tổng số câu) độ xác khoảng 50% Đây vấn đề nghiêm trọng bƣớc xử lý sau nhƣ phân tích ngữ pháp, ngữ nghĩa từ bị tách sai có ảnh hƣởng tồn đến cách phân tích câu Ngồi tiêu chí độ xác tách từ quan trọng với ứng dụng thực tế Tiếng Việt sinh ngữ - ln ln biến đổi Các từ Việt nhƣ vay mƣợn đƣợc tạo hàng ngày Nếu ứng dụng không xử lý đƣợc từ hiệu giảm dần theo thời gian Hiện có số cách tiếp cận toán tách từ nhƣ sau: - So khớp cực đại: Ghép âm tiết thành từ dài có nghĩa từ điển Phƣơng pháp ƣu điểm nhanh, nhƣng có hạn chế, ví dụ nhƣ khơng xử lý đƣợc từ khơng có từ điển Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT Đồ án tốt nghiệp đại học Hình 2: Diagram sở liệu Thuật tốn Khi nhập văn tải file văn lên (*.text, *.doc, *.docx, *.pdf), Website tách từ cho văn so sánh từ văn với Cơ sở liệu MySQL Nếu từ sai, chƣa có từ điển xuất với tần suất thấp đƣa cảnh báo từ bị sai đánh dấu từ bị lỗi 2.4.1 Thuật tốn tách từ Tách từ trình xử lý nhằm mục đích xác định ranh giới từ câu văn, hiểu đơn giản tách từ trình xác định từ đơn, từ ghép… có câu Đối với xử lý ngơn ngữ, để xác định cấu trúc ngữ pháp câu, xác định từ loại từ câu, yêu cầu thiết đặt phải xác định đƣợc đâu từ câu Vấn đề tƣởng chừng đơn giản với ngƣời nhƣng máy tính, tốn khó giải Chính lý tách từ đƣợc xem bƣớc xử lý quan trọng hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt ngôn ngữ thuộc vùng Đông Á theo loại hình ngơn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, tiếng Việt Với ngôn ngữ thuộc loại hình này, ranh giới từ khơng đơn giản khoảng trắng nhƣ ngôn ngữ thuộc loại hình hịa kết nhƣ tiếng Anh…, Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 13 Đồ án tốt nghiệp đại học mà có liên hệ chặt chẽ tiếng với nhau, từ cấu tạo nhiều tiếng Vì ngôn ngữ thuộc vùng Đông Á, vấn đề toán tách từ khử đƣợc nhập nhằng ranh giới từ Trong ứng dụng này, sau nhập văn tải file văn lên hệ thống thực tách từ, lƣu danh sách từ vào danh sách từ Các bƣớc thực thuật toán tách từ phƣơng pháp so khớp cực đại: Ví dụ tách từ cho câu: Tôi sinh viên khoa công nghệ thông tin - Bƣớc 1: Tách âm tiết sử dụng lớp StringTokenizer java Tôi |là |sinh |viên |khoa |công |nghệ |thông |tin | - Bƣớc 2: Ghép âm tiết lại với nhau, ghép từ đến âm tiết với Tôi |là |sinh |viên |khoa |công |nghệ |thông |tin |Tôi |là sinh |sinh viên |viên khoa |khoa công |công nghệ |nghệ thông |thông tin |Tôi sinh |là sinh viên |sinh viên khoa |viên khoa công |khoa công nghệ |công nghệ thông |nghệ thông tin | Kết đƣợc 25 từ đƣợc đƣa vào danh sách từ - Bƣớc 3: Kiểm tra từ nhận đƣợc bƣớc có nghĩa hay khơng Để kiểm tra xem từ có hay khơng so sánh với sở liệu, khơng có sở liệu từ sai Kết tìm đƣợc 12 từ đƣa vào danh sách từ có nghĩa: Tơi| là| sinh| viên| khoa| cơng| nghệ| thơng| tin| sinh viên| công nghệ| thông tin | - Bƣớc 4: So khớp cực đại Quy ƣớc Kết lấy từ có nghĩa dài từ điển Tôi |là |sinh viên |khoa |công nghệ |thông tin | Và kết cuối sau tách từ cho câu Nếu câu có âm tiết viết sai lỗi tả coi nhƣ âm tiết đƣợc tách từ Ví dụ: sinh viene -> sinh| viene Từ “viene” đƣợc đƣa vào danh sách từ sai đƣợc phát lỗi 2.4.2 Thuật tốn tìm kiếm liệu Sau tách từ, ta dùng thuật toán tìm kiếm để tìm từ sai tả (những từ khơng có sở liệu xuất ít) Nhƣ trình bày trên, chia từ điển thành bảng để việc tìm kiếm nhanh chóng Lấy chữ từ xét xem thuộc bảng nào, chữ Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 14 Đồ án tốt nghiệp đại học a (A), ă (Ă), â(Â), b (B) tìm kiếm bảng tbl_a_to_b Nếu chữ c (C), d (D), đ (Đ), e (E), ê (Ê) tìm kiếm bảng tbl_c_to_f Nếu chữ đầu g (G), h (H), i (I), k (K), l (L) tìm kiếm bảng tbl_g_to_l Nếu chữ đầu m (M), n (N), o (O), (Ơ), (Ơ) tìm kiếm bảng tbl_m_to_o Nếu chữ đầu p (P), q (Q), r (R), s (S), t (T) tìm kiếm bảng tbl_p_to_t Trƣờng hợp cịn lại tìm kiếm bảng tbl_u_to_z 2.4.3 Thuật toán đọc xử lý file Trong đề tài này, hỗ trỡ xử lý định dạng file: *.text, *.doc, *.docx, *.pdf Khi upload file lên website nhận biết định dạng file, sau gọi tới lớp đọc file tƣơng ứng hiển thị toàn nội dung file sau đƣợc kiểm lỗi Đối với file txt, sử dụng thuật tốn đọc dịng, hệ thống xử lý dòng hết file Đối với file MS_Word, đọc file theo đoạn (pharagrap), hệ thống xử lý đoạn hết file Đối với file pdf, theo chipter, hệ thống xử lý chipter hết file Để hiển thị nội dung file theo định dạng, sử dụng thẻ html tƣơng ứng với kí tự định dạng file Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 15 Đồ án tốt nghiệp đại học Sau sơ đồ mô tả thuật toán trên: Bắt đầu Đầu vào (keyboard or file) Khởi tạo danh sách từ Từ có danh sách S Tô đỏ, gạch chân từ sai Đ In nội dung input lên web Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 16 Đồ án tốt nghiệp đại học CHƢƠNG 3: KẾT QUẢ Giao diện chương trình Giao diện trang chủ: Hình Giao diện trang chủ Trong đó: - Menu ngang gồm: Trang chủ, giới thiệu, trợ giúp liên hệ Khi ấn vào menu “Trang chủ” nhấn vào logo trả giao diện trang chủ Nhấn menu “Giới thiệu” trả thơng tin đề tài - Ơ textArea bên trái dùng đề nhập đoạn văn cần kiểm lỗi - Ô textArea bên phải dùng để hiển thị đoạn văn vừa nhập sau kiểm lỗi - Nút “Kiểm lỗi” có chức kiểm lỗi đoạn văn đƣợc nhập vào ô bên trái in đoạn văn đƣợc kiểm lỗi ô bên phải - Nút “Xóa văn bản” có chức xóa hết đoạn văn vừa đƣợc ngƣời dùng nhập vào - Lable “Tổng từ sai” cho biết số từ sai đoạn văn đƣợc nhập vào Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 17 Đồ án tốt nghiệp đại học Giao diện trang giới thiệu nhấn menu giới thiệu Hình Hình ảnh trang giới thiệu website Giao diện trang thông báo bấm nút “Kiểm lỗi” mà chƣa nhập đoạn văn: Hình 3 Giao diện có thơng báo lỗi Khi ngƣời dùng chƣa nhập đoạn văn mà nhấn kiểm lỗi trang website hiển thị thông báo lỗi cho ngƣời dùng biết Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 18 Đồ án tốt nghiệp đại học Hình ảnh chức chuyển tới trang upload tệp tin: Hình Hình ảnh link chuyển trang Giao diện trang upload tệp tin Hình Hình ảnh trang upload tệp tin Nhấn nút chọn tệp để upload tệp tin cần kiểm lỗi lên hệ thống Nhấn nút kiểm lỗi để kiểm lỗi cho tệp tin vừa chọn Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 19 Đồ án tốt nghiệp đại học Giao diện trang chọn file khác txt, doc, docx, pdf Ví dụ pptx, jpg Hình Giao diện có thơng báo lỗi Kết chƣơng trình Thực kiểm lỗi cho đoạn văn nhập từ bàn phím Bài viết đƣợc dịch phần mềm dịch máy Microsoft ngƣời dịch Microsoft cung cấp viết ngƣời dịch viết máy dịch để bạn truy cập vào tất viết Cơ sở Kiến thức bặng ngôn ngữ bạn Tuy nhiên, viết máy dịch khơng phải lúc cụng hồn hảo Loại viết chứa sai sót từ vựng, cú pháp ngữ pháp, giống nhƣ ngƣời nƣớc ngồi mắc sai sót nói ngơn ngữ bạn Microsoft không chịu trách nhệm thiếu xác, sai sót thiệt hại việc dịch sai nội dung hoạt động sử dụng khách hàng gây Microsoft thƣờng xuyên cập nhật phần mềm dịch máy Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 20 Đồ án tốt nghiệp đại học Sau test website đƣa kết là: Bài viết đƣợc dịch phần mềm dịch máy Microsoft ngƣời dịch Microsoft cung cấp viết ngƣời dịch viết máy dịch để bạn truy cập vào tất viết Cơ sở Kiến thức bặng ngôn ngữ bạn Tuy nhiên, viết máy dịch khơng phải lúc cụng hồn hảo Loại viết chứa sai sót từ vựng, cú pháp ngữ pháp, giống nhƣ ngƣời nƣớc ngồi mắc sai sót nói ngơn ngữ bạn Microsoft khơng chịu trách nhệm thiếu xác, sai sót thiệt hại việc dịch sai nội dung hoạt động sử dụng khách hàng gây Microsoft thƣờng xuyên cập nhật phần mềm dịch máy 2 Thực kiểm lỗi tả cho tệp văn *.pdf Hình Giao diện chọn file *.pdf Cụ thể chọn tệp VKX.pfd để thực kiểm lỗi Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 21 Đồ án tốt nghiệp đại học Sau bấm nút “Kiểm lỗi” kết thu đƣợc: Hình Nội dung file sau đƣợc kiểm lỗi Kết cho thấy số lỗi từ không bao gồm từ khơng có sở liệu (Bộ Từ điển tiếng Việt) 3 Kiểm lỗi cho file.doc Hình Hình ảnh trang chọn file MS-Word Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 22 Đồ án tốt nghiệp đại học Cụ thể chọn file testDocFile.doc để kiểm lỗi Sau nhấn kiểm lỗi kết thu đƣợc: Hình 10 Kết thu đƣợc kiểm lỗi fileDocTest doc Những từ sai từ khơng có từ điển từ tiếng Việt Kiểm lỗi cho file txt Hình 3.11 Hình ảnh trang chọn file testTextFile.txt Cụ thể kiểm lỗi cho file testTextFile.txt Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 23 Đồ án tốt nghiệp đại học Sau nhấn nút kiểm lỗi, kết thu đƣợc: Hình 3.12 Hình ảnh kết thu đƣợc kiểm lỗi file testTextFile.txt 3.2.5 Kiểm lỗi cho file.docx Hình 3.13 Hình ảnh trang chọn file.docx Cụ thể chọn file testDocxFile.docx Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 24 Đồ án tốt nghiệp đại học Sau bấm kiểm lỗi, kết thu đƣợc: Hình 3.14 Hình ảnh kết thu đƣợc sau bấm kiểm lỗi file testDocxFile.docx Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 25 Đồ án tốt nghiệp đại học KẾT LUẬN i Kết đạt đƣợc đề tài - Xây dựng đƣợc từ điển tiếng Việt có dung lƣợng lớn - Xây dựng đƣợc chƣơng trình kiểm lỗi từ vựng website, sử dụng chƣơng trình mà khơng cần cài đặt - Đƣa số lƣợng từ sai đánh đấu từ sai - Có thể kiểm lỗi cho tệp tin đoạn văn đƣợc nhập vào - Sử dụng đƣợc nhiều kĩ thuật xử lý chuỗi Java web JSP-Servlet ii Hạn chế đề tài - Chƣa đƣa đƣợc gợi ý sửa lỗi - Do từ điển (cơ sở liệu lớn) nên tốc độ chƣơng trình cịn chƣa cao - Ngơn ngữ ngày đa dạng có nhiều từ giớ trẻ nên từ điển chƣa cập nhật đƣợc iii Hƣớng khắc phục phát triển đề tài Qua kết đề tài cho thấy, độ xác tƣơng đối nhƣng khả học cịn lớn Chúng tơi tin tƣởng độ xác đƣợc nâng cao đáng kể kết hợp với phƣơng pháp học máy định khác Đồng thời sử dụng thuộc tính tri thức ngôn ngữ nâng cao Nhƣ vậy, đề tài cho thấy khả ứng dụng rộng rãi chƣơng trình thực thi web - internet, đặc biệt với tốn có tính ứng dụng thực tiễn cao nhƣ toán kiểm tra lỗi tả Hƣớng nghiên cứu chúng tơi là: - Sử dụng tri thức ngôn ngữ nâng cao nhƣ từ, ngữ pháp, ngữ nghĩa - Cho phép ngƣời dùng cập nhật từ vào từ điển - Tối ƣu hóa tốc độ nhớ cho q trình kiểm lỗi - Kết hợp mơ hình ngơn ngữ có khả học để kiểm lỗi tả nhƣ Maximum Entropy - Trong thời gian tới, đề xuất ý tƣởng Xây dựng ứng dụng kiểm lỗi di động Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 26 Đồ án tốt nghiệp đại học TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Gia Định, Trần Thanh Lƣơng, Thuật toán kiểm tra âm tiết tiếng việt dựa luật cấu tạo âm tiết, 2004, Trƣờng Đại học Khoa học - Đại học Huế, Tạp chí khoa học - Đại học Huế, Số 25 [2] Đoàn Xuân Kiên, Xem lại vấn đề ngữ âm tiếng Việt: Cấu trúc âm tiết, 1998, Tập san Hợp Lƣu 48 [3] Ngonngu net, Âm tiết đặc điểm âm tiết tiếng Việt, 2006, http://ngonngu net/index php?p=60 [4] Hồng Phê, Chính tả tiếng Việt, 1999, Nhà xuất Đà Nẵng [5] Hoàng Phê (chủ biên), Từ điển tiếng Việt, 2002, Nhà xuất Đà Nẵng [6] Nguyễn Phƣơng Thái, Kiểm lỗi tả cảm ngữ cảnh tiếng Việt, 2003, Luận văn thạc sĩ, Hà Nội [7] Đinh Thị Phƣơng Thu, Huỳnh Quyết Thắng, Nguyễn Văn Lợi Sử dụng cấu tạo âm tiết tiếng Việt hai thành phần tồn kiểm tra tả tiếng Việt, 10/2007, tạp chí BCVT & CNTT kỳ [8] Hồ Bảo Tú, Nghiên cứu phát triển số sản phẩm thiết yếu xử lí tiếng nói văn tiếng Việt" (VLSP) Tiếng Anh [9] Daniel Jurafsky & James H Martin Speech and language processing: An introduction to speech recognition, computational linguistics and natural language processing 2007 [10] Department of Computer Science, Columbia University, 2009, N-Grams and Corpus Linguistics, Lecture [11] Georgetown University, Introduction to Natural Language Processing, Autumn 2005, Course's Lecture [12] Julia Hockenmaier, Introduction to NLP, Fall 2008, Lecture 3: Probability theory, N-grams and perplexity Trịnh Thị Hƣơng - Lớp 52K2 - Khoa CNTT 27 ... kiểm lỗi hiển thị toàn nội dung file đƣợc kiểm lỗi - Về Thuật toán: Khi nhập văn tải lên văn bản, Website tách từ cho nội dung văn sau tìm từ văn từ điển từ tiếng Việt (Cở sở liệu), từ chƣa có từ. .. với Tiếng Việt, toán kiểm lỗi tả từ vựng cịn ít, chƣa đáp ứng hết nhu cầu ngƣời dùng Vì vậy, với mong muốn xây dựng ứng dụng thử nghiệm, đồ án này, tơi thực kiểm tra lỗi tả từ vựng văn tiếng Việt. .. THÔNG TIN BÁO CÁO ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Tên đồ án: XÂY DỰNG WEBSITE DỰ ĐOÁN LỖI TỪ VỰNG CỦA VĂN BẢN TIẾNG VIỆT Sinh viên thực hiện: Lớp: Trịnh Thị Hƣơng – 1151073747 52k2 - CNTT