Tìm hiểu hiện tượng nhập nhằng trong tiếng Việt và khả năng khắc phục trong soạn thảo văn bản

26 320 0
Tìm hiểu hiện tượng nhập nhằng trong tiếng Việt và khả năng khắc phục trong soạn thảo văn bản

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

-1- Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG ĐINH THỊ MỸ HẠNH TÌM HIỂU HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT VÀ KHẢ NĂNG KHẮC PHỤC TRONG SOẠN THẢO VĂN BẢN Chuyên ngành Mã số : KHOA HỌC MÁY TÍNH : 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 Footer Page of 126 Header Page of 126 -2- Cơng trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Phản biện 1: PGS.TS Võ Trung Hùng Phản biện 2: TS Trương Công Tuấn Luận văn ñược bảo vệ trước Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 19 tháng năm 2011 * Có thể tìm hiểu luận văn tại: - Trung tâm Thơng tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng Footer Page of 126 -3- Header Page of 126 MỞ ĐẦU Lý chọn ñề tài Trong hệ thống ngơn ngữ giới nay, tiếng Việt xem ngơn ngữ có phong phú đa dạng Chính phong phú phức tạp tiếng Việt dẫn đến khó khăn cho người sử dụng theo cách thông thường xử lý máy tính Do ảnh hưởng lịch sử hình thành phát triển, tiếng Việt có tính lai tạp mặt ngơn ngữ гất cao, ñặc biệt ảnh hưởng từ tiếng Hán tiếng Pháp Sự đa nghĩa tiếng Việt đặc điểm bật Ngồi ra, thói quen sử dụng người vùng miền, tiếng Việt lại có biến đổi định, chí thiếu quán cách nói, cách viết Tiếng Việt ngày cịn bị ảnh hưởng thói quen sử dụng ngôn ngữ Internet thiết bị truyền thơng đại điện thoại di động, điều làm xuất thêm nhiều từ ñược người dùng Internet ñiện thoại di ñộng chấp nhận, ñặc biệt giới trẻ câu “Buổi sinh nhật hôm vui wá!” Sự nhập nhằng nói, viết diễn ñạt ý nghĩ ñã dẫn ñến hiểu lầm nhiều mức độ khác Và đặc điểm nói làm cho tiếng Việt vốn ñã phức tạp lại phức tạp hơn, ñặc biệt số yếu tố ñã làm ñi tính sáng giá trị tốt đẹp vốn có tiếng Việt Gìn giữ sáng tiếng Việt yêu cầu nhiệm vụ quan trọng, cần thiết giới phê bình, nghiên cứu văn hóa, ngơn ngữ lẫn người sử dụng thơng thường Xuất phát từ phân tích quan sát trên, nhiệm vụ nghiên cứu đề tài “Tìm hiểu tượng nhập nhằng Footer Page of 126 Header Page of 126 -4- tiếng Việt khả khắc phục soạn thảo văn bản” tìm hiểu vấn ñề xử lý ngơn ngữ, xử lý tiếng Việt, đặc biệt vấn ñề “nhập nhằng” tiếng Việt, từ ñó ñề xuất giải pháp để khắc phục q trình soạn thảo văn cho số trường hợp cụ thể tượng nhập nhằng Mục tiêu ñề tài Đề tài tập trung nghiên cứu xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt Tác giả bỏ nhiều thời gian nghiên cứu tượng nhập nhằng thường xảy tiếng Việt Đề tài nghiên cứu khả xử lý nhập nhằng xây dựng ứng dụng hỗ trợ xử lý nhập nhằng tiếng Việt phạm vi hẹp Phạm vi giới hạn ñề tài Vấn ñề nhập nhằng tiếng Việt có nhiều trường hợp, nhiên phạm vi ñề tài tác giả giới hạn lại số nội dung sau ñây: Về mặt lý thuyết: Tìm hiểu lý thuyết XLNN XLTV, lịch sử hình thành phát triển tiếng Việt; Tìm hiểu lý thuyết vấn đề liên quan ñến tượng nhập nhằng tiếng Việt; Tìm hiểu vấn đề soạn thảo văn bản, phần mềm soạn thảo văn bản; Đề xuất giải pháp ñể giải HTNN viết sai lỗi tả tiếng Việt (giới hạn lỗi tả cấp ñộ âm tiết) HTNN xác ñịnh sai phạm vi, ranh giới từ tiếng Việt Về mặt chương trình: Xây dựng ứng dụng hỗ trợ xử lý nhập nhằng gây lỗi tả mặt âm tiết, đồng thời chương trình hỗ trợ việc tách văn thành từ ñộc lập ñể người sử dụng dễ dàng hiểu nội dung văn Kết việc tách từ ñược sử dụng phục vụ cho việc phát triển ứng dụng, giải vấn ñề phân tích nhập nhằng phân loại từ cú pháp câu Footer Page of 126 Header Page of 126 -5- Phương pháp nghiên cứu Thu thập, tìm hiểu, phân tích tài liệu thơng tin có liên quan đến đề tài; Phân tích thiết kế hệ thống chương trình; Triển khai xây dựng chương trình; Kiểm thử, nhận xét đánh giá kết Ý nghĩa khoa học thực tiễn ñề tài Ý nghĩa khoa học: Hiểu ñược vấn ñề xử lý tiếng Việt, xử lý nhập nhằng tiếng Việt; Đề xuất ñược giải pháp ñể hỗ trợ xử lý số tượng nhập nhằng soạn thảo văn tiếng Việt Ý nghĩa thực tiễn: Hiểu ứng dụng ñược kiến thức tảng xử lý tiếng Việt ñể xử lý nhập nhằng tiếng Việt; Có thể ứng dụng chương trình để hỗ trợ xử lý nhập nhằng soạn thảo văn tiếng Việt; Có ý nghĩa việc bảo tồn phát huy giá trị tiếng Việt Bố cục luận văn Mở ñầu Chương 1: Cơ sở lý thuyết xử lý ngôn ngữ tự nhiên Chương 2: Soạn thảo văn tượng nhập nhằng soạn thảo văn Chương 3: Đề xuất giải pháp khắc phục nhập nhằng Kết luận Footer Page of 126 -6- Header Page of 126 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1 Khái niệm 1.1.2 Các bước xử lý 1.1.3 Các tốn ứng dụng 1.2 TÌM HIỂU VỀ TIẾNG VIỆT VÀ VẤN ĐỀ XỬ LÝ TIẾNG VIỆT 1.2.1 Sự hình thành tiếng Việt 1.2.2 Đặc ñiểm tiếng Việt 1.2.2.1 Đặc ñiểm ngữ âm 1.2.2.2 Đặc ñiểm từ vựng 1.2.2.3 Đặc ñiểm ngữ pháp 1.2.3 Từ tiếng Việt 1.2.3.1 Khái niệm Từ ñơn vị nhỏ có nghĩa, có kết cấu vỏ ngữ âm bền vững, hồn chỉnh, có chức gọi tên, ñược vận dụng ñộc lập, tái tự lời nói để tạo câu[7] 1.2.3.2 Đơn vị cấu tạo Đơn vị sở ñể cấu tạo từ tiếng Việt tiếng, mà ngữ âm học gọi âm tiết 1.2.3.3 Phương thức cấu tạo 1.2.4 Biến thể từ 1.3 HIỆN TƯỢNG NHẬP NHẰNG TRONG XỬ LÝ VĂN BẢN TIẾNG VIỆT 1.3.1 Khái niệm Nhập nhằng tượng mà nói, viết diễn tả từ ngữ, ý nghĩ mơ hồ, không rõ nghĩa có nhiều nghĩa làm cho Footer Page of 126 Header Page of 126 -7- người ñọc người nghe không phân biệt rõ ràng, gây hiểu lầm Khái niệm nhập nhằng hiểu theo cách khác sau: lĩnh vực, vấn đề thường đề cập, trình bày ñược hiểu theo chuẩn ñịnh, chuẩn quy ước văn quy ước ngầm định Khi tất cách hiểu, cách đề cập trình bày vấn đề nằm ngồi phạm vi chuẩn xem nhập nhằng 1.3.2 Một số tượng nhập nhằng 1.3.2.1 Hiện tượng nhập nhằng viết sai tả tiếng Việt Việc viết sai lỗi tả tiếng Việt mức ñáng báo ñộng, tượng diễn phổ biến giới trẻ, ñặc biệt giới trẻ sử dụng internet mà xuất nhiều phương tiện thơng tin đại chúng văn Nhà nước Chính sai sót tả gây nhập nhằng việc tiếp nhập thơng tin Trong cộng đồng sử dụng mạng Internet hình thành lớp từ chưa có từ ñiển tiếng Việt, ñiều dẫn ñến thói quen sử dụng từ ngữ khơng tốt người sử dụng, đặc biệt giới trẻ Có trường hợp sai tả dẫn đến hệ xấu hình thành thói quen nói sai, viết sai hiểu sai vấn ñề 1.3.2.2 Hiện tượng nhập nhằng phạm vi, ranh giới từ Trong số ngơn ngữ tiếng Anh, việc xác định ranh giới, phạm vi từ dễ dàng, từ riêng lẻ ñã mang trọn vẹn nghĩa ranh giới chúng xác định thơng qua Footer Page of 126 Header Page of 126 -8- khoảng trắng Tiếng Việt khác, ngơn ngữ đơn lập nên từ vựng chủ yếu từ ghép khoảng trắng khơng phải ln ln ranh giới xác Trong tiếng Việt, việc xác định xác phạm vi, ranh giới từ hỗ trợ nhiều cho q trình khử nhập nhằng, đặc biệt ngơn ngữ viết Đây mục đích mà báo cáo muồn ñề cập ñến 1.3.2.3 Hiện tượng nhập nhằng tính đa nghĩa từ Bất ngơn ngữ có từ đa nghĩa, ngun nhân nhiều khái niệm có sắc thái ý nghĩa khơng hồn tồn trùng khớp lại có nhiều nét tương ñồng Hiện tượng gây cản trở cho việc dịch tự động, chương trình khơng biết dịch từ đa nghĩa theo nghĩa nhóm nghĩa 1.3.2.4 Hiện tượng nhập nhằng ngữ nghĩa sử dụng từ ñồng âm Hai từ ñồng âm với nghĩa hai từ có âm giống mang nghĩa khác nhau, cịn đồng tự hai từ mặt ký tự giống nghĩa khác Do ñặc ñiểm tiếng Việt từ ñồng âm thường từ đồng tự, ngơn ngữ khác hai tượng không trùng khớp Cũng phải phân biệt từ ñồng tự với từ ña nghĩa, từ đa nghĩa, nghĩa có chung nguồn gốc ln có nét tương đồng trong từ đồng tự chúng khơng có liên hệ nguồn gốc với nhau, nghĩa chúng khác rõ rệt Ví dụ Từ “kiếm” hai câu sau ñây hai từ ñồng tự: Anh ta sử dụng kiếm ñiêu luyện Kiếm ăn khó Footer Page of 126 Header Page of 126 -9- 1.3.2.5 Hiện tượng nhập nhằng cách phân biệt từ loại Từ loại yếu tố quan trọng việc xác định nghĩa xác từ xếp từ thành câu hồn chỉnh dịch tự động Từ loại giúp khử nhập nhằng, thân số trường hợp nhập nhằng Với ngôn ngữ không biến tiếng Việt, vấn đề xác định từ loại yêu cầu thuật toán phức tạp hơn, bắt buộc phải phân tích cú pháp Mặt khác, nội ngành ngơn ngữ chưa có thống phân loại từ loại cho tiếng Việt 1.3.2.6 Hiện tượng nhập nhằng sử dụng tiếng Việt không dấu Ngày nay, việc gõ tiếng Việt không dấu trở nên phổ biến hơn, ñặc biệt ứng dụng Internet ñiện thoại di ñộng email, chat… Gõ tiếng Việt không dấu giúp người sử dụng thao tác nhanh hơn, số trường hợp lại gây hiểu nhầm tai hại ñối với người ñọc 1.3.2.7 Hiện tượng nhập nhằng vận dụng Cùng câu sử dụng hồn cảnh khác ngơn ngữ nói ngơn ngữ viết, cách sử dụng cách phù hợp gây “nhập nhằng”, hiểu lầm cho người ñọc người nghe Hiện tượng đặc biệt phổ biến tiếng Việt, tiếng Việt vốn đa nghĩa, đa sắc thái có tính biểu cảm cao Điều địi hỏi người sử dụng ngôn ngữ khéo léo tinh tế định, có hiểu biết mức độ cần thiết để tận dụng hết giá trị biểu đạt ngơn ngữ Footer Page of 126 Header Page 10 of 126 - 10 - 1.3.2.8 Hiện tượng nhập nhằng phân tích cú pháp tiếng Việt Trong phân tích cú pháp tiếng Việt, tượng nhập nhằng xảy nhiều mức, từ mức từ, từ loại ñến mức cú pháp câu Điều dẫn đến câu phân tích theo nhiều cách khác nhau, có vài cách phân tích số 1.4 KẾT LUẬN CHƯƠNG Chương trình bày khái niệm bước để xử lý ngơn ngữ tự nhiên, tốn liên quan đến xử lý ngơn ngữ tự nhiên nhận dạng tiếng nói, tổng hợp tiếng nói, dịch tự động, tìm kiếm văn bản, tóm tắt văn bản… Ngồi cịn trình bày hình thành, phát triển số ñặc ñiểm bật tiếng Việt Chương dành số lượng lớn trang ñể trình bày khái niệm tượng nhập nhằng phổ biến xử lý văn tiếng Việt Footer Page 10 of 126 Header Page 12 of 126 - 12 - tư duy, suy nghĩ trao đổi với người khác để có cách trình bày vấn đề xác Thứ hai, phát HTNN trình STVB Nếu sử dụng phần mềm hỗ trợ STVB tiếng Việt (mà khơng sử dụng kèm chương trình hỗ trợ tìm khử nhập nhằng cho văn tiếng Việt khác) có cách để phát nhập nhằng người sử dụng phải tự làm thủ công Tuy nhiên cách làm khơng đem lại nhiều hiệu độ xác khơng cao Do thiết phải có chương trình hỗ trợ phát khử nhập nhằng ñi kèm Thứ ba, phát HTNN sau việc STVB hoàn tất Nghĩa người sử dụng mở tệp văn ñã soạn thảo, sau gọi chức phát nhập nhằng ñể xử lý Theo tìm hiểu tác giả, chưa có hệ thống hay chương trình xử lý tất HTNN STVB tiếng Việt Các kết có giải pháp cho số trường hợp cụ thể 2.4 CÁC GIẢI PHÁP XỬ LÝ NHẬP NHẰNG ĐÃ CĨ TRƯỚC ĐÂY Trong báo “Phân tích cú pháp tiếng Việt sử dụng văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác xuất” [25], nhóm tác giả ñã nghiên cứu biện pháp xử lý tượng nhập nhằng tượng cú pháp phụ thuộc từ phân tích cú pháp tiếng Việt Bài báo đề xuất việc xây dựng cơng cụ phân tích cú pháp dựa văn phạm phi ngữ cảnh với luật có chứa thơng tin xác suất từ vựng Trong tài liệu [24], nhóm tác giả trình bày chi tiết thử nghiệm gán nhãn từ loại cho văn tiếng Việt cách áp dụng gán nhãn QTAG Công việc gán nhãn từ loại cho văn Footer Page 12 of 126 Header Page 13 of 126 - 13 - xác ñịnh từ loại từ phạm vi văn Khi hệ thống văn ñược gán nhãn, hay nói cách khác ñã ñược thích từ loại ứng dụng rộng rãi hệ thống tìm kiếm thơng tin, ứng dụng tổng hợp tiếng nói, hệ thống nhận dạng tiếng nói hệ thống dịch máy Để tiến hành việc gán nhãn từ loại, nhóm tác giả tiến hành ba bước: Phân tách xâu ký tự thành từ, gán nhãn tiên nghiệm, ñịnh kết gán nhãn, tức loại bỏ nhập nhằng Văn ñã ñược phân ñoạn từ (WORD SEGMENTED TEXT) Tập luật nhận diện POS Mơ hình gán nhãn cho từ (POS Tagging Model) Kho ngữ liệu tiếng Việt Văn ñã ñược gán từ loại (POS TAGGED TEXTS) Hình 2.1 Mơ hình tổng qt tốn gán nhãn từ loại 2.5 KẾT LUẬN CHƯƠNG Chương trình bày vấn ñề soạn thảo văn bản, khái niệm ký tự, từ, câu, dịng, đoạn Trong chương cịn trình bày khái niệm tượng nhập nhằng tiếng Việt Ngồi cịn trình bày số tượng nhập nhằng phổ biến tiếng Việt, qua thấy tượng nhập nhằng phổ biến khó ñể xử lý cách triệt ñể Phần cuối chương, tác giả trình bày kết nghiên cứu vấn đề xử lý nhập nhằng ngơn ngữ tự nhiên nói chung tiếng Việt nói riêng Footer Page 13 of 126 Header Page 14 of 126 - 14 CHƯƠNG 3: ĐỀ XUẤT GIẢI PHÁP KHẮC PHỤC NHẬP NHẰNG 3.1 GIỚI THIỆU VÀ PHÂN TÍCH BÀI TỐN Trong số tượng nhập nhằng mà tác giả ñã ñề cập ñến chương 2, phần này, tác giả chọn số tượng nhập nhằng cụ thể để đề xuất giải pháp khắc phục Đó nhập nhằng viết sai lỗi tả tiếng Việt cấp ñộ âm tiết (viết âm tiết khơng có tiếng Việt) nhập nhằng khơng xác ñịnh ñược phạm vi, ranh giới từ văn Nếu xem quy tắc tả tiếng Việt miền chuẩn, nằm miền chuẩn chấp nhận khơng gây nhập nhằng trường hợp viết sai tả tiếng Việt nằm ngồi miền chuẩn (tức viết sai tả) ñều ñược xem nhập nhằng Trong phạm vi báo cáo này, tác giả xử lý phần lỗi tả tiếng Việt mắc phải dẫn ñến tượng nhập nhằng, ñó xử lý lỗi tả mức âm tiết tiếng Việt Ví dụ phát lỗi tả từ ñưa loạt gợi ý ñể người sử dụng chỉnh sửa lỗi Xét ví dụ tượng nhập nhằng khơng xác định phạm vi, ranh giới từ Ví dụ 32 Người dân thuộc địa bàn thị có mức thu nhập bình qn đầu người cao vùng nơng thơn Trong ví dụ 32, số đối tượng, ví dụ trẻ em xác định khơng phạm vi từ dẫn ñến hiểu sai (nhập nhằng) nội dung câu Cụm từ thuộc địa bàn có hai cách phân tách, Footer Page 14 of 126 - 15 - Header Page 15 of 126 thứ thuộc/ ñịa bàn (nghĩa nằm ñịa bàn ñó), thứ hai thuộc ñịa/ bàn (nghĩa người dân thuộc địa bàn bạc điều đó, ñây cách phân tách sai ngữ cảnh trên) Trong tiếng Việt tồn nhiều cụm từ tương tự Do đó, xác định phạm vi từ ñọc ñúng hiểu ñúng, nghĩa tránh nhập nhằng Giải tốn xác ñịnh phạm vi, ranh giới từ sở quan trọng ñể thực gán nhãn từ loại cho từ, phân tích cú pháp câu tiếng Việt Giải tốn: Bài tốn chia làm hai bước xử lý: - Xử lý lỗi tả tiếng Việt mức âm tiết - Phân tách văn thành từ ñộc lập Kho liệu âm tiết tiếng Việt Văn cần xử lý ĐẦU VÀO Từ điển tiếng Việt Xử lý lỗi tả TV mức âm tiết Tách văn thành từ riêng biệt Q TRÌNH XỬ LÝ Văn ñược xử lý nhập nhằng (*) ĐẦU RA Giao diện người sử dụng Người sử dụng Hình 3.1 Mơ hình kiến trúc tổng quan trình xử lý Giới hạn phạm vi giải toán: Khái niệm văn ñược ñề cập ñến báo cáo văn chứa chữ, khơng chứa hình vẽ Footer Page 15 of 126 Header Page 16 of 126 - 16 - Chương trình chưa xử lý ñịnh dạng văn ñầu vào Thời ñiểm xử lý văn bản: Chương trình tích hợp ứng dụng Microsoft Word chương trình lấy nội dung văn ñược soạn thảo sẵn ñể xử lý Người sử dụng tùy chọn tiến hành kiểm lỗi tả mức âm tiết đối văn đầu vào, sau tiến hành phân tách từ Chương trình khơng gọi thực thi cách tự động mà cần có thao tác người sử dụng Loại nhập nhằng xử lý: tốn giải nhập nhằng gây sai sót lỗi tả tiếng Việt mức âm tiết hỗ trợ xử lý nhập nhằng có khơng xác định ñược phạm vi, ranh giới từ tiếng Việt Kho liệu tiếng Việt: Chương trình dùng kho liệu hỗ trợ cho trình xử lý: Kho liệu âm tiết tiếng Việt: lưu 10.000 âm tiết tiếng Việt, hỗ trợ cho chức tìm sửa lỗi, đồng thời cập nhập thêm từ thơng qua bước xử lý lỗi tả Các âm tiết ñược lưu bảng mã Unicode Từ ñiển tiếng Việt hỗ trợ chức tách từ gồm gần 24.000 từ tiếng Việt Ngồi ra, để hỗ trợ tốt cho việc tách từ, tác giả bổ sung vào kho liệu từ tiếng Việt số danh từ riêng phổ biến 3.2 THIẾT KẾ CƠ SỞ DỮ LIỆU VÀ CÁC THUẬT TỐN CHÍNH 3.2.1 Thiết kế sở liệu Cơ sở liệu cho tốn tương đối đơn giản, liệu chia thành phần riêng biệt, phần phục vụ cho chức kiểm lỗi tả tiếng Việt mức âm tiết, phần phục vụ cho chức tách từ văn Footer Page 16 of 126 - 17 - Header Page 17 of 126 3.2.1.1 Dữ liệu cho chức kiểm lỗi tả tiếng Việt mức âm tiết Dữ liệu cho chức xử lý nhập nhằng sai lỗi tả tiếng Việt mức âm tiết gồm bảng AmTiet (Âm tiết) chứa tất âm tiết có tiếng Việt AM_TIET STT Am_Tiet Hình 3.4 Dữ liệu lưu âm tiết tiếng Việt Bảng 3.1 Bảng từ ñiển liệu Tên trường Kiểu liệu Kích thước Giải thích STT Autonumber Integer Thứ tự mục từ Am_Tiet Text 10 Âm tiết tiếng Việt 3.2.1.2 Dữ liệu cho chức tách từ văn Để phục vụ cho giải thuật này, ta cần xây dựng sở liệu chứa tất từ có tiếng Việt Tác giả xây dựng kho liệu sở tập tin liệu phần mềm VietDict tác giả Hồ Ngọc Đức, tải miễn phí địa http://vietdict.viet.net Tập tin lưu với *.txt, chứa gần 24.000 từ giải thích từ (Việt – Việt), cấu trúc trình bày gần giống từ điển tiếng Việt Tác giả ñã viết thủ tục ñơn giản ñể tiến hành tìm tách lấy tất từ tiếng Việt tập tin ñể lưu vào sở liệu Đây chưa phải tất từ có tiếng Việt, liệu để demo chương trình Dữ liệu chức tách từ bảng liệu chứa từ có tiếng Việt (căn vào từ ñiển tiếng Việt), gồm trường liệu Footer Page 17 of 126 - 18 - Header Page 18 of 126 số thứ tự, mục từ Word kích thước từ Length Ví dụ từ ban mai có Length =2, từ sành sanh có Length =3 Trường Length dùng phục vụ cho số giải thuật chương trình TuTV stt Word Lenght Hình 3.5 Dữ liệu chứa từ tiếng Việt Mỗi bảng có trường liệu: Bảng 3.2 Từ ñiển liệu Tên trường Kiểu liệu Kích thước stt Autonumber Integer Thứ tự mục từ Word Text 30 Từ tiếng Việt Length Number Byte Kích thước từ Giải thích Bảng liệu có mục đích lưu trữ liệu Dữ liệu lưu bảng mã Unicode, kiểu gõ Telex ñể thống với liệu phần kiểm lỗi tả tiếng Việt trình bày phần báo cáo 3.2.2 Các giải thuật 3.2.2.1 Giải thuật tìm hỗ trợ sửa lỗi tả tiếng Việt mức âm tiết 3.2.2.2 Thuật tốn xác định từ văn 3.2.2.3 Thuật tốn tách đoạn văn thành từ riêng biệt Đây chức chương trình Trước trình bày giải thuật tách từ mình, tác giả xin trình bày sơ qua số giải thuật mà tác giả tìm hiểu liên quan ñến vấn ñề Footer Page 18 of 126 - 19 - Header Page 19 of 126 Theo tài liệu [23], nhóm tác giả tiến hành xây dựng otomat đốn nhận từ vựng, phục vụ cho việc tách từ vựng văn tiếng Việt Tư tưởng thuật toán tách từ vựng quy việc phân tách câu việc tìm đường đồ thị có hướng, khơng trọng số Giả sử câu ban ñầu dãy gồm n+1 âm tiết s0, s1, , sn Ta xây dựng ñồ thị có n+2 đỉnh v0, v1, , vn, vn+1, thứ tự ñường thẳng từ trái sang phải; ñó, từ ñỉnh vi ñến ñỉnh vj có cung (i < j) âm tiết si, si+1, , sj-1 theo thứ tự lập thành từ Khi cách phân tách câu khác tương ứng với ñường ñi ñồ thị từ ñỉnh ñầu v0 ñến ñỉnh cuối vn+1 Trong thực tế, cách phân tích câu ñúng ñắn thường ứng với ñường ñi qua cung đồ thị Trong trường hợp câu có nhập nhằng đồ thị có nhiều ñường ñi ngắn từ ñỉnh ñầu ñến ñỉnh cuối, ta liệt kê tồn đường ngắn đồ thị, từ đưa tất phương án tách câu để người dùng ñịnh chọn phương án nào, tuỳ thuộc vào ngữ nghĩa văn cảnh Ví dụ, xét câu có cụm "thuộc địa bàn", ta có đồ thị hình 3.7 sau: thuộc địa thuộc địa bàn địa bàn Hình 3.7 Otomat đốn nhận cụm từ “thuộc địa bàn” Cụm có nhập nhằng thuộc địa địa bàn ta có hai kết phân tách "thuộc ñịa / bàn" "thuộc / ñịa bàn" Ta nhiều cụm nhập nhằng tiếng Việt, chẳng Footer Page 19 of 126 Header Page 20 of 126 - 20 - hạn "tổ hợp âm tiết", "bằng chứng cớ", Trường hợp câu có âm tiết khơng nằm từ điển rõ ràng ơtơmát âm tiết khơng đốn nhận ñược âm tiết Kết ñồ thị ta xây dựng từ câu khơng liên thơng Dựa vào tính chất này, ta thấy đồ thị khơng liên thơng dễ dàng phát đơn vị âm tiết khơng đốn nhận khơng nằm từ điển âm tiết, tức bị viết sai tả đơn vị âm tiết (từ vựng) Để triển khai thuật tốn nói cần có sở liệu lớn hồn chỉnh, đặc biệt cần xây dựng đồ thị nối từ tiếng Việt Với số lượng gần 74.000 từ tiếng Việt, cơng việc địi hỏi đầu tư thời gian trí tuệ nhiều người Do đó, thời gian hạn chế việc thực luận văn tốt nghiệp, tác giả chọn giải pháp khác ñể ñảm bảo xây dựng ñược chương trình demo hỗ trợ xử lý số tượng nhập nhằng cụ thể Trên sở ý tưởng thuật tốn đề cập tài liệu Error! Reference source not found., tác giả xây dựng cho giải thuật khác, giải thuật dựa tính chất “cách phân tách tối ưu tách từ có nhiều âm tiết nhất” Trước tiên chương trình tiến hành kiểm tra lỗi tả mức âm tiết ñể ñảm bảo văn viết tả tiếng Việt mức thấp mức âm tiết, sau thay tiến hành đọc vào âm tiết kiểm tra tính liên thơng (như thuật tốn đề cập trên) đọc vào âm tiết (gọi âm tiết X) âm tiết ñầu tiên phần văn xử lý, sau kiểm tra tồn cụm từ dài chứa âm tiết vừa đọc (gọi từ Y) có tồn tiếng Việt hay khơng, tồn xem ñây cách tách từ tối ưu không chia nhỏ cụm từ Y, không tồn thuật toán Footer Page 20 of 126 Header Page 21 of 126 - 21 - tiến hành kiểm tra tương tự với từ ngắn (bằng cách chia nhỏ cụm từ Y) Xét cụm từ “thuộc ñịa bàn”, X = “thuộc”, MaxLen (của từ bắt ñầu âm tiết “thuộc”) = 2, ta lấy ñược từ “thuộc ñịa”, theo trình tự trình bày ñây, âm tiết ñược xét “bàn”, ta ñã bỏ qua từ “ñịa bàn”, kết không tối ưu Do đó, thuật tốn phải lưu vết quay xét trường hợp xảy với từ “địa” Chương trình đưa tất khả sau đánh giá xem kết tối ưu sở từ chứa nhiều âm tiết ln có độ ưu tiên cao Trong số trường hợp mà chương trình khơng thể tự đưa định phân tách ñược, từ “thuộc ñịa” “ñịa bàn” ñây, chương trình ñưa gợi ý ñể người sử dụng lựa chọn tùy theo ngữ cảnh văn Theo thuật tốn trình bày đây, khơng xảy trường hợp xuất âm tiết khơng có từ điển tiếng Việt, văn đầu vào thuật tốn buộc phải kiểm tra lỗi tả tiếng Việt mức âm tiết 3.3 CÀI ĐẶT 3.3.1 Môi trường làm việc 3.3.2 Khái quát vắn tắt VB6 3.3.2.1 Điều khiển ứng dụng Microsoft Office 3.3.2.2 Tạo COM Add-In với Visual Basic 3.3.2.3 Kiểm tra COM Add-In 3.4 GIỚI THIỆU GIAO DIỆN CHƯƠNG TRÌNH VÀ HƯỚNG DẪN SỬ DỤNG 3.4.1 Giao diện chương trình 3.4.2 Chức kiểm lỗi tả tiếng Việt mức âm tiết Footer Page 21 of 126 Header Page 22 of 126 - 22 - Người sử dụng chọn chức KIỂM TRA ñể bắt ñầu kiểm lỗi tả tiếng Việt mức âm tiết Trong phần Từ sai, từ khơng có liệu âm tiết tiếng Việt bơi xanh, đồng thời mục Từ gợi ý ñưa danh sách từ gợi ý ñể thay thế, ñây từ ñược lấy từ sở liệu chương trình Người sử dụng lựa chọn nút lệnh ñể thực sửa lỗi bỏ qua từ bị lỗi Hình 3.9 Giao diện chương trình 3.4.3 Chức tách từ Để sử dụng chức tách từ cho văn bản, ñầu tiên người sử dụng phải lấy phần văn muốn tách ñưa vào phần Nội dung kiểm tra, sau bấm nút Tách từ Nếu đoạn văn cần tách khơng có trường hợp có nhiều cách phân tách (như trường hợp cụm từ “thuộc ñịa bàn” ñã nêu trên) chương trình tự ñộng tách ñưa phần văn ñã ñược tách thành từ riêng biệt phần Văn tách từ (xem hình 3.10) Footer Page 22 of 126 Header Page 23 of 126 - 23 - Ngược lại, văn xuất cụm từ phân tách theo nhiều cách khác nhau, chương trình dừng lại cụm từ đưa tất cách phân tách phần Lựa chọn cách tách từ (xem hình 3.11), lúc người sử dụng lựa chọn cách tách phù hợp với ngữ cảnh văn bấm nút Chọn phương án để chấp nhận, chương trình lưu lựa chọn tiếp tục xử lý phần văn cịn lại Hình 3.10 Giao diện chức tách từ (giao diện tiếng Anh) Footer Page 23 of 126 Header Page 24 of 126 - 24 - Hình 3.11 Người sử dụng lựa chọn phương án tách văn 3.5 KẾT LUẬN CHƯƠNG Chương báo cáo tập trung trình bày đề xuất để khắc phục HTNN STVB Trong phần tác giả ñã nhắc lại kết mà số cơng trình nghiên cứu đạt lĩnh vực xử lý nhập nhằng tiếng Việt, ñồng thời ñưa mơ hình tổng quan để xử lý tốn Phạm vi xử lý hỗ trợ khắc phục tượng nhập nhằng gây lỗi tả tiếng Việt cấp ñộ âm tiết, ñồng thời hỗ trợ xử lý nhập nhằng khơng xác định ranh giới từ Footer Page 24 of 126 - 25 - Header Page 25 of 126 KẾT LUẬN Đánh giá kết chương trình Sau thời gian nghiên cứu thực ñề tài, tác giả ñã ñạt ñược số kết mặt lý thuyết ứng dụng, cụ thể sau: Cơ sở lý thuyết Nghiên cứu ñược vấn ñề liên quan đến xử lý ngơn ngữ tự nhiên nói chung xử lý tiếng Việt nói riêng Nghiên cứu tượng nhập nhằng thường xuất tiếng Việt, tìm hiểu nội dung soạn thảo văn tượng nhập nhằng soạn thảo văn Tìm hiểu cơng trình, báo nghiên cứu xử lý nhập nhằng ngơn ngữ tự nhiên nói chung tiếng Việt nói riêng Xây dựng ứng dụng Xây dựng chương trình hỗ trợ xử lý nhập nhằng với số chức sau: Sửa lỗi tả tiếng Việt cho văn mức ñộ âm tiết; Chức chính: tách đoạn văn cho trước thành từ riêng biệt, chức ñã giải ñược nhập nhằng ranh giới từ văn bản, ñồng thời kết dùng tiếp cho ứng dụng phát triển sau Về sở liệu: Tác giả ñã xây dựng ñược kho liệu gồm khoảng 10.000 âm tiết tiếng Việt Dữ liệu phục vụ cho chức kiểm lỗi tả tiếng Việt mức âm tiết Ngồi ñể phục vụ cho chức tách từ văn tiếng Việt, tác giả ñã xây dựng ñược kho liệu gồm khoảng 24.000 từ có tiếng Việt bổ sung số danh từ riêng phổ biến Footer Page 25 of 126 Header Page 26 of 126 - 26 - Nhận xét Ưu ñiểm: Chương trình tích hợp sẵn ứng dụng Microsoft Word nên người sử dụng dễ gọi thực thi Giao diện chương trình đơn giản, thân thiện nên dễ sử dụng, hệ thống menu nút lệnh ñược thiết kế rõ ràng, logic giúp người dùng dễ thích nghi Kết thể rõ ràng, gợi ý hỗ trợ cụ thể Một số hạn chế: Chương trình hỗ trợ xử lý tượng nhập nhằng phạm vi, ranh giới từ phần tượng nhập nhằng gây sai tả tiếng Việt chưa giải ñược tất tượng nhập nhằng tiếng Việt Kết thực thi mang tính chất hỗ trợ chưa giải triệt để tượng nhập nhằng Kho liệu từ tiếng Việt chưa ñầy ñủ dù tác giả ñã bổ sung danh từ riêng phổ biến khơng có từ ñiển tiếng Việt chưa thể ñầy ñủ tất nên chừng mực đó, kết chương trình chưa xác 100% Chương trình chưa hỗ trợ xử lý trực tiếp ñang soạn thảo văn chưa xử lý ñịnh dạng văn Hướng phát triển đề tài Hồn thiện kho liệu từ tiếng Việt để kết phân tích chương trình có độ xác cao Phát triển ứng dụng có khả lấy xử lý ñịnh dạng văn Xử lý thêm trường hợp lỗi tả tiếng Việt cấp độ cao Với từ ñã phân tách ñược, tác giả tiến hành gán nhãn từ loại, hỗ trợ phân tích cú pháp câu tiếng Việt Trợ giúp người sử dụng trình soạn thảo văn Footer Page 26 of 126 ... xử lý tiếng Việt nói riêng Nghiên cứu tượng nhập nhằng thường xuất tiếng Việt, tìm hiểu nội dung soạn thảo văn tượng nhập nhằng soạn thảo văn Tìm hiểu cơng trình, báo nghiên cứu xử lý nhập nhằng. .. khái niệm tượng nhập nhằng phổ biến xử lý văn tiếng Việt Footer Page 10 of 126 Header Page 11 of 126 - 11 CHƯƠNG 2: SOẠN THẢO VĂN BẢN VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG SOẠN THẢO VĂN BẢN 2.1 MỘT... tài ? ?Tìm hiểu tượng nhập nhằng Footer Page of 126 Header Page of 126 -4- tiếng Việt khả khắc phục soạn thảo văn bản? ?? tìm hiểu vấn đề xử lý ngơn ngữ, xử lý tiếng Việt, ñặc biệt vấn ñề ? ?nhập nhằng? ??

Ngày đăng: 20/05/2017, 04:55

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan