1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu hiện tượng nhập nhằng trong tiếng việt và khả năng khắc phục trong soạn thảo văn bản

26 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 357,16 KB

Nội dung

-1- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG ĐINH THỊ MỸ HẠNH TÌM HIỂU HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT VÀ KHẢ NĂNG KHẮC PHỤC TRONG SOẠN THẢO VĂN BẢN Chuyên ngành Mã số : KHOA HỌC MÁY TÍNH : 60.48.01 TĨM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 -2- Công trình hồn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS PHAN HUY KHÁNH Phản biện 1: PGS.TS Võ Trung Hùng Phản biện 2: TS Trương Cơng Tuấn Luận văn bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 19 tháng năm 2011 * Có thể tìm hiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng -3- MỞ ĐẦU Lý chọn ñề tài Trong hệ thống ngôn ngữ giới nay, tiếng Việt xem ngơn ngữ có phong phú đa dạng Chính phong phú phức tạp tiếng Việt ñã dẫn ñến khó khăn cho người sử dụng theo cách thơng thường xử lý máy tính Do ảnh hưởng lịch sử hình thành phát triển, tiếng Việt có tính lai tạp mặt ngơn ngữ гất cao, đặc biệt ảnh hưởng từ tiếng Hán tiếng Pháp Sự ña nghĩa tiếng Việt đặc điểm bật Ngồi ra, thói quen sử dụng người vùng miền, tiếng Việt lại có biến đổi định, chí thiếu qn cách nói, cách viết Tiếng Việt ngày cịn bị ảnh hưởng thói quen sử dụng ngơn ngữ Internet thiết bị truyền thơng đại điện thoại di ñộng, ñiều làm xuất thêm nhiều từ ñược người dùng Internet ñiện thoại di ñộng chấp nhận, ñặc biệt giới trẻ câu “Buổi sinh nhật hôm vui wá!” Sự nhập nhằng nói, viết diễn đạt ý nghĩ dẫn ñến hiểu lầm nhiều mức ñộ khác Và đặc điểm nói làm cho tiếng Việt vốn ñã phức tạp lại phức tạp hơn, ñặc biệt số yếu tố ñã làm ñi tính sáng giá trị tốt đẹp vốn có tiếng Việt Gìn giữ sáng tiếng Việt yêu cầu nhiệm vụ quan trọng, cần thiết giới phê bình, nghiên cứu văn hóa, ngơn ngữ lẫn người sử dụng thơng thường Xuất phát từ phân tích quan sát trên, nhiệm vụ nghiên cứu ñề tài “Tìm hiểu tượng nhập nhằng -4tiếng Việt khả khắc phục soạn thảo văn bản” tìm hiểu vấn đề xử lý ngơn ngữ, xử lý tiếng Việt, đặc biệt vấn đề “nhập nhằng” tiếng Việt, từ ñề xuất giải pháp ñể khắc phục trình soạn thảo văn cho số trường hợp cụ thể tượng nhập nhằng Mục tiêu ñề tài Đề tài tập trung nghiên cứu xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt Tác giả bỏ nhiều thời gian nghiên cứu tượng nhập nhằng thường xảy tiếng Việt Đề tài nghiên cứu khả xử lý nhập nhằng xây dựng ứng dụng hỗ trợ xử lý nhập nhằng tiếng Việt phạm vi hẹp Phạm vi giới hạn ñề tài Vấn đề nhập nhằng tiếng Việt có nhiều trường hợp, nhiên phạm vi ñề tài tác giả giới hạn lại số nội dung sau đây: Về mặt lý thuyết: Tìm hiểu lý thuyết XLNN XLTV, lịch sử hình thành phát triển tiếng Việt; Tìm hiểu lý thuyết vấn ñề liên quan ñến tượng nhập nhằng tiếng Việt; Tìm hiểu vấn đề soạn thảo văn bản, phần mềm soạn thảo văn bản; Đề xuất giải pháp ñể giải HTNN viết sai lỗi tả tiếng Việt (giới hạn lỗi tả cấp độ âm tiết) HTNN xác ñịnh sai phạm vi, ranh giới từ tiếng Việt Về mặt chương trình: Xây dựng ứng dụng hỗ trợ xử lý nhập nhằng gây lỗi tả mặt âm tiết, đồng thời chương trình hỗ trợ việc tách văn thành từ ñộc lập ñể người sử dụng dễ dàng hiểu nội dung văn Kết việc tách từ ñược sử dụng phục vụ cho việc phát triển ứng dụng, giải vấn đề phân tích nhập nhằng phân loại từ cú pháp câu -54 Phương pháp nghiên cứu Thu thập, tìm hiểu, phân tích tài liệu thơng tin có liên quan đến đề tài; Phân tích thiết kế hệ thống chương trình; Triển khai xây dựng chương trình; Kiểm thử, nhận xét đánh giá kết Ý nghĩa khoa học thực tiễn ñề tài Ý nghĩa khoa học: Hiểu ñược vấn ñề xử lý tiếng Việt, xử lý nhập nhằng tiếng Việt; Đề xuất ñược giải pháp ñể hỗ trợ xử lý số tượng nhập nhằng soạn thảo văn tiếng Việt Ý nghĩa thực tiễn: Hiểu ứng dụng ñược kiến thức tảng xử lý tiếng Việt ñể xử lý nhập nhằng tiếng Việt; Có thể ứng dụng chương trình để hỗ trợ xử lý nhập nhằng soạn thảo văn tiếng Việt; Có ý nghĩa việc bảo tồn phát huy giá trị tiếng Việt Bố cục luận văn Mở ñầu Chương 1: Cơ sở lý thuyết xử lý ngôn ngữ tự nhiên Chương 2: Soạn thảo văn tượng nhập nhằng soạn thảo văn Chương 3: Đề xuất giải pháp khắc phục nhập nhằng Kết luận -6CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1 Khái niệm 1.1.2 Các bước xử lý 1.1.3 Các tốn ứng dụng 1.2 TÌM HIỂU VỀ TIẾNG VIỆT VÀ VẤN ĐỀ XỬ LÝ TIẾNG VIỆT 1.2.1 Sự hình thành tiếng Việt 1.2.2 Đặc ñiểm tiếng Việt 1.2.2.1 Đặc ñiểm ngữ âm 1.2.2.2 Đặc ñiểm từ vựng 1.2.2.3 Đặc ñiểm ngữ pháp 1.2.3 Từ tiếng Việt 1.2.3.1 Khái niệm Từ ñơn vị nhỏ có nghĩa, có kết cấu vỏ ngữ âm bền vững, hồn chỉnh, có chức gọi tên, ñược vận dụng ñộc lập, tái tự lời nói để tạo câu[7] 1.2.3.2 Đơn vị cấu tạo Đơn vị sở ñể cấu tạo từ tiếng Việt tiếng, mà ngữ âm học gọi âm tiết 1.2.3.3 Phương thức cấu tạo 1.2.4 Biến thể từ 1.3 HIỆN TƯỢNG NHẬP NHẰNG TRONG XỬ LÝ VĂN BẢN TIẾNG VIỆT 1.3.1 Khái niệm Nhập nhằng tượng mà nói, viết diễn tả từ ngữ, ý nghĩ mơ hồ, không rõ nghĩa có nhiều nghĩa làm cho -7người đọc người nghe không phân biệt rõ ràng, gây hiểu lầm Khái niệm nhập nhằng hiểu theo cách khác sau: lĩnh vực, vấn đề thường đề cập, trình bày ñược hiểu theo chuẩn ñịnh, chuẩn ñược quy ước văn quy ước ngầm định Khi tất cách hiểu, cách đề cập trình bày vấn đề nằm ngồi phạm vi chuẩn xem nhập nhằng 1.3.2 Một số tượng nhập nhằng 1.3.2.1 Hiện tượng nhập nhằng viết sai tả tiếng Việt Việc viết sai lỗi tả tiếng Việt mức đáng báo ñộng, tượng diễn phổ biến giới trẻ, ñặc biệt giới trẻ sử dụng internet mà xuất nhiều phương tiện thơng tin đại chúng văn Nhà nước Chính sai sót tả gây nhập nhằng việc tiếp nhập thơng tin Trong cộng đồng sử dụng mạng Internet hình thành lớp từ chưa có từ ñiển tiếng Việt, ñiều dẫn ñến thói quen sử dụng từ ngữ không tốt người sử dụng, đặc biệt giới trẻ Có trường hợp sai tả dẫn đến hệ xấu hình thành thói quen nói sai, viết sai hiểu sai vấn ñề 1.3.2.2 Hiện tượng nhập nhằng phạm vi, ranh giới từ Trong số ngơn ngữ tiếng Anh, việc xác định ranh giới, phạm vi từ dễ dàng, từ riêng lẻ ñã mang trọn vẹn nghĩa ranh giới chúng xác định thơng qua -8khoảng trắng Tiếng Việt khác, ngơn ngữ đơn lập nên từ vựng chủ yếu từ ghép khoảng trắng luôn ranh giới xác Trong tiếng Việt, việc xác định xác phạm vi, ranh giới từ hỗ trợ nhiều cho q trình khử nhập nhằng, đặc biệt ngơn ngữ viết Đây mục đích mà báo cáo muồn đề cập ñến 1.3.2.3 Hiện tượng nhập nhằng tính ña nghĩa từ Bất ngơn ngữ có từ ña nghĩa, nguyên nhân nhiều khái niệm có sắc thái ý nghĩa khơng hồn tồn trùng khớp lại có nhiều nét tương đồng Hiện tượng gây cản trở cho việc dịch tự động, chương trình khơng biết dịch từ đa nghĩa theo nghĩa nhóm nghĩa 1.3.2.4 Hiện tượng nhập nhằng ngữ nghĩa sử dụng từ ñồng âm Hai từ ñồng âm với nghĩa hai từ có âm giống mang nghĩa khác nhau, cịn đồng tự hai từ mặt ký tự giống nghĩa khác Do ñặc ñiểm tiếng Việt từ ñồng âm thường từ ñồng tự, ngôn ngữ khác hai tượng không trùng khớp Cũng phải phân biệt từ ñồng tự với từ ña nghĩa, từ ña nghĩa, nghĩa có chung nguồn gốc ln có nét tương đồng trong từ đồng tự chúng khơng có liên hệ nguồn gốc với nhau, nghĩa chúng khác rõ rệt Ví dụ Từ “kiếm” hai câu sau hai từ ñồng tự: Anh ta sử dụng kiếm điêu luyện Kiếm ăn khó -91.3.2.5 Hiện tượng nhập nhằng cách phân biệt từ loại Từ loại yếu tố quan trọng việc xác định nghĩa xác từ xếp từ thành câu hoàn chỉnh dịch tự ñộng Từ loại giúp khử nhập nhằng, thân số trường hợp nhập nhằng Với ngơn ngữ khơng biến tiếng Việt, vấn ñề xác ñịnh từ loại yêu cầu thuật tốn phức tạp hơn, bắt buộc phải phân tích cú pháp Mặt khác, nội ngành ngôn ngữ chưa có thống phân loại từ loại cho tiếng Việt 1.3.2.6 Hiện tượng nhập nhằng sử dụng tiếng Việt không dấu Ngày nay, việc gõ tiếng Việt khơng dấu trở nên phổ biến hơn, đặc biệt ứng dụng Internet ñiện thoại di ñộng email, chat… Gõ tiếng Việt không dấu giúp người sử dụng thao tác nhanh hơn, số trường hợp lại gây hiểu nhầm tai hại ñối với người ñọc 1.3.2.7 Hiện tượng nhập nhằng vận dụng Cùng câu sử dụng hoàn cảnh khác ngơn ngữ nói ngơn ngữ viết, khơng biết cách sử dụng cách phù hợp gây “nhập nhằng”, hiểu lầm cho người ñọc người nghe Hiện tượng ñặc biệt phổ biến tiếng Việt, tiếng Việt vốn đa nghĩa, đa sắc thái có tính biểu cảm cao Điều địi hỏi người sử dụng ngơn ngữ khéo léo tinh tế định, có hiểu biết mức độ cần thiết để tận dụng hết giá trị biểu đạt ngơn ngữ - 10 1.3.2.8 Hiện tượng nhập nhằng phân tích cú pháp tiếng Việt Trong phân tích cú pháp tiếng Việt, tượng nhập nhằng xảy nhiều mức, từ mức từ, từ loại ñến mức cú pháp câu Điều dẫn đến câu ñược phân tích theo nhiều cách khác nhau, có vài cách phân tích số ñúng 1.4 KẾT LUẬN CHƯƠNG Chương trình bày khái niệm bước để xử lý ngơn ngữ tự nhiên, tốn liên quan đến xử lý ngơn ngữ tự nhiên nhận dạng tiếng nói, tổng hợp tiếng nói, dịch tự động, tìm kiếm văn bản, tóm tắt văn bản… Ngồi cịn trình bày hình thành, phát triển số đặc điểm bật tiếng Việt Chương dành số lượng lớn trang để trình bày khái niệm tượng nhập nhằng phổ biến xử lý văn tiếng Việt - 12 tư duy, suy nghĩ trao đổi với người khác để có cách trình bày vấn đề xác Thứ hai, phát HTNN trình STVB Nếu sử dụng phần mềm hỗ trợ STVB tiếng Việt (mà khơng sử dụng kèm chương trình hỗ trợ tìm khử nhập nhằng cho văn tiếng Việt khác) có cách để phát nhập nhằng người sử dụng phải tự làm thủ công Tuy nhiên cách làm không đem lại nhiều hiệu độ xác khơng cao Do thiết phải có chương trình hỗ trợ phát khử nhập nhằng ñi kèm Thứ ba, phát HTNN sau việc STVB hoàn tất Nghĩa người sử dụng mở tệp văn soạn thảo, sau gọi chức phát nhập nhằng để xử lý Theo tìm hiểu tác giả, chưa có hệ thống hay chương trình xử lý tất HTNN STVB tiếng Việt Các kết ñã có giải pháp cho số trường hợp cụ thể 2.4 CÁC GIẢI PHÁP XỬ LÝ NHẬP NHẰNG ĐÃ CÓ TRƯỚC ĐÂY Trong báo “Phân tích cú pháp tiếng Việt sử dụng văn phạm phi ngữ cảnh từ vựng hóa kết hợp xác xuất” [25], nhóm tác giả nghiên cứu biện pháp xử lý tượng nhập nhằng tượng cú pháp phụ thuộc từ phân tích cú pháp tiếng Việt Bài báo ñề xuất việc xây dựng cơng cụ phân tích cú pháp dựa văn phạm phi ngữ cảnh với luật có chứa thơng tin xác suất từ vựng Trong tài liệu [24], nhóm tác giả trình bày chi tiết thử nghiệm gán nhãn từ loại cho văn tiếng Việt cách áp dụng gán nhãn QTAG Công việc gán nhãn từ loại cho văn - 13 xác ñịnh từ loại từ phạm vi văn Khi hệ thống văn ñã ñược gán nhãn, hay nói cách khác ñã thích từ loại ứng dụng rộng rãi hệ thống tìm kiếm thơng tin, ứng dụng tổng hợp tiếng nói, hệ thống nhận dạng tiếng nói hệ thống dịch máy Để tiến hành việc gán nhãn từ loại, nhóm tác giả tiến hành ba bước: Phân tách xâu ký tự thành từ, gán nhãn tiên nghiệm, ñịnh kết gán nhãn, tức loại bỏ nhập nhằng Văn ñã ñược phân ñoạn từ (WORD SEGMENTED TEXT) Tập luật nhận diện POS Mơ hình gán nhãn cho từ (POS Tagging Model) Kho ngữ liệu tiếng Việt Văn ñã ñược gán từ loại (POS TAGGED TEXTS) Hình 2.1 Mơ hình tổng qt tốn gán nhãn từ loại 2.5 KẾT LUẬN CHƯƠNG Chương trình bày vấn đề soạn thảo văn bản, khái niệm ký tự, từ, câu, dòng, đoạn Trong chương cịn trình bày khái niệm tượng nhập nhằng tiếng Việt Ngồi cịn trình bày số tượng nhập nhằng phổ biến tiếng Việt, qua thấy tượng nhập nhằng phổ biến khó để xử lý cách triệt để Phần cuối chương, tác giả trình bày kết nghiên cứu vấn đề xử lý nhập nhằng ngơn ngữ tự nhiên nói chung tiếng Việt nói riêng - 14 CHƯƠNG 3: ĐỀ XUẤT GIẢI PHÁP KHẮC PHỤC NHẬP NHẰNG 3.1 GIỚI THIỆU VÀ PHÂN TÍCH BÀI TOÁN Trong số tượng nhập nhằng mà tác giả ñã ñề cập ñến chương 2, phần này, tác giả chọn số tượng nhập nhằng cụ thể ñể ñề xuất giải pháp khắc phục Đó nhập nhằng viết sai lỗi tả tiếng Việt cấp ñộ âm tiết (viết âm tiết khơng có tiếng Việt) nhập nhằng khơng xác định phạm vi, ranh giới từ văn Nếu xem quy tắc tả tiếng Việt miền chuẩn, nằm miền chuẩn chấp nhận khơng gây nhập nhằng trường hợp viết sai tả tiếng Việt nằm miền chuẩn (tức viết sai tả) xem nhập nhằng Trong phạm vi báo cáo này, tác giả xử lý phần lỗi tả tiếng Việt mắc phải dẫn đến tượng nhập nhằng, xử lý lỗi tả mức âm tiết tiếng Việt Ví dụ phát lỗi tả từ ñưa loạt gợi ý ñể người sử dụng chỉnh sửa lỗi Xét ví dụ tượng nhập nhằng khơng xác định phạm vi, ranh giới từ Ví dụ 32 Người dân thuộc địa bàn thị có mức thu nhập bình qn đầu người cao vùng nơng thơn Trong ví dụ 32, số đối tượng, ví dụ trẻ em xác định khơng phạm vi từ dẫn ñến hiểu sai (nhập nhằng) nội dung câu Cụm từ thuộc địa bàn có hai cách phân tách, - 15 thứ thuộc/ ñịa bàn (nghĩa nằm ñịa bàn ñó), thứ hai thuộc ñịa/ bàn (nghĩa người dân thuộc địa bàn bạc điều đó, cách phân tách sai ngữ cảnh trên) Trong tiếng Việt tồn nhiều cụm từ tương tự Do đó, xác định phạm vi từ ñọc ñúng hiểu ñúng, nghĩa tránh nhập nhằng Giải tốn xác ñịnh phạm vi, ranh giới từ sở quan trọng ñể thực gán nhãn từ loại cho từ, phân tích cú pháp câu tiếng Việt Giải tốn: Bài tốn chia làm hai bước xử lý: - Xử lý lỗi tả tiếng Việt mức âm tiết - Phân tách văn thành từ ñộc lập Kho liệu âm tiết tiếng Việt Văn cần xử lý ĐẦU VÀO Từ điển tiếng Việt Xử lý lỗi tả TV mức âm tiết Tách văn thành từ riêng biệt Q TRÌNH XỬ LÝ Văn xử lý nhập nhằng (*) ĐẦU RA Giao diện người sử dụng Người sử dụng Hình 3.1 Mơ hình kiến trúc tổng quan trình xử lý Giới hạn phạm vi giải toán: Khái niệm văn ñược ñề cập ñến báo cáo văn chứa chữ, khơng chứa hình vẽ - 16 Chương trình chưa xử lý định dạng văn ñầu vào Thời ñiểm xử lý văn bản: Chương trình tích hợp ứng dụng Microsoft Word chương trình lấy nội dung văn ñược soạn thảo sẵn ñể xử lý Người sử dụng tùy chọn tiến hành kiểm lỗi tả mức âm tiết ñối văn ñầu vào, sau tiến hành phân tách từ Chương trình khơng gọi thực thi cách tự động mà cần có thao tác người sử dụng Loại nhập nhằng ñược xử lý: toán giải nhập nhằng gây sai sót lỗi tả tiếng Việt mức âm tiết hỗ trợ xử lý nhập nhằng có khơng xác định phạm vi, ranh giới từ tiếng Việt Kho liệu tiếng Việt: Chương trình dùng kho liệu hỗ trợ cho trình xử lý: Kho liệu âm tiết tiếng Việt: lưu 10.000 âm tiết tiếng Việt, hỗ trợ cho chức tìm sửa lỗi, đồng thời cập nhập thêm từ thơng qua bước xử lý lỗi tả Các âm tiết ñược lưu bảng mã Unicode Từ ñiển tiếng Việt hỗ trợ chức tách từ gồm gần 24.000 từ tiếng Việt Ngồi ra, để hỗ trợ tốt cho việc tách từ, tác giả bổ sung vào kho liệu từ tiếng Việt số danh từ riêng phổ biến 3.2 THIẾT KẾ CƠ SỞ DỮ LIỆU VÀ CÁC THUẬT TỐN CHÍNH 3.2.1 Thiết kế sở liệu Cơ sở liệu cho toán tương ñối ñơn giản, liệu ñược chia thành phần riêng biệt, phần phục vụ cho chức kiểm lỗi tả tiếng Việt mức âm tiết, phần phục vụ cho chức tách từ văn - 17 3.2.1.1 Dữ liệu cho chức kiểm lỗi tả tiếng Việt mức âm tiết Dữ liệu cho chức xử lý nhập nhằng sai lỗi tả tiếng Việt mức âm tiết gồm bảng AmTiet (Âm tiết) chứa tất âm tiết có tiếng Việt AM_TIET STT Am_Tiet Hình 3.4 Dữ liệu lưu âm tiết tiếng Việt Bảng 3.1 Bảng từ ñiển liệu Tên trường Kiểu liệu Kích thước Giải thích STT Autonumber Integer Thứ tự mục từ Am_Tiet Text 10 Âm tiết tiếng Việt 3.2.1.2 Dữ liệu cho chức tách từ văn Để phục vụ cho giải thuật này, ta cần xây dựng sở liệu chứa tất từ có tiếng Việt Tác giả xây dựng kho liệu sở tập tin liệu phần mềm VietDict tác giả Hồ Ngọc Đức, tải miễn phí địa http://vietdict.viet.net Tập tin ñược lưu với ñuôi *.txt, chứa gần 24.000 từ giải thích từ (Việt – Việt), cấu trúc trình bày gần giống từ ñiển tiếng Việt Tác giả ñã viết thủ tục ñơn giản ñể tiến hành tìm tách lấy tất từ tiếng Việt tập tin ñể lưu vào sở liệu Đây chưa phải tất từ có tiếng Việt, liệu để demo chương trình Dữ liệu chức tách từ bảng liệu chứa từ có tiếng Việt (căn vào từ ñiển tiếng Việt), gồm trường liệu - 18 số thứ tự, mục từ Word kích thước từ Length Ví dụ từ ban mai có Length =2, từ sành sanh có Length =3 Trường Length dùng phục vụ cho số giải thuật chương trình TuTV stt Word Lenght Hình 3.5 Dữ liệu chứa từ tiếng Việt Mỗi bảng ñều có trường liệu: Bảng 3.2 Từ điển liệu Tên trường Kiểu liệu Kích thước stt Autonumber Integer Thứ tự mục từ Word Text 30 Từ tiếng Việt Length Number Byte Kích thước từ Giải thích Bảng liệu có mục đích lưu trữ liệu Dữ liệu ñược lưu bảng mã Unicode, kiểu gõ Telex ñể thống với liệu phần kiểm lỗi tả tiếng Việt trình bày phần báo cáo 3.2.2 Các giải thuật 3.2.2.1 Giải thuật tìm hỗ trợ sửa lỗi tả tiếng Việt mức âm tiết 3.2.2.2 Thuật tốn xác định từ văn 3.2.2.3 Thuật tốn tách ñoạn văn thành từ riêng biệt Đây chức chương trình Trước trình bày giải thuật tách từ mình, tác giả xin trình bày sơ qua số giải thuật mà tác giả tìm hiểu liên quan đến vấn đề - 19 Theo tài liệu [23], nhóm tác giả tiến hành xây dựng otomat đốn nhận từ vựng, phục vụ cho việc tách từ vựng văn tiếng Việt Tư tưởng thuật toán tách từ vựng quy việc phân tách câu việc tìm đường đồ thị có hướng, khơng trọng số Giả sử câu ban ñầu dãy gồm n+1 âm tiết s0, s1, , sn Ta xây dựng đồ thị có n+2 đỉnh v0, v1, , vn, vn+1, thứ tự ñường thẳng từ trái sang phải; đó, từ đỉnh vi đến đỉnh vj có cung (i < j) âm tiết si, si+1, , sj-1 theo thứ tự lập thành từ Khi cách phân tách câu khác tương ứng với ñường ñi ñồ thị từ ñỉnh ñầu v0 ñến ñỉnh cuối vn+1 Trong thực tế, cách phân tích câu đắn thường ứng với ñường ñi qua cung ñồ thị Trong trường hợp câu có nhập nhằng đồ thị có nhiều đường ngắn từ ñỉnh ñầu ñến ñỉnh cuối, ta liệt kê toàn đường ngắn đồ thị, từ ñưa tất phương án tách câu ñể người dùng ñịnh chọn phương án nào, tuỳ thuộc vào ngữ nghĩa văn cảnh Ví dụ, xét câu có cụm "thuộc địa bàn", ta có đồ thị hình 3.7 sau: thuộc địa thuộc địa bàn địa bàn Hình 3.7 Otomat đốn nhận cụm từ “thuộc địa bàn” Cụm có nhập nhằng thuộc ñịa ñịa bàn ta có hai kết phân tách "thuộc địa / bàn" "thuộc / địa bàn" Ta nhiều cụm nhập nhằng tiếng Việt, chẳng - 20 hạn "tổ hợp âm tiết", "bằng chứng cớ", Trường hợp câu có âm tiết khơng nằm từ điển rõ ràng ơtơmát âm tiết khơng đốn nhận âm tiết Kết đồ thị ta xây dựng từ câu khơng liên thơng Dựa vào tính chất này, ta thấy đồ thị khơng liên thơng dễ dàng phát đơn vị âm tiết khơng đốn nhận khơng nằm từ điển âm tiết, tức bị viết sai tả đơn vị âm tiết (từ vựng) Để triển khai ñược thuật tốn nói cần có sở liệu lớn hồn chỉnh, đặc biệt cần xây dựng ñồ thị nối từ tiếng Việt Với số lượng gần 74.000 từ tiếng Việt, cơng việc địi hỏi đầu tư thời gian trí tuệ nhiều người Do đó, thời gian hạn chế việc thực luận văn tốt nghiệp, tác giả chọn giải pháp khác ñể ñảm bảo xây dựng chương trình demo hỗ trợ xử lý số tượng nhập nhằng cụ thể Trên sở ý tưởng thuật tốn đề cập tài liệu Error! Reference source not found., tác giả xây dựng cho giải thuật khác, giải thuật dựa tính chất “cách phân tách tối ưu tách từ có nhiều âm tiết nhất” Trước tiên chương trình tiến hành kiểm tra lỗi tả mức âm tiết để đảm bảo văn viết tả tiếng Việt mức thấp mức âm tiết, sau thay tiến hành đọc vào âm tiết kiểm tra tính liên thơng (như thuật tốn ñề cập trên) ñọc vào âm tiết (gọi âm tiết X) âm tiết ñầu tiên phần văn xử lý, sau kiểm tra tồn cụm từ dài chứa âm tiết vừa đọc (gọi từ Y) có tồn tiếng Việt hay không, tồn xem cách tách từ tối ưu không chia nhỏ cụm từ Y, không tồn thuật toán - 21 tiến hành kiểm tra tương tự với từ ngắn (bằng cách chia nhỏ cụm từ Y) Xét cụm từ “thuộc ñịa bàn”, X = “thuộc”, MaxLen (của từ bắt ñầu âm tiết “thuộc”) = 2, ta lấy ñược từ “thuộc ñịa”, theo trình tự trình bày ñây, âm tiết ñược xét “bàn”, ta ñã bỏ qua từ “ñịa bàn”, kết không tối ưu Do đó, thuật tốn phải lưu vết quay xét trường hợp xảy với từ “địa” Chương trình đưa tất khả sau đánh giá xem kết tối ưu sở từ chứa nhiều âm tiết ln có độ ưu tiên cao Trong số trường hợp mà chương trình khơng thể tự đưa định phân tách ñược, từ “thuộc ñịa” “ñịa bàn” ñây, chương trình ñưa gợi ý ñể người sử dụng lựa chọn tùy theo ngữ cảnh văn Theo thuật tốn trình bày đây, khơng xảy trường hợp xuất âm tiết khơng có từ điển tiếng Việt, văn đầu vào thuật tốn buộc phải kiểm tra lỗi tả tiếng Việt mức âm tiết 3.3 CÀI ĐẶT 3.3.1 Môi trường làm việc 3.3.2 Khái quát vắn tắt VB6 3.3.2.1 Điều khiển ứng dụng Microsoft Office 3.3.2.2 Tạo COM Add-In với Visual Basic 3.3.2.3 Kiểm tra COM Add-In 3.4 GIỚI THIỆU GIAO DIỆN CHƯƠNG TRÌNH VÀ HƯỚNG DẪN SỬ DỤNG 3.4.1 Giao diện chương trình 3.4.2 Chức kiểm lỗi tả tiếng Việt mức âm tiết - 22 Người sử dụng chọn chức KIỂM TRA để bắt đầu kiểm lỗi tả tiếng Việt mức âm tiết Trong phần Từ sai, từ khơng có liệu âm tiết tiếng Việt bơi xanh, đồng thời mục Từ gợi ý ñưa danh sách từ gợi ý ñể thay thế, ñây từ ñược lấy từ sở liệu chương trình Người sử dụng lựa chọn nút lệnh ñể thực sửa lỗi bỏ qua từ bị lỗi Hình 3.9 Giao diện chương trình 3.4.3 Chức tách từ Để sử dụng chức tách từ cho văn bản, ñầu tiên người sử dụng phải lấy phần văn muốn tách ñưa vào phần Nội dung kiểm tra, sau ñó bấm nút Tách từ Nếu ñoạn văn cần tách khơng có trường hợp có nhiều cách phân tách (như trường hợp cụm từ “thuộc ñịa bàn” ñã nêu trên) chương trình tự ñộng tách ñưa phần văn ñã ñược tách thành từ riêng biệt phần Văn ñã ñược tách từ (xem hình 3.10) - 23 Ngược lại, văn xuất cụm từ phân tách theo nhiều cách khác nhau, chương trình dừng lại cụm từ đưa tất cách phân tách phần Lựa chọn cách tách từ (xem hình 3.11), lúc người sử dụng lựa chọn cách tách phù hợp với ngữ cảnh văn bấm nút Chọn phương án ñể chấp nhận, chương trình lưu lựa chọn tiếp tục xử lý phần văn lại Hình 3.10 Giao diện chức tách từ (giao diện tiếng Anh) - 24 - Hình 3.11 Người sử dụng lựa chọn phương án tách văn 3.5 KẾT LUẬN CHƯƠNG Chương báo cáo tập trung trình bày ñề xuất ñể khắc phục HTNN STVB Trong phần tác giả ñã nhắc lại kết mà số cơng trình nghiên cứu ñạt ñược lĩnh vực xử lý nhập nhằng tiếng Việt, đồng thời đưa mơ hình tổng quan ñể xử lý toán Phạm vi xử lý hỗ trợ khắc phục tượng nhập nhằng gây lỗi tả tiếng Việt cấp độ âm tiết, ñồng thời hỗ trợ xử lý nhập nhằng khơng xác định ranh giới từ - 25 - KẾT LUẬN Đánh giá kết chương trình Sau thời gian nghiên cứu thực ñề tài, tác giả ñã ñạt ñược số kết mặt lý thuyết ứng dụng, cụ thể sau: Cơ sở lý thuyết Nghiên cứu ñược vấn ñề liên quan ñến xử lý ngơn ngữ tự nhiên nói chung xử lý tiếng Việt nói riêng Nghiên cứu tượng nhập nhằng thường xuất tiếng Việt, tìm hiểu nội dung soạn thảo văn tượng nhập nhằng soạn thảo văn Tìm hiểu cơng trình, báo nghiên cứu xử lý nhập nhằng ngôn ngữ tự nhiên nói chung tiếng Việt nói riêng Xây dựng ứng dụng Xây dựng chương trình hỗ trợ xử lý nhập nhằng với số chức sau: Sửa lỗi tả tiếng Việt cho văn mức độ âm tiết; Chức chính: tách đoạn văn cho trước thành từ riêng biệt, chức ñã giải ñược nhập nhằng ranh giới từ văn bản, ñồng thời kết dùng tiếp cho ứng dụng phát triển sau Về sở liệu: Tác giả ñã xây dựng ñược kho liệu gồm khoảng 10.000 âm tiết tiếng Việt Dữ liệu phục vụ cho chức kiểm lỗi tả tiếng Việt mức âm tiết Ngồi để phục vụ cho chức tách từ văn tiếng Việt, tác giả ñã xây dựng ñược kho liệu gồm khoảng 24.000 từ có tiếng Việt bổ sung số danh từ riêng phổ biến - 26 Nhận xét Ưu điểm: Chương trình tích hợp sẵn ứng dụng Microsoft Word nên người sử dụng dễ gọi thực thi Giao diện chương trình đơn giản, thân thiện nên dễ sử dụng, hệ thống menu nút lệnh ñược thiết kế rõ ràng, logic giúp người dùng dễ thích nghi Kết thể rõ ràng, gợi ý hỗ trợ cụ thể Một số hạn chế: Chương trình hỗ trợ xử lý tượng nhập nhằng phạm vi, ranh giới từ phần tượng nhập nhằng gây sai tả tiếng Việt chưa giải ñược tất tượng nhập nhằng tiếng Việt Kết thực thi cịn mang tính chất hỗ trợ chưa giải triệt ñể tượng nhập nhằng Kho liệu từ tiếng Việt chưa ñầy ñủ dù tác giả ñã bổ sung danh từ riêng phổ biến khơng có từ điển tiếng Việt chưa thể ñầy ñủ tất nên chừng mực đó, kết chương trình chưa xác 100% Chương trình chưa hỗ trợ xử lý trực tiếp ñang soạn thảo văn chưa xử lý ñịnh dạng văn Hướng phát triển ñề tài Hồn thiện kho liệu từ tiếng Việt để kết phân tích chương trình có độ xác cao Phát triển ứng dụng có khả lấy xử lý ñược ñịnh dạng văn Xử lý thêm trường hợp lỗi tả tiếng Việt cấp ñộ cao Với từ ñã phân tách ñược, tác giả tiến hành gán nhãn từ loại, hỗ trợ phân tích cú pháp câu tiếng Việt Trợ giúp người sử dụng trình soạn thảo văn ... ? ?Tìm hiểu tượng nhập nhằng - 4tiếng Việt khả khắc phục soạn thảo văn bản? ?? tìm hiểu vấn đề xử lý ngơn ngữ, xử lý tiếng Việt, đặc biệt vấn ñề ? ?nhập nhằng? ?? tiếng Việt, từ ñó ñề xuất giải pháp ñể khắc. .. Một số quy tắc gõ văn 2.1.5 Phần mềm soạn thảo văn 2.2 HIỆN TƯỢNG NHẬP NHẰNG TRONG SOẠN THẢO VĂN BẢN Những mức độ nhập nhằng STVB: Trong q trình soạn thảo văn bản, tượng nhập nhằng xảy nhiều mức... xử lý tiếng Việt nói riêng Nghiên cứu tượng nhập nhằng thường xuất tiếng Việt, tìm hiểu nội dung soạn thảo văn tượng nhập nhằng soạn thảo văn Tìm hiểu cơng trình, báo nghiên cứu xử lý nhập nhằng

Ngày đăng: 26/06/2021, 11:53

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w