Luận án nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào

90 3 0
Luận án nghiên cứu các phương pháp tách từ phục vụ phân loại văn bản tiếng lào

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỞ ĐẦU Xử lý Ngôn ngữ tự nhiên (XL NNTN, tiếng Anh NLP - Natural Language Processing), hay Ngôn ngữ học Tính tốn (CL - Computational Linguistics) thuộc lĩnh vực trí tuệ nhân tạo, tập trung nghiên cứu xây dựng ứng dụng Tin học NNTN, ngôn ngữ người XL NNTN miền đất khó khăn cho mong muốn thâm nhập khai thác Khơng XL NNTN địi hỏi người nghiên cứu phải am hiểu tường minh ngôn ngữ học, hiểu thói quen giao tiếp ứng xử người, mà cịn phải có kiến thức chun sâu nhiều lĩnh vực khác Tin học, Khoa học Máy tính Trong hệ thống ngơn ngữ giới nay, tiếng Lào ngôn ngữ có phong phú, đa dạng mang đậm nét đặc trưng ngôn ngữ đơn tiết Vùng Nam-Á, ngơn ngữ nơi cửa Phật Đây nguyên nhân dẫn đến khó khăn vượt bậc cho người nghiên cứu người sử dụng (NSD) theo cách thông thường xử lý máy tính lĩnh vực xử lý tiếng Lào Những năm gần đây, phát triển vượt bậc công nghệ thơng tin (CNTT) nói chung, internet nói riêng, làm gia tăng số lượng giao dịch thông tin mạng, hay trực tuyến, cách đáng kể Ngày ngày chứng kiến bùng nổ chóng mặt tin tức điện tử, thư viện điện tử (chẳng hạn phát triển mục lục trực tuyến OPAC-Online Public Access Catalog), trang mạng xã hội, giao dịch đủ hình thức, từ thương mại đến trị, quốc phịng Đặc biệt số lượng văn hành (VBHC) hoạt động chuyên môn, từ cá nhân đến tổ chức khác nhau, giao dịch trực tuyến tăng theo nhanh chóng Nếu trước đây, VBHC túy lưu trữ mang tính địa phương, máy tính đơn lẻ, ngày nay, nhờ điện toán đám mây, nhờ khả lưu trữ trực tuyến với kho liệu gần vơ hạn, từ miễn phí đến có chi phí giá rẻ, tạo hội cho gia tăng VBHC Với thực trạng khối lượng thông tin đồ sộ cần xử lý, vấn đề lớn đặt tổ chức tìm kiếm thơng tin cách có hiệu ? Giải tốn phân loại thơng tin/dữ liệu, cụ thể phân loại hay phân lớp văn (PLVB), câu trả lời hợp lý Dĩ nhiên việc phân loại cách thủ công điều thực hiện, thông tin trực tuyến có khối lượng lớn, mà cịn khơng kiểm sốt, chí thiếu chất lượng, thiếu độ tin cậy, kể bị sai lạc Hướng giải nghiên cứu xây dựng chương trình máy tính tự động phân loại Hiện nay, trường Đại học Champasak, trường Đại học tương đối lớn nước Cộng hoà Dân chủ Nhân dân (CHDCND) Lào, diễn hoạt động giao dịch hành chính, văn phịng khẩn trương tấp nập Hàng ngày, cán viên chức bận rôn thực phân loại, lưu trữ VBHC xuất lúc nơi, sau lại phải tìm kiếm, xử lý văn Việc phân loại thực tế phân chia văn theo đơn vị, theo lĩnh vực chuyên ngành đào tạo, khoa học cơng nghệ, kinh tế, pháp luật, văn hóa-xã hội…, theo thể loại : nghị định, định, báo cáo, đơn từ , v.v… Hệ thường thấy việc xử lý văn thủ cơng ln gặp sai sót, nhầm lẫn nhiều không kịp tiến độ yêu cầu Từ nhu cầu thực tiễn cần đổi hiệu hoạt động hành văn phịng (HCVP) trường Đại học Champasak, luận án nhằm đến mục tiêu giải toán PLVB tiếng Lào tự động sở giải toán XL NNTN cho tiếng Lào Hiện Lào, có cơng trình nghiên cứu thuộc lĩnh vực XL NNTN áp dụng thực tiễn Luận án khơng tìm cách phân tích ngun nhân hạn chế Tuy nhiên, nêu số ngun nhân mà chúng tơi phải tìm cách khắc phục Trước hết thực trạng hoạt động khoa học công nghệ nước CHDCND Lào chưa thực phát triển, so sánh với nước khối ASEAN, hay so sánh với nước láng giềng Việt Nam Điều dẫn đến có chuyên gia lĩnh vực XL NNTN, đặc biệt XL tiếng Lào Mặc dù có nhiều hoạt động Tin học hóa, sử dụng internet phương tiện truyền thơng đại khía cạnh sống, chưa thật khắp nước Lào vắng thiếu trao đổi chuyên môn, hợp tác nghiên cứu khoa học Một nguyên nhân đặc điểm tả tiếng Lào vấn đề xử lý văn Nếu hệ thống chữ viết tiếng Việt, xem từ có ba tầng, tầng phụ âm và/hoặc nguyên âm, tầng tầng dấu thanh, tả tiếng Lào, kể tiếng Thái tiếng Khmer, sử dụng ba tầng (chân, thân tóc) phức tạp nhiều (xem hình minh họa đây) Chữ viết Lào khác kiểu chữ có cấu trúc tương tự chữ viết Thái Khmer Cả ba ngôn ngữ không sử dụng dấu khoảng cách (Space) từ câu Chính vắng mặt dấu khoảng trống để phân cách từ, hay âm tiết, dẫn đến tượng nhập nhằng, đa nghĩa… gây khó khăn khơng nhỏ lĩnh vực XL NNTN nói chung, xử lý tiếng Lào máy tính nói riêng [38][45][47][49] Cho đến thời điểm hoàn thành luận án này, chưa có kết liên quan đến nội dung thực đề tài tách từ phân loại văn tiếng Lào Tra google với từ khóa tiếng Anh “ Lao document Segmentation” hay “ Lao document Classification” tiếng Lào “ ”, “ ຈແ ເອ ະ ” Có kết liên quan năm gần Mục tiêu, đối tượng phạm vi nghiên cứu Mục đích đề tài : Đề tài tìm hiểu đặc trưng tả hệ viết tiếng Lào, phương pháp tách từ PLVB đề xuất cho tiếng Anh, tiếng Thái tiếng Việt, đánh giá hiệu phương pháp này, đề xuất giải pháp tách từ hiệu quả, lựa chọn phương pháp PLVB phù hợp điều kiện thử nghiệm, từ áp dụng giải toán PLVB kết hợp tách từ tiếng Lào, thử nghiệm phân loại VBHC trường ĐH Champasack, nước CHDCND Lào đánh giá kết thử nghiệm Đối tượng nghiên cứu : Các toán liên quan đến lĩnh vực xử lý NNTN, XL tiếng Lào đặc trưng tả ngữ pháp hệ thống chữ viết Lào Các phương pháp giải tốn tách từ PLVB nói chung, giải cho toán tách từ PLVB tiếng Lào nói riêng Các hoạt động HCVP mang tính thực tiễn trưởng Đại học Champasak, nước CHDCND Lào Phạm vi nghiên cứu : Lĩnh vực trí tệ nhân tạo, XL NNTN, XL tiếng Lào, ngôn ngữ Lào ba ngôn ngữ láng giềng tiếng Việt, tiếng Thái tiếng Khmer Vấn đề mã hoá soạn thảo văn bản, giải pháp xây dựng kho ngữ liệu, giải pháp tách từ, PLVB, học máy Tốn học thống kê Mơi trường, cơng cụ lập trình để thử nghiệm giải tốn tách từ, PLVB HCVP trưởng Đại học Champasak Nhiệm vụ nghiên cứu kết đạt Để đạt mục đích đề đây, luận án hướng đến ba nhiệm vụ sau : Nghiên cứu chuyên sâu XL NNTN, đặc trưng ngơn ngữ tả tiếng Lào Phân tích, đánh giá kết xử lý tiếng Lào cơng bố phân tích trạng hoạt động HCVP mang tính thực tiễn trưởng Đại học Champasak Đề xuất giải pháp phân tách từ hiệu văn tiếng Lào sở xây dựng kho ngữ liệu từ đơn cụm từ tiếng Lào, xây dựng sở luật máy suy diễn dựa đặc trưng ngữ pháp hệ viết Lào Tìm chọn phương pháp PLVB hiệu cho tiếng Lào, đề xuất mơ hình thử nghiệm PLVB kết hợp tách từ tiếng Lào sử dụng giải pháp đề xuất kho ngữ vựng xây dựng Cấu trúc luận án Sau phần mở đầu, nội dung luận án gồm bốn chương sau : Chương giới thiệu nguồn gốc số đặc trưng tiếng Lào, so sánh đặc điểm ngôn ngữ với số ngôn ngữ láng giềng Việt Nam, Thái Khmer, phân tích bối cảnh XL NNTN xử lý tiếng Lào đặt toán PLVB kết hợp giải tốn tách từ tiếng Lào Chương trình bày tổng quan lý thuyết phân tách từ, PLVB, đó, luận án tập trung giới thiệu thuật toán phân tách từ, PLVB hướng nghiên cứu liên quan, từ đề xuất giải pháp bước triển khai thử nghiệm PLVB tiếng Lào áp dụng thử nghiệm phục vụ hoạt động HCVP trường Đại học Champasak, nước CHDCND Lào Chương tập trung đề xuất giải pháp xây dựng mơ hình nhận diện từ giải toán tách từ văn tiếng Lào dựa sở luật đặc trưng ngữ pháp tính chất nguyên âm, phụ âm, xây dựng sở liệu (CSDL) chữ cái, kho ngữ vựng từ đơn cụm từ, xây dựng máy suy diễn (MSD) phục vụ giải toán tách từ kết hợp xử lý nhập nhằng Chương phân tích hoạt động HCVP trường Đại học Champasak, xây dựng kho văn HCVP theo số lĩnh vực chọn, trình bày bước thử nghiệm từ kho VBHC tiếng Lào xây dựng, đánh giá kết thử nghiệm PLVB dựa hướng tiếp cận SVM sử dụng mạng nơ ron RBF kết hợp sử dụng phương pháp tách từ CRF sử dụng sở luật, tiến hành đánh giá so sánh kết thử nghiệm Sau bốn chương phần kết luận hướng phát triển đề tài Phần cuối luận án danh mục tài liệu tham khảo, danh mục cơng trình khoa học cơng bố phụ lục liên quan Đóng góp luận án Đề xuất mơ hình cấu trúc từ đơn dựa đặc trưng hệ viết tiếng Lào, từ xây dựng sở luật máy suy diễn cho phép nhận diện bóc tách từ đơn văn để giải toán tách từ PLVB tiếng Lào Xây dựng kho ngữ vựng từ đơn từ ghép, kho văn HCVP tiếng Lào sở phân tích trạng trường Đại học Champasack, CHDCND Lào để phục vụ thử nghiệm tách từ PLVB tiếng Lào Đề xuất giải pháp tách từ sử dụng phương pháp so khớp tối đa kết hợp sử dụng sở luật để xử lý nhập nhằng từ kho ngữ vựng xây dựng Cài đặt hệ thống thử nghiệm, đánh giá kết sử dụng phương pháp PLVB kết hợp phương pháp tách từ tiếng Lào, cho phép ứng dụng thực tiễn phục vụ hoạt động HCVP trường Đại học Champasack CHƯƠNG VẤN ĐỀ XỬ LÝ TIẾNG LÀO 1.1 TÌM HIỂU TIẾNG LÀO 1.1.1 Giới thiệu tiếng Lào Nước CHDCND Lào có bốn dịng ngơn ngữ Lào-Tai, Mon-Khơme, Chin-Tybệt H'Mơng-Miền thuộc 49 dân tộc khác nhau[46] Dịng ngơn ngữ Lào-Tai (hay hệ ngơn ngữ Lào-Thái) có dân tộc Lào, Xaek, Nhouan, Tai, Thai-Neua, Phouthai, Yang Lue, chiếm 55% dân số nước Tám dân tộc sinh sống vùng đồng dọc sông Mê Kơng, nhánh sơng đổ Mê Kơng, có nghề nghiệp chủ yếu trồng lúa nước đánh bắt cá Dịng ngơn ngữ Mon-Khơme có 32 dân tộc : Khmou, Katang, Katu, Kriang, Kree/Kri, Khmer, Ngouan, Cheng, Samtao, Sadang, Xuay, Xingmoun, Nhaheun, TaOy, Triang, Tri, Toum, Thaen, Bid/Bit, Brao, Pakoh/Pacoh, Pray, Phong, Makong, Moy, Yrou, Yae/Ye, Lamed/Lamet, Lavi/Lavy, Oy, Oedou Harak, chiếm 27% dân số nước Những dân tộc thường sống vùng đồng trung du, có nghề nghiệp chủ yếu trồng lúa làm nương Dịng ngơn ngữ Chin-Tybệt có dân tộc : Singsily, Sila, Lahu, LoLo, Hor, Akha, Hanyi, chiếm 11% dân số nước Những dân tộc thường sống phía Bắc giáp với Trung quốc, có nghề nghiệp chủ yếu làm nương rẫy Dịng ngơn ngữ H'Mơng-Miền có hai dân tộc Hmong Iewmien, chiếm 7% dân số nước Hai dân tộc sinh sống vùng núi cao miền Bắc, có nghề nghiệp chủ yếu làm nương rẫy chăn nuôi gia súc Tiếng Lào-Tai Quốc ngữ, dùng giao tiếp thống VBHC nhà nước Luận án tập trung xử lý tiếng Lào-Tai, ngơn ngữ thức dùng nước Lào, gọi tiếng Lào, tương tự tiếng Việt Kinh Việt Nam 1.1.2 Nguồn gốc tiếng Lào Tiếng Lào (ພາສາລາວ, phát âm [pʰaːsaː laːw]) thuộc họ ngôn ngữ Tai-Kadai, chịu ảnh hưởng tiếng Phạn (梵 語; sa saṃskṛtā vāk संस्कृता वाक् , ngôn ngữ cổ Ấn Độ), đời từ khoảng kỷ XVI, ngơn ngữ truyền thống Hồng tộc Lào, truyền đạt tư tưởng Ấn Độ giáo Phật giáo, ngôn ngữ hỗn hợp bán đảo Đông Nam Á Tiếng Lào, ngơn ngữ đơn âm có điệu, đa số vay mượn từ ngôn ngữ cổ Ấn Độ, Paly, Sansakit Đạo Phật, phát triển rõ ràng vào kỷ XX Cũng có vay mượn từ tiếng Khơme, tiếng Pháp, tiếng Anh ngôn ngữ khác khu vực Căn vào nhiều tài liệu nhà ngôn ngữ Lào, người Lào sử dụng chữ Lào từ kỷ I (thời đại nước Lào cổ điển) Chữ mà người Lào sử dụng thời kỳ kiểu chữ kế thừa từ chữ Sansakit Đạo Phật trường phái Đại Thừa Tiếng Lào có điệu phát âm gần gũi với tiếng Thái Khác với tiếng Việt, tiếng Anh ngôn ngữ Châu Âu, tiếng Lào không sử dụng dấu khoảng trống (Space) chữ viết Chữ viết Lào tương tự số ngơn ngữ thuộc nhóm Mon-Khơme, Mông-Dao…, tiếng Thái, tiếng Khmer, tiếng Mianma Hệ thống chữ viết Lào phát triển thời gian lâu dài, pha trộn với nhiều hệ ngôn ngữ khác Thái, Ấn Độ, phần lớn thuộc dòng ngơn ngữ Lào-Tai Nhiều nhà ngơn ngữ, nhiều nhóm nghiên cứu thực nhiều công việc để phát triển giữ gìn chữ Lào Năm 1975, Bộ Giáo dục Lào cơng bố sử dụng tiếng Lào thức Vào lúc chữ Lào phát triển rõ ràng, đại dễ sử dụng người dân tồn ngày [34][46][47][49] 1.1.3 Những yếu tố ngữ pháp tiếng Lào Bảng chữ tiếng Lào Bảng chữ tiếng Lào gồm nhóm : phụ âm, nguyên âm dấu chữ số [6][39][47][49] Phụ âm : Có 33 phụ âm chia hai loại : phụ âm đơn phụ âm ghép Các phụ âm đơn gồm : ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ, ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ, ຣ, ໝ, ໜ, ຫວ, ຫ, ຫງ, ຫຍ Được chia nhóm thấp, trung cao Các phụ âm cao trung có phát âm gần giống Nhóm thấp gồm : ຂ, ສ, ຖ, ຜ, ຝ, ຫ Nhóm trung gồm : ກ, ຈ, ດ, ຕ, ບ, ປ, ຢ, ອ Nhóm cao gồm : ງ, ຄ, ຊ, ຍ, ທ, ນ, ພ, ຟ, ມ, ລ, ວ, ຮ, ຣ Nguyên âm : Có 28 nguyên âm chia hai loại : nguyên âm dài nguyên âm ngắn Các nguyên âm dài gồm : າ, ີ, ີ, ີ, ເ, ໂ, ີ, ໄ, ເີາ, ີາ, ໃ, ແ, ີວ, ເີ, ເ ອ, ເ-ຍ, ເີຍ Các nguyên âm ngắn gồm : ະ, ີ, ີ, ີ, ເ-ະ, ແ-ະ, ໂ-ະ, ເ-າະ, ວະ, ເີ, ເີອ Dấu : Tiếng Lào có dấu : ີ, ີ, ີ, ີ dấu cuối : ຯ, ໆ, ີ Ví dụ mái ệc ໄມເອກ, mái thơ ໄມໂທ, mái tri ໄມຕ, mái chặt -ta -wa ໄມຈດຕະວາ Khi viết, vị trí điệu đặt phụ âm nguyên âm tùy vào vị trí nguyên âm âm tiết (khác với tiếng Việt đặt nguyên âm) Ngồi ra, âm sắc điệu tiếng Lào khơng hoàn toàn trùng khớp với điệu tiếng Việt Chữ số : Có 10 chữ số tương ứng với số từ đến : ໐, ໑, ໒, ໓, ໔, ໕, ໖, ໗, ໘, ໙ Cách viết chữ số Lào tuân theo hệ thống số chuẩn thông thường Ví dụ : ໒໐໐໖ (2006), ໑໙,໗໕ (+19.75), -໗,໕ (-7,5), v.v… (luận án quy ước đặt nghĩa tiếng Việt từ, hay câu tiếng Lào cặp ngoặc đơn) Hệ thống từ vựng tiếng Lào Tiếng Lào ngơn ngữ đơn âm (một từ có âm tiết) Cách tạo từ tương tự tiếng Việt, từ tổ hợp từ chữ (phụ âm, nguyên âm) dấu Từ vựng tiếng Lào có hai loại từ đơn (giản) từ phức (hợp) Từ phức gồm từ ghép, từ láy Từ đơn : Từ đơn có âm tiết Một âm tiết có ký tự gồm có phụ âm nguyên âm Âm tiết dài có ký tự Ví dụ từ đơn có ký tự (quy ước đặt phát âm IPA từ tiếng Lào cặp gạch chéo) gồm âm tiết : ຂ / khor / (điều khoản) gồm phụ âm ຂ ngun âm Ví dụ từ có âm tiết : ໂຮງຮຽນ (trường học) /ໂຮງ/ຮຽນ/ Từ có âm tiết : ມະຫາວທະຍາໄລ (đại học) /ມະ/ຫາ/ວ/ທະ/ຍາ/ໄລ/ Trong cấu tạo từ đơn, có tám phụ âm : ກ, ງ, ຍ, ດ, ນ, ບ, ມ, ວ vừa phụ âm đầu vần vừa sử dụng làm phụ âm cuối từ, phụ âm khác xếp đầu vần từ Khi tám phụ âm dùng làm phụ âm cuối vần, cần đặt sau nguyên âm từ -າ , ີ, ີ,… đến ເ-ຍ, không đứng cuối vần với nguyên âm : ໄ, ເີາ, ີາ, ໃ Các từ có phụ âm hỗn hợp đứng đầu vần : ກວ, ຂວ, ຄວ, ງວ xếp sau từ có phụ âm cuối vần chót từ Cuối từ ghép với nguyên âm hai dấu đặc biệt : ີ, ີ trở thành nguyên âm ghép : າກ, ີກ, ີກ, ີກ, ເີກ, ເີກ, າງ, ີງ, ີງ ,ີງ, v.v… Có thể mơ hình hố cấu trúc từ tiếng Lào theo ba tầng từ lên chân (tầng 3), thân (tầng 2) tóc (tầng 1) Tầng gồm dấu điệu nguyên âm Tầng gồm có phụ âm trung tâm phụ âm ghép ກ, ຂ, ຄ, ງ, ຈ, ສ, ຊ, ຍ, ດ, ຕ, ຖ, ທ, ນ, ບ, ປ, ຜ, ຝ, ພ, ຟ, ມ, ຢ, ລ, ວ, ຫ, ອ, ຮ, ຣ, ຫນ, ຫມ, ຫວ, ຫງ, ຫຍ, ຫລ Hình Tầng nguyên âm số nguyên âm minh hoạ cấu trúc ba tầng từ (hay âm tiết) tiếng Lào Tóc (tầng 1) Dấu Nguyên âm Thân (tầng 2) Thân chữ ກ, ຂ, ຄ,… Chân (tầng 3) Nguyên âm ຈ, ສ, ຫ Hình 1.1 Cấu trúc ba tầng chữ Lào Từ ghép : Từ ghép ghép lại từ hai từ đơn trở lên, mang nghĩa xác định Có năm dạng ghép : ghép hai từ đơn có nghĩa khác nhau, ghép hai từ đơn có nghĩa tương đương, ghép hai từ đơn có nghĩa gần giống nhau, ghép nhiều từ đơn (cụm/nhóm từ), ghép từ tiếng Pali Sansakit Ví dụ ghép hai từ đơn có nghĩa khác : /ຂ/ຕກ/ລງ/ /khor tốc lông/ (nghị định) ghép từ hai từ ຂ / khor / (cầu) ຕກລງ / tốc lơng / (đồng ý) Ví dụ ghép hai từ đơn có nghĩa tương đương : /ແຈງ/ການ/ /cheng karn/ (thông báo) ghép từ hai từ ແຈງ /cheng/ (sang ) ການ /karn/ (các việc) Ví dụ ghép hai từ đơn có nghĩa gần giống : /ລາຍ/ງານ/” /lai ngan/ (thông báo) ghép từ hai từ ລາຍ /lai/ (sóc) ງານ /ngan/ (việc) Ví dụ ghép nhiều từ đơn : /ກ ນປ ກ ດ ຕງຕງ /Lễ công bố định bổ nhiệm cán / Ví dụ ghép từ tiếng Pali Sansakit : /ປ ກ ສ ນຍ ບດ / Bằng tốt nhiệp Từ láy : Từ láy có hai dạng tiêu biểu : láy phận láy hồn tồn Ví dụ láy phận : 10 4.3.4 Thử nghiệm phân loại văn Chúng tiến hành thử nghiệm PLVB sử dụng hai phương pháp máy vec tơ hỗ trợ SVM mạng nơ ron RBF, sau đánh giá kết cách sử dụng độ đo quy ước : độ tích cực TP, độ tiêu cực TN, độ sai tích cực FP, độ sai tiêu cực FN, độ chuẩn xác A, tỷ lệ sai E, độ xác P độ bao phủ R Phân loại văn SVM kết hợp tách từ sử dụng mạng nơ ron Bảng mô tả kết thử nghiệm tách từ sử dụng trường điều kiện ngẫu nhiên CRF để PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM (không hiển thị dấu % sau giá trị thống kê) Bảng 4.6 Kết PLVB tiếng Lào kết hợp SVM với CRF Thời Tên lờp phân loại Số VB PLVB máy vec tơ hỗ trợ kết hợp tách từ sử dụng CRF gian BQ TP TN FP FN Accuracy ErrorRate Precision Recall Nhân tiền lương 63 17s 53 274 15 10 92.90 7.10 77.94 84.13 Đào tạo 68 19s 55 272 16 13 91.85 8.15 77.46 80.88 Tuyển sinh 68 19s 48 279 20 93.97 6.03 97.96 70.59 Tốt nghiệp 61 16s 47 280 17 14 91.34 8.66 73.44 77.05 Đoàn-ĐảngThanh niên 68 19s 51 276 17 93.70 6.30 91.07 75.00 Cơng đồn 72 22s 63 264 17 92.63 7.37 78.75 87.50 92.73 7.27 82.77 79.19 Overall Phân loại văn SVM kết hợp tách từ sử dụng sở luật Kết thử nghiệm PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM kết hợp tách từ sử dụng MM kết hợp sở luật xử lý nhập nhằng sau : 76 Bảng 4.7 Kết PLVB tiếng Lào kết hợp SVM với tách từ dựa sở luật VB Thời gian BQ 63 12s Số Tên lờp phân loại Nhân tiền lương PLVB máy vec tơ hỗ trợ kết hợp tách từ sử dụng sở luật TP TN FP FN Accuracy ErrorRate Precision Recall 51 276 12 93.97 6.03 85.00 80.95 Đào tạo 68 14s 59 268 14 93.43 6.57 80.82 86.76 Tuyển sinh 68 14s 54 273 21 14 90.33 9.67 72.00 79.41 Tốt nghiệp 61 11s 48 279 12 13 92.90 7.10 80.00 78.69 Đoàn-ĐảngThanh niên 68 14s 53 274 15 94.24 5.76 91.38 77.94 Cơng đồn 72 15s 62 265 10 95.61 4.39 92.54 86.11 93.41 6.59 83.62 81.64 Overall : Phân loại văn RBF kết hợp tách từ sử dụng CRF Kết thử nghiệm PLVB sử dụng phương pháp mạng nơ ron RBF kết hợp tách từ sử dụng phương pháp trường điều kiện ngẫu nhiên CRF sau : Bảng 4.8 PLVB RBF tiếng Lào kết hợp với tách từ sử dụng CRF Tên lờp phân loại Số VB Thời gian BQ TP Nhân tiền lương 63 13s Đào tạo 68 Tuyển sinh PLVB mạng nơ ron RBF kết hợp tách từ sử dụng CRF FP FN 61 269 13 95.65 4.35 82.43 96.83 15s 59 271 10 94.56 5.44 85.51 86.76 68 15s 46 284 13 22 90.41 9.59 77.97 67.65 Tốt nghiệp 61 11s 55 275 19 92.96 7.04 74.32 90.16 Đoàn-ĐảngThanh niên 68 15s 48 282 20 91.92 8.08 84.21 70.59 Công đoàn 72 17s 45 285 27 92.18 7.82 97.83 62.50 7.05 83.71 79.08 Overall : Accuracy 92.95 ErrorRate Precision Recall TN Thử nghiệm tách từ sử dụng sở luật xử lý nhập nhằng để PLVB sử dụng phương pháp mạng nơ ron RBF Phân loại văn RBF kết hợp tách từ sử dụng sở luật Kết thử nghiệm PLVB sử dụng phương pháp mạng nơ ron RBF kết hợp tách từ sử dụng MM kết hợp sở luật xử lý nhập nhằng sau : 77 Bảng 4.9 Kết PLVB tiếng Lào kết hợp RBF với tách từ sử dụng sở luật VB Thời gian BQ 63 Đào tạo Số Tên lờp phân loại PLVB mạng nơ ron RBF kết hợp tách từ sử dụng sở luật TP TN FP FN Accuracy 12s 55 275 19 92.44 7.56 74.32 87.30 68 14s 54 276 14 95.38 4.62 96.43 79.41 Tuyển sinh 68 14s 52 278 24 16 89.19 10.81 68.42 76.47 Tốt nghiệp 61 10s 51 279 10 96.77 3.23 98.08 83.61 Đoàn-ĐảngThanh niên 68 14s 55 275 13 94.83 5.17 91.67 80.88 Cơng đồn 72 16s 63 267 11 94.29 5.71 85.14 87.50 93.82 6.18 85.68 82.53 Nhân tiền lương Overall : ErrorRate Precision Recall Đánh giá phương pháp PLVB kết hợp tách từ Từ kết thử nghiệm PLVB sử dụng hai phương pháp máy vec tơ hỗ trợ SVM mạng nơ ron RBF kết hợp hai phương pháp tách từ sử dụng trường điều kiện ngẫu nhiên CRF so khớp tối đa MM kết hợp sở luật xử lý nhập nhằng, đưa bảng đánh giá so sánh sau : Bảng 4.10 Kết thực nghiệm PLVB tiếng Lào kết hợp tách từ Tên lờp phân loại PLVB với vec tơ hỗ trợ SVM Số Thời VB gian Tách từ CRF Dựa sở luật BQ TP Accuracy Nhân lương 63 TP PLVB dùng mạng nơ ron RBF Tách từ CRF Accuracy TP Accuracy Dựa sở luật TP Accuracy 92.90 51 93.97 61 95.65 55 92.44 Đào tạo 53 10s 68 12s 55 91.85 59 93.43 59 94.56 54 95.38 Tuyển sinh 68 12s 48 93.97 54 90.33 46 90.41 52 89.19 Tốt nghiệp 61 47 91.34 48 92.90 55 92.96 51 96.77 Đoàn-Đảng -Thanh niên 68 12s 51 93.70 53 94.24 48 91.92 55 94.83 Cơng đồn 72 15s 63 92.63 62 95.61 45 92.18 63 94.29 Tổng số văn 400 9s 92.73 93.41 78 92.95 93.82 Để thấy hiệu giải pháp PLVB tách từ đề xuất luận án, hình đồ thị tổng hợp kết đánh giá theo tên lớp phân loại từ kho văn HCVP trường Đại học Champasak hai phương pháp PLVB kết hợp hai phương pháp tách từ chọn : - SVM+CRF : PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng trường điều kiện ngẫu nhiên CRF - SVM+Luật : PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng sở luật để xử lý nhập nhằng - RBF+CRF : PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng trường điều kiện ngẫu nhiên CRF - RBF+Luật : PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng sở luật để xử lý nhập nhằng Hình 4.3 Lược đồ so sánh kết thực nghiệm mạng RBF SV Kết đánh giá cho bảng 4.10 đồ thị 4.2 cho thấy PLVB sử dụng phương pháp RBF+CRF (mạng nơ ron RBF tách từ sử dụng trường điều kiện ngẫu nhiên CRF) đạt kết cao cho thể loại văn Tốt nghiệp Tuy nhiên tính kết trung bình cho thể loại VBHC, phương pháp PLVB sử dụng phương pháp tách từ sử dụng sở luật để xử lý nhập nhằng đạt kết khả quan 79 4.4 KẾT LUẬN CHƯƠNG Trong chương này, luận án trình bày tổng hợp nghiên cứu PLVB nói chung tốn PLVB tiếng Lào nói riêng Về mặt lý thuyết, phương pháp máy vec tơ hỗ trợ SVM đơn giản phương pháp mạng nơ ron RBF trình thực nghiệm phức tạp khơng dễ tìm tham số phù hợp Quá trình lựa chọn tham số ngưỡng loại bỏ đặc trưng, thường q trình thử-sai nhiều cơng sức Với mạng nơ ron RBF, trình thực nghiệm tiến hành cơng cụ thư viện có sẵn nên hệ thống tham số lựa chọn cách đơn giản nhanh chóng Thơng qua kết thực nghiệm cho thấy, mạng nơ ron RBF giải toán PLVB cho kết khả quan phân loại SVM, không nhiều Tuy nhiên với hai phân loại, kết thực nghiệm cho thấy nhiều lỗi phân loại nhầm lớp văn Chúng xem xét kỹ mẫu văn bị phân loại sai nhận thấy kích thước tệp liệu huấn luyện hạn chế yếu tố dẫn đến hiệu chưa cao trình tiến hành thử nghiệm Giải pháp PLVB kết hợp tách từ sử dụng sở luật để xử lý nhập nhằng thực đáp ứng yêu cầu thực tiễn trường Đại học Champasak tiếng Lào 80 KẾT LUẬN Các kết luận án Xuyên suốt luận án kết nghiên cứu XL NNTN nói chung, xử lý tiếng Lào nói riêng, liên quan chủ yếu đến toán xử lý văn bản, PLVB toán tách từ tiếng Lào Nơi dung nghiên cứu tập trung tìm hiểu khái niệm, mơ hình, phương pháp, kỹ thuật so sánh, đánh giá ưu nhược điểm phương pháp Luận án tập hợp trình bày số phương pháp phổ biến máy vec tơ hỗ trợ SVM mạng nơ ron RBF Từ luận án đưa định sử dụng phương pháp PLVB cho tiếng Lào Từ nhu cầu thực tiễn đổi hoạt động hành ứng dụng CNTT, giải vấn đề phân loại VBHC trường Đại học Champasack, nước CHDCND, luận án đề xuất giái pháp PLVB sở giải toán tách từ Kết đóng góp luận án triển khai nội dung sau : Tìm hiểu đặc trưng ngữ pháp hệ thống ngữ pháp chữ viết Lào, đề xuất xây dựng mơ hình cấu trúc từ đơn mang tính đặc thù tiếng Lào Từ đó, vận dụng xây dựng sở luật máy suy diễn cho phép nhận diện từ đơn câu văn xây dựng kho ngữ liệu từ đơn tiếng Lào Từ kho từ đơn có, chúng tơi tiến hành xây dựng kho từ vựng gồm từ đơn, từ ghép cụm từ, kết hợp kiểm tra sửa lỗi thủ công, phục vụ giải toán tách từ tiếng Lào Các kho ngữ vựng từ đơn cụm từ tiếng Lào chưa có, chưa xây dựng theo định hướng mã nguồn mở từ trước tới Để triển khai PLVB, chúng tơi tìm hiểu, phân tích thực tiễn hoạt động phân loại, lưu trữ loại VBHC khác trường Đại học Champasak, từ thu thập, tổ chức lưu trữ văn để tạo CSDL VBHC phục vụ bước xây dựng kho ngữ liệu thử nghiệm Với văn vào từ CSDL VBHC, tiến hành bóc tách từ tiếng Lào sử dụng phương pháp so khớp tối đa kho từ vựng, kết hợp xử lý nhập nhằng sử dụng sở luật Để tiến hành thử nghiệm, chuẩn bị đầy đủ điều kiện sở, môi trường công cụ thử nghiệm, lựa chọn phương pháp PLVB, tách từ lựa chọn tiêu chí, hay độ đo, để đánh giá kết Sau đó, tiến hành thử nghiệm PLVB tiếng 81 Lào sử dụng hai phương pháp máy vec tơ hỗ trợ SVM hàm bán kính sở RBF, kết hợp thử nghiệm tách từ theo hai phương pháp trường điều kiện ngẫu nhiên dựa sở luật đề xuất Các kết thử nghiệm PLVB tách từ đánh giá, so sánh thông qua bảng biểu đồ - PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng trường điều kiện ngẫu nhiên CRF đạt độ xác 92.73 % - PLVB sử dụng phương pháp máy vec tơ hỗ trợ SVM tách từ sử dụng sở luật để xử lý nhập nhằng đạt độ xác 93.41% - PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng trường điều kiện ngẫu nhiên CRF đạt độ xác 92.94% - PLVB sử dụng phương pháp mạng nơ ron RBF tách từ sử dụng sở luật để xử lý nhập nhằng đạt độ xác 93.82% Có thể nhận định, giải pháp tách từ tiếng Lào đề xuất kết hơp phương pháp khử bỏ nhập nhằng đặc trưng ngữ pháp hệ viết Lào Quá trình tách từ dựa vào kho ngữ vựng, thực tế địi hỏi phải có kho ngữ liệu đủ lớn để tách từ hiệu Những giải pháp mà chúng tơi đề xuất góp phần xử lý phần tượng nhập nhằng văn tiếng Lào, cụ thể xử lý nhập nhằng đồng tự (hai từ có ký tự) Giải pháp đóng góp có ý nghĩa cho tiến trình xử lý tiếng Lào nói riêng, XL NNTN nói chung, góp phần tiếp tục triển khai hồn thiện tốn xử lý PLVB tiếng Lào tự động Mặc dù với dung lượng chưa đủ lớn bước chạy thử nghiệm, triển vọng mở rộng kho ngữ vụng khả thi Mặt khác, để đạt độ xác cao hơn, cần bổ sung luật cho phép xử lý nhập nhằng cách hiệu Các kết nghiên cứu công bố cơng trình [1][2][3] Phân tích mặt hạn chế Thông qua kết thực nghiệm cho thấy, kết hợp tách từ sử dụng giải pháp sở luật để xử lý nhập nhằng, phương pháp mạng nơ ron RBF giải toán PLVB cho kết tốt (tuy không nhiều) phân loại máy vec tơ hỗ trợ SVM Các kết nghiên cứu cơng bố cơng trình [3] Tuy nhiên, luận n vài hạn chế sau : Các thử nghiệm sử dụng thuật toán máy vec tơ hỗ trợ SVM mạng nơ ron RBF cho toán PLVB thử 82 nghiệm kho VBHC tiếng Lào tuý văn bản, đơn ngữ, không chứa thành phần đồ hoạ, công thức hay thành phần đa tạp, multimedia… Mặt khác, chúng tơi phân loại sáu chủ đề trường Đại học Champasak Nhân tiền lương, Đào tạo, Tuyển sinh, Tốt nghiệp, Đồn-ĐảngThanh niên Cơng đồn, mà chưa xử lý PLVB thể loại thông dụng Công văn, Thông báo, Báo cáo, Quy định, Quyết định, Kinh tế, Pháp luật… hay PLVB theo tiêu chí cụ thể khác trường tuỳ theo yêu cầu thực tế Kho văn HCVP chưa thật lớn, mang tính thử nghiệm, chúng tơi chưa đối sánh kết thử nghiệm nhiều liệu khác Mặt khác chưa vận dụng thuật toán khác để chọn phương pháp hợp lý cho nhu cầu thực tiễn trường Đại học Champasak Hướng phát triển luận án Hướng phát triển trước mắt luận án tìm cách khắc phục mặt hạn chế liên quan đến giải pháp tiền trinh thử nghiệm PLVB đề xuất Sau đó, tiếp tục đánh giá so sánh kết thử nghiệm để tìm phương pháp tối ưu, vận dụng hiệu trường Đại học Champasak, mở rộng ứng dụng cho trường Đại học khác nước CHDCND Lào Trong tương lai, tiếp tục nghiên cứu mối quan hệ kích thước ngữ liệu huấn luyện, mức độ cân ngữ liệu huấn luyện tác động lên hiệu phương pháp phân loại Chúng tiếp tục nghiên cứu giải toán PLVB cho văn đa ngữ, đa tạp (multimedia), đa lĩnh vực, có kích thước hay dung lượng lớn mơi trường sử dụng linh hoạt Hơn nữa, tiếp tục cải thiện độ xác phương pháp PLVB, tách từ tiếng Lào có được, thơng qua việc cải thiện sở luật, máy suy diễn kết hợp thêm số đặc trưng từ loại, cú pháp ngữ nghĩa hệ việt tiếng Lào 83 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Ch Apté, Automated learning of decision rules for text categorization, in ACM Trans Inf Syst, July 1994 [2] Chr M Bishop, Pattern Recognition and Machine Learning, Springer 2007 [3] N Chirawichitchai, Developing an effective Thai document categorization framework base on term relevance frequency weighting in Knowledge Engineering, 2010 8th International Conference on ICT, Nov 2010 [4] T M Cover and P E Hart, Nearest neighbor pattern classification, IEEE Trans Inform Theory, vol IT-13, pp 21-27, Jan 1967 [5] J Făurnkranz, A Study Using n-gram Features for Text Categorization, in Austrian Research Institute for Artificial Intelligence, Technical Report OEFAI-TR-98-30, 1998 [6] Mouton de Gruyter, A Grammar of Lao, Copyright 2007 by Walter de Gruyter Ch P Mekanavin, S & B Kijsirikul [7] Meknavin S, Charoenpornsawat P, Kijsirikul B Feature-Based Thai Words Segmentation Proceedings of the Natural Language Processing Pacific Rim Symposium, p41-48 Phuket, Thailand, 1997 [8] H X Huan, D T T Hien, H H Tue, Training Interpolation Radial Basis Function Networks Signal Processing, Vol 87, Issue 11 2007, pp 2708–2717, 2007 [9] D T T Hien, H X Huan, H H Tue, Local RBF Neural Networks for Interpolating Multivariate Functions IEEE International Conference on Research, Innovation and Vision for the Future in Computing & Communications Technologies, ENST 2008 S 001, pp.70-75, 2008 [10] T Joachims, Text categorization with suport vector machines : Learning with many relevant features Proceedings of the 10th European Conference on Machine Learning, ECML '98, 1998 [11] W Y Ma, K J Chen, Introduction to CKIP Chinese Word Segmentation System for the First International Chinese Word Segmentation Bakeoff Web: http://www.aclweb.org/anthology/W03-1726 [12] N C Tu, N T, Kien, P X Hieu, N L Minh, H Q Thuy Vietnamese word segmentation with CRF and SVMs, An Investigation In 20th Pacific Asia Conference on Language, Information and Computation (PACLIC 2006), Wuhan, China 84 [13] H P Le, N T M Huyen, A Roussanaly, H T Vinh A Hybrid Approach to Word Segmentation of Vietnamese Texts Language and Automata Theory and Applications, Springer Edition, 2008 (web: https://hal.inria.fr/inria-00334761/PDF/LATA039.pdf) [14] D Palmer A Trainable Rule-based Algorithm for Word Segmentation The MITRE Corporation 202 Burlington Rd Bedford, MA 01730, USA, 1996 [15] JC Platt, Sequential minimal optimization : A fast algorithm for training support vector machines, In Advances in Kernel Methods, Support Vector Learning, 1998 [16] H Poovarawan, Ch Wongchaisuwat, A Development of Algorithms for Thai Language Data Processing, Kasetsart University, Thailand, 2001 [17] M.J.D Powell, Radial basis function methods for interpolation to functions of many variables, 2011 [18] S Suebvisai, P Charoenpornsawat, Thai Automatic Speech Recognition Proceedings of ICASSP, Philadelphia, Pennsylvania, 2005 [19] N Seresangtakul, A hybrid apapproach to lao word segmentation using longest syllable level matching Engineering/Electronics, with named Computer, entities recognition, Telecommunications and in Electrical Information Technology (ECTI-CON), May 2013 [20] P.J Tan and D.L Dowe, MML Inference of Oblique Decision Trees, Lecture Notes in Artificial Intelligence (LNAI) 3339, Springer-Verlag, pp1082-1088, (2004) [21] Ah-Hwee Tan, Fon-Lin Lai Text categorization, supervised learning, and domain knowledge integration Proceedings of KDD-2000, Workshop on Text Mining, 2000 (Web: http://www.cs.cmu.edu/~dunja/KDDpapers/Tan_TM.pdf) [22] C H A Tsai Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 2000 [23] N H A Tú, H Kiem, Frequent subgraph-based approach for classifying vietnamese text documents In Joaquim Filipe and José Cordeiro, editors, ICEIS, 2009 [24] J Thaisungkhom, The document classification system based on the neural network, King Mongkut’s Institute of Technology North Bangkok, 2006 [25] S.Vanthanavong, LaoWS : Lao Word Segmentation Based on Conditional Random Fields, Conference on Human Language Technology for Development, Alexandria, Egypt, pp.2-5 May 2011 [26] V Vapnik The Nature of Statistical Learning Theory SpringerVerlag, 1995 [27] Chan P Wong Chinese Word Segmentation Based on Maximum Matching and Word Binding Force Proceedings of Coling 96, pp.200-203, 1996 85 [28] P Yang, Highperforming feature selection for text classification Proceedings of the 11th International Conference on Information and Knowledge Management, New York, 2002 [29] Các viết khác trang web tiếng Anh lĩnh vực xử lý ngôn ngữ tự nhiên, phân loại văn bản, tách từ công cụ xử lý [30] T Nomponkrang, C Sanrach, The Comparison of Algorithms for Thai-Sentence Classification, International Journal of Information and Education Technology, Vol 6, No 10, October 2016 [31] Yaw-Huei Chen, P Daowadung, Assessing Readability of Thai Text Using support vector machines, Maejo Int J Sci Technol 2015, 9(03), 355-369; doi: 10.14456/mijst.2015.27 [32] Satien Janpla, The Effectiveness of Automated Thai Documents Categorization Based on Machine Learning, Journal of Theoretical and Applied Information Technology, 10 A ugust 201 Vo l 66 No.1 [33] T Siriteerakula, V Boonjingb , R Gullayanona, Character Classification Framework Based on Support Vector Machine and K -Nearest Neighbour Schemes, Research Article; doi: 10.2306/scienceasia1513-1874.2016.42.046 Tiếng Việt [34] M Alves, Khái quát nghiên cứu ngôn ngữ học nguồn gốc tiếng Việt Tạp chí Khoa học ĐHQGHN, Khoa học Xã hội Nhân văn 24, tr 187-202, 2008 [35] S Duoangsopha, Xây dựng XD từ điển điện tử tin học Việt-Anh-Lào, Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS Phan Huy Khánh, Đại Học Đà Nẵng, 2005 [36] T C Đệ, P N Khang, Phân loại văn với máy học vector hỗ trợ định, Tạp chí Khoa học 2012:21a 52-63, Trường Đại học Cần Thơ, tr 52-63, 2012 [37] N L Giang, N M Hiển, Phân loại văn tiếng Việt với phân loại véctơ hỗ trợ SVM Tạp chí Bưu Viễn thơng CNTT, Số 15, tr 66-75, 2005 [38] H S Hi, Ngữ pháp tiếng Khmer, Học viện Giáo dục Dân tộc 2012 [39] N T T Hòa, N.T D Thúy, T T A Thư, V.T Thảo, T M Phương, Nghiên cứu đặc trưng ngôn ngữ Việt-Lào để nâng cao hiệu dạy học tiếng Việt cho lưu học sinh Lào Tạp chí Khoa học, trường Đại học Hà tĩnh, 2011 (Web: http://rej.htu.edu.vn/bieu-mau/) [40] D T T Hien, H X Huan, Thuật toán pha huấn luyện nhanh mạng nội suy RBF với mốc cách Kỷ yếu Hội thảo quốc gia lần thứ X : Các vấn đề chọn lọc 86 CNTT, Đại Lải, tr 532-542, 2007 [41] H X Huan, D T T Hien, Phương pháp lặp huấn luyện mạng nội suy RBF Kỷ yếu Hội thảo Quốc gia lần thứ VIII : Các vấn đề chọn lọc CNTT, Hải Phòng, tr 314323, 2005 [42] V Ketsilivong Tích hợp giải pháp cập nhật kho ngữ liệu đa ngữ, ứng dụng cho tiếng Lào Luận văn Thạc sĩ Khoa học Máy tính, Người HD : PGS.TS Phan Huy Khánh, Đại Học Đà Nẵng (2006) [43] T T Oanh, Mơ hình tách từ, gán nhãn từ loại hướng tiếp cận tích hợp cho tiếng Việt Luận văn ThS, Người HD : PGS.TS Hà Quang Thụy, trường ĐH Công nghệ, ĐHQG Hà Nội, 48 tr, 2008 [44] H Q Thắng, Đ T T Phương, “Tiếp cận phương pháp học không giám sát học có giám sát với tốn phân loại văn tiếng Việt đề xuất cải tiến cơng thức tính độ liên quan hai văn mơ hình vec tơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005 [45] Các viết khác trang web tiếng Việt lĩnh vực ngôn ngữ học, xử lý ngôn ngữ tự nhiên, phân loại văn bản, tách từ công cụ xử lý Tiếng Lào [46] ພ ສ ລ ວນນ ຄ ດລ ວ ຊນມດທ ຍມ (Tiếng Lào văn học lớp 8), Nhà Xuất Viện Nghiên cứu Khoa học Giáo dục, Bộ Giáo dục Lào, 1997 [47] ວຍ ກອນພ ສ ລ ວ ຊນມດທ ຍມ (Ngữ pháp tiếng Lào Lớp 10), Nhà Xuất Bộ Giáo dục Thể Thao Lào, 1980 [48] ວດຈ ນ ນກມພ ສ ລ ວ (Từ điển tiếng Lào), Web: http ://www.brothersoft.com/downloads/lao-dictionary.html [49] Các viết khác trang web tiếng Lào ngôn ngữ, tiếng Lào 87 DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC [1] V Souksan, PH.Khánh (2013) Khử bỏ nhập nhằng toán tách từ tiếng Lào Tạp chí Khoa học&Cơng nghệ, Đại học Đà Nẵng, No.1(62), tr.113-119 [2] V Souksan, PH.Khánh (2014), Tách từ tiếng Lào sử dụng kho ngữ vựng kết hợp với đặc trưng ngữ pháp tiếng Lào Kỷ yếu Hội thảo KHQG Lần thứ XVI Số : 14-16/11/2014 Tr.61-68, Đà Nẵng 2014 [3] V Souksan, PH.Khánh (2015) Comparision on some Machine Learning Methods for Lao Text International Journal of Computer Science and Telecommunications, ISSN 2047-3338 Vol.6(7), pp.8-13, July 2015 88 KẾT QUẢ TÌM KIẾM VỀ PHÂN LOẠI VĂN BẢN TIẾNG LÀO TRÊN MẠNG 89 90 ... phương pháp so khớp tối đa để giải toán tách từ phục vụ PLVB 36 2.4 PHÂN LOẠI VĂN BẢN TIẾNG LÀO 2.4.1 Bài toán phân loại văn tiếng Lào Ở quan hành chính, người ta có cách phân chia văn theo loại. .. Analysis), phân tích ngữ pháp (Parser) xử lý văn bản, kiểm lỗi tả, kiểm lỗi văn phạm, tóm tắt văn bản, phân loại văn bản, hiểu văn bản, khai thác văn bản, v.v Như nói, vấn đề nảy sinh tách từ xuất từ. .. âm tiết có hai loại từ : từ đơn, từ ghép cụm từ (kết hợp nhiều từ đơn từ ghép) Về mặt từ loại, bốn ngơn ngữ có loại từ : danh từ, đại từ, động từ, giới từ, tính từ, liên từ, trạng từ Tuy nhiên

Ngày đăng: 10/02/2023, 14:35

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan