.8 Kết quả thực nghiệm mơ hình Look-ahead

Một phần của tài liệu Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng ba na tự động (Trang 46 - 62)

Input: adriêng 'bă 'băn nb x tơmang --------------------------------------------- STEP:1:adriêng 'bă 'băn nb tơmang >> adr(i)

38 >> adriê(n) >> adriên(g) >> adriêng( ) >> adriêng (') >> adriêng '(b) >> adriêng 'b(ă) >> adriêng 'bă( ) >> adriêng 'bă (') >> adriêng 'bă '(b) >> adriêng 'bă 'b(ă) >> adriêng 'bă 'bă(n) >> adriêng 'bă 'băn( ) >> adriêng 'bă 'băn (n) >> adriêng 'bă 'băn n(b)

<< [top look ahead] adriêng 'bă 'băn năm tơmang (0.999943) << [top look ahead] adriêng 'bă 'băn ngŏ tơmang (0.971874) << [top look ahead] adriêng 'bă 'băn nhŏ tơmang (0.000610) << [top look ahead] adriêng 'bă 'băn ngo tơmang (0.000588) << [top look ahead] adriêng 'bă 'băn nhơtơmang (0.000496) ---------------------------------------------

STEP:2:adriêng 'bă 'băn năm tơmang >> adr(i) >> adri(ê) >> adriê(n) >> adriên(g) >> adriêng( ) >> adriêng (') >> adriêng '(b) >> adriêng 'b(ă) >> adriêng 'bă( ) >> adriêng 'bă (') >> adriêng 'bă '(b) >> adriêng 'bă 'b(ă) >> adriêng 'bă 'bă(n) >> adriêng 'bă 'băn( )

39

>> adriêng 'bă 'băn (n) >> adriêng 'bă 'băn n(ă) >> adriêng 'bă 'băn nă(m) >> adriêng 'bă 'băn năm( ) >> adriêng 'bă 'băn năm (t) >> adriêng 'bă 'băn năm t(ơ) >> adriêng 'bă 'băn năm tơ(m) >> adriêng 'bă 'băn năm tơm(a) >> adriêng 'bă 'băn năm tơma(n) =========================== [INPUT]adriêng 'bă 'băn nb x tơmang --------------------------------------------- [FINAL]adriêng 'bă 'băn năm tơmang

Input: Rim tơdroxxg pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrolg ăn lec

---------------------------------------------

STEP:1:rim tơdroxxg pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrolg ăn lec

---------------------------------------------

STEP:2:rim tơdrong pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrolg ăn lec

---------------------------------------------

STEP:3:rim tơdrong pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrong ăn lec

---------------------------------------------

STEP:4:rim tơdrong pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrong ăn lech

=============================================

[INPUT]Rim tơdroxxg pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrolg ăn lec_

---------------------------------------------

40

ăn lech

Với kết quả thực nghiệm trên mơ hình từ trái sang phải, hệ thống khi gặp một kí tự có xác suất thấp dưới ngưỡng đưa ra (0.001), thay vì thay thế bằng kí tự có xác suất cao nhất thì sẽ tạo ra danh sách các ký tự ứng tuyển gồm kí tự hiện tại và danh sách các kí tự có xác suất cao nhất. Sau đó tính xác suất xuất hiện của kí tự tiếp theo với từng ký tự từ ứng tuyển rồi chọn ra xác suất của cao nhất ứng với ký tự ứng tuyển để chọn ký tự ứng tuyển làm kí tự thay thế.

4.4.5. Kết quả thực nghiệm kết hợp 3 mơ hình ngơn ngữ Char L2R, Char R2L, Look-ahead với độ đo WER

Như đã trình bày ở phần 4.1 về đánh giá với độ đo WER thì độ đo WER càng thấp thì tính chính xác của văn bản dự đốn được càng lớn.

Trong lần thực nghiệm này, Hệ thống sẽ nhận đầu vào là một câu hoặc một đoạn văn của người dùng nhập từ hệ thống, Hệ thống chia đoạn văn thành một câu riêng lẻ và tiền xử lý dữ liệu, tiếp theo đó hệ thống sẽ thực hiện sữa lỗi tự động ở mức ký tự tiếng Ba Na bằng sự kết hợp của những mơ hình ngơn ngữ tơi đã trình bày phía trên, Cuối cùng tôi sẽ dùng độ đo WER để đánh giá tính chính xác của văn bản được dự đốn.

Bảng 4. 9 Kết quả thực nghiệm kết hợp 03 mơ hình ngơn ngữ Char L2R, Char R2L, Look-ahead với độ đo WER

41

Input Output Tiếng BANA Đúng WER

adriêng 'bă 'băn nb x tơman_

adriêng 'bă 'băn năm tơmang

adriêng 'bă 'băn năm tơmang 0 nhŭng lơ̆m tơmăn 'nhct xê̆ .'bău nhŭng lơ̆m tơmăn 'nhct xê̆ 'bău

nhŭng lơ̆m tơmăn 'nhăt jê̆ 'bău

0.333333333

Uĕi mănng cham, mĭ Yôl atumg 'bơ̆l adrĭng tơpơh

uĕi măng cham mă yôl atung 'bơ̆l adrĭng tơpơh

uĕi măng cham mĭ Yôl atung 'bơ̆l adrĭng tơpơh

0.111111111

adriêng 'bă 'băn nb x tơmanh

adriêng 'bă 'băn năm tơmang

adriêng 'bă 'băn năm tơmang

0

Pơjing rim tơdrong đat đei, lơ̆m jơnang truh, huyên Vinh Thanh ling lang krao rim nguôn lư̆k tơgŭm pơjing cơ sơ ha tâng, jơră dêh tơplih kơ kơ̆u kinh tê 'boi tơdrong hang hoa pơtĕp adrĭng kjung tơdrong khuiên nông

pơjing rim tơdrong đat đei lơ̆m jơnang truh huyên vinh thanh ling lang krao rim nguôn lư̆k tơgŭm pơjing cơ sơ ha tâng jơră dêh tơplih kơ kơ̆u kinh tê 'boi tơdrong hang hoa pơtĕp adrĭng kjung tơdrong khuyên nông

Pơjing rim tơdrong đat đei lơ̆m jơnang truh huyên Vinh Thanh ling lang krao rim nguôn lư̆k tơgŭm pơjing cơ sơ ha tâng jơră dêh tơplih kơ kơ̆u kinh tê 'boi tơdrong hang hoa pơtĕp adrĭng kjung tơdrong khuyên nông

42 Jơnang kơsơ̆ bok 'nau

tah đơ̆i

jơnang tơmưt boi khaiêm tah đơ̆i

Jơnang kơsơ̆ bok 'nau tanh đơ̆i

0.666666667

Bok inh ahrĕ ơ̆u la duch pơtho trươ_g pklĕi

bok inh ahrĕi ơ̆u la duch pơtho trương pơlĕi

bok inh ahrĕi ơ̆u la duch pơtho trương pơlĕi

0

Rim tơdroxxg pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrolg ăn lech

rim tơdrong pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrong ăn lech

rim tơdrong pơnhroh hơdơi pơm đat weng keh kong sruôih loi pơting adring tơdrong ăn lech

0

Jơnang kơ'măng 'bă năxcm chơ̆ tĕcc 'long ŭnh

jơnang tơgŭmăng 'bă năxcm chơ̆ tĕcc 'long ŭnh

Jơnang kơ'măng 'bă năm chơ̆ tĕch 'long ŭnh

0.666666667

Ducch atuxg wă tannh minh abơ̆u tŏ piê_

duch atung wă tanh minh abơ̆u tŏ piêu

duch atung wă tanh minh abơ̆u tŏ piêu

0

huyên vxnh thaavh huyên vinh thanh huyên vinh thanh 0

huyêên vxnh than_ huyên vinh thanh huyên vinh thanh 0

Ŭnh hnam inh ơĭ tơpơh nu bơngai

ŭnh hnam inh ơĭ tơpơh nu bơngai

ŭnh hnam inh ơĭ tơpơh nu bơngai

0

Boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭc_

boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭch

boi thu 'yŏk điêu tra ra soat ŭnh hnam dơnuh atŭch

0

adriêng 'bă 'băn nam x tơman_

adriêng 'bă 'băn năm tơmang

adriêng 'bă 'băn năm tơmang

0

Kết quả thực nghiệm trên là sự kết hợp 03 mơ hình ngơn ngữ gồm mơ hình ngơn ngữ mức ký từ trái sang phải, mơ hình ngơn ngữ mức ký từ phải sang trái và mơ hình

43

ngôn ngữ mức ký tự look-ahead được đo bằng độ đo WER. Kết quả độ đo WER thấp nói lên độ chính xác giữa văn bản dự đốn và văn bản gốc.

Kết quả thực nghiệm đã cho thấy hệ thống đã thực hiện được mục tiêu đề ra ban đầu là xây dựng mơ hình ngơn ngữ và sửa lỗi tiếng Ba Na tự động.

Kết luận chương 4

Với mơ hình nghiên cứu, phương pháp nghiên cứu được đề xuất ở chương 3, chương này trình bày trong các kết quả nghiên cứu đã đạt được từ mơ hình huấn luyện đề xuất, những kết quả này sẽ được đánh giá với độ đo WER. Kết quả thực nghiệm và đánh giá cũng đã cho thấy hệ thống đã thực hiện được mục tiêu đề ra ban đầu là xây dựng mơ hình ngơn ngữ và sửa lỗi tiếng Ba Na tự động.

44

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1. Kết luận

Đề tài thực hiện được mục tiêu đề ra ban đầu là Xây dựng mơ hình ngơn ngữ và sửa lỗi tiếng Ba Na tự động bằng việc vận dụng kiến thức của công nghệ Máy Học, dùng các kỹ thuật phương pháp Học Sâu. Bên cạnh đó, cũng áp dụng thêm nhiều phương pháp và sự sáng tạo cá nhân để quan sát nhằm cải thiện cho kết quả bài toán tốt nhất.

Ở khía cạnh nghiên cứu của tơi, tơi rút ra kết luận như sau:

Ưu điểm

₋ Kết quả thực nghiệm cho thấy mơ hình ngơn ngữ LSTM mang lại độ chính xác và tốt hơn so với các mơ hình ngơn ngữ truyền thống.

₋ Phương pháp khả thi xây dựng thêm kho ngữ liệu phục vụ huấn luyện mơ hình ngơn ngữ và sửa lỗi tự động.

₋ Tìm hiểu tiếng Ba Na và góp phần đề xuất hướng nghiên cứu mới.

₋ Đề tài thực hiện được mục tiêu đề ra ban đầu là xây dựng mơ hình ngơn ngữ và sửa lỗi tiếng Ba Na tự động.

Nhược điểm

₋ Dữ liệu còn hạn chế.

₋ Với các câu dài sửa lỗi còn chưa tốt, cần các phương pháp tiền xử lý dữ liệu tốt hơn.

₋ Việc thực hiện đề tài này giúp tôi thêm tự hào và hiểu sâu sắc hơn về sự thú vị và phong phú của tiếng Ba Na, góp phần làm nên một nghiên cứu mới về ngơn ngữ tiếng Ba Na nói riêng và ngơn ngữ tiếng DTTS khác ở Việt Nam. Về mặt kỹ thuật, giúp tôi hiểu sâu sắc hơn và tiếp cận hơn với các công nghệ mới, cũng như kỹ thuật xử lý Ngơn ngữ tự nhiên nói riêng và nghiên cứu Học Sâu nói chung.

5.2. Hướng phát triển

Việc xây dựng mơ hình ngơn ngữ và sửa lỗi tiếng Ba Na tự động mới chỉ là bước đầu trong xử lý trên một ngôn ngữ, thế nên hướng mở rộng cho đề tài này, sau đây tôi sẽ nêu lên những hướng phát triển tiếp theo liên quan đến đề tài của mình:

45

₋ Thu thập nhiều hơn dữ liệu về tiếng Ba Na.

₋ Tìm nhiều cách làm giàu dữ liệu hơn để có được kho ngữ liệu đa dạng. ₋ Tiếp tục cải tiến mơ hình ngơn ngữ sử dụng LSTM kết hợp Word2vec để

xây dựng mơ hình ngơn ngữ và sửa lỗi tự động ở mức từ.

₋ Mở ra hướng nghiên cứu mơ hình ngơn ngữ và sửa lỗi tự động cho tiếng dân tộc thiểu số khác ở Việt Nam.

₋ Nghiên cứu và thực nghiệm thêm nhiều phương pháp Học Sâu mới để đánh giá, so sánh và giải quyết bài toán.

46

TÀI LIỆU THAM KHẢO

[1] Người Ba Na – Wikipedia tiếng Việt (2021), [ONLINE]. Available: < https://vi.wikipedia.org/wiki/Ng%C6%B0%E1%BB%9Di_Ba_Na >

[2] Sở Khoa học và Cơng nghệ - Ủy ban nhân dân tỉnh Bình Định và Viện Ngơn ngữ học – Viện Khoa học xã hội Việt Nam (2008), “Chữ Bana Kriêm Bình Định” 2008. [3] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, & Sanjeev Khudanpur (2010), “Recurrent neural network based language model”. In

Eleventh annual conference of the international speech communication association, 2010.

[4] P. H. Nguyen, T. D. Ngo, D. A. Phan, T. P. T. Dinh and T. Q. Huynh. (2008) “Vietnamese spelling detection and correction using Bi-gram, Minimum Edit Distance, SoundEx algorithms with some additional heuristics”, 2008 IEEE International Conference on Research, Innovation and Vision for the Future in Computing and Communication Technologies, 96-102.

[5] V. Tran, K. Nguyen and D. Bui. (2016) “A Vietnamese language model based on Recurrent Neural Network”, 2016 Eighth International Conference on Knowledge and Systems Engineering (KSE), Hanoi , 274-278.

[6] Dupond, Samuel (2019). "A thorough review on the current advance of neural network structures". Annual Reviews in Control. 14: 200–230.

[7] Christopher Olah (2015) “Understanding LSTM Networks”, [ONLINE]. Available: < https://colah.github.io/posts/2015-08-Understanding-LSTMs/ >

[8] Word error rate – Wikipedia (2021), [ONLINE]. Available: < https://en.wikipedia.org/wiki/Word_error_rate >

Một phần của tài liệu Xây dựng mô hình ngôn ngữ và sửa lỗi tiếng ba na tự động (Trang 46 - 62)

Tải bản đầy đủ (PDF)

(62 trang)