1. Trang chủ
  2. » Thể loại khác

Luận văn tìm hiểu về xử lý ngôn ngữ tự nhiên và viết chương trình mô phỏng sửa lỗi từ vựng trong việc sử dụng câu tiếng anh

65 36 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 1,87 MB

Nội dung

LỜI CẢM ƠN Trước hết em xin chân thành cảm ơn thầy giáo Ths Vũ Mạnh Khánh thầy giáo Ths Đặng Quang Huy, người hướng dẫn em nhiều suốt trình tìm hiểu nghiên cứu hồn thành khóa luận từ lý thuyết đến ứng dụng Sự hướng dẫn thầy giúp em có thêm hiểu biết xử lý ngôn ngữ tự nhiên úng dụng Đồng thời em xin chân thành cảm ơn thầy cô môn công nghệ thông tin thầy cô trường trang bị cho em kiến thức cần thiết để em hồn thành tốt khóa luận Em xin gửi lời cảm ơn đến thành viên lớp CT1002, người bạn bên cạnh động viên, tạo điều kiện thuận lợi em tìm hiểu, hồn thành tốt khóa luận Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè tạo điều kiện để em xây dựng thành công khóa luận Hải Phịng, ngày…….tháng……năm 2010 Sinh viên Bùi Văn Tú Th■ah■■ng Mang Luôn 123doc thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ khơng tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i cơng c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c không th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p không tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thơng dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i không t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thông dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p khơng tài phong v■c cao thành b■n nh■t email nh■t tài online khác chuyên ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n mang hoàn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thông B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc ngun v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t MỤC LỤC MỞ ĐẦU .1 Chương : GIỚI THIỆU VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN I Tổng quan II Cơ sở khoa học II.1 Một số khái niệm .3 II.2 Lý thuyết thông tin II.3 Quy trình xử lý ngơn ngữ tự nhiên II.4 Một số thuật tốn phân tích cú pháp 11 III Các ứng dụng xử lý ngôn ngữ tự nhiên 14 Chương 2: NGỮ PHÁP TIẾNG ANH 17 I Các tiếng anh: 17 II: Cách sử dụng số thì: 17 II.1 Thì đơn(The Simple Present Tense): 17 II.2 Thì tiếp diễn(The present continuous/progressive tense) .18 II.3 Thì hoàn thành(The Present Prefect Tense) 19 II.4 Thì hồn thành tiếp diễn(The Present Prefect continuousTense) 19 II.5 Thì khứ đơn(The Simple Past Tense) 20 II.6 Thì khứ tiếp diễn (The Past continuous Tense) 21 II.7 Thì tương lai đơn(The Simple Future Tense) .21 Chương 3: GIỚI THIỆU NGÔN NGỮ VB 6.0 .23 I Giới thiệu 23 II Các thao tác VB 23 III Lập trình VB 26 III.1 Kiểu liệu - biến .27 III.2 Các cấu trúc lệnh VB 31 III.3 Các hàm xử lý chuỗi Vb6 32 Chương 4: CHƢƠNG TRÌNH THỰC NGHIỆM 35 I Giới thiệu 35 II Chiến lược thuật toán 36 II.1 Chiến lược 36 II.2 Thuật toán: 39 III Mô tả chi tiết 40 III.1 Dữ liệu đầu vào kết chương trình 40 III.2 Form Từ Điển 41 III.3 Form Sửa lỗi 46 IV Hạn chế hướng phát triển đề tài 60 KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 62 ĐỒ ÁN TỐT NGHIỆP MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngơn ngữ - cơng cụ hồn hảo tư giao tiếp Xử lý ngơn ngữ xử lý thông tin đầu vào “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngơn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người có lưu trữ dạng điện tử Đặc điểm kiểu liệu khơng có cấu trúc nửa cấu trúc chúng khơng thể lưu trữ khuôn dạng cố định bảng biểu Để máy tính hiểu thực thi chương trình viết ngơn ngữ cấp cao, ta cần phải có trình biên dịch thực việc chuyển đổi chương trình sang chương trình dạng ngơn ngữ đích Chữ viết phương tiện giao tiếp quan trọng người qua việc xử dụng sai chữ viết: sai từ, sai câu… dễ dẫn tới hậu nghiêm trọng việc thể điều muốn diễn đạt Trong khi, lỗi xử dụng từ, câu tránh khỏi, người học tiếng nước Chương trình mơ sửa lỗi từ vựng việc sử dụng câu tiếng Anh lĩnh vực chương trình xử lý ngơn ngữ tự nhiên Việc tìm sửa lỗi sử dụng câu tiếng Anh giúp ích cho người học tiếng Anh sở lập trình cho cơng việc khác lĩnh vực xử lý ngôn ngữ tự nhiên BÙI VĂN TÚ – CT1002 ĐỒ ÁN TỐT NGHIỆP Chương : GIỚI THIỆU VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN I Tổng quan Xử lý ngơn ngữ xử lý thông tin đầu vào “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngơn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người có lưu trữ dạng điện tử Đặc điểm kiểu liệu khơng có cấu trúc nửa cấu trúc chúng khơng thể lưu trữ khuôn dạng cố định bảng biểu Theo đánh giá công ty Oracle, có đến 80% liệu khơng cấu trúc lượng liệu lồi người có [Oracle Text] Với đời phổ biến Internet, sách báo điện tử, máy tính cá nhân, viễn thông, thiết bị âm thanh,… người người tạo liệu văn hay tiếng nói Vấn đề ta xử lý chúng, tức chuyển chúng từ dạng ta chưa hiểu thànhcác dạng ta hiểu giải thích được, tức ta tìm thơng tin, tri thức hữu ích cho Giả sử có câu sau tiếng nước ngoài: - “We meet here today to talk about Vietnamese language and speech processing.” - “Aujourd'hui nous nous réunissons ici pour discuter le traitement de langue et de parole vietnamienne.” - “Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамском языке и обработке речи.” Nếu có dịch, có chương trình máy tính dịch (biến đổi) chúng tiếng Việt, ta hiểu nghĩa câu là: “Hôm gặp để bàn xử lý ngơn ngữ tiếng nói tiếng Việt.” Nếu câu lưu trữ tệp tiếng Anh, Pháp, Nga Việt ta nhìn thấy trên, ta có liệu “văn bản” Nếu đọc câu này, ghi âm lại, ta chuyển chúng vào máy tính dạng tệp tín hiệu (signal) “tiếng nói” Tín hiệu sóng âm hai âm tiết tiếng Việt nhìn thấy sau: BÙI VĂN TÚ – CT1002 ĐỒ ÁN TỐT NGHIỆP Hình : Tín hiệu sóng âm hai âm tiêt Tiếng Việt Tuy nhiên, văn thật (một báo khoa học chẳng hạn) có đến hàng nghìn câu, ta khơng phải có mà hàng triệu văn Web nguồn liệu văn khổng lồ, với thư viện điện tử − tương gần sách báo xưa nguồn âm chuyển hết vào máy tính (chẳng hạn chương trình nhận dạng chữ, thu nhập âm thanh, gõ thẳng vào máy) − sớm chứa toàn kiến thức nhân loại Vấn đề “xử lý” (chuyển đổi) khối liệu văn tiếng nói khổng lồ qua dạng khác để người có thơng tin tri thức cần thiết từ chúng II Cơ sở khoa học II.1 Một số khái niệm II.1.1 Ngôn ngữ tự nhiên Ngôn ngữ hệ thống để giao thiệp hay suy luận dùng cách biểu diễn phép ẩn dụ loại ngữ pháp theo logic, bao hàm tiêu chuẩn hay thật thuộc lịch sử siêu việt Nhiều ngôn ngữ sử dụng điệu bộ,âm thanh, lý hiệu, hay chữ viết, cố gắng truyền khái niệm, ý nghĩa, ý nghĩ, mà nhiều khía cạnh nằm sát quá, khó phân biệt II.1.2 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngơn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngơn ngữ-cơng cụ hồn hảo tư giao tiếp II.1.3 Trí tuệ nhân tạo Trí tuệ nhân tạo hay trí thơng minh nhân tạo (tiếng Anh: artificial intelligence hay machine intelligence, thường viết tắt AI) trí tuệ BÙI VĂN TÚ – CT1002 ĐỒ ÁN TỐT NGHIỆP biểu diễn hệ thống nhân tạo Thuật ngữ thường dùng để nói đến máy tính có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo II.1.4 Nhập nhằng Nhập nhằng ngôn ngữ học tượng thường gặp, giao tiếp hàng ngày người để ý đến họ xử lý tốt tượng Nhưng ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên phải thao tác với ý nghĩa từ vựng mà điển hình dịch tự động nhập nhằng trở thành vấn đề nghiêm trọng Ví dụ câu cần dịch có xuất từ “đường” câu “ra chợ mua cho mẹ đường” vấn đề nảy sinh cần dịch từ road hay sugar, người xác định chúng dễ dàng vào văn cảnh dấu hiệu nhận biết khác với máy khơng Một số tượng nhập nhằng: Nhập nhằng ranh giới từ, Nhập nhằng từ đa nghĩa, Nhập nhằng từ đồng âm (đồng tự), Nhập nhằng từ loại II.2 Lý thuyết thông tin II.2.1 Khái niệm Lý thuyết thông tin nghiên cứu về: Áp dụng cơng cụ tốn học việc lượng hóa data cho mục đích lưu trữ truyền liệu Độ đo thông tin Entropy, số lượng bít trung bình cần thiết việc lưu trữ hay truyền liệu Đóng vai trị quan trọng xử lý thông tin phương pháp thống kê, đặc biệt NLP II.2.2 Entropy Entropy độ đo thông tin Entropy ~ hỗn độn, mờ, trái nghĩa với order Đo độ không chắn: Entropy thấp -> Đo độ không chắn thấp; Entropy cao -> Đo độ không chắn cao Trong vật lý: Entropy giảm lượng sử dụng Ký hiệu p(x) phân bố biến ngẫu nhiên X khơng gian mẫu X Entropy tính sau: H(X) = - ∑ x p(x) log2p(x) Đơn vị: bits (log10: nats) Kí hiệu: H(X) = Hp(X) = H(p) BÙI VĂN TÚ – CT1002 ĐỒ ÁN TỐT NGHIỆP II.2.3 Perplexity - Cross Entropy Entropy liên quan đến hiểu ngôn ngữ? Liên quan đến ko xác: vấn đề có nhiều thơng tin Entropy thấp.Có nhiều mơ hình -> entropy đo chất lượng mơ hình? Ví dụ: mơ hình mã hóa ký tự với trung bình số bít sử dụng ký tự 2.5 Đây mơ hình ngơn ngữ 0-gram, đặt liên kết âm tiết sinh mơ hình tốt hơn, chẳng hạn cho entropy 1.22 bít ký tự Perplexity Entropy phân bố p(X) là: Hp(X)Thì giá trị 2H gọi perplexity perplexity số lượng mẫu trung bình mà biến phải lựa chọn Perlexity bé (tức entropy bé) mơ hình tốt số bít dùng để mã hóa thơng tin bé Ví dụ : Cho ngựa với xác suất lựa chọn sau: Ngựa 1: 1/2 ngựa 2: 1/4 ngựa 3: 1/8 ngựa 4: 1/16 Ngựa 5: 1/64 ngựa 2: 1/64 ngựa 3: 1/64 ngựa 4: 1/64 Entropy rate Tính entropy dãy từ ngôn ngữ L H(w1, ,wn) = - W L p(W1n)log(W1n) Entropy rate coi per-word entropy Coi ngơn ngữ q trình ngẫu nhiên sản xuất dãy từ Cần quan tâm đến dãy vô hạn từ Entropy rate H(L) định nghĩa sau: H ( L) lim H (w1, , wn ) n n lim n n p(w1, , wn ) log p(w1, , wn ) L Cross Entropy Cross entropy sử dụng phân bố thật p Cross-entropy phân bố m phân bố thật p định nghĩa: H ( p, m) lim n n p(w1, , wn ) log m(w1, , wn ) L lim n log m(w1, , wn ) n (theo lý thuyết Shannon-McMillan-Breiman) BÙI VĂN TÚ – CT1002 ĐỒ ÁN TỐT NGHIỆP Cross entropy để so sánh mơ hình : H(p) ≤ H(p,m) Cross entropy H(p,m) cận entropy H(p); Mơ hình m xác cross entropy H(p,m) gần với entropy H(p); Độ khác H(p,m) H(p) đo độ xác mơ hình m; Các công thức Cross Entropy Cross entropy biến X với phân bố xác suất p(x) phân bố m tính sau: H ( X , m) H ( X ) D( p || m) p( x) log m( x) x Chú ý: D(p||q) = ∑x p(x) log2 (p(x)/q(x)) II.3 Quy trình xử lý ngơn ngữ tự nhiên Để máy tính hiểu thực thi chương trình viết ngơn ngữ cấp cao, ta cần phải có trình biên dịch thực việc chuyển đổi chương trình sang chương trình dạng ngơn ngữ đích Chương trình bày cách tổng quan cấu trúc trình biên dịch mối liên hệ với thành phần khác - “họ hàng” - tiền xử lý, tải soạn thảo liên kết,v.v Cấu trúc trình biên dịch mơ tả chương cấu trúc mức quan niệm bao gồm giai đoạn: Phân tích từ vựng, Phân tích cú pháp, Phân tích ngữ nghĩa, Sinh mã trung gian, Tối ưu mã Sinh mã đích Nói cách đơn giản, trình biên dịch chương trình làm nhiệm vụ đọc chương trình viết ngôn ngữ - ngôn ngữ nguồn (source language) - dịch thành chương trình tương đương ngơn ngữ khác - ngơn ngữ đích (target languague) Một phần quan trọng trình dịch ghi nhận lại lỗi có chương trình nguồn để thơng báo lại cho người viết chương trình Hình : Một trình biên dịch BÙI VĂN TÚ – CT1002 ĐỒ ÁN TỐT NGHIỆP II.3.1 Phân tích từ vựng (Lexical Analysis) Trong trình biên dịch, giai đọan phân tích từ vựng đọc chương trình nguồn từ trái sang phải (quét nguyên liệu - scanning) để tách thành thẻ từ (token) Ví dụ 1: Q trình phân tích từ vựng cho câu lệnh gán position := initial + rate * 60 tách thành token sau: Danh biểu position Ký hiệu phép gán := Danh biểu initial Ký hiệu phép cộng (+) Danh biểu rate Ký hiệu phép nhân (*) Số 60 Trong q trình phân tích từ vựng khoảng trắng (blank) bị bỏ qua II.3.2 Phân tích cú pháp (Syntax Analysis) Giai đoạn phân tích cú pháp thực cơng việc nhóm thẻ từ chương trình nguồn thành ngữ đoạn văn phạm (grammatical phrase), mà sau trình biên dịch tổng hợp thành phẩm Thông thường, ngữ đoạn văn phạm biểu diễn dạng phân tích cú pháp (parse tree) với: - Ngơn ngữ đặc tả luật sinh - Phân tích cú pháp dựa vào luật sinh để xây dựng phân tích cú pháp Ví dụ 1.3: Giả sử ngơn ngữ đặc tả luật sinh sau: Stmt → id := expr expr → expr + expr | expr * expr | id | number Với câu nhập: position := initial + rate * 60, phân tích cú pháp xây dựng sau: BÙI VĂN TÚ – CT1002 ĐỒ ÁN TỐT NGHIỆP List1.AddItem trangngu check = kiemtrathanhphantu(loitrangngu, loichungu) List1.AddItem loichungu List1.AddItem loitrangngu check = kiemtrathitu(thitu, coconut) List1.AddItem thitu If coconut = Then Option1.Value = False Option2.Value = False Option3.Value = False Option4.Value = False Option5.Value = False Option6.Value = False Option7.Value = False End If If coconut = 101 Then Option1.Value = True Option2.Value = False Option3.Value = False Option4.Value = False Option5.Value = False Option6.Value = False Option7.Value = False End If If coconut = 102 Then Option1.Value = False Option2.Value = True Option3.Value = False Option4.Value = False Option5.Value = False Option6.Value = False Option7.Value = False End If If coconut = 103 Then Option1.Value = False Option2.Value = False Option3.Value = True Option4.Value = False Option5.Value = False Option6.Value = False Option7.Value = False End If If coconut = 104 Then Option1.Value = False Option2.Value = False BÙI VĂN TÚ – CT1002 48 ĐỒ ÁN TỐT NGHIỆP Option3.Value = False Option4.Value = True Option5.Value = False Option6.Value = False Option7.Value = False End If If coconut = 105 Then Option1.Value = False Option2.Value = False Option3.Value = False Option4.Value = False Option5.Value = False Option6.Value = True Option7.Value = False End If If coconut = 106 Then Option1.Value = False Option2.Value = False Option3.Value = False Option4.Value = False Option5.Value = True Option6.Value = False Option7.Value = False End If If coconut = 107 Then Option1.Value = False Option2.Value = False Option3.Value = False Option4.Value = False Option5.Value = False Option6.Value = False Option7.Value = True End If check = kiemtravitu(loichiadongtu, loiobj) List1.AddItem loichiadongtu List1.AddItem loiobj Command9.Enabled = True looooai = End Sub BÙI VĂN TÚ – CT1002 49 ĐỒ ÁN TỐT NGHIỆP - Hoặc nhập từ tệp in từ chương trình ứng dụng tìm kiếm lỗi III.3.2 Danh sách lỗi - Danh sách lỗi mã lỗi hiển thị phần “Danh sách lỗi” sau ấn nút “nhập câu” “nhập từ tệp” BÙI VĂN TÚ – CT1002 50 ĐỒ ÁN TỐT NGHIỆP III.3.3 Chọn thì: - Sau nhập câu trực tiếp nhập từ tệp chương trình tự động chọn câu Nhưng số trường hợp phải tự chọn cho câu III.3.4 Lấy mã lỗi: - Lấy mã lỗi để so sánh với bảng mã lỗi phục vụ cho việc sửa lỗi BÙI VĂN TÚ – CT1002 51 ĐỒ ÁN TỐT NGHIỆP Câu lệnh: Private Sub Command9_Click() Dim i As Integer Dim st As String For i = To List1.ListCount st = st + chontudau(List1.List(i)) + " " Next st = chuanhoa(st) maloi = st MsgBox maloi Command3.Enabled = True End Sub - Sau chọn lấy mã lỗi lên bảng danh sách mã lỗi Danh sách mã lỗi: C100: Không có lỗi chủ ngữ C101: Có lỗi chủ ngữ C200: Khơng có lỗi trạng ngữ C201: Có lỗi trạng ngữ C300: Hiển thị C302: Khơng kiểm tra C400: Khơng có lỗi chia động từ C401: Có lỗi chia động từ C500: Khơng có lỗi vị ngữ C501: Có Lỗi vị ngữ BÙI VĂN TÚ – CT1002 52 ĐỒ ÁN TỐT NGHIỆP III.3.5 Sửa lỗi Sau lấy mã lỗi kiểm tra mã lỗi Nếu có lỗi tiến hành sửa lỗi Câu lệnh: Private Sub Command3_Click() Dim traaaang As String Dim chuuuu As String Dim viiii As String Dim tuloi Dim i As Integer Dim st As String Dim j As Integer Dim temp As String Dim tuta As Integer Dim tusub Dim tuvi Dim tuti As Integer tuloi = Split(maloi, " ") traaaang = TUlaytrangtu(List1.List(2)) chuuuu = TUlaychungu(List1.List(0)) viiii = TUlayvingu(List1.List(1)) i = UBound(tuloi) BÙI VĂN TÚ – CT1002 53 ĐỒ ÁN TỐT NGHIỆP temp = tuloi(0) If (temp = "c100") Then st = "Khong sua chu ngu" List2.AddItem st Else If (temp = "c101") Then st = sualoichungutu(chuuuu) List2.AddItem st End If End If temp = tuloi(1) If (temp = "c200") Then st = "Khong sua trang ngu" List2.AddItem st Else If (temp = "c201") Then st = sualoitrangngudau(traaaang) List2.AddItem st End If If (temp = "c202") Then st = sualoitrangngugiua(traaaang) List2.AddItem st End If If (temp = "c203") Then st = "Khong sua loi trang tu cuoi" List2.AddItem st End If End If If i Then If Option1.Value = True Then tuti = End If If Option2.Value = True Then tuti = End If If Option3.Value = True Then tuti = End If If Option4.Value = True Then tuti = End If If Option5.Value = True Then tuti = End If If Option6.Value = True Then tuti = End If If Option7.Value = True Then tuti = End If temp = tuloi(2) If temp = "c300" Then st = "Khong sua loi thi" List2.AddItem st End If BÙI VĂN TÚ – CT1002 55 ĐỒ ÁN TỐT NGHIỆP temp = tuloi(3) If temp = "c400" Then st = "Khong sua loi chia dong tu" List2.AddItem st End If If temp = "c401" Then st = TusuachiaDT(chuuuu, viiii, tuti) List2.AddItem st End If GoTo a: End If a: End Sub III.3.6 Điều khiển: Bảng điều khiển gồm có chức năng: BÙI VĂN TÚ – CT1002 56 ĐỒ ÁN TỐT NGHIỆP - In kết quả: Nút in kết có chức in kết sau sửa lỗi xong Câu lệnh: Private Sub Command4_Click() Dim filename As String Dim i As Integer con1.ShowSave filename = con1.filename + ".txt" Open filename For Output As #1 For i = To List2.ListCount Print #1, List2.List(i) Next Close #1 End Sub BÙI VĂN TÚ – CT1002 57 ĐỒ ÁN TỐT NGHIỆP - Xóa: Xóa câu nhập để nhập lại câu cuối - Từ điển: Kết nối với Form Từ Điển để nhập sửa chữa câu câu chưa có từ điển sai từ loại BÙI VĂN TÚ – CT1002 58 ĐỒ ÁN TỐT NGHIỆP - Bảng mã lỗi: có chức xem mã lỗi chương trình - Kết thúc: Chức kết thúc làm việc với form sửa lỗi BÙI VĂN TÚ – CT1002 59 ĐỒ ÁN TỐT NGHIỆP IV Hạn chế hướng phát triển đề tài - Hạn chế + Chương trình thực với câu đơn thể khẳng định + Modul sửa lỗi vị ngữ chưa hoàn thiện - Hướng phát triển + nghiên cứu để thực cho loại câu khác + hoàn thiện modul tách ghép thành phần câu - ứng dụng đề tài + Làm sở cho chương trình dịch tự động, chích rút thông tin văn bản, hỗ trợ học tiếng anh máy tính BÙI VĂN TÚ – CT1002 60 ĐỒ ÁN TỐT NGHIỆP KẾT LUẬN Trong trình nghiên cứu, tìm hiểu hồn thành đồ án tốt nghiệp “ Tìm hiểu xử lý ngơn ngữ tự nhiên viết chương trình mơ sửa lỗi từ vựng việc sử dụng câu tiếng Anh”, em thu nhận thêm kiến thức em nhận thấy xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu rộng lớn, nhiều điều cần phải khám phá Trong đề tài em cố gắng tập trung tìm hiểu nghiên cứu tổng quan xử lý ngơn ngữ tự nhiên, số thuật tốn phân tích cú pháp em tìm hiểu số quy tắc sử dụng từ vựng ngôn ngữ tiếng Anh Từ em xây dựng chương trình mơ sửa lỗi từ vựng tiếng Anh Do thời gian thực đồ án hạn chế nên em tìm hiểu số bước q trình xử lý ngơn ngữ tự nhiên chương trình mơ cịn chưa hồn thiện mong muốn Trong thời gian tới em cố gắng tiếp tục nghiên cứu hồn thiện việc tìm hiểu xử lý ngơn ngữ tự nhiên chương trình mơ sửa lỗi từ vựng Sinh viên Bùi Văn Tú BÙI VĂN TÚ – CT1002 61 ĐỒ ÁN TỐT NGHIỆP TÀI LIỆU THAM KHẢO Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên Tp.HCM, 12/2004 Bài giảng Xử lý ngôn ngữ tự nhiên, TS Lê Anh Cường – ĐHCN Hà Nội V.Vapnik, The Nature of Statistical Learning Theory Springer, NewYork, 1995 Allen,J.(1995).Natural Language Understanding BenjaminCummings,Menlo Park, CA Berger, A L., Pietra, S A D., and Pietra, V J D (1996) Amaximum entropy approach to natural language processingComputational Linguistics, 22(1), 39–71 Gazdar, G.andMellish, C.(1989) Natural Language Process-as mental representations of language In Bresnan, J (Ed.),ing in LISP Addison Wesley Ngữ pháp tiếng Anh, Mai Lan Hương – Nguyễn Thanh Loan BÙI VĂN TÚ – CT1002 62 ... sửa lỗi từ vựng việc sử dụng câu tiếng Anh lĩnh vực chương trình xử lý ngơn ngữ tự nhiên Việc tìm sửa lỗi sử dụng câu tiếng Anh giúp ích cho người học tiếng Anh sở lập trình cho công việc khác... ngữ tự nhiên Việc tìm sửa lỗi sử dụng câu tiếng Anh giúp ích cho người học tiếng Anh sở lập trình cho công việc khác lĩnh vực xử lý ngơn ngữ tự nhiên - Chương trình viết ngơn ngữ lập trình Visual... BÙI VĂN TÚ – CT1002 34 ĐỒ ÁN TỐT NGHIỆP Chương 4: CHƢƠNG TRÌNH THỰC NGHIỆM I Giới thiệu - Chương trình mơ sửa lỗi từ vựng việc sử dụng câu tiếng Anh lĩnh vực chương trình xử lý ngơn ngữ tự nhiên

Ngày đăng: 05/08/2021, 22:04

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên Tp.HCM, 12/2004 Khác
2. Bài giảng Xử lý ngôn ngữ tự nhiên, TS Lê Anh Cường – ĐHCN Hà Nội Khác
3. V.Vapnik, The Nature of Statistical Learning Theory. Springer, NewYork, 1995 Khác
4. Allen,J.(1995).Natural Language Understanding. BenjaminCummings,Menlo Park, CA Khác
5. Berger, A. L., Pietra, S. A. D., and Pietra, V. J. D. (1996). Amaximum entropy approach to natural language processingComputational Linguistics, 22(1), 39–71 Khác
6. Gazdar, G.andMellish, C.(1989). Natural Language Process-as mental representations of language. In Bresnan, J. (Ed.),ing in LISP. Addison Wesley Khác
7. Ngữ pháp tiếng Anh, Mai Lan Hương – Nguyễn Thanh Loan Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w