1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xử lý ngôn ngữ tự nhiên

47 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

tin ch Sinh viên Th■ah■■ng Mang Luôn 123doc thu■n l■icam s■ tr■ h■u k■t s■ nghi■m t■im■t d■ng s■website mang kho m■i th■ m■ l■i d■n CH■P vi■n nh■ng cho ■■u kh■ng ng■■i NH■N quy■n chia dùng, l■ CÁC s■l■i v■i và■I■U t■t công h■n mua nh■t 2.000.000 ngh■ bán KHO■N cho tàihi■n ng■■i li■u TH■A tài th■ hàng li■u dùng hi■n THU■N ■■u ■ t■t Khi ■■i, Vi■t c■ khách b■n l■nh Nam Chào online hàng v■c: Tác m■ng tr■ không tài phong thành b■n khác chun ■■n thành tíngì d■ng, v■i so nghi■p, viên 123doc v■i cơng c■a b■n hồn ngh■ 123doc g■c h■o, thơng B■n và■■ n■p có tin, cao th■ ti■n ngo■i tính phóng vào ng■, Khách trách tài to,kho■n nhi■m thu nh■ c■a ■■i hàng tùy123doc, v■i ý cót■ng th■b■n d■ ng■■i dàng s■ dùng ■■■c tra c■u M■c h■■ng tàitiêu li■u nh■ng hàng m■t■■u quy■n cáchc■a l■i123doc.net sau xác,n■p nhanh ti■n tr■ chóng thành website th■ vi■n tài li■u online l■n nh■t Vi■t Nam, cung c■p nh■ng tài li■u ■■c khơng th■ tìm th■y th■ tr■■ng ngo■i tr■ 123doc.net Nhi■u event thú v■, event ki■m ti■n thi■t th■c 123doc luôn t■o c■ h■i gia t■ng thu nh■p online cho t■t c■ thành viên c■a website Mangh■n Luôn Th■a Xu■t Sau Nhi■u 123doc h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chun ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thơng B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i không t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Luônh■n 123doc Sau Th■a Xu■t h■■ng phát thu■n cam nh■n m■t t■k■t s■ t■i ýxác n■m t■■ng d■ng s■ nh■n website mang ■■i, t■o t■l■i c■ng ■■ng d■n 123doc CH■P nh■ng ■■u ■■ng h■ NH■N ■ã quy■n th■ng chia t■ng ki■m CÁC s■s■ l■i b■■c ti■n vàchuy■n ■I■U t■t mua online kh■ng nh■t bán KHO■N sang b■ng cho tài ■■nh ng■■i li■u ph■n tài TH■A v■ li■u hàng thơng dùng tríTHU■N hi■u c■a ■■u tin Khi qu■ Vi■t xác khách nh■t, minh Nam Chào hàng uy tài l■nh Tác m■ng tín kho■n tr■ phong v■c cao thành b■n email nh■t tàichuyên ■■n li■u thành b■n Mong v■i nghi■p, viên kinh ■ã 123doc 123doc.net! mu■n ■■ng c■a doanh hoàn mang 123doc kýonline v■i h■o, Chúng l■ivà 123doc.netLink cho Tính ■■ n■p tơi c■ng cao ■■n cung ti■n tính ■■ng th■i vào c■p trách xác tài ■i■m D■ch xãkho■n th■c nhi■m h■itháng V■ m■t s■ c■a (nh■ ■■i ■■■c ngu■n 5/2014; 123doc, v■i ■■■c g■i t■ng tài 123doc v■ mô nguyên b■n ng■■i ■■a t■s■ v■■t d■■i tri dùng ■■■c ch■ th■c m■c ■ây) email M■c h■■ng quý 100.000 cho b■n tiêu báu, b■n, nh■ng ■ã hàng phong l■■t tùy ■■ng ■■u quy■n truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau vuingày, n■p lòng “■i■u giàu ti■n s■ ■■ng tr■ giá Kho■n h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t Lnh■n Th■a Xu■t Sau Nhi■u 123doc Mang h■■ng phát thu■n l■i event cam s■ nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thơng dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t u■t phát Nhi■u Mang Luôn 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n t■ m■t tr■ t■ h■u ýk■t s■ thú nghi■m t■i ýt■■ng xác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event t■o kho m■i ■■i, t■o t■ c■ng th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■ng ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia ki■m t■ng ki■m dùng, l■ CÁC s■ th■c ti■n s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công online h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N b■ng sang b■ng cho tài ■■nh hi■n tài ng■■i li■u ph■n tài TH■A li■u tài v■ th■ li■u hàng t■o li■u thơng dùng trí hi■u hi■n THU■N hi■u c■ c■a ■■u ■ tin qu■ t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia nh■t, b■n nh■t, minh l■nh Nam t■ng Chào online uy hàng uy tài v■c: l■nh thu Tác tín m■ng tín kho■n tr■ cao nh■p không tài phong v■c cao thành b■n nh■t email nh■t tài online khác chuyên ■■n li■u thành tín Mong b■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã mu■n t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n mang hoàn mang ngh■ 123doc ký g■c online thành v■i l■i h■o, Chúng l■i thông B■n cho 123doc.netLink cho viên Tính ■■ n■p có c■ng tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i ■■ng tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác xã tài ■i■m D■ch xã to,h■i kho■n th■c nhi■m h■i thum■t tháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ngu■n ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cótài g■i t■ng th■ tài 123doc nguyên v■ mô nguyên b■n d■ ng■■i ■■a t■ dàng s■ v■■t tri d■■i tri dùng ■■■c ch■ th■c tra th■c m■c ■ây) email c■u quý M■c h■■ng quý 100.000 cho tài báu, b■n tiêu báu, li■u b■n, nh■ng phong ■ã hàng phong m■t l■■t tùy ■■ng ■■u phú, quy■n cách truy thu■c phú, ky, c■a c■p ■a ■a l■i b■n vào d■ng, 123doc.net m■i d■ng, sau xác, vuingày, n■p giàu lòng “■i■u nhanh giàu ti■n giá s■ ■■ng tr■ giá Kho■n chóng h■u tr■ thành tr■ nh■p ■■ng 2.000.000 website ■■ng Th■a th■ email th■i vi■n th■i Thu■n mong c■a thành mong tài v■ li■u mu■n viên mu■n S■ online ■■ng D■ng t■o click t■o l■n ■i■u ký, D■ch ■i■u vào nh■t l■t link ki■n ki■n V■” vào Vi■t 123doc cho top sau cho Nam, cho 200 ■ây cho ■ã cung các (sau g■i users website c■p users ■âynh■ng có ■■■c cóph■ thêm thêm tài bi■n g■i thu thu li■u t■t nh■p nh■t nh■p ■■c T■it■i Chính khơng t■ng Chính Vi■tth■i vìth■ Nam, vìv■y v■y ■i■m, tìm 123doc.net t■123doc.net th■y l■chúng tìm ki■m tơi th■ racó ■■i thu■c ■■i tr■■ng th■ nh■m nh■m c■p top ngo■i ■áp 3nh■t ■áp Google ■ng tr■ ■KTTSDDV ■ng 123doc.net nhu Nh■n nhuc■u c■u ■■■c chia theo chias■ quy■t danh s■tàitài hi■u li■u li■uch■t ch■t c■ng l■■ng l■■ng ■■ng vàvàki■m bình ki■mch■n ti■n ti■nonline online website ki■m ti■n online hi■u qu■ uy tín nh■t Nhi■u Mang Ln 123doc Th■a Xu■t Sau h■n h■■ng phát thu■n l■i event s■ cam nh■n m■t tr■ t■ h■u k■t s■ thú nghi■m t■i ýxác n■m t■■ng m■t d■ng v■, s■ nh■n website mang event kho m■i ■■i, t■o t■ th■ m■ l■i c■ng ki■m ■■ng d■n 123doc CH■P vi■n nh■ng cho ■■u ■■ng ti■n h■ kh■ng ng■■i NH■N ■ã quy■n th■ng thi■t chia t■ng ki■m dùng, l■ CÁC s■ th■c s■ l■i b■■c v■i ti■n vàchuy■n ■I■U t■t công h■n mua 123doc online kh■ng nh■t 2.000.000 ngh■ bán KHO■N sang b■ng cho tài ■■nh hi■n ng■■i li■u ph■n tài TH■A tài v■ th■ li■u hàng t■o li■u thông dùng tríhi■n THU■N hi■u c■ c■a ■■u ■ tin t■t h■i Khi ■■i, qu■ Vi■t xác c■ khách gia b■n nh■t, minh l■nh Nam t■ng Chào online hàng uy tài v■c: l■nh thu Tác m■ng tín kho■n tr■ nh■p khơng tài phong v■c cao thành b■n email nh■t tài online khác chuyên ■■n li■u thành tínb■n Mong cho d■ng, v■i so nghi■p, viên kinh ■ã t■t 123doc 123doc.net! v■i mu■n công ■■ng c■a c■ doanh b■n hoàn mang ngh■ 123doc ký g■c online thành v■i h■o, Chúng l■i thông B■n 123doc.netLink cho viên Tính ■■ n■p có tơi tin, c■ng c■a cao th■ ■■n cung ti■n ngo■i tính website phóng ■■ng th■i vào c■p ng■, Khách trách xác tài ■i■m D■ch xã to,kho■n th■c nhi■m h■i thutháng V■ nh■ m■t s■ c■a (nh■ ■■i hàng ■■■c tùy ngu■n 5/2014; 123doc, v■i ■■■c ý cóg■i t■ng th■ tài 123doc v■ mơ ngun b■n d■ ng■■i ■■a t■ dàng s■ v■■t d■■i tri dùng ■■■c ch■ tra th■c m■c ■ây) email c■u M■c h■■ng quý 100.000 cho tài b■n tiêu báu, li■u b■n, nh■ng ■ã hàng phong m■t l■■t tùy ■■ng ■■u quy■n cách truy thu■c phú, ky, c■a c■p ■a l■i b■n vào 123doc.net m■i d■ng, sau xác, vuingày, n■p lòng “■i■u nhanh giàu ti■n s■ ■■ng tr■ giá Kho■n chóng h■u thành tr■ nh■p 2.000.000 website ■■ng Th■a th■ email vi■n th■i Thu■n c■a thành mong tài v■ li■u viên mu■n S■ online ■■ng D■ng click t■o l■n ký, D■ch ■i■u vào nh■t l■t link ki■n V■” vào Vi■t 123doc top sau cho Nam, 200 ■ây cho ■ã cung các (sau g■iwebsite c■p users ■âynh■ng ■■■c cóph■ thêm tài bi■n g■i thu li■u t■t nh■t nh■p ■■c T■it■i khơng t■ng Chính Vi■tth■i th■ Nam, v■y ■i■m, tìm t■123doc.net th■y l■chúng tìm ki■m tơi th■ racóthu■c ■■i tr■■ng th■nh■m c■p top ngo■i 3nh■t ■áp Google tr■ ■KTTSDDV ■ng 123doc.net Nh■n nhu c■u ■■■c theo chiaquy■t danh s■ tài hi■u li■udo ch■t c■ng l■■ng ■■ng vàbình ki■mch■n ti■n online website ki■m ti■n online hi■u qu■ uy tín nh■t 1002 MỤC LỤC LỜI NĨI ĐẦU 1.2.1.3 (Probability) 1.2.2.2 Events (sự kiện) 1.2.2.3 Xác suất (probability) 1.2.2.4 Ước lượng Xác suất 1.2.2.5 Kỳ vọng (expectation) Phương sai (variance) 1.2.3.Lý thuyết thông tin(Information Theory) 1.2.3.1 Khái niệm 1.2.3.2 Entropy 1.2.3.3 Perplexity - Cross Entropy 1.3 Qui trình xử lý ngơn ngữ tự nhiên 10 1.3.1 Phân tích từ vựng (Lexical Analysis) 11 1.3.2 Phân tích cú pháp (Syntax Analysis) 11 1.3.3 Phân tích ngữ nghĩa (Semantic Analysis) 13 1.3.4 Các giai đoạn trình biên dịch 13 14 1.3.5.1 Topdown 14 1.3.5.2 Bottom-up 14 1.3.5.3 CYK (Cocke-Younger-Kasami) 14 1.4.Các ứng dụng ngôn ngữ tự nhiên 18 Chƣơng 2: NGỮ PHÁP TIẾNG ANH 20 2.1 Các tiếng anh 20 2.2 Cách sử dụng số 20 2.2.1 Thì đơn(The Simple Present Tense): 20 2.2.1.1 thức(Formation) 20 2.2.1.2 Cách sử dụng (The uasges) 21 1002 2.2.2 Thì tiếp diễn(The present continuous/progressive tense) 21 2.2.2.1 Hình thức(formation) 21 2.2.2.2 Cách sử dụng(The usages) 21 2.2.3 Thì hoàn thành(The Present Prefect Tense) 21 2.2.3.1 Hình thức(Formation) 21 2.2.3.2 Cách sử dụng(The usages) 22 2.2.4 Thì hồn thành tiếp diễn (The Present Prefect continuousTense) 22 2.2.4.1 Hình thức(Formation) 22 2.2.4.2 Cách sử dụng(The usages) 22 2.2.5 Thì khứ đơn(The Simple Past Tense) 23 2.2.5.1 Hình thức(Formation) 23 2.2.5.2 cách sử dụng(The usages) 23 2.2.6 Thì khứ tiếp diễn (The Past continuous Tense) 23 2.2.6.1 Hình thức(Formation) 23 2.2.6.2 Cách sử dụng (The usages) 24 2.2.7 Thì tương lai đơn(The Simple Future Tense) 24 2.2.7.1 Hình thức(Formation) 24 2.2.7.2 cách sử dụng (The usages) 24 Chƣơng 3: CHƢƠNG TR 25 # 25 26 26 26 27 3.1.2.1 Kiểu giá trị định nghĩa trước (Predefined Value Types) 28 29 30 30 p (Loops) 31 34 34 36 40 41 41 46 47 1002 LỜI NĨI ĐẦU Xử lý ngơn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngơn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - cơng cụ hồn hảo tư giao tiếp Xử lý ngơn ngữ xử lý thơng tin đầu vào “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngơn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người có lưu trữ dạng điện tử Đặc điểm kiểu liệu khơng có cấu trúc nửa cấu trúc chúng lưu trữ khuôn dạng cố định bảng biểu Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu nhằm giúp cho hệ thống máy tính hiểu xử lý ngôn ngữ người Dịch máy ứng dụng xử lý ngôn ngữ tự nhiên 1002 Chƣơng 1: 1.1 Xử lý ngơn ngữ xử lý thơng tin đầu vào “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngơn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người có lưu trữ dạng điện tử Đặc điểm kiểu liệu khơng có cấu trúc nửa cấu trúc chúng lưu trữ khuôn dạng cố định bảng biểu Theo đánh giá cơng ty Oracle, có đến 80% liệu khơng cấu trúc lượng liệu lồi người có [Oracle Text] Với đời phổ biến Internet, sách báo điện tử, máy tính cá nhân, viễn thơng, thiết bị âm thanh,… người người tạo liệu văn hay tiếng nói Vấn đề ta xử lý chúng, tức chuyển chúng từ dạng ta chưa hiểu thành dạng ta hiểu giải thích được, tức ta tìm thơng tin, tri thức hữu ích cho Giả sử có câu sau tiếng nước ngoài: - “We meet here today to talk about Vietnamese language and speech processing.” - “Aujourd'hui nous nous réunissons ici pour discuter le traitement de langue et de parole vietnamienne.” - “Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамском языке и обработке речи.” Nếu có dịch, có chương trình máy tính dịch (biến đổi) chúng tiếng Việt, ta hiểu nghĩa câu là: “Hôm gặp để bàn xử lý ngơn ngữ tiếng nói tiếng Việt.” Nếu câu lưu trữ tệp tiếng Anh, Pháp, Nga Việt ta nhìn thấy trên, ta có liệu “văn bản” Nếu đọc câu này, ghi âm lại, ta chuyển chúng vào máy tính dạng tệp tín hiệu (signal) “tiếng nói” Tín hiệu sóng âm hai âm tiết tiếng Việt nhìn thấy sau: 1002 Hình 1.1 : Tín hiệu sóng âm hai âm tiêt Tiếng Việt Tuy nhiên, văn thật (một báo khoa học chẳng hạn) có đến hàng nghìn câu, ta khơng phải có mà hàng triệu văn Web nguồn liệu văn khổng lồ, với thư viện điện tử − tương lai gần sách báo xưa nguồn âm chuyển hết vào máy tính (chẳng hạn chương trình nhận dạng chữ, thu nhập âm thanh, gõ thẳng vào máy) − sớm chứa toàn kiến thức nhân loại Vấn đề “xử lý” (chuyển đổi) khối liệu văn tiếng nói khổng lồ qua dạng khác để người có thơng tin tri thức cần thiết từ chúng Xử lý ngôn ngữ tự nhiên ứng dụng thực tế để giải toán : nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếng nói, dịch tự động, tìm kiếm thơng tin, tóm tắt văn bản, khai phá liệu phát tri thức 1.2.1 1.2.1.1 Ngôn ngữ hệ thống để giao thiệp hay suy luận dùng cách biểu diễn phép ẩn dụ loại ngữ pháp theo logic, bao hàm tiêu chuẩn hay thật thuộc lịch sử siêu việt Nhiều ngôn ngữ sử dụng điệu bộ, âm thanh, ký hiệu, hay chữ viết, cố gắng truyền khái niệm, ý nghĩa, ý nghĩ, mà nhiều khía cạnh nằm sát quá, khó phân biệt 1.2.1.2 Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngơn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - cơng cụ hồn hảo tư giao tiếp 1002 Trí tuệ nhân tạo hay trí thông minh nhân tạo (tiếng Anh: artificial intelligence hay machine intelligence, thường viết tắt AI) trí tuệ biểu diễn hệ thống nhân tạo Thuật ngữ thường dùng để nói đến máy tính có mục đích khơng định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo Nhập nhằng ngôn ngữ học tượng thường gặp, giao tiếp hàng ngày người để ý đến họ xử lý tốt tượng Nhưng ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên phải thao tác với ý nghĩa từ vựng mà điển hình dịch tự động nhập nhằng trở thành vấn đề nghiêm trọng Ví dụ câu cần dịch có xuất từ “đường” câu “ra chợ mua cho mẹ đường” vấn đề nảy sinh cần dịch từ road hay sugar, người xác định chúng dễ dàng vào văn cảnh dấu hiệu nhận biết khác với máy khơng Một số tượng nhập nhằng: Nhập nhằng ranh giới từ, Nhập nhằng từ đa nghĩa, Nhập nhằng từ đồng âm (đồng tự), Nhập nhằng từ loại Dịch máy ứng dụng xử lý ngơn ngữ tự nhiên, dùng máy tính để dịch văn từ ngơn ngữ sang ngôn ngữ khác Mặc dù dịch máy nghiên cứu phát triển 50 năm qua, xong tồn nhiều vấn đề cần nghiên cứu Ở Việt Nam, dịch máy nghiên cứu 20 năm, sản phẩm dịch máy cho chất lượng dịch nhiều hạn chế Hiện nay, dịch máy phân chia thành số phương pháp như: dịch máy sở luật, dịch máy thống kê dịch máy cớ sở ví dụ 1.2.2 X (Probability) Không gian mẫu (sự kiện sở): Ω.Tung đồng xu: Ω = {head,tail} Bầu cử: Ω = {yes/no}.Tung xúc xắc Ω = {1, ,6} Xổ số (|Ω | ≈ 107 1012).Số lượng tai nạn giao thơng/năm (Ω = N) Lỗi tả (Ω = Z*), Z bảng chữ cái, Z* tập hợp chuỗi bảng chữ (|Ω | ≈kích thước vốn từ vựng) 1002 1.2.2.2 Events (sự kiện) Sự kiện A tập mẫu A Ω, tập tất A 2Ω Ω kiện chắn , Ø kiện không xảy Ví dụ : Tung đồng xu lần Ω = {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT}.Tính trường hợp có lần xuất Tail A = {HTT, THT, TTH} Tất Head : A = {HHH} 1.2.2.3 Xác suất (probability) Thực thực nghiệm (experiment) nhiều lần: có bao nhiều lần kiện A xảy (“count” c1) Mỗi lần thực nghiệm gọi dãy (bộ) Thực dãy nhiều lần, ghi nhớ lại số ci Nếu thực thật thực nghiệm nhiều lần, tỉ số ci/Ti (Ti tổng số lần thực nghiệm dãy thứ i) dần tới số chưa biết Gọi giá trị Xác xuất A Kí hiệu: p(A) 1.2.2.4 Ước lượng Xác suất Cách tính sau:Từ dãy thực nghiệm :p(A) = c1/T1 Nếu thực nhiều dãy thực nghiệm: tính trung bình cộng ci/Ti 1.2.2.5 Kỳ vọng (expectation) Phương sai (variance) Kỳ vọng: tổng trọng số giá trị X, giá trị trung bình biến ngẫu nhiên Phương sai:là trung bình bình phương độ lệch (độ lệch biến X so với trung bình nó) E( X ) xp( x) x p( x)( x E ( x))2 Var ( X ) x 1.2.3.Lý thuyết thông tin(Information Theory) 1.2.3.1 Khái niệm Lý thuyết thông tin nghiên cứu về: Áp dụng cơng cụ tốn học việc lượng hóa data cho mục đích lưu trữ truyền liệu Độ đo thông tin Entropy, số lượng bít trung bình cần thiết việc lưu trữ hay truyền liệu.Đóng vai trị quan trọng xử lý thông tin phương pháp thống kê, đặc biệt NLP 1002 1.2.3.2 Entropy Entropy độ đo thông tin Entropy ~ hỗn độn, mờ, trái nghĩa với order, Đo độ không chắn : Entropy thấp -> Đo độ không chắn thấp ; Entropy cao > Đo độ không chắn cao Trong vật lý : Entropy giảm lượng sử dụng Ký hiệu p(x) phân bố biến ngẫu nhiên X X Entropy tính sau: H(X) = - ∑ x không gian mẫu p(x) log2p(x) Đơn vị: bits (log10: nats) Kí hiệu: H(X) = Hp(X) = H(p) 1.2.3.3 Perplexity - Cross Entropy Entropy liên quan đến hiểu ngôn ngữ? Liên quan đến ko xác: vấn đề có nhiều thơng tin Entropy thấp.Có nhiều mơ hình -> entropy đo chất lượng mơ hình? Ví dụ: mơ hình mã hóa ký tự với trung bình số bít sử dụng ký tự 2.5 Đây mơ hình ngơn ngữ 0-gram, đặt liên kết âm tiết sinh mơ hình tốt hơn, chẳng hạn cho entropy 1.22 bít ký tự Perplexity Entropy phân bố p(X) :Hp(X)Thì giá trị 2H gọi perplexity perplexity số lượng mẫu trung bình mà biến phải lựa chọn.Perlexity bé (tức entropy bé) mơ hình tốt số bít dùng để mã hóa thơng tin bé Ví dụ : Cho ngựa với xác suất lựa chọn sau: Ngựa 1: 1/2 ngựa 2: 1/4 ngựa 3: 1/8 ngựa 4: 1/16 Ngựa 5: 1/64 ngựa 2: 1/64 ngựa 3: 1/64 ngựa 4: 1/64 Entropy rate Tính entropy dãy từ ngôn ngữ L H(w1, ,wn) = - W L p(W1n)log(W1n) Entropy rate coi per-word entropy.Coi ngôn ngữ trình ngẫu nhiên sản xuất dãy từ Cần quan tâm đến dãy vô hạn từ Entropy rate H(L) định nghĩa sau: H ( L) lim H (w1, , wn ) n n lim n n p(w1, , wn ) log p(w1, , wn ) L Cross Entropy Cross entropy sử dụng phân bố thật p 1002 Cross-entropy phân bố m phân bố thật p định nghĩa: H ( p, m) lim n n p(w1, , wn ) log m(w1, , wn ) L lim n log m(w1, , wn ) n (theo lý thuyết Shannon-McMillan-Breiman) Cross entropy để so sánh mơ hình : H(p) ≤ H(p,m) Cross entropy H(p,m) cận entropy H(p) Mơ hình m xác cross entropy H(p,m) gần với entropy H(p) Độ khác H(p,m) H(p) đo độ xác mơ hình m Các công thức Cross Entropy Cross entropy biến X với phân bố xác suất p(x) phân bố m tính sau: H ( X , m) H ( X ) D( p || m) p( x) log m( x) x Chú ý:D(p||q) = ∑x p(x) log2 (p(x)/q(x)) 1.3 Qui trình xử lý ngơn ngữ tự nhiên Để máy tính hiểu thực thi chương trình viết ngơn ngữ cấp cao, ta cần phải có trình biên dịch thực việc chuyển đổi chương trình sang chương trình dạng ngơn ngữ đích Chương trình bày cách tổng quan cấu trúc trình biên dịch mối liên hệ với thành phần khác - “họ hàng” - tiền xử lý, tải soạn thảo liên kết,v.v Cấu trúc trình biên dịch mơ tả chương cấu trúc mức quan niệm bao gồm giai đoạn: Phân tích từ vựng, Phân tích cú pháp, Phân tích ngữ nghĩa, Sinh mã trung gian, Tối ưu mã Sinh mã đích Nói cách đơn giản, trình biên dịch chương trình làm nhiệm vụ đọc chương trình viết ngôn ngữ - ngôn ngữ nguồn (source language) - dịch thành chương trình tương đương ngơn ngữ khác - ngơn ngữ đích (target languague) Một phần quan trọng trình dịch ghi nhận lại lỗi có chương trình nguồn để thơng báo lại cho người viết chương trình Hình: Một trình biên dịch 1002 10 VD: foreach (int temp in arrayOfInts) { Console.WriteLine(temp); } foreach (int temp in arrayOfInts) { temp++; Console.WriteLine(temp); } - : : goto Label1; Console.WriteLine("This won't be executed"); Label1: Console.WriteLine("Continuing execution from here"); - eak: Ta - : - : , (caller) 1002 33 3.2 : - - ) - - 3.2.1 1002 34 : private void btnNhapcau_Click(object sender, EventArgs e) { Stream myStream = null; OpenFileDialog openFile = new OpenFileDialog(); openFile.InitialDirectory = "C:\\"; openFile.Filter = "Text file(*.txt)|*txt|All files(*.*)|*.*"; openFile.RestoreDirectory = true; if (openFile.ShowDialog() == DialogResult.OK) { try { if ((myStream = openFile.OpenFile()) != null) { using (myStream) { using (StreamReader sr = new StreamReader(openFile.FileName)) { 1002 35 txtNhapcau.Text = sr.ReadLine(); } } } } catch (Exception ea) { MessageBox.Show("Không mở file" + ea.ToString()); } } } 3.2.2 1002 36 : private void btnTachtu_Click(object sender, EventArgs e) { if (txtNhapcau.Text == "") { MessageBox.Show("Khơng có câu nhập"); } else { string[] cauNhap = txtNhapcau.Text.Split(); int length = cauNhap.Length; for (int i = 0; i < length; i++) { if (cauNhap[i].StartsWith("a")) { DuyetTu("a.txt", cauNhap[i], } if (cauNhap[i].StartsWith("b")) { DuyetTu("b.txt", cauNhap[i], } if (cauNhap[i].StartsWith("c")) { DuyetTu("c.txt", cauNhap[i], } if (cauNhap[i].StartsWith("d")) { DuyetTu("d.txt", cauNhap[i], } if (cauNhap[i].StartsWith("e")) { DuyetTu("e.txt", cauNhap[i], } if (cauNhap[i].StartsWith("f")) { DuyetTu("f.txt", cauNhap[i], } if (cauNhap[i].StartsWith("g")) { DuyetTu("g.txt", cauNhap[i], } if (cauNhap[i].StartsWith("h")) { DuyetTu("h.txt", cauNhap[i], } if (cauNhap[i].StartsWith("k")) { DuyetTu("k.txt", cauNhap[i], 1002 i); i); i); i); i); i); i); i); i); 37 } if (cauNhap[i].StartsWith("l")) { DuyetTu("l.txt", cauNhap[i], } if (cauNhap[i].StartsWith("m")) { DuyetTu("m.txt", cauNhap[i], } if (cauNhap[i].StartsWith("n")) { DuyetTu("n.txt", cauNhap[i], } if (cauNhap[i].StartsWith("i")) { DuyetTu("i.txt", cauNhap[i], } if (cauNhap[i].StartsWith("j")) { DuyetTu("j.txt", cauNhap[i], } if (cauNhap[i].StartsWith("o")) { DuyetTu("o.txt", cauNhap[i], } if (cauNhap[i].StartsWith("p")) { DuyetTu("p.txt", cauNhap[i], } if (cauNhap[i].StartsWith("q")) { DuyetTu("q.txt", cauNhap[i], } if (cauNhap[i].StartsWith("r")) { DuyetTu("r.txt", cauNhap[i], } if (cauNhap[i].StartsWith("s")) { DuyetTu("s.txt", cauNhap[i], } if (cauNhap[i].StartsWith("t")) { DuyetTu("t.txt", cauNhap[i], } if (cauNhap[i].StartsWith("v")) { DuyetTu("v.txt", cauNhap[i], } 1002 i); i); i); i); i); i); i); i); i); i); i); i); 38 if (cauNhap[i].StartsWith("u")) { DuyetTu("u.txt", cauNhap[i], } if (cauNhap[i].StartsWith("y")) { DuyetTu("y.txt", cauNhap[i], } if (cauNhap[i].StartsWith("z")) { DuyetTu("z.txt", cauNhap[i], } if (cauNhap[i].StartsWith("w")) { DuyetTu("w.txt", cauNhap[i], } i); i); i); i); } } } public void DuyetTu(string tudien, string cauNhap, int i) { try { using (StreamReader sr = new StreamReader(tudien)) { string line; while ((line = sr.ReadLine()) != null) { string[] dong = line.Split(); if (cauNhap == dong[0]) { Label label1 = new Label(); label1.Text = dong[0]; tlpTachtu.Controls.Add(label1, i, 0); Label label2 = new Label(); label2.Text = dong[1]; tlpTachtu.Controls.Add(label2, i, 1); } } } } catch (Exception a) { MessageBox.Show("Không đọc file", a.ToString()); } } 1002 39 3.2.3 : for (int j = 3; j < length + 1; j++) { for (int i = 0; i < length - j + 1; i++) { for (int k = 1; k < j - 1; k++) { string t = KiemtraCYK(CYKTable[i, k], CYKTable[i + k, j - k]); if (t !="") { CYKTable[i, j] = t; } } } } return CYKTable; 1002 40 3.2.4 1002 41 ) , câu : công” ) : public void NhapTu(string filename, string text, string type) { try { using(StreamWriter sw = new StreamWriter(filename, true)) { sw.WriteLine("\n" + text + " " + type); MessageBox.Show("Đã nhập thành công"); txtTu.Text = ""; txtLoai.Text = ""; } } catch(Exception loi) { MessageBox.Show("Không mở file" + loi.Message); } } 1002 42 private void btnNhap_Click(object sender, EventArgs e) { string word; string loai; word = txtTu.Text; loai = txtLoai.Text.ToUpper(); if (word.StartsWith("a")) { NhapTu("a.txt", word, loai); } if (word.StartsWith("b")) { NhapTu("b.txt", word, loai); } if (word.StartsWith("c")) { NhapTu("c.txt", word, loai); } if (word.StartsWith("d")) { NhapTu("d.txt", word, loai); } if (word.StartsWith("e")) { NhapTu("e.txt", word, loai); } if (word.StartsWith("f")) { NhapTu("f.txt", word, loai); } if (word.StartsWith("g")) { NhapTu("g.txt", word, loai); } if (word.StartsWith("h")) { NhapTu("h.txt", word, loai); } if (word.StartsWith("i")) { NhapTu("i.txt", word, loai); } 1002 43 if (word.StartsWith("j")) { NhapTu("j.txt", word, loai); } if (word.StartsWith("k")) { NhapTu("k.txt", word, loai); } if (word.StartsWith("l")) { NhapTu("l.txt", word, loai); } if (word.StartsWith("m")) { NhapTu("m.txt", word, loai); } if (word.StartsWith("n")) { NhapTu("n.txt", word, loai); } if (word.StartsWith("o")) { NhapTu("o.txt", word, loai); } if (word.StartsWith("p")) { NhapTu("p.txt", word, loai); } if (word.StartsWith("q")) { NhapTu("q.txt", word, loai); } if (word.StartsWith("r")) { NhapTu("r.txt", word, loai); } if (word.StartsWith("s")) { NhapTu("s.txt", word, loai); } if (word.StartsWith("t")) { NhapTu("t.txt", word, loai); 1002 44 } if (word.StartsWith("u")) { NhapTu("u.txt", word, loai); } if (word.StartsWith("y")) { NhapTu("y.txt", word, loai); } if (word.StartsWith("v")) { NhapTu("v.txt", word, loai); } if (word.StartsWith("w")) { NhapTu("w.txt", word, loai); } if (word.StartsWith("x")) { NhapTu("x.txt", word, loai); } if (word.StartsWith("z")) { NhapTu("z.txt", word, loai); } } 1002 45 - (Chương ) ) : Ki ,… 1002 46 TS Lê Anh Cường, Bài giảng Xử lý ngôn ngữ tự nhiên, Khoa CNTT, Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2007 Christopher D Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing, The MIT Press Cambridge Massachusetts London England, (p32-55) 1999 Steve Renals, Probabilistic context-free grammars, Lecture,11- 2005 http://en.wikipedia.org/wiki/CYK_algorithm Internet 1002 47 ... biểu Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu nhằm giúp cho hệ thống máy tính hiểu xử lý ngơn ngữ người Dịch máy ứng dụng xử lý ngơn ngữ tự nhiên 1002 Chƣơng 1: 1.1 Xử lý ngơn ngữ xử lý thông... 1002 LỜI NĨI ĐẦU Xử lý ngơn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên phần khó... ngơn ngữ - cơng cụ hồn hảo tư giao tiếp Xử lý ngôn ngữ xử lý thơng tin đầu vào “dữ liệu ngôn ngữ? ?? (dữ liệu cần biến đổi), tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngơn ngữ viết

Ngày đăng: 09/08/2021, 08:16

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w