1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Tìm hiểu về xử lý ngôn ngữ tự nhiên và máy dịch. Viết chương trình mô phỏng từ điển Việt-Anh

70 424 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 0,98 MB

Nội dung

Header Page of 149 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………… LUẬN VĂN Tìm hiểu xử lý ngôn ngữ tự nhiên máy dịch Viết chương trình mô từ điển Việt-Anh Footer Page of 149 Header Page  ofĐồ 149 án tốt nghiệp Lời cảm ơn Trước hết em xin chân thành cảm ơn thầy giáo Ths Vũ Mạnh Khánh, người hướng dẫn em nhiều suốt trình tìm hiểu nghiên cứu hoàn thành khóa luận từ lý thuyết đến ứng dụng Sự hướng dẫn thầy giúp em có thêm hiểu biết xử lý ngôn ngữ tự nhiên ứng dụng Đồng thời em xin chân thành cảm ơn thầy cô môn công nghệ thông tin thầy cô trường trang bị cho em kiến thức cần thiết để em hoàn thành tốt khóa luận Em xin gửi lời cảm ơn đến thành viên lớp CT1002, người bạn bên cạnh động viên, tạo điều kiện thuận lợi em tìm hiểu, hoàn thành tốt khóa luận Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè tạo điều kiện để em xây dựng thành công khóa luận Hải Phòng, ngày…….tháng……năm 2010 Sinh viên Nguyễn Văn Thành Footer Page of 149 Header Page  ofĐồ 149 án tốt nghiệp Mục lục Footer Page of 149 Header Page  ofĐồ 149 án tốt nghiệp Article I MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo tư giao tiếp Xử lý ngôn ngữ xử lý thông tin đầu vào “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngôn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người có lưu trữ dạng điện tử Đặc điểm kiểu liệu cấu trúc nửa cấu trúc chúng lưu trữ khuôn dạng cố định bảng biểu Để máy tính hiểu thực thi chương trình viết ngôn ngữ cấp cao, ta cần phải có trình biên dịch thực việc chuyển đổi chương trình sang chương trình dạng ngôn ngữ đích Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu nhằm giúp cho hệ thống máy tính hiểu xử lý ngôn ngữ người Dịch máy ứng dụng xử lý ngôn ngữ tự nhiên Mặc dù dịch máy nghiên cứu phát triển 50 năm qua, song tồn nhiều vấn đề cần nghiên cứu Footer Page of 149 Header Page  ofĐồ 149 án tốt nghiệp Article II Chương : Giới thiệu xử lý ngôn ngữ tự nhiên 1.1 Tổng quan Xử lý ngôn ngữ xử lý thông tin đầu vào “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngôn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người có lưu trữ dạng điện tử Đặc điểm kiểu liệu cấu trúc nửa cấu trúc chúng lưu trữ khuôn dạng cố định bảng biểu Theo đánh giá công ty Oracle, có đến 80% liệu không cấu trúc lượng liệu loài người có [Oracle Text] Với đời phổ biến Internet, sách báo điện tử, máy tính cá nhân, viễn thông, thiết bị âm thanh,… người người tạo liệu văn hay tiếng nói Vấn đề ta xử lý chúng, tức chuyển chúng từ dạng ta chưa hiểu thành dạng ta hiểu giải thích được, tức ta tìm thông tin, tri thức hữu ích cho Giả sử có câu sau tiếng nước ngoài: - “We meet here today to talk about Vietnamese language and speech processing.” - “Aujourd'hui nous nous réunissons ici pour discuter le traitement de langue et de parole vietnamienne.” - “Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамском языке и обработке речи.” Nếu có dịch, có chương trình máy tính dịch (biến đổi) chúng tiếng Việt, ta hiểu nghĩa câu là: “Hôm gặp để bàn xử lý ngôn ngữ tiếng nói tiếng Việt.” Nếu câu lưu trữ tệp tiếng Anh, Pháp, Nga Việt ta nhìn thấy trên, ta có liệu “văn bản” Nếu đọc câu này, ghi âm lại, ta chuyển chúng vào Footer Page of 149 Header Page  ofĐồ 149 án tốt nghiệp máy tính dạng tệp tín hiệu (signal) “tiếng nói” Tín hiệu sóng âm hai âm tiết tiếng Việt nhìn thấy sau: Hình 1.1 : Tín hiệu sóng âm hai âm tiêt Tiếng Việt Tuy nhiên, văn thật (một báo khoa học chẳng hạn) có đến hàng nghìn câu, ta có mà hàng triệu văn Web nguồn liệu văn khổng lồ, với thư viện điện tử − tương lai gần sách báo xưa nguồn âm chuyển hết vào máy tính (chẳng hạn chương trình nhận dạng chữ, thu nhập âm thanh, gõ thẳng vào máy) − sớm chứa toàn kiến thức nhân loại Vấn đề “xử lý” (chuyển đổi) khối liệu văn tiếng nói khổng lồ qua dạng khác để người có thông tin tri thức cần thiết từ chúng Xử lý ngôn ngữ tự nhiên ứng dụng thực tế để giải toán : nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếng nói, dịch tự động, tìm kiếm thông tin, tóm tắt văn bản, khai phá liệu phát tri thức Section 2.01 1.2 Cơ sở khoa học 1.2.1 Một số khái niệm 1.2.1.1 Ngôn ngữ tự nhiên Ngôn ngữ hệ thống để giao thiệp hay suy luận dùng cách biểu diễn phép ẩn dụ loại ngữ pháp theo logic, bao hàm tiêu chuẩn hay thật thuộc lịch sử siêu việt Nhiều ngôn ngữ sử dụng điệu bộ, âm thanh, ký hiệu, hay chữ viết, cố gắng truyền khái niệm, ý nghĩa, ý nghĩ, mà nhiều khía cạnh nằm sát quá, khó phân biệt (a) 1.2.1.2 Xử lý ngôn ngữ tự nhiên Footer Page of 149 Header Page  ofĐồ 149 án tốt nghiệp Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo tư giao tiếp (b) 1.2.1.3 Trí tuệ nhân tạo Trí tuệ nhân tạo hay trí thông minh nhân tạo (tiếng Anh: artificial intelligence hay machine intelligence, thường viết tắt AI) trí tuệ biểu diễn hệ thống nhân tạo Thuật ngữ thường dùng để nói đến máy tính có mục đích không định ngành khoa học nghiên cứu lý thuyết ứng dụng trí tuệ nhân tạo (c) 1.2.1.4 Nhập nhằng Nhập nhằng ngôn ngữ học tượng thường gặp, giao tiếp hàng ngày người để ý đến họ xử lý tốt tượng Nhưng ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên phải thao tác với ý nghĩa từ vựng mà điển hình dịch tự động nhập nhằng trở thành vấn đề nghiêm trọng Ví dụ câu cần dịch có xuất từ “đường” câu “ra chợ mua cho mẹ đường” vấn đề nảy sinh cần dịch từ road hay sugar, người xác định chúng dễ dàng vào văn cảnh dấu hiệu nhận biết khác với máy không Một số tượng nhập nhằng: Nhập nhằng ranh giới từ, Nhập nhằng từ đa nghĩa, Nhập nhằng từ đồng âm (đồng tự), Nhập nhằng từ loại 1.2.1.5 Dịch máy Dịch máy ứng dụng xử lý ngôn ngữ tự nhiên, dùng máy tính để dịch văn từ ngôn ngữ sang ngôn ngữ khác Mặc dù dịch máy nghiên cứu phát triển 50 năm qua, xong tồn nhiều vấn đề cần nghiên cứu Ở Việt Nam, dịch máy nghiên cứu 20 năm, sản phẩm dịch máy cho chất lượng dịch nhiều hạn chế Hiện nay, Footer Page of 149 Header Page  ofĐồ 149 án tốt nghiệp dịch máy phân chia thành số phương pháp như: dịch máy sở luật, dịch máy thống kê dịch máy cớ sở ví dụ 1.2.2 Lý thuyết thông tin (d) 1.2.2.1 Khái niệm Lý thuyết thông tin nghiên cứu về: Áp dụng công cụ toán học việc lượng hóa liệu cho mục đích lưu trữ truyền liệu Độ đo thông tin Entropy, số lượng bít trung bình cần thiết việc lưu trữ hay truyền liệu Đóng vai trò quan trọng xử lý thông tin phương pháp thống kê, đặc biệt NLP (e) 1.2.2.2 Entropy Entropy độ đo thông tin Entropy ~ hỗn độn, mờ, trái nghĩa với order Đo độ không chắn: Entropy thấp -> Đo độ không chắn thấp; Entropy cao -> Đo độ không chắn cao Trong vật lý: Entropy giảm lượng sử dụng Ký hiệu p(x) phân bố biến ngẫu nhiên X không gian mẫu X Entropy tính sau: H(X) = - ∑ x p(x) log2p(x) Đơn vị: bits (log10: nats) Kí hiệu: H(X) = Hp(X) = H(p) (f) 1.2.2.3 Perplexity - Cross Entropy Entropy liên quan đến hiểu ngôn ngữ? Liên quan đến không xác: vấn đề có nhiều thông tin Entropy thấp Có nhiều mô hình -> entropy đo chất lượng mô hình? Ví dụ: mô hình mã hóa ký tự với trung bình số bít sử dụng ký tự 2.5 Đây mô hình ngôn ngữ 0-gram, đặt liên kết âm tiết sinh mô hình tốt hơn, chẳng hạn cho entropy 1.22 bít ký tự Footer Page of 149 Header Page  ofĐồ 149 án tốt nghiệp Perplexity Entropy phân bố p(X) là: Hp(X) giá trị 2H gọi perplexity perplexity số lượng mẫu trung bình mà biến phải lựa chọn Perlexity bé (tức entropy bé) mô hình tốt số bít dùng để mã hóa thông tin bé Ví dụ : Cho ngựa với xác suất lựa chọn sau: Ngựa 1: 1/2 ngựa 2: 1/4 ngựa 3: 1/8 ngựa 4: 1/16 Ngựa 5: 1/64 ngựa 2: 1/64 ngựa 3: 1/64 ngựa 4: 1/64 Entropy rate Tính entropy dãy từ ngôn ngữ L H(w1, ,wn) = - W L p(W1n)log(W1n) Entropy rate coi per-word entropy Coi ngôn ngữ trình ngẫu nhiên sản xuất dãy từ Cần quan tâm đến dãy vô hạn từ Entropy rate H(L) định nghĩa sau: lim H (w1, , wn ) n H ( L) n lim n n p(w1, , wn ) log p(w1, , wn ) L Cross Entropy Cross entropy sử dụng phân bố thật p Cross-entropy phân bố m phân bố thật p định nghĩa: H ( p, m) lim n n p(w1, , wn ) log m(w1, , wn ) L lim n (theo lý thuyết Shannon-McMillan-Breiman) Footer Page of 149 log m(w1, , wn ) n Header Page  10 of Đồ149 án tốt nghiệp Cross entropy để so sánh mô hình : H(p) ≤ H(p,m) Cross entropy H(p,m) cận entropy H(p); Mô hình m xác cross entropy H(p,m) gần với entropy H(p); Độ khác H(p,m) H(p) đo độ xác mô hình m; Các công thức Cross Entropy Cross entropy biến X với phân bố xác suất p(x) phân bố m tính sau: H ( X , m) H ( X ) D( p || m) p( x) log m( x) x Chú ý: D(p||q) = ∑x p(x) log2 (p(x)/q(x)) 1.3 Quy trình xử lý ngôn ngữ tự nhiên Để máy tính hiểu thực thi chương trình viết ngôn ngữ cấp cao, ta cần phải có trình biên dịch thực việc chuyển đổi chương trình sang chương trình dạng ngôn ngữ đích Chương trình bày cách tổng quan cấu trúc trình biên dịch mối liên hệ với thành phần khác - “họ hàng” - tiền xử lý, tải soạn thảo liên kết,v.v Cấu trúc trình biên dịch mô tả chương cấu trúc mức quan niệm bao gồm giai đoạn: Phân tích từ vựng, Phân tích cú pháp, Phân tích ngữ nghĩa, Sinh mã trung gian, Tối ưu mã Sinh mã đích Nói cách đơn giản, trình biên dịch chương trình làm nhiệm vụ đọc chương trình viết ngôn ngữ - ngôn ngữ nguồn (source language) - dịch thành chương trình tương đương ngôn ngữ khác - ngôn ngữ đích (target languague) Một phần quan trọng trình dịch ghi nhận lại lỗi có chương trình nguồn để thông báo lại cho người viết chương trình Footer Page 10 of 149 Header Page  56 of Đồ149 án tốt nghiệp b) Dịch cụm từ Việt – Anh +) Input : cụm từ tiếng Việt +) Process : Private Sub cmd_dich_Click() Dim str() As String Dim targ(10), tuloai(10), tem As String Dim i, k, j, sotu As Integer txt_dich.Text = "" str = tachtu(txt_string.Text, sotu) 'Lay tu tu loai tuong duong csdl Dim tb, kt, sql As String k=0 j=0 For i = To sotu - kt = laykitudau(str(i)) tb = tenbang(kt) sql = "select * from " + tb + " where word like '" & str(i) & "'" Set rs = New ADODB.Recordset rs.Open sql, conn If Not rs.EOF = True Then If rs.Fields(3).Value "" Then targ(k) = rs.Fields(3).Value k=k+1 End If Footer Page 56 of 149 55 Header Page  57 of Đồ149 án tốt nghiệp If rs.Fields(1).Value "" Then tuloai(j) = rs.Fields(1).Value j=j+1 End If Else: MsgBox "Từ " + str(i) + " Không có từ điển ", vbInformation, ” Thông báo ” End If Next 'Sap xep cau nguon theo trat tu cau dich j=k-1 For i = To k - If targ(k - 1) = "i" Or targ(k - 1) = "I" Then targ(k - 1) = "my" End If txt_dich.Text = txt_dich.Text + " " + targ(j) j=j-1 Next End Sub +) Output : cụm từ tiếng Anh tương ứng Footer Page 57 of 149 56 Header Page  58 of Đồ149 án tốt nghiệp 3.2.3 Hạn chế hướng phát triển đề tài a) Hạn chế - Chương trình dịch cụm từ câu đơn giản - Chương trình chưa thể xử lý nhập nhằng trình dịch b) Hướng phát triển - Xây dựng từ điển tiếng Việt hoàn chỉnh - Thống kê đầy đủ tập luật cho ngôn ngữ tiếng Việt - Xây dựng hệ thống dịch tự động Footer Page 58 of 149 57 Header Page  59 of Đồ149 án tốt nghiệp KẾT LUẬN Trong trình nghiên cứu, tìm hiểu hoàn thành đồ án tốt nghiệp “ Tìm hiểu xử lý ngôn ngữ tự nhiên máy dịch Viết chương trình mô từ điển Việt-Anh ”, em thu nhận thêm kiến thức em nhận thấy xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu rộng lớn, nhiều điều cần phải khám phá Trong đề tài em cố gắng tập trung tìm hiểu nghiên cứu tổng quan xử lý ngôn ngữ tự nhiên, số thuật toán phân tích cú pháp em tìm hiểu phương pháp gán nhãn từ loại, phương pháp dịch máy Từ em xây dựng chương trình mô dịch cụm từ từ tiếng Việt sang tiếng Anh Do thời gian thực đồ án hạn chế nên em tìm hiểu số bước trình xử lý ngôn ngữ tự nhiên chương trình mô chưa hoàn thiện mong muốn Trong thời gian tới em cố gắng tiếp tục nghiên cứu hoàn thiện việc tìm hiểu xử lý ngôn ngữ tự nhiên chương trình mô dịch cụm từ Anh-Việt Footer Page 59 of 149 58 Header Page  60 of Đồ149 án tốt nghiệp TÀI LIỆU THAM KHẢO [1] Diệp Quang Ban, Hoàng Văn Thung, Ngữ pháp tiếng Việt (2 tập), Nhà xuất Giáo dục, 1999 [2] Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên, Đại học Khoa Học Tự Nhiên Tp.HCM, 12/2004 [3] TS Lê Anh Cường, Bài giảng Xử lý ngôn ngữ tự nhiên, Đại học Công Nghệ - ĐHQG Hà Nội, 8/2007 [4] TS Nguyễn Chí Hiếu, Ứng dụng xử lý ngôn ngữ tự nhiên dịch máy, Khoa CNTT - ĐH Công Nghiệp Tp.HCM [5] Nguyễn Thị Mình Huyền - Đại học Khoa học Tự nhiên Hà Nội, Vũ Xuân Lương - Trung tâm từ điển học Vietlex, Nghiên cứu xây dựng từ điển tiếng Việt cho máy tính [6] Phan Xuân Hiếu - Đại học Tohoku, Nhật Bản, Lê Minh Hoàng - Đại học Sư Phạm Hà Nội, Nguyễn Cẩm Tú - Đại học Công nghệ, ĐHQG Hà Nội, Gán nhãn từ loại tiếng Việt dựa phương pháp học máy thống kê [7] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt, ICT 2003 Footer Page 60 of 149 59 Header Page  61 of Đồ149 án tốt nghiệp PHỤ LỤC Cây ngữ nghĩa a.CONCRETETHING - VẬT THỂ a1.LivingThing - Vật hữu sinh a1a.People - Con người a1a01.Person - Người : ông, bà, cha, mẹ, giáo viên, học sinh, công nhân, binh lính a1a02.Organization - Tổ chức : nhà trường, chi đoàn, chi uỷ, ngoại giao a1a03.SupernaturalBeing - Nhân vật siêu nhiên : phù thuỷ, thần linh, Ngọc Hoàng a1b.Animal - Động vật a1b01.Vertebrate - Động vật có xương sống a1b01a.Warm Blood - Động vật máu nóng a1b01a1.Mammal - Thú (ĐV có vú) : chó, sư tử, hổ, báo a1b01a2.Bird - Chim : gà, vịt, cò, vạc, đại bàng, diều hâu a1b01b.Cold Blood - Động vật máu lạnh a1b01b1.Fish - Cá : chim, thu, nhụ, đé a1b01b2.Amphibian - Lưỡng cư : ếch, nhái, ễnh ương a1b01b3.Reptile - Bò sát : rắn, rết, thằn lằn, cá sấu a1b02.Invertebrate - Động vật không xương sống a1b02a.Worm - Sâu : sâu que, giun, sán a1b02b.Insect - Côn trùng : kiến, ong, ve, bọ xít a1b02c.Shellfish - Động vật có vỏ : tôm, cua, ghẹ a1b02d.OtherSeaCreature - Sinh vật biển : bào ngư, biển Footer Page 61 of 149 60 Header Page  62 of Đồ149 án tốt nghiệp a1c.FictionalAnimal - Động vật hư cấu List: rồng, thuồng luồng, ma cà rồng, ma gà a1d.Microorganism - Vi sinh vật List: vi rút, vi khuẩn, vi trùng a1e.Plant -Thực vật a1e01.Tree - Cây cối : lim, gụ, táu, phi lao, bạch đàn a1e02.Bush - Cây bụi : duối, cúc tần, sim a1e03.Vine - Cây thân leo : tơ hồng, tầm xuân a1e04.Herb - Cây thân cỏ : cỏ tranh, lau, cói a1e05.Low Plant - Thực vật bậc thấp : tảo, nấm a1e06.Hight Plant - Thực vật bậc cao : dương xỉ, rong, rêu a2.Non-livingThing - Vật vô sinh a2a.Food - Thức ăn a2a01.Grain - Hạt : đậu, ngô, lạc, vừng, (hạt) điều a2a02.Vegetable - Rau củ : cải, rau muống, mùng tơi, bầu, bí, khoai tây 12a03.Food - Lương thực : lúa, ngô, khoai, sắn, kê, vừng, đại mạch a2a04.FoodStuff - Thực phẩm : thịt, lòng, ba chỉ, thăn, mỡ phần, trứng, cá, sữa, bơ a2a05.Fruit - Quả : cam, quýt, mít, bưởi, dừa, lê a2a06.Beverage - Đồ uống : bia, rượu, sinh tố, nước a2a07.Seasoning - Gia vị : mắm, muối, tiêu, ớt, mù tạt, rau thơm a2a08.Dish - Món ăn : bánh kẹo, cơm, cháo, bún, phở, súp, bánh cuốn, lẩu, canh Footer Page 62 of 149 61 Header Page  63 of Đồ149 án tốt nghiệp a2b.Artifact - Vật dụng a2b01.Furniture - Đồ dùng : bàn, ghế, giường, nồi, dao, kéo, bút, vở, đồng hồ a2b02.Tool - Công cụ : cày, bừa, cuốc, xẻng, cưa, đục, búa, kìm, khoan, quang gánh a2b03.Garment - Trang phục : quần, áo, giày, dép a2b04.Ornament - Trang sức : nhẫn, vòng, lắc, hoa tai a2b05.Cosmetic - Mĩ phẩm : son, phấn, dầu gội, kem a2b06.Drug - Thuốc men : kí ninh, morphine, vitamin, cao hổ cốt, sâm, cam thảo a2b07.Plaything - Đồ chơi : búp bê, bóng bay, cầu tụt, bập bênh a2b08.Vehicle - PT giao thông, vận tải : ô tô, xe máy, xe đạp, máy bay, tàu thuỷ a2b09.Equipment - Thiết bị : acquy, công tơ, băng chuyền, rơ moóc a2b10.Accessory - Phụ kiện : van, vòi nước, ốc, đai, săm, lốp, xích, líp a2b11.Machine - Máy móc : máy nổ, máy bơm, máy kéo, máy xay, máy biến a2b12.Instrument - Nhạc cụ : đàn, sáo, trống, kèn, nhị, phèng la a2b13.Container - Đồ chứa : thùng, téc, bồn, bể a2b14.Creation - Vật sáng tạo : tranh ảnh, tượng, tác phẩm, kịch, phim a2b15.Building - Công trình xây dựng : nhà cửa, đình chùa, cầu cống, thành quách a2b16.Construction - Cấu kiện xây dựng : bê tông, xà, rầm, vì, kèo a2b17.Weapon - Vũ khí : tàu ngầm, xe tăng, đại bác, súng, đạn, bom a2b18.OtherThings - Các vật khác : giàn, hàng rào, thanh, que, nan a2c.Part - Bộ phận a2c01.BodyPart - Bộ phận thể người động vật a2c01a.Person Part - Bộ phận thể người : tóc, lông mày, tá tràng, râu ria Footer Page 63 of 149 62 Header Page  64 of Đồ149 án tốt nghiệp a2c01b.Animal Part - Bộ phận thể động vật : đuôi, gạc, lòng, mề, vây, vi a2c02.Plant Part - Bộ phận thực vật : hoa, lá, nụ, cành, nhánh, chồi, mầm a2c03.Artifact Part - Bộ phận đồ vật : cán, đế, nắp, đít, miệng, gọng, a2d.Substance - Chất a2d01.Material - Nguyên liệu : lụa, gấm, nhung, kaki, giấy, mực, xi măng, hắc in a2d02.Solid - Chất rắn : đá, sắt, cát, kim cương, hồng ngọc, than a2d03.Earth - Đất : đất, bùn, mùn a2d04.Liquid - Chất lỏng : nước, xăng, rượu, bia, cồn, máu, mủ a2d05.Gas - Chất khí : ga, khí hydro, oxy a2d06.Addiction - Chất gây nghiện : heroin, hồng phiến, thuốc phiện, thuốc lá, rượu a2d07.Poisonous - Chất độc : thạch tín a2d08.Excrete - Chất thải : phân, rác a2e.Natural Object - Tự nhiên a2e01.Land - Đất : ruộng, vườn, đồi, núi, cao nguyên, sa mạc, đảo, quần đảo a2e02.BodyOfWater - Vùng có nước : sông, hồ, đầm, vũng, vịnh a2e03.HeavenlyBodies - Vũ trụ : sao, hành tinh, Mộc Tinh, Đại Hùng a3.Location - Địa điểm a3a.PlaceName - Địa danh : Hà Nội, Quảng trường Ba Đình, Châu Âu, Đông Phi a3b.Region - Vùng miền : cao nguyên, bình nguyên, trung du, lục địa a3c.FictionalPlace - Nơi tưởng tượng : thiên đàng, địa ngục, miền đất hứa, âm phủ Footer Page 64 of 149 63 Header Page  65 of Đồ149 án tốt nghiệp b.ABSTRACTION - TRỪU TƯỢNG b1.State - Trạng thái b1a.Feeling - Cảm giác : đói, no, nhức, buốt, cay, xót, rát b1b.Physiological - Sinh lí : thức, ngủ, mơ, mộng, ốm, đau b1c.Change - Biến hoá : hoá, biến, bay hơi, (băng) tan, héo, úa, khô, quăn, teo, tóp b1d.Contact - Tiếp xúc : gần (quần chúng), xa (dân), xa lánh, thân thiện, gần gũi b1e.Existence - Tồn : (tiền), đời (tổ chức), sống, ở, hấp hối, dính, bám b1f.Devour - Tiêu biến : chết, hi sinh, thiệt mạng, tuyệt diệt, tuyệt chủng b1g.Consumption - Tiêu huỷ : long, gãy, đổ, sập, sụp, cháy, rụi, tàn, lụi b1h.Motion - Vận động: (xe) lao (xuống vực), (trăng) nhô (lên cao), chảy b1i.Staying - Ngừng nghỉ : nằm, nghỉ ngơi, dừng, đỗ, ngừng, dứt, tạnh, ngớt, b1j.Perception - Nhận thức : lơ mơ, mang máng, bập bõm, cảm giác, tưởng b1k.Possession - Sở hữu : có (tiền), (tiền) b1l.Depend - phụ thuộc : ăn theo, nương nhờ, phụ thuộc, bị, phải, b1m.Surrender - khuất phục : chịu, chấp nhận, đành b1n.Receive - Tiếp nhận : được, bắt (vải bắt màu), b1o.Enjoy - Hưởng thụ : hưởng, hưởng thụ, hưởng lạc, vui chơi b1p.Psychology - Tâm lí : thẹn, ngượng, xấu hổ, e ấp, run sợ, đau (lòng) b1q.Stimulation - Khuyến khích : vẫy gọi, gọi mời b1r.Experience - Trải nghiệm : sành, trải đời, trải b1s.Emotion - Cảm súc : tức giận, sợ sệt, tin tưởng, hoài nghi, thông cảm, yêu thích b1t.Desire - Mong muốn : mong, mong ước, mong ngóng, nguyện ước, ước muốn Footer Page 65 of 149 64 Header Page  66 of Đồ149 án tốt nghiệp b2.Action - Hành động b2a.Abandon - Từ bỏ : bỏ rơi, từ bỏ, chối bỏ, ruồng bỏ, bỏ rơi b2b.Care - Chăm sóc : săn sóc, nuôi dưỡng, bảo dưỡng, bảo hành b2c.Act - Tác động : xô, đẩy, ẩy, thúc, lôi, kéo, bật, tắt b2d.Cognitive Act - Nhận thức : học, hiểu, nghe lời, am hiểu, am tường, định b2e.Emotional Act - Xúc cảm : hôn, yêu đương, ôm ấp, ấp ủ, mong ngóng b2f.Communicate - Giao tiếp : nói chuyện, trò chuyện, gặp gỡ, thảo luận, bàn bạc b2g.Contact - Tiếp xúc : sờ, nắn, nếm, liếm b2h.Move - Di chuyển : (ra), chạy (vào), bay, bò, nhảy, lăn b2i.Keep - Ngăn giữ : ách (ai lại), tóm, bắt, đình chỉ, giam cầm b2j.Create - Tạo tác : đẽo, gọt, vót, vẽ, viết, sáng tác, xây dựng, lắp ghép, thiết đặt b2k.Change - Biến đổi : cắt, băm, xé, nấu, luộc b2l.PresentAndReceive - Trao nhận : cho, tặng, gửi, ban, phát, phân phát b2m.Order - Gây khiến : sai, bảo, khiến, bắt, khuyên, nhờ, giúp, hướng dẫn b2n.Consume - Tiêu huỷ : phá (cầu), đốt (nhà), huỷ hoại, tiêu diệt, trừng b2o.Oppose - Đối kháng : chiến đấu, thi đấu, đấu tranh, đấu đá, chống chọi b2p.Provoke - Khiêu khích : chọc giận, chọc tức, trêu ngươi, trêu tức b2q.Appropriate - Chiếm đoạt : cướp, giật, ăn cắp, ăn cướp, chiếm đoạt, xâm lược b2r.Negative - Phủ định : chối, bác bỏ, trừ, phủ nhận, phủ định b2s.Depend - Chi phối : a dua, hùa, áp đặt b2t.Collect - Tập hợp : cóp nhặt, gom góp, góp nhặt, góp nhóp Footer Page 66 of 149 65 Header Page  67 of Đồ149 án tốt nghiệp b2u.PsychologicalReflection - Phản ứng tâm lí : chữa thẹn, cười trừ, cười trừ, cười ruồi, cười khẩy, cười xoà, cười mũi, nũng nịu, khóc nhè b2v.Conclude - Kết luận : kết án, kết tội, kết luận, khép, thống b2w.Recover - Phục hồi : minh oan, giải oan, tẩy oan, hồi sức, hồi phục b2x.Respond - Phản hồi : đáp, hồi đáp, hồi âm, b2y.Punish - Trừng phạt : trừng phạt, trừng trị, nghiêm trị, đánh đòn, tống cổ, truy tố b2z.Advise - Khuyên bảo : khuyên, khuyên răn, khuyên bảo b3.Activity - Hoạt động b3a.PhysicalActivity - Hoạt động thể : thở, ngồi, đứng, nhìn, ngửi, nghe, tiết, đái, ỉa b3b.PhysiologicalAction - Sinh lí : giao hợp, giao cấu, đẻ, ấp, nhảy ổ b3c.Exchange - Trao đổi : mua bán, sang nhượng, bàn giao, hợp đồng, hứa hẹn b3d.Receive - Tiếp nhận : hưởng, hưởng lạc, hưởng thụ, kế thừa, ăn, uống, đoc (thông tin), thắng lợi b3e.Change - Biến đổi : (máy) chạy, (máy) nổ, (máy) phát (điện) b3f.Contact - Tiếp xúc : va, đập, đụng, quệt b3g.Communication - Giao tiếp : liên lạc, đàm thoại, thông báo b3h.Emotion - Cảm xúc : tức giận, sợ sệt, tin tưởng, hoài nghi, thông cảm, yêu thích b3i.Thinking - Tư : suy nghĩ, nhận xét, suy xét, phán đoán 23j.Motion - Chuyển động : lung lay, lung linh, chấp chới, dập dờn 23k.PhysicalAction - Tự nhiên : giao thoa, thuỷ phân, ăn mòn 23l.SocialActivity - Xã hội : tuyên truyền, giáo dục, phát thanh, tổ chức, lãnh đạo 23m.Motion - Vận động : co, rụt, gập, duỗi, chảy Footer Page 67 of 149 66 Header Page  68 of Đồ149 án tốt nghiệp 23n.Affect - Ảnh hưởng : giúp (tiến bộ), khiến (tỉnh giấc) b4.Phenomenon - Hiện tượng b4a.Event - Sự kiện : cách mạng, khởi nghĩa, chiến tranh b4b.PhysiologicalPhenomenon - Sinh lí : tình dục, dậy thì, phát dục, động đực b4c.DiseasePhenomenon - Bệnh lí : cảm, lao, lậu, ung thư, sẩy thai, băng huyết b4d.NaturalPhenomenon - Tự nhiên : mưa gió, lũ lụt, bão bùng, hạn hán, hải lưu b4e.SocialPhenomenon - Xã hội : trào lưu, khuynh hướng, chế độ, thực dân b4f.Cognition - Sự nhận thức : suy nghĩ, nhận xét, suy xét, phán đoán (i) b5.AbstractThing - Sự việc trừu tượng b5a.Life - Sự sống : sống, sống, đời sống, sống, mầm, giống, giống b5b.ResultOfAction - Kết hoạt động : thành quả, thắng lợi, sản phẩm b5c.SocialAbstractThing - Xã hội : dân số, dân sinh, hộ khẩu, đơn từ, thư từ b5d.CulturalAbstractThing - Văn hoá : lễ hội, đình đám, ma chay, cưới xin b5e.Concept - Khái niệm : khoa học, công nghệ, toán học, kinh tế, trị b5f.Sound - Âm : ầm ầm, ì ầm, đùng đoàng, cọt kẹt, leng keng b5g.Colour - Màu sắc : xanh, đỏ, tím, vàng b5h.Smell - Mùi : thơm, hăng, khai, thối, b5i.Taste - Vị : ngọt, bùi, chua, cay, mặn, chát b5j.SportAndRecreation - Thể thao giải trí : bóng đá, cờ vua, điền kinh b5k.LogicalPlace - Phương hướng : trên, dưới, trong, đông, tây, thượng nguồn (ii) b6.Relation - Quan hệ b6a.Space - Không gian : (nhà) gần (trường), sát, liền, kề, bên, cạnh Footer Page 68 of 149 67 Header Page  69 of Đồ149 án tốt nghiệp b6b.Time - Thời gian b6b01.Point Of Time - Thời điểm : khoảnh khắc, thời điểm, lúc, hồi b6b02.Period - Thời kì, giai đoạn : trước đây, nay, bây giờ, khứ, xưa b6c.SetOrGroup - Tập hợp nhóm : lẻ loi, cô đơn, cô quạnh, đông đúc b6d.Comparison - So sánh : tương đương, hơn, b6e.Identical - Đồng : (giáo viên), làm (công nhân) b6f.Negative - Phủ định : không, chưa, chẳng b7.Attribute - Thuộc tính b7a.Quality - Phẩm chất : bền, dai, bở, tốt, xấu, trung bình, tuyệt, thông minh b7b.Quantity - Số lượng : nhiều, ít, ngắn, dài, vô khối, vô số, to, nhỏ, dày, mỏng b7c.Size - Kích thước : to, nhỏ, béo, gầy, dày, mỏng, cao, thấp b7d.Shape - Hình dạng : tròn, méo, nhọn, tù, cong, thẳng, vênh, xiên, lệch b7e.Characteristic - Đặc tính : chua, cay, ngọt, mặn, chát, thơm, thối, nóng, lạnh b7f.SortOrType - Loại kiểu : cũ, mới, đại, mô đen b7g.Condition - Điều kiện : thuận lợi, bất lợi, khách quan, chủ quan b7h.Appearance - Xuất : ló, mọc, lộ, hiện, phơi bày, phanh phui b7i.Hidden - Ẩn : lấp, ẩn, lặn, kín, tối mò b8.Value - Giá trị b8a.Definite - Xác định : một, hai, tư, b8b.Indefinite - Không xác định : những, dăm ba, vài, trăm nghìn b9.Unit - Đơn vị b9a.UnitOfObject - Đơn vị loại vật : con, cây, cục, Footer Page 69 of 149 68 Header Page  70 of Đồ149 án tốt nghiệp b9b.UnitOfCollection - Đơn vị tập hợp : toán, bầy, lũ, mớ, khóm, bụi b9c.UnitOfMetrical - Đơn vị đo lường : tấn, tạ, yến, cân, kg, cm, b9d.UnitOfTime - Đơn vị thời gian : giờ, phút, giây, ngày, tháng, quý, năm b9e.UnitOfCurrency - Đơn vị tiền tệ : hào, đồng, đô la, bảng, bạt, yên b9f.UnitOfFrequency - Đơn vị tần suất : lần, lượt, bận b9g.UnitOfAction - Đơn vị hành động : cú, keo Footer Page 70 of 149 69 ... nghiệp Chương : Ứng dụng xử lý ngôn ngữ tự nhiên dịch máy Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu nhằm giúp cho hệ thống máy tính hiểu xử lý ngôn ngữ người Dịch máy ứng dụng xử lý ngôn ngữ tự nhiên. .. Quy trình xử lý ngôn ngữ tự nhiên Để máy tính hiểu thực thi chương trình viết ngôn ngữ cấp cao, ta cần phải có trình biên dịch thực việc chuyển đổi chương trình sang chương trình dạng ngôn ngữ. .. giới từ, Nhập nhằng từ đa nghĩa, Nhập nhằng từ đồng âm (đồng tự) , Nhập nhằng từ loại 1.2.1.5 Dịch máy Dịch máy ứng dụng xử lý ngôn ngữ tự nhiên, dùng máy tính để dịch văn từ ngôn ngữ sang ngôn ngữ

Ngày đăng: 27/04/2017, 07:33

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Diệp Quang Ban, Hoàng Văn Thung, Ngữ pháp tiếng Việt (2 tập), Nhà xuất bản Giáo dục, 1999 Sách, tạp chí
Tiêu đề: Ngữ pháp tiếng Việt (2 tập)
Nhà XB: Nhà xuất bản Giáo dục
[2] Đinh Điền, Giáo trình xử lý ngôn ngữ tự nhiên , Đại họ c K hoa Họ c Tự Nh iên Tp . H C M, 12 / 2004 Sách, tạp chí
Tiêu đề: Giáo trình xử lý ngôn ngữ tự nhiên
[3] TS Lê Anh Cường, Bài giảng Xử lý ngôn ngữ tự nhiên, Đại học Công Nghệ - ĐHQG Hà Nội, 8/2007 Sách, tạp chí
Tiêu đề: Bài giảng Xử lý ngôn ngữ tự nhiên
[4] TS. Nguyễn Chí Hiếu, Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy, Khoa CNTT - ĐH Công Nghiệp Tp.HCM Sách, tạp chí
Tiêu đề: Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy
[7] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt, ICT 2003 Sách, tạp chí
Tiêu đề: Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt
[5] Nguyễn Thị Mình Huyền - Đại học Khoa học Tự nhiên Hà Nội, Vũ Xuân Lương - Trung tâm từ điển học Vietlex, Nghiên cứu và xây dựng từ điển tiếng Việt cho máy tính Khác
[6] Phan Xuân Hiếu - Đại học Tohoku, Nhật Bản, Lê Minh Hoàng - Đại học Sư Phạm Hà Nội, Nguyễn Cẩm Tú - Đại học Công nghệ, ĐHQG Hà Nội, Gán nhãn từ loại tiếng Việt dựa trên các phương pháp học máy thống kê Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w