1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận văn thạc sĩ nghiên cứu thuật toán tách từ tiếng lào và xây dựng ứng dụng hỗ trợ tra cứu từ mới tiếng lào việt

63 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Thuật Toán Tách Từ Tiếng Lào Và Xây Dựng Ứng Dụng Hỗ Trợ Tra Cứu Từ Mới Tiếng Lào – Việt
Tác giả Vongphasith End
Người hướng dẫn TS. Nông Thị Hoa
Trường học Đại học Thái Nguyên
Chuyên ngành Công nghệ thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2019
Thành phố Thái Nguyên
Định dạng
Số trang 63
Dung lượng 6,06 MB

Cấu trúc

  • CHƯƠNG I: NGỮ PHÁP TIẾNG LÀO (6)
    • 1.1 Giới thiệu chung (6)
    • 1.2 Thanh điệu và bảng chữ cái (6)
      • 1.2.1 Thanh điệu tiếng Lào (6)
      • 1.2.2 Bảng chữ cái tiếng Lào (7)
    • 1.3 Ngữ pháp tiếng Lào (8)
      • 1.3.1 Biến cách đặc biệt về Ngữ pháp (9)
      • 1.3.2 Quan hệ Danh từ (9)
      • 1.3.3 Danh xưng (12)
      • 1.3.4 Quan hệ giữa Danh từ và Tính từ (16)
      • 1.3.5 Động từ và các Thời của Hành động (16)
    • 1.4 Các Thể Ngữ pháp trong các Ngôn ngữ Lào - Thái – Khmer (22)
      • 1.4.1 Thể Nghi vấn trong Ngôn ngữ Lào - Thái - Khmer (22)
  • CHƯƠNG II: CÁC KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN (24)
    • 2.1 Giới thiệu chung (0)
      • 2.1.1 Xử lý ngôn ngữ tự nhiên (24)
      • 2.1.2 Tách từ trong Xử lý ngôn ngữ tự nhiên (27)
    • 2.2 Các kỹ thuật tách từ hiện có (29)
      • 2.2.1 Mô hình ngôn ngữ (29)
      • 2.2.2 Một số cách tiếp cận bài toán tách từ (30)
      • 2.2.3 Thuật toán tách từ phổ biến (32)
      • 2.2.4 Một số vấn đề mở rộng (33)
    • 2.3 Dùng kỹ thuật Pointwise cho tách từ (33)
      • 2.3.1 Ý tưởng cơ bản (33)
      • 2.3.2 Những đặc trưng được sử dụng (35)
      • 2.3.3 Đặc điểm về dữ liệu huấn luyện (37)
    • 2.4 Một số công cụ (Tools) dùng cho tách từ (37)
  • CHƯƠNG III: XÂY DỰNG ỨNG DỤNG TRA CỨU TỪ ĐIỂN VIỆT-LÀO (38)
    • 3.1 Giới thiệu bài toán (38)
    • 3.3 Khảo sát một số phần mềm tra từ điển (46)
    • 3.4 Phân tích và thiết kế dữ liệu (49)
      • 3.4.1 Các yêu cầu về chức năng (49)
      • 3.4.2 Các yêu cầu phi chức năng (49)
      • 3.4.3 Thiết kế cơ sở dữ liệu (50)
    • 3.5 Xây dựng chương trình (50)
      • 3.5.1 Hướng dẫn sử dụng chương trình (50)
      • 3.5.2 Các giao diện chương trình (53)
      • 3.5.3 Một số đoạn code quan trọng (60)
  • KẾT LUẬN (62)
  • TÀI LIỆU THAM KHẢO (0)

Nội dung

Thí dụ từ ຮຽນ nghĩa là học được ghép như sau: ກ ho + ກ iê + ກ no = hiên 1.3.1 Biến cách đặc biệt về Ngữ pháp Trong tiếng Lào, tiếng Thái và tiếng Khmer có một biến cách Ngữ pháp rất đặc

NGỮ PHÁP TIẾNG LÀO

Giới thiệu chung

Tiếng Lào là một ngôn ngữ thuộc Ngữ chi Thái trong hệ ngôn ngữ Tai-Kadai, chịu ảnh hưởng từ tiếng Phạn Đây là ngôn ngữ truyền thống của hoàng gia Lào, phản ánh tư tưởng Ấn Độ giáo và Phật giáo Bảng chữ cái Lào là hệ thống chính thức để ghi chép ngôn ngữ này, đồng thời cũng được sử dụng để ghi lại ngôn ngữ của các dân tộc thiểu số trong nước, mặc dù các dân tộc có chữ viết riêng như Hmông vẫn tiếp tục sử dụng chữ của họ.

Tiếng Lào có ảnh hưởng đáng kể đến các ngôn ngữ lân cận như tiếng Thái, tiếng Khmer và tiếng Việt, với sự tương đồng về thanh điệu và phát âm lên đến hơn 80% Điều này giúp người Lào và người Thái Lan có thể hiểu nhau trong giao tiếp Mặc dù tiếng Lào không được công nhận là ngôn ngữ thiểu số tại Việt Nam, nhưng nó vẫn được sử dụng ở một số vùng núi gần biên giới Việt-Lào, nơi người dân coi tiếng Lào là ngôn ngữ thương mại quan trọng trong khu vực.

Thanh điệu và bảng chữ cái

Tiếng Lào có 5 thanh điệu tương tự như tiếng Việt, nhưng một trong số đó, thanh điệu luyến lên – luyến xuống, có thể biến đổi tùy theo ngữ cảnh sử dụng.

Ngữ điệu tiếng Lào được quy định bởi năm thanh điệu:

Thanh cao (thanh sắc) được hình thành từ mái tri và được ký hiệu bằng dấu "ຊ" Trong khi đó, thanh thấp (thanh huyền) được tạo ra từ mái ệc và được biểu thị bằng dấu "่", tương tự như một dấu nháy nằm ở phía trên.

Thanh bằng (thanh không hay thanh bằng) nghĩa là không có dấu gì ở trên hoặc dưới

Thanh luyến lên (thanh hỏi) được tạo bởi mái chặt-ta-wa và được viết

Thanh luyến xuống (thanh nặng) được gọi là mái thô và được viết là

” ໊ ” giống như dấu ngả của tiếng Việt ở phía trên nhưng nó phát âm gần giống thanh nặng trong tiếng Việt

Riêng “thanh luyến xuống” (hay còn gọi là “thanh lên – xuống khoóng ại) hoặc

Tiếng Lào có những đặc điểm âm vị riêng biệt, như không phát âm được các âm “â” mà chỉ sử dụng “ơ” Đặc biệt, chữ cái “r” trong tiếng Việt khi phiên âm sang tiếng Lào sẽ được thay thế bằng “s” hoặc rất ít khi là “L” hoặc “gi” (chữ ລ) Để cải thiện khả năng nghe và đọc thanh điệu tiếng Lào, người học nên tham khảo các bài hát được phiên âm từ tiếng Việt sang tiếng Lào và ngược lại.

1.2.2 Bảng chữ cái tiếng Lào

Phần dưới đây liệt kê các phụ âm và nguyên âm trong tiếng Lào [1]

Phụ âm đóng vai trò quan trọng trong việc phát âm và phân biệt nghĩa của từ Các âm như "k", "p", "m", "l" và "v" thường xuất hiện trong nhiều từ vựng tiếng Việt Việc nhận diện và sử dụng đúng các phụ âm này giúp người học cải thiện khả năng giao tiếp Ngoài ra, sự kết hợp giữa các phụ âm và nguyên âm tạo nên âm tiết phong phú, góp phần làm giàu ngôn ngữ.

Khi ghép vần với phụ âm ở trên được sắp xếp theo thứ tự:

+ກ +ກ +ິ +ິ +ິ +ິ +ິ +ິ ạ a ị i ự ư ụ u ກxກ ກx ກxກ ກx ກxກ ກx ກxກກ +ິ ệ ê ẹ e ộ ô ọ o ກ+ກ ກ+ກ ກ+ກກ ກ+ກ ກ+ກກ ກ+ກກ +ກກກ +ກ ກ ợ ơ ịa ia ựa ưa ụa ua ກ+ ກ+ ກ+ກກ +ກ ạy ay au ăm

Số đếm trong tiếng Lào có cách viết khác biệt so với tiếng Thái, nhưng cách phát âm lại rất giống nhau Điểm khác biệt duy nhất là số 9, trong tiếng Lào được phát âm là 'cậu', trong khi tiếng Thái phát âm là 'cạu'.

Ngữ pháp tiếng Lào

Các ngôn ngữ Đông Dương như Lào, Campuchia, Việt Nam và Thái Lan có nhiều điểm tương đồng về ngữ pháp Đặc biệt, cách sắp xếp từ vựng trong câu theo kiểu "nói xuôi" là một điểm tương đồng nổi bật, trong đó từ quan trọng được đặt ở đầu câu và từ ít quan trọng được đặt ở cuối câu Điều này ngược lại với nhiều ngôn ngữ khác như tiếng Anh, tiếng Hoa, tiếng Đức, nơi từ quan trọng thường được đặt ở cuối câu và từ ít quan trọng được đặt ở đầu câu Do đó, khi sắp xếp từ vựng theo thứ tự tương ứng, câu tiếng Việt có thể được diễn nghĩa một cách hoàn chỉnh, ngoại trừ một số trường hợp đặc biệt trong ngữ pháp của các nước.

Trong tiếng Lào, có chữ ໆ được sử dụng để chỉ những từ cần đọc lặp lại, ví dụ như từ ຊ້າໆ được phát âm là xạ xạ Tiếng Lào không có chữ "J", thay vào đó là chữ ຢ (đọc là do), có thể thay thế cho các chữ d, gi trong tiếng Việt, thậm chí đôi khi thay cho cả chữ r Chữ ຽ trong tiếng Lào thay thế cho chữ iê trong tiếng Việt, nhưng khi đứng một mình thì không có cách đọc Ví dụ, từ ຮຽນ có nghĩa là "học", được ghép từ các âm: ກ (ho) + ກ (iê) + ກ (no) = hiên.

1.3.1 Biến cách đặc biệt về Ngữ pháp

Trong tiếng Lào, tiếng Thái và tiếng Khmer, có một điểm chung đặc biệt trong ngữ pháp liên quan đến số đếm Cụ thể, khi số lượng người, vật hoặc sự kiện lớn hơn 1, trật tự cụm từ vẫn giống như trong tiếng Việt và nhiều ngôn ngữ khác, tức là: Số lượng (số đếm) + Danh từ (người, vật, sự vật).

Nhưng nếu chỉ là một duy nhất thì cấu trúc cụm từ lại thay đổi ngược lại là:

Danh từ (người, vật, sự vật) + 1 (chỉ số lượng)

Ví dụ cụ thể như dưới đây:

Ngôn ngữ Số lượng nhiều hơn 1 Số lượng chỉ bằng 1

Tiếng Lào Sorng kon (xoong khôn) Kon neung (khôn nừng)

Tiếng Thái Sorng kon (xoong khôn) Kon neung (khôn nừng)

Tiếng Khmer Pi mnus (pi ma-nut) Mnus mouy (ma-nut muôi)

Tiếng Việt Hai người Một người (người một)

Trong các ngôn ngữ Lào, Thái, Khmer và tiếng Việt, mối quan hệ giữa danh từ và các thành phần ngữ pháp trong câu rất phức tạp Mặc dù không có khái niệm về mạo từ xác định hay mạo từ bất xác định như trong các ngôn ngữ châu Âu, nhưng các ngôn ngữ này lại có những khái niệm phức tạp hơn để diễn đạt ý nghĩa.

Danh từ trong các Ngôn ngữ Lào - Thái - Khmer

Các mối quan hệ danh từ là một phần quan trọng trong ngữ pháp, không chỉ trong các ngôn ngữ Lào, Thái, Khmer mà còn trong mọi ngôn ngữ khác Tuy nhiên, do cấu trúc ngữ pháp khác nhau giữa các ngôn ngữ, các mối quan hệ này sẽ tạo ra sự khác biệt giữa danh từ và các thành phần ngữ pháp khác trong câu.

Trong các ngôn ngữ Châu Âu (ngoại trừ tiếng Nga), khi một danh từ không đi kèm với số lượng cụ thể, người ta thường sử dụng mạo từ không xác định hoặc mạo từ xác định để làm rõ nghĩa cho danh từ đó.

Mạo từ không xác định trong tiếng Anh là 'a', trong khi tiếng Pháp sử dụng 'un' cho danh từ giống đực và 'une' cho danh từ giống cái Tuy nhiên, khái niệm này lại khá xa lạ và mơ hồ đối với các ngôn ngữ như Lào, Thái, Khmer và cả tiếng Việt.

Danh từ trực tiếp được sử dụng để xác định các danh từ trong câu, thường đi kèm với lượng từ để chỉ rõ số lượng của người, đồ vật hoặc sự kiện Ví dụ trong câu dưới đây minh họa rõ ràng cách sử dụng này.

Trong tiếng Anh, câu "I am a student" được dịch sang tiếng Lào là "koy pen nuk-seuk-sa," sang tiếng Thái là "pom pen nuk-seuk-sa," và sang tiếng Khmer là "nhom kir chea sers."

Trong các ngôn ngữ như Lào, Thái, Khmer và tiếng Việt, danh từ có thể được giới thiệu trực tiếp mà không cần mạo từ, khác với các ngôn ngữ Châu Âu yêu cầu phải có số lượng cụ thể Một điểm quan trọng là hầu hết các ngôn ngữ Châu Á không phân biệt số nhiều hay số ít và cũng không phân chia danh từ theo giống đực hay giống cái, trong khi các ngôn ngữ Châu Âu thường có sự phân biệt rõ ràng về các khía cạnh này.

Trong tiếng Anh, khi sử dụng đại từ chủ ngữ số ít, danh từ đi kèm cũng phải ở dạng số ít, ví dụ như "I am a student" (Tôi là sinh viên) Ngược lại, nếu đại từ chủ ngữ là số nhiều, như trong câu "We are the students" (Chúng tôi là sinh viên), danh từ cũng sẽ phải ở dạng số nhiều Hơn nữa, đại từ chủ ngữ thuộc giống nào thì mạo từ và danh từ đi theo cũng cần phải được điều chỉnh theo giống và số ít/số nhiều của đại từ chủ ngữ đó.

Trong các ngôn ngữ Châu Á, sự phân biệt về giống và số của danh từ không ảnh hưởng đến đại từ chủ ngữ, bất kể đại từ đó là số ít hay số nhiều, cũng như giống cái hay giống đực.

Danh từ có Lượng từ kèm theo

Khi có số lượng đi kèm với danh từ, nó sẽ tạo thành cụm danh từ với số lượng cụ thể Cụ thể, ngôn ngữ sử dụng số lượng để phân biệt giữa nhiều hơn một và chỉ bằng một.

Tiếng Lào Sorng kon (xoong khôn) Kon neung (khôn nừng)

Tiếng Thái Sorng kon (xoong khôn) Kon neung (khôn nừng)

Tiếng Khmer Pi mnus (bi ma-nut) Mnus mouy (ma-nut muôi)

Tiếng Việt Hai người Một người (người một)

Trong các ngôn ngữ như Lào, Thái, Khmer, Hàn Quốc, Nhật Bản và tiếng Việt, danh từ thường đi kèm với lượng từ Tuy nhiên, việc sử dụng lượng từ không chỉ đơn giản là đưa vào câu mà còn yêu cầu phải sử dụng các từ loại đặc trưng để xác định rõ danh từ thuộc loại nào, chẳng hạn như người, vật hay sự kiện.

Ví dụ: Tôi có 2 cái bàn, anh có 2 quyển vở, nó có 4 quả lựu đạn, cô ấy có giọng hát rất hay

Trong các ngôn ngữ Lào, Thái và Khmer, mỗi danh từ đều được phân loại bởi một từ loại đặc trưng đứng trước nó Dưới đây là một số từ loại thường gặp trong những ngôn ngữ này.

Các Thể Ngữ pháp trong các Ngôn ngữ Lào - Thái – Khmer

1.4.1 Thể Nghi vấn trong Ngôn ngữ Lào - Thái - Khmer

Trong mọi ngôn ngữ trên thế giới, câu nghi vấn thường được chia thành hai loại chính: Thể Nghi vấn Trực chỉ Hành động và Thể Nghi vấn có Đại từ nghi vấn Đặc trưng.

Việc sử dụng Đại từ Nghi vấn rất quan trọng trong tiếng Lào, tiếng Thái và các ngôn ngữ khác, giúp người nói đặt câu hỏi một cách chính xác và hiệu quả Các Đại từ Nghi vấn như ai, cái gì, ở đâu, khi nào, và tại sao đóng vai trò then chốt trong việc thu thập thông tin và giao tiếp Sự hiểu biết về cách sử dụng các Đại từ Nghi vấn này không chỉ nâng cao khả năng ngôn ngữ mà còn giúp người học tương tác tốt hơn trong các tình huống giao tiếp hàng ngày.

Bài viết này sẽ tập trung vào Thể Nghi vấn Trực chỉ Hành động, tức là các câu hỏi dựa trên những hành động cụ thể.

Thể Nghi vấn kiểu Phủ định

Trong các ngôn ngữ Châu Âu, câu hỏi về hành động thường được hình thành bằng cách đảo ngược động từ chính lên trước đại từ chủ ngữ hoặc sử dụng trợ động từ đứng trước đại từ chủ ngữ.

Bạn có phải là sinh viên không? Hay bạn có cần tiền không? Trong tiếng Lào, câu hỏi tương ứng là "jao mern nuk-seuk-sa bor?" hoặc "jao yark ngern bor?" Còn trong tiếng Thái, bạn sẽ hỏi "koon pen nuk-seuk-sa mai?" hoặc "koon yark ngern mai?"

Trong tiếng Khmer, câu hỏi thường được hình thành bằng cách sử dụng trợ từ phủ định ở cuối câu, như trong ví dụ "neak kir chea Sers reu te?" hoặc "neak jong luy te?" Điều này cũng tương tự ở tiếng Việt, tiếng Lào và tiếng Thái, tạo nên thể nghi vấn phủ định, tức là loại câu hỏi sử dụng phủ định để hỏi Đặc biệt, hầu hết các ngôn ngữ Châu Á không bao giờ đặt động từ hay trợ động từ lên trước đại từ chủ ngữ trong bất kỳ tình huống nào, cho thấy sự khác biệt rõ rệt giữa văn phạm thể nghi vấn của các ngôn ngữ Châu Á và Châu Âu.

Thể nghi vấn kiểu có (từng xảy ra) hay chưa

Trong các ngôn ngữ Châu Á, đặc biệt là tiếng Lào, Thái, Khmer và tiếng Việt, có sự đa dạng phong phú về thể loại câu nghi vấn Người ta có thể đặt ra câu hỏi liên quan đến hành động đã xảy ra hay chưa, hoặc về sự tồn tại của một điều gì đó trong quá khứ.

Thể Phủ định trong Ngôn ngữ Lào - Thái - Khmer

Thể Phủ định xuất hiện phổ biến trong giao tiếp hàng ngày và văn bản Mặc dù Thể Phủ định chỉ nhằm xác nhận sự tồn tại hay không của một sự việc đã, đang hoặc sẽ xảy ra, nhưng không phải ngôn ngữ nào cũng dễ dàng diễn đạt điều này bằng lời nói hay văn bản.

Thể khẳng định trong tiếng Lào - Thái - Khmer

Thể khẳng định thường được sử dụng để trả lời cho các câu nghi vấn hoặc để xác nhận những sự việc đã và đang xảy ra trong giao tiếp hàng ngày.

Trong các Ngôn ngữ Lào, Thái và Khmer luôn có nhiều sự tương đồng về mặt văn phạm

CÁC KỸ THUẬT TÁCH TỪ TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Các kỹ thuật tách từ hiện có

Mô hình ngôn ngữ là một phân bố xác suất áp dụng cho các tập văn bản, giúp xác định xác suất của một câu hoặc cụm từ thuộc về một ngôn ngữ cụ thể.

Ví dụ: khi áp dụng mô hình ngôn ngữ cho tiếng Việt:

P[“hôm qua là thứ năm”] = 0.001 P[“năm thứ hôm là qua”] = 0

Mô hình ngôn ngữ đóng vai trò quan trọng trong nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên, bao gồm kiểm lỗi chính tả, dịch máy và phân đoạn từ Do đó, nghiên cứu về mô hình ngôn ngữ là nền tảng cần thiết cho các nghiên cứu và ứng dụng tiếp theo trong lĩnh vực này.

Mô hình ngôn ngữ có nhiều hướng tiếp cận, nhưng chủ yếu được xây dựng theo mô hình Ngram

Mô hình ngôn ngữ N-gram

Nhiệm vụ của mô hình ngôn ngữ là cho biết xác suất của một câu w 1 w 2 w m là bao nhiêu Theo công thức Bayes: P(AB) = P(B|A) * P(A), thì:

Theo công thức này, mô hình ngôn ngữ yêu cầu một bộ nhớ lớn để lưu trữ xác suất của tất cả các chuỗi ngắn hơn độ dài m Điều này trở nên không khả thi khi m đại diện cho độ dài của các văn bản ngôn ngữ tự nhiên, có thể tiến tới vô cùng Để tính toán xác suất của văn bản trong khi vẫn giữ lượng bộ nhớ trong giới hạn chấp nhận được, chúng ta áp dụng xấp xỉ Markov bậc n.

Theo xấp xỉ Markov, xác suất xuất hiện của một từ (w m) chỉ phụ thuộc vào n từ đứng liền trước nó (w m-n, w m-n+1, …, w m-1), thay vì phụ thuộc vào toàn bộ dãy từ trước đó (w 1, w 2, …, w m-1) Do đó, công thức tính xác suất văn bản được điều chỉnh lại để phản ánh mối quan hệ này.

Một cụm N-gram là 1 dãy con gồm n phần tử liên tiếp nhau của 1 dãy các phần tử cho trước

Công thức tính “xác suất thô” cho sự xuất hiện của từ

Gọi C(w i-n+1 w i-1 w i ) là tần số xuất hiện của cụm w i-n+1 w i-1 w i trong tập văn bản huấn luyện

Gọi P(w i |w i-n+1 w i-1 ) là xác suất w i đi sau cụm w i-n+1 w i-2 w i-1

Ta có công thức tính xác suất như sau:

Dễ thấy,  w C(w i-n+1 w i-1 w) chính là tần số xuất hiện của cụm w i-n+1 w i-1 trong văn bản huấn luyện Do đó công thức trên viết lại thành:

Tỉ lệ ở vế phải, hay còn gọi là tỉ lệ tần số, là cơ sở để tính xác suất thông qua ước lượng xác suất cực đại Phương pháp này được biết đến như một công thức tính “xác suất thô”, nhằm phân biệt với các phương pháp tính xác suất khác sử dụng thuật toán hiệu quả hơn.

2.2.2 Một số cách tiếp cận bài toán tách từ

Học máy đã được áp dụng trong xử lý ngôn ngữ tự nhiên từ đầu những năm 90, mang lại nhiều thành tựu quan trọng Bài viết này giới thiệu lịch sử các phương pháp giải quyết vấn đề tách từ và một số ứng dụng cụ thể liên quan đến tiếng Việt đã được nghiên cứu.

Phương pháp "ghép cực đại" là phương pháp đầu tiên và đơn giản nhất để tách từ, bằng cách tạo ra một từ điển và sắp xếp các từ trong câu sao cho bao phủ toàn bộ nội dung Mặc dù phương pháp này rất nhanh, nhưng nó có nhiều hạn chế, như độ chính xác thấp và không xử lý được các từ không có trong từ điển.

Phương pháp đồ thị hoá là một kỹ thuật trong đó mỗi cụm âm tiết trong từ điển tương ứng với một đỉnh, và trọng số giữa các đỉnh được tính toán dựa trên dữ liệu huấn luyện, như tần số xuất hiện cạnh nhau và khả năng liên kết giữa các từ loại Mặc dù phương pháp này mang lại kết quả khả quan hơn, nhưng vẫn chưa đạt được chất lượng tốt Ngoài ra, nó cũng gặp phải một số nhược điểm như yêu cầu dữ liệu huấn luyện lớn và thời gian thực thi lâu Một số nghiên cứu trước đây có thể coi là bước phát triển nâng cao của phương pháp này, nhưng kết quả vẫn còn nhiều hạn chế.

Các phương pháp tiếp theo dựa trên ý tưởng xem một câu là một chuỗi âm tiết hoặc ký tự, đặc biệt trong tiếng Nhật và tiếng Trung Do đó, việc tách từ trở thành bài toán gán nhãn cho chuỗi, trong đó mỗi dấu cách hoặc vị trí giữa hai ký tự sẽ được gán một trong hai nhãn, tương ứng với việc có hay không có dấu phân tách từ tại vị trí đó.

Hình 2.1: Ví dụ về sự tương ứng giữa bài toán tách từ và bài toán gán nhãn chuỗi

Những nghiên cứu về ứng dụng máy học trong tách từ tiếng Việt có thể kể đến: phương pháp hidden Markov Model (HMM), conditional random fields (CRF),

Phương pháp tối đa hóa entropy (ME) mang lại kết quả khả quan với độ chính xác từ 94% đến 95% và dễ thực hiện Tuy nhiên, để hiểu rõ hơn về phương pháp này, bạn nên tham khảo trực tiếp các nghiên cứu liên quan.

Một số cách tiếp cận để tách từ

Các kỹ thuật giải bài toán tách từ được tổng hợp trong [9] như sau:

Ghép cực đại là phương pháp sắp xếp từ vào câu nhằm bao phủ toàn bộ nội dung câu đó, đồng thời tuân thủ một số quy tắc nhất định Mặc dù phương pháp này mang lại tốc độ nhanh chóng, nhưng nó cũng tồn tại nhiều hạn chế, chẳng hạn như độ chính xác không cao và không thể xử lý các từ không có trong từ điển.

- Luật: Xây dựng tập luật bằng tay hoặc tự động để phân biệt các cách kết hợp được phép và không được phép

- Đồ thị hoá: Xây dựng một đồ thị biểu diễn câu và giải bài toán tìm đường đi ngắn nhất trên đồ thị

- Gán nhãn: Coi như bài toán gán nhãn chuỗi Cách này được sử dụng trong JVNSegmenter, Đông du

Mô hình ngôn ngữ có khả năng đánh giá các cách tách từ trong câu, giúp xác định cách tách từ nào có độ khả thi cao hơn Phương pháp này được áp dụng trong vnTokenizer.

2.2.3 Thuật toán tách từ phổ biến Đối với tiếng Nhật, thuật toán phổ biến nhất là "Trọng số cực tiểu" [10] Bài toán tách từ được qui về bài toán đồ thị như sau :

1 Tạo ra 2 đỉnh ảo là start, và end (đầu và cuối câu)

2 Lần lượt so sánh các đoạn với độ dài bất kì với 1 từ điển ngôn ngữ có sẵn

3 Các đoạn có xuất hiện trong từ điển sẽ tạo thành 1 đỉnh mới trên đồ thị

4 Trọng số giữa 2 đỉnh (2 đoạn phải liên tiếp nhau trong câu) được tính theo công thức f(i,j) với i,j là 2 từ

5 Tìm đường đi từ đỉnh start đến đỉnh end có trọng số nhỏ nhất trên đồ thị đó

Trong bước 4, công thức f(i,j) được tính dựa trên giá trị uni-gram (tần suất xuất hiện của một từ) và bi-gram (tần suất xuất hiện của hai từ liên tiếp) Bên cạnh đó, các yếu tố khác như từ loại và khả năng liên kết giữa các từ loại cũng được xem xét trong hàm f.

Dùng kỹ thuật Pointwise cho tách từ

Phương pháp Pointwise [8] là một nghiên cứu mới, hiện đang được áp dụng rộng rãi trong tiếng Nhật và tiếng Trung với kết quả tích cực Bên cạnh đó, phương pháp này cũng hiệu quả trong nhiều vấn đề khác liên quan đến xử lý ngôn ngữ tự nhiên.

Phương pháp hidden Markov Model, conditional random fields (CRF), Maximum entropy (ME) có điểm chung là có tham khảo nhãn (hay kết quả) của những nhãn bên cạnh

Hình 2.2: Ví dụ về việc tham khảo các kết quả trước

Để đạt được kết quả tốt trong các phương pháp xử lý ngôn ngữ tự nhiên, cần có một từ điển lớn Những phương pháp này không hiệu quả với từ mới và phụ thuộc vào kết quả của các phép gán nhãn trước đó; do đó, một kết quả sai có thể dẫn đến các kết quả sai tiếp theo Hiện nay, từ điển cho xử lý ngôn ngữ tự nhiên có khoảng 150,000 từ cho tiếng Nhật và 100,000 từ cho tiếng Trung.

Phương pháp pointwise là giải pháp nhằm khắc phục những hạn chế của các kỹ thuật máy học truyền thống Trong phương pháp này, các nhãn được đánh giá độc lập mà không dựa vào kết quả của các nhãn trước đó.

Hình 2.3: Ví dụ về việc không tham khảo các nhãn trước

Phương pháp pointwise cho phép đánh giá độc lập, chỉ cần một từ điển vừa phải và hiệu quả trong việc xác định các từ mới không có trong từ điển.

Vì thế, phương pháp pointwise rất phù hợp với những ngôn ngữ không có nhiều dữ liệu như tiếng Việt

Các vị trí được đánh giá độc lập và đặc trưng chỉ là thông tin văn bản xung quanh vị trí đó, cho phép phương pháp pointwise hoạt động hiệu quả trên dữ liệu không đầy đủ Để đánh giá các nhãn độc lập trong điều kiện dữ liệu thiếu, có thể sử dụng các phương pháp như hidden Markov Model và conditional random fields (CRF), tuy nhiên, chúng yêu cầu nhiều thời gian cho quá trình học máy và thực thi thực tế.

Phương pháp đánh giá độc lập hiệu quả nhất là sử dụng Support Vector Machine (SVM), một kỹ thuật học máy đơn giản nhưng mạnh mẽ, giúp tập trung vào từng nhãn một cách độc lập SVM có khả năng giảm thiểu ảnh hưởng từ các ví dụ sai trong dữ liệu huấn luyện và hỗ trợ việc chọn lựa đặc trưng để giảm kích thước dữ liệu mô hình một cách dễ dàng.

2.3.2 Những đặc trưng được sử dụng

Phương pháp tiếp cận pointwise sử dụng thông tin xung quanh vị trí đánh giá một cách độc lập Chúng tôi áp dụng ba dạng đặc trưng chính trong phương pháp này, bao gồm n-gram âm tiết, n-gram chủng loại âm tiết, và đặc trưng từ điển.

N-gram âm tiết là phương pháp sử dụng các âm tiết xung quanh vị trí cần đánh giá trong một cửa sổ có độ dài W Đối với tiếng Việt, với khoảng 70% từ gồm 2 âm tiết và 14% từ gồm 3 âm tiết, chúng tôi chọn W là 3 Thông thường, n được đặt là 1 hoặc 2, mặc dù trong thực nghiệm, n = 3 cũng đã được thử nghiệm nhưng không mang lại sự cải thiện đáng kể và làm tăng kích thước file model.

● N-gram chủng loại của âm tiết: sử dụng chủng loại của các âm tiết trong cửa sổ Trong nghiên cứu này, chúng tôi định nghĩa 4 chủng loại:

○ Âm tiết viết hoa (U): những âm tiết tiếng Việt có bắt đầu bằng chữ hoa

○ Âm tiết viết thường (L): những âm tiết tiếng Việt chỉ gồm những chữ cái thường

○ Số (N): gồm các chữ số

○ Các loại khác (O): những kí hiệu, tiếng nước ngoài, và những âm tiết không nằm trong 3 loại trên

● Đặc trưng từ điển: là những từ có trong từ điển Đặc trưng này sẽ được thuyết minh cụ thể trong ví dụ tiếp theo

Hình 2.4: Ví dụ về N-gram âm tiết và N-gram chủng loại âm tiết với W = 2

Hình 2.5: Ví dụ về đặc trưng từ điển

Trong ví dụ trên, từ "ví dụ" đã được ghi nhận trong từ điển Chúng tôi cũng đã xác định vị trí của các đặc trưng từ điển một cách rõ ràng.

● Nằm bên phải (R): vị trí đánh giá nằm ở đầu bên phải của 1 từ trong từ điển

● Nằm ở giữa (I): vị trí đánh giá nằm ở bên trong 1 từ trong từ điển

Trong ví dụ trong Fig 4, vị trí đánh giá nằm trong từ “ví dụ”, vì thế sẽ được ghi nhận đặc trưng là “I|ví dụ”

2.3.3 Đặc điểm về dữ liệu huấn luyện

Một ưu điểm lớn khác của phương pháp Pointwise, là không cần dữ liệu huấn luyện đầy đủ

Dữ liệu huấn luyện đầy đủ là tập hợp dữ liệu trong đó tất cả các câu và từ đều được tách biệt rõ ràng Ví dụ, câu “1 ví_dụ đơn_giản ” minh họa cho một dữ liệu huấn luyện đầy đủ.

Dữ liệu huấn luyện không đầy đủ không yêu cầu tất cả các từ phải được tách ra Ví dụ, trong cụm từ “1 ví_dụ đơn giản”, chỉ có từ “ví_dụ” được tách, trong khi từ “đơn giản” không được tách.

Việc thu thập dữ liệu huấn luyện đầy đủ đòi hỏi nhiều thời gian, công sức và chi phí Bên cạnh đó, độ chính xác của dữ liệu cũng là một thách thức lớn Các câu có thể được tách theo nhiều cách khác nhau tùy thuộc vào quan điểm của người thực hiện Chẳng hạn, câu “Ông già đi nhanh quá” có thể được tách thành “Ông_già đi nhanh quá” hoặc “Ông già_đi nhanh quá”, dẫn đến khó khăn và tốn thời gian cho quá trình tách từ.

Phương pháp dữ liệu không đầy đủ chỉ tách những vị trí chính xác, trong khi những vị trí khó phán đoán có thể được bỏ qua Điều này giúp cho dữ liệu không đầy đủ trở nên đơn giản và ít tốn công sức hơn, đồng thời thường mang lại độ chính xác cao hơn.

Phương pháp pointwise thực sự mềm dẻo khi vẫn có thể áp dụng tốt trên cả 2 dạng dữ liệu này.

Một số công cụ (Tools) dùng cho tách từ

Bảng 2.1: Một số công cụ dùng cho tác từ hiện có

XÂY DỰNG ỨNG DỤNG TRA CỨU TỪ ĐIỂN VIỆT-LÀO

Giới thiệu bài toán

Công nghệ thông tin đang phát triển mạnh mẽ, dẫn đến nhu cầu ngày càng cao của con người về công nghệ Các thiết bị di động ngày càng đáp ứng tốt hơn nhu cầu làm việc và giải trí, nhờ vào tính linh hoạt, tiện lợi và khả năng di động cao, khiến chúng trở nên phổ biến hơn.

Trong xã hội phát triển ngày nay, yêu cầu về trình độ học vấn và kiến thức ngày càng cao, việc biết nhiều ngôn ngữ trở thành một lợi thế lớn Sử dụng từ điển để học ngôn ngữ mới rất tiện lợi, cho phép người học tra cứu mọi lúc, mọi nơi.

Chương này giới thiệu chương trình tra cứu từ điển Việt – Lào, nhằm hỗ trợ sinh viên Lào trong việc học tiếng Việt một cách dễ dàng hơn Người dùng có thể tra cứu từ nhanh chóng, kèm theo âm thanh minh họa bằng cả tiếng Việt và tiếng Lào.

3.2 Thu thập dữ liệu để xây dựng từ điển

Hiện nay, từ điển có 808 cặp từ Việt-Lào và các cặp từ được đọc để ghi âm đưa vào chương trình

Bảng 2 thể hiện 100 cặp từ điển hình được trích ra từ bộ dữ liệu đã thu thập

Bảng 3.1 trình bày một số cặp từ Việt-Lào như "an nhàn" ສຸກສະບາຍ, "an ninh" ປ້ອງກັນຄວາມສະຫງົບ, "an tâm" ອຸຸ່ນອຽນໃຈ, "anh hai" ອ້າຍກົກ, "anh họ" ອ້າຍຮຸ່ມຕະກຸນ, "anh hùng" ຜ້ອງອາດກ້າຫານ, "ảnh" ຮບ, "ảnh màu" ຮບສີ, "ánh" ແສງ, "ánh kim" ແສງສະທ້ອນຂອງໂລຫະ, "ánh nắng" ແສງແດດ, "bách hóa" ສິນຄ້າຫຼາຍຊະນິດ, "bách khoa" ສະຫະວິຊາ, "bách nghệ" ສັບພະວິຊາຊີບ, "bách phân" ເຄື່ອງວັດແທກຄວາມຮ້ອນ, "bách thú" ສັດນາໆຊະນິດ, "bạch dương" ກົກເປອງຂາວ, "bài" ບົດ, "bài đọc" ບົດອຸ່ານ, "bài giải" ບົດແກ້, "bài giảng" ບົດບັນລະຍາຍ, "bài hát" ບົດເພງ, "cải tạo" ດັດແປງ, "cải thiện" ປັບປຸງ, "cảm ơn" ຂອບໃຈ, "chào" ສະບາຍດີ, và "dân quân" ກົດຫມາຍແພຸ່ງ.

Dân chúng khỏe mạnh và có sức khỏe dẻo dai, luôn tự hào về bản thân Họ thường tham gia vào các hoạt động cộng đồng, thể hiện sự hài lòng và sự quan tâm đến sức khỏe Kiến thức về sức khỏe và kiến trúc cũng được chú trọng, giúp nâng cao khả năng sống khỏe mạnh Nếu cần, mọi người sẽ phân tích và nghiên cứu để cải thiện đời sống Các kế hoạch phát triển bền vững được thực hiện để đảm bảo sức khỏe cho thế hệ trẻ Tác giả cũng nhấn mạnh tầm quan trọng của việc tham gia vào các hoạt động xã hội, góp phần xây dựng một cộng đồng vững mạnh và trật tự Trẻ em được giáo dục về giá trị của sức khỏe và sự chăm sóc bản thân ngay từ nhỏ.

Sau đây là danh sách một số file âm thanh lưu cách đọc các từ trong tiếng Lào

Hình 3.1: Danh sách một số file âm thanh đọc tiếng Lào

Dưới đây là danh sách một số file âm thanh lưu cách đọc các từ trong tiếng Việt

Hình 3.2: Danh sách một số file âm thanh đọc tiếng Việt.

Khảo sát một số phần mềm tra từ điển

Khảo sát một số phần mềm tra từ điển tiêu biểu nhằm tổng hợp danh sách các chức năng và cách trình bày thông tin trên giao diện chương trình.

Từ điển Việt-Lào của trang http://vietlao.classbook.vn/

Hình 3.3: Giao diện tra từ điển trong trang http://vietlao.classbook.vn/

Từ điển Việt-Lào của trang http://www.vietnamese-translation.com

Từ điển Việt-Lào của trang https://glosbe.com/

Hình 3.5: Giao diện tra từ điển trong trang https://glosbe.com

Hình 3.6: Giao diện tra từ điển trong Google Translate

Từ điển Anh Việt của trang laban.vn

Hình 3.7: Giao diện tra từ điển trong Trang Laban.vn

Từ điển Anh Việt của trang tracau.vn

Hình 3.8: Giao diện tra từ điển trong trang tracau.vn

Qua khảo sát các phần mềm trên, các bước quan trọng trong tra từ trong các phần mềm tra từ điển đơn giản gồm

- Nhập từ cần tra, chọn ngôn ngữ gốc

- Chọn ngôn ngữ cần dịch sang

Kết quả hiển thị bao gồm nghĩa của từ, ví dụ minh họa và các từ đồng nghĩa hoặc liên quan Đặc biệt, Google Translate còn cung cấp tính năng phát âm cho các từ, giúp người dùng dễ dàng nắm bắt cách đọc chính xác.

Phần thông tin bố trí trên giao diện chia thành các phần

- Nhập thông tin về từ cần tra và các lựa chọn về ngôn ngữ gốc, ngôn ngữ cần dịch sang và Nút lệnh yêu cầu dịch ở phía trên

- Kết quả dịch và các ví dụ ở phía dưới phần nhập thông tin

- Các từ tương đồng thường để ở bên trái hoặc bên phải.

Phân tích và thiết kế dữ liệu

- Cho phép tra từ điển từ tiếng Việt sang tiếng Lào

- Cho phép tra từ điển từ tiếng Lào sang tiếng Việt

- Hiện kết quả tra từ có bao gồm các từ tương đồng

- Cho phép đọc các từ tiếng Việt

- Cho phép đọc các từ tiếng Lào

Các bước thực hiện tra từ, hiện kết quả, cách bố trí thông tin giống như thông tin thu được qua việc khảo sát

3.4.2 Các yêu cầu phi chức năng

- Giao diện thân thiện, đơn giản dễ dùng

- Hỗ trợ nhập từ cần tìm một cách dễ dàng

- Chương trình phản hồi hiện kết quả tra cứu nhanh chóng

- Âm thanh đọc các từ phải rõ ràng và chính xác

- Trình bày thông tin rõ ràng, dễ đọc

- Bố trí các mục tin khoa học giống như một số phần mềm phổ biến

3.4.3 Thiết kế cơ sở dữ liệu

Cơ sở dữ liệu gồm 2 loại:

- Các file âm thanh đọc các từ tiếng Việt và đọc các từ tiếng Lào

- File văn bản có các cặp từ Việt-Lào Thiết kế bảng lưu trữ các cặp từ

STT Tên trường Kiểu dữ liệu Ý nghĩa

1 MaCaptu Number Mã số của cặp từ được đánh số từ 1

2 TiengViet Text Từ trong tiếng Việt

3 TiengLao Text Từ trong tiếng Lào

Xây dựng chương trình

Chương trình được phát triển trên nền tảng phần mềm Visual Studio, sử dụng cơ sở dữ liệu SQLlite để lưu trữ thông tin Ngoài ra, chương trình còn bao gồm hai thư mục chứa các tệp âm thanh tiếng Việt.

Dưới đây là một số giao diện chương trình thực hiện tra từ điển và một số đoạn code của các xử lý quan trọng trong chương trình

3.5.1 Hướng dẫn sử dụng chương trình Bước 1: Nhập từ khóa cần tra cứu (tiếng Việt hoặc tiếng Lào) vào phần khoanh đỏ trong hình ảnh phía dưới

Hình 3.9: Vị trí nhập từ cần tra

Bước 2: Bấm chuột vào nút “Dịch” như hình ảnh bên dưới

Hình 3.10: Vị trí ra lệnh dịch từ

Kết quả trả về như sau

Bước 3: Nghe âm thanh về từ cần đã tra

3.5.2 Các giao diện chương trình

Hình 3.13: Kết quả tra từ “ba”

Hình 3.14: Kết quả tra từ “đa”

Hình 3.15: Kết quả tra từ “dân”

Hình 3.16: Kết quả tra từ “khoanh”

Hình 3.17: Kết quả tra từ “khó”

Hình 3.18: Kết quả tra từ “hai”

Hình 3.19: Kết quả tra từ “kế”

Hình 3.20: Kết quả tra từ “khách”

Hình 3.21: Kết quả tra từ “lạc”

Hình 3.22: Kết quả tra từ “nam”

Hình 3.23: Kết quả tra từ “ngay”

Hình 3.24: Kết quả tra từ “ngày”

Hình 3.25: Kết quả tra từ “nghi”

Hình 3.26: Kết quả tra từ “phân”

3.5.3 Một số đoạn code quan trọng Đoạn code chạy file âm thanh private void picBox_Viet_Click(object sender, EventArgs e) { try {

Player.URL = ""; string x = "audio_vn/" + stt_audio + ".mp3";

MessageBox.Show("ERROR !!! : " + nn.Message);

} } private void picBox_LAO_Click(object sender, EventArgs e) { try {

Player.URL = ""; string x = "audio_lao/" + stt_audio + ".mp3";

MessageBox.Show("ERROR !!! : "+nn.Message);

} } Đoạn code tìm từ trong cơ sở dữ liệu public void readwrite_File() { try

{ using (StreamReader sr = new StreamReader("tudienvietlao.txt")) { string line; int i = 1; while ((line = sr.ReadLine()) != null) {

// x trong xau con line ko ? bool check = line.Contains(txt_tiengviet.Text.ToString().Trim()); if(check==true) { string[] arrListStr = line.Split('|'); if (i == 1) { stt_audio = arrListStr[0].Trim(); }

TXT_LAO.Text += i.ToString() + ": " + arrListStr[2] + Environment.NewLine; i++;

MessageBox.Show("Không có kết quả , chưa có dữ liệu về từ

MessageBox.Show("Thông báo","Error !!!"+e.Message);

} } Đoạn code thực hiện tra từ private void picBox_Viet_Click(object sender, EventArgs e) { try { Player.URL = ""; string x = "audio_vn/" + stt_audio + ".mp3";

MessageBox.Show("ERROR !!! : " + nn.Message);

Ngày đăng: 09/01/2024, 01:16

w