Tỏch thuật ngữ cú thểđược hiểu là quỏ trỡnh phõn tỏch chuỗi ký tự trong văn bản thụ ban đầu thành cỏc từ cú nghĩa. Do mỗi ngụn ngữđều cú đặc điểm riờng nờn việc ỏp dụng cỏc giải thuật tỏch thuật ngữ cho cỏc ngụn ngữ cũng khỏc nhau. Đối với cỏc ngụn ngữ như Anh, Phỏp và nhiều ngụn ngữ khỏc đều cú đặc điểm: từ là một nhúm cỏc ký tự cú nghĩa, phõn cỏch nhau bởi dấu cỏch trắng hoặc dấu cõu, một từ cú thể đơn õm hoặc đa õm tiết. Việc tỏch từ trong những ngụn ngữ này chủ yếu dựa vào cỏc khoảng ký tự trắng, trong đú cú xột tới việc loại bỏ tiền tố, hậu tố trong cỏc từ loại để đưa cỏc biến thể về từ gốc. Nhưng khi thực hiện phõn tỏch từ trong văn bản tiếng Việt thỡ việc dựng ký tự trắng để xỏc định từ sẽ khụng cú ý nghĩa.
Điều này đũi hỏi cần nắm bắt được cỏc đặc điểm của ngụn ngữ tiếng Việt, từđú đưa ra những phương phỏp hợp lý trong việc phõn tỏch từ.
Do đặc điểm của tiếng Việt khụng thể sử dụng cỏc ký tự trắng để phõn tỏch cỏc thuật ngữ nờn cú một cỏch phổ biến là sử dụng một từ điển thuật ngữ để phỏt hiện từ. Sau đõy là một số phương phỏp tỏch thuật ngữ ỏp dụng đối với văn bản tiếng Việt[9].
a. Tỏch thuật ngữ theo độ dài từ dài nhất
Đõy là phương phỏp tỏch thuật ngữ đơn giản và dễ cài đặt, và hiệu quả thu
được tương đối tốt. Phương phỏp này sử dụng một từ điển từ vựng để làm cơ sở
phõn tỏch thuật ngữ. Phương phỏp này được mụ tả như sau:
Gọi s là xõu cần phõn tỏch, xõu s bao gồm n õm tiết được sắp xếp thứ tự từ
trỏi qua phải như sau: t1, t2, t3, …, tn. Giải thuật tỏch theo độ dài từ dài nhất gồm cỏc bước như sau:
1. Tỡm kiếm xõu s trong từ điển, nếu tỡm thấy thỡ ghi nhận s là một từ và chuyển sang bước 5.
2. s’ := s.
3. Lặp đến khi s’ khụng cũn õm tiết nào. a. Loại bỏ õm tiết cuối cựng của s’ b. Tỡm kiếm s’ trong từ điển
c. Nếu s’ cú trong từ điển, ghi nhận s’ là một thuật ngữ, loại bỏ xõu s’ ra khỏi s. Quay lại bước 1. 4. Loại bỏ õm tiết đầu tiờn trong xõu s. Nếu xõu s cú ớt
nhất 1 õm tiết thỡ quay lại bước 2.
5. Kết thỳc.
Phương phỏp tỏch thuật ngữ theo độ dài nhất cú ưu điểm là dễ cài đặt, tuy nhiờn nhược điểm của nú là khụng giải quyết triệt để được những trường hợp nhập nhằng.
b. Tỏch thuật ngữ theo phương phỏp đồ thị
Phương phỏp tỏch thuật ngữ bằng đồ thị quy việc phõn tỏch cõu về việc tỡm
đường đi trờn một đồ thị cú hướng, khụng cú trọng số.
Giả sử õm ban đầu gồm n+1 õm tiết s0, s1, …, sn. Ta xõy dựng một đồ thị cú
n+2đỉnh v0, v1, …, vn+1, sắp theo thứ tự trờn một đường thẳng từ trỏi qua phải; trong
đú, từđỉnh viđến đỉnh vj cú cung (i < j) nếu cỏc õm tiết si, si+1, …, sj-1 theo thứ tự lập thành một từ trong từđiển. Khi đú mỗi cỏch phõn tỏch cõu khỏc nhau tương ứng với một đường đi trờn đồ thị từđỉnh đầu v0đến đỉnh cuối vn+1. Trong thực tế, cỏch phõn tớch cõu đỳng đắn nhất tương ứng với đường đi qua ớt cung nhất trờn đồ thị.
Trong trường hợp cõu cú sự nhập nhằng thỡ ta liệt kờ tồn bộ cỏc đường đi ngắn nhất trờn đồ thị, từ đú đưa ra tất cả cỏc phương ỏn tỏch cõu cú thể và người dựng sẽ quyết định chọn phương ỏn nào. Vớ dụ, với cụm “thuộc địa hỡnh”, ta cú đồ
Hỡnh 4.3: Vớ dụ tỡnh huống nhập nhằng trong đồ thị phõn tỏch cõu.
Cụm này cú sự nhập nhằng giữa thuật ngữ “thuộc địa - địa hỡnh” và ta sẽ cú hai kết quả phõn tỏch là “thuộc địa/hỡnh” và “thuộc/địa hỡnh”.
Giải thuật xõy dựng đồ thị phõn tỏch cõu được mụ tả như sau:
1.Khởi tạo đồ thị gồm n+1 đỉnh; 2.Tỏch cõu thành cỏc õm tiết và lưu trong mảng S; 3.For i = 1 to n – 1 do 4.Begin 5. For j = i+1 to n do 6. If (cỏc õm tiết si, si+1, …, sj lập thành một từ vựng) then 7. <Nối liền hai đỉnh i và j>; 8. End. c. Một số phương phỏp tỏch từ khỏc
Ngồi cỏc phương phỏp tỏch từ trờn, cũn cú rất nhiều phương phỏp tỏch từ
khỏc cho kết quả rất chớnh xỏc. Tuy nhiờn chi phớ cài đặt thuật toỏn đối với cỏc phương phỏp này thường phức tạp trong tớnh toỏn và thời gian lõu hơn. Sau đõy là một số phương phỏp:
• Phương phỏp sử dụng mụ hỡnh mạng nơron: phương phỏp này cú ỏp dụng việc phõn tớch cỳ phỏp cõu để nhận biết cỏc từ loại (danh từ, động từ, tớnh từ, …) và cỏc nguyờn tắc về thứ tự từ, sau đú xõy dựng mạng nơron đểđoỏn nhận cỏc từ khoỏ (cú sử dụng từđiển thuật ngữ).
• Phương phỏp sử dụng mụ hỡnh cõy phõn cấp: phương phỏp này lại sử
dụng một cõy phõn cấp nhị phõn để tỏch dần cõu thành cỏc cụm từ, dần dần tỏch thành cỏc từ khoỏ hợp lý theo trọng số thống kờ của từ. Quỏ trỡnh này dựa vào việc phõn tớch thành phần cõu, và cũng sử dụng từ điển thuật ngữ làm cơ sở.
• Phương phỏp sử dụng mụ hỡnh Markov ẩn: là mụ hỡnh n-gram được huấn luyện khụng giỏm sỏt bằng thuật toỏn Baum-Welch và sử dụng từ điển tiếng Việt để thực hiện tỏch từ trờn tập văn bản tiếng Việt chưa được phõn đoạn. Bài toỏn phõn đoạn từ tiếng Việt ở đõy được qui về bài toỏn tỡm dĩy trạng thỏi hợp lý nhất khi cho một dĩy quan sỏt thụng qua việc tớnh giỏ trị cực đại của hàm xỏc suất, dựa trờn việc xõy dựng đồ thị
chuyển trạng thỏi và tỡm đường đi cực đại.
Một số thực nghiệm cho thấy rằng cỏc phương phỏp này đạt được độ chớnh xỏc rất cao đối với việc phõn tỏch từ khoỏ tiếng Việt, đặc biệt là đối với cỏc văn bản chuyờn ngành.