Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
911,09 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NHỮ VĂN KIÊN
NGHIÊN CỨUPHƯƠNGPHÁP TỰ ĐỘNGPHÁTHIỆNLỖITRONG
KHO DỮLIỆUTIẾNGVIỆTĐƯỢCCHÚGIẢITỪLOẠI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
Người hướng dẫn khoa học: TS NGUYỄN PHƯƠNG THÁI
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2013
1
MỞ ĐẦU
Gán nhãn từloại (Part-of-speech tagging –POS tagging) và
tự độngpháthiệnlỗichúgiải (nhãn) từloại (Detecting Errors in Part-
of-Speech Annotation) là hai bài toán quan trọngtrong xử lý ngôn
ngữ tự nhiên. Tuy nhiên các nghiêncứu tại Việt Nam về hai vấn đề
này vẫn còn ở giai đoạn đầu, trong đó phươngpháptựđộngpháthiện
lỗi chúgiảitừloạitrongkho ngữ liệutiếngViệt còn chưa có nhiều
tài liệu tham khảo và các công trình nghiên cứu. Do đó, nhu cầu cả về
cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng. Thực tế cho
thấy, hai quá trình này liên quan mật thiết với nhau và ảnh hưởng đến
chất lượng một hệ chung. Vì thế, trong luận văn này chúng tôi
“Nghiên cứu phƣơng pháptựđộngpháthiệnlỗitrongkho ngữ
liệu tiếngViệt đƣợc chúgiảitừ loại”. Đóng góp của luận luận văn
là việc tìm hiểu, nghiêncứu và đề xuất mô hình thực hiện gán nhãn
từ loại và phươngpháptựđộngpháthiệnlỗichúgiảitừloạitrong
kho ngữ liệutiếng Việt; sử dụng công cụ vnTagger thực hiện gán
nhãn từ loại; bên cạnh đó chúng tôi tiến hành xây dựng một công cụ
tự độngpháthiệnlỗichúgiảitừloạitiếngViệt trên kho ngữ liệu
VietTreeBank có 10.165 câu với khoảng hơn 230.000 từ. Luận văn
tiến hành thực nghiệm trên kho ngữ liệu VietTreeBank áp dụng mô
hình entropy cực đại và thuật toán variaion n-gram đã cho kết quả
thực nghiệm khả quan, có độ chính xác cao. Các kết quả này sẽ hữu
ích cho các nghiêncứu ở mức cao hơn như dịch máy, tựđộng sửa lỗi
chú giải, tóm tắt văn bản,…
2
Cấu trúc của luận văn được trình bày như sau:
Chƣơng 1: Tổng quan về từ loại: Trong chương này, luận
văn giới thiệu hai vấn đề cơ bản về xử lý ngôn ngữ tự nhiên là tách từ
và gán nhãn từloạitiếngViệt – các hướng tiếp cận cho bài toán gán
nhãn và tìm hiểu về kho ngữ liệu treebank tiếngViệt gồm có tập
nhãn từloại và hướng dẫn gán nhãn trong khi phát triển
VietTreeBank.
Chƣơng 2: Phƣơng pháp gán nhãn từloại và pháthiệnlỗi
tự độngtrongkho ngữ liệutiếngViệt đƣợc chúgiảitừ loại:
Chương này nghiêncứu và đề xuất mô hình gán nhãn từloại và
phương pháppháthiệnlỗitựđộngchúgiảitừloạitrongkho ngữ liệu
VietTreeBank. Các công việc mà luận văn đã tiến hành nhằm đề xuất
sử dụng mô hình gán nhãn từloại Maximum Entropy Model (MEM)
và phươngpháp entropy cực đại kết hợp với thuật toán variation N-
gram cho bài toán tựđộngpháthiệnlỗichúgiảitừloạitrongkho ngữ
liệu tiếng Việt.
Chƣơng 3. Thực nghiệm và đánh giá kết quả: Chương này
trình bày các công việc thực nghiệm mà khóa luận đã tiến hành, bao
gồm việc sử dụng công cụ gán nhãn từloại vnTagger và xây dựng
công cụ tựđộngpháthiệnlỗichúgiảitừ loại. Từ kết quả đạt được
tiến hành đối chiếu, đánh giá và đưa ra các vị trí lỗichúgiảitừloại
trong kho ngữ liệu VietTreeBank.
Chƣơng 4. Kết luận và hƣớng phát triển: Tóm lược các kết quả đã
đạt được và đóng góp của khóa luận, đồng thời định hướng một số
hướng nghiêncứu tiếp theo trong thời gian sắp tới.
3
Chƣơng 1. TỔNG QUAN VỀ TỪLOẠI
1.1. Vấn đề tách từ và gán nhãn từloạitiếngViệt
1.1.1. Khái quát về bài toán tách từ
Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký
tự được dựa trên hệ chữ cái Latin. Cũng giống như với các thứ tiếng
khác như tiếng Trung, tiếng Nhật, tiếng Hàn thì từtrongtiếngViệt
không được xác định bởi khoảng trắng (dấu cách). Một từtiếngViệt
có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phân tách
nhau bởi các khoảng trắng. Từ là đơn vị cơ bản để phân tích cấu trúc
của ngôn ngữ, do vậy để tiến tới những ứng dụng xa hơn về xử lý
ngôn ngữ tiếngViệt như gán nhãn chức năng cú pháp, phân tích cú
pháp thì việc đầu tiên ta phải giải quyết bài toán tách từ.
Các nhà nghiêncứu đã đề xuất một số hướng tiếp cận để giải
bài toán tách từ [6, 16]. Nhìn chung, các hướng tiếp cận đó được chia
thành hai loại: tiếp cận dựa trên từ điển và tiếp cận dựa trên thống kê.
Hai phươngpháp tiêu biểu của hướng tiếp cận dựa vào từ điển là
Longest Matching và Maximal Matching. Hầu hết những nghiêncứu
khởi thủy về tách từ đều dựa trên cách tiếp cận này như trong [14].
Hướng tiếp cận này có đặc điểm là đơn giản, dễ hiểu tuy nhiên hiệu
quả mang lại không cao. Lý do là bởi nó không xử lý được rất nhiều
trường hợp nhập nhằng cũng như không có khả năng pháthiệntừ
mới trong văn bản. Chính vì vậy mà các hệ thống tách từ có chất
lượng cao hiện nay thường sử dụng hướng tiếp cận dựa trên thống kê.
Trong các nghiêncứu đó, tác giả đã phân tách hai quá trình nhận
dạng từ mới và tách từ đã biết như hai tiến trình độc lập nhau. Nghiên
cứu các phươngpháppháthiệntừ mới ta thấy thông tin N-gram đóng
vai trò hữu ích giúp ta pháthiệntừ mới khi mà corpus thống kê đủ
lớn và xác định được độ đo phù hợp. Câu hỏi đặt ra là làm cách nào
để tận dụng đượctừ tất cả các nguồn tri thức đó.
4
1.1.2 Khái quát về bài toán gán nhãn từloại
1.1.2.1. Giới thiệu bài toán gán nhãn từloại
Công việc gán nhãn từloại cho một văn bản là xác định từ
loại của mỗi từtrong phạm vi văn bản đó, tức là phân loại các từ
thành các lớp từloại dựa trên thực tiễn hoạt động ngôn ngữ. Việc gán
nhãn từloại thường được thể hiện bằng cách gán cho mỗi từ một
“nhãn” có sẵn theo tập nhãn cho trước:
+ Input: Một chuỗi các từ (ví dụ đối với tiếng Việt: “Tôi vẽ
một bức tranh”)
+ Output: Một nhãn tốt nhất cho từng từtrong câu (Ví dụ:
Tôi/P vẽ/V một/M bức_tranh/N
1
)
1.1.2.2. Quá trình gán nhãn từ loại:
Gán nhãn từloại là một quá trình gồm 3 bước xử lý như sau:
- Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các
từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và
quan niệm về đơn vị từ vựng.
- Khởi tạo gán nhãn: Tức là tìm cho mỗi từ tập tất cả các
nhãn từloại mà nó có thể có. Tập nhãn này có thể thu đượctừ cơ sở
dữ liệutừ điển hoặc kho ngữ liệu đã gán nhãn bằng tay.
- Quyết định kết quả gán nhãn: Đó là giai đoạn loại bỏ nhập
nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ
cảnh trong tập nhãn khởi tạo nói trên.
Như vậy, trong gán nhãn từloại thì bước tiền xử lý quan
trọng cho các phần tiếp theo trong quá trình xử lý ngôn ngữ tự nhiên
như phân tích cú pháp, phân tích ngữ nghĩa.
1.1.2.3. Ngữ liệu (Corpus)
Để thực hiện gán nhãn từloại ta phải có kho ngữ liệu,
chúng có thể là:
- Từ điển và các văn phạm loại bỏ nhập nhằng.
1
Tập nhãn từloạiđược dùng trong treebank tiếngViệt
5
- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ
pháp xây dựng bằng tay.
- Kho văn bản chưa gán nhãn, có kèm theo các thông tin
ngôn ngữ như là tập từloại và các thông tin mô tả quan hệ giữa từ
loại và hậu tố. Kho văn bản chưa gán nhãn, với tập từloại cũng được
xây dựng tựđộng nhờ các tính toán thống kê. Trong trường hợp này
khó có thể dự đoán trước về tập từ loại.
1.1.2.4. Các hướng tiếp cận giải bài toán
Khi thực hiện bài toán gán nhãn từ loại, ta gặp phải một số
khó khăn. Khó khăn này chủ yếu là do các từ thường có nhiều hơn
một từ loại. Hiện nay, có hai hướng tiếp cận chính cho gán nhãn từ
loại tựđộng là tiếp cận có giám sát và không giám sát:
- Tiếp cận có giám sát: nghĩa là phải xây dựng một kho ngữ
liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại.
Gán nhãn dựa trên luật sử dụng từ điển để tìm các từloại có thể cho
các từ, sử dụng các luật làm thành một nghĩa và thường liên quan tới
một cơ sở dữliệu lớn các luật đượcviết bằng tay.
- Tiếp cận không giám sát: Các mô hình không giám sát
không yêu cầu kho ngữ liệu đã gán nhãn nhưng lại sử dụng các thuật
toán tính toán phức tạp để tựđộng xây dựng các nhóm từ (nghĩa là
xây dựng các tập nhãn) và dựa trên các nhóm từ này để tính toán các
thông tin xác suất cần thiết cho các bộ gán nhãn thống kê hoặc để xây
dựng các luật ngữ cảnh cần thiết cho các hệ thống dựa trên luật.
1.1.2.5. Bài toán gán nhãn từloạitiếngViệt
+ Ngôn ngữ tiếngViệt (Vietnamese language):
Tiếng Việt là ngôn ngữ có trật tự khá cố định với thứ tự của
từ là S-V-O (chủ ngữ, độngtừ và tân ngữ). TiếngViệt dựa vào thứ tự
các thành phần câu để truyền đạt thông tin ngữ pháp quan trọng. Mặc
dù, văn bản tiếngViệtđượcviết bằng một chữ cái của bảng chữ cái
Latin, có ba đặc tính chủ yếu của tiếngViệt mà phân biệt nó với các
ngôn ngữ phương Tây là:
6
- Thứ nhất, tiếngViệt là một ngôn ngữ cố định trong đó hình
thức của từ không bao giờ thay đổi. Vì thế tất cả các thông tin văn
phạm được chuyển tải thông qua thứ tựtừ và cấu tạo từ. Đặc điểm cố
định làm cho một hiện tượng đặc biệt của ngôn ngữ phổ biến trong
tiếng Việt: là hình thức của từđược sử dụng một khả năng mà không
nằm trong đặc trưng của nó (một độngtừđược sử dụng như một danh
từ, một danh từ như một tính từ ) mà không cần bất kỳ thay đổi
hình thái.
- Thứ hai, tiếngViệt là một ngôn ngữ đơn lập, trường hợp
đặc biệt của phân tích ngôn ngữ, là mỗi hình vị là một duy nhất, âm
tiết đơn lập. Đơn vị từ vựng có thể được tạo thành bằng một hoặc
một số âm tiết, luôn có vị trí tách biệt trong văn bản. Mặc dù bộ từ
điển chứa một phần lớn các từ ghép, một âm tiết chiếm một phần lớn
của những từ xuất hiện.
- Sự khác biệt thứ ba, một hệ quả của sau này, là không có
dấu phân cách từtrongtiếng Việt: khoảng trốngđược sử dụng để
tách biệt giữa các âm tiết và không có dấu hiệu cụ thể phân biệt
khoảng trống giữa các từ thực tế. Ví dụ, một chuỗi đơn giản của ba
âm tiết a b c có thể tạo thành ba từ (a) (b) (c), hai từ (ab) (c), hai từ
(a) (bc) hoặc thậm chí một từ duy nhất (abc).
+ Tập nhãn từloạitiếngViệt (Vietnamese tagset):
Theo [9] đã giới thiệu một tập nhãn hiện đang được sử dụng
trong một dự án phát triển một treebank cho ngôn ngữ này. Tập nhãn
đầy đủđược thiết kế để sử dụng trong treebank tiếngViệt gồm có 18
nhãn (xem Bảng 1.2)
Hiện nay, ở Việt Nam đã có một số tập nhãn từloạiđược xây
dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến: Bộ nhãn VnPOStag
của tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định và
các nhãn ký hiệu đặc biệt khác. Bộ VietTreeBank gồm 18 nhãn. Bộ
nhãn của nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ
VnQtag gồm 48 nhãn và 01 nhãn không xác định.
7
1.1.3. Một số khái niệm sử dụng trong luận văn
1.1.3.1. Ngữ liệu (Corpus)
Ngữ liệu thường là tập hợp các câu dưới dạng tiếng nói hay
văn bản, trong đó có chứa các thông tin cần thiết cho từng bài toán cụ
thể trong xử lý ngôn ngữ tự nhiên.
1.1.3.2. Ngữ liệu vàng (Golden Corpus)
Ngữ liệu vàng cũng là một dạng ngữ liệutrong đó có chứa
thông tin về từloại và nhãn của từloại hoàn toàn chính xác.
1.1.3.3. Ngữ liệu huấn luyện (Training corpus)
Ngữ liệu huấn luyện là ngữ liệuđược tạo ra từ ngữ liệu vàng
để chuẩn bị cho quá trình học máy.
1.1.3.4. Hình vị (Morpheme)
Hình vị được xem là đơn vị tế bào gốc, đơn vị tế bào của
ngôn ngữ, và còn được gọi là “từ tố”. Hình vị tiếngViệt có khi gồm
có một tiếng, nhưng cũng có khi gồm nhiều tiếng tạo thành.
1.1.3.5. Âm tiết hay tiếng
Tiếng (âm tiết): là do một hay nhiều âm phát ra cùng một lúc
tạo thành. Tiếng là đơn vị cơ bản trongtiếngViệt và có âm đầu, vần
và thanh.
1.1.3.6. Từ (Word)
Từ gồm có một tiếng hoặc một tổ hợp tiếng có ý nghĩa hoàn
chỉnh. Căn cứ vào cách cấu tạo, ta có từ đơn và từ phức; trong đó từ
phức có từ ghép và từ láy (hay láy âm).
1.2. Tìm hiểu về treebank tiếngViệt
1.2.1. Giới thiệu
Tiếng Việt là ngôn ngữ đơn lập và không có ký tự tách từ
cho nên việc phân tích câu có nhiều nhập nhằng. Để giải quyết nhập
nhằng đó nhóm tác giả xây dựng treebank tiếngViệt đã vận dụng
nhiều thủ thuật ngôn ngữ học. Quá trình gán nhãn cú phápđược hỗ
trợ bằng công cụ gán nhãn tựđộng và công cụ soạn thảo. Nguồn ngữ
liệu thô được lấy từ báo tuổi trẻ điện tử. Độ đồng thuận mà nhóm tác
giả đạt được là khá cao, khoảng hơn 90%. Treebank thường được
dùng để xây dựng các hệ phân tích cú pháp, gán nhãn từ loại, tách từ.
8
Trong luận văn này, chúng tôi chỉ trình bày về tập nhãn từ
loại và hướng dẫn gán nhãn từ loại. Còn phần tập nhãn cú pháp và
hướng dẫn gán nhãn cú pháp, công cụ hỗ trợ người làm ngữ liệu và
qui trình gán nhãn cú pháp xem trong [18].
1.2.2. Tập nhãn từloại
Dựa vào nghĩa khái quát. Nhóm tác giả đã xây dựng tập
nhãn từloại chỉ chứa thông tin về từloại cơ sở mà không bao gồm
các thông tin như hình thái, phân loại con, v.v. Tập nhãn từloại của
chúng tôi được liệt kê trong Bảng 1.3, gồm có 18 nhãn từ loại.
1.2.3. Hướng dẫn gán nhãn
1.2.3.1. Xây dựng tài liệu hướng dẫn gán nhãn
Đây là một tài liệu rất quan trọng bao gồm không chỉ các
thông tin về tập nhãn, mà còn hướng dẫn gán nhãn cho các hiện
tượng cụ thể với các ví dụ minh họa.
1.2.3.2. Công cụ hỗ trợ
Công cụ hỗ trợ người gán nhãn làm việc hiệu quả hơn. Có
hai nội dung chính là hỗ trợ soạn thảo cây cú pháp và gán nhãn từ
loại tự động.
1.2.3.3. Quá trình gán nhãn từloại
Quá trình gán nhãn một câu gồm ba bước: tách từ, gán nhãn
từ loại, và phân tích cú pháp. Qui trình thực hiện gán nhãn là tương
tự nhau, tuy nhiên mỗi bước yêu cầu những kiến thức và có những
đặc trưng riêng. Mỗi người gán nhãn có một người review và sửa lỗi.
Những trường hợp không chắc chắn thì ghi lại để thảo luận với nhóm
thiết kế (xem hình 1.3).
Theo [10], các công cụ gán nhãn hiện đang được sử dụng
phát triển Treebank có số điểm F1 là 90,5%, độ chính xác không cao.
Do đó, trong luận văn này chúng tôi sẽ trình bày một công cụ gán
nhãn từloại của Lê Hồng Phương dựa trên nguyên lý phân lớp dữ
liệu của entropy cực đại, nó quan sát kể cả các nguồn tri thức mới
hữu ích cho việc gán nhãn từloạitiếngViệt và đạt được kết quả là:
độ chính xác tổng thể 93.40% và độ chính xác với những từ chưa biết
80.69% được thử nghiệm trên treebank tiếngViệt [9].
9
Chƣơng 2. PHƢƠNG PHÁP GÁN NHÃN TỪLOẠI VÀ PHÁT
HIỆN LỖITỰĐỘNGTRONGKHO NGỮ LIỆUTIẾNGVIỆT
ĐƢỢC CHÚGIẢITỪLOẠI
2.1. Giới thiệu mô hình N-gram
2.1.1. Khái quát
Một N-gram là một bộ các yếu tố (từ, tiếng, nhãn từ loại,)
liên tiếp trong ngữ liệu. Số yếu tố trong một N-gram được gọi là bậc
của N-gram, thông thường N-gram có bậc từ 1 tới 4. N-gram bậc 1
được gọi là unigram, bậc 2 được gọi là bigram, bậc 3 được gọi là
trigram, bậc 4 được gọi là quadrigram,… N-gram được dùng để ước
lượng xác suất xuất hiện của một yếu tố dựa vào các yếu tố xung
quanh nó trong câu. Do đó, N-gram có thể áp dụng cho các hệ thống
tách từ, gán nhãn từ loại, pháthiệnlỗichúgiảitừ loại,…
2.1.2.Variation n-gram
Theo [3], với mỗi từ xuất hiệntrong một ngữ liệu thì có một
tập nhãn được xác định có khả năng được gán cho từ này. Một từ
xuất hiện nhiều hơn một lần trong một kho ngữ liệu như vậy có thể
được gán với nhiều nhãn khác nhau trong một kho ngữ liệu. Chúng
được gọi là Variation (biến thể).
Biến thể trong một ngữ liệuđượcchúgiải gây ra bởi một trong
hai lý do:
+ Nhập nhằng: Một từ có thể được gán bằng nhiều nhãn từloại
và ở những vị trí xuất hiện khác nhau. Trongkho ngữ liệu, từ đó ta có
nhiều lựa chọn nhãn từloại để gán.
+ Lỗi: Việc gán nhãn một từ không nhất quán trong những lần
xuất hiện tương tự.
Tác giả sử dụng thuật ngữ variation n-gram đối với một N-
gram bao gồm n từtrongkho ngữ liệu có chứa từđược gán nhãn từ
loại khác nhau trong các lần xuất hiện khác của cùng N-gram đó
trong kho ngữ liệu. Từ thể hiện sự biến đổi đó được gọi là variation
nuclei (hạt nhân biến đổi).
[...]... từ, … 2.3 Mô hình entropy cực đại cho bài toán pháthiệnlỗitựđộngtrongkho ngữ liệutiếngViệt đƣợc chúgiảitừloạiTrong luận văn này, chúng tôi sẽ xây dựng công cụ tựđộngpháthiệnlỗi dựa trên mô hình MEM và thuật toán Variation n-gram Mà lỗichúgiảitừloạitrongkho ngữ liệu gây ra bởi một trong hai lý do là: nhập nhằng của từloại và lỗi gán nhãn Do đó, công việc sửa chữa lỗichúgiải từ. .. là một lỗi càng cao 2.3.3 Cách pháthiệnlỗi dựa trên kết quả phân lớp Trong luận văn này, chúng tôi xây dựng công cụ tựđộngpháthiệnlỗichúgiảitừloạitrongkho ngữ liệu VTB, gồm các bước sau: Bước 1: Tiền xử lý kho ngữ liệu treebank tiếng Việt; Bước 2: Sử dụng công cụ gán nhãn tựđộng vnTagger để tách từ và gán nhãn từloại cho kho ngữ liệu VietTreeBank Với tập dữliệu đầu vào là kho ngữ liệu. .. từloại + Chức năng pháthiệnlỗichúgiảitừ loại: thực hiện thống kê số lượng các variation nucleis, vị trí của chúng trongkho ngữ liệu VietTreeBank đượcchúgiảitừloại bằng tay và đánh dấu các vị trí của variation nucleis có khả năng lỗi Hình 3.3 Giao diện chƣơng trình pháthiệnlỗichúgiảitừloại Kết quả chương trình thu được: 16-grams với số variation nucleis, vị trí của chúng đượcphát hiện. .. chương trình Chương trình tựđộngpháthiện lỗi: với mục đích kiểm nghiệm phương pháp entropy cực đại kết hợp với thuật toán variation n-gram để tựđộngpháthiệnlỗichúgiảitừloạitrongkho ngữ liệu VietTreeBank có 10.165 câu được tách từ và gán nhãn từloại bằng tay Tập dữliệu này sẽ được sử dụng làm đầu vào cho việc kiểm thử tựđộngpháthiệnlỗichúgiảitừloại Hình 3.1 Giao diện chƣơng trình chính... tách từ và gán nhãn từloạitựđộng cho văn bản tiếngViệt Tập nhãn được dùng trong chương trình ở Bảng 1.2 gồm 18 nhãn từloại (xem tại mục 2.2.3) Kho ngữ liệuđượcchúgiảitừloại bởi vnTagger dùng so sánh và đánh giá để đưa ra các vị trí của variation nucleis có khả năng lỗi nhãn từloạitrong treebank tiếngViệtđược gán nhãn bằng tay, với: Input: Kho ngữ liệu treebank tiếngViệt đã loại bỏ nhãn từ. .. nhãn từloạiđược gán bằng tay trước đó Output: Kho ngữ liệu VTB được gán nhãn từloại bởi công cụ vnTagger 3.1.2.2 Công cụ tựđộngpháthiệnlỗichúgiảitừloại Công cụ được xây dựng dựa trên thuật toán variation n-gram Công cụ này đượcviết bằng ngôn ngữ lập trình C# dùng để thống kê số lượng các variation nucleis và vị trí của từđượcchúgiảitừloạitrongkho ngữ liệutiếng Việt, với: Input: Kho. .. sánh nhãn từloạiđược gán bởi vnTagger ở các vị trí của variation nucleis đượcpháthiệntrongkho ngữ liệu VietTreeBank với nhãn từloại của từ đó trongkho ngữ liệu vàng (cùng vị trí xuất hiện) Nếu hai nhãn trùng nhau thì công cụ pháthiệnlỗi đã pháthiện sai ngược lại thì công cụ pháthiệnlỗi đã pháthiện đúng đồng thời công cụ đánh giá lỗi đưa ra đề xuất nhãn từloại thay thế cho nhãn lỗi Kết... nhãn từloại và pháthiệnlỗichúgiảitừ loại) Chương trình dựa trên kho ngữ liệu VietTreeBank đã được gán nhãn từloại bằng tay để đưa ra các lỗichúgiảitừloại và vị trí của các lỗi đó trongkho ngữ liệutiếngViệt Điều đó, giúp các hệ thống tìm kiếm thông tin, hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy,…có độ chính xác và hiệu quả hơn Kết quả chạy chương trình pháthiện lỗi. .. cụ đã được tích hợp sẵn tập dữliệu huấn luyện dùng để gán nhãn cho từloạitiếngViệt 15 2.3.2 Thuộc tính phân lớp Để tựđộngpháthiệnđược các lỗichúgiảitrongkho ngữ liệutiếngViệt bằng cách phân lớp ngữ cảnh dựa trên nền tảng cơ bản là việc gán nhãn cho một từ phụ thuộc vào ngữ cảnh của từ đó Thông tin ngữ cảnh được chúng tôi sử dụng đó là nhãn của từ phía trước và phía sau của từhiện tại... đại kết hợp với thuật toán variation n-grams để giải quyết bài toán tựđộngpháthiệnlỗichúgiảitừloạiđược trình bày chi tiết tại chương 2 - Về mặt thực nghiệm: Dựa trên cơ sở lý thuyết của mô hình entropy cực đại và mô hình n-gram để xây dựng chương trình tựđộngpháthiệnlỗichúgiảitừloạitrongkho ngữ liệu treebank tiếngViệt Chương trình đượcviết bằng ngôn ngữ lập trình C# với giao diện .
NHỮ VĂN KIÊN
NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG
KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI
Chuyên ngành: Khoa học máy tính
Mã. hiểu, nghiên cứu và đề xuất mô hình thực hiện gán nhãn
từ loại và phương pháp tự động phát hiện lỗi chú giải từ loại trong
kho ngữ liệu tiếng Việt; sử