Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
772,15 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Minh Đức
MỞ RỘNGBỘDỮLIỆUHUẤNLUYỆNCHOQUÁ
TRÌNH XỬLÝNHẬPNHẰNGNGHĨACỦATỪ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Vũ Minh Đức
MỞ RỘNGBỘDỮLIỆUHUẤNLUYỆNCHOQUÁ
TRÌNH XỬLÝNHẬPNHẰNGNGHĨACỦATỪ
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hƣớng dẫn: Tiến sĩ Nguyễn Phƣơng Thái
HÀ NỘI - 2010
Mở rộngbộdữliệuchoquátrìnhxửlýnhậpnhằngnghĩacủatừ
i
LỜI CẢM ƠN
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến các thầy cô giáo trƣờng Đại
học Công Nghệ, Đại học Quốc Gia Hà Nội nói chung và các thầy cô trong bộ môn Khoa
học Máy Tính nói riêng. Trong suốt bốn năm học tập trong trƣờng, các thầy cô không
những tận tình truyền đạt kiến thức mà còn luôn động viên giúp đỡ tôi trong học tập cũng
nhƣ trong cuộc sống.
Đặc biệt, tôi muốn gửi lời cảm ơn sâu sắc đến thầy giáo, tiến sĩ Nguyễn Phƣơng
Thái, ngƣời đã tận tình chỉ bảo, hƣớng dẫn tôi trong suốt quátrình nghiên cứu và hoàn
thiện khóa luận tốt nghiệp.
Tôi cũng xin cảm ơn các bạn sinh viên K51, đã luôn cùng tôi nghiên cứu và học tập,
đã cho tôi những ý kiến đóng góp giá trị trong suốt thời gian học tập cũng nhƣ trong quá
trình nghiên cứu đề tài khóa luận tốt nghiệp.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình và bạn bè, những ngƣời luôn
động viên giúp đỡ tôi vƣợt qua những khó khăn trong cuộc sống.
Hà Nội, ngày 21 tháng 5 năm 2010
Sinh viên
Vũ Minh Đức
Mở rộngbộdữliệuchoquátrìnhxửlýnhậpnhằngnghĩacủatừ
ii
TÓM TẮT KHÓA LUẬN
Trong các chủ đề thuộc lĩnh vực xửlý ngôn ngữ tự nhiên, xửlýnhậpnhằngnghĩa
của từ là một chủ đề dành đƣợc nhiều sự quan tâm chú ý của những nhà nghiên cứu, phát
triển, ứng dụng khoa học máy tính. Lý do là mặc dù nếu đứng một mình, xửlýnhập
nhằng nghĩacủatừ ít đem lại lợi ích cụ thể trong đời sống hàng ngày, nhƣng nó lại có một
vai trò quan trọng trong nhiều ứng dụng xửlý ngôn ngữ tự nhiên hữu ích khác nhƣ dịch
máy, tìm kiếm thông tin, khai phá dữ liệu, … Do vậy đã có rất nhiều cách tiếp cận để giải
quyết vấn đề xửlýnhậpnhằngnghĩacủatừ đƣợc đƣa ra nhƣ sử dụng bộ cở sở tri thức, áp
dụng các luật để xửlýnhập nhằng, hoặc sử dụng các thuật toán học máy có giám sát để
phân lớp nghĩacủatừ … Trong tất cả các cách tiếp cận trên, lớp phƣơng pháp dựa vào
các thuật toán học máy có giám sát tỏ ra là có đƣợc một kết quảxửlýnhậpnhằng tốt
nhất. Tuy vậy lớp phƣơng pháp này có một nhƣợc điểm đó là yêu cầu một bộdữliệuhuấn
luyện (thƣờng là lớn) các trƣờng hợp xuất hiện củatừ đã đƣợc gán nhãn nghĩa sẵn. Nếu
phải chuẩn bị bộdữliệuhuấnluyện này một cách thủ công thì ta phải tốn rất nhiều công
sức, thời gian và chi phí do vậy tìm kiếm một giải pháp cho phép tự động hóa giai đoạn
này là một nhu cầu thực tế. Nắm bắt đƣợc nhu cầu trên, đề tài khóa luận của tôi đƣợc thực
hiện nhằm mục đích tìm hiểu phƣơng pháp xây dựng một hệ thống xửlýnhậpnhằng
nghĩa của từ, đóng vai trò nhƣ một công cụ cho phép mởrộngbộdữliệu nhỏ đã gán
nghĩa cho các trƣờng hợp xuất hiện củatừ đang cần mởrộngdữliệuhuấnluyện thành
một bộdữliệuhuấnluyệnđủ lớn nhƣng chỉ đòi hỏi rất ít công sức của con ngƣời, hỗ trợ
cho quátrìnhxửlýnhậpnhằngnghĩacủa những từ mang nội dung trong ngôn ngữ tự
nhiên.
Mở rộngbộdữliệuchoquátrìnhxửlýnhậpnhằngnghĩacủatừ
iii
MỤC LỤC
LỜI CẢM ƠN i
TÓM TẮT KHÓA LUẬN ii
MỤC LỤC iii
DANH MỤC HÌNH VẼ vi
DANH MỤC BẢNG BIỂU vii
Chƣơng 1: Mở đầu 1
1.1. Đặt vấn đề 1
1.2. Mục tiêu đề tài 2
1.3. Đối tƣợng và phƣơng pháp nghiên cứu 3
1.4. Cấu trúc khóa luận 5
Chƣơng 2: Các đặc tính củatừ liên quan đến mởrộngbộdữliệuxửlýnhậpnhằngnghĩa
của từ 7
2.1. Một nghĩa trong một nhóm từ đồng xuất hiện 7
2.2. Một nghĩa trong một văn bản 8
Chƣơng 3: Các thuật toán trong phƣơng pháp mởrộngbộdữliệuxửlýnhậpnhằng 10
3.1. Thuật toán học máy có giám sát Naive Bayes 10
3.1.1. Giới thiệu về Naïve Bayes 10
3.1.2. Ƣớc lƣợng xác suất 11
3.2. Thuật toán mởrộngbộdữliệuxửlýnhậpnhằngnghĩacủatừ 13
3.2.1. Giới thiệu 13
3.2.2. Các bƣớc của thuật toán 14
3.3. Lựa chọn từcho nhóm từ đồng xuất hiện trên quan điểm lý thuyết 18
3.3.1. Khoảng cách lân cận củatừ đang cần xửlýnhậpnhằngnghĩa 19
3.3.2. Xửlýtừ trong nhóm từ đồng xuất hiện 19
Mở rộngbộdữliệuchoquátrìnhxửlýnhậpnhằngnghĩacủatừ
iv
3.3.3. Chuyển đổi từ trong nhóm từ đồng xuất hiện thành thuộc tính củabộ phân lớp
20
Chƣơng 4: Cấu trúc và định dạng củadữliệu 22
4.1. Dữliệu đầu vào 22
4.1.1. Dữliệu chuẩn đã gán nghĩa 22
4.1.2. Dữliệu chƣa gán nghĩa – BNC 23
4.2. Dữliệu sử dụng trong quátrình chạy chƣơng trình 25
4.3. Định dạng file kết quả thực nghiệm 25
Chƣơng 5: Công cụ khảo sát, kiểm tra phƣơng pháp mởrộngbộdữliệuxửlýnhậpnhằng
nghĩa. 27
5.1. Bộ công cụ NLTK 27
5.2. Công cụ khảo sát, kiểm tra phƣơng pháp mởrộngbộdữliệuxửlýnhậpnhằng
nghĩa của từ. 27
5.2.1. Các công cụ chuẩn bị dữliệu 28
5.2.2. Hàm công cụ test 29
5.2.3. Các hàm phân lớp và mởrộngbộdữliệu 30
5.2.4. Các hàm công cụ khác 31
Chƣơng 6: Kết quả thực nghiệm 32
6.1. Dữliệu thực nghiệm 32
6.2. Thí nghiệm 1 34
6.2.1. Bố trí thí nghiệm 34
6.2.2. Kết quả thực nghiệm 35
6.2.3. Nhận xét 36
6.3. Thí nghiệm 2 37
6.3.1. Bố trí thí nghiệm 37
6.3.2. Kết quả thực nghiệm 38
6.3.3. Nhận xét 38
Chƣơng 7: Kết luận 40
7.1. Các kết quả đạt đƣợc và hạn chế 40
Mở rộngbộdữliệuchoquátrìnhxửlýnhậpnhằngnghĩacủatừ
v
7.2. Các công việc trong tƣơng lai 41
Tài liệu tham khảo 42
Mở rộngbộdữliệuchoquátrìnhxửlýnhậpnhằngnghĩacủatừ
vi
DANH MỤC HÌNH VẼ
Hình 1: Sơ đồ các dữliệu và công cụ sử dụng trong nghiên cứu, khảo sát phƣơng pháp
mở rộngdữliệuhuấnluyệnchoquátrìnhxửlýnhậpnhằngnghĩacủatừ 4
Hình 2: Sơ đồ các bƣớc của phƣơng pháp mởrộngbộdữliệuhuấnluyệnchoquátrìnhxử
lý nhậpnhằngnghĩacủatừ 15
Mở rộngbộdữliệuchoquátrìnhxửlýnhậpnhằngnghĩacủatừ
vii
DANH MỤC BẢNG BIỂU
Bảng 1: Các nghĩa và số lƣợng từ tƣơng ứng củatừ “line” trong dữliệu chuẩn 32
Bảng 2: Các nghĩa và số lƣợng từ tƣơng ứng củatừ “hard” trong dữliệu chuẩn 33
Bảng 3: Các nghĩa và số lƣợng từ tƣơng ứng củatừ “interest” trong dữliệu chuẩn 33
Bảng 4: Các nghĩa và số lƣợng từ tƣơng ứng củatừ “serve” trong dữliệu chuẩn 33
Bảng 5: Số lƣợng các từ “line”, “hard”, “serve”, “interest” trong BNC 34
Bảng 6: Kết quả thí nghiệm 1 củatừ “line” 35
Bảng 7: Kết quả thí nghiệm 1 củatừ “hard” 35
Bảng 8: Kết quả thí nghiệm 1 củatừ “serve” 36
Bảng 9: Kết quả thí nghiệm 1 củatừ “interest” 36
Bảng 10: Kết quả thí nghiệm 2 củatừ “line” 38
Bảng 11: Kết quả thí nghiệm 2 củatừ “serve” 38
Chƣơng 1: Mở đầu
1
Chƣơng 1: Mở đầu
1.1. Đặt vấn đề
Xử lýnhậpnhằngnghĩacủatừ là một trong những vấn đề đƣợc rất nhiều nhà nghiên
cứu trong lĩnh vực xửlý ngôn ngữ tự nhiên quan tâm đến. Vấn đề này đƣợc nêu lên nhƣ
một bài toán riêng biệt lần đầu tiên là vào những năm cuối thập kỷ 40 của thế kỷ 20 và
đƣợc coi nhƣ là một trong những vấn đề lâu đời nhất của lĩnh vực xửlý ngôn ngữ tự
nhiên [1]. Nhận đƣợc nhiều sự quan tâm và từ sớm nhƣ vậy là do xửlýnhậpnhằngnghĩa
của từ đóng vai trò quan trọng trong rất nhiều các bài toán khác củaxửlý ngôn ngữ tự
nhiên. Ta có thể lấy ví dụ nhƣ trong dịch máy, hệ xửlýnhậpnhằngnghĩacủatừ làm
nhiệm vụ chọn đúng từ trong ngôn ngữ đích cho những từ trong ngôn ngữ gốc có các cách
dịch sang ngôn ngữ đích là khác nhau với các nghĩa khác nhau [1]. Ngoài ra ta có thể thấy
sự xuất hiện của hệ xửlýnhậpnhằngnghĩacủatừ trong các hệ thống tìm kiếm thông tin,
khai phá dữliệu và rất nhiều các ứng dụng hữu ích khác.
Đƣợc quan tâm nhƣ vậy nên ta có thể thấy rất nhiều các phƣơng pháp xửlýnhập
nhằng nghĩacủatừ đã đƣợc các nhà nghiên cứu đề xuất. Phƣơng pháp đầu tiên cần nói tới
là phƣơng pháp sử dụng bộ cở sở tri thức để xửlýnhậpnhằngnghĩacủa từ. Nó không
dùng đến các yếu tố trong văn bản mà hoàn toàn căn cứ vào bộ cơ sở tri thức có sẵn [1].
Điểm yếu của phƣơng pháp này là bộ cơ sở tri thức thƣờng sẽ rất lớn, hơn nữa với sự
phức tạp của ngôn ngữ tự nhiên thì việc dùng các luật để xửlýnhậpnhằng cũng chỉ đạt
đƣợc độ chính xác có giới hạn.
Phƣơng pháp dùng các thuật toán không giám sát cũng đang là một hƣớng đi rất
đƣợc chú ý để giải quyết bài toán xửlýnhậpnhằngnghĩacủa từ. Nó sẽ phân cụm các
trƣờng hợp xuất hiện củatừ trong văn bản và từ đó đƣa ra nghĩacủatừ [9]. Phƣơng pháp
này có thể là một phƣơng pháp có nhiều cải tiến và hy vọng phát triển trong tƣơng lai tuy
nhiên trong hiện tại nó vẫn chƣa phải phƣơng pháp có độ chính xác cao nhất.
Phƣơng pháp có độ chính xác phân lớp nghĩacủatừ cao nhất trong thời điểm hiện
tại vẫn là phƣơng pháp sử dụng các thuật toán học máy có giám sát [9]. Phƣơng pháp này
dựa vào giả thiết rằng văn cảnh xung quanh cho ta đủ cơ sở để có thể kết luận chính xác
[...]... nhằngnghĩacủatừ Chƣơng 2: Các đặc tính củatừ liên quan đến mởrộngbộdữliệuxửlýnhậpnhằngnghĩacủatừ Chƣơng này chỉ ra những đặc tính củatừ liên quan đến nghĩacủa nó, giúp ích choquátrìnhmởrộngbộdữliệuxửlýnhậpnhằngnghĩacủatừ một cách tự động Chƣơng 3: Các thuật toán trong phƣơng pháp mở rộngbộdữliệu xử lýnhậpnhằngnghĩacủatừ Chƣơng này nêu lên các thuật toán học máy... dạng dữliệu chuẩn dùng để huấnluyện và kiểm thử bộxửlýnhậpnhằngnghĩacủatừ và bộdữliệu không gán nhãn dùng choquátrìnhmởrộngtự động bộdữliệuhuấnluyện chuẩn ban đầu Chƣơng 5: Công cụ khảo sát, kiểm tra phƣơng pháp mở rộngbộdữliệu xử lýnhậpnhằngnghĩa Chƣơng này giới thiệu sơ lƣợc về công cụ đƣợc sử dụng để nghiên cứu, kiểm tra phƣơng pháp mở rộngbộdữliệu xử lýnhậpnhằng nghĩa. .. xác để huấnluyện các hàm phân lớp xửlýnhậpnhằngnghĩacủatừ Để đạt đƣợc các yêu cầu đó, phƣơng pháp này chỉ có thể đƣợc xây dựng dựa vào sức mạnh tự động của máy tính, tức là, sử dụng máy tính để mởrộngtự động bộdữliệuhuấnluyệnchoquátrìnhxửlýnhậpnhằngnghĩacủatừ Nói đến bài toán xửlýnhậpnhằngnghĩacủatừ thì ta có xửlýnhậpnhằngnghĩacho những từ mang nội dung (của câu, của. .. nghĩacủatừ đó đã đƣợc gán trƣớc Thứ hai, ta cần có một bộdữliệu chƣa đƣợc gán nghĩacủatừBộdữliệu này càng lớn thì khả năng mởrộngbộdữliệuhuấnluyện ban đầu càng cao Dữliệu đầu ra của thuật toán là một bộdữliệu lớn, mởrộngtừbộdữliệu nhỏ ban đầu Đi vào chi tiết, thuật toán có các bƣớc nhƣ sau 14 Chƣơng 3: Các thuật toán trong phƣơng pháp mởrộngbộdữliệuxửlýnhậpnhằngHuấn luyện. .. với các nghĩacủatừ đang 8 Chƣơng 2: Các đặc tính củatừ liên quan đến mởrộngbộdữliệuxửlýnhậpnhằngnghĩacủatừ cần gán nghĩa Hơn nữa, đặc tính này còn cho phép sửa lỗi có trong các dữliệu ban đầu hoặc phát sinh trong quátrìnhtự động bị gán nghĩa sai Chi tiết cách thức ứng dụng đặc tính này trong phƣơng pháp mởrộngbộdữliệuchoquátrìnhxửlýnhậpnhằngnghĩacủatừ sẽ đƣợc trình bày... củatừ trong bộdữliệuhuấnluyện ban đầu Chƣơng 7: Kết luận Chƣơng này nêu lên và đánh giá những kết quả đã đạt đƣợc, đồng thời đƣa ra những công việc cần làm trong tƣơng lai để cải tiến mởrộng thêm phƣơng pháp tự động mở rộngbộdữliệu huấn luyệnxửlýnhậpnhằngnghĩacủatừ 6 Chƣơng 2: Các đặc tính củatừ liên quan đến mởrộngbộdữliệuxửlýnhậpnhằngnghĩacủatừ Chƣơng 2: Các đặc tính của. .. phương pháp mởrộngdữliệuhuấnluyệnchoquátrìnhxửlýnhậpnhằngnghĩacủatừ 4 Chƣơng 1: Mở đầu 1.4 Cấu trúc khóa luận Khóa luận đƣợc tổ chức thành các chƣơng nhƣ sau: Chƣơng 1: Mở đầu Chƣơng này nhằm nêu bật sự cần thiết, ý nghĩa thực tiễn, đối tƣợng, phƣơng pháp nghiên cứu, mục tiêu của đề tài phƣơng pháp tự động mở rộngbộdữliệu huấn luyệnchoquátrìnhxửlýnhậpnhằngnghĩacủatừ Chƣơng... trong quátrình gán nghĩachotừ trong bộdữliệuTừ yêu cầu thực tế đó, mục tiêu của đề tài khóa luận là trình bày một thuật toán bán giám sát xửlýnhậpnhằngnghĩacủatừ đóng vai trò nhƣ một hệ thống mởrộngbộdữliệuxửlýnhậpnhằngnghĩacủatừ một cách tự động, do đó con ngƣời chỉ cần chuẩn bị một lƣợng dữliệu nhỏ đƣợc gán nghĩacho các trƣờng hợp xuất hiện củatừ đang cần gán 2 Chƣơng 1: Mở. .. nhóm từ đồng xuất hiện củatừ đang cần gán nghĩa, đóng vai trò làm nhân cho thuật toán mởrộngbộdữliệuxửlýnhậpnhằng để phần nào cải tiện đƣợc hiệu suất chung của toàn bộ hệ thống, đồng thời tăng thêm độ chính xác chobộdữliệuhuấnluyện đƣợc mởrộng ở đầu ra 3.2.2 Các bƣớc của thuật toán Dữliệu đầu vào của thuật toán là một bộdữliệuhuấnluyện nhỏ có các câu chứa từ đang cần gán nghĩa và nghĩa. .. văn bản Chuẩn bị dữliệu (liệt kê, định dạng) (3.2.2.1) Dữliệu chƣa gán nghĩacủatừ đang xét Loại bỏ những trƣờng hợp có xác suất quá thấp (3.2.2.4 Bƣớc 2) Chƣa thỏa mãn điều kiện dừng, tiếp tục huấnluyện Điều kiện dừng (3.2.2.5) Dữliệu gán nghĩamởrộngcủatừ đang xét Hình 2: Sơ đồ các bước của phương pháp mởrộngbộdữliệuhuấnluyệnchoquátrìnhxửlýnhậpnhằngnghĩacủatừ 15 Chƣơng 3: Các . pháp
mở rộng dữ liệu huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ 4
Hình 2: Sơ đồ các bƣớc của phƣơng pháp mở rộng bộ dữ liệu huấn luyện cho quá. bộ dữ liệu
huấn luyện cho quá trình xử lý nhập nhằng nghĩa của từ.
Chƣơng 2: Các đặc tính của từ liên quan đến mở rộng bộ dữ liệu xử lý nhập
nhằng nghĩa