1. Trang chủ
  2. » Giáo Dục - Đào Tạo

MỞ RỘNG bộ dữ LIỆU HUẤN LUYỆN CHO QUÁ TRÌNH xử lý NHẬP NHẰNG NGHĨA của từ

51 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Minh Đức MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Minh Đức MỞ RỘNG BỘ DỮ LIỆU HUẤN LUYỆN CHO QUÁ TRÌNH XỬ LÝ NHẬP NHẰNG NGHĨA CỦA TỪ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin Cán hƣớng dẫn: Tiến sĩ Nguyễn Phƣơng Thái HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ LỜI CẢM ƠN Lời đầu tiên, tơi xin bày tỏ lịng biết ơn chân thành đến thầy cô giáo trƣờng Đại học Cơng Nghệ, Đại học Quốc Gia Hà Nội nói chung thầy cô môn Khoa học Máy Tính nói riêng Trong suốt bốn năm học tập trƣờng, thầy khơng tận tình truyền đạt kiến thức mà cịn ln động viên giúp đỡ học tập nhƣ sống Đặc biệt, muốn gửi lời cảm ơn sâu sắc đến thầy giáo, tiến sĩ Nguyễn Phƣơng Thái, ngƣời tận tình bảo, hƣớng dẫn tơi suốt q trình nghiên cứu hồn thiện khóa luận tốt nghiệp Tơi xin cảm ơn bạn sinh viên K51, nghiên cứu học tập, cho tơi ý kiến đóng góp giá trị suốt thời gian học tập nhƣ trình nghiên cứu đề tài khóa luận tốt nghiệp Cuối cùng, tơi xin gửi lời cảm ơn sâu sắc đến gia đình bạn bè, ngƣời động viên giúp đỡ tơi vƣợt qua khó khăn sống Hà Nội, ngày 21 tháng năm 2010 Sinh viên Vũ Minh Đức i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ TÓM TẮT KHÓA LUẬN Trong chủ đề thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, xử lý nhập nhằng nghĩa từ chủ đề dành đƣợc nhiều quan tâm ý nhà nghiên cứu, phát triển, ứng dụng khoa học máy tính Lý đứng mình, xử lý nhập nhằng nghĩa từ đem lại lợi ích cụ thể đời sống hàng ngày, nhƣng lại có vai trị quan trọng nhiều ứng dụng xử lý ngôn ngữ tự nhiên hữu ích khác nhƣ dịch máy, tìm kiếm thông tin, khai phá liệu, … Do có nhiều cách tiếp cận để giải vấn đề xử lý nhập nhằng nghĩa từ đƣợc đƣa nhƣ sử dụng cở sở tri thức, áp dụng luật để xử lý nhập nhằng, sử dụng thuật tốn học máy có giám sát để phân lớp nghĩa từ … Trong tất cách tiếp cận trên, lớp phƣơng pháp dựa vào thuật tốn học máy có giám sát tỏ có đƣợc kết xử lý nhập nhằng tốt Tuy lớp phƣơng pháp có nhƣợc điểm yêu cầu liệu huấn luyện (thƣờng lớn) trƣờng hợp xuất từ đƣợc gán nhãn nghĩa sẵn Nếu phải chuẩn bị liệu huấn luyện cách thủ cơng ta phải tốn nhiều cơng sức, thời gian chi phí tìm kiếm giải pháp cho phép tự động hóa giai đoạn nhu cầu thực tế Nắm bắt đƣợc nhu cầu trên, đề tài khóa luận tơi đƣợc thực nhằm mục đích tìm hiểu phƣơng pháp xây dựng hệ thống xử lý nhập nhằng nghĩa từ, đóng vai trị nhƣ cơng cụ cho phép mở rộng liệu nhỏ gán nghĩa cho trƣờng hợp xuất từ cần mở rộng liệu huấn luyện thành liệu huấn luyện đủ lớn nhƣng địi hỏi cơng sức ngƣời, hỗ trợ cho trình xử lý nhập nhằng nghĩa từ mang nội dung ngôn ngữ tự nhiên ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ MỤC LỤC LỜI CẢM ƠN i TÓM TẮT KHÓA LUẬN ii MỤC LỤC iii DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG BIỂU vii Chƣơng 1: Mở đầu 1.1 Đặt vấn đề 1.2 Mục tiêu đề tài 1.3 Đối tƣợng phƣơng pháp nghiên cứu 1.4 Cấu trúc khóa luận Chƣơng 2: Các đặc tính từ liên quan đến mở rộng liệu xử lý nhập nhằng nghĩa từ 2.1 Một nghĩa nhóm từ đồng xuất 2.2 Một nghĩa văn Chƣơng 3: Các thuật toán phƣơng pháp mở rộng liệu xử lý nhập nhằng 10 3.1 Thuật toán học máy có giám sát Naive Bayes 10 3.1.1 Giới thiệu Naïve Bayes 10 3.1.2 Ƣớc lƣợng xác suất 11 3.2 Thuật toán mở rộng liệu xử lý nhập nhằng nghĩa từ 13 3.2.1 Giới thiệu 13 3.2.2 Các bƣớc thuật toán 14 3.3 Lựa chọn từ cho nhóm từ đồng xuất quan điểm lý thuyết 18 3.3.1 Khoảng cách lân cận từ cần xử lý nhập nhằng nghĩa 19 3.3.2 Xử lý từ nhóm từ đồng xuất 19 iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ 3.3.3 Chuyển đổi từ nhóm từ đồng xuất thành thuộc tính phân lớp 20 Chƣơng 4: Cấu trúc định dạng liệu 22 4.1 Dữ liệu đầu vào 22 4.1.1 Dữ liệu chuẩn gán nghĩa 22 4.1.2 Dữ liệu chƣa gán nghĩa – BNC 23 4.2 Dữ liệu sử dụng trình chạy chƣơng trình 25 4.3 Định dạng file kết thực nghiệm 25 Chƣơng 5: Công cụ khảo sát, kiểm tra phƣơng pháp mở rộng liệu xử lý nhập nhằng nghĩa 27 5.1 Bộ công cụ NLTK 27 5.2 Công cụ khảo sát, kiểm tra phƣơng pháp mở rộng liệu xử lý nhập nhằng nghĩa từ 27 5.2.1 Các công cụ chuẩn bị liệu 28 5.2.2 Hàm công cụ test 29 5.2.3 Các hàm phân lớp mở rộng liệu 30 5.2.4 Các hàm công cụ khác 31 Chƣơng 6: Kết thực nghiệm 32 6.1 Dữ liệu thực nghiệm 32 6.2 Thí nghiệm 34 6.2.1 Bố trí thí nghiệm 34 6.2.2 Kết thực nghiệm 35 6.2.3 Nhận xét 36 6.3 Thí nghiệm 37 6.3.1 Bố trí thí nghiệm 37 6.3.2 Kết thực nghiệm 38 6.3.3 Nhận xét 38 Chƣơng 7: Kết luận 40 7.1 Các kết đạt đƣợc hạn chế 40 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ 7.2 Các công việc tƣơng lai 41 Tài liệu tham khảo 42 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ DANH MỤC HÌNH VẼ Hình 1: Sơ đồ liệu công cụ sử dụng nghiên cứu, khảo sát phƣơng pháp mở rộng liệu huấn luyện cho trình xử lý nhập nhằng nghĩa từ Hình 2: Sơ đồ bƣớc phƣơng pháp mở rộng liệu huấn luyện cho trình xử lý nhập nhằng nghĩa từ 15 vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ DANH MỤC BẢNG BIỂU Bảng 1: Các nghĩa số lƣợng từ tƣơng ứng từ “line” liệu chuẩn 32 Bảng 2: Các nghĩa số lƣợng từ tƣơng ứng từ “hard” liệu chuẩn 33 Bảng 3: Các nghĩa số lƣợng từ tƣơng ứng từ “interest” liệu chuẩn 33 Bảng 4: Các nghĩa số lƣợng từ tƣơng ứng từ “serve” liệu chuẩn 33 Bảng 5: Số lƣợng từ “line”, “hard”, “serve”, “interest” BNC 34 Bảng 6: Kết thí nghiệm từ “line” 35 Bảng 7: Kết thí nghiệm từ “hard” 35 Bảng 8: Kết thí nghiệm từ “serve” 36 Bảng 9: Kết thí nghiệm từ “interest” 36 Bảng 10: Kết thí nghiệm từ “line” 38 Bảng 11: Kết thí nghiệm từ “serve” 38 vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 1: Mở đầu Chƣơng 1: Mở đầu 1.1 Đặt vấn đề Xử lý nhập nhằng nghĩa từ vấn đề đƣợc nhiều nhà nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên quan tâm đến Vấn đề đƣợc nêu lên nhƣ toán riêng biệt lần vào năm cuối thập kỷ 40 kỷ 20 đƣợc coi nhƣ vấn đề lâu đời lĩnh vực xử lý ngôn ngữ tự nhiên [1] Nhận đƣợc nhiều quan tâm từ sớm nhƣ xử lý nhập nhằng nghĩa từ đóng vai trị quan trọng nhiều tốn khác xử lý ngơn ngữ tự nhiên Ta lấy ví dụ nhƣ dịch máy, hệ xử lý nhập nhằng nghĩa từ làm nhiệm vụ chọn từ ngơn ngữ đích cho từ ngơn ngữ gốc có cách dịch sang ngơn ngữ đích khác với nghĩa khác [1] Ngồi ta thấy xuất hệ xử lý nhập nhằng nghĩa từ hệ thống tìm kiếm thơng tin, khai phá liệu nhiều ứng dụng hữu ích khác Đƣợc quan tâm nhƣ nên ta thấy nhiều phƣơng pháp xử lý nhập nhằng nghĩa từ đƣợc nhà nghiên cứu đề xuất Phƣơng pháp cần nói tới phƣơng pháp sử dụng cở sở tri thức để xử lý nhập nhằng nghĩa từ Nó khơng dùng đến yếu tố văn mà hoàn toàn vào sở tri thức có sẵn [1] Điểm yếu phƣơng pháp sở tri thức thƣờng lớn, với phức tạp ngơn ngữ tự nhiên việc dùng luật để xử lý nhập nhằng đạt đƣợc độ xác có giới hạn Phƣơng pháp dùng thuật tốn khơng giám sát hƣớng đƣợc ý để giải toán xử lý nhập nhằng nghĩa từ Nó phân cụm trƣờng hợp xuất từ văn từ đƣa nghĩa từ [9] Phƣơng pháp phƣơng pháp có nhiều cải tiến hy vọng phát triển tƣơng lai nhiên chƣa phải phƣơng pháp có độ xác cao Phƣơng pháp có độ xác phân lớp nghĩa từ cao thời điểm phƣơng pháp sử dụng thuật tốn học máy có giám sát [9] Phƣơng pháp dựa vào giả thiết văn cảnh xung quanh cho ta đủ sở để kết luận xác LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 5: Công cụ khảo sát, kiểm tra phƣơng pháp mở rộng liệu xử lý nhập nhằng nghĩa  Tính linh hoạt sử dụng: Bộ cơng cụ có tính linh hoạt cao việc sử dụng tức cho phép dùng kết hợp mô đun theo cách tự Điều cho phép thiết kế nhiều thử nghiệm khác Sau phần cơng cụ có liên quan tới việc bố trí thử nghiệm kiểm tra kết độ xác, phần khác khơng liên quan trực tiếp đƣợc trình bày sơ lƣợc: 5.2.1 Các công cụ chuẩn bị liệu  Hàm splitTrainTestSet(labeledDataFile, trainPerTotalRate, testPerTotalRate): hàm nhằm chia file liệu chuẩn ban đầu thành hai file liệu huấn luyện kiểm tra Sau chia file huấn luyện kiểm tra nằm thƣ mục với file liệu chuẩn, đó, file huấn luyện file kiểm tra có tên tên file liệu chuẩn phần mở rộng lần lƣợt “.train” “.test” Các tham số hàm là: o labeledDataFile đƣờng dẫn tới file liệu chuẩn o trainPerTotalRate testPerTotalRate tỉ lệ trƣờng hợp đƣợc đƣa vào file huấn luyện kiểm tra so với tổng số trƣờng hợp có file liệu chuẩn  Hàm createFormatedData(trainDataPath, testDataPath, test2DataPath, corporaPath, newDataPath, nameOfCorpora, labeledWord, needLemmatizing): hàm nhằm tạo liệu cho thử nghiệm Trong đó, liệu huấn luyện ban đầu, liệu kiểm tra liệu từ văn đƣợc chuyển đổi sang dạng định dạng quy định phần 4.2 Theo đó, việc chuyển đổi từ thuộc nhóm từ đồng xuất sang dạng nguyên thể hay không đƣợc thống liệu ban đầu liệu Các tham số hàm có ý nghĩa nhƣ sau: o trainDataPath: đƣờng dẫn đến file huấn luyện (kết từ hàm splitTrainTestSet) o testDataPath, test2DataPath: đƣờng dẫn đến file kiểm tra (kết từ hàm splitTrainTestSet genRandomTestFile) o corporaPath: đƣờng dẫn đến liệu văn chƣa gán nghĩa từ (ở BNC) 28 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 5: Công cụ khảo sát, kiểm tra phƣơng pháp mở rộng liệu xử lý nhập nhằng nghĩa o newDataPath: đƣờng dẫn cho thƣ mục (chƣa tạo) chứa toàn liệu đƣợc chuyển đổi o nameOfCorpora: tên tập liệu văn chƣa gán nghĩa o labeledWord: từ cần đƣợc gán nghĩa để mở rộng xử lý nhập nhằng o needLemmatizing: nhận giá trị True False Nếu True từ thuộc nhóm từ đồng xuất từ đƣợc chuyển đổi dạng nguyên thể, ngƣợc lại với False từ đƣợc giữ ngun  Hàm genRandomTestFile(standardLabeledFile, outputFilePath, trainFile, testPerTotalRate): hàm cho phép sinh lại file test Trong đó: o standardLabeledFile đƣờng dẫn đến file liệu chuẩn o outputFilePath đƣờng dẫn đến file đƣợc tạo (thƣờng vào thẳng thƣ mục chứa liệu kiểm tra) o trainFile đƣờng dẫn đến file huấn luyện đƣợc tạo o testPerTotalRate tỉ lệ số lƣợng trƣờng hợp tập kiểm tra toàn tập liệu chuẩn 5.2.2 Hàm công cụ test Hàm testWithFormatedData(formatedDataPath, labeledWord, approxUnchangeFeature, rateWithMaxInFile, rateWithMaxInCorpora) Hàm đóng vai trị quan trọng khảo sát, kiểm tra, đánh giá Nó cho phép ta tùy chỉnh mức giới hạn thay đổi số lƣợng trƣờng hợp từ file đầu Tức tùy chỉnh độ hội tụ hàm mở rộng liệu huấn luyện tham số approx Unchange -Feature Với tham số rateWithMaxInFile, hàm cho phép ta chỉnh ngƣỡng mà thấp ngƣỡng trƣờng hợp file bị gán nghĩa nghĩa trƣờng hợp file có xác suất lớn Đây tỉ lệ, nghĩa xác suất lớn maxFileProb ngƣỡng (maxFileProb * rateWithMaxInFile) Tham số rateWithMaxInCorpora lại cho ta chỉnh ngƣỡng theo xác suất lớn toàn bộ liệu Những trƣờng hợp có xác suất nhỏ ngƣỡng (maxCorporaProb * rateWithMaxInCorpora) không đƣợc đƣa vào tập liệu để huấn luyện tiếp vòng lặp Nếu vòng lặp kết thúc trƣờng hợp có xác suất nhỏ ngƣỡng khơng có mặt file liệu đầu 29 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 5: Công cụ khảo sát, kiểm tra phƣơng pháp mở rộng liệu xử lý nhập nhằng nghĩa formatedDataPath đƣờng dẫn đến thƣ mục có chứa liệu đƣợc định dạng theo định dạng đƣợc định nghĩa mục 4.2 Thƣ mục thƣ mục newDataPath, đƣợc tạo từ hàm createFormatedData trình bày mục 5.2.1 labeledWord từ đƣợc gán nghĩa, từ đƣợc xử lý nhập nhằng Sau hàm chạy xong ghi kết thử nghiệm file word_1_1.result, word_1_2.result, word_2.result vào thƣ mục formatedDataPath, word từ đƣợc xử lý nhập nhằng (labeledWord) o Word_1_1.result chứa kết thực nghiệm huấn luyện hàm phân lớp huấn luyện đƣợc trích từ liệu chuẩn ban đầu kiểm thử file kiểm tra thứ o Word_1_2.result chứa kết thực nghiệm huấn luyện hàm phân lớp huấn luyện đƣợc trích từ liệu chuẩn ban đầu kiểm thử file kiểm tra thứ hai o Word_2.result chứa kết thực nghiệm huấn luyện hàm phân lớp liệu đƣợc mở rộng thuật toán nêu kiểm thử hai file kiểm tra Chi tiết định dạng file kết đƣợc định nghĩa phần 4.3, cách thực thí nghiệm cụ thể đƣợc trình bày chƣơng 5.2.3 Các hàm phân lớp mở rộng liệu Các hàm phân lớp mở rộng liệu đóng vai trị trung tâm tồn bộ cơng cụ Chúng định đến độ xác liệu đầu có nghĩa định tới thành công hay thất bại phƣơng pháp mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ Trong đó, hàm classifyFormatedCorporaWithNaiveBayes hàm phân lớp NaiveBayes Nó chịu trách nhiệm việc gán đƣợc nghĩa xác vịng lặp thuật tốn giả thiết nghĩa nhóm từ Hàm extendOneLabeledDataSetWithFormatedCorpora hàm minh họa cho tồn thuật tốn phƣơng pháp mở rộng liệu huấn luyện đề xuất, áp dụng đặc tính nghĩa văn để mở rộng xác hóa liệu đầu Nó đóng vai trị yếu việc tạo đƣợc liệu đầu xác 30 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 5: Công cụ khảo sát, kiểm tra phƣơng pháp mở rộng liệu xử lý nhập nhằng nghĩa Thuật toán hai hàm đƣợc nêu chi tiết chƣơng 5.2.4 Các hàm cơng cụ khác Có nhiều hàm công cụ khác công cụ xây dựng nhƣ hàm đọc liệu định dạng chƣa định dạng, hàm chịu trách nhiệm ghi file trƣờng hợp xuất từ, hàm chuyển đổi file định dạng khơng định dạng Tuy vai trị chúng phụ trợ không liên quan nhiều đến thực nghiệm ta 31 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 6: Kết thực nghiệm Chƣơng 6: Kết thực nghiệm Trong chƣơng trƣớc tơi trình bày cụ thể phƣơng pháp mở rộng liệu huấn luyện cho trình xử lý nhập nhằng nhƣ cách chọn lựa chuyển đổi từ xuất với từ cần gán nghĩa thành thuộc tính để phân lớp nghĩa cho trƣờng hợp xuất từ Tuy vậy, lý thuyết, ta cần chứng minh lý thuyết thực nghiệm cụ thể 6.1 Dữ liệu thực nghiệm Tôi tiến hành thực nghiệm file liệu chuẩn từ: “line”, “hard”, “interest”, “serve” Trong file liệu này, trƣờng hợp xuất từ đƣợc xác định nghĩa cụ thể Định dạng file đƣợc định nghĩa phần 4.1.1 Thống kê cụ thể số lƣợng trƣờng hợp từ xuất file, nghĩa số lƣợng trƣờng hợp nghĩa, ta có bảng số liệu sau Nghĩa Số lƣợng Cord 373 Division 374 Product 2217 Text 404 Phone 429 Formation 349 Tổng: 4146 Bảng 1: Các nghĩa số lƣợng từ tƣơng ứng từ “line” liệu chuẩn 32 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 6: Kết thực nghiệm Nghĩa HARD1 HARD2 HARD3 Số lƣợng 3455 502 376 Tổng: 4333 Bảng 2: Các nghĩa số lƣợng từ tƣơng ứng từ “hard” liệu chuẩn Nghĩa Interest_1 Interest_2 Interest_3 Interest_4 Interest_5 Interest_6 Số lƣợng 361 11 66 178 500 1252 Tổng: 2368 Bảng 3: Các nghĩa số lƣợng từ tƣơng ứng từ “interest” liệu chuẩn Nghĩa SERVE2 SERVE6 SERVE10 SERVE12 Số lƣợng 853 439 1814 1272 Tổng: 4378 Bảng 4: Các nghĩa số lƣợng từ tƣơng ứng từ “serve” liệu chuẩn Về liệu văn dùng trình mở rộng liệu huấn luyện, sử dụng liệu văn BNC nhƣ giới thiệu phần 4.1.2 Số lƣợng trƣờng hợp từ “line”, “hard”, “serve”, “interest” xuất BNC đƣợc thống kê bảng số liệu sau 33 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 6: Kết thực nghiệm Số lƣợng 33392 23571 15313 35863 Từ Line Hard Serve Interest Bảng 5: Số lƣợng từ “line”, “hard”, “serve”, “interest” BNC 6.2 Thí nghiệm Mục đích thực thí nghiệm để trả lời hai câu hỏi:  Liệu liệu đƣợc mở rộng phƣơng pháp nêu có đủ độ tin cậy để dùng để huấn luyện làm tăng độ xác cho hàm phân lớp xử lý nhập nhằng nghĩa từ hay không  Liệu việc chuyển đổi từ nguyên thể có làm tăng độ xác cho q trình xử lý nhập nhằng ngữ nghĩa, từ làm tăng độ xác liệu đầu hay khơng 6.2.1 Bố trí thí nghiệm  Với từ ta chia tỉ lệ số lƣợng trƣờng hợp xuất từ file liệu chuẩn thành tập huấn luyện tập kiểm tra theo tỉ lệ khác Cụ thể tập huấn luyện có tỉ lệ 0.3, tập kiểm tra thứ có tỉ lệ 0.1 tập kiểm tra thứ hai có tỉ lệ 0.6 so với tồn tập liệu chuẩn Trong đó: o Tập huấn luyện đƣợc chọn ngẫu nhiên tập liệu chuẩn nhƣng đảm bảo tỉ lệ số lƣợng trƣờng hợp mang nghĩa khác từ nhƣ tập liệu chuẩn đảm bảo khơng có trƣờng hợp xuất từ đƣợc chọn lần o Tập kiểm tra đƣợc chọn nhƣ với tập huấn luyện Tuy nhiên, trƣờng hợp tập kiểm tra tập huấn luyện đƣợc đảm bảo không trùng  Mỗi lƣợt thực nghiệm bao gồm giai đoạn: o Giai đoạn 1: không chuyển từ thuộc nhóm từ đồng xuất từ nguyên thể o Giai đoạn 2: chuyển từ thuộc nhóm từ đồng xuất từ nguyên thể 34 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 6: Kết thực nghiệm  Mỗi giai đoạn lại bao gồm hai lần phân lớp nghĩa cho trƣờng hợp tập kiểm tra so sánh với nghĩa đƣợc xác định từ trƣớc trƣờng hợp từ Từ đƣa tỉ lệ phần trăm phân lớp nghĩa o Lần 1: Chỉ sử dụng tập huấn luyện đƣợc chọn từ tập liệu chuẩn để phân lớp nghĩa cho trƣờng hợp tập kiểm tra o Lần 2: Sử dụng phƣơng pháp nêu để mở rộng tập huấn luyện chọn tiến hành huấn luyện tập mở rộng Sau lại kiểm tra tỉ lệ phần trăm xác tập kiểm tra 6.2.2 Kết thực nghiệm Với từ, ta có kết thực nghiệm nhƣ sau: Giai đoạn Lần 2 Từ nguyên thể Huấn luyện mở rộng x x x x Số lần lặp Số trƣờng hợp đầu Train:test 0.3:0.1 Train:test 0.3:0.6 12 11 # 29108 # 29335 46.7% 68.6% 46.2% 63.7% 46.5% 64.3% 46.3% 63.1% Bảng 6: Kết thí nghiệm từ “line” Giai đoạn Lần 2 Từ nguyên thể Huấn luyện mở rộng x x x x Số lần lặp Số trƣờng hợp đầu Train:test 0.3:0.1 Train:test 0.3:0.6 8 # 23830 # 23709 76.6% 75.7% 77.5% 78.5% 75.6% 73.7% 78.2% 76.5% Bảng 7: Kết thí nghiệm từ “hard” 35 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 6: Kết thực nghiệm Giai đoạn Lần 2 Từ nguyên thể Huấn luyện mở rộng x x x x Số lần lặp Số trƣờng hợp đầu Train:test 0.3:0.1 Train:test 0.3:0.6 7 # 15532 # 15674 70.9% 76.4% 72.9% 78.2% 69.3% 76.5% 70.2% 76.8% Bảng 8: Kết thí nghiệm từ “serve” Giai đoạn Lần 2 Từ nguyên thể Huấn luyện mở rộng x x x x Số lần lặp Số trƣờng hợp đầu Train:test 0.3:0.1 Train:test 0.3:0.6 11 13 # 33953 # 34366 3.83% 70.2% 4.26% 73.6% 5.78% 71.4% 5.15% 74% Bảng 9: Kết thí nghiệm từ “interest” 6.2.3 Nhận xét 6.2.3.1 Hiệu việc mở rộng liệu Từ kết thí nghiệm trên, ta thấy hầu hết trƣờng hợp cho thấy mức độ xác xử lý nhập nhằng nghĩa từ cần gán nghĩa tăng lên rõ rệt Đặc biệt đáng ngạc nhiên trƣờng hợp thí nghiệm với từ “interest” Mức tăng từ 65.62% đến 69.34% thật đáng ấn tƣợng Mức tăng rõ ràng hầu hết thí nghiệm kết đáng mừng, vậy, riêng với trƣờng hợp từ “hard” ta lại ghi nhận đƣợc sụt giảm độ xác phân lớp nghĩa từ sử dụng liệu mở rộng so với dùng lƣợng nhỏ liệu huấn luyện ban đầu để huấn luyện cho phân lớp Điều đặt giả thiết liệu huấn luyện ban đầu cung cấp nhiều thông tin cho phép phân lớp xác đồng thời vai trò liệu mở rộng từ liệu văn chƣa gán nghĩa từ sụt giảm Đến mức đó, việc sử dụng liệu huấn luyện mở rộng 36 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 6: Kết thực nghiệm khơng cịn có ý nghĩa, chí cịn làm giảm độ xác kết phân lớp nghĩa (nhƣ trƣờng hợp từ “hard”) Tuy vậy, để khẳng định đƣợc nhận định này, ta cần tiến hành thêm thí nghiệm để kiểm chứng 6.2.3.2 Hiệu việc chuyển từ nhóm từ đồng xuất dạng nguyên thể Các thí nghiệm cho thấy mức tăng độ xác không nhiều ta áp dụng kỹ thuật chuyển từ nhóm từ đồng xuất dạng nguyên thể Mức tăng vào khoảng đến % số trƣờng hợp ghi nhận mức giảm nhẹ độ xác phân lớp nghĩa (từ line bảng 6) Đây kết thấp mong đợi mặt lý thuyết (nhƣ trình bày phần 3.3.2) Tuy vậy, dù tăng nhẹ nhƣng chứng tỏ đƣợc chuyển từ dạng nguyên thể phần giảm bớt đƣợc nhiễu cải thiện đƣợc độ xác q trình phân lớp Điều khơng phải khơng có ý nghĩa mà thực tế ta phải phân lớp nghĩa cho số lƣợng lớn trƣờng hợp xuất từ (ít 15000 trƣờng hợp nhƣ thí nghiệm này) mức tăng độ xác thêm đến % theo giá trị 6.3 Thí nghiệm Từ tƣợng sụt giảm độ xác phân lớp sử dụng liệu huấn luyện mở rộng so với sử dụng lƣợng liệu huấn luyện ban đầu từ “hard” thí nghiệm 1, tơi tiến hành thí nghiệm nhằm trả lời câu hỏi liệu vai trò liệu gán nhãn ban đầu tăng lên vai trị liệu mở rộng thu đƣợc từ phƣơng pháp mở rộng liệu có bị giảm hay khơng 6.3.1 Bố trí thí nghiệm Tơi loại trừ hai từ “hard” “interest” hai từ có kết đặc biệt thí nghiệm (từ “hard” từ sử dụng liệu huấn luyện ban đầu có xác suất phân lớp nghĩa cao, cịn từ “interest” ngƣợc lại lại có kết phân lớp nghĩa ban đầu thấp so với dùng liệu mở rộng) Nhƣ vậy, có hai từ “line” “serve” đƣợc thử nghiệm thí nghiệm Để tăng dần vai trò liệu huấn luyện ban đầu, tơi tiến hành thí nghiệm tăng dần mức tỉ lệ số trƣờng hợp xuất từ tập huấn luyện so với tổng số trƣờng hợp xuất từ liệu chuẩn gán nghĩa Cụ thể mức tăng 0.1, 0.3, 0.5, 0.7 0.9 Đồng thời giữ tỉ lệ số lƣợng trƣờng hợp tập kiểm tra so với tổng số lƣợng trƣờng hợp liệu chuẩn cố định mức 0.1 37 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 6: Kết thực nghiệm Các tập huấn luyện kiểm tra đƣợc chọn theo tiêu chuẩn thí nghiệm tức ngẫu nhiên, khơng có trƣờng hợp xuất tập huấn luyện tập kiểm tra giữ tỉ lệ số lƣợng trƣờng hợp mang nghĩa từ tập huấn luyện kiểm tra nhƣ tập liệu chuẩn 6.3.2 Kết thực nghiệm Kết thực nghiệm thí nghiệm với hai từ “line” “serve” đƣợc thể bảng sau: Tỉ lệ train:test 0.1:0.1 0.3:0.1 0.5:0.1 0.7:0.1 0.9:0.1 Dữ liệu huấn luyện ban đầu 35.5% 47.4% 54.3% 57.4% 61.8% Dữ liệu huấn luyện mở rộng 49.4% 60.3% 68.4% 68.6% 69.8% Mức độ cải thiện độ xác 13.9% 12.9% 14.1% 11.2% 8% Bảng 10: Kết thí nghiệm từ “line” Tỉ lệ train:test 0.1:0.1 0.3:0.1 0.5:0.1 0.7:0.1 0.9:0.1 Dữ liệu huấn luyện ban đầu 56.2% 66.7% 73.2% 74.3% 77.3% Dữ liệu huấn luyện mở rộng 69.5% 79.6% 79.1% 81.2% 82.3% Mức độ cải thiện độ xác 13.3% 12.9% 5.9% 6.9% 5% Bảng 11: Kết thí nghiệm từ “serve” 6.3.3 Nhận xét Từ kết thí nghiệm trên, ta thấy mức độ cải thiện độ xác phân lớp nghĩa từ nhờ vào liệu mở rộng cao tập huấn luyện ban đầu có số lƣợng trƣờng hợp xuất từ (tỉ lệ so với toàn tập liệu chuẩn 0.1, 0.3, 0.5) 38 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 6: Kết thực nghiệm thấp tập huấn luyện ban đầu có số lƣợng trƣờng hợp xuất từ cao (tỉ lệ 0.9) Nhƣ ta kết luận vai trò liệu mở rộng dựa vào liệu văn chƣa gán nghĩa giảm lƣợng thông tin cần thiết cho phân lớp nghĩa từ liệu huấn luyện ban đầu tăng lên 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 7: Kết luận Chƣơng 7: Kết luận 7.1 Các kết đạt đƣợc hạn chế Qua trình nghiên cứu phƣơng pháp mở rộng liệu huấn luyện cho trình xử lý nhập nhằng nghĩa từ, nhận thấy đƣợc tầm quan trọng việc xây dựng công cụ hỗ trợ ngƣời trình tạo nên liệu lớn với công sức thời gian bỏ nhỏ mà đạt đƣợc kết liệu tƣơng đối xác, việc nghiên cứu xây dựng công cụ mở rộng liệu nghĩa từ đƣợc tiến hành Bộ công cụ dạng sơ khai nhƣng chứng minh đƣợc phƣơng pháp mở rộng tự động liệu có sở lý luận thực tiễn Từ góp phần thúc đẩy việc xây dựng cơng cụ hồn chỉnh tƣơng lai Với vai trị cơng cụ dành cho nghiên cứu, khảo sát phƣơng pháp mở rộng liệu Bộ công cụ làm tốt nhiệm vụ việc minh họa chứng minh kết bƣớc đầu phƣơng pháp Bộ công cụ giúp phát tiềm ứng dụng trình chuyển đổi dạng từ nguyên thể vào toán mở rộng liệu nhƣ toán xử lý nhập nhằng nghĩa từ Tuy vậy, phủ định nghiên cứu đề tài mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ có hạn chế Hạn chế việc ứng dụng đƣợc phân lớp Naïve Bayes vào phƣơng pháp mở rộng liệu xử lý nhập nhằng Naïve Bayes phân lớp tốt nhƣng khơng mạnh số phân lớp khác ví dụ nhƣ Maximum Entropy, chứng nghiên cứu số trƣờng hợp tỉ lệ phân lớp xác khơng cao dù đƣợc hỗ trợ phƣơng pháp mở rộng liệu Một yếu tố khác ảnh hƣởng tới độ xác Naive Bayes (và đo hệ thống mở rộng liệu huấn luyện) việc chọn lựa thuộc tính cịn mức đơn giản Điều dù không muốn tập trung vào vấn đề chọn lựa thuộc tính, vốn vấn đề trọng tâm đề tài nhƣng thực hạn chế bỏ qua Chính yếu tố ảnh hƣởng tới độ xác liệu đầu 40 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 7: Kết luận Một hạn chế khóa luận chƣa nghiên cứu đƣợc phƣơng pháp cho phép tự động chọn ngƣỡng xác suất văn nhƣ liệu văn Một quan sát thƣờng thấy thời gian đề tài khóa luận đƣợc nghiên cứu tùy vào từ khác nhau, chọn ngƣỡng thích hợp xác suất phân lớp nghĩa lên cao ngƣợc lại Tuy nhiên thay đổi cách nhập vào cố định từ đầu miền số lần khảo sát đƣợc khơng cao Do thí nghiệm tơi cố định ngƣỡng giá trị cho kết tƣơng đối cao với tất từ thí nghiệm, cụ thể là: dừng vịng lặp mức thay đổi số lƣợng trƣờng hợp liệu đầu nhỏ 50; xác suất nhỏ 0.7 lần xác suất lớn văn maxProbFile bị gán nghĩa nghĩa trƣờng hợp có xác suất lớn nhất; ngƣỡng loại bỏ trƣờng hợp nhỏ 0.7 lần xác suất lớn toàn bộ liệu Kết đề tài khóa luận cịn hạn chế định nhƣ trình bày nhƣng có ý nghĩa nhƣ bƣớc kiểm chứng đƣờng xây dựng công cụ mở rộng liệu huấn luyện cho trình xử lý nhập nhằng nghĩa từ hoàn chỉnh Hơn nữa, qua q trình nghiên cứu đề tài khóa luận này, đƣợc va chạm, nghiên cứu vấn đề cụ thể thực tế đúc rút đƣợc nhiều kinh nghiệm quý báu, làm tảng cho công tác nghiên cứu sau 7.2 Các công việc tƣơng lai Tôi dự định tiếp tục nghiên cứu sâu hoàn thiện thêm đề tài khóa luận này, đặc biệt việc khắc phục hạn chế nhƣ nêu phần Cụ thể tiếp tục nghiên cứu cách thức áp dụng phân lớp khác vào phƣơng pháp mở rộng liệu cho xử lý nhập nhằng nghĩa từ, nghiên cứu sâu cách thức lựa chọn thuộc tính cho tốn xử lý nhập nhằng nghĩa từ nói chung phƣơng pháp mở rộng liệu xử lý nhập nhằng nghĩa nói riêng Ngồi ra, tơi muốn nghiên cứu cụ thể cách thức chọn ngƣỡng tự động cách hiệu cho tốn Tơi hy vọng tƣơng lai khơng xa tơi hoàn thiện đƣa vào sử dụng thực tế công cụ mở rộng liệu cho trình xử lý nhập nhằng nghĩa từ, góp phần nhỏ thúc đẩy thêm phát triển vấn đề khác xử lý ngôn ngữ tự nhiên mà đặc biệt toán dịch máy tự động từ đó, đƣợc đóng góp cơng sức nhỏ bé để xóa bỏ phần rào cản ngơn ngữ ngƣời dân nƣớc giới nói chung ngƣời dân Việt Nam với giới nói riêng 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng 7: Kết luận Tài liệu tham khảo [1] Agirre, Eneko; Edmonds, Philip; Word Sense Disambiguation: Algorithms and Applications; Springer, 2006 [2] Bird, Steven; Klein, Ewan; Loper, Edward; Natural Language Processing with Python; O‟Reilly Media, 2009 [3] Duda, Richar O; Hart, Peter E; Stork, David G; Pattern Classifiation Second Edition; Wiley [4] Gale, William A; Church, Kenneth W; Yakowsky, David; One Sense Per Discourse; AT&T Bell Laboratories, 1992 [5] Jurafsy, Daniel; Martin, James H; Speech and Language Processing; Draft of June 25, 2007 [6] Yakowsky, David; One Sense Per Collocation; Department of Computer and Information Science, University of Pennsylvania, 1993 [7] Yakowsky, David; Unsupervised Word Sense Disambiguation Rivaling Supervised Methods; Department of Computer and Information Science, University of Pennsylvania [8] http:// http://www.natcorp.ox.ac.uk/ [9]http://en.wikipedia.org/wiki/Word_sense_disambiguation#Dictionary_and_knowledge-based_methods [10] http://www.nltk.org/ 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... tính để mở rộng tự động liệu huấn luyện cho q trình xử lý nhập nhằng nghĩa từ Nói đến toán xử lý nhập nhằng nghĩa từ ta có xử lý nhập nhằng nghĩa cho từ mang nội dung (của câu, văn bản) cho từ chức... tự động mở rộng liệu huấn luyện cho trình xử lý nhập nhằng nghĩa từ  Chƣơng 2: Các đặc tính từ liên quan đến mở rộng liệu xử lý nhập nhằng nghĩa từ Chƣơng đặc tính từ liên quan đến nghĩa nó,... phƣơng pháp mở rộng liệu cho xử lý nhập nhằng nghĩa từ, nghiên cứu sâu cách thức lựa chọn thuộc tính cho tốn xử lý nhập nhằng nghĩa từ nói chung phƣơng pháp mở rộng liệu xử lý nhập nhằng nghĩa nói

Ngày đăng: 01/11/2022, 16:01

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w