Học cấu trúc mạng logic markov và ứng dụng trong bài toán phân lớp

59 21 0
Học cấu trúc mạng logic markov và ứng dụng trong bài toán phân lớp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Luận văn thạc sĩ Phạm Đình Hiệu ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Phạm Đình Hiệu HỌC CẤU TRÚC MẠNG LOGIC MARKOV VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2012 Luận văn thạc sĩ Phạm Đình Hiệu ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Phạm Đình Hiệu HỌC CẤU TRÚC MẠNG LOGIC MARKOV VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP Chuyên ngành: Bảo đảm tốn học cho máy tính hệ thống tính toán Mã số: 60 46 35 LUẬN VĂN THẠC SĨ KHOA HỌC Ngƣời hƣớng dẫn khoa học: TS Nguyễn Thị Minh Huyền Hà Nội - 2012 Luận văn thạc sĩ Phạm Đình Hiệu MỤC LỤC LỜI NĨI ĐẦU CHƢƠNG CƠ SỞ TOÁN HỌC 1.1 Lý thuyết đồ thị 1.2 Logic tân từ cấp 1.2.1 Các khái niệm 1.2.2 Công thức tro 1.2.3 Dạng chuẩn h 1.3 Xác suất – thống kê 1.3.1 Các khái niệm 1.3.2 Công thức Ba 1.3.3 Cực đại hóa x 1.3.4 Xích Markov 1.3.5 Xích Markov 1.3.6 Phƣơng pháp CHƢƠNG MẠNG LOGIC MARKOV 2.1 Giới thiệu 2.2 Mạng Markov 2.3 Mạng logic Markov 2.4 Suy diễn 2.4.1 Suy diễn MAP 2.4.2 Suy diễn điều 2.5 Học tham số học cấu trúc 2.5.1 Học tham số 2.5.2 Học cấu trúc CHƢƠNG ỨNG DỤNG MẠNG LOGIC MARKOV TRONG BÀI TOÁN GÁN NHÃN VAI NGHĨA 3.1 Bài toán gán nhãn vai nghĩa 3.2 Mô tả liệu sử dụng Luận văn thạc sĩ Phạm Đình Hiệu 3.3 Giới thiệu công cụ Thebeast 3.4 Các bƣớc thực toán 3.4.1 Dữ liệu cấu 3.4.2 Xây dựng 3.5 Đánh giá kết thực nghiệm TÀI LIỆU THAM KHẢO Luận văn thạc sĩ Phạm Đình Hiệu DANH MỤC HÌNH VẼ Hình 1-1 Đồ thị G Hình 1-2 Phân phối biên biến rời rạc 14 Hình 1-3 Phân phối biên cho biến liên tục 15 Hình 2-1 Minh họa cho mạng Markov 22 Hình 2-2 Mạng Markov 26 Hình 3-1 Biểu diễn cú pháp 50 Luận văn thạc sĩ Phạm Đình Hiệu LỜI NĨI ĐẦU Trong phát triển Cơng nghệ thơng tin vấn đề xử lý, tính tốn khơng cịn túy tính tốn liệu kiểu số biểu diễn dƣới dạng cấu trúc, bảng biểu hay véc tơ, vv Nó đƣợc phát triển mở rộng xử lý liệu kiểu hình ảnh, âm thanh, văn bản, đồ thị nhiều kiểu khác Trong phát triển Cơng nghệ, học máy đƣợc xem lĩnh vực trí tuệ nhân tạo với mục tiêu nghiên cứu thuật toán cho phép máy tính học đƣợc khái niệm Thƣờng học máy đƣợc phân làm hai phƣơng pháp: phƣơng pháp quy nạp phƣơng pháp suy diễn Đến học máy có ứng dụng rộng khắp ngành khoa học, sản xuất, đặc biệt ngành cần phân tích khối lƣợng liệu khổng lồ Một số ứng dụng thƣờng thấy: Rơbốt, trị chơi, phân tích thị trƣờng chứng khốn, phát gian lận tài chính, phân tích ảnh thiên văn, phân loại chuỗi gene, trình hình thành gene, phân tích ảnh Xquang, hệ chuyên gia chẩn đoán tự động, tìm kiếm, nhận dạng hay nhiều ứng dụng liên quan tới xử lý ngôn ngữ tự nhiên Học quan hệ thống kê lĩnh vực học máy, hƣớng tới kết hợp học theo quan hệ học theo thống kê nhằm xử lý liệu không chắn với cấu trúc quan hệ phức tạp Có nhiều mô hình đƣợc phát triển gần cho học quan hệ thống kê nhƣ mô hình quan hệ xác suất (Probabilistic Relational Model) sử dụng logic kết hợp với mạng Bayes hay Markov Trong mạng MLN (Markov Logic Network) mang tính tổng qt cao nhất, chuyển đổi sang mô hình khác ngày có nhiều nghiên cứu mạng Mạng logic Markov đƣợc xem nhƣ kết hợp hữu học logic học thống kê Mục đích MLN mơ tả minh họa cho trƣớc với tập công thức logic có trọng số Nó cho phép sử dụng ƣu điểm logic tân từ cấp khả biểu diễn tri thức mối quan hệ phức tạp tri thức, với ƣu điểm mạng Markov xử lý cách hiệu không chắn giải tri thức cách đối lập thiếu thông tin Luận văn thạc sĩ Phạm Đình Hiệu Mục tiêu luận văn tìm hiểu mạng MLN phƣơng pháp học cấu trúc cho mạng MLN Luận văn triển khai ứng dụng giải toán phân lớp với mạng MLN sử dụng phần mềm Thebeast Cụ thể toán gán nhãn vai nghĩa lĩnh vực xử lý ngơn ngữ Xử lý ngơn ngữ xử lý thông tin đầu vào liệu ngôn ngữ, tức liệu kiểu văn hay tiếng nói Các liệu liên quan đến ngơn ngữ viết (văn bản) tiếng nói dần trở nên kiểu liệu ngƣời có lƣu trữ dƣới dạng điện tử Việc xây dựng ngữ liệu mẫu cho toán gán nhãn vai nghĩa tƣơng đối phức tạp, nên bƣớc đầu thực dùng giới hạn toán vai nghĩa “tác thể” “bị thể” câu Bố cục luận văn đƣợc chia làm chƣơng: Chƣơng I: Cơ sở toán học Trong chƣơng trình bày số kiến thức đƣợc sử dụng luận văn liên quan tới lý thuyết đồ thị, logic xác suất thống kê Chƣơng II: Mạng logic Markov Chƣơng trình bày kiến thức mạng Markov, mạng logic Markov số vấn đề học máy với mạng logic Markov nhƣ suy diễn, học tham số đặc biệt học cấu trúc Chƣơng III: Ứng dụng mạng logic Markov toán gán nhãn vai nghĩa Chƣơng trình bày toán gán nhãn vai nghĩa, vấn đề xây dựng liệu huấn luyện cơng cụ Thebeast cho tốn gán nhãn vai nghĩa đánh giá kết Luận văn thạc sĩ Phạm Đình Hiệu CHƢƠNG CƠ SỞ TỐN HỌC 1.1 Lý thuyết đồ thị Định nghĩa 1.1.1 Đồ thị cặp từ , A tập đỉnh, F ánh xạ [3] Ta định nghĩa đồ thị cặp: , tập đỉnh tập cung Về thực chất đồ thị tập hợp đối tƣợng đƣợc biểu diễn đỉnh đối tƣợng có quan hệ (nhị nguyên) biểu diễn cung[3] Cho đồ thị gọi đỉnh đầu, Nếu có thì ta nói cung gọi đỉnh cuối cung Hai đỉnh kề hai đỉnh cung Đỉnh nút đỉnh kề với Định nghĩa 1.1.2 Đồ thị đồ thị với đƣợc gọi đồ thị [3] Định nghĩa 1.1.3 Hai đỉnh gọi liên thông với chúng trùng có xích nối với nhau[3] Đồ thị đối xứng gọi đồ thị vô hƣớng tức ta ln có Định nghĩa 1.1.4 Đồ thị vô hƣớng đƣợc gọi đầy đủ hai đỉnh có cung nối với nhau[3] Định nghĩa 1.1.5 Clic (Clique) đồ thị đồ thị đầy đủ[3] Hình 1-1 Đồ thị8G Luận văn thạc sĩ Phạm Đình Hiệu Clic cực đại clic với số nút lớn nhất, thêm nút cịn clic Ví dụ: Cho đồ thị nhƣ hình vẽ:   Ví dụ hình clique cực đại {(3; 4; 6); (3; 1); (1; 2); (2; 4); (2; 5); (5; 6)} 1.2 Logic tân từ cấp 1.2.1 Các khái niệm ký hiệu Logic tân từ cấp một ngôn ngữ mạnh để biểu diễn thơng tin có quan hệ phức tạp, cho phép ta mô tả giới với đối tƣợng, thuộc tính đối tƣợng mối quan hệ đối tƣợng[9] Một sở tri thức xây dựng logic tân từ cấp (KB) tập câu hay công thức logic tân từ cấp Công thức đƣợc xây dựng cách sử dụng loại ký hiệu: hằng, biến, hàm vị từ[9], [12]  Ký hiệu hằng: dùng để đối tƣợng miền (Ví dụ miền ngƣời: Nga, Hùng,…)  Ký hiệu biến: dùng để biểu diễn đối tƣợng miền (ví dụ x, y)  Ký hiệu vị từ: biểu diễn mối quan hệ đối tƣợng miền (ví dụ Bạn(x,y) biểu diễn quan hệ x bạn y) thuộc tính đối tƣợng (ví dụ Hútthuốc(x) biểu diễn thuộc tính có hút thuốc đối tƣợng x (x có hút thuốc))  Các ký hiệu phép toán logic: (hội), (tƣơng đƣơng) (tuyển), (kéo theo), (phủ định), Luận văn thạc sĩ Phạm Đình Hiệu  Các ký hiệu lƣợng từ: (với mọi), (tồn tại)  Các ký hiệu ngăn cách: Dấu phẩy, dấu mở ngoặc, dấu đóng ngoặc 1.2.2 Cơng thức logic tân từ cấp Các hạng thức biểu thức mô tả đối tƣợng Các hạng thức xác định đệ quy nhƣ sau:  Các hằng, biến hạng thức  Nếu hạng thức hàm thì hạng thức Một hạng thức không chứa biến đƣợc gọi hạng thức Ví dụ: Nga ký hiệu hằng, MotherOf ký hiệu hàm biến, thì MotherOf (Nga) hạng thức Một công thức nguyên tử đƣợc định nghĩa là: Nếu P vị từ n biến hạng thức thì công thức nguyên tử Các công thức đƣợc xây dựng cách đệ quy từ công thức nguyên tử cách sử dụng phép toán logic lƣợng từ Nếu thức thì ký hiệu sau công thức: : F1 F2, F1 và công F1, F1^F2, F1 F2, F1 F2, F1[9] Mức ƣu tiên: Các lƣợng từ có mức ƣu tiên cao Phép phủ định có mức ƣu tiên cao phép toán logic khác Phép hội có mức ƣu tiên cao phép tuyển Ta sử dụng dấu ngoặc đơn để thực thi mức ƣu tiên Ví dụ: Nga anh trai khơng có bạn chung: Tất chim bay: 10 Luận văn thạc sĩ Phạm Đình Hiệu Các kỹ thuật tăng tốc độ Những thuật tốn chậm đặc biệt miền rộng lớn Tuy nhiên ta làm tăng tốc độ chúng cách kết nối kỹ thuật dƣới đây:  Áp dụng tính tốn hàm hợp lý logarit pseudo (pseudo-loglikelihood) véc tơ gradient vào WPLL Ở phƣơng trình 2.13 ta bỏ qua tất mệnh đề mà khơng xuất để tính tốn phƣơng trình  Khi học trọng số để đánh giá mệnh đề ứng viên, ta sử dụng giới hạn hội tụ không chặt (looer convergence threshold) số lƣợng tối đa tính tốn L-BFGS  Nếu hầu hết trọng số mệnh đề không thay đổi đáng kể, thì làm hầu hết hàm hợp lý logarit điều kiện (conditional log-likelihoods-CLLs) ( ) vị từ không thay đổi đáng kể Và ta lợi dụng điều việc lƣu CLL vị từ đƣợc chọn mẫu, tính tốn trọng số vị từ làm thay đổi ngƣỡng Khi CLL thay đổi, ta trừ giá trị cũ từ tổng WPLL thêm CLL Tính tốn véc tơ gradient WPLL đƣợc tối ƣu tƣơng tự  Chún g ta sử dụng thứ tự từ điển mệnh đề để ngăn ngừa việc tính tốn lại mệnh đề mà đồng cú pháp Và ta lƣu trữ mệnh đề đƣợc tạo lần tìm kiếm tránh việc tính tốn lại chúng bƣớc tìm kiếm sau 45 Luận văn thạc sĩ CHƢƠNG Phạm Đình Hiệu ỨNG DỤNG MẠNG LOGIC MARKOV TRONG BÀI TOÁN GÁN NHÃN VAI NGHĨA 3.1 Bài toán gán nhãn vai nghĩa - Định nghĩa: Gán nhãn vai nghĩa việc xác định vai trò từ tham gia vào hoạt động động từ câu Vai nghĩa thƣờng có: - Vai tác thể (Agent, viết tắt Agt): Biểu thị ngƣời hay động vật gây hành động, tác động Ví dụ: TơiAgt đánh - Vai chủ sở hữu (Possessor, viết tắt Poss): Biểu thị chủ sở hữu vật - Vai bị thể (Patient, viết tắt Pa): Biểu thị ngƣời vật chịu tác động - Vai tiếp thể (Recipient, viết tắt Rec): Biểu thị ngƣời tiếp nhận hành động trao tặng Ví dụ: Tơi tặng mẹRec - v.v… Trong luận văn dừng lại trình gán nhãn cho vai tác thể gán “A0” vai bị thể gán “A1” câu tiếng Việt 3.2 Mô tả liệu sử dụng Dữ liệu đƣợc sử dụng kho ngữ liệu 10.000 cú pháp vnTreebank Dữ liệu văn đƣợc thu thập từ chuyên mục Chính trị - Xã hội báo Tuổi trẻ Online Kho văn đƣợc chia làm ba tập tƣơng ứng với ba mức gán nhãn tách từ, gán nhãn từ loại gán nhãn cú pháp Tập đƣợc gán nhãn cú pháp tập tập đƣợc gán nhãn từ loại; tập đƣợc gán nhãn từ loại tập tập đƣợc tách từ Ví dụ: (S(NP-SUB(N-H cơ)) (VP(V-H hồn tất) (NP(N-H việc)(V học) (PP(EH của)(NP(P-H mình)))))) (trích vnTreebank) Tập gán nhãn cú pháp gồm 10471 câu (225085 đơn vị từ vựng) Độ dài câu nằm khoảng từ tới 105 từ, với độ dài trung bình 21.75 từ Có 9314 câu (chiếm 88.95%) có độ dài khơng lớn 40 từ Tập nhãn treebank 46 Luận văn thạc sĩ Phạm Đình Hiệu gồm 38 nhãn cú pháp (18 nhãn từ loại, 17 nhãn cụm từ, nhãn phần tử rỗng) 17 nhãn chức Các cú pháp có chiều cao đa số nằm khoảng từ đến 10, phổ biến (1436 câu) Đặc biệt có câu có chiều cao 27 [2], [4] 3.3 Giới thiệu công cụ Thebeast “Markov Thebeast” công cụ phần mềm phiên 0.0.2 đƣợc đƣa Sebastian Riedel – June 14, 2008 Nó phần mềm học quan hệ thống kê logic Markov Nó cho phép thực học quan hệ dự đoán cấu trúc vấn đề nhƣ thực thể, dự đốn liên kết, phân tích cú pháp phụ thuộc, nhãn ngữ nghĩa, nén câu, vv định nghĩa mô hình đơn giản cung cấp liệu huấn luyện cho Học tập suy diễn đƣợc xử lý Thebeast Thebeast sử dụng logic Markov nhƣ ngôn ngữ để mô tả mạng Markov phức tạp So với công cụ khác, thebeast sử dụng kỹ thuật suy diễn MAP Các tính  Suy diễn MAP nhanh xác cách sử dụng Cutting Planes kết hợp với Integer Linear Programming (hoặc Max-Walk-Sat)  Đào tạo phân loại trực tuyến cách sử dụng MIRA  Các trọng số tham số: sử dụng công thức để mô tả hàng triệu tính với trọng số riêng lẻ  Shell: Sử dụng hàm thông dịch để chỉnh sửa kiểm tra mơ hình Cho phép phân tích lỗi, kiểm tra tính trọng số điểm số  Hạn chế yếu tố tập hợp: lập báo cáo số điều kiện định thƣờng xuyên nhƣ nên giữ giải pháp Ta sử dụng tính Thebeast ứng dụng toán gán nhãn vai nghĩa Để mô tả việc thực công việc Thebeast thƣờng có ba file là: toy.pml, train.pml, test.pml Toy.pml giúp có nhìn tổng quan bao quát nhất, phản ánh quy trình làm việc bình thƣờng học máy Thông thƣờng đào tạo mô hình sau chạy thử nghiệm với mơ hình tƣơng tự số liệu Tuy nhiên, với toy.pml cần phải 47 Luận văn thạc sĩ Phạm Đình Hiệu đào tạo lại lúc muốn thử nghiệm mô hình với liệu thử nghiệm 3.4 Các bƣớc thực toán 3.4.1 Dữ liệu cấu trúc liệu Thebeast Dữ liệu cho Thebeast đƣợc lƣu minh họa Mỗi minh họa tập nguyên tử cho vị từ Trong trình huấn luyện cần cung cấp cho thebeast nguyên tử hai loại nguyên tử quan sát nguyên tử ẩn Trong trình thử nghiệm sau nguyên tử ẩn đầy đủ đƣợc dự đoán theo phƣơng pháp suy luận Một minh họa đƣợc lƣu giữ đọc từ liệu kiểu “text” với định dạng: >> >candidate >label 12A0 14A1 Dữ liệu để thực chƣơng trình kho ngữ liệu vnTreebank đƣợc giới thiệu Với liệu ta sử dụng liệu đƣợc gán nhãn từ loại, dựa vào nhãn từ loại ta thực bƣớc sau để đƣa định dạng tập huấn luyện tập kiểm tra theo mẫu phần mềm Thebeast: 48 Luận văn thạc sĩ Phạm Đình Hiệu >> >word 1"He" 2"plays" 3"the" 4"fool" 5"." >role 10 "A0" "A1" >pos 1"NNP" 2"VBZ" 3"DT" 4"NN" 5"P" - Trên định dạng mẫu huấn luyện tiếng Anh Thebeast Ở câu đƣợc tách thành từ đơn phần “>word” đƣợc đánh số: 0, 1, 2, …Trong tiếng Việt tách từ dựa vào nhãn từ loại vnTreebank - Phần luật “>role” với ý nghĩa “1” thứ tự động từ câu, “0” thứ tự tác thể gây hành động câu, “3” thứ tự bị thể câu, “A0” nhãn tác thể, “A1” nhãn bị thể - Phần thẻ thành phần câu >pos thể thành phần câu nhƣ: “NNP”, “NN” danh từ, “VBZ” động từ, “DT” giới từ, “P” dấu câu 3.4.2 Xây dựng liệu huấn luyện Nhƣ đề cập trên, việc thực gán nhãn vai nghĩa tiếng Việt phức tạp Với bƣớc đầu xác định hai nhãn: A0, A1 để vai tác thể vai bị thể câu tiếng Việt Với kho liệu đƣợc sử dụng thƣ mục “Kho ngữ 49 Luận văn thạc sĩ Phạm Đình Hiệu liệu 10.000 cú pháp” vnTreebank, lấy liệu từ file.prd đƣợc gán nhãn từ loại theo cấu trúc Ví dụ câu kho liệu: (S (NP-SUB(Ny-H PV)(Np Tuổi Trẻ)) (VP(R đã)(V-H có mặt) (PP-LOC(E-H ở) (NP(N-H điểm nóng)(P này)))) ( .)) Hình 3-1 Biểu diễn cú pháp Ta thực theo bƣớc: Từ kho liệu vnTreebank đọc hết file.prd thƣ mục, sau cắt câu theo từ khóa bắt đầu kết thúc Lƣu tất câu vào danh sách liên kết Với câu ta phân tích cắt theo dấu “(” “)” cho vào nhiều nhánh đƣợc tổ chức thông qua node (cụ thể code đƣợc tổ chức thông qua class) Khi xây dựng đƣợc ta bắt đầu cắt tỉa thành đơn hiệu chỉnh lại số đơn thành 50 Luận văn thạc sĩ Phạm Đình Hiệu chứa câu đơn hợp lệ Sau bƣớc ta thu đƣợc đƣợc lƣu trữ danh sách liên kết Phân tích câu (từng đơn) để tìm luật cho câu Khi bắt đầu phân tích câu đơn để tìm chủ ngữ, động từ đối tƣợng bị tác động Đầu tiên ta tìm động từ sau ta tìm chủ ngữ cuối tìm đối tƣợng bị tác động Cách tìm ta quan tâm tới danh từ trung tâm ví dụ nhƣ N-H, NP-H…, động từ trung tâm ví dụ nhƣ V-H, VP-H… Cách tìm động từ: Dựa vào từ khóa node node cha để chọn Ở từ khóa node “V-H” từ khóa node cha “VP” Sau ta thu đc tập node phù hợp ta tiến hành chọn node có độ cao ID thấp Nếu thu đc node thì ta chọn ln node Nếu khơng thu đƣợc node thì câu khơng hợp lệ ta lặp lại bƣớc với cẫu khác Tìm chủ ngữ: ta tìm tƣơng tự nhƣ động từ khác từ khóa node cha “NP-SUB", "NP-SUB-1", "NP-TPC” từ khóa node "Np", "N", "P", "NC","Nc" Khi ta thu đƣợc tập node thỏa mãn điều kiện Và ta tiến hành chọn node cho node có độ cao độ cao node động từ số phải nhỏ gần số động từ Tiếp theo ta tìm đối tƣợng bị chịu tác động Vì đối tƣợng bị động từ tác động lên danh từ nên từ khóa node node cha tƣơng tự nhƣ tìm chủ ngữ Chỉ khác độ cao đối tƣợng cao độ cao động từ chủ ngữ Chỉ số gần lớn số động từ Sau tìm đƣợc chủ ngữ, động từ, đối tƣợng bị tác động ta bắt đầu gán vào luật A0 A1 để ghi file làm liệu kiểm thử 51 Luận văn thạc sĩ Phạm Đình Hiệu Chúng ta thử nghiệm cho câu đơn nên trình cắt câu, số câu ghép ta cắt câu ghép thành câu đơn thành phần dƣ thừa bị loại bỏ Sau tiến hành tạo đƣợc liệu đầu vào theo mẫu thebeast cho hệ thống Ta chạy chƣơng trình Thebeast phần mềm tự động chạy áp dụng thuật toán chƣơng để xây dựng mô hình liệu từ tập train 3.5 Đánh giá kết thực nghiệm Kết thực nghiệm từ liệu để đánh giá hiệu hệ thống học máy nhằm chứng minh hệ thống đắn hoàn chỉnh dựa tập huấn luyện tập kiểm thử đƣợc phân chia theo quy định định Việc đánh giá kết hệ thống gán nhãn vai nghĩa đƣợc thực phƣơng pháp đánh giá chéo 10 phần Tính giá trị trung bình số ta có: Recall Precision F1 Trƣớc giải thích số bảng kết chạy thử nghiệm bên ta có bảng gọi bảng MA TRẬN ĐÁNH GIÁ (Confusion matrix) MA TRẬN ĐÁNH GIÁ Lớp Ci Phân lớp thực (đúng) Các số bảng: - TPi: Số lƣợng từ thuộc lớp Ci đƣợc phân loại xác vào lớp Ci - FPi: Số lƣợng từ không thuộc lớp Ci bị phân loại nhầm vào lớp Ci - TNi: Số lƣợng từ không thuộc lớp Ci đƣợc phân loại xác - FNi: Số lƣợng từ thuộc lớp Ci bị phân loại nhầm (vào lớp khác Ci) 52 Luận văn thạc sĩ Phạm Đình Hiệu Độ xác (Precision) tỉ lệ thơng tin xác nhận đƣợc vấn đề mình xem xét tổng số thơng tin xác cần đƣợc xác định Độ triệu hồi (Recall) tỉ lệ thơng tin xác vấn đề xem xét tổng số thông tin có liên quan F1 trung bình điều hịa Precision Recall Các số đƣợc tính nhƣ sau: Với kết đạt đƣợc nhƣ với mô hình ứng dụng cho tiếng việt chƣa đạt hiệu suất phân loại cao Để có kết tốt hƣớng khắc phục tăng thêm luật cho liệu huấn luyện liệu kiểm tra 53 Luận văn thạc sĩ Phạm Đình Hiệu KẾT LUẬN Luận văn tìm hiểu mạng logic Markov, ứng dụng việc học mạng logic Markov toán cụ thể toán gán nhãn vai nghĩa cho tiếng Việt Cụ thể: - Tìm hiểu toán mạng logic Markov: toán suy luận, toán học tham số toán học cấu trúc - Tìm hiểu thuật toán học cấu trúc mạng MLN - Tìm hiểu công cụ Thebeast - Xây dựng liệu từ kho liệu vnTreebank cho công cụ Thebeast - Hƣớng nghiên cứu:  Tìm hiểu sâu xây dựng liệu đầy đủ cho toán gán nhãn vai nghĩa  Nghiên cứu ứng dụng khác sử dụng mơ hình MLN 54 Luận văn thạc sĩ Phạm Đình Hiệu TÀI LIỆU THAM KHẢO Tiếng Việt [1] gia Đào Hữu Hồ (2006), Xác suất thống kê, Nhà xuất Đại học Quốc Hà Nội [2] Nguyễn Thị Minh Huyền, Vũ Xuân Lƣơng, Lê Hồng Phƣơng (2003) “Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt”, Báo cáo hội thảo ICT.rda [3] Nguyễn Hữu Ngự (2001), Lý thuyết đồ thị, Nhà xuất Đại học Quốc gia Hà Nội [4] Lê Hồng Phƣơng, Nguyễn Thị Minh Huyền, Nguyễn Phƣơng Thái, Phan Thị Hà, “Trích rút tự động văn phạm LTAG cho tiếng Việt”, Tạp chí Tin học Điều khiển học, số 26, tập (2010) tr 153-171 [5] Từ Minh Phƣơng, Trí tuệ nhân tạo, Học viện Cơng nghệ Bƣu Viễn thơng, (2010) [6] Nguyễn Nhật Quang, Khai phá liệu, Viện Công nghệ Thông tin Truyền thông trƣờng Đại học Bách Khoa Hà Nội (2010) [7] Đặng Hùng Thắng (2007), Quá trình ngẫu nhiên tính tốn ngẫu nhiên, Nhà xuất Đại học Quốc gia Hà Nội, Hà Nội [8] Nguyễn Duy Tiến Vũ Viết Yên (2001), Lý thuyết xác suất, Nhà xuất Giáo dục, Hà Nội (2001) [9] Đinh Mạnh Tƣờng, Trí tuệ nhân tạo, Nhà xuất Khoa học Kỹ thuật, Hà Nội (2002) [10] Lê Đức Vĩnh, Giáo trình xác suất thống kê, Trƣờng Đại học Nông nghiệp I, Hà Nội (2006) Tiếng Anh [11] Hassan Khosravi and Oliver Schulte and Tong Man and Xiaoyuan Xu and Bahareh Bina (2010), “Structure Learning for Markov Logic Networks 55 Luận văn thạc sĩ Phạm Đình Hiệu with Many Descriptive Attributes”, in Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10), pages 487-493 [12] Stanley Kok and Pedro Domingos (2005), “Learning the Structure of Markov Logic Networks”, in Proceedings of the 22 nd internatrional conference on Machine learning, pages 441 – 448 [13] Pedro Domingos and Daniel Lowd, “Markov logic: An interface layer for artificial intelligence” Synthesis Lectures on Artificial Intelligence and Machine Learning, Morgan & Claypool Publishers, 2009, vol 3, No.1, pages 1-155 [14] Stanley Kok and Pedro Domingos (2009), “Hypergraph Lifting for Structure Learning in Markov Logic Networks”, Proceedings of the 26 th Annual International Conference on Machine Learning, pages 505 - 512 [15] Stanley Kok and Pedro Domingos (2010), Learning Markov Logic Networks Using Structural Motifs, in Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel [16] Matthew Richardson and Pedro Domingos (2006), Markov Logic Networds, Machine Learning, vol 62, no 1-2, pages 107-136 [17] Đinh Quang Thắng (2011), Apprentissage Statistique Relationnel: Apprentissage de Structures de Réseaux de Markov Logiques, The University of Orléans [18] Marenglen Biba, Integrating Logic and Probability: Algorithmic Improvements in Markov Logic Networks, Department of Computer Science University or Bari, Italy (2009) 56 ... 2.5 Học tham số học cấu trúc 2.5.1 Học tham số 2.5.2 Học cấu trúc CHƢƠNG ỨNG DỤNG MẠNG LOGIC MARKOV TRONG BÀI TOÁN GÁN NHÃN VAI NGHĨA 3.1 Bài toán gán nhãn vai nghĩa 3.2 Mô tả liệu sử dụng. .. Hiệu ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Phạm Đình Hiệu HỌC CẤU TRÚC MẠNG LOGIC MARKOV VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP Chuyên ngành: Bảo đảm tốn học cho máy... thái MAP 2.5.2 Học cấu trúc Học cấu trúc mạng logic Markov từ mạng rỗng từ sở tri thức tồn Chúng ta xây dựng bắt đầu việc thêm tất mệnh đề đơn vị (các vị từ đơn) vào mạng logic Markov Trọng số

Ngày đăng: 20/11/2020, 08:44

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan