1. Trang chủ
  2. » Luận Văn - Báo Cáo

Học cấu trúc mạng logic markov và ứng dụng trong bài toán phân lớp

56 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

  • TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

  • Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Thị Minh Huyền

    • MỤC LỤC

    • LỜI NÓI ĐẦU

    • Chƣơng I: Cơ sở toán học

    • Chƣơng II: Mạng logic Markov

    • Chƣơng III: Ứng dụng mạng logic Markov trong bài toán gán nhãn vai nghĩa

    • CHƢƠNG 1. CƠ SỞ TOÁN HỌC

  • 1.1 Lý thuyết đồ thị

  • 1.2 Logic tân từ cấp một

    • 1.2.1 Các khái niệm và ký hiệu

    • 1.2.2 Công thức trong logic tân từ cấp một

    • Mức ƣu tiên:

    • Công thức đóng:

    • 1.2.3 Dạng chuẩn hội

  • 1.3 Xác suất – thống kê

    • 1.3.1 Các khái niệm

    • Các công thức cho phân phối đồng thời:

    • Các công thức cho phân phối biên:

    • 1.3.2 Công thức Bayes

    • 1.3.3 Cực đại hóa xác suất có điều kiện

    • 1.3.4 Xích Markov

    • Ma trận xác suất chuyển

    • Phân phối dừng

    • 1.3.5 Xích Markov Monte Carlo Tích phân Monte Carlo

    • 1.3.6 Phƣơng pháp lấy mẫu Gibbs

    • CHƢƠNG 2. MẠNG LOGIC MARKOV

  • 2.1 Giới thiệu

  • 2.2 Mạng Markov

  • 2.3 Mạng logic Markov

    • Xây dựng công thức nền

    • repeat

    • return

  • 2.4 Suy diễn

    • 2.4.1 Suy diễn MAP/MPE

    • Thuật toán MAxWalkSAT

    • for to do

    • for to do

    • end if

    • else

    • end for

    • end procedure

    • 2.4.2 Suy diễn điều kiện

    • While for all

  • 2.5 Học tham số và học cấu trúc

    • 2.5.1 Học tham số

    • Học tạo sinh (Generative Learning)

    • Học tách biệt (Discriminative Learning)

    • 2.5.2 Học cấu trúc

    • Các đo lƣờng ƣớc lƣợng

    • Các phép toán xây dựng mệnh đề

    • Chiến lƣợc tìm kiếm

    • repeat

    • until

    • repeat

    • repeat

    • Các kỹ thuật tăng tốc độ

    • CHƢƠNG 3. ỨNG DỤNG MẠNG LOGIC MARKOV TRONG BÀI TOÁN GÁN NHÃN VAI NGHĨA

  • 3.1 Bài toán gán nhãn vai nghĩa

  • 3.2 Mô tả dữ liệu sử dụng

  • 3.3 Giới thiệu công cụ Thebeast

    • Các tính năng

    • 3.4 Các bƣớc thực hiện bài toán

    • 3.4.1 Dữ liệu và cấu trúc dữ liệu trong Thebeast

    • 3.4.2 Xây dựng dữ liệu huấn luyện

  • 3.5 Đánh giá kết quả thực nghiệm

    • MA TRẬN ĐÁNH GIÁ

    • KẾT LUẬN

    • TÀI LIỆU THAM KHẢO

    • Tiếng Anh

Nội dung

Luận văn thạc sĩ Phạm Đình Hiệu ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Phạm Đình Hiệu HỌC CẤU TRÚC MẠNG LOGIC MARKOV VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2012 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Phạm Đình Hiệu HỌC CẤU TRÚC MẠNG LOGIC MARKOV VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP Chun ngành: Bảo đảm tốn học cho máy tính hệ thống tính tốn Mã số: 60 46 35 LUẬN VĂN THẠC SĨ KHOA HỌC Ngƣời hƣớng dẫn khoa học: TS Nguyễn Thị Minh Huyền Hà Nội - 2012 MỤC LỤC LỜI NÓI ĐẦU CHƢƠNG CƠ SỞ TOÁN HỌC 1.1 Lý thuyết đồ thị 1.2 Logic tân từ cấp 1.2.1 Các khái niệm ký hiệu 1.2.2 Công thức logic tân từ cấp 10 1.2.3 Dạng chuẩn hội 12 1.3 Xác suất – thống kê 13 1.3.1 Các khái niệm 13 1.3.2 Công thức Bayes 15 1.3.3 Cực đại hóa xác suất có điều kiện 16 1.3.4 Xích Markov 17 1.3.5 Xích Markov Monte Carlo 19 1.3.6 Phƣơng pháp lấy mẫu Gibbs 20 CHƢƠNG MẠNG LOGIC MARKOV 21 2.1 Giới thiệu 21 2.2 Mạng Markov 22 2.3 Mạng logic Markov 24 2.4 Suy diễn 29 2.4.1 Suy diễn MAP/MPE 29 2.4.2 Suy diễn điều kiện 32 2.5 Học tham số học cấu trúc 34 2.5.1 Học tham số 34 2.5.2 Học cấu trúc 39 CHƢƠNG ỨNG DỤNG MẠNG LOGIC MARKOV TRONG BÀI TOÁN GÁN NHÃN VAI NGHĨA 3.1 Bài toán gán nhãn vai nghĩa 46 3.2 Mô tả liệu sử dụng 46 3.3 Giới thiệu công cụ Thebeast 47 3.4 Các bƣớc thực toán 48 3.4.1 Dữ liệu cấu trúc liệu Thebeast 48 3.4.2 Xây dựng liệu huấn luyện 49 3.5 Đánh giá kết thực nghiệm 52 TÀI LIỆU THAM KHẢO 55 DANH MỤC HÌNH VẼ Hình 1-1 Đồ thị G Hình 1-2 Phân phối biên biến rời rạc .14 Hình 1-3 Phân phối biên cho biến liên tục 15 Hình 2-1 Minh họa cho mạng Markov 22 Hình 2-2 Mạng Markov 26 Hình 3-1 Biểu diễn cú pháp 50 LỜI NĨI ĐẦU Trong phát triển Cơng nghệ thơng tin vấn đề xử lý, tính tốn khơng cịn túy tính tốn liệu kiểu số biểu diễn dƣới dạng cấu trúc, bảng biểu hay véc tơ, vv Nó đƣợc phát triển mở rộng xử lý liệu kiểu hình ảnh, âm thanh, văn bản, đồ thị nhiều kiểu khác Trong phát triển Cơng nghệ, học máy đƣợc xem lĩnh vực trí tuệ nhân tạo với mục tiêu nghiên cứu thuật tốn cho phép máy tính học đƣợc khái niệm Thƣờng học máy đƣợc phân làm hai phƣơng pháp: phƣơng pháp quy nạp phƣơng pháp suy diễn Đến học máy có ứng dụng rộng khắp ngành khoa học, sản xuất, đặc biệt ngành cần phân tích khối lƣợng liệu khổng lồ Một số ứng dụng thƣờng thấy: Rơbốt, trị chơi, phân tích thị trƣờng chứng khốn, phát gian lận tài chính, phân tích ảnh thiên văn, phân loại chuỗi gene, trình hình thành gene, phân tích ảnh X-quang, hệ chuyên gia chẩn đoán tự động, tìm kiếm, nhận dạng hay nhiều ứng dụng liên quan tới xử lý ngôn ngữ tự nhiên Học quan hệ thống kê lĩnh vực học máy, hƣớng tới kết hợp học theo quan hệ học theo thống kê nhằm xử lý liệu không chắn với cấu trúc quan hệ phức tạp Có nhiều mơ hình đƣợc phát triển gần cho học quan hệ thống kê nhƣ mô hình quan hệ xác suất (Probabilistic Relational Model) sử dụng logic kết hợp với mạng Bayes hay Markov Trong mạng MLN (Markov Logic Network) mang tính tổng quát cao nhất, chuyển đổi sang mơ hình khác ngày có nhiều nghiên cứu mạng Mạng logic Markov đƣợc xem nhƣ kết hợp hữu học logic học thống kê Mục đích MLN mơ tả minh họa cho trƣớc với tập công thức logic có trọng số Nó cho phép sử dụng ƣu điểm logic tân từ cấp khả biểu diễn tri thức mối quan hệ phức tạp tri thức, với ƣu điểm mạng Markov xử lý cách hiệu không chắn giải tri thức cách đối lập thiếu thông tin Mục tiêu luận văn tìm hiểu mạng MLN phƣơng pháp học cấu trúc cho mạng MLN Luận văn triển khai ứng dụng giải toán phân lớp với mạng MLN sử dụng phần mềm Thebeast Cụ thể toán gán nhãn vai nghĩa lĩnh vực xử lý ngôn ngữ Xử lý ngơn ngữ xử lý thơng tin đầu vào liệu ngôn ngữ, tức liệu kiểu văn hay tiếng nói Các liệu liên quan đến ngơn ngữ viết (văn bản) tiếng nói dần trở nên kiểu liệu ngƣời có lƣu trữ dƣới dạng điện tử Việc xây dựng ngữ liệu mẫu cho toán gán nhãn vai nghĩa tƣơng đối phức tạp, nên bƣớc đầu thực chúng tơi dùng giới hạn tốn vai nghĩa “tác thể” “bị thể” câu Bố cục luận văn đƣợc chia làm chƣơng: Chƣơng I: Cơ sở toán học Trong chƣơng trình bày số kiến thức đƣợc sử dụng luận văn liên quan tới lý thuyết đồ thị, logic xác suất thống kê Chƣơng II: Mạng logic Markov Chƣơng trình bày kiến thức mạng Markov, mạng logic Markov số vấn đề học máy với mạng logic Markov nhƣ suy diễn, học tham số đặc biệt học cấu trúc Chƣơng III: Ứng dụng mạng logic Markov toán gán nhãn vai nghĩa Chƣơng trình bày toán gán nhãn vai nghĩa, vấn đề xây dựng liệu huấn luyện công cụ Thebeast cho toán gán nhãn vai nghĩa đánh giá kết Luận văn thạc sĩ Phạm Đình Hiệu CHƢƠNG CƠ SỞ TOÁN HỌC 1.1 Lý thuyết đồ thị Định nghĩa 1.1.1 Đồ thị cặp từ , A tập đỉnh, F ánh xạ [3] Ta định nghĩa đồ thị cặp: , tập đỉnh tập cung Về thực chất đồ thị tập hợp đối tƣợng đƣợc biểu diễn đỉnh đối tƣợng có quan hệ (nhị nguyên) biểu diễn cung[3] Cho đồ thị Nếu có thì ta nói cung gọi đỉnh đầu, gọi đỉnh cuối cung Hai đỉnh kề hai đỉnh cung Đỉnh nút đỉnh kề với Định nghĩa 1.1.2 Đồ thị đồ thị với đƣợc gọi đồ thị [3] Định nghĩa 1.1.3 Hai đỉnh gọi liên thơng với chúng trùng có xích nối với nhau[3] Đồ thị đối xứng gọi đồ thị vơ hƣớng tức ta ln có Định nghĩa 1.1.4 Đồ thị vô hƣớng đƣợc gọi đầy đủ hai đỉnh có cung nối với nhau[3] Định nghĩa 1.1.5 Clic (Clique) đồ thị đồ thị đầy đủ[3] Hình 1-1 Đồ thị G Luận văn thạc sĩ Phạm Đình Hiệu Clic cực đại clic với số nút lớn nhất, thêm nút cịn clic Ví dụ: Cho đồ thị nhƣ hình vẽ: • • Ví dụ hình clique cực đại {(3; 4; 6); (3; 1); (1; 2); (2; 4); (2; 5); (5; 6)} 1.2 Logic tân từ cấp 1.2.1 Các khái niệm ký hiệu Logic tân từ cấp một ngôn ngữ mạnh để biểu diễn thơng tin có quan hệ phức tạp, cho phép ta mô tả giới với đối tƣợng, thuộc tính đối tƣợng mối quan hệ đối tƣợng[9] Một sở tri thức xây dựng logic tân từ cấp (KB) tập câu hay công thức logic tân từ cấp Công thức đƣợc xây dựng cách sử dụng loại ký hiệu: hằng, biến, hàm vị từ[9], [12] • Ký hiệu hằng: dùng để đối tƣợng miền (Ví dụ miền ngƣời: Nga, Hùng,…) • Ký hiệu biến: dùng để biểu diễn đối tƣợng miền (ví dụ x, y) • Ký hiệu vị từ: biểu diễn mối quan hệ đối tƣợng miền (ví dụ Bạn(x,y) biểu diễn quan hệ x bạn y) thuộc tính đối tƣợng (ví dụ Hútthuốc(x) biểu diễn thuộc tính có hút thuốc đối tƣợng x (x có hút thuốc)) • Các ký hiệu phép tốn logic: (hội), (tuyển), (tƣơng đƣơng) (kéo theo), (phủ định), • Các ký hiệu lƣợng từ: (với mọi), (tồn tại) • Các ký hiệu ngăn cách: Dấu phẩy, dấu mở ngoặc, dấu đóng ngoặc 1.2.2 Cơng thức logic tân từ cấp Các hạng thức biểu thức mô tả đối tƣợng Các hạng thức xác định đệ quy nhƣ sau: • Các hằng, biến hạng thức • Nếu hạng thức hàm thì hạng thức Một hạng thức không chứa biến đƣợc gọi hạng thức Ví dụ: Nga ký hiệu hằng, MotherOf ký hiệu hàm biến, thì MotherOf (Nga) hạng thức Một công thức nguyên tử đƣợc định nghĩa là: Nếu P vị từ n biến hạng thức thì công thức nguyên tử Các công thức đƣợc xây dựng cách đệ quy từ công thức nguyên tử cách sử dụng phép toán logic lƣợng từ Nếu công thức thì ký hiệu sau công thức: : F1, F1^F2, F1 F2, F1 F2, F1 F2, F1 F1[9] Mức ƣu tiên: Các lƣợng từ có mức ƣu tiên cao Phép phủ định có mức ƣu tiên cao phép toán logic khác Phép hội có mức ƣu tiên cao phép tuyển Ta sử dụng dấu ngoặc đơn để thực thi mức ƣu tiên Ví dụ: Nga anh trai khơng có bạn chung: Tất chim bay: if Clauses Thêm Clauses vào MLN LearnWeights (MLN, DB) Score WPLL (MLN, DB) until Thuật toán Tìm kiếm theo chùm (bearn search) [12] function FindBestClauses (R, MLN, Score, Clauses0, DB) inputs: R, tập vị từ MLN, mạng logic Markov Score, WPLL MLN Clauses0, tập mệnh đề DB, sở liệu quan hệ output: BestClause, mệnh đề đƣợc thêm vào MLN BestClause BestGain Beam Clauses0 Lƣu trọng số mệnh đề MLN repeat Candidates CreateCandidateClauses (Beam, R) for each mệnh đề Candidates Thêm c vào MLN LearnWeights(MLN, DB) Gain(c) WPLL (MLN, DB) – Score Xóa c từ MLN Khôi phục lại trọng số mệnh đề MLN Beam {b mệnh đề c Candidates với số cao Gain(c) > Weight(c) > epsilon >0 } if Gain (mệnh đề tốt c* Beam)> BestGain BestClause BestGain c* Gain(c*) until Beam =0 BestGain không thay đổi hai lần gặp return BestClause Thuật toán 7: Tìm kiếm ngắn trƣớc tiên [12] function FindBestClauses (R, MLN, Score, DB) inputs: R, tập vị từ MLN, mạng logic Markov Score, WPLL MLN Clauses0, tập mệnh đề DB, sở liệu quan hệ output: BestClauses, tập mệnh đề đƣợc thêm vào MLN Lƣu trọng số mệnh đề MLN Nếu lần FindBestClauses đƣợc gọi Candidates repeat if hay lần gặp if khơng có mệnh đề Candidates có độ dài 0 Weight(c) > >0 BestClauses {k mệnh đề } Candidates : Candidates/BestClauses return BestClauses với Gain(c)>0 Weight(c) > >0 Các kỹ thuật tăng tốc độ Những thuật tốn chậm đặc biệt miền rộng lớn Tuy nhiên ta làm tăng tốc độ chúng cách kết nối kỹ thuật dƣới đây: • Áp dụng tính tốn hàm hợp lý logarit pseudo (pseudo-loglikelihood) véc tơ gradient vào WPLL Ở phƣơng trình 2.13 ta bỏ qua tất mệnh đề mà khơng xuất để tính tốn phƣơng trình • Khi học trọng số để đánh giá mệnh đề ứng viên, ta sử dụng giới hạn hội tụ không chặt (looer convergence threshold) số lƣợng tối đa tính tốn L-BFGS • Nếu hầu hết trọng số mệnh đề không thay đổi đáng kể, thì làm hầu hết hàm hợp lý logarit điều kiện (conditional log-likelihoods-CLLs) ( ) vị từ không thay đổi đáng kể Và ta lợi dụng điều việc lƣu CLL vị từ đƣợc chọn mẫu, tính tốn trọng số vị từ làm thay đổi ngƣỡng Khi CLL thay đổi, ta trừ giá trị cũ từ tổng WPLL thêm CLL Tính tốn véc tơ gradient WPLL đƣợc tối ƣu tƣơng tự • Chún g ta sử dụng thứ tự từ điển mệnh đề để ngăn ngừa việc tính tốn lại mệnh đề mà đồng cú pháp Và ta lƣu trữ mệnh đề đƣợc tạo lần tìm kiếm tránh việc tính tốn lại chúng bƣớc tìm kiếm sau CHƢƠNG ỨNG DỤNG MẠNG LOGIC MARKOV TRONG BÀI TOÁN GÁN NHÃN VAI NGHĨA 3.1 Bài toán gán nhãn vai nghĩa - Định nghĩa: Gán nhãn vai nghĩa việc xác định vai trò từ tham gia vào hoạt động động từ câu Vai nghĩa thƣờng có: - Vai tác thể (Agent, viết tắt Agt): Biểu thị ngƣời hay động vật gây hành động, tác động Ví dụ: TơiAgt đánh - Vai chủ sở hữu (Possessor, viết tắt Poss): Biểu thị chủ sở hữu vật Ví dụ: TơiPoss cịn tiền - Vai bị thể (Patient, viết tắt Pa): Biểu thị ngƣời vật chịu tác động Ví dụ: Tơi đánh nóPa - Vai tiếp thể (Recipient, viết tắt Rec): Biểu thị ngƣời tiếp nhận hành động trao tặng Ví dụ: Tơi tặng mẹRec - v.v… Trong luận văn dừng lại trình gán nhãn cho vai tác thể gán “A0” vai bị thể gán “A1” câu tiếng Việt 3.2 Mô tả liệu sử dụng Dữ liệu đƣợc sử dụng kho ngữ liệu 10.000 cú pháp vnTreebank Dữ liệu văn đƣợc thu thập từ chuyên mục Chính trị - Xã hội báo Tuổi trẻ Online Kho văn đƣợc chia làm ba tập tƣơng ứng với ba mức gán nhãn tách từ, gán nhãn từ loại gán nhãn cú pháp Tập đƣợc gán nhãn cú pháp tập tập đƣợc gán nhãn từ loại; tập đƣợc gán nhãn từ loại tập tập đƣợc tách từ Ví dụ: (S(NP-SUB(N-H cơ)) (VP(V-H hồn tất) (NP(N-H việc)(V học) (PP(EH của)(NP(P-H mình)))))) (trích vnTreebank) Tập gán nhãn cú pháp gồm 10471 câu (225085 đơn vị từ vựng) Độ dài câu nằm khoảng từ tới 105 từ, với độ dài trung bình 21.75 từ Có 9314 câu (chiếm 88.95%) có độ dài không lớn 40 từ Tập nhãn treebank gồm 38 nhãn cú pháp (18 nhãn từ loại, 17 nhãn cụm từ, nhãn phần tử rỗng) 17 nhãn chức Các cú pháp có chiều cao đa số nằm khoảng từ đến 10, phổ biến (1436 câu) Đặc biệt có câu có chiều cao 27 [2], [4] 3.3 Giới thiệu công cụ Thebeast “Markov Thebeast” công cụ phần mềm phiên 0.0.2 đƣợc đƣa Sebastian Riedel – June 14, 2008 Nó phần mềm học quan hệ thống kê logic Markov Nó cho phép thực học quan hệ dự đoán cấu trúc vấn đề nhƣ thực thể, dự đốn liên kết, phân tích cú pháp phụ thuộc, nhãn ngữ nghĩa, nén câu, vv định nghĩa mô hình đơn giản cung cấp liệu huấn luyện cho Học tập suy diễn đƣợc xử lý Thebeast Thebeast sử dụng logic Markov nhƣ ngôn ngữ để mô tả mạng Markov phức tạp So với công cụ khác, thebeast sử dụng kỹ thuật suy diễn MAP Các tính • Suy diễn MAP nhanh xác cách sử dụng Cutting Planes kết hợp với Integer Linear Programming (hoặc Max-Walk-Sat) • Đào tạo phân loại trực tuyến cách sử dụng MIRA • Các trọng số tham số: sử dụng cơng thức để mơ tả hàng triệu tính với trọng số riêng lẻ • Shell: Sử dụng hàm thông dịch để chỉnh sửa kiểm tra mơ hình Cho phép phân tích lỗi, kiểm tra tính trọng số điểm số • Hạn chế yếu tố tập hợp: lập báo cáo số điều kiện định thƣờng xuyên nhƣ nên giữ giải pháp Ta sử dụng tính Thebeast ứng dụng tốn gán nhãn vai nghĩa Để mơ tả việc thực cơng việc Thebeast thƣờng có ba file là: toy.pml, train.pml, test.pml Toy.pml giúp có nhìn tổng quan bao quát nhất, phản ánh quy trình làm việc bình thƣờng học máy Thông thƣờng đào tạo mơ hình sau chạy thử nghiệm với mô hình tƣơng tự số liệu Tuy nhiên, với toy.pml cần phải đào tạo lại lúc muốn thử nghiệm mô hình với liệu thử nghiệm 3.4 Các bƣớc thực toán 3.4.1 Dữ liệu cấu trúc liệu Thebeast Dữ liệu cho Thebeast đƣợc lƣu minh họa Mỗi minh họa tập nguyên tử cho vị từ Trong trình huấn luyện cần cung cấp cho thebeast nguyên tử hai loại nguyên tử quan sát nguyên tử ẩn Trong trình thử nghiệm sau nguyên tử ẩn đầy đủ đƣợc dự đoán theo phƣơng pháp suy luận Một minh họa đƣợc lƣu giữ đọc từ liệu kiểu “text” với định dạng: >> >candidate >label A0 A1 Dữ liệu để thực chƣơng trình kho ngữ liệu vnTreebank đƣợc giới thiệu Với liệu ta sử dụng liệu đƣợc gán nhãn từ loại, dựa vào nhãn từ loại ta thực bƣớc sau để đƣa định dạng tập huấn luyện tập kiểm tra theo mẫu phần mềm Thebeast: >> >word "He" "plays" "the" "fool" "." >role "A0" "A1" >pos "NNP" "VBZ" "DT" "NN" "P" - Trên định dạng mẫu huấn luyện tiếng Anh Thebeast Ở câu đƣợc tách thành từ đơn phần “>word” đƣợc đánh số: 0, 1, 2,… Trong tiếng Việt tách từ dựa vào nhãn từ loại vnTreebank - Phần luật “>role” với ý nghĩa “1” thứ tự động từ câu, “0” thứ tự tác thể gây hành động câu, “3” thứ tự bị thể câu, “A0” nhãn tác thể, “A1” nhãn bị thể - Phần thẻ thành phần câu >pos thể thành phần câu nhƣ: “NNP”, “NN” danh từ, “VBZ” động từ, “DT” giới từ, “P” dấu câu 3.4.2 Xây dựng liệu huấn luyện Nhƣ đề cập trên, việc thực gán nhãn vai nghĩa tiếng Việt phức tạp Với bƣớc đầu xác định hai nhãn: A0, A1 để vai tác thể vai bị thể câu tiếng Việt Với kho liệu đƣợc sử dụng thƣ mục “Kho ngữ liệu 10.000 cú pháp” vnTreebank, lấy liệu từ file.prd đƣợc gán nhãn từ loại theo cấu trúc Ví dụ câu kho liệu: (S (NP-SUB(Ny-H PV)(Np Tuổi Trẻ)) (VP(R đã)(V-H có mặt) (PP-LOC(E-H ở) (NP(N-H điểm nóng)(P này)))) ( .)) Hình 3-1 Biểu diễn cú pháp Ta thực theo bƣớc: Từ kho liệu vnTreebank đọc hết file.prd thƣ mục, sau cắt câu theo từ khóa bắt đầu kết thúc Lƣu tất câu vào danh sách liên kết Với câu ta phân tích cắt theo dấu “(” “)” cho vào nhiều nhánh đƣợc tổ chức thông qua node (cụ thể code đƣợc tổ chức thông qua class) Khi xây dựng đƣợc ta bắt đầu cắt tỉa thành đơn hiệu chỉnh lại số đơn thành chứa câu đơn hợp lệ Sau bƣớc ta thu đƣợc đƣợc lƣu trữ danh sách liên kết Phân tích câu (từng đơn) để tìm luật cho câu Khi bắt đầu phân tích câu đơn để tìm chủ ngữ, động từ đối tƣợng bị tác động Đầu tiên ta tìm động từ sau ta tìm chủ ngữ cuối tìm đối tƣợng bị tác động Cách tìm ta quan tâm tới danh từ trung tâm ví dụ nhƣ N-H, NP-H…, động từ trung tâm ví dụ nhƣ V-H, VP-H… Cách tìm động từ: Dựa vào từ khóa node node cha để chọn Ở từ khóa node “V-H” từ khóa node cha “VP” Sau ta thu đc tập node phù hợp ta tiến hành chọn node có độ cao ID thấp Nếu thu đc node thì ta chọn ln node Nếu khơng thu đƣợc node thì câu khơng hợp lệ ta lặp lại bƣớc với cẫu khác Tìm chủ ngữ: ta tìm tƣơng tự nhƣ động từ khác từ khóa node cha “NP-SUB", "NP-SUB-1", "NP-TPC” từ khóa node "Np", "N", "P", "NC","Nc" Khi ta thu đƣợc tập node thỏa mãn điều kiện Và ta tiến hành chọn node cho node có độ cao độ cao node động từ số phải nhỏ gần số động từ Tiếp theo ta tìm đối tƣợng bị chịu tác động Vì đối tƣợng bị động từ tác động lên danh từ nên từ khóa node node cha tƣơng tự nhƣ tìm chủ ngữ Chỉ khác độ cao đối tƣợng cao độ cao động từ chủ ngữ Chỉ số gần lớn số động từ Sau tìm đƣợc chủ ngữ, động từ, đối tƣợng bị tác động ta bắt đầu gán vào luật A0 A1 để ghi file làm liệu kiểm thử Chúng ta thử nghiệm cho câu đơn nên trình cắt câu, số câu ghép ta cắt câu ghép thành câu đơn thành phần dƣ thừa bị loại bỏ Sau tiến hành tạo đƣợc liệu đầu vào theo mẫu thebeast cho hệ thống Ta chạy chƣơng trình Thebeast phần mềm tự động chạy áp dụng thuật toán chƣơng để xây dựng mô hình liệu từ tập train 3.5 Đánh giá kết thực nghiệm Kết thực nghiệm từ liệu để đánh giá hiệu hệ thống học máy nhằm chứng minh hệ thống đắn hoàn chỉnh dựa tập huấn luyện tập kiểm thử đƣợc phân chia theo quy định định Việc đánh giá kết hệ thống gán nhãn vai nghĩa đƣợc thực phƣơng pháp đánh giá chéo 10 phần Tính giá trị trung bình số ta có: Recall 0,841 Precision 0,828 F1 0,834 Trƣớc giải thích số bảng kết chạy thử nghiệm bên ta có bảng gọi bảng MA TRẬN ĐÁNH GIÁ (Confusion matrix) MA TRẬN ĐÁNH GIÁ Đƣợc phân lớp hệ thống Lớp Ci Thuộc Không thuộc Phân lớp thực Thuộc TPi FNi (đúng) Không thuộc FPi TNi Các số bảng: - TPi: Số lƣợng từ thuộc lớp Ci đƣợc phân loại xác vào lớp Ci - FPi: Số lƣợng từ không thuộc lớp Ci bị phân loại nhầm vào lớp Ci - TNi: Số lƣợng từ không thuộc lớp Ci đƣợc phân loại xác - FNi: Số lƣợng từ thuộc lớp Ci bị phân loại nhầm (vào lớp khác Ci) Độ xác (Precision) tỉ lệ thơng tin xác nhận đƣợc vấn đề mình xem xét tổng số thơng tin xác cần đƣợc xác định Độ triệu hồi (Recall) tỉ lệ thông tin xác vấn đề xem xét tổng số thơng tin có liên quan F1 trung bình điều hòa Precision Recall Các số đƣợc tính nhƣ sau: Với kết đạt đƣợc nhƣ với mô hình ứng dụng cho tiếng việt chƣa đạt hiệu suất phân loại cao Để có kết tốt hƣớng khắc phục tăng thêm luật cho liệu huấn luyện liệu kiểm tra KẾT LUẬN Luận văn tìm hiểu mạng logic Markov, ứng dụng việc học mạng logic Markov toán cụ thể toán gán nhãn vai nghĩa cho tiếng Việt Cụ thể: - Tìm hiểu toán mạng logic Markov: toán suy luận, toán học tham số toán học cấu trúc - Tìm hiểu thuật toán học cấu trúc mạng MLN - Tìm hiểu công cụ Thebeast - Xây dựng liệu từ kho liệu vnTreebank cho công cụ Thebeast - Hƣớng nghiên cứu: •Tìm hiểu sâu xây dựng liệu đầy đủ cho toán gán nhãn vai nghĩa •Nghiên cứu ứng dụng khác sử dụng mô hình MLN TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đào Hữu Hồ (2006), Xác suất thống kê, Nhà xuất Đại học Quốc gia Hà Nội [2] Nguyễn Thị Minh Huyền, Vũ Xuân Lƣơng, Lê Hồng Phƣơng (2003) “Sử dụng gán nhãn từ loại xác suất QTAG cho văn tiếng Việt”, Báo cáo hội thảo ICT.rda [3] Nguyễn Hữu Ngự (2001), Lý thuyết đồ thị, Nhà xuất Đại học Quốc gia Hà Nội [4] Lê Hồng Phƣơng, Nguyễn Thị Minh Huyền, Nguyễn Phƣơng Thái, Phan Thị Hà, “Trích rút tự động văn phạm LTAG cho tiếng Việt”, Tạp chí Tin học Điều khiển học, số 26, tập (2010) tr 153-171 [5] Từ Minh Phƣơng, Trí tuệ nhân tạo, Học viện Cơng nghệ Bƣu Viễn thơng, (2010) [6] Nguyễn Nhật Quang, Khai phá liệu, Viện Công nghệ Thông tin Truyền thông trƣờng Đại học Bách Khoa Hà Nội (2010) [7] Đặng Hùng Thắng (2007), Quá trình ngẫu nhiên tính tốn ngẫu nhiên, Nhà xuất Đại học Quốc gia Hà Nội, Hà Nội [8] Nguyễn Duy Tiến Vũ Viết Yên (2001), Lý thuyết xác suất, Nhà xuất Giáo dục, Hà Nội (2001) [9] Đinh Mạnh Tƣờng, Trí tuệ nhân tạo, Nhà xuất Khoa học Kỹ thuật, Hà Nội (2002) [10] Lê Đức Vĩnh, Giáo trình xác suất thống kê, Trƣờng Đại học Nơng nghiệp I, Hà Nội (2006) Tiếng Anh [11] Hassan Khosravi and Oliver Schulte and Tong Man and Xiaoyuan Xu and Bahareh Bina (2010), “Structure Learning for Markov Logic Networks with Many Descriptive Attributes”, in Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI-10), pages 487-493 [12] Stanley Kok and Pedro Domingos (2005), “Learning the Structure of Markov Logic Networks”, in Proceedings of the 22nd internatrional conference on Machine learning, pages 441 – 448 [13] Pedro Domingos and Daniel Lowd, “Markov logic: An interface layer for artificial intelligence” Synthesis Lectures on Artificial Intelligence and Machine Learning, Morgan & Claypool Publishers, 2009, vol 3, No.1, pages 1-155 [14] Stanley Kok and Pedro Domingos (2009), “Hypergraph Lifting for Structure Learning in Markov Logic Networks”, Proceedings of the 26th Annual International Conference on Machine Learning, pages 505 - 512 [15] Stanley Kok and Pedro Domingos (2010), Learning Markov Logic Networks Using Structural Motifs, in Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel [16] Matthew Richardson and Pedro Domingos (2006), Markov Logic Networds, Machine Learning, vol 62, no 1-2, pages 107-136 [17] Đinh Quang Thắng (2011), Apprentissage Statistique Relationnel: Apprentissage de Structures de Réseaux de Markov Logiques, The University of Orléans [18] Marenglen Biba, Integrating Logic and Probability: Algorithmic Improvements in Markov Logic Networks, Department of Computer Science University or Bari, Italy (2009) ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN - Phạm Đình Hiệu HỌC CẤU TRÚC MẠNG LOGIC MARKOV VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LỚP Chun ngành: Bảo đảm tốn học cho máy... thái MAP 2.5.2 Học cấu trúc Học cấu trúc mạng logic Markov từ mạng rỗng từ sở tri thức tồn Chúng ta xây dựng bắt đầu việc thêm tất mệnh đề đơn vị (các vị từ đơn) vào mạng logic Markov Trọng số... tham biến cho mạng logic Markov (ví dụ tất cơng thức có trọng số) Chúng ta gọi mạng Markov mạng Markov để phân biệt với mạng logic Markov Luận văn tập trung vào mạng logic Markov mà công thức mệnh

Ngày đăng: 23/12/2021, 21:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w