Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

56 16 0
Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 604805 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ NGUYỄN LÊ MINH Hà Nội, 2011 LỜI CAM ĐOAN MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU KÝ TỰ VIẾT TẮT LỜI CẢM ƠN LỜI MỞ ĐẦU CHƢƠNG 1: HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN 1.1 Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện 1.1.1 Khái niệm trƣờng ngẫu nhiên có điều kiện 1.1.2 Học máy CRFs 1.1.2.1 Hàm tiềm mơ hình CRFs 1.1.2.2 Thuâṭtoan gan nhan cho dƣ liêụ dangg̣ chuỗi ́ ́ 1.1.2.3 Ƣớc lƣợng tham số cho mơ hình CRFs 1.2 Học máy bán giám sát CRFs 1.2.1 Học máy bán giám sát 1.2.1.1 Học khơng có giám sát Học có giám sát 1.2.1.2 Học máy bán giám sát 1.2.1.3 Một số thuật toán học máy bán giám sát 1.2.2 Sơ mơ hình học máy bán giám sát CRFs 1.3 Kết luận chƣơng CHƢƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT 2.1 Tiêu chuẩn kỳ vọng tổng quát 2.1.1 Giới thiệu sơ 2.1.2 Tiêu chuẩn kỳ vọng tổng quát 2.2 Mơ hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát 2.3 Kết luận chƣơng -2- CHƢƠNG 3: MỘT MƠ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH CHỌN THƠNG TIN PHÁP LUẬT TIẾNG VIỆT 3.1 Trích chọn thông tin từ văn pháp luật tiếng Việt 3.1.1 Một số đặc trƣng miền liệu văn pháp luật tiếng Việt 3.1.2 Bài tốn trích chọn thơng tin văn pháp luật tiếng Việt 3.2 Một mơ hình học máy bán giám sát CRFs trích chọn thơng tin pháp luật tiếng Việt 3.2.1 Một số phân tích 3.2.2 Mơ hình đề nghị 3.2.3 Lựa chọn thuộc tính 3.2.4 Cách đánh giá 3.3 Kết luận chƣơng CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Mơ hình thực nghiệm 4.1.1 Dữ liệu thực nghiệm 4.1.2 Bộ công cụ Mallet 4.2 Thực nghiệm đánh giá 4.2.1 Môi trƣờng thực nghiệm 4.2.2 Mơ tả quy trình thực nghiệm 4.2.3 Kết thực nghiệm 4.2.4 Đánh giá 4.3 Kết luận chƣơng KẾT LUẬN TÀI LIỆU THAM KHẢO -3- DANH MỤC HÌNH VẼ Hình Đờ thị vơ hướng mơ tả CRFs Hình Môṭ bước thuâṭ toán Viterbi cải tiến 11 Hình 3/4 Mơ hình đề xuất giải quyết toán 30 Hình Tập các ràng buộc (Constraint file) .32 Hình Kết quả nhóm thực nghiệm 36 Hình Kết quả nhóm thực nghiệm 37 Hình Kết quả nhóm thực nghiệm 38 Hình Kết quả nhóm thực nghiệm 39 Hình 10 Kết quả nhóm thực nghiệm 40 -4- DANH MỤC BẢNG BIỂU Bảng Mẫu ngữ cảnh từ vựng Bảng Mẫu ngữ cảnh phát tên thực thể Bảng Kết quả nhóm thực nghiệm Bảng Kết quả nhóm thực nghiệm Bảng Kết quả nhóm thực nghiệm Bảng Kết quả nhóm thực nghiệm Bảng Kết quả nhóm thực nghiệm CRFs EM GE GEC GIS i.i.d IIS KL L-BFGS LOC MISC NER ORG PER -6- LỜI CẢM ƠN Để hoàn thành luận văn tác giả nhận đƣợc giúp đỡ từ nhiều quan, đoàn thể cá nhân Trƣớc hết xin chân thành cảm ơn thầy giáo, cô giáo Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giảng dạy, trang bị cho tơi kiến thức quý báu suốt trình học tập trƣờng Tơi xin bày tỏ lịng biết ơn sâu sắc đến TS Nguyễn Lê Minh - ngƣời thầy trực tiếp hƣớng dẫn tơi suốt q trình xây dựng hồn thành luận văn Tơi xin bày tỏ lòng biết ơn chân thành đến thầy giáo PGS.TS Hà Quang Thụy bạn Phịng thí nghiệm công nghệ tri thức, Trƣờng Đại học Công nghệ giúp đỡ đóng góp nhiều ý kiến quý báu cho tơi Cuối cùng, tơi xin bày tỏ lịng biết ơn sâu sắc tới gia đình, bạn bè, ngƣời ln động viên, giúp đỡ tơi nhiệt tình để hoàn thành luận văn Hà Nội, tháng 05 năm 2011 Học viên Phạm Thị Ngân -7- LỜI MỞ ĐẦU Trích chọn thông tin khâu toán khai phá liệu Ngày nay, với phát triển công nghệ thông tin, Tin học dần đƣợc ứng dụng rộng rãi nhiều lĩnh vực nhƣ kinh tế, thƣơng mại, y tế, ngân hàng mang lại nhiều lợi ích to lớn Bản thân tơi công tác Học viện Cảnh sát nhân dân, tơi có hiểu biết định cơng tác giữ gìn trật tự an tồn xã hội lực lƣợng cảnh sát nhân dân Tôi nhận thấy, hoạt động lực lƣợng cảnh sát có liên quan nhiều đến việc lƣu trữ hồ sơ liệu, tra cứu, phân tích tổng hợp liệu Tuy nhiên, công tác quản lý hồ sơ liệu hiệu hạn chế định Do tơi mạnh dạn chọn đề tài tập trung nghiên cứu vào việc trích lọc thơng tin tập văn pháp luật Trong nhiều thập kỷ qua, nhà khoa học quan tâm đến lĩnh vực xử lý ngôn ngữ tự nhiên nghiên cứu đề xuất đƣợc nhiều phƣơng pháp, mơ hình xử lý ngôn ngữ với hiệu cao Nổi bật số phƣơng pháp học máy bán giám sát dựa mơ hình trƣờng ngẫu nhiên có điều kiện theo tiêu chuẩn kỳ vọng tổng quát, phƣơng pháp đạt đƣợc kết khả quan tập liệu ngôn ngữ tiếng Anh chƣa đƣợc áp dụng cho tiếng Việt Đƣợc giúp đỡ đồng ý Thầy giáo hƣớng dẫn TS Nguyễn Lê Minh, tác giả định sử dụng mơ hình ứng dụng cho tập văn pháp luật Bố cục luận văn chia thành chương sau:  Chƣơng 1: Trình bày kiến thức mơ hình trƣờng ngẫu nhiên có điều kiện phƣơng pháp học máy bán giám sát  Chƣơng 2: Trình bày tiêu chuẩn kỳ vọng tổng quát áp dụng tiêu chuẩn kỳ vọng tổng qt vào mơ hình trƣờng ngẫu nhiên có điều kiện  Chƣơng 3: Trình bày tốn trích chọn thƣc thể tập văn pháp luật đề xuất mơ hình giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Chƣơng 4: Trình bày thực nghiệm tập liệu sử dụng số mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn hóa entropy theo tiêu chuẩn kỳ vọng tổng quát; Từ đánh giá kết thu đƣợc Trong phần kết luận, luận văn tóm tắt lại cơng việc thực kết đạt đƣợc Đồng thời đề cập đến điểm hạn chế luận văn hƣớng nghiên cứu tƣơng lai  -8- CHƢƠNG HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN 1.1 Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện Mơ hình trƣờng ngẫu nhiên có điều kiện (Conditional Random Fields, viết tắt CRFs) đƣợc Lafferty cộng sự, 2001 [LCP01] giới thiệu lần vào năm 2001 CRFs mơ hình dƣạ xác suất có điều kiện, cho phép tích hợp đƣợc thuộc tính đa dạng ch̃i dƣƣ̃liêụ quan sát nhằm h ỡ trợ cho q trình phân lớp Tuy nhiên, khác với mơ hình xác suất khác, CRFs mơ hình đồ thị vơ hƣớng Điều cho phép CRFs định nghĩa phân phối xác suất tồn ch̃i trạng thái với điều kiêṇ biết ch̃i quan sát cho trƣ ớc thay phân phối mỗi trạng thái với điều kiêṇ bi ết trạng thái trƣớc quan sát nhƣ mơ hình đồ thị có hƣớng khác Theo Lafferty cộng [LCP01], Hanna M Wallach, 2002 2004 [Wal02, Wal04], chất “phân phối điều kiên”g̣ và“phân phối tồn cuc”g̣ CRF s cho phép mơ hinh ̀ khắc phucg̣ đƣơcg̣ nhƣơcg̣ điểm mơ hinh ̀ trƣ ớc việc gán nhãn phân đoaṇ dƣƣ̃liêụ dangg̣ chuỗi mà tiêu biểu vấn đề „label bias‟ Khi đề cập đến trƣờng ngẫu nhiên có điều kiện, sử dụng số qui ƣớc kí hiệu:  Chữ viết hoa X, Y, Z…kih ́ iêụ biến ngẫu nhiên  Chữ thƣờng đậm x, y, t, s,…kí hiệu vector nhƣ vector biểu diêñ chuỗi dƣƣ̃liêụ quan sát, vector biểu diêñ chuỗi nhãn …  Chƣƣ̃vi ết thƣờng in đâṃ cóchỉsốlàkíhiêụ mơṭthành phần mơṭvector, ví dụ xi chỉ thành phần vị trí i vector x  Chữ viết thƣờng không đậm nhƣ x , y,… kih́ iêụ giá tr ị đơn nhƣ dƣƣ̃liêụ quan sát hay trangg̣ thái  S: Tâpg̣ hƣƣ̃u haṇ trangg̣ thái môṭmô hinh̀ CRFs 1.1.1 Khái niệm trƣờng ngẫu nhiên có điều kiện Kí hiệu X biến ngâũ nhiên nhâṇ giátri lạ̀chuỗi dƣƣ̃liêụ cần phải gán nhañ Y biến ngẫu nhiên nhận giá trị chuỗi nhãn tƣơng ứng Mỗi thành phần Yi Y biến ngẫu nhiên n hâṇ g iá trị tập hữu hạn trạng thái S Trong toán gán nhãn t loại, X nhận giá trị câu ngôn ngữ tƣ g̣ nhiên (gồm từ), Y chuỗi ngẫu nhiên nhãn tƣơng ứng với t Entropy Regularization Việc gán nhãn theo mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tác giả chƣa thực đƣợc việc sử dụng mơ hình cần nhớ lớn, vƣợt khả đáp ứng máy tính -38- 32bit tác giả Nên nhóm thực nghiệm nhóm thực nghiệm sau tác giả chỉ báo cáo kết mơ hình CRFs đơn CRFs sử dụng Entropy Regularization ORG PER LOC MISC OVERALL Bảng Kết quả nhóm thực nghiệm 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 CRFs Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 4: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 80% tập liệu kiểm tra ORG PER LOC MISC OVERALL Bảng Kết quả nhóm thực nghiệm -39- 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 CRFs Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 5: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 100% tập liệu kiểm tra ORG PER LOC MISC OVERALL Bảng Kết quả nhóm thực nghiệm -40- 1.0000 0.9000 0.8000 0.7000 0.6000 0.5000 0.4000 0.3000 0.2000 0.1000 0.0000 CRFs Hình 10 Kết quả nhóm thực nghiệm 4.2.4 Đánh giá Qua nhóm thực nghiệm ta thấy có số nhận xét nhƣ sau: - Đối với mơ hình CRFs đơn thuần, tăng kích thƣớc tập liệu huấn luyện độ xác cao hay hàm F-measure cao Điều phù hợp với mơ hình học máy có giám sát Thậm chí nhóm thực nghiệm thứ kết mơ hình CRFs đơn cịn nhỉnh so với kết mơ hình CRFs sử dụng Entropy Regularization - Kết mơ hình học máy bán giám sát (Mơ hình CRFs sử dụng Entropy Regularization Mơ hình CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát) tốt so với kết mơ hình học máy có giám sát (Mơ hình CRFs đơn thuần), đặc biệt với tập liệu huẫn luyện nhỏ - Mặc dù Mơ hình học máy bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát mới chỉ thực đƣợc tập liệu huấn luyện nhỏ (tập liệu huấn luyện 10% 20%), nhƣng cho thấy mơ hình cho kết tốt mơ hình học máy bán giám sát CRFs sử dụng Entropy Regularization Các kết thực nghiệm chƣa hồn thiện, kết bị ảnh hƣởng thân liệu thu thập số trƣờng hợp nhập nhằng tiếng Việt, nhƣng góp phần phản ánh ƣu điểm phƣơng pháp học máy bán giám sát so với phƣơng pháp học máy có giám sát nói chung, đồng thời cho thấy hiệu mơ hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát 4.3 Kết luận chƣơng Tiến hành thực nghiệm để phân tích đánh giá kết đạt đƣợc Ở đây, tác giả tiến hành năm nhóm thực nghiệm, mỡi nhóm thực nghiệm sử dụng tập -41- liệu huấn luyện đƣợc phân chia khác tiến hành gán nhãn liệu theo mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization Mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tập liệu huấn luyện tập liệu kiểm tra Qua đánh giá hiệu mơ hình nói riêng hiệu phƣơng pháp học máy có giám sát bán giám sát nói chung -42- KẾT LUẬN Sau thời gian tìm hiểu nghiên cứu tốn trích lọc thơng tin phƣơng pháp học máy bán giám sát dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng qt, luận văn đạt đƣợc số kết sau - Giới thiệu mơ hình trƣờng điều kiện ngẫu nhiên CRFs phƣơng pháp học máy bán giám sát CRFs mơ hình dƣạ xác suất điều kiện , tích hợp đƣợc thuộc tính đa dạng chuỗi dƣƣ̃liêụ quan sát nhằm hỗ trợ cho q trình phân lớp CRFs có nhiều ƣu điểm mơ hình xác suất khác đồng thời khắc phục đƣợc nhƣợc điểm mà mơ hình xác suất khác gặp phải tiêu biểu vấn đề “label bias” Phƣơng pháp học máy bán giám sát kết hợp phƣơng pháp truyền thống – học máy có giám sát học máy khơng có giám sát, cách học sử dụng thông tin chứa liệu chƣa gán nhãn tập liệ gán nhãn nhằm mở rộng tập liệu gán nhãn ban đầu Trong trình học nhƣ phƣơng pháp tận dụng đƣợc thông tin phong phú liệu chƣa gán nhãn, mà chỉ yêu cầu số lƣợng nhỏ liệu gán nhãn - Giới thiệu tiêu chuẩn kỳ vọng tổng quát áp dụng vào mơ hình CRFs Tiêu chuẩn kỳ vọng tổng quát điều kiện hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình Luận văn đề cập đến cách xây dựng công thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng qt, từ áp dụng vào mơ hình CRFs thiết lập thơng số cho mơ hình theo tiêu chuẩn kỳ vọng tổng quát - Đề xuất mơ hình cho tốn trích chọn thơng tin thực thể tập văn pháp luật dựa phƣơng pháp học máy bán giám sát dựa mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Đồng thời sử dụng công cụ Mallet đƣợc viết Andrew McCallum đồng nghiệp cho tập liệu tiếng Việt theo mơ hình đề xuất trích lọc loại thực thể: LOC, PER, ORG VÀ MISC Tuy nhiên, để có đƣợc tập huấn luyện tốt địi hỏi nhiều thời gian cơng sức Trong thời gian có hạn, tác giả mới chỉ xây dựng đƣợc tập liệu huấn luyện tập ràng buộc liệu vừa phải Với tập liệu này, đƣa vào tập liệu kiểm tra kết thu đƣợc cịn hạn chế Mặc dù, mơ hình thu đƣợc kết khả quan tập ngôn ngữ tiếng Anh, nhƣng lần mơ hình đƣợc áp dụng cho ngôn ngữ tiếng Việt đặc điểm riêng biệt tiếng Việt nên luận văn khơng thể tránh khỏi -43- thiếu sót hạn chế định Tôi mong nhận đƣợc ý kiến nhận xét góp ý để luận văn đƣợc hồn thiện Xử lý ngơn ngữ tự nhiên vấn đề phức tạp Hiện có nhiều cơng cụ xử lý ngơn ngữ tự nhiên, nhiên hầu hết chúng đƣợc áp dụng cho tiếng Anh tiếng Pháp Các đặc thù ngôn ngữ khác nên việc chuyển đổi ngơn ngữ gặp nhiều khó khăn đặc biệt đối với ngôn ngữ phong phú đa dạng nhƣ tiếng Việt Trong thời gian tới, tác giả tập trung xây dựng hoàn thiện liệu huấn luyện tập ràng buộc đặc trƣng liệu nhằm cải thiện độ xác mơ hình TÀ [AG05] [BC01] [BC09] [BLR04] [BM98] [BN04] [BNJ03] [BNS05] [BNS06] M R Amini an supervisor Kn A Blum and S graph mincuts Machine Learn Kedar Bellare, for Bootstrapp Conference on 140, 2009 A Blum, J L learning using Conference on A Blum and T training In Pro Learning Theo M Belkin and manifolds Mac David M Ble Allocation Un M Belkin, P N Proceedings of and Statistics, p M Belkin, P geometric fram Journal of Mac [BS06] [Car10] [CMD07] [CZ05] U Brefeld and T Scheffer Semi-supervised lear variables In Pr Learning, page Andrew Carlso (CMU-ML-10Andrew McCa Expectation C Massachusetts O Chapelle a separation In p Intelligence an -45- [DLR77] [DMC07] [DMC08] [DMC09] [Erk10] [FUS05] [GB04] [GY05] [GZ00] [HC71] [HM07] [Joa99] [JWL06] A P Dempster, N M Laird, and D B Rubin Maximum likelihood from incomplete data via the EM algorithm Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977 Gregory Druck, Gideon Mann, Andrew McCallum (2007) Leveraging Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007 Gregory Druck, Gideon Mann and Andrew McCallum (2008) Learning from Labeled Features using Generalized Expectation Criteria, SIGIR 08, 2008 Gregory Druck, Gideon Mann, Andrew McCallum (2009) Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria, The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP: 360–368 Ayse Naz Erkan (2010) Semi-supervised Learning via Generalized Maximum Entropy, PhD Thesis, New York University, 2010 A Fujino, N Ueda, and K Saito A hybrid generative/discriminative approach to semi-supervised classifier design In Proceedings of the 20th National Conference on Artificial Intelligence, pages 764–769, Pittsburgh, PA, 2005 Y.Grandvaletand, Y.Bengio Semi-supervised learning by entropy minimization In Advances in Neural Information Processing Systems, 2004 Y Grandvalet and Y Bengio Semi-supervised learning by entropy minimization In L K Saul, Y.Weiss, and L Bottou, editors, Advances in Neural Information Processing Systems 17, pages 529–536 MIT Press, Cambridge, MA, 2005 S Goldman and Y Zhou Enhancing supervised learning with unlabeled data In Proceedings of the 17th International Conference on Machine Learning, pages 327–334, San Francisco, CA, 2000 J.Hammersley and P Clifford (1971) Markov fields on finite graphs and lattices Unpublished manuscript M Hein and M Maier Manifold denoising In B Schăolkopf, J C Platt, and T editors, Advances in Neural Information Processing Systems 19, pages 561–568 MIT Press, Cambridge, MA, 2007 T Joachims Transductive inference for text classification using support vector machines In Proceedings of the 16th International Conference on Machine Learning, pages 200–209, Bled, Slovenia, 1999 Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale Schuurmans (2006) Semi-supervised conditional random fields for improved sequence segmentation and labeling, The 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics: 209-216, 2006 Hoff man, [KL51] S Kullback an [KQ10] [Kul59] [LCP01] [LJ05] [Mal02] [MC08] [MC10] [MGZ04] [MMI02] [MU97] [NCT00] [NG00] Mathematical S Pavel P Kuksa Recognition wi S Kullback In 1959 John Laferty, A Fields: Probabi Proc of the E (ICML-2001), N D Lawrenc processes In L Neural Inform Cambridge, MA Robert Malouf parameter estim Language Lear Gideon S Ma Criteria for Sem 08 (HLT): 870– Gideon S Ma Criteria for Sem of Machine Lea Scott Miller, Je Word Clusters Masaki Murata Learning Meth Transactions on 2002, Pages 14 D J Miller and based on both l T Petsche, edit pages 571–577 K.Nigam, A K from labeled an 3):103–134, 20 K Nigam and R Ghani Analyzing the effective training In Pr Information an 2000 -47- [QKC09] [SL94] Yanjun Qi, Pavel Kuksa, Ronan Collobert, Kunihiko Sadamasa, Koray Kavukcuoglu, and Jason Weston (2009) Semi-Supervised Sequence Labeling with Self-Learned Features, The 2009 Ninth IEEE International Conference on Data Mining: 428-437, 2009 B Shahshahani and D Landgrebe The effect of unlabeled samples in [Spr07] [Wal02] [Wal04] [WHW09] [ZBL04] [ZC06] [ZGL03] [Zho08] [ZL05] [ZL07] reducing the small sample size problem and mitigating the hughes phenomenon IEEE Transactions on Geo-science and Remote Sensing, 32(5):1087–1095, 1994 Richard Sproat Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide Department of Electrical and Computer Engineering, University of Illinois at UrbanaChampaign ECE 398RS Courses, Fall 2007 Hanna M Wallach Efficient Training of Conditional Random Fields Technical Report, University of Edinburgh, 2002 Hanna M.Wallach Conditional Random Fields: An introduction Technical Report MS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania February 24, 2004 Yang Wang, Gholamreza Haffari, Shaojun Wang, Greg Mori (2009) A Rate Distortion Approach for Semi-Supervised Conditional Random Fields, NIPS2009, 2009 D Zhou, O Bousquet, T N Lal, J Weston, and B Schăolkopf Learning with local and global consistency In S Thrun, L Saul, and B Schăolkopf, editors, Advances in Neural Information Processing Systems 16 MIT Press, Cambridge, MA, 2004 Z.-H Zhou, K.-J Chen, and H.-B Dai Enhancing relevance feedback in image retrieval using unlabeled data ACM Transactions on Information Systems, 24(2):219–244, 2006 X Zhu, Z Ghahramani, and J Lafferty Semi-supervised learning using Gaussian fields and harmonic functions In Proceedings of the 20th International Conference on Machine Learning, pages 912–919, Washington, DC, 2003 Z H Zhou Semi-supervised learning by disagreement In Proceedings of the 4th IEEE International Conference on Granular Computing, Hangzhou, China, 2008 Z H Zhou and M Li Tri-training: Exploiting unlabeled data using three classifiers IEEE Transactions on Knowledge and Data Engineering, 17(11):1529–1541, 2005 Z H Zhou and M Li Semi-supervised regression with co-training style algorithms IEEE Transactions on Knowledge and Data Engineering, 19(11):1479–1493, 2007 -48- [ZL07b] [ZL10] [ZZY07] X Zhang and W S Lee Hyperparameter learning for graph based semisupervised learning algorithms In B Schăolkopf, J Platt, and T Hofmann, editors, Advances in Neural Information Processing Systems 19, pages 1585–1592 MIT Press, Cambridge, MA, 2007 Zhi-Hua Zhou and Ming Li Semi-supervised Learning by Disagreement National Key Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China 2010 Z.-H Zhou, D.-C Zhan, and Q Yang Semi-supervised learning with very few labeled training examples In Proceedings of the 22nd AAAI Conference on Artificial Intelligence, pages 675–680, Vancouver, Canada, 2007 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG... Một số thuật toán học máy bán giám sát 1.2.2 Sơ mơ hình học máy bán giám sát CRFs 1.3 Kết luận chƣơng CHƢƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT... giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Chƣơng 4: Trình bày thực nghiệm tập liệu sử dụng số mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn hóa

Ngày đăng: 11/11/2020, 22:25

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan