Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 604805 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ NGUYỄN LÊ MINH Hà Nội, 2011 LỜI CAM ĐOAN MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU KÝ TỰ VIẾT TẮT LỜI CẢM ƠN LỜI MỞ ĐẦU CHƢƠNG 1: HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN 1.1 Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện 1.1.1 Khái niệm trƣờng ngẫu nhiên có điều kiện 1.1.2 Học máy CRFs 1.1.2.1 Hàm tiềm mơ hình CRFs 1.1.2.2 Thuâṭtoan gan nhan cho dƣ liêụ dangg̣ chuỗi ́ ́ 1.1.2.3 Ƣớc lƣợng tham số cho mơ hình CRFs 1.2 Học máy bán giám sát CRFs 1.2.1 Học máy bán giám sát 1.2.1.1 Học khơng có giám sát Học có giám sát 1.2.1.2 Học máy bán giám sát 1.2.1.3 Một số thuật toán học máy bán giám sát 1.2.2 Sơ mơ hình học máy bán giám sát CRFs 1.3 Kết luận chƣơng CHƢƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT 2.1 Tiêu chuẩn kỳ vọng tổng quát 2.1.1 Giới thiệu sơ 2.1.2 Tiêu chuẩn kỳ vọng tổng quát 2.2 Mơ hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát 2.3 Kết luận chƣơng -2- CHƢƠNG 3: MỘT MƠ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH CHỌN THƠNG TIN PHÁP LUẬT TIẾNG VIỆT 3.1 Trích chọn thông tin từ văn pháp luật tiếng Việt 3.1.1 Một số đặc trƣng miền liệu văn pháp luật tiếng Việt 3.1.2 Bài tốn trích chọn thơng tin văn pháp luật tiếng Việt 3.2 Một mơ hình học máy bán giám sát CRFs trích chọn thơng tin pháp luật tiếng Việt 3.2.1 Một số phân tích 3.2.2 Mơ hình đề nghị 3.2.3 Lựa chọn thuộc tính 3.2.4 Cách đánh giá 3.3 Kết luận chƣơng CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Mơ hình thực nghiệm 4.1.1 Dữ liệu thực nghiệm 4.1.2 Bộ công cụ Mallet 4.2 Thực nghiệm đánh giá 4.2.1 Môi trƣờng thực nghiệm 4.2.2 Mơ tả quy trình thực nghiệm 4.2.3 Kết thực nghiệm 4.2.4 Đánh giá 4.3 Kết luận chƣơng KẾT LUẬN TÀI LIỆU THAM KHẢO -3- DANH MỤC HÌNH VẼ Hình Đờ thị vơ hướng mơ tả CRFs Hình Môṭ bước thuâṭ toán Viterbi cải tiến 11 Hình 3/4 Mơ hình đề xuất giải quyết toán 30 Hình Tập các ràng buộc (Constraint file) .32 Hình Kết quả nhóm thực nghiệm 36 Hình Kết quả nhóm thực nghiệm 37 Hình Kết quả nhóm thực nghiệm 38 Hình Kết quả nhóm thực nghiệm 39 Hình 10 Kết quả nhóm thực nghiệm 40 -4- DANH MỤC BẢNG BIỂU Bảng Mẫu ngữ cảnh từ vựng Bảng Mẫu ngữ cảnh phát tên thực thể Bảng Kết quả nhóm thực nghiệm Bảng Kết quả nhóm thực nghiệm Bảng Kết quả nhóm thực nghiệm Bảng Kết quả nhóm thực nghiệm Bảng Kết quả nhóm thực nghiệm CRFs EM GE GEC GIS i.i.d IIS KL L-BFGS LOC MISC NER ORG PER -6- LỜI CẢM ƠN Để hoàn thành luận văn tác giả nhận đƣợc giúp đỡ từ nhiều quan, đoàn thể cá nhân Trƣớc hết xin chân thành cảm ơn thầy giáo, cô giáo Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giảng dạy, trang bị cho tơi kiến thức quý báu suốt trình học tập trƣờng Tơi xin bày tỏ lịng biết ơn sâu sắc đến TS Nguyễn Lê Minh - ngƣời thầy trực tiếp hƣớng dẫn tơi suốt q trình xây dựng hồn thành luận văn Tơi xin bày tỏ lòng biết ơn chân thành đến thầy giáo PGS.TS Hà Quang Thụy bạn Phịng thí nghiệm công nghệ tri thức, Trƣờng Đại học Công nghệ giúp đỡ đóng góp nhiều ý kiến quý báu cho tơi Cuối cùng, tơi xin bày tỏ lịng biết ơn sâu sắc tới gia đình, bạn bè, ngƣời ln động viên, giúp đỡ tơi nhiệt tình để hoàn thành luận văn Hà Nội, tháng 05 năm 2011 Học viên Phạm Thị Ngân -7- LỜI MỞ ĐẦU Trích chọn thông tin khâu toán khai phá liệu Ngày nay, với phát triển công nghệ thông tin, Tin học dần đƣợc ứng dụng rộng rãi nhiều lĩnh vực nhƣ kinh tế, thƣơng mại, y tế, ngân hàng mang lại nhiều lợi ích to lớn Bản thân tơi công tác Học viện Cảnh sát nhân dân, tơi có hiểu biết định cơng tác giữ gìn trật tự an tồn xã hội lực lƣợng cảnh sát nhân dân Tôi nhận thấy, hoạt động lực lƣợng cảnh sát có liên quan nhiều đến việc lƣu trữ hồ sơ liệu, tra cứu, phân tích tổng hợp liệu Tuy nhiên, công tác quản lý hồ sơ liệu hiệu hạn chế định Do tơi mạnh dạn chọn đề tài tập trung nghiên cứu vào việc trích lọc thơng tin tập văn pháp luật Trong nhiều thập kỷ qua, nhà khoa học quan tâm đến lĩnh vực xử lý ngôn ngữ tự nhiên nghiên cứu đề xuất đƣợc nhiều phƣơng pháp, mơ hình xử lý ngôn ngữ với hiệu cao Nổi bật số phƣơng pháp học máy bán giám sát dựa mơ hình trƣờng ngẫu nhiên có điều kiện theo tiêu chuẩn kỳ vọng tổng quát, phƣơng pháp đạt đƣợc kết khả quan tập liệu ngôn ngữ tiếng Anh chƣa đƣợc áp dụng cho tiếng Việt Đƣợc giúp đỡ đồng ý Thầy giáo hƣớng dẫn TS Nguyễn Lê Minh, tác giả định sử dụng mơ hình ứng dụng cho tập văn pháp luật Bố cục luận văn chia thành chương sau:  Chƣơng 1: Trình bày kiến thức mơ hình trƣờng ngẫu nhiên có điều kiện phƣơng pháp học máy bán giám sát  Chƣơng 2: Trình bày tiêu chuẩn kỳ vọng tổng quát áp dụng tiêu chuẩn kỳ vọng tổng qt vào mơ hình trƣờng ngẫu nhiên có điều kiện  Chƣơng 3: Trình bày tốn trích chọn thƣc thể tập văn pháp luật đề xuất mơ hình giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Chƣơng 4: Trình bày thực nghiệm tập liệu sử dụng số mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn hóa entropy theo tiêu chuẩn kỳ vọng tổng quát; Từ đánh giá kết thu đƣợc Trong phần kết luận, luận văn tóm tắt lại cơng việc thực kết đạt đƣợc Đồng thời đề cập đến điểm hạn chế luận văn hƣớng nghiên cứu tƣơng lai  -8- CHƢƠNG HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN 1.1 Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện Mơ hình trƣờng ngẫu nhiên có điều kiện (Conditional Random Fields, viết tắt CRFs) đƣợc Lafferty cộng sự, 2001 [LCP01] giới thiệu lần vào năm 2001 CRFs mơ hình dƣạ xác suất có điều kiện, cho phép tích hợp đƣợc thuộc tính đa dạng ch̃i dƣƣ̃liêụ quan sát nhằm h ỡ trợ cho q trình phân lớp Tuy nhiên, khác với mơ hình xác suất khác, CRFs mơ hình đồ thị vơ hƣớng Điều cho phép CRFs định nghĩa phân phối xác suất tồn ch̃i trạng thái với điều kiêṇ biết ch̃i quan sát cho trƣ ớc thay phân phối mỗi trạng thái với điều kiêṇ bi ết trạng thái trƣớc quan sát nhƣ mơ hình đồ thị có hƣớng khác Theo Lafferty cộng [LCP01], Hanna M Wallach, 2002 2004 [Wal02, Wal04], chất “phân phối điều kiên”g̣ và“phân phối tồn cuc”g̣ CRF s cho phép mơ hinh ̀ khắc phucg̣ đƣơcg̣ nhƣơcg̣ điểm mơ hinh ̀ trƣ ớc việc gán nhãn phân đoaṇ dƣƣ̃liêụ dangg̣ chuỗi mà tiêu biểu vấn đề „label bias‟ Khi đề cập đến trƣờng ngẫu nhiên có điều kiện, sử dụng số qui ƣớc kí hiệu:  Chữ viết hoa X, Y, Z…kih ́ iêụ biến ngẫu nhiên  Chữ thƣờng đậm x, y, t, s,…kí hiệu vector nhƣ vector biểu diêñ chuỗi dƣƣ̃liêụ quan sát, vector biểu diêñ chuỗi nhãn …  Chƣƣ̃vi ết thƣờng in đâṃ cóchỉsốlàkíhiêụ mơṭthành phần mơṭvector, ví dụ xi chỉ thành phần vị trí i vector x  Chữ viết thƣờng không đậm nhƣ x , y,… kih́ iêụ giá tr ị đơn nhƣ dƣƣ̃liêụ quan sát hay trangg̣ thái  S: Tâpg̣ hƣƣ̃u haṇ trangg̣ thái môṭmô hinh̀ CRFs 1.1.1 Khái niệm trƣờng ngẫu nhiên có điều kiện Kí hiệu X biến ngâũ nhiên nhâṇ giátri lạ̀chuỗi dƣƣ̃liêụ cần phải gán nhañ Y biến ngẫu nhiên nhận giá trị chuỗi nhãn tƣơng ứng Mỗi thành phần Yi Y biến ngẫu nhiên n hâṇ g iá trị tập hữu hạn trạng thái S Trong toán gán nhãn t loại, X nhận giá trị câu ngôn ngữ tƣ g̣ nhiên (gồm từ), Y chuỗi ngẫu nhiên nhãn tƣơng ứng với t Entropy Regularization Việc gán nhãn theo mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tác giả chƣa thực đƣợc việc sử dụng mơ hình cần nhớ lớn, vƣợt khả đáp ứng máy tính -38- 32bit tác giả Nên nhóm thực nghiệm nhóm thực nghiệm sau tác giả chỉ báo cáo kết mơ hình CRFs đơn CRFs sử dụng Entropy Regularization ORG PER LOC MISC OVERALL Bảng Kết quả nhóm thực nghiệm 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 CRFs Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 4: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 80% tập liệu kiểm tra ORG PER LOC MISC OVERALL Bảng Kết quả nhóm thực nghiệm -39- 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 CRFs Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 5: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 100% tập liệu kiểm tra ORG PER LOC MISC OVERALL Bảng Kết quả nhóm thực nghiệm -40- 1.0000 0.9000 0.8000 0.7000 0.6000 0.5000 0.4000 0.3000 0.2000 0.1000 0.0000 CRFs Hình 10 Kết quả nhóm thực nghiệm 4.2.4 Đánh giá Qua nhóm thực nghiệm ta thấy có số nhận xét nhƣ sau: - Đối với mơ hình CRFs đơn thuần, tăng kích thƣớc tập liệu huấn luyện độ xác cao hay hàm F-measure cao Điều phù hợp với mơ hình học máy có giám sát Thậm chí nhóm thực nghiệm thứ kết mơ hình CRFs đơn cịn nhỉnh so với kết mơ hình CRFs sử dụng Entropy Regularization - Kết mơ hình học máy bán giám sát (Mơ hình CRFs sử dụng Entropy Regularization Mơ hình CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát) tốt so với kết mơ hình học máy có giám sát (Mơ hình CRFs đơn thuần), đặc biệt với tập liệu huẫn luyện nhỏ - Mặc dù Mơ hình học máy bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát mới chỉ thực đƣợc tập liệu huấn luyện nhỏ (tập liệu huấn luyện 10% 20%), nhƣng cho thấy mơ hình cho kết tốt mơ hình học máy bán giám sát CRFs sử dụng Entropy Regularization Các kết thực nghiệm chƣa hồn thiện, kết bị ảnh hƣởng thân liệu thu thập số trƣờng hợp nhập nhằng tiếng Việt, nhƣng góp phần phản ánh ƣu điểm phƣơng pháp học máy bán giám sát so với phƣơng pháp học máy có giám sát nói chung, đồng thời cho thấy hiệu mơ hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát 4.3 Kết luận chƣơng Tiến hành thực nghiệm để phân tích đánh giá kết đạt đƣợc Ở đây, tác giả tiến hành năm nhóm thực nghiệm, mỡi nhóm thực nghiệm sử dụng tập -41- liệu huấn luyện đƣợc phân chia khác tiến hành gán nhãn liệu theo mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization Mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tập liệu huấn luyện tập liệu kiểm tra Qua đánh giá hiệu mơ hình nói riêng hiệu phƣơng pháp học máy có giám sát bán giám sát nói chung -42- KẾT LUẬN Sau thời gian tìm hiểu nghiên cứu tốn trích lọc thơng tin phƣơng pháp học máy bán giám sát dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng qt, luận văn đạt đƣợc số kết sau - Giới thiệu mơ hình trƣờng điều kiện ngẫu nhiên CRFs phƣơng pháp học máy bán giám sát CRFs mơ hình dƣạ xác suất điều kiện , tích hợp đƣợc thuộc tính đa dạng chuỗi dƣƣ̃liêụ quan sát nhằm hỗ trợ cho q trình phân lớp CRFs có nhiều ƣu điểm mơ hình xác suất khác đồng thời khắc phục đƣợc nhƣợc điểm mà mơ hình xác suất khác gặp phải tiêu biểu vấn đề “label bias” Phƣơng pháp học máy bán giám sát kết hợp phƣơng pháp truyền thống – học máy có giám sát học máy khơng có giám sát, cách học sử dụng thông tin chứa liệu chƣa gán nhãn tập liệ gán nhãn nhằm mở rộng tập liệu gán nhãn ban đầu Trong trình học nhƣ phƣơng pháp tận dụng đƣợc thông tin phong phú liệu chƣa gán nhãn, mà chỉ yêu cầu số lƣợng nhỏ liệu gán nhãn - Giới thiệu tiêu chuẩn kỳ vọng tổng quát áp dụng vào mơ hình CRFs Tiêu chuẩn kỳ vọng tổng quát điều kiện hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình Luận văn đề cập đến cách xây dựng công thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng qt, từ áp dụng vào mơ hình CRFs thiết lập thơng số cho mơ hình theo tiêu chuẩn kỳ vọng tổng quát - Đề xuất mơ hình cho tốn trích chọn thơng tin thực thể tập văn pháp luật dựa phƣơng pháp học máy bán giám sát dựa mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Đồng thời sử dụng công cụ Mallet đƣợc viết Andrew McCallum đồng nghiệp cho tập liệu tiếng Việt theo mơ hình đề xuất trích lọc loại thực thể: LOC, PER, ORG VÀ MISC Tuy nhiên, để có đƣợc tập huấn luyện tốt địi hỏi nhiều thời gian cơng sức Trong thời gian có hạn, tác giả mới chỉ xây dựng đƣợc tập liệu huấn luyện tập ràng buộc liệu vừa phải Với tập liệu này, đƣa vào tập liệu kiểm tra kết thu đƣợc cịn hạn chế Mặc dù, mơ hình thu đƣợc kết khả quan tập ngôn ngữ tiếng Anh, nhƣng lần mơ hình đƣợc áp dụng cho ngôn ngữ tiếng Việt đặc điểm riêng biệt tiếng Việt nên luận văn khơng thể tránh khỏi -43- thiếu sót hạn chế định Tôi mong nhận đƣợc ý kiến nhận xét góp ý để luận văn đƣợc hồn thiện Xử lý ngơn ngữ tự nhiên vấn đề phức tạp Hiện có nhiều cơng cụ xử lý ngơn ngữ tự nhiên, nhiên hầu hết chúng đƣợc áp dụng cho tiếng Anh tiếng Pháp Các đặc thù ngôn ngữ khác nên việc chuyển đổi ngơn ngữ gặp nhiều khó khăn đặc biệt đối với ngôn ngữ phong phú đa dạng nhƣ tiếng Việt Trong thời gian tới, tác giả tập trung xây dựng hoàn thiện liệu huấn luyện tập ràng buộc đặc trƣng liệu nhằm cải thiện độ xác mơ hình TÀ [AG05] [BC01] [BC09] [BLR04] [BM98] [BN04] [BNJ03] [BNS05] [BNS06] M R Amini an supervisor Kn A Blum and S graph mincuts Machine Learn Kedar Bellare, for Bootstrapp Conference on 140, 2009 A Blum, J L learning using Conference on A Blum and T training In Pro Learning Theo M Belkin and manifolds Mac David M Ble Allocation Un M Belkin, P N Proceedings of and Statistics, p M Belkin, P geometric fram Journal of Mac [BS06] [Car10] [CMD07] [CZ05] U Brefeld and T Scheffer Semi-supervised lear variables In Pr Learning, page Andrew Carlso (CMU-ML-10Andrew McCa Expectation C Massachusetts O Chapelle a separation In p Intelligence an -45- [DLR77] [DMC07] [DMC08] [DMC09] [Erk10] [FUS05] [GB04] [GY05] [GZ00] [HC71] [HM07] [Joa99] [JWL06] A P Dempster, N M Laird, and D B Rubin Maximum likelihood from incomplete data via the EM algorithm Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977 Gregory Druck, Gideon Mann, Andrew McCallum (2007) Leveraging Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007 Gregory Druck, Gideon Mann and Andrew McCallum (2008) Learning from Labeled Features using Generalized Expectation Criteria, SIGIR 08, 2008 Gregory Druck, Gideon Mann, Andrew McCallum (2009) Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria, The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP: 360–368 Ayse Naz Erkan (2010) Semi-supervised Learning via Generalized Maximum Entropy, PhD Thesis, New York University, 2010 A Fujino, N Ueda, and K Saito A hybrid generative/discriminative approach to semi-supervised classifier design In Proceedings of the 20th National Conference on Artificial Intelligence, pages 764–769, Pittsburgh, PA, 2005 Y.Grandvaletand, Y.Bengio Semi-supervised learning by entropy minimization In Advances in Neural Information Processing Systems, 2004 Y Grandvalet and Y Bengio Semi-supervised learning by entropy minimization In L K Saul, Y.Weiss, and L Bottou, editors, Advances in Neural Information Processing Systems 17, pages 529–536 MIT Press, Cambridge, MA, 2005 S Goldman and Y Zhou Enhancing supervised learning with unlabeled data In Proceedings of the 17th International Conference on Machine Learning, pages 327–334, San Francisco, CA, 2000 J.Hammersley and P Clifford (1971) Markov fields on finite graphs and lattices Unpublished manuscript M Hein and M Maier Manifold denoising In B Schăolkopf, J C Platt, and T editors, Advances in Neural Information Processing Systems 19, pages 561–568 MIT Press, Cambridge, MA, 2007 T Joachims Transductive inference for text classification using support vector machines In Proceedings of the 16th International Conference on Machine Learning, pages 200–209, Bled, Slovenia, 1999 Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale Schuurmans (2006) Semi-supervised conditional random fields for improved sequence segmentation and labeling, The 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics: 209-216, 2006 Hoff man, [KL51] S Kullback an [KQ10] [Kul59] [LCP01] [LJ05] [Mal02] [MC08] [MC10] [MGZ04] [MMI02] [MU97] [NCT00] [NG00] Mathematical S Pavel P Kuksa Recognition wi S Kullback In 1959 John Laferty, A Fields: Probabi Proc of the E (ICML-2001), N D Lawrenc processes In L Neural Inform Cambridge, MA Robert Malouf parameter estim Language Lear Gideon S Ma Criteria for Sem 08 (HLT): 870– Gideon S Ma Criteria for Sem of Machine Lea Scott Miller, Je Word Clusters Masaki Murata Learning Meth Transactions on 2002, Pages 14 D J Miller and based on both l T Petsche, edit pages 571–577 K.Nigam, A K from labeled an 3):103–134, 20 K Nigam and R Ghani Analyzing the effective training In Pr Information an 2000 -47- [QKC09] [SL94] Yanjun Qi, Pavel Kuksa, Ronan Collobert, Kunihiko Sadamasa, Koray Kavukcuoglu, and Jason Weston (2009) Semi-Supervised Sequence Labeling with Self-Learned Features, The 2009 Ninth IEEE International Conference on Data Mining: 428-437, 2009 B Shahshahani and D Landgrebe The effect of unlabeled samples in [Spr07] [Wal02] [Wal04] [WHW09] [ZBL04] [ZC06] [ZGL03] [Zho08] [ZL05] [ZL07] reducing the small sample size problem and mitigating the hughes phenomenon IEEE Transactions on Geo-science and Remote Sensing, 32(5):1087–1095, 1994 Richard Sproat Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide Department of Electrical and Computer Engineering, University of Illinois at UrbanaChampaign ECE 398RS Courses, Fall 2007 Hanna M Wallach Efficient Training of Conditional Random Fields Technical Report, University of Edinburgh, 2002 Hanna M.Wallach Conditional Random Fields: An introduction Technical Report MS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania February 24, 2004 Yang Wang, Gholamreza Haffari, Shaojun Wang, Greg Mori (2009) A Rate Distortion Approach for Semi-Supervised Conditional Random Fields, NIPS2009, 2009 D Zhou, O Bousquet, T N Lal, J Weston, and B Schăolkopf Learning with local and global consistency In S Thrun, L Saul, and B Schăolkopf, editors, Advances in Neural Information Processing Systems 16 MIT Press, Cambridge, MA, 2004 Z.-H Zhou, K.-J Chen, and H.-B Dai Enhancing relevance feedback in image retrieval using unlabeled data ACM Transactions on Information Systems, 24(2):219–244, 2006 X Zhu, Z Ghahramani, and J Lafferty Semi-supervised learning using Gaussian fields and harmonic functions In Proceedings of the 20th International Conference on Machine Learning, pages 912–919, Washington, DC, 2003 Z H Zhou Semi-supervised learning by disagreement In Proceedings of the 4th IEEE International Conference on Granular Computing, Hangzhou, China, 2008 Z H Zhou and M Li Tri-training: Exploiting unlabeled data using three classifiers IEEE Transactions on Knowledge and Data Engineering, 17(11):1529–1541, 2005 Z H Zhou and M Li Semi-supervised regression with co-training style algorithms IEEE Transactions on Knowledge and Data Engineering, 19(11):1479–1493, 2007 -48- [ZL07b] [ZL10] [ZZY07] X Zhang and W S Lee Hyperparameter learning for graph based semisupervised learning algorithms In B Schăolkopf, J Platt, and T Hofmann, editors, Advances in Neural Information Processing Systems 19, pages 1585–1592 MIT Press, Cambridge, MA, 2007 Zhi-Hua Zhou and Ming Li Semi-supervised Learning by Disagreement National Key Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China 2010 Z.-H Zhou, D.-C Zhan, and Q Yang Semi-supervised learning with very few labeled training examples In Proceedings of the 22nd AAAI Conference on Artificial Intelligence, pages 675–680, Vancouver, Canada, 2007 ...ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG... Một số thuật toán học máy bán giám sát 1.2.2 Sơ mơ hình học máy bán giám sát CRFs 1.3 Kết luận chƣơng CHƢƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT... giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Chƣơng 4: Trình bày thực nghiệm tập liệu sử dụng số mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn hóa

Trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan