1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu kỹ thuật gán nhãn cho dữ liệu dạng chuỗi và ứng dụng (tt)

19 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TẬP ĐỒN BƯU CHÍNH VIỄN THƠNG VIỆT NAM HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG - BÙI ĐỨC TRUNG NGHIÊN CỨU KỸ THUẬT GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI VÀ ỨNG DỤNG CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI – 2010 Luận văn hoàn thành tại: Học viện Cơng nghệ Bưu Viễn thơng Tập đồn Bưu Viễn thơng Việt Nam Người hướng dẫn khoa học: PGS.TS TỪ MINH PHƯƠNG Phản biện 1: …………………………………………………… …………………………………………………… Phản biện 2: …………………………………………………… …………………………………………………… Luận văn bảo vệ trước hội đồng chấm luận văn Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng LỜI MỞ ĐẦU Dữ liệu dạng chuỗi tập phần tử thứ tự s:= a1, a2, an Trong phần tử kiểu số nhận giá trị rời rạc Độ dài n chuỗi không cố định, chuỗi theo thứ tự thời gian vị trí khơng Bài tốn gán nhãn cho liệu dạng chuỗi phần quan trọng vấn đề phân loại giám sát, mà nhãn cho biến mục tiêu dự đoán đồng thời với nhãn biến khác chuỗi Có nhiều tốn thực tế giải dựa vấn đề gán nhãn cho liệu dạng chuỗi Gán nhãn cho liệu dạng chuỗi có vai trị cốt lõi, quan trọng ba tốn sau: thơng tin, nhận dạng giọng nói, ngơn ngữ chữ viết Các ứng dụng cổ điển toán gán nhãn cho liệu dạng chuỗi giọng nói với chuỗi âm vị, ngơn ngữ với chuỗi từ khoảng trắng chữ viết tay với chuỗi nét chữ Ngoài ra, số ứng dụng phương pháp Tin sinh học với toán dự đoán gen, ứng dụng viễn thông cảnh báo lỗi, gán nhãn cho gói liệu … Mơ hình Markov ẩn thành cơng với tốn gán nhãn cho liệu dạng chuỗi nhiều năm Gần đây, số mơ hình có điều kiện Maximum Entropy Markov Model (MEMM) Conditional Random Field (CRF) sử dụng nhiều khả cho phép tính chồng chéo Đặc biệt CRF coi phương pháp triển vọng toán gán nhãn cho chuỗi Bưu điện tỉnh Lạng Sơn doanh nghiệp kinh doanh dịch vụ Bưu chính, viễn thơng địa bàn tỉnh Lạng Sơn, liệu dạng chuỗi ngày xuất nhiều trình sản xuất kinh doanh đơn vị cho thấy có nhiều ứng dụng Vì lý đó, tơi chọn đề tài: “Nghiên cứu kỹ thuật gán nhãn cho liệu dạng chuỗi ứng dụng” Mục đích nghiên cứu: Nghiên cứu dạng liệu dạng chuỗi, kỹ thuật gán nhãn cho liệu dạng chuỗi ứng dụng tốn có cấu trúc thực tế Với mục tiêu cụ thể sau: - Nghiên cứu toán gán nhãn cho liệu dạng chuỗi - Nghiên cứu sỗ kỹ thuật gán nhãn cho liệu dạng chuỗi cụ thể máy vecto hỗ trợ (Support Vector Machines –SVM)s, Mơ hình Markov ẩn (Hidden Markov Model – HMM), Mạng Markov với lề cực đại (Max Margin Markov Network -M3N) Trường ngẫu nhiêu điều kiện (Conditional Random Field – CRF) - Minh hoạ kỹ thuật hai toán thường gặp Đối tượng phạm vi nghiên cứu: Luận văn tập trung vào nghiên cứu liệu dạng chuỗi có cấu trúc, kỹ thuật gán nhãn cho liệu dạng chuỗi, lĩnh vực giành nhiều ý Machine Learning lĩnh vực thu hút quan tâm nhiều đối tượng Kỹ thuật gán nhãn cho liệu dạng ứng dụng cụ thể kỹ thuật Phương pháp nghiên cứu: Nghiên cứu lý thuyết kỹ thuật gán nhãn cho liệu dạng chuỗi, nghiên cứu cụ thể kỹ thuật SVM, HMM, M3N CRF Nghiên cứu toán “Gán nhãn từ loại” toán “Nhận dạng ký tự viết tay” với ứng dụng thực tế từ có hướng giải cụ thể 3 Luận văn trình bày ba chương: Chương 1: Tổng quan Chương giới thiệu chung liệu dạng chuỗi, toán gán nhãn cho liệu dạng chuỗi ứng dụng trí tuệ nhân tạo Chương đề cập đến công nghệ ứng dụng toán gán nhãn cho liệu dạng chuỗi Chương 2: Một số mơ hình giải toán gán nhãn cho liệu dạng chuỗi Chương giới thiệu số mơ hình để giải toán gán nhãn cho liệu dạng chuỗi Trong chương ta xem xét phương pháp ứng dụng nhiều SVM, HMM, M3N CRF Ta xem xét cụ thể cách mơ hình toán gán nhãn cho liệu dạng chuỗi phương pháp Chương 3: Thiết kế thử nghiệm phân tích Trong phần ta áp dụng thuật toán đề cập phần trước để mơ hình hai tốn học có cấu trúc biết rộng rãi là: gán nhãn từ loại (Part-of-speech (POS) tagging) nhận dạng ký tự viết tay (handwritten character recognition - OCR) 4 Chương TỔNG QUAN 1.1 DỮ LIỆU DẠNG CHUỖI Dữ liệu dạng chuỗi tập phần tử thứ tự s:= a1, a2, an Trong phần tử kiểu số nhận giá trị rời rạc Độ dài n chuỗi không cố định, chuỗi theo thứ tự thời gian vị trí khơng Ngày nay, liệu dạng chuỗi ứng dụng thực tế nhiều ngành có vai trị quan trọng toán phân loại hay nhận dạng 1.2 BÀI TOÁN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI Gán nhãn cho chuỗi xác định nhãn phân loại cho thành phần chuỗi quan sát Để xác định nhãn cho thành phần chuỗi, ta xác định nhãn cho thành phần độc lập với thành phần khác Khi đó, tốn coi tập nhiệm phụ phân lớp độc lập thành phần chuỗi Tuy nhiên, nhận thấy nhãn phân loại thành phần lại phụ thuộc vào nhãn thành phần xung quanh Vì vậy, việc gán nhãn cho chuỗi cần thực theo phương pháp cho phép tính tới phụ thuộc nhãn chuỗi với Từ dẫn tới nhu cầu phát triển sử dụng kỹ thuật phân loại đặc thù cho liệu có dạng chuỗi Trong tốn gán nhãn cho liệu dạng chuỗi, đầu chuỗi nhãn y = (y1, y2, …, yT) tương ứng với chuỗi quan sát x = (x1, x2, …, xT) Nếu nhãn nhận giá trị từ tập ∑ đầu coi vấn đề phân loại đa lớp với |∑|T lớp khác Bài tốn đưa sau: Bài toán: Cho trước Đầu vào: x = (x1, x2, …, xT) Và nhãn tương ứng: y = (y1, y2, …, yT) Khi đó, với x, tiên đoán y Gán nhãn cho liệu dạng chuỗi sử dụng nhiều toán gán nhãn từ loại, nhận dạng hình ảnh, âm hay tốn dự đốn gen Mơ hình Markov ẩn thành công thời gian dài với toán gán nhãn cho liệu dạng chuỗi Gần đây, số mơ hình có điều kiện Maximum Entropy Markov Model (MEMM) Conditional Random Field (CRF) sử dụng nhiều khả cho phép tính chồng chéoTrong CRF phương pháp ý nhiều Sự quan tâm dành cho mơn Trí tuệ nhân tạo tốn gán nhãn cho liệu dạng chuỗi năm gần đáng kể Nhiều cơng trình nghiên cứu nước sử dụng gán nhãn cho liệu dạng chuỗi có ứng dụng định Trong năm gần đây, việc giải toán gán nhãn cho liệu dạng chuỗi với liệu có cấu trúc thu hút nhiều ý vấn đề xử lý ngôn ngữ tự nhiên Mục đích tốn học có cấu trúc dự đoán cấu trúc phức tạp chuỗi, hay đồ thị 6 Chương MỘT SỐ MƠ HÌNH GIẢI BÀI TỐN GÁN NHÃN CHO DỮ LIỆU DẠNG CHUỖI Chương giới thiệu số mơ hình để giải tốn gán nhãn cho liệu dạng chuỗi Trong chương ta xem xét phương pháp ứng dụng nhiều SW, SVM, HMM, M3N CRF Ta xem xét cụ thể cách mơ hình tốn gán nhãn cho liệu dạng chuỗi phương pháp 2.1 MƠ HÌNH CỬA SỔ TRƯỢT (SW) Đối với toán gán nhãn cho liệu dạng chuỗi nêu trên, có số mơ hình thích hợp dùng để giải Mơ hình Markov ẩn (Hidden Markov Model – HMM), mơ hình máy vector hỗ trợ (Support Vector Machine – SVM), mơ hình Cửa sổ trượt (Sliding Window) hay mơ hình Các trường điều kiện ngẫu nhiên (Conditional Random Fields – CRFs) Trong nói mơ hình cửa sổ trượt mơ hình đơn giản Mơ hình cửa sổ trượt chuyển vấn đề học có giám sát chuỗi thành mơ hình học có giám sát kinh điển Phương pháp xây dựng phân loại cửa sổ hw mà xếp cửa sổ đầu vào w với giá trị đầu y riêng Cụ thể, lấy d = (w-1)/2 nửa độ dài cửa sổ Khi đo cửa sổ hw dự đoán phần tử yi,t sử dụng cửa sổ Kết với chuỗi đầu vào xi thêm vào giá trị d null cuối sau chuyển thành Ni mẫu riêng biệt 7 Phương pháp cửa sổ trượt cho kết tương đối tốt số ứng dụng nhiên phương pháp không cho phép tính đến phụ thuộc giá trị yt với giá trị y khác gần Một cách để cải tiến mơ hình cửa sổ trượt nêu làm cho hồi quy Trong mơ hình cửa sổ trượt hồi quy, giá trị dự đoán cung , cấp đầu vào để hỗ trợ việc dự đoán giá trị yi,t+1 Cụ thể, với cửa sổ nửa độ dài d, hầu hết dự đoán d gần , , , ,…, , sử dụng đầu vào (cùng với cửa sổ trượt ) để dự đoán yy,t 2.2 PHƯƠNG PHÁP MÁY VECTOR HỖ TRỢ (SVM) Lấy = {( ̅ , ), … , ( ̅ , )} tập gồm m mẫu huấn luyện Giả sử mẫu ̅ đưa vào từ miền nguyên từ tập ⊆ nhãn = {1, … , } Một phân loại đa lớp hàm giá trị : → mà ánh xạ ̅ tới phần tử y Trong phần ta tập trung vào tảng mà sử dụng phân loại cho ( ̅ ) = arg { ̅} Để xây dựng dự đoán, ta thay lỗi phân loại sai mẫu ([ ( ̅ ) ≠ ]) phần biên tuyến tính sau max ̅ + 1− , − ̅ Phương pháp SVM sử dụng cho toán gán nhãn cho liệu dạng chuỗi Thay sử dụng chuỗi cặp (x,y) làm mẫu huấn luyện, SVM sử dụng cặp dấu hiệu nhãn (x, y) chuỗi làm mẫu huấn luyện Với ánh xạ đặc trưng ( , )= … |Σ| = ( = ), SVM học vector trọng số w biến lỏng ξ cho vấn đề tối ưu bậc hai sau , Với điều kiện ∀ , ∀ ∈ ‖ ‖ + \ : 〈 ,( ( , ) − ( , ))〉 ≥ − SVM sử dụng phưong pháp lát cắt để xử lý vấn đề tối ưu lặp lặp lại việc thêm hầu hết hạn chế vi phạm vào tập hợp hạn chế tối ưu cho cơng thức kép Sau ta w học ξ, phân loại mẫu x thực ( ) = arg ∈ 〈 , ( , )〉 với tìm kiếm đầy đủ nhãn y Phương pháp bao gồm tham số điều chỉnh C thoả hiệp lỗi huấn luyện biên 2.3 MƠ HÌNH MARKOV ẨN (HMM) Ta biết mơ hình Markov mơ hình mà trạng thái tương ứng với kiện quan sát Tuy nhiên mơ có ứng dụng hạn chế tốn thực tế Do đó, mơ hình mở rộng bao gồm trường hợp thống kê chồng kép với q trình thống kê mà bên khơng quan sát (ẩn sâu bên trong), quan sát thơng qua tập q trình thống kê khác, trình mà tạo dãy quan sát Mơ gọi mơ hình Markov ẩn (HMM) Một mơ hình Markov ẩn học mơ hình có khả sinh qua cặp đầu vào, cặp gồm chuỗi quan sát chuỗi nhãn Mơ hình Markov ẩn có nhiều thành cơng trước đây, mơ hình Markov ẩn khó mơ hình đa đặc trưng khơng độc lập Đúng thì, cho trước chuỗi quan sát, ta tìm tuyến trạng thái có khả cho chuỗi quan sát thuật toán Viterbi 9 max P( q q … q |o o … o ) , ,… Ở Q = q , q , … , q chuỗi trạng thái với độ dài T, O = o , o , … , o chuỗi quan sát tương ứng Ma trận chuyển trạng thái tính sau: a = P q |q Ở Count q , q = Count q , q Count(q ) số lần qj xuất theo qi Thứ hai, phân bố xác suất khởi tạo tính sau: π = P(q ) = Count(q ) n Với n số chuỗi huấn luyện Đối với quan sát rời rạc trường hợp gán nhãn từ loại, ma trận quan sát tính tốn sau: b (k) = P o |q Count o , q = Count o , q + α Count q + |∑|α số lần ok gán nhãn qj, α thông số làm mịn Thông số điều chỉnh cho trường hợp rời rạc α Đối với trường hợp quan sát vector toán nhận dạng ký tự viết tay, ta sử dụng mơ hình Markov ẩn với mật độ liên tục Gaussian để mơ hình xác suất từ trạng thái, b (k) = P o , q = (μ , Σ ) 10 Ở giá trị trung bình ma trận hiệp phương sai (covariance) quan sát phát trạng thái qj 2.4 MẠNG MARKOV VỚI BỀ MẶT PHÂN CÁCH CỰC ĐẠI (M3N) Mạng Markov với bề mặt phân cách cực đại (M3N) kết hợp chặt chẽ lõi mà có hiệu tốt với đặc trưng có khơng gian lớn, khả lưu giữ tương quan liệu có cấu trúc Ta tham khảo thuật tốn có hiệu để học mạng M3 dựa trình bày chương trình bày bậc hai Ta cung cấp lý thuyết bao cho tổng qt hố miền có cấu trúc Hướng tiếp cận định nghĩa mạng Markov tuyến tính logarit tập biến nhãn; mạng cho phép mô tả tương quan biến nhãn Sau ta định nghĩa vấn đề tối ưu dựa bề mặt phân cách thơng số mơ hình Để mạng Markov tạo thành hình tam giác dễ sử lý, kết thu từ toán quy hoạch bậc hai (Quadratic program – QP) tương đương với công thức với kích thước đa thức mà cho phép giải pháp có nhiều hiệu Trong mơ hình này, cặp mạng Markov đựoc định nghĩa dạng đồ thị G= (Y,E) Mỗi cạnh ( , ) ∈ , , , = exp , , , kết hợp với hàm tiềm , , = exp , , cặp hàm Tất cạnh đồ thị biểu thị loại tương tác, ta định nghĩa ánh xạ ( , )= , , ( , )∈ Mạng mã hố phân bố xác suất có điều kiện chung 11 ( ( | )∝ , , , = exp( ( , )) , ∈ Vector trọng số w chọn để làm cực đại bề mặt phân cách, thu tất ưu điểm tảng SVM Chương trình bậc hai M3N sử dụng công thức giống công thức (2.4.6) Tuy nhiên M3N cung cấp cách thông số hố biến đơi để có ưu điểm cấu trúc mạng vấn đề gán nhãn cho liệu dạng chuỗi 2.5 MƠ HÌNH CÁC TRƯỜNG ĐIỀU KIỆN NGẪU NHIÊN (CRF) CRF đưa định nghĩa tốt phân bổ xác suất dựa khả gán nhãn, huấn luyện khả lớn hay ước lượng MAP CRF dễ dàng tổng quát hoá để tương tự với ngữ pháp phi ngữ cảnh ngẫu nhiên mà có ích số vấn đề dự đoán cấu trúc ARN bậc hai xử lý ngôn ngữ tự nhiên Định nghĩa Lấy G = (V,E) đồ thị với Y = ( ) ∈ , Y tập mục đỉnh G Với (X,Y) trường điều kiện ngẫu nhiên trường hợp này, điều kiện đặt X, biến ngẫu nhiên Yv tuân theo thuộc tính Markov đồ thị: p(Yv|X, Yw, w≠v) = p(Yv|X, Yw, w ~ v), w ~ v nghĩa w v hàng xóm G Do đó, CRF trường ngẫu nhiên hồn tồn có điều kiện quan sát X Vấn đề ước lượng thông số xác định thông số θ = (λ , λ , … ; μ , μ , … ) từ liệu huấn luyện = {x ( ), y ( )} với phân phối kinh nghiệm p(x, y) Trong phần sau ta đề cập đến thuật toán xác định tỉ lệ nhắc lại mà làm cực đại khả theo hàm log (log-likehood) hàm mục tiêu (θ): ( ) = ∑ log () , () ∝ ∑ , ( , ) log (y|x) 12 Các đặc trưng thành phần quan trọng thành công hệ thống dựa CRF đặc trưng lọc thông tin quan trọng liệu quan sát mối quan hệ liệu đầu vào với đầu Vấn đề lựa chọn đặc trưng biết đến cách rộng rãi học máy không gian đầu khơng có cấu trúc Nói rộng ra, có ba hướng tiếp cận vấn đề Tiếp cận theo hướng lọc sử dụng số thuật toán heuristic nhanh đơn giản để chọn đặc trưng theo vài tiêu chuẩn độc lập Tiếp cận theo hướng bao đánh giá rộng rãi đặc trưng kết hợp theo biện pháp thực cuối Và cuối tiếp cận theo hướng nhúng xây dựng bước tập đặc trưng việc tiến hành học Conditional Random Field tiến đáng kể thời gian gần vấn đề học máy có kết hợp tốt mơ hình đồ thị học máy Điều chứng minh qua nhiều công việc thực tế đời sống mà thường đạt kết có tính cạnh tranh cao coi phương thức tốt để gán nhãn cho liệu dạng chuỗi Trong chương ta mô hình ứng dụng sử dụng CRF để gán nhãn cho liệu dạng chuỗi 13 Chương THIẾT KẾ THỬ NGHIỆM VÀ PHÂN TÍCH Dữ liệu gán nhãn từ loại lấy từ http://www.cs.cornell.edu/~nhnguyen/data.rar, chia thành tập huấn luyện riêng biệt với kích thước khác nhau: 500, 1000, 2000, 4000, 8000 câu Đối với kích thước huấn luyện, ta loại bỏ 10% chuỗi liệu xác thực Các đặc trưng đầu vào cho dấu hiệu (trong POS từ) thay đổi theo vị trí câu Trong tốn nhận dạng ký tự viết tay, tập liệu lấy từ http://www.cs.cornell.edu/~nhnguyen/data.rar, chứa khoảng 6.000 chữ viết tay, với độ dài xấp xỉ ký tự, từ 150 người khác nhau, liệu thu thập Kassel Tập liệu chia thành 10 phần, phần xấp xỉ 600 liệu huấn luyện, 100 liệu xác thực xấp xỉ 5.400 mẫu kiểm tra Các đặc trưng đầu vào cho tín hiệu vector miêu tả hình ảnh nhị phân 16 x chữ Để đánh giá hiệu suất tất mơ hình, ta sử dụng lỗi trung bình (AverageLoss) chuỗi: = 1 (( ) ≠ ( ) chuỗi dự đoán chuỗi thực tế; N tổng số mẫu kiểm tra; Li độ dài chuỗi thứ i; I hàm tổn thất 0-1 Tương tự, tín hiệu tổn thất (phần tín hiệu bị phân loại sai) giá trị đo lường hiệu suất Tuỳ thuộc vào không gian hạn chế mà ta thoả luận kết cho 14 tổn thất trung bình chuỗi đặt trọng số thống chuỗi tín hiệu riêng lẻ Ta đề cập đến hàm đặc trưng liên hệ với mẫu huấn luyện (x,y), với ={ } ={ } Ta thêm vào hai trạng thái biên giả, y0 = s (trạng thái bắt đầu) yT+1 = e (trạng thái kết thúc) Tại thời điểm t nhóm hàm đặc trưng thiết lập Đối với toán gán nhãn từ loại, tập quan sát câu, đoạn văn văn xếp theo kiểu định Trong đó, từ dấu nằm dòng Tập nhãn nhãn Penn Treebank Trong bảng 3.2.2, lỗi trung bình mơ hình riêng biệt liệu kiểm tra đạt cách sử dụng thiết lập thông số với lỗi xác thực tốt Trong tất mơ hình trên, ta thấy mơ hình CRF coi phương thức cho ta kết tốt tốn Lý đặc trưng đầu vào cho từ có chứa đựng nhiều thơng tin từ hàng xóm nó, với tập liệu lớn CRF đạt độ xác cao Các mơ hình SVM M3N đạt kết tốt, gần với kết CRF Kích thước tập 500 1.000 2.000 4.000 8.000 huấn luyện SVM 8,76 6,93 5,77 5,32 5,13 M3N 10,19 7,26 6,34 5,54 5,01 CRF 12,25 7,11 6,28 5,03 4,62 HMM 23,46 19,95 17,96 17,58 15,87 Bảng 3.2.2 Lỗi trung bình mơ hình tốn gán nhãn từ loại với kích thước tập liệu khác (tính theo %) Với phạm vi toán nhận dạng ký tự viết tay, ta xét liệu chuỗi toạ độ không gắn với nhãn thời gian xử lý với tốc độ đồng 15 Trong toán nhận dạng ký tự viết tay, công đoạn tiền xử lý bao gồm chức lọc nhiễu chuẩn hố hình ảnh đầu vào Với đầu vào chuỗi quan sát, ta có số phương pháp trích chọn đặc trưng đơn giản có hiệu quả, áp dụng cho tập liệu chữ viết tay rời rạc như: Trọng số vùng; Bản đồ chiếu trích chọn chu tuyến Ta thấy ngạc nhiên biểu đồ là, khác với tốn gán nhãn từ loại, mơ hình Markov ẩn có hiệu suất trung bình tương đối tốt Do đó, tuỳ thuộc vào nhiệm vụ tốn đặt ra, mơ hình sinh mơ hình Markov ẩn có kết tương đối tốt so với mơ hình khác Cũng giống tốn gán nhãn từ loại, mơ hình CRF cho kết tốt áp dụng toán nhận dạng ký tự viết tay Điều thể Do ton that trung binh hình 3.3.1 0.2650 0.2600 0.2550 0.2500 0.2450 0.2400 0.2350 0.2300 0.2250 0.2200 0.2584 0.2508 0.2370 0.2350 SVM-Multiclas CRF M3N HMM Hình 3.3.1 Lỗi trung bình mơ hình tốn nhận dạng ký tự viết tay Trong chương ta nghiên cứu ứng dụng mơ hình giải toán liệu dạng chuỗi vào hai toán học có cấu trúc tiếng cụ thể toán gán nhãn từ loại toán nhận dạng ký tự viết tay Đối với toán nhận dạng ký tự viết tay, ta thấy mơ hình Markov ẩn có hiệu tương đối tốt, qua ta cho tuỳ thuộc vào tốn, ta áp dụng mơ hình cách linh hoạt 16 để đạt kết tốt Ta thấy CRF cho hiệu tốt việc giải toán gán nhãn từ loại tốn nhận dạng ký tự viết tay Bên cạnh đó, phương pháp SVM M3N thực tương đối tốt công việc 17 KẾT LUẬN Gán nhãn cho liệu dạng chuỗi chủ đề rộng lớn Luận văn mô tả so sánh số mơ hình khác việc gán nhãn cho liệu dạng chuỗi SW, SVM, HMM, M3N CRF Luận văn thử nghiệm mơ hình với hai tốn phổ biến vấn đề gán nhãn cho liệu dạng chuỗi “Gán nhãn từ loại” “Nhận dạn ký tự viết tay” Qua tốn thực tế cho thấy, mơ hình CRF cho kết tốt mơ hình toán gán nhãn cho liệu dạng chuỗi Luận văn tập trung nghiên cứu đưa kết sau:  Trình bày tổng quan toán gán nhãn cho liệu dạng chuỗi  Trình bày số mơ hình thường dùng để giải toán gán nhãn cho liệu dạng chuỗi  Đưa toán so sánh kết đạt giải toán mơ hình khác Luận văn phát triển theo số hướng:  Tìm hiểu kỹ số mơ hình để giải tốn gán nhãn cho liệu dạng chuỗi  Xây dựng số ứng dụng khác sử dụng phương pháp gán nhãn cho liệu dạng chuỗi Mặc dù có nhiều cố gắng nghiên cứu thực luận văn, bảo nhiệt tình thầy giáo hướng dẫn, PGS.TS Từ Minh Phương, động viên giúp đỡ bạn bè, đồng nghiệp luận văn tránh khỏi thiếu sót Rất mong nhận góp ý bổ sung thầy giáo, giáo người để luận văn hoàn thiện ... tượng Kỹ thuật gán nhãn cho liệu dạng ứng dụng cụ thể kỹ thuật Phương pháp nghiên cứu: Nghiên cứu lý thuyết kỹ thuật gán nhãn cho liệu dạng chuỗi, nghiên cứu cụ thể kỹ thuật SVM, HMM, M3N CRF Nghiên. .. cứu: Nghiên cứu dạng liệu dạng chuỗi, kỹ thuật gán nhãn cho liệu dạng chuỗi ứng dụng tốn có cấu trúc thực tế Với mục tiêu cụ thể sau: - Nghiên cứu toán gán nhãn cho liệu dạng chuỗi - Nghiên cứu. .. chuỗi, toán gán nhãn cho liệu dạng chuỗi ứng dụng trí tuệ nhân tạo Chương đề cập đến công nghệ ứng dụng toán gán nhãn cho liệu dạng chuỗi Chương 2: Một số mơ hình giải tốn gán nhãn cho liệu dạng

Ngày đăng: 19/03/2021, 17:59

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w