Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
535,82 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN VĂN TẤN NGHIÊN CỨU XÂY DỰNG PHÂN HỆ TRÍCH LỌC VÀ PHÂN LOẠI DỮ LIỆU Chuyên ngành: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH Mã số: 60.48.15 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 LỜI CẢM ƠN Lời ñầu tiên xin chân thành cảm ơn TS.Trần Thiện Chính tận tình hướng dẫn, gợi mở động viên tơi suốt q trình học tập thực luận văn Tôi xin chân thành cảm ơn thầy, Khoa Sau đại học - Học viện Cơng nghệ Bưu Viễn thơng, tận tình giảng dạy, truyền đạt, giúp đỡ tơi q trình học tập tạo điều kiện thuận lợi cho tơi thực tốt luận văn Tơi xin gửi lời cám ơn đến tất bạn bè, người thân ñồng nghiệp Trung tâm điều hành thơng tin - VNPT Hà Nội ñã tạo ñiều kiện giúp ñỡ, hỗ trợ ñộng viên tơi q trình thực luận văn Tơi xin chân thành cảm ơn! Hà nội ngày 10 tháng 10 năm 2012 Học viên Nguyễn Văn Tấn CHƯƠNG -MỞ ðẦU 1.1 ðặt vấn ñề Nhận thức ñược lợi ích tầm quan trọng cơng nghệ thơng tin truyền thơng việc trì thúc ñẩy phát triển bền vững, năm qua lĩnh vực cơng nghệ thơng tin (CNTT) nói chung hoạt động ứng dụng cơng nghệ thơng tin xử lý liệu nói riêng phát triển nhanh chóng, mạnh mẽ ngày có ý nghĩa quan trọng mặt kinh tế - xãhội Vì nhu cầu phân loại, lọc liệu nhiệm vụ quan trọng hữu ích tổ chức tìm kiếm thơng tin nguồn tài nguyên lớn Phân lớp liệu nhiệm vụ quan trọng việc tổ chức tìm kiếm liệu nhiều nguồn khác Mặt khác, phân lớp liệu thành phần quan trọng kiến trúc tổng thể hầu hết máy tìm kiếm Hiện nay, tốn nhận nhiều quan tâm, nghiên cứu nhà khoa học ðể tổng hợp trích lọc liệu phân loại liệu cần phải xây dựng công cụ hỗ trợ tác nghiệp xử lý thành thơng tin để hỗ trợ nhu cầu phân tích nhà lãnh đạo, nhà chiến lược tổ chức ñời ứng dụng phục vụ cho mục đích gọi “Hệ trích lọc xử lý liệu” Dữ liệu ñược lưu trữ, xử lý, kết xuất theo nhóm loại, mục đích cụ thể dạng hướng chủ ñề 1.2 Mục tiêu phạm vi luận văn 1.2.1 Mục tiêu luận văn Với xu hướng phát triển mạnh mẽ cơng nghệ thơng tin, đặc biệt lượng thông tin, nguồn liệu lớn địi hỏi phải có hệ thống lọc, xử lý phân loại liệu Do nhu cầu cần nghiên cứu xây dựng cơng cụ trích lọc, phân loại liệu ñược ñặt nhằm nâng cao hiệu sử dụng nguồn liệu Xuất phát từ u cầu đó, tác giả đặt vấn đề nghiên cứu xây dựng phân hệ trích lọc phân tích liệu Mục đích đề tài hướng tới xây dựng cơng cụ trích lọc, phân tích liệu từ nguồn khác 1.2.2 Phạm vi luận văn ðối tượng ñề tài nguồn liệu khác Web hay Internet Phạm vi nghiên cứu ñề tài lĩnh vực trao ñổi, xử lý liệu trang Web nguồn RSS, thời hạn thực luận văn có hạn nên phạm vi luận văn này, thực nghiên cứu phương pháp rút trích phân loại cơng cụ GATE Framework 7.0 1.3 Kết ñạt ñược Nghiên cứu hệ thống trích lọc phân loại liệu từ nguồn URLs, RSS dụng GATE Framework thư viện số, ñồng thời kết hợp với việc sử dụng sở liệu có sẵn, để liệu trích lọc đảm bảo tính đầy đủ, xác cao Tập trung vào cách rút ñược thực thể quan hệ dựa vào API GATE: Trong tập trung vào rút trích thực thể quan hệ chương trình xây dựng trước 1.4 Bố cục luận văn Nội dung luận văn bố cục gồm có chương sau: Chương 1: Mở ñầu.Nội dung chương xác ñịnh vấn ñề cần nghiên cứu luận văn, mục tiêu phạm vi luận văn tóm lược kết ñạt ñược luận văn Chương 2: Khái quát trích lọc.Nội dung chương phân loại liệu, định nghĩa khái niệm trích lọc liệu từ trước ñến giới Nghiên cứu nguyên tắc rút trích, phân loại liệu, phương pháp rút trích phạm vi ứng dụng rút trich thơng tin,đặc trưng liệu q trình xử lý rút trích Chương 3:Kỹ thuật rút trích liệu phân loại.Nội dung chương thể mơ hình liệu sử SVM GATE Framework ðặc tả liệu biểu diễn mơ hình Chương 4: Kết rút trích, phân loại liệu sử dụng công cụ GATE Framwork CHƯƠNG 1-KHÁI QUÁT TRÍCH LỌC, PHÂN LOẠI DỮLIỆU 1.5 ðịnh nghĩa rút trích thơng tin Các định nghĩa ñược dùng phổ biến internet liên quan ñến trích xuất thông tin bao gồm: Các nghiên cứu liên quan đến rút trích thơng tin văn tập trung vào: - Rút trích thuật ngữ (Terminology Extraction): Tìm kiếm thuật ngữ có liên quan, thể ngữ nghĩa, nội dung, chủ ñề tài liệu hay tập tài liệu - Rút trích thực thể định danh (NER):Việc rút trích thực thể ñịnh danh tập trung vào phương pháp nhận diện đối tượng, thực thể như: tên người, tên cơng ty, tên tổ chức, ñịa danh, nơi chốn - Rút trích quan hệ (Relationship Extraction):Cần xác định mối quan hệ thực thể ñã nhận biết từ tài liệu Chẳng hạn xác ñịnh nơi chốn cho tổ chức, công ty hay nơi làm việc người 1.6 Ngun tắc rút trích thơng tin Theo tiến sĩ Diana Maynard hầu hết hệ thống rút trích thơng tin(IE) nói chung thường tiến hành bước sau: - Tiền xử lý - Nhận biết ñịnh dạng tài liệu (Format detection) - Tách từ (Tokenization) - Phân ñoạn từ (Word Segmentation) - Giải nhập nhằng ngữ nghĩa (Sense Disambiguation) - Tách câu (Sentence Splitting) - Gán nhãn từ loại (POS Tagging) - Nhận diện thực thể ñịnh danh (Named Entity Detection) - Nhận biết thực thể (Entity Detection) - Xác ñịnh ñồng tham chiếu (Coreference) 1.7 Phương pháp tiếp cận rút trích thơng tin Các phương pháp trích xuất chia thành hai cách tiếp cận chính: tiếp cận cơng nghê tri thức (Knowledge Engineering) tiếp cận học máy tự ñộng (Automatic Training) 1.8 Phương pháp ñánh giá rút trích thơng tin Sadflk ðể đánh giá kết thơng tin trích xuất, chun gia đưa ñộ ño ñược sử dụng lĩnh vực truy vấn thơng tin (IR) độ xác “Precision” độ tin cậy “Recall” ðộ xác Precision (P): Là phân số thể tỷ lệ thơng tin rút trích Bao nhiêu phần trăm thơng tin rút ñúng Tỷ lệ số lượng câu trả lời tìm thấy với tổng số câu trả lời ñúng ðộ tin cậy Recall (R): Là ñộ ño hay phân số thể khả tin cậy thơng tin trích xuất Tỷ lệ tổng số câu trả lời tìm thấy với tổng số câu trả lời tìm thấy R= (tp + tn) (1) P= (tp + fp ) (2) Với: số kết tìm thấy; tn số kết mà khơng tìm thấy; fp số kết tìm thấy mà khơng Người ta tìm cách kết hợp hai độ đo đề xuất độ đo mới, F-Measure (F) Thơng số β xác định mức độ tương quan độ xác P (Precision) độ tin cậy R (Recall) Các chun gia rút trích thơng tin thường sử dụng β = ñể ñánh giá ñộ ño F Khi ñó P R ñược gán trọng số nhau, hiệu hệ thống ñược ñánh giá thơng qua giá trị khác độ xác R độ tin cậy P, từ so sánh cách dễ dàng Với β = F-Mearsure: F = 2× P× R ( P + R) 1.9 Một số phương pháp trích lọc phân loại liệu 1.9.1 Phương pháp rút trích cụm từ khóa (Keyphrase Extraction) Việc rút trích trước hầu hết dựa vào tiếp cận phân tích cú pháp, tách câu, thống kê tần xuất xuất tf*idf để rút cụm Kết rút trích chưa thực tốt, nhiều “rác” (cụm vơ nghĩa, cụm khơng thể điện ngữ nghĩa tài liệu đề cập) Vấn đề xác định xác cụm từ khóa, xác định biên giới từ khóa, cụm từ khóa từ tài liệu tiếng Việt toán khó quan tâm nghiên cứu 1.9.2 Phương pháp sinh cụm từ khóa tự động Phương pháp gán cụm từ khóa (Keyphrase Assignment):Tìm kiếm chọn cụm từ khóa từ từ vựng quản lý (Controlled Vocabulary) thích hợp để mơ tả tài liệu Tập liệu huấn luyện tập hợp tài liệu với cụm từ từ vựng dựa vào ñó ñể xây dựng phân lớp (classifier) Phương pháp trích xuất cụm từ khóa (Keyphrase Extraction):Sẽ dùng kỹ thuật truy vấn thông tin xử lý từ vựng để chọn cụm từ khóa từ tài liệu xét thay dùng cụm từ ñịnh nghĩa trước từ vựng quản lý 1.9.3 Phương pháp trích xuất cụm từ khóa (KEA) KEA dùng phương pháp học máy Nạve Bayes để huấn luyện rút trích cụm từ khóa Theo nhận định tác giả, KEA thuật tốn có khả độc lập ngơn ngữ.Các bước sau thực thuật toán KEA: Chi tiết tham khảo (Phụ lục A) 1.9.4 Phương pháp thống kê Hầu hết nghiên cứu ñầu tiên cho rút trích liệu tập trung tài liệu kỹ thuật (các báo khoa học) Các phương pháp cổ ñiển thường tập trung vào đặc trưng hình thái để tính điểm cho câu rút trích câu quan trọng để đưa vào tóm tắt Sử dụng đặc trưng như: wordfrequency, stopwords, position, cuewords, title Sử dụng phương pháp kết nối tuyến tính để kết hợp điểm đặc trưng lại với nhau: + Thử nghiệm với 400 liệukỹthuật kết quảñạt 44% 1.9.5 Phương phápthống kê TF.IDF Phương pháp cịn gọi mơ hình túi từ (bag-of-words), sử dụng mơ hình trọng số tần suất thuật ngữ tần suất câu đảo ngược (TF.IDF) Ở mơ hình này, giá trị IDF tính câu Trongđó, TF số lần xuất term trong1 câu Và DF số câu có chứa thuật ngữ Tuy nhiên, phương pháp dung độ đo TF.IDF khơng dùng độc lập, mà thường ñược kết hợp với phương pháp khác máy học, ñồ thị… ñể ñạt ñược hiệu cao 1.9.6 Phương pháp Naïve-Bayes Các hướng tiếp cận theo phương pháp giả ñịnh ñặc trưng liệu ñộc lập Sử dụngbộ phân lớp Nạve-Bayes để xác định câu thuộc tóm tắt ngược lại: Chos câu cần xác ñịnh F1…Fk ñặc trưng ñã ñược chọn, giả ñịnh thuộc tính ñộc lập Xác suất câu s thuộc tóm tắt tính sau: Sau tính xác suất câu, n câu có xác suất cao rút trích + Kết hợp thêm nhiều ñặc trưng phong phú hơn: tf.idf(singleword, two-noun word, named-entities), discourse(cohension) (sử dụng Wordnet kỹ thuật sử lý ngơn ngữ tự nhiên để phân tích tham chiếu thực thể) 1.9.7 Phương pháp mơ hình Makov ẩn (Hidden Makov Model) Tác giả đưa khái niệm phụ thuộc cục (local dependencies) câu sử dụng mơ hình HMM ñể xác ñịnh phụ thuộc Các ñặc trưng sử dụng: position, number of term, like lihood of sentence Mơ hình HMM bao gồm 2s+1 trạng thái, s số trạng thái tóm tắt (câu thuộc tóm tắt) s+1 câu khơng thuộc tóm tắt Hình 1.1 : Mơ hình Hidden Makov Model Mơ hình HMM xây dựng ma trận chuyển vị M, coi ñặc trưng đa biến tính xác suất câu qua trạng thái 1.9.8 Phương pháp máy học SVM SVM phương pháp phân loại xuất phát từ lý thuyết học thống kê Ý tưởng ánh xạ (tuyến tính phi tuyến) liệu vào khơng gian vector đặc trưng (space of feature vectors) mà siêu phẳng tối ưu tìm để tách liệu thuộc hai lớp khác Giả sử, lựa chọn ñược tập ñặc trưng T={t1, t2, …, tn}, xi vector liệu ñược biểu diễn xi=(wi1, wi2, …, win), win∈R trọng số ñặc trưng tn Với tập liệu huấn luyện Tr={(x1, y1), (x2, y2), …, (xl, yl)}, (xi∈Rn), yi∈{+1, -1}, cặp (xi, yi) ñược hiểu vector xi ñược gán nhãn yi Nếu coi xi ñược biểu diễn tương ứng với ñiểm liệu khơng gian Rn ý tưởng SVM tìm mặt hình học (siêu phẳng) f(x) “tốt nhất” khơng gian nchiều để phân chia liệu cho tất ñiểm x+ ñược gán nhãn thuộc phía dương siêu phẳng (f(x+)>0), điểm x- gán nhãn –1 thuộc phía âm siêu phẳng (f(x-)’ Toán tử LHS: - “|” hay - “:” xuất lần nhiều lần - “?” xuất lần lần - “+” xuất lần nhiều lần Toán tử RHS:Sử dụng dấu “;” làm dấu phân cách, theo ñịnh dạng sau: {LHS} > {annotation type} ; {attribute 1}={value1};…; {attribute N}={value N} Gazetteer: Danh sách Gazetteer tập tin liệu đơn giản, với dịng thực thể - ðể truy cập ñến danh sách Gazetteer ta dùng tập tin mục “list.def” Cấu trúc tập tin mục “list.def” gồm có: nhiều hàng, hàng mơ tả danh sách gồm có tên danh sách (list name), kiểu (major type), kiểu phụ (minor type) từ ñược liệt kê danh sách, thông tin ñược phân biệt dấu hai chấm “:” - Cách tạo danh sách Gazetteer, Ở ñây ta dùng Notepad, tập tin gồm nhiều dòng, dòng tên thực thể, từ cụm từ, chấp nhận có khoảng trắng Và lưu lại với mở rộng “.lst” Sau ta mở tập tin mục “list.def” ñể thêm danh sách tạo vào 3.1.3 JAPE 3.1.3.1 Giới thiệu JAPE – Java Annotation Patterns Engine thành phần GATE, dùng ñể nhận biết thực thể luật ñược ñịnh nghĩa trước 3.1.3.2 JAPE Grammar JAPE Grammar gồm tập hợp nhiều phần (phase), phần chứa tập luật 19 ñược ñịnh nghĩa thành pattern JAPE Grammar gồm có hai phần vế trái (LHS) vế phải (RHS) , hai vế ñược phân biệt ký hiệu “ >” Có cú pháp sau: LHS > RHS Vế trái chứa phần mô tả pattern thích, chứa toán tử sau: - “|” hay - “:” xuất lần nhiều lần - “?” xuất lần lần - “+” xuất lần nhiều lần Vế phải bao gồm thích ta tự định nghĩa, chúng chứa thơng tin tên nhãn Ngồi vế phải chứa mã code Java ñể tạo chỉnh sửa thích Mỗi pattern mơ tả thích bên vế trái tham chiếu tới vế phải tên nhãn ñược gắn vào pattern Tên nhãn ñược ñặt sau dấu “:” Ví dụ:ðoạn ngữ pháp ñơn giản gán nhãn cho mơn thể thao “Soccer” Hình 3.2 : Từ “Soccer” gán nhãn “Lookup” 20 Hình 3.3 : JAPE Grammar dùng ñể gán nhãn cho “Soccer” “Sport” Sau thực ñoạn JAPE Grammar từ “Soccer” gán nhãn “Sport” với “rule=SportCategory” - Phase: firstpass: Một JAPE Grammar gồm có tập nhiều phần, phần bao gồm nhiều pattern - Input: Lookup: ñối số ñầu vào JAPE Grammar, nhãn “Lookup” Nếu khơng ghi mặc định nhãn “Token”, “SpaceToken” “Lookup” - Option: control=brill: ñịnh nghĩa phương thức luật tương ứng Trong ñó control có thuộc tính sau: appelt, brill, first, all, once - Rule: SportCategory : tên luật - Priority: : dùng ñể thiết lặp ñộ ưu tiên luật so với luật khác tập tin - ( {Lookup.majorType == “sport”} ): label: ñây pattern, định nghĩa đoạn liệu gán nhãn “Lookup” mà có “majorType” “sport” gán nhãn phụ “label” Nếu JAPE Grammar có nhiều pattern tên nhãn phụ khơng trùng. >: dấu hiệu phân biệt vế trái vế phải, đứng trước vế trái, theo sau vế phải - :label.Sport = {rule= “SportCategory”}: dịng ta gán nhãn thức cho liệu mà ta muốn thích thơng bao nhãn phụ “label” có luật “SportCategory” 3.1.3.3 JAPE Grammar Rules Luật Grammar có hai loại: 21 Dựa vào Gazetteer List Dựa vào Tokeniser Ví dụ: Chỉ cần luật ñơn giản ñể ñịnh nghĩa địa IP, ví có định dạng ñơn giản bao gồm dãy số kết hợp với dấu chấm Rule : IPAddress ( {Token.kind == number} {Token.string == “.“} {Token.kind == number} {Token.string == “.“} {Token.kind == number} {Token.string == “.“} {Token.kind == number} ):ipAddress > :ipAddress.Address = {kind=“ipAddress“} - Loại thứ hai: phức tạp, dựa nhiều vào Gazetteer List, phải ñịnh nghĩa nhiều cách ñể nhận biết ñược thực thể 3.1.3.4 JAPE use of context Trong JAPE Grammar tồn cách ñể nhận biết thực thể có nghĩa luật nhận biết thực thể cần có số dấu hiệu để nhận biết thực thể Ví dụ: Một chuỗi coi chắn năm (YEAR) nằm sau “in” “by” Rule: YearContext1 ( {Token.string == "in"}| {Token.string == "by"} ) (YEAR) : date > :date.Timex = {kind = "date", rule = "YearContext1"} 22 3.1.3.5 JAPE use of priority Một JAPE Grammar có kiểu control (control style) sau: “brill”, “all”, “first”, “once” “appelt” Các kiểu ñược ghi rõ phần bắt đầu gammar 3.1.3.6 Mặt phía trái (LEFT-HAND SIDE) Vế trái ngữ pháp JAPE cho phép ta xây dựng pattern để so khớp, tìm vùng phù hợp tài liệu Một pattern định nghĩa để so khớp với chuỗi cụ thể tài liệu, hay so khớp với vùng tài liệu ñã ñược gán nhãn trước Ngồi JAPE cịn cung cấp tốn tử nhằm cho phép định nghĩa pattern cách uyển chuyển; cho phép khai báo MACRO ñể sử dụng lại pattern ñã ñược ñịnh nghĩa trước 3.1.3.7 So khớp với chuỗi ký tự Phase: UrlPre Input: Token SpaceToken Options: control = appelt Rule: Urlpre ( (({Token.string == "http"} | {Token.string == "ftp"}) {Token.string == ":"} {Token.string == "/"} {Token.string == "/"} ) | ( {Token.string == "www"} {Token.string == "."} ) ): urlpre > :urlpre.UrlPre = {rule = "UrlPre"} 3.1.3.8 So khớp với loại thích khác (ANNOTATION TYPES) 23 Ngồi khả so khớp với chuỗi ký tự cụ thể, luật ngữ pháp JAPE cho phép so khớp với loại thích khác, xử lý gán nhãn, module trước như: gazetteer, tokeniser, Vế phải (RIGHT-HAND SIDE) Ngồi cịn hỗ trợ, cho phép người dùng đưa code Java vào Vế phải phân biệt với vế trái thông qua dấu “ > ” Rule: GazLocation ( {Lookup.majorType == location} ) :location > :location.Enamex = {kind="location", rule=GazLocation} 3.1.4 Kiến trúc hệ thống a Tiền xử lý câu truy vấn b Nhận diện thực thể có tên: c Nhận diện thực thể không tên: d Nhận diện từ quan hệ e Nhận diện thực thể(Annotation): Coextensive, Overlaps,… 3.2 Triển khai kiểm thử phân tích, đánh giá kết Dữ liệu ñầu vào báo khoa học từ thư viện số tạp chí chuyên ngành Khoa học Máy tính ACM, Springer, IEEE, Citeseer, … để thực nghiệm ðã thực nghiệm với 200 báo ñược download ðể ñánh giá kết cách tiếp cận sử dụng ñộ ño truyền thống ñược dùng truy vấn thơng tin xác Precision (P), độ tin cậy Recall (R), ñộ ño F-measure R= tp 2× P × R F= P= (P + R) (tp + tn ) ; (tp + fp ) ; Trong đó: laf số kết tìm thấy; tn số kết mà khơng tìm thấy; fp số kết tìm thấy mà khơng Kết thực nghiệm ñược ño số thuộc tính metadata theo chuẩn Dubline Core Metadata, kết ñược thể Bảng 3.1: 24 Bảng 3.1 : Kết ñược ñanh biểu ñồ Metadata Precision (%) Recall (%) F-Measure (%) Tittel 50,0% 100,0% 67% Location 97,22% 83,63% 89,91% Person 68% 83% 74,99% KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Luận văn ñã tập trung nghiên cứu tổng quan lĩnh vực trích lọc liệu phân loại liệu từ URLs, Rss internet nguồn liệu văn khác Kết ñạt ñược: - Kiến thức trích lọc liệu, ứng dụng rút trích liệu văn - Các phương pháp rút trích cụm từ khóa, thực thể, quan hệ thực thể phương pháp rút trích siêu liệu (metadata) liệu từ nguồn Internet, Rss - ðề xuất phương pháp rút trích metadata dựa việc xây dựng luật, mẫu kết hợp từ điển, thơng tin tiền tố hậu tố - Xây dựng công cụ API GATE Frameword trích lọc liệu cho ñặc trưng kinh tế Kiến nghị hướng phát triển: Xây dựng mơ hình tri thức cho tài liệu văn gồm thành phần chính: siêu liệu (Metadata), cụm từ khóa, thực thể (Entity) quan hệ (Relationship) công cụ API GATE Framework từ Internet Ứng dụng GATE-JAPE vào số lĩnh vực xử lý liệu Kinh tế, xã hội …nhằm mục đích tra cứu, đánh giá số phát triển cho lĩnh vực khác Ứng dụng xây dựng hệ thống truy vấn tài liệu thơng minh (tìm kiếm,tra cứu, hỏi đáp) 25 ... Engine) ñể xây dựng luật cho việc gán nhãn liệu CHƯƠNG -KỸ THUẬT TRÍCH LỌC VÀ PHẦN LOẠI DỮ LIỆU GATE Framework 2.1 Biểu diễn liệu cần trích lọc phân loại 2.1.1 Dữ liệu ñầu vào a Các ñối tượng liệu. .. sử dụng nguồn liệu Xuất phát từ u cầu đó, tác giả đặt vấn đề nghiên cứu xây dựng phân hệ trích lọc phân tích liệu Mục đích đề tài hướng tới xây dựng cơng cụ trích lọc, phân tích liệu từ nguồn... (kernel-based) 2.2 Phương pháp trích lọc phân loại liệu từ số nguồn khác 2.2.1 Trích lọc 13 Dữ liệu Dữ liệu huấn test Dữ liệu tóm tắt Rút Nguồn trích đặc trưng liệu Nguồn liệu ðóng Rút trích nhãn đặc trưng