Đề thi học kì môn máy học chuyên ngành công nghệ thông tin

3 567 0
Đề thi học kì môn máy học chuyên ngành công nghệ thông tin

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài toán 1. Phân loại văn bản tiếng Việt bằng phương pháp K-NN hoặc Bayes Training Phase: Input: D={d1,…dn}: collection of documents that has been assignment in to C. C={c1, ,ck}: catergories. Output: Detemining representation of each catergorie Processing: - In D segment into 2 word sets: noun set and other word set. - Calculate F(w i ) in noun set by: D iD i N wN wF )( )( = - For each catergories select all word that is noun and threshold s>0. And with each catergories we have a representation for it. Testing phase Input: d: document Output: d has been assigned by catergories C. Reprocessing: - d has been segmented into 2 word sets: noun set and other word set (not noun). - Calculate I(w i ) in noun set by: )( )( )( i dw j iS i wF w wN wI j += ∑ ∈ - Reduce dimensional feature by remove all w i that have I(w i ) <0.20 - d has been presentated by T noun ={<t 1 ; w 1 >, <t 2 ; w 2 >, …,<t m ; w m >} Algorithm (Bayes) with d, we will calculate probability for each catergories C i by eq: Prob(d|C i ) = Prob(C i |D)*Prob(t 1 |C i )*Prob(t 2 |C i ) * * Prob(t m |C i ) We will predict d in C k that have Prob(d|C k ) max. Bài toán 2. Phân cụm văn bản tiếng Việt bằng phương pháp K-means hoặc phân cấp Training Phase: Input: D={d1,…dn}: collection of documents. s:threshold Output: clusters Processing: - In D segment into 2 word sets: noun set and other word set. - Calculate F(w i ) in noun set by: D iD i N wN wF )( )( = - For each catergories select all word that is noun and threshold s>0. Algorithm of hierarchy is below Bài toán 3. Tóm tắt văn bản tiếng Việt bằng phương pháp không giám sát Training Phase: Input: D={d1,…dn}: collection of documents. Output: Calculated F(w i ) Processing: - In D segment into 2 word sets: noun set and other word set. - Calculate F(w i ) in noun set by: D iD i N wN wF )( )( = Testing phase Input: d: original document, r: rate of summary. Output: d’: summary of document Reprocessing: - d has been segmented a set of sentences S={s 1 , s 2 , …, s n } - In each sentence: + segment into 2 word sets: noun set and other word set (not noun). + Calculate I(w i ) in noun set by: )( )( )( i dw j iS i wF w wN wI j += ∑ ∈ +P(s i )=1/i; Algorithm: V=” ”; For each sentence calculating weight of sentence: W(s i )= I(w i ) + P(s i ); Sort (s i ) by descending. Length (d’)=length(d)*r%; While (length(d’)< length(d)*r%) V=V+s i ; Arrangements all selected sentence by the original document. Ví dụ về thuật toán phân cụm văn bản dựa trên phân cấp. - Input n văn bản đầu vào. - Coi mỗi đối tượng là 1 cụm. (ví dụ có 3 văn bản thì 3 văn bản là 3 cụm). - Trong mỗi văn bản tách các danh từ và tính tần suất các danh từ. - Đo khoảng cách từng đôi một văn bản với nhau theo công thức: - Đặt ngưỡng khoảng cách d(i,j). - Output: Gom lại các cụm có khoảng cách d(i,j)<= ngưỡng. Ví dụ: Cho 3 văn bản đầu vào như dưới đây Văn bản 1: Chiều nay, lớp D3tin thực hành máy tính. Văn bản 2: Chiều nay, phòng máy tính A202 phải để cho lớp D4tin sử dụng. Văn bản 3: Sáng nay, cô ấy đi xem bóng đá. So sánh văn bản 1 và văn bản 2: )|| |||(|),( 22 22 2 11 pp j x i x j x i x j x i xjid −++−+−= *Tách từ chủ đề trong từng văn bản và tính tần xuất các từ chủ đề tạo thành các vector biểu diễn đặc trưng cho mỗi văn bản. D 1 ={<lớp,0.3>; <d3tin,0.3>; <máy tính,0.6>} D 2 ={<phòng,0.1>; <máy tính,0.55>; <A202,0.12>; <lớp,0.2>; <D4tin,0.4>}. D 3 ={<cô ấy,0.6>; <bóng đá,0.2>}. *Tính khoảng cách từng cặp văn bản: d(1,2)=sqrt(|0.3-0.2| 2 +|0.6-0.55| 2 +|0-0.1| 2 +|0-0.12| 2 +|0.3-0| 2 +|0-0.4| 2 ) =sqrt(0.1 2 +0.05 2 +0.1 2 +0.12 2 +0.3 2 +0.4 2 ). d(1,3)=sqrt(0.3 2 +0.3 2 +0.6 2 +0.6 2 +0.2 2 ). Tương tự, tính d(2,3). So sánh d(1,2) có khoảng cách nhỏ, do đó, văn bản 1 và văn bản 2 thuộc cùng 1 cụm. Khi cho 3 văn bản trên là 3 văn bản đầu vào thì có thể gom lại thành 2 cụm. . D={d1,…dn}: collection of documents that has been assignment in to C. C={c1, ,ck}: catergories. Output: Detemining representation of each catergorie Processing: - In D segment into 2 word sets: noun set. ”; For each sentence calculating weight of sentence: W(s i )= I(w i ) + P(s i ); Sort (s i ) by descending. Length (d’)=length(d)*r%; While (length(d’)< length(d)*r%) V=V+s i ; Arrangements

Ngày đăng: 03/07/2015, 14:44

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan