Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
527,28 KB
Nội dung
1 LỜI NÓI ĐẦU Trong năm gần đây, phát triển mạnh mẽ công nghệ thôngtin làm cho khả thu thập lưu trữ thôngtin tăng nhanh Bên cạnh đó, việc tin học hóa cách ạt nhanh chóng hoạt động sản xuất, kinh doanh nhiều lĩnh vực hoạt động khác tạo cho lượng liệu lưu trữ khổng lồ Thông thường thôngtin biểu đạt ngôn ngữ dễ dàng nhận biết nhanh so với nhiều loại liệu khác Trong thực tế, liệu thu thập chủ yếu liệu số Các liệu hàm chứa lượng thôngtin hữu ích, nhiên để hiểu thôngtin dạng nguyên điều không dễ dàng Vì vậy, nhu cầu xử lí liệu để thu tri thức phục vụ sống quan trọng nhiều nhà nghiên cứu quan tâm [3, 8, 9, 10] Làm để chắt lọc thôngtin cách tự động, nhanh chóng? Điều đòi hỏi phải có thuật toán xử lí tận dụng sức mạnh tính toán máy tính Trong nghiên cứu trước tính toán từ [5], ngữ nghĩa từ biểu diễn tập mờ Tuy nhiên, việc dựa lí thuyết tập mờ có nhiều hạn chế cách thức xây dựng hàm thuộc việc xấp xỉ giá trị ngôn ngữ tập mờ mang tính chủ quan, phụ thuộc nhiều vào ý kiến chuyên gia dễ thôngtin Mặt khác, thân giá trị ngôn ngữ hàm chứa cấu trúc thứ tự ánh xạ gán nghĩa sang tập mờ không bảo toàn cấu trúc Lý thuyết Đại số gia tử (ĐSGT) Nguyễn Cát Hồ W.Wechler đề xuất năm 1990 [7] khắc phục hạn chế Trong hạng từ giá trị biến ngôn ngữ sinh từ hai hạng từ nguyên thủy cách tác động gia tử Ngữ nghĩa hạng từ xác định quan hệ thứ tự với hạng từ khác Điều phù hợp với cách sử dụng ngôn ngữ người Chẳng hạn, xét thuộc tính thu nhập với hai từ nguyên thủy cao thấp, gia tử tương_đối tập từ sinh với thứ tự ngữ nghĩa cách tự nhiên sau: thấp ≤ thấp ≤ tương_đối thấp ≤ tương_đối cao ≤ cao ≤ cao Với ưu điểm đó, chọn cách tiếp ĐSGT gia tử để rút câu tóm tắt dạng ngôn ngữ từ sở liệu (CSDL) số Cụ thể miền trị thuộc tính CSDL tương ứng với ĐSGT Dựa vào hàm đo đại số này, kết hợp với thuật toán khai phá liệu Apriori triển khai việc rút trích tóm tắt, sau kết xuất dạng ngôn ngữ Mục đích luận văn dựa sở ĐSGT, mối quan hệ luật kết hợp tóm tắt liệu để xây dựng giải thuật rút tự động câu tóm tắt ngôn ngữ giải toán tóm tắt liệu tổng quát Luận văn có ba chương: Chương Các kiến thức sở Trong chương này, trước tiên trình bày số vấn đề ĐSGT: khái niệm bản, ánh xạ định lượng ngữ nghĩa, độ đo mờ, khoảng tính mờ khoảng tương tự Tiếp theo số kiến thức tổng quan khai phá liệu, luật kết hợp CSDL ứng dụng Cuối thuật toán Apriori để khai phá luật kết hợp Chương Xây dựng thuật toán sinh tóm tắt ngôn ngữ từ liệu số Nội dung trình bày chương số dạng tóm tắt liệu theo Yager toán tóm tắt liệu tổng quát Sự liên quan luật kết hợp với tóm tắt liệu Trọng tâm chương xây dựng thuật toán sinh tóm tắt ngôn ngữ dựa ĐSGT Thuật toán minh họa việc tính toán bước liệu cụ thể Chương Cài đặt thử nghiệm Trong chương giới thiệu CSDL Vertebral Column bệnh cột sống để xây dựng ứng dụng bước phân tích toán đặt Chương trình cài đặt ngôn ngữ lập trình C môi trường Microsoft Visual C++ Cuối chương phần trình bày giao diện chương trình kết thực nghiệm CHƯƠNG CÁC KIẾN THỨC CƠ SỞ Vấn đề sử dụng tập mờ để biểu diễn giá trị ngôn ngữ đáp ứng nhu cầu thực tế người Tuy nhiên, theo cách sử dụng tập mờ ta thấy có nhiều nhược điểm gây nên việc dễ mát thôngtin Do đó, vấn đề đặt có cấu trúc toán học mô xác cấu trúc ngữ nghĩa khái niệm mờ Nguyễn Cát Hồ W.Wechler đưa cấu trúc ĐSGT vào năm 1990 [7] Đây cấu trúc đại số cho miền giá trị hạng từ mà ngữ nghĩa xác định dựa thứ tự miền hạng từ Ưu điểm bật ĐSGT tính toán, ánh xạ luôn bảo toàn quan hệ thứ tự ngữ nghĩa Dữ liệu người thu thập nhiều dạng chứa thôngtin có giá trị định Trong môi trường nay, người ta ngày cần có nhiều thôngtin với tốc độ nhanh để trợ giúp việc đưa định dựa khối lượng liệu khổng lồ có Từ làm phát triển kỹ thuật kỹ thuật phát tri thức khai phá liệu Và hướng tiếp cận hiệu để khai phá liệu sử dụng luật kết hợp Trong chương này, trình bày số khái niệm ĐSGT, tổng quan khai phá liệu thuật toán Apriori khai phá luật kết hợp 1.1 Đại số gia tử 1.1.1 Các khái niệm Chúng ta xét miền ngôn ngữ biến chân lý TRUTH gồm từ sau: Dom(TRUTH) = {true, false, very true, very false, more-or-less true, moreor-less false, possibly true, possibly false, approximately true, approximately false, little true, little false, very possibly true, very possibly false, }, true, false từ nguyên thủy, từ nhấn very, moreor-less, possibly, approximately, little gọi gia tử Cho X biến ngôn ngữ Dom(X) tập chứa tất hạng từ tập giá trị biến X Tập X = Dom(X) coi cấu trúc đại số AX = (X, G, C, H, ≤ ) Trong đó: - (X, ≤ ) cấu trúc dựa thứ tự, ≤ quan hệ thứ tự ngữ nghĩa vốn - có hạng từ biến X G = {c–, c+} tập phần tử sinh, c+ hạng từ nguyên thủy dương, c– hạng từ nguyên thủy âm Ta có c– ≤ c+ Ví dụ: chậm ≤ nhanh, - ≤ nhiều C = {0, W, 1} tập thỏa mãn ≤ c– ≤ W ≤ c+ ≤ 1, hai phần tử hạng từ nhỏ nhất, lớn cấu trúc (X, ≤ ), W phần tử trung bình Ví dụ: có nghĩa chậm, W có nghĩa trung bình, - có nghĩa nhanh H = H– ∪ H+ tập gia tử biến X Các phần tử H+ gia tử dương làm tăng ngữ nghĩa hạng từ Các gia tử tập H– gia tử âm làm giảm ngữ nghĩa hạng từ Các gia tử tập H– H+ có thứ tự ngữ nghĩa H– = {h-q, h-q+1, , h-1} với thứ tự ngữ nghĩa h-q ≥ h-q+1 ≥ ≥ h-1 H+ = {h1, h2, , hp} với thứ tự ngữ nghĩa h1 ≤ h2 ≤ ≤ hp Giả sử X\C = H(G), với H(G) tập hạng từ sinh từ phần tử sinh G sử dụng gia tử H Tương tự H(x) gồm hạng từ sinh từ x sử dụng gia tử H Dạng biểu diễn tắc hạng từ x ∈ Dom(X) hm…h1c, độ dài hạng từ |x| = m + Kí hiệu Xk tập hạng từ độ dài k, X(k) tập hạng từ có độ dài không k Về mối quan hệ gia tử [7] có khái niệm sau: (1) Mỗi gia tử dương, âm gia tử khác, kể (2) Nếu hai khái niệm u v độc lập, nghĩa u ∉ H(v) v ∉ H(u) ∀x ∈ H(u) ta có x ∉ H(v) Ngoài u v không sánh x ∈ H(u) không sánh với y ∈ H(u) (3) Nếu x ≠ hx x ∉ H(hx) h ≠ k hx ≤ kx h’hx ≤ k’kx với gia tử h, k, h’, k’ Hơn hx ≠ kx hx độc lập với kx (4) Nếu u ∉ H(v) u ≤ v (u ≥ v) u ≤ hv (u ≥ hv), gia tử h Định nghĩa dựa vào tính chất ngữ nghĩa di truyền ngữ nghĩa ngôn ngữ tạo cấu trúc đủ giàu để xây dựng quan hệ đối sánh mô hình CSDL mờ Định nghĩa 1.1 Với x ∈ X, độ dài x kí hiệu |x| xác định sau: (1) Nếu x = c+ x = c– |x| = (2) Nếu x = hx |x| = + |x|, với h ∈ H 1.1.2 Ánh xạ định lượng ngữ nghĩa Định lượng ĐSGT trình ánh xạ từ miền hạng từ vào miền tham chiếu tương ứng biến ngôn ngữ Tuy nhiên phương pháp đại số ngữ nghĩa hạng từ mờ, ánh xạ định lượng định nghĩa cách hệ thống, lợi dụng khái niệm mờ hạng từ Chúng ta xem xét ĐSGT tự AX = (X, G, C, H, ≤ ), tức gia tử h tác động lên hạng từ x ∈ H(G) luôn tạo ngữ nghĩa (tức hx ≠ x) Từ đây, ta có dạng biểu diễn tắc cho hạng từ Một ánh xạ xác định ngữ nghĩa định lượng hạng từ miền hạng từ X biến ngôn ngữ X υ : X [0, 1], thỏa mãn hai điều kiện: - υ ánh xạ 1-1 trù mật đoạn [0, 1], với [0, 1] miền - tham chiếu thông thường X υ trì thứ tự X Ánh xạ υ gọi ánh xạ định lượng ngữ nghĩa (semantically quantifying mapping – SQM) Giá trị υ(x) thể ngữ nghĩa định lượng số hạng từ x Ánh xạ phụ thuộc mạnh mẽ vào ngữ nghĩa hạng từ mờ 1.1.3 Độ đo tính mờ Độ đo tính mờ x, ký hiệu fm(x), đường kính tập H(x), với H(x) tập phần tử X sinh từ x gia tử Định nghĩa 1.2 [6] Hàm fm: X → [0,1] gọi hàm độ đo tính mờ X thỏa mãn điều kiện sau: (fm1) fm độ đo tính mờ đầy đủ X, tức ∑ fm(h u) = fm (u ) − q ≤ i ≤ p ,i ≠ i với u ∈ X (fm2) Nếu x khái niệm rõ, tức H(x) = {x} fm(x) = Đặc biệt, fm(0) = fm(W) = fm(1) = fm(hx) fm(hy ) = fm ( x ) fm( y ) , nghĩa tỉ lệ (fm3) Với x, y ∈ X h ∈ H ta có không phụ thuộc vào x,y gọi độ đo tính mờ gia tử h, kí hiệu µ(h) Định nghĩa 1.3 [6] Hàm dấu Sgn : X → {−1, 0, 1} ánh xạ định nghĩa cách đệ quy sau, với ∀ h, h’∈ H, c ∈ {c–, c+} 1) Sgn(c−) = −1, Sgn(c+) = +1; 2) Sgn(h'hx) = −Sgn(hx) h' âm h h'hx ≠ hx; 3) Sgn(h'hx) = Sgn(hx) h' dương h h'hx ≠ hx; 4) Sgn(h'hx) = h'hx = hx Mệnh đề 1.1 [5] Với ∀x ∈ X, ta có: ∀h ∈ H, Sgn(hx) = +1 hx > x, Sgn(hx) = -1 hx < x Sgn(hx) = hx = x Các tính chất độ đo tính mờ ĐSGT: Dựa cấu trúc ĐSGT, quan hệ phần tử quan hệ thứ tự ngữ nghĩa, mô hình toán học tính mờ độ đo tính mờ khái niệm mờ định nghĩa công trình Nguyễn Cát Hồ cộng sự, trình bày số mệnh đề bổ đề liên quan đến hàm fm hàm υ Mệnh đề 1.2 [6] (1) fm(hx) = µ(h) fm(x), với ∀x ∈ X (2) fm(c−) + fm(c+) = (3) (4) ∑ fm(h c) = fm(c) i − q ≤ i ≤ p ,i ≠ ∑ fm(h x) = fm ( x) − q ≤ i ≤ p ,i ≠ i −1 (5) ∑ µ (h ) = α i=− q i , c ∈ {c–, c+} , với ∀x ∈ X p ∑ µ (h ) = β i =1 i , với α, β > α + β = Định nghĩa 1.4 [6] Cho fm hàm độ đo tính mờ X ĐSGT tuyến tính đầy đủ AX = (X, G, C, H, ≤ ) Hàm định lượng ngữ nghĩa υ AX kết hợp với fm định nghĩa đệ quy sau: (1) υ(W) = θ = fm(c−), υ(c−) = θ − αfm(c−) = βfm(c−), υ(c+) = θ +αfm(c+), < θ < 1; j f (h j x) = f ( x) + Sgn(h j x) ∑ fm (hi x) − ω ( h j x ) fm ( h j x ) i =1 (2) Nếu 1≤ j ≤ p −1 f (h j x) = f ( x) + Sgn(h j x) ∑ fm (hi x) − ω ( h j x ) fm ( h j x ) i= j Nếu -q ≤ j ≤ -1 ω (h j x) = [ ] 1 + Sgn(h j x) Sgn( hq h j x )( β − α ) ∈ {α , β } Khoảng tính mờ 1.1.4 Khoảng tính mờ hạng từ x, kí hiệu ℑ(x) Ánh xạ ℑ xây dựng cách gán phần tử x ∈ X với đoạn đoạn [0,1], đoạn có độ dài độ đo tính mờ phần tử x Giả sử AX = (X, G, C, H, ≤ ) ĐSGT tuyến tính đầy đủ hàm độ đo tính mờ fm: X → [0,1] Ta gọi Intv([0,1]) họ tất đoạn đoạn [0,1] Việc gán ngữ nghĩa mờ xác định sau: ℑ : X → Intv([0,1]) thỏa: (1) Với x ∈ {c−, c+} ℑ(c−), ℑ(c+) đoạn đoạn [0,1] có | ℑ(c−)| = fm(c−), |ℑ(c+)| = fm(c+) ℑ(c−) ≤ ℑ(c+) (2) Nếu x ∈ X x có độ dài n, ký hiệu |x| = n, |ℑ(x)| = fm(x) x < y ℑ(x) ≤ ℑ(y) Hơn h−qx < … < h−1x < h1x < h2x 0, tập hữu hạn hạng từ X(k) = {x ∈ X: |x| ≤ k} Khoảng tương tự mức k, chứa x, với x ∈ X(k) kí hiệu Sm(x) tập khoảng {ℑ(x) : x ∈ X(k)} miền tham chiếu [0,1] thỏa mãn điều kiện sau: - (S1) Chúng tạo thành phân hoạch [0,1] (S2) Các giá trị Sm(x) coi tương tự với υ(x) υ ánh xạ định lượng ngữ nghĩa xác định fm Nói cách khác, chúng tương tự với ngữ nghĩa x mức độ k 45 Ta tính được: Sm(cực kì nhỏ) = [70, 76.467], Sm(nhỏ) = (76.467, 95.869], Sm(trung bình) = (95.869, 129.709], Sm(lớn) = (129.709, 155.427], Sm(cực kì lớn) = (155.427, 164] DMức độ trượt đốt sống = [-12, 419] Người có mức độ trượt đốt sống 195 coi nhỏ nên fm(nhỏ) = 0.48, fm(lớn) = 0.52 Người có mức độ trượt đốt sống 71 coi nhỏ µ(rất) = 0.4, µ(khá) = 0.6 Ta tính được: Sm(cực kì nhỏ) = [-12, 21.101], Sm(nhỏ) = (21.101, 120.403], Sm(trung bình) = (120.403, 275.563], Sm(lớn) = (275.563, 383.140], Sm(cực kì lớn) = (383.140, 419] Bước 2: Tập C gồm hạng từ: C = {tỉ lệ trường hợp mắc bệnh xương chậu = thấp, tỉ lệ trường hợp mắc bệnh xương chậu = thấp, tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, tỉ lệ trường hợp mắc bệnh xương chậu = cao, tỉ lệ trường hợp mắc bệnh xương chậu = cao, độ nghiêng xương chậu = nhỏ, độ nghiêng xương chậu = nhỏ, độ nghiêng xương chậu = trung bình, độ nghiêng xương chậu = lớn, độ nghiêng xương chậu = lớn, góc tật ưỡn cột sống vùng thắt lưng = nhỏ, góc tật ưỡn cột sống vùng thắt lưng = nhỏ, góc tật ưỡn cột sống vùng thắt lưng = trung bình, góc tật ưỡn cột sống vùng thắt lưng = lớn, góc tật ưỡn cột sống vùng thắt lưng = lớn, độ dốc xương = nhỏ, độ dốc xương = nhỏ, 46 độ dốc xương = trung bình, độ dốc xương = lớn, độ dốc xương = lớn, bán kính vùng xương chậu = nhỏ, bán kính vùng xương chậu = nhỏ, bán kính vùng xương chậu = trung bình, bán kính vùng xương chậu = lớn, bán kính vùng xương chậu = lớn, mức độ trượt đốt sống = nhỏ, mức độ trượt đốt sống = nhỏ, mức độ trượt đốt sống = trung bình, mức độ trượt đốt sống = lớn, mức độ trượt đốt sống = lớn, lớp = thoát vị đĩa đệm, lớp = trượt đốt sống, lớp = bình thường} Bước 3: Tính độ hỗ trợ cho hạng từ C Kết Bảng 3.1 Bảng 3.1 Độ hỗ trợ hạng từ C Hạng từ tỉ lệ trường hợp mắc bệnh chậu = thấp tỉ lệ trường hợp mắc bệnh chậu = thấp tỉ lệ trường hợp mắc bệnh chậu = trung bình tỉ lệ trường hợp mắc bệnh chậu = cao tỉ lệ trường hợp mắc bệnh chậu = cao độ nghiêng xương chậu = xương xương xương xương xương id1 id2 id30 id31 Độ hỗ trợ 0 0 0.023 1 0.384 0 0.565 0 0 0.026 0 0 0.003 0 0 0.013 47 nhỏ độ nghiêng xương chậu = nhỏ độ nghiêng xương chậu = trung bình độ nghiêng xương chậu = lớn độ nghiêng xương chậu = lớn góc tật ưỡn cột sống vùng thắt lưng = nhỏ góc tật ưỡn cột sống vùng thắt lưng = nhỏ góc tật ưỡn cột sống vùng thắt lưng = trung bình góc tật ưỡn cột sống vùng thắt lưng = lớn góc tật ưỡn cột sống vùng thắt lưng = lớn độ dốc xương = nhỏ độ dốc xương = nhỏ độ dốc xương = trung bình độ dốc xương = lớn độ dốc xương = lớn bán kính vùng xương chậu = nhỏ bán kính vùng xương chậu = nhỏ bán kính vùng xương chậu = trung bình bán kính vùng xương chậu = lớn bán kính vùng xương chậu = lớn mức độ trượt đốt sống = nhỏ mức độ trượt đốt sống = nhỏ mức độ trượt đốt sống = trung bình mức độ trượt đốt sống = lớn mức độ trượt đốt sống = lớn lớp = thoát vị đĩa đệm lớp = trượt đốt sống lớp = bình thường 0 0 0 0 0.219 0.661 0.094 0.013 0 0 0.023 1 1 0.439 0 0 0.497 0 0 0.039 0 0 0.003 0 0 0 0 0 0 0.026 0.497 0.474 0.003 0 0 0.003 0 0 0.052 1 1 0.790 0 0 0.148 0 0 0.006 0 0 0 0 0 0 0 0 0 1 0 0 0 0.535 0.452 0.010 0.003 0.194 0.484 0.323 48 Bước 4: Đưa vào tập frequent 1-itemset L1 hạng từ C có độ hỗ trợ lớn hay Minsupp L1 = {tỉ lệ trường hợp mắc bệnh xương chậu = thấp, tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, độ nghiêng xương chậu = trung bình, góc tật ưỡn cột sống vùng thắt lưng = nhỏ, góc tật ưỡn cột sống vùng thắt lưng = trung bình, độ dốc xương = nhỏ, độ dốc xương = trung bình, bán kính vùng xương chậu = trung bình, mức độ trượt đốt sống = nhỏ, mức độ trượt đốt sống = nhỏ, lớp = trượt đốt sống} Bước 5: Tìm tập L2 L3 Kết tìm Bảng 3.2 Bảng 3.2 Tập frequent 2-itemset 3-itemset Tậ p Lk L2 Itemset tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, độ nghiêng xương chậu = trung bình tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, góc tật ưỡn cột sống vùng thắt lưng = trung bình tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, độ dốc xương = trung bình tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, bán kính vùng xương chậu = trung bình tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, mức độ trượt đốt sống = nhỏ tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, lớp = trượt đốt sống độ nghiêng xương chậu = trung bình, bán kính vùng xương chậu = trung bình độ nghiêng xương chậu = trung bình, mức độ trượt đốt sống = cực Độ hỗ trợ 0.416 0.416 0.413 0.465 0.371 0.397 0.561 0.384 49 L3 kì nhỏ góc tật ưỡn cột sống vùng thắt lưng = nhỏ, độ dốc xương = nhỏ góc tật ưỡn cột sống vùng thắt lưng = nhỏ, bán kính vùng xương chậu = trung bình góc tật ưỡn cột sống vùng thắt lưng = nhỏ, mức độ trượt đốt sống = nhỏ góc tật ưỡn cột sống vùng thắt lưng = trung bình, độ dốc xương = trung bình góc tật ưỡn cột sống vùng thắt lưng = trung bình, bán kính vùng xương chậu = trung bình góc tật ưỡn cột sống vùng thắt lưng = trung bình, lớp = trượt đốt sống độ dốc xương = nhỏ, bán kính vùng xương chậu = trung bình độ dốc xương = nhỏ, mức độ trượt đốt sống = nhỏ độ dốc xương = trung bình, bán kính vùng xương chậu = trung bình độ dốc xương = trung bình, mức độ trượt đốt sống = nhỏ độ dốc xương = trung bình, lớp = trượt đốt sống bán kính vùng xương chậu = trung bình, mức độ trượt đốt sống = nhỏ bán kính vùng xương chậu = trung bình, lớp = trượt đốt sống mức độ trượt đốt sống = nhỏ, lớp = trượt đốt sống tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, độ nghiêng xương chậu = trung bình, bán kính vùng xương chậu = trung bình tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, mức độ trượt đốt sống = nhỏ, lớp = trượt đốt sống 0.355 0.361 0.371 0.371 0.384 0.371 0.374 0.390 0.394 0.352 0.361 0.439 0.361 0.445 0.361 0.365 Bước 6: Sinh tóm tắt Dạng 2: Q F y are S - Xét cặp 1-itemset I1 2-itemset I2: Với I2 = {tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, độ nghiêng xương chậu = trung bình} • Xét cặp I1 = {tỉ lệ trường hợp mắc bệnh xương chậu = trung bình} I2 = {tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, độ nghiêng xương chậu = trung bình} 50 • • • Vì I1 ⊂ I2 nên F tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, S độ nghiêng xương chậu = trung bình sup( I ) 129 q= = = 0.737 ( ) sup I 175 Tính tỉ lệ nên Q định lượng “nhiều” Câu tóm tắt thu “Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình có độ nghiêng xương chậu • trung bình.” Xét cặp I1 = {độ nghiêng xương chậu = trung bình} I2 = {tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, độ nghiêng xương • chậu = trung bình} Vì I1 ⊂ I2 nên F độ nghiêng xương chậu = trung bình, S tỉ lệ • trường hợp mắc bệnh xương chậu = trung bình sup ( I ) 129 q= = = 0.629 ( ) sup I 205 Tính tỉ lệ nên Q định lượng “nhiều” • Câu tóm tắt thu “Nhiều bệnh nhân có độ nghiêng xương chậu trung bình có tỉ lệ trường hợp mắc bệnh xương chậu trung - bình.” Tương tự ta thu câu tóm tắt khác Xét cặp 1-itemset I1 3-itemset I2: Với I2 = {tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, độ nghiêng xương chậu = trung bình, bán kính vùng xương chậu = trung bình} • Xét cặp I1 = {độ nghiêng xương chậu = trung bình} I2 = {tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, độ nghiêng xương • chậu = trung bình, bán kính vùng xương chậu = trung bình} Vì I1 ⊂ I2 nên F độ nghiêng xương chậu = trung bình, S tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, bán kính vùng xương • chậu = trung bình sup( I ) 112 q= = = 0.55 ( ) sup I 205 Tính tỉ lệ nên Q định lượng “khoảng nửa” 51 • Câu tóm tắt thu “Khoảng nửa bệnh nhân có độ nghiêng xương chậu trung bình có tỉ lệ trường hợp mắc bệnh xương chậu trung bình bán kính vùng xương chậu trung bình.” Tương tự ta thu câu tóm tắt khác - Xét cặp 2-itemset I1 3-itemset I2: Với I2 = {tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, mức độ trượt đốt sống = nhỏ, lớp = trượt đốt sống} • Xét cặp I1 = {tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, mức độ trượt đốt sống = nhỏ} I2 = {tỉ lệ trường hợp mắc bệnh xương chậu = trung bình, mức độ trượt đốt sống = nhỏ, lớp = trượt • đốt sống} Vì I1 ⊂ I2 nên F tỉ lệ trường hợp mắc bệnh xương chậu = trung • bình, mức độ trượt đốt sống = nhỏ, S lớp = trượt đốt sống sup( I ) 113 q= = = 0.983 ( ) sup I 115 Tính tỉ lệ nên Q định lượng “hầu hết” • Câu tóm tắt thu “Hầu hết bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình mức độ trượt đốt sống nhỏ mắc bệnh trượt đốt sống.” Tương tự ta thu câu tóm tắt khác Bước 7: Lược bỏ câu tóm tắt có nội dung gần giống tập câu tóm tắt 3.3 Giao diện chương trình Giao diện chương trình ứng dụng: 52 Ở giao diện này, muốn sinh tập câu tóm tắt ta nhấn vào nút “Sinh tóm tắt” để nhận kết textbox Giao diện chạy chương trình với liệu Vertebral Column: 53 3.4 Kết thử nghiệm Bảng 3.3 Kết thực liệu Vertebral Column Tên Số lượng 1-itemset Số lượng 2-itemset Số lượng 3-itemset Số câu tóm tắt Số ghi bao phủ Kết 11 22 56 100% Bảng 3.4 Kết sau rút gọn Tên Số lượng 1-itemset Số lượng 2-itemset Số lượng 3-itemset Số câu tóm tắt Kết 11 22 36 Các câu tóm tắt thu từ liệu Vertebral Column: 54 - Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình - có độ nghiêng xương chậu trung bình Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình - có góc tật ưỡn cột sống vùng thắt lưng trung bình Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình - có độ dốc xương trung bình Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình - có bán kính vùng xương chậu trung bình Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình - có mức độ trượt đốt sống nhỏ Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình - có mắc bệnh trượt đốt sống Nhiều bệnh nhân có độ nghiêng xương chậu trung bình có bán kính - vùng xương chậu trung bình Khoảng nửa bệnh nhân có độ nghiêng xương chậu trung bình - có mức độ trượt đốt sống nhỏ Nhiều bệnh nhân có góc tật ưỡn cột sống vùng thắt lưng nhỏ có độ - dốc xương nhỏ Nhiều bệnh nhân có góc tật ưỡn cột sống vùng thắt lưng nhỏ có - bán kính vùng xương chậu trung bình Nhiều bệnh nhân có góc tật ưỡn cột sống vùng thắt lưng nhỏ có - mức độ trượt đốt sống nhỏ Nhiều bệnh nhân có góc tật ưỡn cột sống vùng thắt lưng trung bình - có độ dốc xương trung bình Nhiều bệnh nhân có góc tật ưỡn cột sống vùng thắt lưng trung bình - có bán kính vùng xương chậu trung bình Nhiều bệnh nhân có góc tật ưỡn cột sống vùng thắt lưng trung bình - có mắc bệnh trượt đốt sống Nhiều bệnh nhân có độ dốc xương nhỏ có bán kính vùng - xương chậu trung bình Nhiều bệnh nhân có độ dốc xương nhỏ có mức độ trượt đốt sống nhỏ 55 - Nhiều bệnh nhân có độ dốc xương trung bình có bán kính - vùng xương chậu trung bình Nhiều bệnh nhân có độ dốc xương trung bình có mức độ - trượt đốt sống nhỏ Nhiều bệnh nhân có độ dốc xương trung bình có mắc bệnh - trượt đốt sống Khoảng nửa bệnh nhân có bán kính vùng xương chậu trung bình - có mức độ trượt đốt sống nhỏ Khoảng nửa bệnh nhân có bán kính vùng xương chậu trung bình - có mắc bệnh trượt đốt sống Hầu hết bệnh nhân có mức độ trượt đốt sống nhỏ có mắc bệnh - trượt đốt sống Khoảng nửa bệnh nhân có bán kính vùng xương chậu trung bình - có tỉ lệ trường hợp mắc bệnh xương chậu trung bình Nhiều bệnh nhân có mức độ trượt đốt sống nhỏ có độ - nghiêng xương chậu trung bình Khoảng nửa bệnh nhân có bán kính vùng xương chậu trung bình - có góc tật ưỡn cột sống vùng thắt lưng nhỏ Khoảng nửa bệnh nhân có bán kính vùng xương chậu trung bình - có góc tật ưỡn cột sống vùng thắt lưng trung bình Khoảng nửa bệnh nhân có bán kính vùng xương chậu trung bình - có độ dốc xương nhỏ Khoảng nửa bệnh nhân có bán kính vùng xương chậu trung bình - có độ dốc xương trung bình Nhiều bệnh nhân có mức độ trượt đốt sống nhỏ có bán kính - vùng xương chậu trung bình Nhiều bệnh nhân có mắc bệnh trượt đốt sống có bán kính vùng - xương chậu trung bình Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình có độ nghiêng xương chậu trung bình bán kính vùng xương chậu trung bình 56 - Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình - có có mức độ trượt đốt sống nhỏ mắc bệnh trượt đốt sống Khoảng nửa bệnh nhân có độ nghiêng xương chậu trung bình có tỉ lệ trường hợp mắc bệnh xương chậu trung bình bán kính vùng - xương chậu trung bình Nhiều bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung bình độ nghiêng xương chậu trung bình có bán kính vùng xương - chậu trung bình Hầu hết bệnh nhân có tỉ lệ trường hợp mắc bệnh xương chậu trung - bình mức độ trượt đốt sống nhỏ có mắc bệnh trượt đốt sống Nhiều bệnh nhân có mức độ trượt đốt sống nhỏ mắc bệnh trượt đốt sống có tỉ lệ trường hợp mắc bệnh xương chậu trung bình 3.5 Kết luận chương Nội dung Chương trình bày ứng dụng toán sinh tóm tắt ngôn ngữ CSDL Vertebral Column theo cách tiếp cận ĐSGT Thuật toán sinh tập câu tóm tắt cho liệu Ứng dụng chứng minh khả áp dụng ĐSGT nói chung lĩnh vực khoa học máy tính mà cụ thể phục vụ cho nhu cầu định người 57 KẾT LUẬN Việc tóm tắt liệu ngôn ngữ giúp dễ nắm bắt thôngtin định Hơn nữa, câu tóm tắt dùng làm sở tri thức việc xây dựng hệ thống suy diễn, hệ hỗ trợ, Trong luận văn này, phần trình bày khái niệm ĐSGT, kiến thức khai phá liệu, vận dụng ý tưởng thuật toán Apriori bao trùm toán tóm tắt liệu toán khai phá luật kết hợp, cài đặt thuật toán sinh tóm tắt ngôn ngữ từ liệu số theo cách tiếp cận ĐSGT Thuật toán đơn giản so với việc sử dụng lý thuyết tập mờ Một ví dụ trình bày để minh họa rõ bước thuật toán Kết thử nghiệm thu liệu thực Vertebral Column bệnh cột sống hợp lí Sau số kết đạt được: - Hiểu khái niệm ĐSGT, khai phá liệu, thuật toán Apriori khai phá luật kết hợp 58 - Làm rõ mối quan hệ luật kết hợp tóm tắt liệu Cải tiến cách sinh ngôn ngữ tóm tắt theo cách tiếp cận ĐSGT Cài đặt ứng dụng thử nghiệm thuật toán sinh tóm tắt ngôn ngữ tổng quát dựa ĐSGT Hướng phát triển đề tài: - Tiếp tục nghiên cứu toán tóm tắt liệu theo phương pháp ĐSGT - cho loại liệu khác Nghiên cứu việc đánh giá chất lượng câu tóm tắt, cách giảm số lượng câu tóm tắt Từ đó, có sở để thiết kế thuật toán sinh tự động tập câu tóm tắt tối ưu cho tập liệu DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Dương Hoàng Huyên (2015), Ngôn ngữ lập trình C, Khoa công nghệ thông tin, Trường Đại học Quy Nhơn [2] Phạm Thị Lan, Hồ Cẩm Hà (2015), “Ứng dụng Đại số gia tử tóm tắt liệu ngôn ngữ”, Journal of Science of HNUE, Vol.60, No.4, pp.71 – 79 Tiếng Anh [3] J Kacprzyk, S Zadrozny (2005), “Linguistic database summaries and their protoforms: towards natural language based knowledge discovery tools”, Information Sciences 173, pp.281–304 [4] J Kacprzyk, S Zadrozny (2013), “Comprehensiveness and interpretability of linguistic data summaries: A natural language focused perspective”, IEEE Symposium on CIHLI, pp.33-40 59 [5] N C Ho, H V Nam, W Pedrycz (2014), “A construction of sound semantic linguistic scales using 4-tuple representation of term semantics”, International Journal of Approximate Reasoning 55, pp.763-786 [6] N C Ho, N V Long (2007), “Fuzziness Measure on Complete Hedge Algebras and Quantifying Semantics of Terms in Linear Hedge Algebras”, Fuzzy Sets and Systems 158(4), pp.452-471 [7] N C Ho, W Wechler (1990), “Hedge algebras: An algebraic approach to structure of sets of linguistic truth values”, Fuzzy Set and Systems 35, pp.281-293 [8] D Wu, J M Mendel (2009), “Linguistic summarization using IF-THEN rules” [9] R Agrawal, R Srikant (September 1994), “Fast algorithms for mining association rules”, Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, Santiago, Chile, pp.487-499 [10] R R Yager (1982), “A New Approach to the Summarization of Data”, Information Sciences 28, pp.69–86 Các trang web [11] Bài giảng khai phá liệu, Địa chỉ: http://hfs1.duytan.edu.vn/up load/ebooks/3262.pdf, [truy cập ngày 01/3/2017]