Phương pháp tóm tắt dữ liệu dựa trên thuật toán di truyền và tham gia của người dùng

MỤC LỤC

Đốitượngnghiên cứu

Tính giải nghĩa đượccủa khung nhận thức mờ trong biểu diễn ngữ nghĩa của khung nhận thứcngônngữ tươngứng. Phươngpháp trích rút câu tóm tắt bằng ngôn ngữ sử dụng tập mờ biểu diễn ngữnghĩachohạngtừ ngônngữ.

Phạmvinghiêncứu

Phươngphápnghiên cứu

Cácđónggópchínhcủaluậnán

Bốcụcluậnán

Phần mở đầu: Trình bày về tính cấp thiết của đề tài và động lực nghiên cứu;mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; các đóng gópchínhcủa luậnán;bốcục luậnán. Trongchươngnày,luậnántrìnhbàycáckiếnthứccơsởliênquanđếncácbài toán cần nghiên cứu và phương pháp giải quyết các nhiệm vụ nghiên cứu.

Vấn đề nội dung thông tin câu tóm tắt và biểu diễn tập mờcủamiềnngônngữ thuộctính

Mộtsốkiếnthứccơbảnvềtậpmờ

Ví dụ khi nhận xét về lươngcủa nhân viên tập sự, chúng ta có thể xem đây là biến ngôn ngữ có tên gọi LƯƠNGvà nhận các giá trị ngôn ngữ như ‘rất thấp’, ‘thấp’, ‘trung bình’, ‘cao’, ‘rất cao’.Với mỗi giá trị ngôn ngữ này, gán cho nó một hàm thuộc tương ứng xác định mộttập mờ trên miền giá trị số [0, 10] (đơn vị triệu đồng) của thuộc tính LƯƠNG (xemHình1.2). Trong đó,Qđược chọn trong tập gồm năm từ lượng hóa Dom(Q) = {‘rấtít’, ‘ít’, ‘một nửa’, ‘nhiều’, ‘hầu hết’},Slà một từ ngôn ngữ được chọn trong tậpDom(LƯƠNG) = {‘rất thấp’, ‘thấp’, ‘trung bình’ (‘tb’), ‘cao’, ‘rất cao’}.Bảng 1.2là kết quả độ thuộc của lương các công việc vào tập mờ biểu diễn ngữ nghĩa cho cáchạngtừ diễnđạtcácmứclươngkhácnhautrongDom(LƯƠNG).

hàm thuộc lớn nhất bằng 1. Tập mờ tam giác và tập mờ hình thang được sử dụng nhiều nhất do tính đơn giản và dễ hiểu với người dùng.

Tríchrúttậpcâu tóm tắttốiưutừ cơsởdữ liệu

Ở mức này đòi hỏi khối lượng tính toán lớn, đồng thời có thể trích rút từcơ sở dữ liệu số lượng rất lớn các câu tóm tắt theo mẫu câu có chứa từ lượng hóagồm3thànhphầnF,S,Q.Dođó,giảithuậtditruyềnđược ápdụngđểtìmkiếm một tập con tối ưu các câu tóm tắt từ không gian lớn chứa tất cả các câu tóm tắt.Tiêu chuẩn lựa chọn tập câu tối ưu được người dùng xác định bằng công thức tínhhàm thích nghi dựa trên các tiêu chí đánh giá khác nhau. [18] trích rút một tập câu tóm tắt mô tả dữ liệu về số lượng bệnh nhân nhập việntrong một năm tại trung tâm y tế; Donis-Díaz và cộng sự [38, 39] trích rút tập câutóm tắt tối ưu từ cơ sở dữ liệu luyện thép; Altıntop và cộng sự [41] đề xuất mô hìnhgiải thuật di truyền và áp dụng trích rút các câu tóm tắt tốt từ tập dữ liệu cho các cơsởkhámchữa bệnhtạiThổNhĩKỳ.

LýthuyếtĐạisốgiatử

Ngữnghĩadựatrênthứtựcủacáctừchỉrarằngbấtcứgiatửh’nàocũngđều có thể tác động đến ảnh hưởng của gia tửhtrong hạng từhx,xX, để tạo ra sựthay đổi xu hướng ngữ nghĩa củahx, có thể là cùng xu hướng (dương) hoặc đảongược xu hướng (âm) của gia tửhkhi tác động vào hạng từx. Cáchạngtừtrong miềnngônngữ của biếnngônngữA cóthứtựdựa trênngữ nghĩa vốn có, do đó giá trị định lượng ngữ nghĩa của mỗi hạng từ trong miềntham chiếu [0,1] (miền tham chiếu chuẩn hóa cho mọi biến ngôn ngữA) cần đảmbảoduytrìquanhệthứtự giữa các hạngtừ. Trong lý thuyết ĐSGT,chúng ta có thể tính giá trị định lượng ngữ nghĩa củaxkhi biết các tham số tính mờ.Với các tham số tớnh mờfm(c),fm(c+) vàà(h),hHđó cho trước, từ cụng thức(1.11) và (1.12) và tớnh chất duy trìquan hệthứtựgiữa các hạngtừc ủ a á n h x ạ SQMf, chúng ta thấy rằng giá trịf(x) nên được xác định là một giá trị nằm giữa cáckhoảng tính mờ của(hx),hH, và các khoảng tính mờ của(hx),hH+.

Điều kiện (ii)nghĩa làU=. [0, 1] là miền giá trị nhỏ nhất chứa tất cả các khoảng giá trị của cáchạng từ. Hai điều kiện trên là tối thiểu nên định nghĩa trên vềfenlà tổng quát nhất đểđảm bảo tính khách quan của ánh. xạ định lượng ngữ nghĩa khoảng. values) của các hạng từ, đại lượng này tương ứng nhưgiá trị định lượng sốcủa cáchạngtừ tronglýthuyếtĐSGTcơbản. Từ (IS3), mọi hạng từz, |z| =k, điểm bên trái của(z) được xácđịnh bởi chiều dài của đoạn [0,left((z))], nó bằng với tổng các chiều dài của cáckhoảng ngữ nghĩa của các hạng từ độ dàikcó thứ tự ngữ nghĩa nhỏ hơnzvà chiềudài của tất cả cỏc khoảng lừi ngữ nghĩa của cỏc hạng từ cú độ dài (k– 1), tất cả hằngbêntráicủaz,tứclànóbằngvới vếphảicủacôngthức(1.15).

Với H+ = {M, V, E} và H− = {R, L}, bảng dấu giữa các gia tử dựa trên xu hướng thay đổi ngữ nghĩa trong ngôn ngữ tự nhiên được cho như trong Bảng 1.4.

Kếtluậnchương1

VẤN ĐỀ NỘI DUNG THễNG TIN CÂU TểM TẮT VÀ BIỂUDIỄNTẬPMỜCỦA MIỀNNGÔNNGỮTHUỘCTÍNH

Vaitrò của khung nhận thức trong bài toán trích rút tóm tắt bằng ngônngữdựatrênlý thuyếttậpmờ

Do đó, thiếu sự đảm bảo các tập mờ biểu diễn đúng ngữ nghĩavốn có của các hạng từ được gán bởi cộng đồng khi sử dụng chúng trong thực tế.Điều này có thể dẫn đến người dùng giải nghĩa nội dung câu tóm tắt không đúng vớithựctếvềcác đốitượngđượclưutrữtrong khodữ liệu. Mặt khác,ContD,M(Rfs(SL)) được tính toán bởi thuật toánMdựa trên biểudiễn tập mờRfs(SL) bằng việc kết hợp ngữ nghĩa dựa trên tập mờ của các từ của cácthuộc tính trong câu tóm tắtSLtrong phương pháp hình thức hóa được thành lập bởingười phát triển hệ thống. Trong phần tiếp theo, luận án sẽ trình bày vềphương pháp hình thức hóa miền hạng từ của thuộc tính bằng một cấu trúc ĐSGT.Từ đó, xác định được khung nhận thức ngôn ngữ (Linguistic Frame of Cognition -LFoC) cùng các mối quan hệ ngữ nghĩa dựa trên ngữ nghĩa vốn có của các hạng từ,tínhmởrộng đượccủa LFoC.Mộtthủtụcđược đềxuấtđể xâydựngcáctậpmờbi ểu diễn ngữ nghĩa cho các từ ngôn ngữ trong LFoC từ bộ tham số định lượng củacấutrúcĐSGT.Cáctậpmờnàytạothànhcấutrúcđathểtươngthíchvớicấutrúcđang ữ nghĩacủaLFoC.

Cơ sở tri thứccủa con người và tập các từ vựng của thuộc tính đang xem xét có thể mở rộng theothời gian, nhưng ngữ nghĩa của các câu trong cơ sở tri thức hiện tại và các từ củachúngkhôngthểbịthayđổi.Vídụ,khithêmmộtcâudiễnđạttrithứcmớivàocơsở tri thức của ngành y tế, câu được thêm vào tích hợp với hệ tri thức hiện tại và cóthể chứa một vài từ hoàn toàn mới, việc này không thể thay đổi ngữ nghĩa của cáccâu trong hệ tri thức hiện tại. Từ định nghĩa 2.1, một cách mở rộng LFoC là tăng thêm mức tính riêngκ.Khi đó tập các hạng từ trong LFoC có thêm các hạng từ có mức tính riêng lớn hơn.Theo tính chất của quan hệ thứ tự trong miền hạng từ, các quan hệ thứ tự của cáchạng từ đã có trong LFoC vẫn được bảo toàn.

Hình 2.1 minh họa thách thức đặt ra cần giải quyết. Trong khi, vế trái của đẳng thức (2.1) biểu thị nội dung thông tin mà người sử dụng giải nghĩa câu tóm tắt

ForeachxinX k + do

Ifxnotin{0,W,1}then

Từ việc phân tích phương pháp tính các khoảng tính mờ mứckdựa trên cáckhoảng tính mờ mứck– 1, khi cài đặt thủ tục HA-TFS-MG có thể tách riêng thânvòng lặp từ dòng 7 đến dòng 13 thành một thủ tục con, ký hiệu là TFS(k), để xâydựngtậpmờhìnhthangởmứck.Vớiviệclưutrữcáckhoảngtínhmờcủamứck–1 đã có, thủ tục con này chỉ cần tính toán với các khoảng tính mờ mứck> 1 màkhông cần thực hiện lần lượt từ mức 1 đến mứck. Trong chương này, luận án trình bày đề xuất một phương pháp mới dựa trênlý thuyết Đại số gia tử để giải bài toán trích rút tóm tắt ngôn ngữ từ cơ sở dữ liệu.Trong thành phần đầu vào của phương pháp đề xuất có các cấu trúc ĐSGT của cácthuộc tính, sau đó các tập mờ được sản sinh bởi thủ tục HA-TFS-MG đã được trìnhbày trong chương 2. Khi sử dụng tập mờ hình thang biểu diễn ngữ nghĩa choQ, công thứctínhđộđothôngtindoYagerđềxuấtđượcchonhưtrongcôngthức(3.4).Trong đó,alà điểm chính giữa của khoảng giá trị mà hàm thuộc của tập mờ biểu diễn ngữnghĩa choQcó giá trị 1;Sp(F) là độ đo tính riêng của tập mờFđược tính như trongcôngthức(3.5)khitập mờlàtập mờhìnhthangbiểudiễn bởibộ4(t1,t2,t3,t4)[35].

Khi mở rộng LFoC của các thuộc tính từ mức tính riêngκlên mứcκ’ = κ+ 1,KBD,tđược mở rộng thànhKBD,t’bằng thêm các câu tóm tắtchứa các hạng từ ở mức tính riêngκ’mà không làm thay đổi ngữ nghĩa của các câutóm tắt đã có trongKBD,t.Quá trình này minh họa việc hình thành tri thức của conngười từ việc khảo sát cơ sở dữ liệu và khả năng sử dụng ngôn ngữ để biểu diễnnhiềuthôngtin, nhiềutrithứchơnvềcơsởdữ liệu. Những kết quả trong thí nghiệm đã khẳng định phương pháp LSMdMlsc óthể được xem như một công cụ khai phá nội dung thông tin có cấu trúc của tập dữliệuđượcthểhiệnthôngquaphânphốingônngữ.Nộidungthôngtincócấutrúcc ủa một cơ sở dữ liệu quan trọng hơn những thông tin từ các câu tóm tắt riêng lẻ vìnó có khả năng cung cấp nhiều hơn nội dung thông tin vềc ơ s ở d ữ l i ệ u. Hơn nữa, phương pháp LSMdMlssinh ra tập câu tóm tắt kết quả có tính mở rộngtương thích vớitínhmở rộngđượccủa LFoC củacác thuộc tính.T ứ c l à , k h i m ở rộng tập từ vựng của các thuộc tính, tập câu tóm tắt cũng được mở rộng bằng bổsung thêm các câu tóm tắt chứa các từ vựng mới mà không thay đổi ngữ nghĩa củacáccâu tómtắtđãcó.

Khi đó, người dùng thu được càng nhiều thông tin về tập dữ liệu thông quagiảinghĩacáccâutómtắtđượcbổsungthêmvàotậpkếtquả.Thínghiệmthứbacho thấy khả năng khai phá phân phối bằng ngôn ngữ của các nhóm đối tượng mờđốivớicácthuộctínhmờkháccủaphươngphápđãđềxuất.Đặcbiệt,ngườidùngcó thể tăng mức độ tốt của phân phối bằng việc mở rộng tập từ lượng hóa lên cácmức tính riêng lớn hơn.

định bốn tập mờ hình thang trong phần b của Hình 2.3, lần lặp thứ hai (ứng với = 3) xác định tám tập mờ hình thang trong phần c của Hình 2.3.

TRÍCH RÚT TẬP CÂU TểM TẮT TỐI ƯU SỬ DỤNG GIẢITHUẬT DITRUYỀN KẾTHỢPCHIẾNLƯỢCTHAMLAM

Đềxuất mô hình giải thuật di truyền kết hợp chiến lược tham lam trích rúttậpcâutómtắttốiưu

Hàm đánh giá độ thích nghiFitcho mỗi cá thể biểu diễn cho một tập câu tómtắtlàđộđogộpnhậpcótrọngsốcủa2độđo:độtốtcủatậpcâutómtắtGdnhư. Ký hiệuP= (P1,P2, …,Pm) là tập hợp các cá thể trong một quần thể, mỗi cáthể tương ứng với một tập hợp các câu tóm tắt. Mô hình giải thuật di truyền kết hợpchiến lược tham lam đề xuất mới trong luận án được thể hiện trong thủ tục Greedy-GA.

Thủ tục này sẽ trả về cá thể tốt nhất trong quần thể cuối cùng sau quá trình tiếnhóa, tức là một tập hợp các câu tóm tắt tốt nhất theo đánh giá hàmFittrong côngthức (4.8). - Khung nhận thức ngôn ngữ LFoC➚Acho các thuộc tính trongDvà tậpcác tập mờT(➚A) được xây dựng bởi thủ tục HA-TFS-MG đề xuất trongchương2.