LUẬN án TIẾN sĩ NGÀNH máy TÍNH tóm tắt dữ LIỆU BẰNG NGÔN NGỮ THEO CÁCH TIẾP cận đại số GIA tử

SỐKIẾNTHỨCCƠ SỞ

Mộtsốkiếnthứccơbảnvềtậpmờ

Lý thuyết tập mờ được Zadeh đề xuất năm 1965 trong [57] với ý tưởng làmcho máy tính có thể hiểu và xử lý được những tri thức diễn đạt bằng ngôn ngữ tựnhiên. Khái niệm tập mờ là một mở rộng của khái niệm tập cổ điển hay tập rõ vàmỗi tập rõ là một trường hợp riêng của khái niệm tập mờ Tập cổ điển chỉ xem xétmột phần tử có thuộc hay không thuộc vào nó, với tập mờ thì bất kỳ phần tử nàotrong vũ trụ đều có thể thuộc về nó với mức độ thuộc được đo bởi một giá trị trongđoạn[0,1].

ChoU l àm ộ t t ậ p h ợ p c á c đ i ể m ( đ ố i t ư ợ n g ) , m ộ t t ậ p c o n m ờX t r ê nm i ề n th amchiếuUđược địnhnghĩanhưsau: Định nghĩa 1.1[57-59]:Một tập mờXtrênUlà một tập mà mỗi phần tử củanólàmộtcặpcácgiátrị(x, X (x)),trongđóxUvà X làánhxạ:

TậpUđược gọi là tập cơ sở của tập mờX Giá trị X (x) biểu thị mức độ thuộc của phầntửxvào tập mờX Nếu giá trị X (x) càng gần 1 thì mức độ thuộc củaxvàoXcàngcao. Khi X (x) chỉ nhận giá trị 0 hoặc 1 thì tậpXlà tập con rõ của tậpU Do đó, tậpmờlàkháiniệmmởrộngcủa tậprõ.

Khi xây dựng các tập mờ, giá trị hàm thuộc biến thiên trong khoảng [0,1].Trong các ứng dụng lý thuyết tập mờ thường sử dụng các tập mờ có hình dạng phổbiếnnhưtrongHình1.1.Cáctậpmờnàyđượcgọilàcáctậpmờchuẩnvìcógiátrị

Rất thấpThấpTrung bình Cao Rất cao hàmthuộclớnnhấtbằng1.Tậpmờtamgiácvàtậpmờhìnhthangđượcsửdụngnhiềun hấtdotính đơngiảnvàdễhiểuvới ngườidùng.

(a) Tập mờtamgiác (b)Tập mờhìnhthang (c) Tập mờ hình chuôngHình1.1:Bakiểutập mờphổbiến

Theo Zadeh [57] “biến ngôn ngữ là biến mà các giá trị của nó là các từ hoặccâu trong ngôn ngữ tự nhiên hoặc ngôn ngữ nhân tạo” Ví dụ khi nhận xét về lươngcủa nhân viên tập sự, chúng ta có thể xem đây là biến ngôn ngữ có tên gọi LƯƠNGvà nhận các giá trị ngôn ngữ như ‘rất thấp’, ‘thấp’, ‘trung bình’, ‘cao’, ‘rất cao’.Với mỗi giá trị ngôn ngữ này, gán cho nó một hàm thuộc tương ứng xác định mộttập mờ trên miền giá trị số [0, 10] (đơn vị triệu đồng) của thuộc tính LƯƠNG (xemHình1.2).

Hình 1.2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của biếnLƯƠNGtrongmiền thamchiếu[0,10](đơnvị:triệuđồng) Mộtcáchhìnhthức,chúngtacóđịnhnghĩacủabiếnngôn ngữnhưsau: Định nghĩa 1.2 [58, 59]:Biến ngôn ngữ là một bộ năm thành phần(𝔛,T(𝔛),U,R,M), trong đó𝔛là tên biến,T(𝔛) là tập các giá trị ngôn ngữ của biến𝔛,Ulàkhônggianthamchiếu,mỗigiátrịngônngữxemnhưlàmộttậpmờtrênU,

X X một qui tắc cú pháp sinh các giá trị ngôn ngữ cho tậpT(𝔛),Mlà qui tắc ngữ nghĩagánmỗigiátrị ngônngữ trongT(𝔛)tươngứngvớimộttậpmờtrênU.

Phân hoạch mờ là một khái niệm được sử dụng để mờ hóa các miền xác địnhcủacác biếnngônngữ.Chúngtacóđịnhnghĩaphânhoạchmờnhư sau. Định nghĩa 1.3 [60]: Chomđiểm cố địnhp 1

1: Với mỗi hạng từx{ 0 ,W, 1 }{h 0 y:yX (k-1)},xcó tính riêngk– 1, thực hiện xác định các khoảng tính mờ(hx), vớihH en, sao chocáck h o ả n g t í n h m ờ n à y t ạ o t h à n h m ộ t p h â n h o ạ c h c ủ a k h o ả n g t í n h m ờ

(x) Như minh họa trong Hình 2.4, khi đãc ó k h o ả n g t í n h m ờ(c  ), đểxácđ ị n h c á c k h o ả n g t í n h m ờ(Vc),(h 0 c)v à(Lc)t h ì c h ỉ c ầ n x á c địnhđầumútphảicủa(Vc)vàđầumútphảicủa(h 0 c)theocôngthức:

Hình 2.4: Các khoảng tính mờ của các hạng từ trongX (3)sinh từ cấu trúc Đạisốgiatử vớitậpgiatửH={L,V} right((Vc))=left((c))+fm(V).fm(c),right((h 0 c))=right((Vc))+ fm(h 0).fm(c).

(x)thànhcáckhoảng(hx)(hH en )làO(|H|)(vớiHlàtậpcácgiatử,H en =H

{h 0}).T ậ p c á c k h o ả n g(hx)l à c á c k h o ả n g t í n h m ờ c ủ a c á c h ạ n g t ừ ở m ứ c t í n h riê ngk Trong đó, khoảng tính mờ(h 0 x) được sử dụng xác định hoành độ đỉnh củacác hình thang, các khoảng tính mờ(hx) (hh 0) được tiếp tục phân hoạch để xácđịnhcáckhoảngtínhmờởcác mứctínhriêngcaohơn.

Từ Hình 2.4 cho thấyrằng khi tính tất cả các khoảng tính mờ ởm ứ c t í n h riêngk= 2, ta có được hai khoảng tính mờ(h 0 c) và(h 0 c+) được sử dụng để xâydựng các hình thang cho các hạng từc  vàc + Tiếp tục tính các khoảng tính mờ ởmức

Kếtluậnchương 2

Trong chương này, luận án đã trình bày vấn đề về nội dung thông tin câu tómtắt và thiết kế tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong khung nhận thứcngônngữ ( L F o C ) của t h u ộ c tínhd ự a t rê np hư ơn gp há p l u ậ n Đ S G T Đ ể đảm b ảo tính đúng đắn của nội dung thông tin khi người dùng sử dụng các câu tóm tắt tronggiải bài toán thực tế, theo khái niệm giải nghĩa trong logic của Tarski, các tập mờbiểu diễn ngữ nghĩa cho các từ ngôn ngữ phải là ảnh đẳng cấu ngữ nghĩa của miềnhạng từ các thuộc tính Dựa trên lý thuyết ĐSGT, luận án đã chỉ ra hai kết luận vềkhungnhậnthứcbằngngônngữ(LFoC)➚ Acủa thuộctínhA:(1)➚ Alà mộtcấutrúcđa ngữ nghĩa dựa trên quan hệ thứ tự ngữ nghĩa và quan hệ tính chung – riêng dựatrên ngữ nghĩa vốn có của các hạng từ trong ngôn ngữ tự nhiên; (2)➚ A có tính mởrộng được bằng bổ sung thêm các hạng từ có tính riêng lớn hơn, đây là tính chất cầnthiết trong nhận thức thế giới thực bằng ngôn ngữ của con người Sau đó, luận án đềxuất thủ tục HA-TFS-MG xây dựng các tập mờ hình thang ở dạng cấu trúc đa thể đểbiểu diễn ngữ nghĩa cho các hạng từ trong LFoC của mỗi thuộc tínhA Các định lýđã chứng minh rằng các tập mờ hình thang này tạo thành một cấu trúc bảo toàn cácquan hệ ngữ nghĩa (quan hệ thứ tự và quan hệ chung - riêng) và tính mở rộng đượccủa LFoC tương ứng.Tức là, các hìnhthanglàảnh đẳngcấu ngữn g h ĩ a c ủ a c á c hạngtừ tươngứng.

Cácnộidungtrìnhbàytrongchương2đãgiảiđượcvấnđềnộidungthôngtincâ utómtắt.Đâylàvấnđềcốtyếutrongbàitoántríchrútcâutómtắtbằngngôn ngữtựnhiên Các tậpmờ được sản sinh bởi thủ tục HA-TFS-MGđ ư ợ c đ ề x u ấ t trong chương này sẽ được sử dụng trong phương pháp mới trích rút câu tóm tắt dựatrên lý thuyết ĐSGT ở các chương tiếp theo Các nội dung trình bày trong chương2đãđượccôngbốtrong côngtrình[CT3,CT6].

Trong chương này, luận án trình bày đề xuất một phương pháp mới dựa trênlý thuyết Đại số gia tử để giải bài toán trích rút tóm tắt ngôn ngữ từ cơ sở dữ liệu.Trong thành phần đầu vào của phương pháp đề xuất có các cấu trúc ĐSGT của cácthuộc tính, sau đó các tập mờ được sản sinh bởi thủ tục HA-TFS-MG đã được trìnhbày trong chương 2 Do đó, phương pháp trích rút tóm tắt được đề xuất có thể đảmbảosinhracáccâutómtắttruyềntảiđúngnộidungthôngtintrongtậpdữliệuvàcó thể mở rộng tập câu tóm tắt thu được khi tập hạng từ của miền hạng từ ngôn ngữđược mở rộng Luận án trình bày các thực nghiệm theo nhiều kịch bản khác nhautrên bộ dữ liệuBank Marketing Từ phân tích kết quả thực nghiệm đã chứng tỏnhữngưuđiểmcủaphươngpháptríchrúttómtắtdựa trênlý thuyết Đạisốgia tử.

Cúphápcâutómtắttrongngônngữtựnhiên

Cho cơ sở dữ liệuDbao gồm các bản ghi biểu diễn dữ liệu về các đối tượngtrongthế g i ớ i t h ự c K ý hi ệu,A jlà m ộ t t hu ộc tí nh củaD , x jilà m ộ t hạngt ừ t h ứi trong khung nhận thức ngôn ngữ➚ κ của thuộc tínhA j Từ đây, luận án sử dụng kýhiệuothay cho ký hiệuytrong công thức (1.2), (1.3) để tránh nhầm lẫn vớiykýhiệuchocáchạngtừ ngônngữ.

Mỗi câu tóm tắtS L bao gồm các thành phần là từ lượng hóaQ, các vị từ ngônngữ dạngP(o(A j ),x ji ) = “o(A j ) is/hasx ji ” Để biểu diễn rõ hơn các thành phần trongcâutómtắt, cấutrúccâutrong(1.2)và(1.3)đượcviếtlạiở dạngnhưsau: p=“Qosareo(E s),” (3.1) p q=“Qosthatareo(F q)iso(E s)” (3.2) Trongđó,o(E s)vào(F q)kýhiệuchocácbiểudiễnngônngữliênkếtcácvịtừngôn ngữ có dạng “o(A1) is/hasx 1A N D … A N D o(A m ) is/hasx m ”,x j ∈ 𝐹 𝐴 𝑗 ,𝜅 𝑗 ,j=1 m Khi tách thành phần từ lượng hóaQtrong câu tóm tắt theo dạng trong (3.1)và (3.2), phần còn lại có thể được viết ngắn gọn lần lượt lào(E s) và “o(E s) ANDo(F q)”,phầnnàyđượcgọilàthâncủacâutómtắttươngứng.

Cáchạngtừx jl à phầntửtrongkhungnhậnthứcngônngữcủathuộctínhthứ jđượcxácđịnhtheophươngphápluậncủaĐSGT.Nêncáchạngtừtrongcấutrúc câu tóm tắt như trong (3.1) và (3.2), bao gồm các từ lượng hóa là các hạng từ trongngôn ngữ tự nhiên được sử dụng để mô tảc á c t h u ộ c t í n h , đ ạ i l ư ợ n g đ ị n h l ư ợ n g Điều này khác biệt với các hạng từ chỉ được coi là nhãn của các tập mờ trongphương pháp luận dựa trên lý thuyết tập mờ Do đó, cấu trúc câu tóm tắt như trong(3.1)và(3.2)đượccoilàcáccâudiễnđạtbằngngônngữ tựnhiên.

Cho trước một cơ sở dữ liệuD, các phương pháp trích rút tóm tắt bằng ngônngữ (LSMd) dựa trên lý thuyết tập mờ sẽ xây dựng các tập mờ và gán nhãn chochúng bằng các hạng từ Phương pháp LSMd dựa trên lý thuyết ĐSGT, bắt đầu từviệcxácđịnhkhungnhậnthứcbằngngônngữchocácthuộctínhtheođịnhnghĩa 2.1 Tức là xác định cú pháp và ngữn g h ĩ a đ ị n h t í n h c h o m i ề n h ạ n g t ừ c ủ a t h u ộ c tính Đồng thời, xác định bộ tham số định lượng tính mờ chỉ với vài giá trị (thôngthường là 6 tham số cho cấu trúc ĐSGT có một gia tử dương, một gia tử âm) Từ bộtham số này, sử dụng thủ tục HA-TFS-MG trong mục 2.5.1 sẽ tính toán được tất cảhàm thuộc của các tập mờ hình thang biểu diễn ngữ nghĩa cho các hạng từ trongLFoC Như vậy, ngữn g h ĩ a t í n h t o á n d ự a t r ê n t ậ p m ờ c ủ a c á c h ạ n g t ừ n g ô n n g ữ được sinh ra từ ngữ nghĩa định tính và chúng là ảnh đẳng cấu bảo toàn các quan hệngữ nghĩa vốn có của các hạng từ Do đó, một thuật toán trích rút tóm tắt sử dụngcáctậpmờđượcxâydựngtheothủtụcHA-TFS-

MGtrong2.5.1sẽđượccoilàxửlýtrực tiếptrênngữ nghĩacủa các hạngtừ trongngônngữ tự nhiên.

Phương pháptríchrútcâutómtắtdựatrênlýthuyết Đạisốgiatử

Trong phần này, luận án trình bày một phương pháp mới trích rút câu tóm tắtLSMd (Linguistic Summarization Method), ký hiệu làM ls Trong đó,M ls tính toánvới các tập mờ được sinh ra bởi thủ tục HA-TFS-MG đã đề xuất trong mục 2.5.1 ởChương 2 Do đó, phương pháp đề xuấtM ls có khả năng tương tác trực tiếp với ngữnghĩa định tính của các hạng từ trong miền hạng từ ngôn ngữ của các thuộc tính.Điều này sẽ đảm bảo câu tóm tắtS L được trích rút từ cơ sở dữ liệu biểu diễn đúngđắn nội dung thông tin được lưu trữ trong cơ sở dữ liệu Đây là điểm khác biệt củaphương pháp trích rút câu tóm tắtM ls dựa trên lý thuyết ĐSGT so với các phươngphápđã có.

PhươngphápM lsb a o gồmbathànhphầnchínhđượcminhhọatrong Hình 3.1 Trong đó, thành phần thứ nhất xác định tham số đầu vào là các cấu trúc ĐSGTcho các thuộc tínhAcủa cơ sở dữ liệuDvà biến từ lượng hóaQ Mỗi cấu trúcĐSGT bao gồm tập hạng từ ngôn ngữ cùng ngữ nghĩa định tính của chúng, bộ thamsố định lượng và mức tính riêng của khung nhận thức ngôn ngữ Trong thành phầnthứ hai là sản sinh các tập mờ từ bộ tham số đã cho trong thành phần thứ nhất. Việcnàyđượcthực hiệnbằngsửdụngthủtục HA-TFS-

MGđãđềxuấttrong mục2 5củachương2.Haithànhphầnnàythựchiệnviệcphâ nchiamiềnthamchiếucủa các thuộc tính bởi các tập mờ Chúng tạo ra sự khác biệt của phương pháp LSMdM ls đề xuất so với các phương pháp dựa trên lý thuyết tập mờ Thành phần thứ ba làsửdụngthuậttoántríchrútcâutómtắtnhưtrongcácnghiêncứuđãcó.Điểmmớilà các thuật toán sẽ tính toán với các tập mờ được sản sinh từ thành phần 2. Trongchương2,luậnánđãchứngminhrằngcáctậpmờnàyđảmbảotínhgiảinghĩavàcó khả năng mở rộng Do đó, kết quả thu được là tập các câu tóm cũng được đảmbảotínhgiảinghĩanộidungthôngtinvàtươngthíchvớisựmởrộngcủatậphạngtừn gônngữ củacácthuộc tính.

Vì phương pháp LSMdM ls đề xuất tương tác trực tiếp với hạng từ ngôn ngữtrong khungnhận thứcc ủ a c á c t h u ộ c t í n h c ầ n x e m x é t , v i ệ c x á c đ ị n h c ú p h á p v à ngữ nghĩa của các thuộc tính trongDlà quan trọng Thành phần này đóng vai trònhư giao diện giữa cơ sở dữ liệuDvới các chuyên gia, người quản trị, người quảnlý.Đây là những người cần thiết trong xác định cú pháp, ngữ nghĩa định tính, ngữnghĩa định lượng của các khung nhận thức Các nhiệm vụ chính trong thành phầnnàynhư sau:

Nhiệm vụ 1:Cung cấp dữ liệu cần thiết để điều khiển cú pháp và ngữ nghĩađịnh tính của các từ trong miền hạng từ mỗi thuộc tínhA(bao gồm cả biến từ lượnghóaQ).Cácdữliệucầnthiếtgồmcó:

Hình 3.1: Các thành phần chính trong phương pháp trích rút tóm tắt bằngngônngữ dựatrênlýthuyếtĐạisốgiatử o Các gia tử âm và gia tử dương trong hai tậpH – vàH + ; các hạng từ nguyênthủy (hay hạng từ sinh)c – vàc + ; dấu của các gia tử, dấu của hạng từ sinh.Cácdữ liệunàyđượcxácđịnhbởingườiquảntrịcơsở dữliệu. o Bảngdấuquanhệcủagiatử đốivớigiatử. o Số nguyênκchỉ mức tính riêng lớn nhất của hạng từ trong LFoC cần xemxétvàcácgiátrịsốcủabộthamsốtínhmờchothuộctínhA.

Nhiệmvụ2:Trangbịmộtthủtụcsinhramộtcấutrúcphâncấp𝑭𝜅, G= (➚ κ ,≤,G) cho LFoC của thuộc tínhA(bao gồm cả biến từ lượng hóaQ) Trong đó, sốnguyênκlà tham số chỉ mức tính riêng của➚ A,κ , được xác định bởi người quản trịcơ sở dữ liệu để xác định kích thước của LFoC Cấu trúc hình thức𝑭𝜅, G được coi làđầu vào cho bước tiếp theo để xây dựng cấu trúc tập mờ phân cấp biểu diễn cấu trúcphâncấp𝑭𝜅, Gcủa LFoC➚ A,κ

Nhiệm vụ 3: Xác định các giá trị số của bộ tham số tính mờ của mỗi thuộctínhAvà của từ lượng hóaQ Các giá trị này được xác định bởi người quản trị cơ sởdữ liệu và rất quan trọng để xác định ngữ nghĩa định tính củaA, các tập mờ hìnhthangđượcgánchocáchạngtừtrongLFoC.Dođó,cácgiátrịnàycầnđượcxác

≤ định một cách cẩn thận bởi một nhóm các chuyên gia Chúng cũng là đầu vào chonhiệmvụtiếptheo.

Nhiệm vụ 4:Phương pháp trích rút tóm tắtM lsđược trang bị một thủ tục để xử lý sự tăng trưởng của mỗi LFoC➚ A,κ khi tăng tính riêngκcủa nó được yêu cầu.Thủ tục này có thể duy trì khả năng mở rộng ngữ nghĩa của LFoC, tức là ngữ nghĩacủa các từ hiện tại trong➚ A,κ được bảo toàn khi thêm các hạng từ có tính riêng lớnhơnκvào➚ A,κ

Thành phần này thực hiện nhiệm vụ sản sinh cấu trúc các tập mờ phân cấp T (➚ A, κ) để biểu diễn ngữ nghĩa của các hạng từ trong➚ A,κ cho thuộc tínhAvà từlượng hóaQ Khác với các phương pháp trích rút tóm tắt đã có, trong đó người pháttriểnhệthốngxâydựngcáctậpmờbiểudiễnngữnghĩacủa cáctập hạngtừcho một cơ sở dữ liệu xác định dựa trên trực giác của họ, phương pháp được đề xuất ởđâyM ls được trang bị một thủ tục để xây dựng các tập mờ hình thang cho các hạngtừ trong LFoC Do đó, thủ tục phải được phát triển để thực hiện xây dựng cấu trúccáctậpmờphâncấpmongmuốn T (➚κ)=(T(➚κ),≼,).Cấutrúcnàybiểudiễncấutrúcđangững hĩacủaLFoC➚ A,κtương ứngđượcmôhìnhhóabởi𝑭𝜅, G= (➚ κ ,≤,G) chocácthuộctínhAvàbiếntừlượnghóaQ. Đầuvàocủathủtụcxâydựngtậpmờhìnhthanggồmcó: o Cácdữliệuvàonhưtrongthànhphần1nêutrên,baogồmcácgiátrịthamsốtínhm ờđộc lập. o Cấutrúchìnhthứchóacủa𝑭𝜅, G =(➚ κ ,≤,G).

Thủ tục HA-TFS-MG trong mục 2.5.1 trong chương 2 được sử dụng trongthành phần này Đầu ra của thủ tục được minh họa trongHình 2.3, vớiκ= 3, có thểđược biểu diễn bởi mảng hai chiều của các tập mờ hình thangTr() đã được cấu trúcởdạngđathểnhư sau:

(3.3)Trongđó,x kj ∈F A,κ, vàTr(x kj )làhìnhthangbiểudiễnngữnghĩabởibộba(a, b ,c)( blà đáynhỏ,[a,c]là đáylớn).

Khi các tập mờ tương ứng với các hạng từ của miền hạng từ của các thuộctínhtrongcơsởdữliệuDvàbiếntừlượnghóaQđượcxâydựng,chúngtacóthểáp dụng các giải thuật trích rút tóm tắt tính toán với các tập mờ để khai phá các câutómtắttừD.

Boran và cộng sự [90] đã chỉ ra rằng bước quan trọng nhất trong trích rút tómtắtbằngngônngữsửdụngcáctậpmờlàtínhtoánđộđođánhgiámứcđộđúngđắn

T Tùy thuộc vào kiểu tập mờ (tập mờ loại 1 hoặc tập mờ loại 2) và kiểu lực lượngcủa tập tham chiếu (tập đếm được hoặc tập không đếm được) để phân loại cácphương pháp Có một số phương pháp tínhTđã được chỉ ra như tính theo công thứccủaZadeh,gộpnhậpcótrọngsốOWAcủaYager,phươngphápGcủaDelgado,…Ví dụ tại mục 1.3.2 trong chương 1 thực hiện áp dụng phương pháp tínhTtheo công thức đề xuất bởi Zadeh cho các mệnh đề mờ có từ lượng hóa Điểmchung của các phương pháp là đều sử dụng hàm thuộc của các tập mờ trong côngthức Thủ tục HA-TFS-MG sản sinh các tập mờ loại 1 dạng hình thang Do đó, saukhi đã thiết kế được các tập mờ biểu diễn ngữ nghĩa cho các hạng từ thì có thể ápdụng bất kỳ phương pháp tính toánTsử dụng các hàm thuộc của tập mờ loại 1.Trong nghiên cứu của luận án, công thức (1.6) và (1.7) theo đề xuất của Zadeh đượclựachọnđểtínhgiátrịđúngđắnT.

Tập các câu tóm tắt đã được trích rút được xem như cơ sở tri thức của conngười về tập dữ liệuD, ký hiệu là KB D , nên tập này có khả năng mở rộng Do đó,phương pháp đề xuấtM ls cũng phải có khả năng xử lý sự tăng trưởng của LFoC củacác thuộc tính (chính là tập từ vựng) và cơ sở tri thức KB Dcủa D Tức là khi kíchthước của một số

LFoC tăng lên, các câu tóm tắt đã được trích rút từDbởiM ls vẫnđược bảo toàn ngữ nghĩa Khi đó, phương pháp trích rút tóm tắt được gọi là có khảnăngmởrộng.Tínhchấtnàyđượckhẳngđịnhthôngqua định lý sau: Địnhlý3.1:Nếusửdụnggiátrịđúngđắncủacâutómtắtđểxácđịnhxem câutómtắtcólàđầuracủaphươngpháptríchrút,tứclàchỉphụthuộcvàođộhỗtrợ của cơ sở dữ liệu cho trước đối với các tập mờ biểu diễn ngữ nghĩa của các hạngtừ trong LFoC của các thuộc tính, thì phương pháp trích rút tóm tắt đề xuấtM ls cókhảnăngmởrộng.

Thựcnghiệm

Người dùng nhận được các câu tóm tắt và giải nghĩa chúng để hiểu được cácthôngtin,trithứcẩndấutrongtậpdữliệu.Dođó,đánhgiámứcđộthôngtincủacác câu tóm tắt dựa trên ngữ nghĩa vốn có của các hạng từ trong ngôn ngữ tự nhiênlàm ộ t y ê u c ầ u q u a n t r ọ n g t r o n g n g h i ê n c ứ u v ề t r í c h r ú t t ó m t ắ t b ằ n g n g ô n n g ữ Luận án dựa trên ý tưởng về độ đo thông tin như trong nghiên cứu của Yager [3, 4]và Wilbik [35] để đưa ra tiêu chí lựa chọn các câu tóm tắt cung cấp nhiều thông tinchongườidùng.

Ký hiệu một câu tóm tắt dạng đơn giản được trích rút từ một cơ sở dữ liệu làmột bộ ba (S, Q, T) Trong đó,S,Q,Ttương ứng là thành phần kết luận, từ lượnghóa và giá trị đúng đắn (giá trị chân lý) của câu tóm tắt Tùy thuộc vào dạng tập mờbiểu diễn ngữ nghĩa của từ lượng hóaQcó các công thức khác nhau để đánh giá độđo thông tin Khi sử dụng tập mờ hình thang biểu diễn ngữ nghĩa choQ, công thứctínhđộđothôngtindoYagerđềxuấtđượcchonhưtrongcôngthức(3.4).Trong đó,alà điểm chính giữa của khoảng giá trị mà hàm thuộc của tập mờ biểu diễn ngữnghĩa choQcó giá trị 1;Sp(F) là độ đo tính riêng của tập mờFđược tính như trongcôngthức(3.5)khitập mờlàtập mờhìnhthangbiểudiễn bởibộ4(t 1 ,t 2 ,t 3 ,t 4 )[35].

𝑆𝑝(𝐹)= 1 − (𝑡 4 −𝑡 1 )−(𝑡 2 3 −𝑡 2 ) (3.5)Công thức tính độ đo thông tinIcủa Yager xuất phát từ việc xem xét mốiquan hệ giữa ba yếu tố: mức độ thông tin nhận được từ giải nghĩa câu tóm tắt, độ đotínhriêngcủacáctậpmờbiểudiễnngữnghĩachoQvàS,độđođúngđắnT.Từ côngthức(3.5)chothấytậpmờcànghẹpthìđộđotínhriêngcànglớn,tứclàcómối quan hệ rõ ràng giữa độ đo tính riêng của tập mờ và mức độ tính riêng của hạngtừ gán cho nó Trong nghiên cứu của luận án, tính riêng của các hạng từ được xemxét dựa trên ngữ nghĩa vốn có của chúng trong ngôn ngữ tự nhiên Cụ thể trong lýthuyết ĐSGT, độ đo tính riêng được tính bằng số lượng gia tử ngôn ngữ xuất hiệntrong hạng từ đó Theo cách thiết kế tập mờ trong thủ tục HA-TFS-MG tại mục2.5.1, các hạng từ mà xuất hiện nhiều gia tử thì hình thang biểu diễn ngữ nghĩa cànghẹp Do đó, thay vì sử dụng độ đo tính từ tập mờ, lúc này việc xem xét tính chung –riêngcủamỗihạng từtrongLFoCtrựctiếpthôngquasốlượnggia tửngônngữ.

Hơn nữa, các hình thang biểu diễn ngữ nghĩa cho các hạng từ lượng hóaQtrongthựcnghiệmđượcsinhbởithủtụcHA-TFS-

MGnênđáynhỏcủachúngcóthứtựtươngứngvớithứtựngữnghĩacủaQ.Giátrịatron gcôngthức(3.4)chínhlà hoành độ trung điểm đoạn đáy nhỏ của tập mờ hình thang Từ đó cho thấy cần ưutiên lựa chọn từ lượng hóaQtương ứng với hình thang cóacàng gần 1 Tức là từlượng hóaQcó thứ tự ngữ nghĩa lớn hơn sẽ tạo thành câu tóm tắt cung cấp nhiềuthôngtinhơn.

Theo lập luận về độ đo thông tin như trên, tác giả luận án đưa ra tiêu chí lựachọn các câu tóm tắt cung cấp nhiều thông tin hơn Giả sử, phần thân câu tóm tắt đãđược xác định, tức là thành phần kết luậno(E s) và thành phần lọco(F q) đã được xácđịnh Khi đó, giá trị hỗ trợ cho thân câu tóm tắt đã được tính toán xác định, có thểlựa chọn một số từ lượng hóaQđể tạo thành các câu tóm tắtS L Tiêu chuẩn để chọnmộttừlượnghóaQtạo thànhcâutómtắtcung cấpnhiềuthôngtinnhấtnhưsau: o C1:Giátrị chânlý củaS L lớnnhất; o C2: Khi có nhiều hơn một từ lượng hóa mà cho giá trị chân lý bằng nhau,thực hiện chọnS L c ó đ ị n h l ư ợ n g Qở mức riêng lớn nhất (tức có nhiều giatử nhất) Ngoài ra, nếu tồn tại nhiều hơn một từ lượng hóaQnhư vậy, khiđósẽ chọntừ địnhlượngQcó thứtự ngữ nghĩalớnnhất.

Mục đích thực hiện các thí nghiệm sau đây để chứng tỏ khả năng thực thiđược của phương pháp trích rút tóm tắt được đề xuấtM lsv à l à m r õ m ộ t s ố đ i ể m khácb i ệ t v ớ i c á c p h ư ơ n g p h á p đ ã c ó M ộ t t r o n g n h ữ n g đ i ể m k h á c b i ệ t c h í n h l à phương pháp đề xuất có khả năng tương tác trực tiếp với ngữ nghĩa của các hạng từthông qua tính giải nghĩa được của các tập mờ hình thang được xây dựng theo thủtụcH A - T F S -

M G t r o n g m ụ c 2 5 1 H ơ n n ữ a , c á c t h í n g h i ệ m m u ố n c h ứ n g t ỏ t í n h chất mở rộng được của LFoC sẽ tạo ra cơ hội để mở rộng tập các câu tóm tắt thuđược chứa các câu tóm tắt có khả năng cung cấp nhiều thông tin về tập dữ liệu Tậphợp các câu tóm tắt này được coi là tạo thành cơ sở tri thức của con người (humanknowledge base) về cơ sở dữ liệuD, ký hiệu làKB D Theo định lý 3.1, khi mở rộngLFoCcủacácthuộctínhthìKB Dcũng được mở rộng.

Mục tiêu 1:Thí nghiệm chứng tỏ con người có nhu cầu và có khả năng sửdụng khung nhận thức với số lượng từ lớn hơn ngưỡng 72 để hình thành tri thứcbằng ngôn ngữ Số lượng từ lớn còn có thể tạo điều kiện, cơ hội để con người diễnđạt tri thức một cách rõ ràng hơn và mang đến nhiều thông tin hơn về thế giới thựcđượclưutrữ trongcơsởdữ liệu.

Mục tiêu 2:Giả sử tại thời điểmt, cơ sở tri thức về cơ sở dữ liệuDđược tạobởi các câu tóm tắt làKB D,t Khi mở rộng LFoC của các thuộc tính từ mức tính riêngκlên mứcκ’ = κ+ 1,KB D,t được mở rộng thànhKB D,t’ bằng thêm các câu tóm tắtchứa các hạng từ ở mức tính riêngκ’mà không làm thay đổi ngữ nghĩa của các câutóm tắt đã có trongKB D,t Quá trình này minh họa việc hình thành tri thức của conngười từ việc khảo sát cơ sở dữ liệu và khả năng sử dụng ngôn ngữ để biểu diễnnhiềuthôngtin, nhiềutrithứchơnvềcơsởdữ liệu.

Mụctiêu3:PhươngphápđềxuấtM ls cóthểsảnsinhmộtphânphốingônngữ của các nhóm mờ đối với các thuộc tính khác của cơ sở dữ liệu Phân phối ngôn ngữnày cũng hữu ích tương tự như phân phối thể hiện bằng số thông thường Hơn nữa,khi người dùng yêu cầu một phân phối chính xác hơn nữa, phương pháp đề xuấtM lscó thểthựchiệnbằngviệctăngtínhriêngcủaLFoCđểbổsungthêmcáccâutó mtắt chứa các hạng từ có mức tính riêng lớn hơn mà vẫn duy trì ngữ nghĩa vốn có củacáccâu tómtắtđãcó.

Trongcác p hầ n t iế pt h e o , l uậ n án t r ì n h bà yb a th ín gh iệ mđể t h ự c h iệ nba mụctiêu nói trên.

3.3.3 Cơsởdữ liệu,cúphápvàngữnghĩacủa các thuộctính

Tập dữ liệu được sử dụng trong thực nghiệm làBank Marketing(BM) đượctạo ra từ các chiến dịch tiếp thị trực tiếp dựa trên các cuộc gọi điện thoại của mộtngânh à n g B ồ Đ à o N h a D ữ l i ệ u đ ư ợ c t ả i v ề t ừ k h o d ữ l i ệ u U C I t ạ i đ ị a c h ỉ https://archive.ics.uci.edu/ml/datasets/bank+marketing Tập dữ liệu gồm có 41.188bản ghi và

21 thuộc tính Mỗi bản ghi là một bộ thông tin cá nhân về một kháchhàng Một số thuộc tính được quan tâm đểs i n h r a c á c c â u t ó m t ắ t n g ô n n g ữ đ ơ n giản là AGE (tuổi của khách hàng), JOB (nghề nghiệp của khách hàng), MAR (tìnhtrạng hôn nhân), CCI (chỉ số niềm tin của người tiêu dùng - chỉ số hàng tháng) và Y(chỉ ra câu trả lời của câu hỏi: khách hàng đã đăng ký một khoản tiền gửi có kỳ hạnchưa?).Miềngiátrịcủa các thuộctínhnhư sau: oD o m(AGE)=[17,98] o Dom(JOB)={‘admin’,‘blue-collar’,‘entrepreneur’,‘house- maid’,‘management’,‘retired’,‘self- employed’,‘services’,‘ s t u d e n t ’ , ‘technician’,‘unemployed’,‘unknown’} o Dom(MAR)={‘married’,‘single’} oD o m ( C C I ) =[50.8,26.9] o Dom(Y)={‘yes’,‘no’}

3.3.3.2 Cúphápvàngữnghĩa địnhtính, địnhlượng củacácthuộctính ĐểxácđịnhkhungnhậnthứcngônngữchocácthuộctínhsốAGE,CCIvàtừ lượng hóa theo phương pháp luận ĐSGTc ầ n p h ả i x á c đ ị n h c á c t h à n h p h ầ n c ơ bản trong cấu trúc đạisố (ba hằng ngôn ngữ, hai phần tửs i n h , t ậ p c á c g i a t ử ) v à mức tính riêng Để xây dựng các hình thang biểu diễn ngữ nghĩa cho các hạng từtrong khung nhận thức theo thủ tục HA-TFS-MG đề xuất trong mục 2.5.1 cần xácđịnhbộthamsốtínhmờ. Đểđ ơ n g i ả n , t r o n g t h í n g h i ệ m l ự a c h ọ n c ù n g m ộ t t ậ p h ợ p c á c g i a t ử đ ơ n giản,H= {L (Little),V (Very)} và một gia tử nhân tạoh 0để tạo ra lõi ngữ nghĩah 0 xcủa mỗi từxcho tất cả các biến cần xây dựng khung nhận thức ngôn ngữ Khoảngmờ củah 0 xlà đáy nhỏ hình thang biểu diễn ngữ nghĩa củax Ngữ nghĩa định tínhcủaxđượcxácđịnhbằng cáchxácđịnh quanhệdấucủacácgiatửcủatậpH.Đồng thời, sử dụng cấu trúc đa thể các hình thang như trong Hình 2.3 để biểu diễn ngữnghĩacủacáchạngtừ trongLFoCcủathuộctínhAGE,CCIvàtừlượnghóaQ.

Các phần tử sinh của từ lượng hóaQlà 'few' (f) và 'many' (m) Do đó,➚ Q,1 = X Q,1= {‘none’, ‘few’, ‘a half’, ‘many’, ‘almost all’}, trong đó ‘none’, ‘a half’ và‘almost all’ lần lượt tương ứng với các hằng 0 ,Wvà 1 Đối với ngữ nghĩa địnhlượng củaQ, giả sử rằng các giá trị tham số độ mờ độc lập làfm(0) 0.02,fm(f)=0.43,fm(‘a half’)= 0.1,fm(m)= 0.43,μ(L)= 0.5,μ(V)= 0.3 và do đó, chúng ta cófm(1)=0.02,μ(h 0 )=0.2.

Tương tự nhưQ, tất cả các khía cạnh ngữ nghĩa của AGE được xác định nhưsau.Đầutiên,khaibáoc  =‘young’(y),c + =‘old’(o),W=‘middle’, 0= ‘completely young’, 1 = ‘completely old’ Mặc dù cú pháp và ngữ nghĩa định tính vềhình thức của các biếnQvà AGE là như nhau, nhưng về mặt ngữ nghĩa định lượngcủaAGEhoàntoànkhác vớiQđượcnêuởtrên.Độđotínhmờcủacáctừtron g

Kếtluậnchương 3

Trong chương này, luận án đã trình bày mộtphương pháp trích rútc â u t ó m tắtd ựa tr ên lý t h u y ế t Đ S G T vàcác k ế t q uả t h í n gh iệ mch ứn g t ỏ t í n h k hả t h i , ư u điểm của phương pháp đã đề xuất Phương pháp trích rút tóm tắt LSMdM lst í n h toán trên các tập mờ là ảnh đẳng cấu của các hạng từ trong khung nhận thức bằngngôn ngữ LFoC của các thuộc tính trong cơ sở dữ liệu Đặc điểm này đảm bảo tínhđúngđắ nk hi giảin gh ĩa n ộ i du ng th ôn gt in c â u tó mt ắt tr on gn gô nn gữ t ự n h i ê n Hơn nữa, phương pháp LSMdM lssinh ra tập câu tóm tắt kết quả có tính mở rộng tương thích vớitínhmở rộngđượccủa LFoC củacác thuộc tính.T ứ c l à , k h i m ở rộng tập từ vựng của các thuộc tính, tập câu tóm tắt cũng được mở rộng bằng bổsung thêm các câu tóm tắt chứa các từ vựng mới mà không thay đổi ngữ nghĩa củacáccâu tómtắtđãcó.

Luận án đã xem xét về mức độ thông tin nhận được thông qua tính riêng củacác hạng từ trong cấu tóm tắt và giá trị đúng đắnTcủa các câu tóm tắt Từ đó, đềxuất tiêu chuẩn chọn từ lượng hóa trong LFoC củaQđể thu được câu tóm tắt có giátrịđúngđắnTlớnnhấtcóthểvàchonhiềuthôngtinvềtậpdữliệu.Cáckếtquảthự c hiện từ ba thí nghiệm được phân tích để chứng tỏ khả năng ứng dụng và nhữngưu điểm của phương pháp LSMdM ls đã đề xuất. Thí nghiệm thứ nhất chứng tỏ khisử dụng các tập từ vựng nói chung, tập từ lượng hóa nói riêng, với số lượng có thểvượt ngoài ngưỡng 72, người dùng sẽ có khả năng nhận được các câu tóm tắt cógiátrịđúngđắncaovàthểhiệnnhiềuthôngtinvềtậpdữliệu.Thínghiệmthứhai nhấnmạnhkhảnăngmởrộngtậpcâukếtquảtươngứngvớiviệcmởrộngcủatậptừ vựng Khi đó, người dùng thu được càng nhiều thông tin về tập dữ liệu thông quagiảinghĩacáccâutómtắtđượcbổsungthêmvàotậpkếtquả.Thínghiệmthứbacho thấy khả năng khai phá phân phối bằng ngôn ngữ của các nhóm đối tượng mờđốivớicácthuộctínhmờkháccủaphươngphápđãđềxuất.Đặcbiệt,ngườidùngcó thể tăng mức độ tốt của phân phối bằng việc mở rộng tập từ lượng hóa lên cácmức tính riêng lớn hơn Về mặt lý thuyết toán học, phân phối ngôn ngữ bằng từlượnghóanàycóýnghĩa,giátrịtốtnhư phânphốisốhọcthôngthường.

Nội dung đã trình bày trong chương 3 này là tổng hợp các kết quả đã công bốtrongcác côngtrình[CT4,CT6].

CHƯƠNG 4 TRÍCH RÚT TẬP CÂU TÓM TẮT TỐI ƯU SỬ DỤNG

Bài toán trích rút tóm tắt ở mức tổng quát nhất khi cả ba thành phầnQ,F,Skhông được xác định trước đòi hỏi nhiều thời gian tính toán Tuy nhiên, trong kếtquả lại có thể đưa ra các tri thức mới thú vị về các đối tượng trong thế giới thựcđược lưu trữ trong cở sở dữ liệu Trong chương này, tác giả chỉ ra rằng tập luật kếthợp ngôn ngữ chỉ tương ứng với một tập concác câu tóm tắt có từl ư ợ n g h ó a D o đó, lực lượng của tập câu tóm tắt bằng ngôn ngữ lớn hơn nhiều so với lực lượng củatập luật kết hợp ngôn ngữ trích rút từ cùng một cơ sở dữ liệu, cùng một cách phânchia mờ miền tham chiếu của các thuộc tính.

Từ đó đặt ra bài toán tìm kiếm một tậpcon các câu tóm tắt với số lượng hạn chế nhưng đạt giá trị tối đa hàm mục tiêu theomong muốn của người dùng Trong chương này, luận án trình bày đề xuất một hàmRandom-Greedy-LS dựa trên chiến lược tham lam để trích rút một câu tóm tắt tốt vàhướng tới một tập câu đa dạng Sau đó, hàm Random-Greedy-LS này được sử dụngtrongmôhìnhgiảithuậtditruyềnGreedy-GAđểtìmkiếmmộttậpcâutómtắttốiưu dựa trên mục tiêu tối đa độ tốt của các câu và độ đa dạng của tập câu Kết quảthực nghiệm so sánh với mô hìnhHybird-GA trên cơ sở dữ liệucreepđã chứng tỏhiệu quả của ý tưởng tham lam trong hàm Random-Greedy-LS và việc sử dụng cáctậpmờthiếtkếbởithủtục HA-TFS-MGtrong chương 2.

Mốiliênhệgiữaluậtkếthợp ngônngữvàcâutómtắt cótừlượnghóa

Cho trước một cơ sở dữ liệuD= {o 1,o 2, …,o n } trên tập thuộc tínhA= {A 1,A 2,

…,A m } Luật kết hợp ngôn ngữ và câu tóm tắt chứa từ lượng hóa là các dạng trithức khác nhau được trích rút từ cơ sở dữ liệuD Việc phân chia miền tham chiếucủa các thuộc tính bằng các tập mờ là bước tiền xử lý khi giải cả hai bài toán tríchrút luật kết hợp ngôn ngữ và trích rút câu tóm tắt chứa từ lượng hóa Trong phầnnày, luận án phân tích liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt có từ lượnghóa được trích rút từ cơ sở dữ liệuD Từ đó, tác giả luận án đưa ra ý tưởng sử dụngmột phần giải thuậtApriori trích rút luật kết hợp để có thể trích rút một tập con cáccâutómtắt.

(4.1)Trongđó:xvàylàcáchạngtừngônngữtrongm i ề n h ạ n g t ừ D o m (A i )v à Dom(A j )c ủahaithuộctínhA iv à A j Giảsử x , yl ầ n lượtlàhàmthuộccủahaitậpmờbiểudiễnngữnghĩac hoxvày.Độhỗtrợαvàđộtincậyβđượctínhtheocôngthức(4.2)[91-

Ví dụ xét trong cơ sở dữ liệu về công nhân có thuộc tính TUỔI và LƯƠNG.Một luật kết hợp ngôn ngữ được trích rút từ cơ sở dữ liệu là: “Nếucông nhântuổitrẻ thìcông nhân nhậnlương thấp” (= 0.4,= 0.9) Trong công thức tính độ tincậy, tửsốlà lựclượng côngnhân thỏahai điềukiện ‘LƯƠNG=‘thấp’’và‘TUỔI

=‘trẻ’’,mẫusốlàlựclượngcôngnhânthỏamộtđiềukiện‘TUỔI=‘trẻ’’.Dođó,từ giá trị độ tin cậy= 0.9 suy ra rằng tỷ lệ công nhân thỏa ‘LƯƠNG = ‘thấp’’trong nhóm công nhân thỏa điều kiện ‘TUỔI = ‘trẻ’’ là 0.9 Như vậy, luật kết hợpnày tương ứng với câu tóm tắt có định lượng rõ là “90% công nhântuổi trẻnhậnlươngthấp”.Khiđ ị n h lư ợn g 90%đượcch uy ển thànhtừl ượ ng hóa‘hầuhế t’với

 ’hầuh ế t ’ (0.9) = 1, thì câu tóm tắt tương ứng có định lượng bằng ngôn ngữ là

So sánh giữa công thức tính giá trị độ tin cậytrong (4.2) với công thức tínhđộ đúng đắnTtrong (1.7), chúng ta thấy rằng có mối liên hệ giữa luật kết hợp ngônngữ dạng (4.1) với câu tóm tắt dạng (1.3) (Q Fy areS) như sau: giá trịchính là độhỗ trợ chophần thân câu tóm tắt(Fy areS);thành phần lọcFt ư ơ n g ứ n g l à đ i ề ukiện “A i =x”; thành phần kết luậnStương ứng là kết luận “A j =y” Trong bài toántrích rút luật kết hợp ngôn ngữ, điều kiện để một luật được đưa vào tập luật kết quảlàđ ộ h ỗ t r ợp h ả il ớ n h ơ n n g ư ỡ n gm i n S u p p o r t v àđ ộ t i n c ậ yp h ả il ớ n h ơ n ngưỡngminConfidence.Dođó,luậtkếthợpngônngữlàdạngbiểudiễntrithứcthể n hiệnm ố i l i ê n h ệ c ó t í n h q u y l u ậ t g i ữ a c á c t h u ộ c t í n h C á c c â u t ó m t ắ t m à c ó t ừ l ượng hóaQdiễn đạt tỷ lệ lớn như ‘nhiều’hoặc ‘hầu hết’cũng diễn đạt các tri thứccó tính quy luật như luật kết hợp Do đó, về khía cạnh diễn đạt tri thức trích rút từcùng một cơ sở dữ liệu, cùng một cách phân hoạch mờ miền tham chiếu các thuộctính, tập luật kết hợp ngôn ngữ tương ứng với một tập con các câu tóm tắt ngôn ngữchứa từ lượng hóa. Trong tập các câu tóm tắt, từ lượng hóaQcó thể là bất kỳ từngôn ngữ nào để diễn đạt cho một tỷ lệ bất kỳ trong khoảng [0, 1] Trong thực tế,câu tóm tắt vớiQdiễn đạt cho một tỷ lệ rất nhỏ như ‘rất ít’, ‘không có’ cung cấpnhững tri thức rất có ý nghĩa Nghiên cứu của Duraj và cộng sự [66] đã sử dụng cáccâu tóm tắt vớiQ{‘very few’, ‘few’} trong hệ thống thông minh để phát hiện cácthôngtinngoạilai.

Thuật toán khai phá luật kết hợp Apriori được đề xuất bởi Agrawal [94] gồmhaigiaiđoạn:giaiđoạnđầulàtìmtậpmụcthườngxuyênthỏađiềuk i ệ nminSupport, giai đoạn sau là sinh tập luật kết hợp thỏa điều kiệnminConfident.Trong phần này, luận án trình bày ý tưởng sửa đổi trong giai đoạn 2 của thuật toánAprioriđểtríchrútcáccâutómtắtmởrộngtheomẫucâutrong(1.3).

Trong giai đoạn 1, ngưỡngminSupportđược sử dụng đểx á c đ ị n h c á c t ậ p mục thường xuyên như trong thuật toán Apriori Trong giai đoạn 2 không sử dụngngưỡngminConfident, giá trị độ tin cậy sẽ được chuyển đổi tương ứng thành từ địnhlượngQtrongcâutómtắt.

Xem xét ví dụ với tập dữ liệu như trongBảng 1.1, sử dụng các tập mờ chothuộc tính KHOẢNG CÁCH, LƯƠNG và từ lượng hóa như trongHình 1.2. ChọnminSupport=0.1,xéthaitrườnghợpsau: o Trường hợp 1: xét cặp tập mục thường xuyênI 1={KHOẢNG CÁCH

=‘xa’},supp(I 1) = 0.275 vàI 2= { KHOẢNG CÁCH = ‘xa’, LƯƠNG

=‘cao’},supp(I 2) = 0.1383 Tính tỷ lệsupp(I 1)/supp(I 2) = 0.503 Sử dụng cáchàmthuộctậpmờchotừlượnghóaQnhưtrongHình1.2,chọnhạngtừQ

=‘mộtnửa’ đểnhận đượccâutómtắt“Mộtnửacôngviệc vớ ikh oả ng cá ch xacómứclươngcao”(độđúngđắnT= mộtnửa (0.503)=1). o Trường hợp 2: xét một cặp mục thường xuyên khác làI 3={KHOẢNGCÁCH = ‘trung bình’},supp(I 3) = 0.45 vàI 4 { K H O Ả N G C Á C H

= ‘trungbình’,LƯƠNG=‘trungbình’},supp(I 4)=0.175.Tínhtỷlệsupp(I 4)/sup p(I 3) = 0.389 Sử dụng các hàm thuộc tập mờ cho từ lượng hóaQnhư trongHình 1.2, chọn hạng từQ= ‘một nửa’ để nhận được câu tómtắt “Một nửacông việc với khoảng cáchtrung bìnhcó mức lươngtrungbình”(độđúngđắnT= một nửa (0.389)= 0.89).

Giả sử trong bài toánsinh luật kếthợp từdữ liệu trongBảng1 1 chọnngưỡngminConfident= 0.5 Khi đó, từ cặp tập mục thường xuyên trong trường hợp1 sẽ sinh ra luật kết hợp là “Nếucông việc với khoảng cáchxathì công việc cólươngcao”(độhỗtrợ0 138, độtincậy0.503).Trongtrường hợp2, sẽkhôngcó luật kết hợp được sinh ra vì độ tin cậy lúc này chỉ là 0.389 nhỏ hơn ngưỡngminConfident=0.5.

Thuật toán HA-Apriori-LS-All sửa đổi từ thuật toán Apriori để sinh tập cáccâutómtắt từ cơsở dữ liệuDđượcmôtảnhưsau:

Thuật toán HA-Apriori-LS-All: Trích rút tập tất cả các các câu tóm tắt màđộhỗtrợphầnthâncâutómtắtlớnhơnngưỡngminSupportchotrước. Đầu vào: Cơ sở dữ liệuD, ngưỡngminSupport, tham số của các cấu trúcĐSGTchocácthuộctính. Đầura:Tậpcáccâutómtắt.

Khởi tạo: Xác định khung nhận thức ngôn ngữ cho các thuộc tính từ bộ thamsố của cấu trúc ĐSGT Sử dụng thủ tục HA-TFS-MG (đề xuất trong chương 2) đểsản sinh các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong khung nhận thứcngônngữ củacácthuộc tính.

Bước 1:Thực hiện bước 1 của giải thuật Apriori để tìm các tập mục thườngxuyênthỏađiềukiệnminSupport.

Vớim ỗ i t ậ p m ụ c t h ư ờ n g x u y ê nI,s ả n s i n h m ộ t c â u t ó m t ắ t v ớ i c á c t h à n h phầnnhư sau: o Thànhphần kếtluậnStươngứnglàI. o Duyệtt ậ p h ạ n g t ừ l ư ợ n g h ó a ➚ Q ,c h ọ n h ạ n g t ừ Q s a o c h o 𝑇 𝑚𝑎𝑥{𝜇 𝑄 (𝑠𝑢𝑝𝑝(𝐼)):𝑄∈➚ 𝑄 }(supp(I)làđộhỗtrợchotậpmụcthườngxuyênI)

VớimỗicặpmụcthườngxuyênI 1v à I 2t h ỏ ađiềukiệnI 1 I 2,sảnsinhmộtcâutómtắtvớ icácthànhphầnnhư sau: o Thànhphần kếtluậnStươngứnglàI 2–I 1 o Thànhphần lọcFtương ứnglàI 1 o Tínhtỷlệr=supp(I 2)/supp(I 1) o Duyệtt ậ p h ạ n g t ừ l ư ợ n g h ó a ➚ Q ,c h ọ n h ạ n g t ừ Q s a o c h o 𝑇 𝑚𝑎𝑥{𝜇 𝑄 (𝑟):𝑄∈➚ 𝑄 }

Thuật toán HA-Apriori-LS-All sản sinh tất cả các câu tóm tắt cả hai dạngQ yareSvàQ F yareSmà độ hỗ trợ cho phần thân câu tóm tắt lớn hơn ngưỡngminSupport.Theo ý nghĩa của độ hỗ trợ, các câu tóm tắt diễn đạt tri thức về mộtnhóm các đối tượngmang tính phổ biến trong cơ sỡ dữ liệu Đâyl à m ộ t c á c h g i ả i bài toán trích rút tóm tắt trong trường hợp tổng quát nhất theophân loại củaKacprzyk[12].

Số lượng câu tóm tắt được trích rút bởi HA-Apriori-LS-All lớn hơn nhiều lầnsovớisốlượngluậtkếthợpngônngữđượctríchrúttừcùngcơsởdữliệuđó.Khisố lượng câu tóm tắt trích rút được quá lớn, sẽ gây khó khăn cho người sử dụng đọchiểuvàgiảinghĩanộidungcáccâutómtắtđểgiảiquyếtcácvấnđềtrongthựctế.Từ đó đặt ra bài toán tìm kiếm một tập con tối ưu chứa một số lượng ít các câu tómtắt theo một hàm mục tiêu của người dùng Đây là một hướng giải thứ hai cho bàitoán trích rút tóm tắt trong trường hợp tổng quát nhất theo phân loại của Kacprzyk[12].

Cho trước một cơ sở dữ liệuD= {o 1,o 2, …,o n } trên tập thuộc tínhA= {A 1,A 2,

…,A m } Mẫu câu tóm tắt tổng quát “Qos that areo(F q) areo(E s)”, trong đóthành phầno(F q) là liên kết củavvị từ ngôn ngữ “o(Aq 1) is/hasx q1AND …ANDo(Aq v )is/hasx qv ”,o(E s)làliênkếtcủatvịtừngônngữ“o(As 1)is/hasx s1AND…

ANDo(As t ) is/hasx st ”, vớiv0,t> 0 Khiv= 0, tức là phần điều kiện lọco(F q)không có, khi đó câu tóm tắt ở dạng đơn giản “Qos areo(E s)” Ở mức tổng quát khicác thành phầno(F q) vào(E s) hoàn toàn chưa xác định, có𝐶𝑣(tổ hợp chậpvcủan)sốc á c h c h ọ nv t h u ộ ct í n h c h o t h à n h p h ầ no(F q).V ớ iv t h u ộ ct í n h đ ã c h ọ n , c ó

|c á c hc h ọ n c á c h ạ n g t ừ n g ô n n g ữ c h ov t h u ộ ct í n h Đ ể đ ơ n giản,giảsử|➚ 𝐴

𝑞1|=|➚ 𝐴 𝑞2 |= ⋯ =|➚ 𝐴 𝑞𝑙 |=|➚ 𝐴 |.D o đ ó , c ó t ấ t c ả c ó𝐶 𝑣 |➚| 𝑣 thànhphầno(F q)khácnhau.Hoàntoàntươngtự,vớimỗithànhphầno(F q)đãxác định,có𝐶𝑡 |➚| 𝑡t h à n hphầno(E s)khácnhau.Mỗithànhphầno(F q)vào(E s)xác

𝑚−𝑣 𝐴 địnhmộtthâncâutómtắt,đồngthờixácđịnhmộttừlượnghóaQđểtạothànhmộtcâut ó m tắtđ ầ y đ ủ cáct h à n h phần.Vậy,sốl ư ợ n g câut ó m t ắ t khácn h a u l à

Giảithuậtditruyềntríchrúttậpcâutómtắttốiưu

Một nhiệm vụ nghiêncứu của luận án là hướng đến tìm kiếm mộtt ậ p c â u tóm tắt tối ưu chứa các câu tóm tắt tốt và thể hiện tri thức đa dạng được trích rút từcơ sở dữ liệu Do đó, luận án sử dụng hàm đánh giá độ thích nghi, các phép toán ditruyền cơ bản như trong nghiên cứu của Donis-Diaz và cộng sự trong [38] như đượctrình bày trong mục 4.2.1 và 4.2.2 sau đây Ngoài các phép toán di truyền cơ bản,Donis-Diaz và cộng sự [38] có sử dụng thêm hai phép toán bổ sung để tạo thành môhình di truyền lai Hybird-GA trích rút tập câu tóm tắt tối ưu từ cơ sở dữ liệucreep.Tuy nhiên, qua kết quả thực nghiệm của Donis-Diaz và cộng sự cho thấy vẫn cònhạn chế trong hai phép toáncleaningvàimprover Đây là cơ sở để tác giả luận ánđưaracácđềxuấtcảitiếnchomôhìnhgiảithuậtditruyềnmới.

Donis-Diaz và cộng sự [38] đánh giá một tập câu tóm tắt tối ưu dựa trên độtốt (goodness) và độ đa dạng (deversity) Độ tốt của một câu tóm tắt được đánh giátheo công thức (4.3) Độ tốt của một tập câu tóm tắtGdđược tính bằng trung bìnhcộngđ ộ t ố t c ủ a c á c c â u t ó m t ắ t t r o n g t ậ p c â u n h ư t r o n g c ô n g t h ứ c ( 4 4 ) (ll às ố lượngcâutómtắttrongtậpcâu).

(4.4) Trong đó:Tlà độ đo đúng đắn,St(Q) là trọng số của từ lượng hóaQđượcgán sẵn dựa trên đánh giá mức độ ưa thích của các từ lượng hóa Trong nghiên cứu[38],nămtừlượnghóađượcgántrọngsốlầnlượtlàS t(‘most’)=1,St(‘much’) ∑

0.75,St(‘half’) = 0.20,St(‘some’) = 0.15,St(‘few’) = 0.05 Như vậy, từ lượng hóadiễnđạtchotỷlệcànglớnthìtrọngsốcànglớn. Độđadạngcủamộttậpcâutómtắtđượctínhbằngcôngthức(4.5).Trongđó,C là số lớp khi thực hiện phân cụm tập câu tóm tắt,llà số lượng câu trong tậpcâutómtắt.

Hai câu tóm tắtp1 vàp2 trích rút từ cơ sở dữ liệu gồm cómthuộc tính đượcbiểu diễn bởi vectơ số gồm (m+ 1) thành phần Thành phầnp10vàp20là chỉ số củahạng từ lượng hóaQtrongDom(Q), các thành phầnp1i,p2ilần lượt là chỉ số củahạng từ trongDom(A i) của vectơ biểu diễn câu tóm tắtp1,p2 (Dom(A i ) – miền hạngtừ của thuộc tínhA i ) Nếu thuộc tínhA ik h ô n g c ó t r o n g c â u t ó m t ắ t t h ì t h à n h p h ầ n thứitrong vectơ biểu diễn câu tóm tắt nhận giá trị 0 Khi kết quả của hàmL(p1,p2)là ‘yes’tức là hai câu tóm tắtp1 vàp2 là tương tự nhau Trong đó, hàmH(p1 k ,p2 k )được tính theo công thức (4.7) để so sánh thành phần thứktrong hai vectơ có khácbiệtnhaukhông.Thànhphầnthứkkhácbiệtnhau(giátrịhàmH(p1 k ,p2 k )=1)khi:

(1)p1 k = 0 vàp2 k 0;p1 k 0 vàp2 k = 0 (thuộc tínhA k chỉ có trong một câu tóm tắt,không có trong câu tóm tắt còn lại); (2) thuộc tínhA k cùng có trong cả hai câu tómtắt, nhưng hai chỉ số hạng từ có sự khác biệt Hai chỉ số của hạng từ trong cùngDom(A k ) được coi là khác biệt khi chúng ở hai vị trí trong thứ tự sắp xếp ngữ nghĩatăngdầncáchnhaulớnhơn20%sốlượngtừtrongDom(A k ).Vídụ:NếuDom(A k ) {’very low’, ‘low’, ‘little low’, ‘medium’, ‘little high’, ‘high’, ‘very high’}, hạng từ‘low’ởvịtrí2vàhạngtừ‘medium’ởvịtrí4cókhoảngcáchlà|24|>20%*71.4 Do đó, hai từ ‘low’và ‘medium’ được coi là khác biệt Trong khi, hạng từ

‘littlelow’và‘medium’lầnlượtởvịtrí3và4,tacó|3-4|

Tiêu đề	Tóm Tắt Dữ Liệu Bằng Ngôn Ngữ Theo Cách Tiếp Cận Đại Số Gia Tử
Tác giả	Phạm Thị Lan
Người hướng dẫn	PGS.TSKH Nguyễn Cát Hồ, PGS.TS Hồ Cẩm Hà
Trường học	Học viện Khoa học và Công nghệ
Chuyên ngành	Khoa học máy tính
Thể loại	luận án
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	150
Dung lượng	0,98 MB