phát tri n quy trình v vi c tìm ki m ngu n hàng và k t n i môi gi i, tác gi cho r ng c n th c hi n tu n t nh ng công vi c: xác đ nh ph ng pháp phơn c m d li u (ph ng pháp
phân tách thông tin t d li u cơng khai), xây d ng quy trình d a trên thơng tin phân tách
đ c vƠ theo dõi, đánh giá vƠ c i thi n các ph ng pháp trong quy trình đ xu t.
3.1.1. Xácăđ nhăph ngăphápăphơnăc m d li uătinăđ ng
i m c t lõi trong vi c c i ti n quy trình phát tri n ngu n hàng và k t n i môi gi i là c n xây d ng ph ng pháp giúp l c và phân c m các tin đ ng có trên Internet. xác đ nh đ c
ph ng pháp phù h p nh t, tác gi th c hi n theo quy trình sau:
Hình 11. T ng quan quy trình xác đnh ph ng pháp phân lo i C th các b c phân tích d li u đ xây d ng ph ng pháp phơn lo i nh sau
3.1.1.1. D li uătinăđ ngăB tăđ ng s n
D li u đ c thu th p thơng qua vi c trích xu t d li u t các trang web đ ng tin l n là:
Batdongsan.com.vn, nha.chotot.vn, alonhadat.com.vn,ầ thông qua m t công c cào t đ ng. Quá trình cào t đ ng đ c th c hi n bên ngồi khn kh lu n v n vƠ đ c thi t l p đ đ m b o không nh h ng đ n server c a các trang web trên. D li u đ c cào v là d li u
đ c đ ng công khai trên các trang web nƠy.
D li u sau khi đ c cào v đ c t ng h p l i và x lỦ sao cho các tr ng thông tin các website khác nhau v n có cùng đ nh d ng. u vào c a d li u s d ng trong lu n v n nƠy
27
3.1.1.2. Làm s ch d li u
Vi c làm s ch d li u đ c nghiên c u đánh giá qua γ m c v i các Ủ ngh a nh sau:
M c 1: Làm s ch c b n ậ d li u đ c làm s ch m c c b n nh t, m c tiêu đ gi đ c nhi u nh t đ c tr ng c a các tin đ ng vƠ giúp quá trình phơn tách t (tokenizing) lo i b đi
nh ng ký t , bi u t ng c m xúc khơng có Ủ ngh a.
M c 2: Làm s ch tiêu chu n ậ d li u đ c làm s ch m c tiêu chu n, t ng đ ng ph ng
pháp làm s ch c a h u h t các nghiên c u tr c đơy v x lý ngôn ng t nhiên bao g m các cơng vi c chu n hóa t v ng, t o t ghép.
M c 3: Làm s ch đ c thù ậ d li u đ c làm s ch nơng cao h n, d a vào nh ng đ c thù c a
l nh v c đ ng tin B t đ ng s n mà bên c nh vi c làm s ch c b n và tiêu chu n, tác gi đ
xu t thêm các công vi c nh :
- T o nh ng c m t ghép liên quan đ n đ a danh (Qu n, ph ng, đ ng,ầ)
- C m t hóa nh ng đ c tr ng liên quan đ n B t đ ng s n - Lo i b d u ti ng Vi t
- Lo i b nh ng câu, c m c m thán th ng xuyên g p ph i trong l nh v c đ ng tin
C th các h ng m c làm s ch đ c mô t chi ti t trong Ch ng 4
3.1.1.3. Vectorăhóaăv năb năvƠăcácăph ngăphápăđoăl ng
Nh đư trình bƠy, trong khn kh nghiên c u này tác gi s d ng 4 lo i hình Vector hóa là Onehot, WordCount, TF-IDF và Doc2vec. S d tác gi l a ch n 4 ph ng pháp Vector hóa nƠy đ đánh giá b i chúng có nh ng đ c tr ng khác nhau có th phù h p đ đ i di n cho nh ng v n b n đ ng tin B t đ ng s n
- Vector Onehot: là cách th c vector hóa đ n gi n nh t, có th phù h p trong l nh v c
tin đ ng b i các tin đ ng nƠy th ng có s l ng ký t t không quá nhi u. N u 2
vector có t ng đ ng lo i t thì kh n ng gi ng nhau là khá cao.
- Vector Wordcount: là m t phiên b n ch khác m t chút so v i Onehot, l nh v c tin
đ ng m c dù ít t ng nh ng m t s t có th đ c l p l i nhi u l n. N u 2 vector
t ng đ ng s t vƠ t ng đ ng v s l ng t l p l i thì kh n ng gi ng nhau là khá cao.
- Vector TF-IDF: T ng t nh WordCount, TF-IDF còn giúp đánh giá t n su t xu t hi n c a m t t trong c m t và trong t p t (corpus). T đó xác đ nh ra đ ng nh ng t đ c coi là chìa khóa quan tr ng đ phân bi t 2 vector b t kì v i nhau.
- Vector Doc2vec: Là m t cách ti p c n khác v i γ ph ng pháp trên, Docβvec vector
hóa t ng t d a vào nh ng t / ng c nh xung quanh c a m t t . T đó, có th coi Doc2vec s giúp xác đ nh nh ng đo n v n b n có Ủ ngh a t ng đ ng nhau trong m t s tr ng h p β vector nƠy đ c t o b i nh ng t ng khác nhau v m t v t lỦ. i
28
v i Doc2vec, v i tham s khuy n ngh là 300 [26]. so sánh tác gi t o thêm 1 vector Doc2vec v i chi u dài t i u đư đ c đ xu t t i các nghiên c u khác là 300.
V ph ng pháp đo l ng, tác gi s d ng hai ph ng pháp chính là Cosine và Euclidean. - Cosine: lƠ ph ng pháp đo h s góc gi a 2 vector. K t qu đo Cosine s ch y t 0
đ n 1. Theo đó, k t qu h s góc càng l n (càng g n v 1) thì β vector nƠy cƠng t ng đ ng. N u h s góc = 1 thì 2 vector này là hồn toàn gi ng nhau, vƠ ng c l i. Cosine
lƠ ph ng pháp đo n i ti ng vƠ đ c s d ng h u h t các nghiên c u liên quan đ n
so sánh t ng đ ng gi a 2 vector mà tác gi tham kh o. Trong bài nghiên c u vì s d ng hƠm tính t ng đ ng Cosine t th vi n scipy v i cơng th c 1 ậ sim(x,y). vì v y k t qu tr v càng g n 0 thì hai vector s cƠng t ng đ ng.
- Euclidean: m t ph ng pháp đo l ng t ng quan n i ti ng khơng kém gì Cosine. K t qu Euclidean tr v là kho ng cách trong không gian gi a 2 vector. Kho ng cách càng
dƠi thì β vector cƠng xa nhau vƠ ng c l i. Khác v i Cosine, đ dài kho ng cách
Euclidean đ c tính tốn b i giá tr trong các vector, vì v y v i m i lo i vector khác
nhau thì biên đ kho ng cách tính b i Euclidean s khác nhau.
3.1.1.4. Xácăđ nh t h păph ngăpháp phù h p
V i lo i vector đ c t o t ng ng v i các m c làm s ch, tác gi th c hi n đánh giá k t qu
t ng đ ng khi s d ng hai ph ng pháp đo l ng Cosine và Euclidean. T đó tìm ra m c
ng ng phù h p đ có đ c k t qu t i u nh t. C th có:
- 5 vector đ c t o t 4 ph ng pháp vector hóa
- 3 m c đ làm s ch d li u
- β ph ng pháp đo l ng: Cosine và Euclidean
T đó, s có kho ng 5*3*2 = 30 t h p đ c đánh giá trên các ng ng đ tìm ra b t h p có k t qu t t nh t. Là tham s đ u vào cho thu t gi i DBSCAN bên d i.
29
3.1.1.5. Gi i thu t phân c m DBSCAN
S d ng gi i thu t DBSCAN giúp phân lo i t p d li u tin đ ng thƠnh nh ng c m tin v i m c đ t ng đ ng đư xác đ nh. T ng h p k t qu sau khi ch y gi i thu t.
3.1.2. ng d ngăph ngăphápăl c c m tin vào c i ti n quy trình
T k t qu phân tích d li u. Tác gi t ng h p vƠ đ xu t ph ng án đ c i thi n quy trình tìm ki m ngu n hàng và k t n i môi gi i
3.1.3. Theoădõi,ăđánhăgiáăvƠăc i ti năph ngăpháp,ăquyătrình
Quy trình c i ti n m i sau đó s đ c đ xu t áp d ng và theo dõi nh m: - C i thi n ph ng pháp l c c m d a vào ph n h i t các nhóm s d ng - C i thi n quy trình, logic phân b
30
CH NGă4. TH C NGHI M VÀ K T QU TH C NGHI M
4.1. Xácăđ nhăph ngăphápăphơnăc m phù h p 4.1.1. Làm s ch d li u
Hình 12. làm s ch d li u m c đ 1
m c đ 1, d li u ch y u đ c làm s ch b ng cách lo i b các ký t đ c bi t, các hình, d u c m xúc (emoji), d u ký t (xu ng dòng, kho ng tr ng,ầ) vƠ lo i b vi c vi t hoa.
31
m c đ 2, nh đư trình bƠy trên ph n lý thuy t, bên c nh vi c xóa đi các kỦ t đ c bi t. Tác gi còn th c hi n chu n hóa l i nh ng t vi t t t, xác đnh danh m c m t s t ghép trong
l nh v c b t đ ng s n vƠ xác đnh t ghép Ti ng Vi t.
Vi c bi n đ i các c m t vi t t t đ c th c hi n thông qua vi c ph ng pháp rule-based. T c tác gi t o ra 1 t đi n các t vi t t t th ng xuyên g p trong l nh v c BDS và t chu n mà nó c n ph i chuy n thành. Ví d các t vi t t t nh “β pn” s đ c bi n đ i thƠnh “β
phòng_ng ”, thêm n a, các t nh (“wc”, “toilet”,ầ) s đ c chuy n chung v thành c m t “phòng t m”.
i v i vi c chu n hóa t ghép Ti ng Vi t, tác gi s d ng m t th vi n đư đ c t o s n b i nhóm nghiên c u Vi t Nam v i tên th vi n là Underthesea. Qua đó, các c m t nh “kinh
doanh” s đ c t o thành t ghép lƠ “kinh_doanh”, “di n tích
đ c chuy n thƠnh “di n_tích”,ầ
Hình 14. Làm s ch d li u m c đ 3
m c đ 3, tác gi th c hi n chu n hóa nh ng thơng tin liên quan đ n đ a ch (qu n, ph ng,
đ ng) có trong tin đ ng thƠnh nh ng t ghép. Ví d cơu “đ ng Nguy n Tri Ph ng” s tr
32
m c đ này, nh ng tính ch t liên quan đ n con s nh s l ng phòng ng , phòng t m, tr t, l u c ng đ c chu n hóa đ tr thành 1 c m t ghép. Ví d : “γ phịng ng 2 tr t 1 l u”
s tr thƠnh “γ_phòng_ng 2_tr t 1_l u” , các c m mô t di n tích ngang, dƠi c ng đ c bi n
đ i “γxβ0m” s tr thƠnh “ngang_γ dƠi_β0”.
Bên c nh đó, do tính ch t tin đ ng B t đ ng s n còn th ng xuyên xu t hi n tình tr ng tin
đ ng thi u d u, sai d u ch nh t ,ầ nên tác gi quy t đ nh s th c hi n kh d u bi n đo n mô t tin đ ng thƠnh đo n v n b n không d u.
NgoƠi ra, c ng v i đ c tính tin đ ng b t đ ng s n th ng ln có nh ng câu mơ t nh m gia
t ng s chú ý c a khách hƠng nh “g n ch , tr ng h c”, “khu v c an ninh, yên tính”,ầ
Nh ng câu mô t nƠy th ng không ph n ánh đúng tính ch t c a B t đ ng s n mà ch dùng
đ câu s chú ý c a ng i đ c. Nên m c đ làm s ch d li u này, tác gi quy t đnh s lo i b các c m t trên trong các tin đ ng.
D i đơy lƠ 1 ví d v k t qu c a 3 m c ch y làm s ch: Câu nguyên b n: “C N BÁN NHÀ NG BỐI ỊNH TÚY BỊNH TH NH PH NG 12 - DI N TÍCH 70M2, NGANG 5 DÀI 13 - 1 TR T 1 L U, 2 PHÒNG NG , 2 WC - NHÀ M I C S N S A L I NH M I V CÓ TH LI N - G N CH , TR NG H C CÁC C P” CơuăđưălƠmăs ch m căđ 1:
“c n bán nhƠ đ ng bùi đình túy bình th nh ph ng 12 di n tích 70m2, ngang 5 dài 13 1 tr t 1 l u, 2 phòng ng , 2 wc nhà m i đ c s n s a l i nh m i v có th li n g n ch , tr ng h c các c p”
CơuăđưălƠmăs ch m căđ 2:
“c n bán nhƠ đ ng bùi_đình túy bình_th nh ph ng 12 di n_tích 70 m2 , ngang 5 dài 13 1 tr t 1 l u , 2 phòng_ng , 2 phòng_t m nhà m i đ c s n s a l i nh m i v có_th li n g n ch , tr ng_h c các c p”
CơuăđưălƠmăs ch m căđ 3:
ắduong bui_dinh_tuy binh_thanh phuong_12 dien_tich 70_m2 ngang_5 dai_13 1_tret 1_lau 2_phong_ngu 2_phong_tam nha moi duoc son sua lai nhu moi ve co_the o lien”
33
4.2. Vector hóa
V i t ng m c đ làm s ch trên. Tác gi th c hi n Vector hóa v i 4 ph ng pháp:
- TFIDF - Onehot - WordCount - Doc2vec
Riêng v i DocβVec, đ t o đ c Vector thì c n ph i có d li u train. D li u train s là toàn b d li u v tin đ ng đư đ c x lý t ng m c đ làm s ch. Vì v y s có 3 mơ hình Doc2vec
t ng ng.
đánh giá hi u qu ch y c a nh ng ph ng pháp trên. Tác gi th c hi n 2 l n ch y riêng bi t, v i m i l n ch y so sánh lƠ 1000 dòng tin đ ng khác nhau.
V i γ ph ng pháp TFIDF, Onehot, WordCount chi u dài c a Vector s đúng b ng s l ng t có trong c m t đi n. C th m c làm s ch đ u tiên, chi u dài 3 vectors trên là 3900, m c làm s ch th 2, là 4519 và m c làm s ch th 3 là 4260.
Nh đư trình bƠy ph n lý thuy t, bên c nh vi c s d ng Vector Size t i u lƠ γ00, tác gi
s đánh giá thêm 1 mơ hình Docβvec v i tham s vector size dƠi t ng ng v i chi u dài Vector c a γ ph ng pháp trên (x p x 4000). Nh v y, s l ng ph ng pháp Vector hóa
th c ch y s là 5 lo i, bao g m: TFIDF, Onehot, WordCount, Doc2vec và Doc2vec v i tham s vector size = 300 trong khuôn kh Lu n v n nƠy s đ c g i là Doc2vec300.
4.2.1. Xácăđ nhăph ngăphápăVectorăvƠăthangăđoăphùăh p 4.2.1.1. S d ngăph ngăphápăđoăl ng Cosine
L n ch y th 1:
l n ch y đ u tiên v i 1000 d li u đ c n p vƠo ban đ u, và ch có 684 dịng tin đ ng th a mãn có s l ng ký t > 200. T ng s c p đ c th c hi n đo l ng kho ng cách là 229503 c p tin.
Có th th y s khác bi t v phân ph i c p theo ng ng đi m cosine c a các ph ng pháp
Vector. Vector TFIDF b t đ u g p khúc m nh t m c 0.9 , trong khi đó ph ng pháp
WordCount và Doc2vec300 b t đ u phân hóa m nh t ng ng 0.6. Tuy v y do vi c xác th c các c p tin s đ c th c hi n th công, tác gi s ch th c hi n xác th c t m c 0.4 cosine tr xu ng.
34
Hình 15. S l ng c p tin theo t ng ng ng cosine m c làm s ch đ u tiên - l n ch y 1
Hình 16. S l ng c p tin theo t ng ng ng cosine m c làm s ch th 2 - l n ch y 1 0 50000 100000 150000 200000 250000 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
S l ng c p tin theo t ng ng ng cosine
doc2vec doc2vec300 Onehot TFIDF WordCount 0 50000 100000 150000 200000 250000 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 S l ng c p tin theo t ng ng ng cosine
doc2vec doc2vec300 Onehot TFIDF WordCount
35
Hình 17. S l ng c p tin theo t ng ng ng cosine m c làm s ch th 3 - l n ch y 1 Hình trên c ng cho th y qua m i l n th c hi n làm s ch d li u, s g p khúc càng tr lên rõ
rƠng h nậ th hi n s phơn hóa khi nƠy c ng tr lên rõ r t h n.
Ph ng pháp so sánh Cosine v i m c đi m t m tính là 0.4 cho ra nhi u nh t 397 c p tin (kho ng 276 tin đ ng riêng l ). C th v i t ng lo i vector hóa khác nhau thì s l ng c p tin trùng lúc này s là:
Count Distinct Vector type
Level clean doc2vec doc2vec300 onehot tfidf wordcount
lv1 172 235 321 193 397
lv2 223 141 230 153 256