1 
LI CM N 
u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh	 Thông tin 
tr
ng i hc Khoa hc T
 nhiên ã tn tình dy d, dìu dt chúng em sut bn nm 
i hc. 
Chúng em cm n Cô Phm Th Bch Hu	, ng
i tn tình h
ng dn, giúp , 
ng viên chúng em hoàn thành lun vn này. 
Cui cùng, chúng con cm n Ba, M và nhng ng
i thân ã khích l	, h tr, 
ng viên chúng con trong thi gian hc tp, nghiên cu  có 
c thành qu nh
ngày nay. 
Tháng 7 nm 2005 
Sinh viên 
Phm Th M Ph
ng – T Th Ngc Thanh 
 2 
NHN XÉT CA GIÁO VIÊN HNG DN 
……………………………………………………………………………………
…………………………………………………………………………………… 
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………… 
……………………………………………………………………………………
…………………………………………………………………………………… 
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………… 
………………………………………………………………………………….... 
…………………………………………………………………………………… 
Ngày…… tháng……nm 2005 
 Ký tên 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 3 - 0112398 – T Th Ngc Thanh 
NHN XÉT CA GIÁO VIÊN PHN BI	N 
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………….………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………… 
Ngày…… tháng……nm 2005 
 Ký tên 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 4 - 0112398 – T Th Ngc Thanh 
M
C L
C 
M 
U.................................................................................................................................10 
Chng 1 : TNG QUAN.....................................................................................................11 
1.1. "t v#n  ................................................................................................................ 11 
1.2. Bài toán gii quyt ................................................................................................... 13 
1.3. H
ng tip cn......................................................................................................... 14 
Chng 2 : C S LÝ THUYT ........................................................................................17 
2.1. Chin l
c tìm kim thông tin c$a các b tìm kim (Search Engine) ..................... 17 
2.1.1. Mt s search engine thông d!ng: ................................................................... 17 
2.1.2. Chin l
c tìm kim ........................................................................................ 32 
Nguyên lý hot ng........................................................................................................ 34 
2.2. Semantic Web .......................................................................................................... 34 
2.2.1. Khái ni	m......................................................................................................... 34 
2.2.2. Kin trúc .......................................................................................................... 36 
2.2.3. Các thách thc "t ra cho Semantic web ......................................................... 37 
2.2.4. So sánh web và web ng ngh a........................................................................ 41 
2.2.5. Các khái ni	m liên quan................................................................................... 42 
2.2.6. Ontology .......................................................................................................... 44 
2.2.7. Rdf ................................................................................................................... 46 
2.3. eDoc ......................................................................................................................... 55 
2.3.1. Tìm hiu eLearning.......................................................................................... 55 
2.3.2. Tìm hiu eLib................................................................................................... 61 
2.3.3. Tìm hiu eDoc ................................................................................................. 68 
2.4. Mt s v#n  trong x% lí ngôn ng t
 nhiên: ......................................................... 71 
2.4.1. V#n  trong vi	c x% lí vn bn:...................................................................... 72 
2.4.2. V#n  x% lí ng ngh a: ................................................................................... 72 
2.4.3. Phân loi vn bn (Text Classification)........................................................... 82 
Chng 3 : MÔ HÌNH VÀ GII THUT ..........................................................................84 
3.1. Công ngh	 tìm kim ng ngh a trên th gii hi	n nay: ........................................... 84 
3.2. Các b
c xây d
ng mt ng d!ng semantic search engine:.................................... 91 
3.3.1. Xây d
ng kin trúc Web ng ngh a:................................................................ 92 
3.3.2. Lp ch& m!c ng ngh a tim tàng: ................................................................... 93 
3.3. Mô hình  ngh cho ng d!ng tìm kim ng ngh a trên l nh v
c eDoc................. 96 
3.4. Các gii thut s% d!ng ........................................................................................... 100 
3.4.1. Gii thut x% lý tài li	u: ................................................................................. 100 
3.4.2. Gii thut rút trích siêu d li	u: ..................................................................... 102 
3.4.3. Gii thut phân loi l nh v
c cho tài li	u:...................................................... 104 
3.4.4. Gii thut x% lí câu truy v#n: ......................................................................... 104 
Chng 4 : CHNG TRÌNH NG D
NG....................................................................105 
4.1. Gii thi	u ch
ng trình ng d!ng: ........................................................................ 105 
4.2. Kin trúc c$a ng d!ng:......................................................................................... 105 
4.3. Mô t phm vi ng d!ng........................................................................................ 107 
4.3.1. Mô t bài toán: ............................................................................................... 107 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 5 - 0112398 – T Th Ngc Thanh 
4.3.2. Xác nh yêu cu: .......................................................................................... 107 
4.4. Xây d
ng ng d!ng: .............................................................................................. 108 
4.4.1. Thit k d li	u: ............................................................................................. 108 
4.4.2. Thit k x% lý:................................................................................................ 110 
4.5. Kt qu ch
ng trình ............................................................................................. 112 
4.6. Th
c nghi	m ch
ng trình .................................................................................... 114 
Chng 5 : KT LUN ......................................................................................................118 
5.1. ánh giá kt qu nghiên cu ................................................................................. 118 
5.1.1. 'u im ......................................................................................................... 118 
5.1.2. Khuyt im:.................................................................................................. 119 
5.2. H
ng phát trin .................................................................................................... 119 
TÀI LI	U THAM KHO...................................................................................................120 
I. Lun vn, lun án:...................................................................................................... 120 
II. Sách, eBooks:............................................................................................................. 120 
III. Website: ................................................................................................................. 122 
PH
 L
C..............................................................................................................................124 
1. Cú pháp RDF: ............................................................................................................ 124 
2. RDF Gateway: ........................................................................................................... 129 
2.1. Kin trúc c$a RDF Gateway:............................................................................. 130 
2.2. Tính nng (Features).......................................................................................... 132 
3. H	 thng nhãn ng ngh a:.......................................................................................... 138 
3.1. Nhãn ng ngh a c bn cho danh t: ................................................................. 139 
3.2. Nhãn ng ngh a c bn cho ng t: ................................................................. 141 
3.3. Nhãn ng ngh a c bn cho tính t:................................................................... 142 
3.4. H	 thng nhãn ng ngh a LDOCE .................................................................... 142 
4. H	 c s tri thc ng ngh a t v
ng WordNet .......................................................... 144 
4.1. H	 thng nhãn ng ngh a c$a danh t: .............................................................. 144 
4.2. H	 thng nhãn ng ngh a c$a ng t: .............................................................. 149 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 6 - 0112398 – T Th Ngc Thanh 
DANH M
C CÁC BNG 
Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin ......... 28 
Bng 2: S lc v các c trng c a mt s search engine thông dng trên Internet .. 32 
Bng 3 : Các lp trong RDF ............................................................................................ 54 
Bng 4:Các thuc tính c a RDF........................................................................................... 55 
Bng 5: Danh sách các ngh!a và ràng buc c a các t" th#c trong câu............................. 77 
Bng 6 Mô t c s$ d% li&u cho 'ng dng.......................................................................... 110 
Bng 7 Các module c a chng trình................................................................................ 110 
Bng 8 Module eDocSearch ................................................................................................ 111 
Bng 9 Module eDocSearch ................................................................................................ 111 
Bng 10 Các câu truy v(n th nghi&m............................................................................... 115 
Bng 11 Thng kê l!nh v#c khoa h)c máy tính................................................................. 116 
Bng 12 Thng kê l!nh v#c ngh& thu*t. ............................................................................. 116 
Bng 13: Nhãn ng% ngh!a c bn cho danh t".................................................................. 140 
Bng 14: Nhãn ng% ngh!a c bn cho ng t" .................................................................. 142 
Bng 15 : Nhãn ng% ngh!a c bn cho tính t"................................................................... 142 
Bng 16: H& thng nhãn ng% ngh!a LDOCE .................................................................... 144 
Bng 17:S# phân lp danh t" trong WordNet.................................................................. 148 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 7 - 0112398 – T Th Ngc Thanh 
DANH M
C CÁC HÌNH 
Hình 1: Giao di&n c a Google............................................................................................... 18 
Hình 2: Giao di&n c a Yahoo................................................................................................ 19 
Hình 3: Giao di&n c a Ask Jeeves ........................................................................................ 20 
Hình 4: Giao di&n c a AllTheWeb ....................................................................................... 21 
Hình 5: Giao di&n c a Teoma ............................................................................................... 22 
Hình 6: Giao di&n HotBot ..................................................................................................... 23 
Hình 7: Giao di&n c a Altavista............................................................................................ 24 
Hình 8: Giao di&n c a Lycos................................................................................................. 25 
Hình 9: Kin trúc t+ng c a Semantic web........................................................................... 36 
Hình 10: Mt Ontology n gin......................................................................................... 46 
Hình 11: Mô hình d% li&u RDF............................................................................................. 51 
Hình 12 : Tiêu chu,n ánh giá tính bo m*t c a eDoc ...................................................... 71 
Hình 13 Các quan h& cú pháp và ràng buc ng% ngh!a ..................................................... 76 
Hình 14 Cây quyt -nh trong vi&c ch)n ngh!a phù hp. .................................................. 78 
Hình 15: Dòng c s$ tìm kim Web ................................................................................... 91 
Hình 16: Mô hình  ngh- cho 'ng dng tìm kim ng% ngh!a trên l!nh v#c eDoc .......... 97 
Hình 17: Qui trình x lý c a t+ng search engine ................................................................ 99 
Hình 18: Gii thu*t x lý tài li&u: ...................................................................................... 100 
Hình 19: Gii thu*t rút trích siêu d% li&u.......................................................................... 103 
Hình 20: S . d% li&u quan h& c a 'ng dng.................................................................. 108 
Hình 21: Giao di&n chính c a 'ng dng............................................................................ 112 
Hình 22: Giao di&n kt qu tìm kim c a 'ng dng......................................................... 113 
Hình 23: Giao di&n qun lí tài nguyên ............................................................................... 113 
Hình 24: Kin trúc c a RDF Gateway............................................................................... 130 
Hình 25: Giao di&n c a RQF Query Analyzer. ................................................................. 136 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 8 - 0112398 – T Th Ngc Thanh 
DANH M
C CÁC T/ VIT T0T 
eDoc Electronic document 
eLib Electronic library 
eLearning Electronic learning 
www World Wide Web 
URI Uniform Resource Identifier 
URL Uniform Resource Locator 
HTTP Hypertext Transfer Protocol 
RDF Resources Descriprion Framework 
OIL Ontology Inference Language 
OWL Ontology Web Language 
XML eXtensible Markup Language 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 9 - 0112398 – T Th Ngc Thanh 
DANH M
C CÁC THUT NG1 
Class Lp 
Property Thuc tính 
Metadata Siêu d li	u 
Subject Ch$ , ch$ ng 
Title Tiêu  
Namespace Không gian tên 
Predicate V ng 
Triple B ba (subject, predicate, object) 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 10 - 0112398 – T Th Ngc Thanh 
M( )U 
Hi	n nay, hu ht các h	 thng tìm kim trên Internet u i theo h
ng truyn 
thng ó là tìm kim theo t khoá ( key word ). Theo cách tìm kim này, khi ta gõ vào 
t cn tìm, các h	 thng tìm kim s* hin th các tài li	u mà trong nó có cha t khoá 
cn tìm. Do ó, kt qu tr ra là mt danh sách r#t nhiu các tài li	u, mà có th các tài 
li	u này không liên quan gì n ni dung ta cn tìm. Và ôi khi các h	 thng này 
không 
a ra ht các tài li	u cn thit, tc là tha tài li	u không cn thit nh
ng li 
thiu h+n nhng tài li	u quan trng khác. 
V#n  "t ra là ta phi xây d
ng mt h	 thng tìm kim nh
 th nào  khc 
ph!c hi	n trng nêu trên ? 
 gii quyt v#n  này, ta cn xây d
ng h	 thng tìm kim sao cho áp ng 
y $ thông tin mà ng
i dùng mong mun, ngh a là phi xây d
ng h	 thng tìm 
kim theo ng ngh a d
a trên thông tin ng
i dùng 
a vào. 
 T nhn thc trên chúng em quyt nh chn  tài: Tìm kim ng% ngh!a 'ng 
dng trên l!nh v#c eDoc (nhng tài li	u i	n t% ting Anh) vi m!c ích tìm hiu và 
xây d
ng mt công c! tìm kim theo ng ngh a  có th tìm kim thông tin chính xác 
và y $,  có th hn ch 
c phn nào v#n  tìm kim theo t khoá c$a các 
search engine hi	n ti. 
 Các i t
ng nghiên cu liên quan n  tài: eDoc, Semantic Web, RDF, 
OWL, Metadata,…. 
 Trong phm vi  tài, vì thi gian th
c hi	n ngn, nên chúng em ch& th% nghi	m 
ch
ng trình tìm kim trong mt s l nh v
c: Khoa hc máy tính (Computer Science), 
Ngh	 thut (Art). Hai l nh v
c này có v, nh
 không liên h	 vi nhau nh
ng th
c t 
vn có nhng tr
ng hp cn phi phân bi	t, ví d! nh
 tài li	u v “ngh	 thut lp 
trình” (“Art of programming”) thì phi phân tài li	u v l nh v
c khoa hc máy tính 
ch không phi ngh	 thut …. Tóm li, ng d!ng mà chúng em xây d
ng ch& tìm kim 
thông tin trong các l nh v
c nêu trên. Tuy nhiên, ng d!ng có th d- dàng m rng ra 
nhiu l nh v
c còn li. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 11 - 0112398 – T Th Ngc Thanh 
Chng 1 : TNG QUAN 
1.1. t v(n  
Nhu cu tìm kim, nm bt thông tin là mt nhu cu không th thiu trong i 
sng c$a mi ng
i. Khi vi	c s% d!ng World Wide Web ã tr nên ph. bin rng 
khp, thì công vi	c c$a các search engine c/ng tr thành mt phn sng còn và có li 
ích cho Web. Các công c! tìm kim tr thành nhng công c! công cng cho mi 
ng
i dùng c$a Internet; Google và Yahoo, c/ng tr thành nhng cái tên quen thuc. 
Các công c! tìm kim hi	n nay d
a trên mt trong hai dng c$a công ngh	 tìm 
kim Web: tìm kim do con ng
i t
 ch& 
ng dn và tìm kim t
 ng. 
Công c! tìm kim do con ng
i ch& 
ng dn s% d!ng mt c s d li	u c$a 
các t khoá, các khái ni	m, và các tham chiu. Nhng công c! tìm kim theo t khoá 
tr v mt dãy các trang, nh
ng ph
ng pháp n gin này th
ng dn n hàng lot 
các kt qu không liên quan và không xác th
c. Hot ng c$a mt công c! tìm kim 
d
a trên ni dung là: s* m s l
ng các t truy v#n ( các t khoá) so vi các t hi	n 
di	n trong mi trang 
c cha trong ch& m!c c$a nó. Sau ó, công c! tìm kim này s* 
sp xp các trang. Tip cn phc tp hn b0ng cách 
a các v trí c$a t khoá vào mt 
mc  quan trng c! th. Ví d!, các t khoá xu#t hi	n trong th, title c$a trang web thì 
quan trng hn trong phn body. Các kiu khác c$a công c! tìm kim do ng
i dùng 
ch& 
ng dn, nh
 Yahoo, s% d!ng các l
c 1 ch$   giúp ch& h
ng tìm kim và 
tr v các kt qu có liên quan hn. Nhng l
c 1 ch$  này do con ng
i to ra. 
Bi lí do này, chúng ta phi tn chi phí to ra và duy trì trong các t mang “ý ngh a 
thi gian” (thay .i theo thi gian), và r1i thì không 
c cp nht th
ng xuyên nh
các h	 thng t
 ng. 
 Cách tip cn tìm theo t khoá vn còn mt s hn ch, iu này ã làm gim 
i tính úng n c$a các search engine. Ví d! nh
 các t 1ng âm khác ngh a (ch+ng 
hn: bank (ngân hàng), bank (b sông), …) ho"c các t có các bin th khác nhau do 
có các tin t và hu t nh
 student và students; small, smaller, smallest; …. Ngoài ra, 
các search engine không tr v các tài li	u có các t 1ng ngh a vi các t trong câu 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 12 - 0112398 – T Th Ngc Thanh 
truy v#n mà ng
i dùng nhp vào. Key word không $  biu di-n chính xác nhu 
cu c$a ng
i dùng c/ng nh
 ni dung các trang web, hn ch này làm cho các search 
engine tr v nhng tài li	u không liên quan n v#n  mà ng
i dùng quan tâm. Bi 
vì t*p hp các t" khóa là dng biu di-n s l
c nh#t c$a ni dung, và do ó, cách 
biu di-n này là mt dng góc nhìn lun lý (logical view) c$a ni dung mang m'c  
thông tin th(p nh(t, ó chính là lý do c bn khin cho các Search Engine hi	n nay 
có t2 l& s trang web h%u ích trên tng s trang web tr v th(p. 
Google vi 400 tri	u tài li	u thu v mi ngày và trên 8 t& trang web 
c lp ch& 
m!c, và là công c! tìm kim thông d!ng nh#t 
c s% d!ng ngày nay, nh
ng thm chí 
vi Google vn còn có nhiu v#n . Ví d!, b0ng cách nào bn tìm kim ch& vi mt 
l
ng ít d li	u mà bn cn trong mt bin kt qu không liên quan 
c 
a ra? 
Khi công ngh	 trí tu	 nhân to (Artificial Intelligence_AI) phát trin mnh, thì 
v#n  "t ra là làm th nào  
a ra nhng ph
ng pháp tìm kim tt hn mà có th 
th
c s
 tin cy vào nhng kt qu tìm kim ó. ó là xu h
ng c$a nhng công c! tìm 
kim d
a vào ng ngh a và các agent tìm kim theo ng ngh a. Mt công c! tìm kim 
ng ngh a tìm kim các tài li	u có ngh a t
ng t
 nhau ch không ch& nhng t ng 
t
ng t
 nhau.  Web tr thành mt mng ng ngh a, phi cung c#p nhiu siêu d 
li	u v ni dung c$a nó, thông qua vi	c s% d!ng các th, RDF (Resource Description 
Framework) và OWL (Ontology Web Language), các th, này s* giúp th
c hi	n 
a 
Web vào trong mng ng ngh a. Trong mng ng ngh a, ý ngh a c$a ni dung 
c 
th hi	n tt hn, và nhng liên kt logic 
c th
c hi	n gia nhng thông tin liên quan 
nhau. 
Công c! tìm kim ng ngh a, chúng ta  cp  ây, có hai 
u im ln so vi 
các công c! tìm kim truyn thng: 
1. Nó ch#p nhn các truy v#n 
c phát biu  ngôn ng t
 nhiên. 
2. Kt qu là tìm kim mt mu thông tin; không phi là mt danh sách các tài 
li	u có th (ho"c không) cha thông tin yêu cu. 
Tht vy công c! tìm kim ng ngh a bt u vi l
ng thông tin quá ti. Nó 
tip nhn mt s các tác v! không 
c ai 
a thích trong vi	c tìm kim thông tin hi	n 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 13 - 0112398 – T Th Ngc Thanh 
nay: m ra mi tài li	u c$a danh sách kt qu và quét nó mt cách th$ công  l#y 
thông tin. Theo cách ó, các công c! tìm kim ng ngh a có kh nng cách mng hoá, 
h
ng n vi	c tìm kim thông tin i	n t% mt cách t
 ng: nó thay .i mô hình tìm 
kim t vic thu hi tài liu n vic tr li câu hi. 
1.2. Bài toán gii quyt 
Theo thng kê trong nm 2001: “Các nhân viên tn trung bình 8 gi mt tun, 
hay 16% gi công hàng tun c$a h,  tìm kim và s% d!ng ni dung thông tin bên 
ngoài. Chi phí l
ng ch& riêng cho công ty c$a M là 107 t& ôla mt nm. Vi	c tìm 
kim ng ngh a là mt c hi y ý ngh a cho các công ty giúp cho nhân viên c$a h 
có kh nng hn và hi	u qu hn trong vi	c "t thông tin bên ngoài vào công vi	c c$a 
h.” Không cn nói nhiu thêm na. S
 quá ti thông tin là mt v#n  ln trong xã 
hi thông tin. 
Nhng khám phá t
ng t
 c/ng 
c tìm th#y trong nhiu nghiên cu, làm n.i 
bt v#n : phi 
a ra gii pháp trong vi	c ci tin x% lí tìm kim thông tin. Ngoi tr 
nhng ích li to ln mà các công c! tìm kim mang li cho chúng ta nhng nm gn 
ây b0ng vi	c làm cho có th truy cp n hàng tri	u các tài li	u, b#t ch#p v trí vt lí 
và ngôn ng, thì chúng vn có mt s hn ch c bn. Ví d!, chúng không “hiu” các 
t con ng
i gõ vào và do ó t ti mt s l
ng kh.ng l1 c$a các kt qu sai. Hn 
na, chúng hot ng hi	u qu khi h2i v nhng s
 ki	n, ch+ng hn nh
 “Kerry” và 
“vua c$a Tây Ban Nha”. Tuy nhiên, chúng th
c hi	n nhiu kt qu không tt nu câu 
truy v#n nói v s liên h gia các khái ni	m ch+ng hn nh
 “Nhng quc gia nào ã 
tham gia trong chin tranh Iraq?” và “t.ng thng n
c Pháp theo chính ng nào?” 
Có ba v#n  cn 
c ci tin  ci thi	n các kt qu c$a công c! tìm kim là: 
(i) Công c! tìm kim cn cho phép nhng truy v#n phc tp hn (ví 
d! trong ngôn ng t
 nhiên), 
(ii) Công c! tìm kim cn “hiu” nhng gì con ng
i h2i, và 
(iii) Công c! tìm kim phi cung c#p câu tr li cho truy v#n (có th 
sao l
u li nhng liên kt n các tài li	u mà cho ra câu tr li). 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 14 - 0112398 – T Th Ngc Thanh 
1.3. Hng tip c*n 
Có hai tip cn  ci thi	n các kt qu tìm kim thông qua ph
ng pháp ng 
ngh a: 
1. Kin trúc c$a Semantic Web. 
2. Lp ch& m!c cho ng ngh a tim tàng (Latent Semantic Indexing). 
Tuy nhiên, hu ht các công c! tìm kim d
a trên ng ngh a phi chu nhng 
v#n  th
c thi bi qui mô c$a mng ng ngh a r#t ln. Nh0m m!c ích làm cho tìm 
kim ng ngh a tr nên hi	u qu trong vi	c tìm kim các kt qu mong mun, mng 
này phi cha mt l
ng ln các thông tin liên quan. Cùng lúc ó, mt mng rng ln 
to ra nhng khó khn trong vi	c x% lí nhiu 
ng dn có th có cho mt gii pháp 
liên quan. 
Chúng ta s% d!ng khía cnh sc bén c$a công ngh	 Web ng ngh a – kt hp 
ch"t ch* s
 phi hp c$a các công ngh	 tiên tin – làm cho mô hình có th chuyn 
nhanh trong vi	c tìm kim thông tin. 
• Công ngh& x lí ngôn ng% t# nhiên cho phép ng
i dùng h2i nhng 
câu h2i mà h mun, hn là phi nêu lên nhng t khoá có liên quan 
trong câu h2i c$a h. 
• Các Ontology -nh ngh!a l!nh v#c quan tâm. Chúng 
c xem nh
 là 
“b não” c$a công c! tìm kim, bi vì nó c gng hiu nhng câu truy 
v#n c$a ng
i dùng trong các t c$a ontology này. Theo cách này chú ý 
r0ng công c! tìm kim ng ngh a c$a chúng ta không phi là có m!c 
ích thông th
ng nh
 Google, mà nó có ý nh áp d!ng i vi mt 
l nh v
c hay khu v
c c! th (ví d! v l nh v
c pháp lí, vn hoá, th thao 
v.v…). 
• Phân tích tri th'c. Công ngh	 này chuyn d li	u không có c#u trúc 
sang thông tin có c#u trúc. Nó rút trích thông tin t các vn bn t
 do, 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 15 - 0112398 – T Th Ngc Thanh 
các vn bn bán c#u trúc và c#u trúc  phát sinh ra ontology vi tri thc 
tht s
. 
• Truy c*p tri th'c thông minh. Các câu tr li cho các truy v#n t 
c do vi	c truy v#n ontology 
c 
a ra t
 ng, và 
c biu di-n 
trong nhng dng khác nhau: 
o “D liu” c$a th
c th chính 
c h2i n (ví d! trong l nh v
c 
xã hi, d li	u c$a mt ngh	 s ). 
o nh hng ng ngha. Nhng t c$a các câu tr li 
c t
 
ng siêu liên kt n các khái ni	m ontology con, cho phép nh 
h
ng b0ng “ý ngh a”. 
o Các th thông minh và liên k	t thông minh. Các câu tr li luôn 
c sao l
u bi các ngu1n và các tài li	u chúng d
a vào. Khi 
nhng tài li	u ó 
c tra cu, thì phn mm gán th, và liên kt 
s* t
 ng nhn ra các t cha ý ngh a l nh v
c và liên kt chúng 
n ontology, hay thêm vào các th, thông minh vi nhng hot 
ng 
c nh ngh a trong ontology. 
o S
 “tng tng” thông minh. Thông th
ng, các câu tr li 
phát sinh ra nhiu các khái ni	m liên quan và các mi quan h	. 
Phm mm “t
ng t
ng” thông minh cho phép mt khái ni	m i 
xuyên qua tri thc này. 
Có mt v#n  mà công c! tìm kim ng ngh a 
c nh ngh a  ây vn ch
a 
th hoàn t#t so vi nhng công c! tìm kim vi m!c ích thông th
ng (không có ng 
ngh a) nh
 Google ó là: phm vi. Trong Google bn có th tìm kim vi b#t k3 t 
khoá nào trong b#t k3 l nh v
c nào. Nu các t khoá xu#t hi	n trong mt s tài li	u 
trên Web, Google s* tìm th#y nó. Mt công c! tìm kim ng ngh a cn mt s tri thc 
nâng cao: nó cn bit ý ngh a, 
c biu di-n trong mt ontology. Th
c t là các 
ontology – trong trng thái thi hành hi	n ti – vn còn làm b0ng th$ công, hn ch 
chúng trong nhng m!c ích thông th
ng. Do ó, các công c! tìm kim ng ngh a là 
nhng công c! quan trng cho nhng l nh v
c c! th. Trong tr
ng hp này, m!c ích 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 16 - 0112398 – T Th Ngc Thanh 
c$a các công c! tìm kim ng ngh a là b. sung cho các công c! tìm kim thông 
th
ng, hn là cnh tranh nh
 nhng i th$ . 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 17 - 0112398 – T Th Ngc Thanh 
Chng 2 : C S LÝ THUYT 
2.1. Chin lc tìm kim thông tin c a các b tìm kim (Search Engine) 
2.1.1. Mt s search engine thông dng: 
Sau ây là danh sách mt s search engine. Ti sao chúng 
c xem là nhng 
search engine “ln”? ó là bi vì chúng 
c bit n nhiu và s% d!ng tt. i vi 
các chuyên gia web, các công c! tìm kim ln là danh sách nhng ni quan trng nh#t 
bi chúng phát sinh ra mt l
ng r#t ln các trang web tim tàng. i vi nhng 
ng
i tìm kim, các công c! tìm kim ph. bin th
ng tr ra các kt qu áng tin cy 
hn. Nhng search engine này r#t có th 
c duy trì tt và nâng c#p khi cn thit,  
gi th cân b0ng vi tc  phát trin c$a web. 
Nhng search engine sau là t#t c nhng l
a chn tt nh#t  bt u khi tìm kim 
thông tin: 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 18 - 0112398 – T Th Ngc Thanh 
2.1.1.1. Google:  
Hình 1: Giao di&n c a Google 
Nguyên thu4, Google là mt  án c$a tr
ng i hc Stanford 
c th
c hi	n 
bi hai sinh viên Larry Page và Sergey Brin gi là BackRub. n nm 1998, thì .i 
tên thành Google, và 1 án này ã tr thành công ty riêng Google "t ti khuôn viên 
tr
ng i hc. Nó vn còn 
c l
u gi cho n ngày nay. 
Google là công c! tìm kim n.i ting, tt nh#t trong các l
a chn  tìm kim 
thông tin trên web. Dch v! d
a vào crawler, spider cung c#p trang web vi thông tin 
a ra toàn di	n cùng vi mc  liên quan tt. ây là công c! tt nh#t hi	n nay trong 
vi	c tìm kim b#t c th gì bn mun. 
Tuy nhiên, Google cung c#p chn l
a  tìm kim ch$ yu v các trang web. 
S% d!ng hp tìm kim trên trang ch$ Google, bn có th d- dàng nh v các nh qua 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 19 - 0112398 – T Th Ngc Thanh 
web, nhng  ngh 
c "t trong các nhóm tho lun Usenet, nh v thông tin tin 
tc hay th
c hi	n tìm kim sn ph5m. 
2.1.1.2. Yahoo:  
Hình 2: Giao di&n c a Yahoo 
a ra nm 1994, Yahoo là “th
 m!c” c/ nh#t c$a web, mt ni mà các nhà 
biên tp t. chc các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 nm 
2002, Yahoo chuyn sang lp danh sách d
a vào crawler cho nhng kt qu chính c$a 
nó. Công c! này s% d!ng công ngh	 t Google cho n tháng 2 nm 2004. Hi	n nay, 
Yahoo s% d!ng công ngh	 tìm kim riêng c$a mình. 
Yahoo Directory vn t1n ti. Bn s* ch& ra các liên kt “danh m!c” phía d
i 
mt s các trang web li	t kê trong kt qu tr v c$a mt tìm kim t khoá. Khi 
c 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 20 - 0112398 – T Th Ngc Thanh 
 xu#t, nhng trang web này dn bn n mt danh sách các trang web ã 
c xem 
xét và phê chu5n bi mt nhà biên tp. 
Công ngh	 AltaVista và AllTheWeb 
c phi hp vi k thut Inktomi, mt 
công c! tìm kim d
a trên crawler,  to nên mt Yahoo crawler hi	n nay. 
2.1.1.3. Ask Jeeves:  
Hình 3: Giao di&n c a Ask Jeeves 
Ask Jeeves bt u n.i ting t nm 1998 và 1999, 
c bit nh
 là mt công 
c! tìm kim “ngôn ng t
 nhiên” cho phép ta tìm kim b0ng cách h2i nhng câu h2i 
và tr v kt qu vi nhng gì có v	 là tr li úng v mi th. 
Th
c s
, công ngh	 không phi là nhng gì làm cho Ask Jeeves th
c thi tt. 
Bên cnh các bi cnh, công c! này ti mt thi im có khong 100 trình son tho 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 21 - 0112398 – T Th Ngc Thanh 
giám sát các log tìm kim. Sau ó chúng vào trong web và nh v nhng site mà 
chúng cho là tt nh#t t
ng xng vi các truy v#n ph. bin nh#t. 
2.1.1.4. AllTheWeb:  
Hình 4: Giao di&n c a AllTheWeb 
c Yahoo cung c#p ngu1n, có th th#y AllTheWeb là mt “tìm kim thun 
tuý” (“pure search”) nh nhàng hn, tu3 bin hn và d- chu hn là khi th
c hi	n  
Yahoo. Tiêu im là trong tìm kim web, ngoi tr tin tc, tìm kim hình nh, video, 
MP3 và FPT c/ng 
c 
a ra. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 22 - 0112398 – T Th Ngc Thanh 
2.1.1.5. Teoma:  
Hình 5: Giao di&n c a Teoma 
Teoma là mt công c! tìm kim d
a trên crawler 
c s hu bi Ask Jeeves. 
Nó có s l
ng trang web 
c ch& m!c nh2 hn Google và Yahoo. Nm 2000, 
Teoma ra i cùng vi thành công c$a mình: 
a ra 
c nhng th liên quan. Tính 
nng “Refine” c$a công c! này  xu#t ra nhng ch$   kho sát sau khi bn th
c 
hi	n mt tìm kim. 
Teoma 
c Ask Jeeves mua vào tháng 9 nm 2001 và c/ng cung c#p mt s 
kt qu cho web site này. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 23 - 0112398 – T Th Ngc Thanh 
2.1.1.6. HotBot:  
Hình 6: Giao di&n HotBot 
HotBot h tr truy cp d- dàng n 3 trang web search engine d
a vào crawler 
ln: Yahoo, Google, và Teoma. Không nh
 mt meta search engine, nó không th pha 
trn các kt qu t t#t c các crawler này vi nhau. Do ó, nó là mt cách nhanh, d- 
dàng  l#y các “ý kin” tìm kim web khác nhau trong mt ni. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 24 - 0112398 – T Th Ngc Thanh 
2.1.1.7. AltaVista:  
Hình 7: Giao di&n c a Altavista 
AltaVista 
c 
a ra vào tháng 9 nm 1995 và 
c xem nh
 là “Google” 
trong mt vài nm, nó cung c#p nhng kt qu liên quan và ã có mt nhóm ng
i 
dùng yêu thích công c! tìm kim này. Nh
ng t sau nm 1998, ng
i ta không còn 
a 
chung AltaVista na, bi vì s
 mi m, c$a các danh sách AltaVista và tin tc 
c 
a ra c$a crawler trong trang web này không 
c cp nht th
ng xuyên. 
Ngày nay, AltaVista mt ln na tp trung vào tìm kim. Các kt qu n t 
Yahoo, và cho phép n các trang web  tìm hình nh, MP3/Audio, Video, các danh 
sách danh m!c con ng
i và các kt qu tin tc. Nu mun mt cm giác nh nhàng 
hn Yahoo nh
ng vn có các kt qu c$a Yahoo, AltaVista là mt chn l
a tt. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 25 - 0112398 – T Th Ngc Thanh 
2.1.1.8. Lycos:  
Hình 8: Giao di&n c a Lycos 
Lycos là mt trong nhng công c! tìm kim c/ nh#t trên web, 
c 
a ra nm 
1994. 
c mô t nh
 là nhng c.ng truy cp web ( web portal ) hay nhng trung tâm 
truy cp, là ni mà ng
i dùng i vào  l#y thông tin cho mi l nh v
c, k c tán gu, 
gi th
 i	n t%,… 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 26 - 0112398 – T Th Ngc Thanh 
Search 
Engine 
Google AlltheWeb AltaVista Teoma 
Database google.com alltheweb.com altavista.com teoma.com 
Kích th
c(# 
trang ) 
Khong 8 t& (1 
t& không ánh 
ch& m!c trên 
toàn vn bn) 
Khong 3 t&, 
ch& m!c trên 
toàn vn bn. 
Khong 1 t& Khong 1 t& 
a ph
ng 
ti	n 
(multimedia) 
H tr H tr H tr Không h tr 
Toán t% 
M"c nh AND AND AND AND 
Loi tr - - - - 
C!m t Dùng d#u “ “ Dùng d#u “ ” Dùng d#u “ ” Dùng d#u “ “ 
Rút gn Không h tr 
Dùng ký t
 * 
 thay th 
cho các ký t
 
trong d#u “ “ 
Không h tr Dùng ký t
 * Không h tr 
Boolean OR (ch& dùng 
cho danh t 
riêng ) 
AND, OR, 
ANDNOT, 
RANK, () 
AND, OR, 
ANDNOT, 
NEAR, () 
OR (ch& dùng cho tên 
riêng) 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 27 - 0112398 – T Th Ngc Thanh 
Stop words Thông th
ng 
b2 qua các t 
thông d!ng 
+ nu mun 
tìm và phi "t 
trong c"p d#u 
“ “ 
 Dùng d#u “ “ 
trong search 
c bn 
B2 qua trong 
search nâng 
cao 
Thông th
ng b2 qua 
các t thông d!ng 
+ nu mun tìm 
Danh t 
riêng 
Không h tr Không h tr H tr Không h tr 
Gii hn 
field cn tìm 
intitle: 
inurl: 
allintitle: 
Allinurl: 
filetype: 
Link:site: 
Trong search 
nâng cao : 
cache:info: 
Normal.title: 
url.all: 
Link.all: 
Link.extension
: 
Title: 
domain: 
Link: 
image: 
Text: 
url: 
host: 
Anchor: 
applet: 
intitle: 
inurl: 
site: 
geoloc: 
lang: 
last: 
afterfate: 
Các "c tính 
"c bi	t 
~ tìm t 1ng 
ngh a 
Gii hn bi 
ngôn ng 
Nhiu kiu file 
: pdf, doc,… 
Caches : trang 
web khi ánh 
ch& m!c 
Duy	t qua các 
URL 
Trong tìm 
nâng cao : 
gii hn bi 
ngày, domain, 
a ch& iP 
Gii hn bi 
ngày, v trí, 
ngôn ng 
Trong tìm 
nâng cao : s% 
d!ng sortby  
lc và sp xp 
kt qu. 
Dùng refine  ti 
u 
kt qu. 
Resource  có 
c 
các trang và liên kt 
tp trung trên ch$  
cn tìm. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 28 - 0112398 – T Th Ngc Thanh 
'u im 
'u im 
chính 
R#t tt vi 
nhng trang 
có  ph. bin 
cao. 
Các trang tin 
tc gn ây 
Tt nh
Google. 
Không có 
stopword. 
Dùng nhiu 
toán t% 
Boolean trong 
tìm kim. 
Trong tìm 
nâng cao h 
tr hin th kt 
qu theo  
ph. bin c$a 
t. 
Tính  ph. bin tt, 
d
a vào s l
ng 
trang web cùng ch$ 
 vi các trang ang 
xét. Th
ng t kt 
qu áng khích l	. 
Search 
Engine 
Google AlltheWeb AltaVista Teoma 
Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin 
Search 
engine 
C s$ d% li&u Toán t L#a ch)n tìm 
kim 
Linh tinh 
Google 
oogle.com 
H tr tìm 
kim nâng 
cao 
H	 thng th
m!c ch$  
(Subject 
Toàn vn bn 
c$a các trang 
web, .pdf, 
.doc, .xls, .ps, 
.wpd 
(4.3B, + 1B 
mt phn c$a 
ch& m!c 
URLs) 
AND (m"c 
nh) 
OR (danh t 
riêng) 
+ cho các stop 
word thông 
d!ng, cho các 
URL ho"c các 
trang c! th (ví 
Dùng *  rút 
gn. 
Dùng “” tìm c!m 
t. 
Fields : intitle:, 
inurl:, link:, site: 
Tìm trên h	 
thng danh m!c 
các ch$  trong 
Kim li chính 
t. 
L
u tr các trang 
ã lp ch& m!c. 
Tt cho tìm các 
trang hay b li 
404. 
Phiên dch n 5 
ngôn ng. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 29 - 0112398 – T Th Ngc Thanh 
Directory) 
H	 thng th
m!c m 
(Open 
Directory) 
Tin tc : cp 
nht th
ng 
xuyên (4500 
ngu1n ). 
Các dng file 
nh 
Nhóm : 
Usenet t 
1981 n nay 
d! +edu) 
- loi tr 
th
 m!c web. 
Tìm các trang 
web t
ng t
. 
~ tìm t 1ng 
ngh a. 
AlltheWeb 
eb.com 
H tr tìm 
kim nâng 
cao 
Toàn b vn 
bn các trang 
web, .pdf, 
Flash, 
(3.1B toàn b 
ch& m!c 
URLs) 
Tin tc : cp 
nht th
ng 
xuyên (3000 
ngu1n) 
Tranh nh 
Video 
Audio 
FPT 
AND (m"c 
nh) 
OR, phi "t 
các t trong 
d#u “ “. 
ANDNOT, 
RANK 
-  loi b2 
Không rút gn. 
Dùng d#u “ “ cho 
c!m t. 
Field intitle:inurl: 
link:site: 
Trong tìm nâng 
cao : 
gii hn theo 
ngày, ngôn ng, 
domain, file 
format, a ch& 
iP. 
Kim li chính 
t. 
Tìm nâng cao : 
tranh nh, video. 
H tr s% d!ng 
k thut 
“clusters”  ti 
u câu truy v#n. 
AltaVista 
a.com 
Toàn b vn 
bn các trang 
web (khong 
AND (m"c 
nh) 
Trong tìm nâng 
D#u *  rút gn. 
D#u “” cho c!m 
t. 
Kim li chính 
t. 
Phiên dch : 8 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 30 - 0112398 – T Th Ngc Thanh 
H tr tìm 
kim nâng 
cao 
H	 thng th
m!c ch$  
(Subject 
Directory ) 
H	 thng th
m!c m 
(Open 
Directory) 
1B) và file 
.pdf. 
Tin tc (3000 
ngu1n), nh, 
MP3/Audio, 
Video. 
cao ho"c danh 
t riêng trong 
tìm c bn : 
AND, OR, 
ANDNOT, 
NEAR, d#u () 
l1ng nhau. 
- cho loi tr. 
Tìm nâng cao : 
gii hn ngày, 
ngôn ng. 
ngôn ng c$a 
Châu Âu & các 
ngôn ng c$a 
Châu Á. 
AltaVistaPrima : 
ti 
u câu h2i. 
Teoma 
om 
H tr tìm 
kim nâng 
cao 
Toàn b vn 
bn trang web 
(khong 1B) 
AND (m"c 
nh) 
OR (danh t 
riêng) 
+ ho"c “” cho 
stopword 
-  loi b2 
Không rút gn. 
Dùng d#u “ “ cho 
c!m t. 
Field intitle:inurl: 
site:geoloc:lang:l
ast: 
afterdate:befored
ate: 
betweendate: 
Trong tìm nâng 
cao : 
gii hn theo 
ngày, ngôn ng, 
domain, file 
format, a ch& 
iP. 
Kim li chính 
t. 
Gom nhóm kt 
qu Refine  ti 
u câu h2i. 
Resource  có 
các trang ho"c 
liên kt tp trung 
vào ch$ . 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 31 - 0112398 – T Th Ngc Thanh 
AskJeeves 
www.ask.co
m 
Nhn kt qu 
t CSDL c$a 
Teoma. 
Tìm sn ph5m 
: 
PriceGrabber.
com, 
Tìm tranh nh 
: 
Picsearch.co
m 
Tìm tin tc : 
Moreover.co
m. 
Ging Teoma. 
i vi nhng 
câu h2i n 
gin, xu#t hi	n 
c%a s. i 
thoi. 
Ging Teoma. 
Click vào 
Remove Frame 
 th#y URLs 
c$a các trang. 
Kim li chính 
t. 
AskJeeves for 
Kids 
www.ajkids.c
om 
Tr li tt các 
câu h2i n 
gin. 
Games cho 
tr, em, 
Tin tc theo 
tng nhóm 
tu.i. 
H2i b0ng ngôn 
ng t
 nhiên. 
Không s% d!ng 
các toán t% 
Boolean. 
Click vào No 
frames  th#y 
URL c$a trang 
kt qu. 
Dn n các 
trang ph!c v! 
hc tp : t
 in, 
vt lý, khoa hc, 
bn 1, lch 
s%,… 
Yahoo 
o.com 
Xem xét các 
trang web 
(khong 13K) 
AND (m"c 
nh) 
OR 
C!m t : “” 
Rút gn : * 
Fields t: title, 
u:URL 
Nhiu dch v! 
trong Yahoo: 
Tin tc : tng 
gi. 
Th thao :t& s,.. 
Bn 1, thi tit, 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 32 - 0112398 – T Th Ngc Thanh 
mua sm. 
Bng 2: S lc v các c trng c a mt s search engine thông dng trên 
Internet 
2.1.2. Chin lc tìm kim 
T “search engine” th
ng 
c s% d!ng rng rãi  mô t các công c! tìm 
kim d
a trên crawler và các th
 m!c do con ng
i cung c#p. ây là hai loi c$a các 
search engine tp hp các danh sách c$a chúng trong nhng cách khác nhau hoàn 
toàn. 
Search engine d
a vào crawler g1m 3 phn: 
 B thu th*p thông tin – Robot 
Robot là mt ch
ng trình t
 ng duy	t qua các c#u trúc siêu liên kt  thu 
thp tài li	u và mt cách 	 quy nó nhn v t#t c các tài li	u có liên kt vi tài li	u 
này. 
Robot 
c bit n d
i nhiu tên gi khác nhau : spider, web wanderer ho"c 
web worm, crawler… Nhng tên gi này ôi khi gây nhm ln, nh
 t ‘ spider ’, ‘ 
wanderer ’ làm ng
i ta ngh r0ng robot t
 nó di chuyn và t ‘ worm ’ làm ng
i ta 
liên t
ng n virus. V bn ch#t robot ch& là mt ch
ng trình duy	t và thu thp 
thông tin t các site theo úng giao thc web. Nhng trình duy	t thông th
ng không 
c xem là robot do thiu tính ch$ ng, chúng ch& duy	t web khi có s
 tác ng c$a 
con ng
i. 
 B l*p ch3 mc – Index 
H	 thng lp ch& m!c hay còn gi là h	 thng phân tích và x% lý d li	u, th
c 
hi	n vi	c phân tích, trích chn nhng thông tin cn thit (th
ng là các t n , t 
ghép , c!m t quan trng) t nhng d li	u mà robot thu thp 
c và t. chc thành 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 33 - 0112398 – T Th Ngc Thanh 
c s d li	u riêng  có th tìm kim trên ó mt cách nhanh chóng, hi	u qu. H	 
thng ch& m!c là danh sách các t khoá, ch& rõ các t khoá nào xu#t hi	n  trang nào, 
a ch& nào. 
 B tìm kim thông tin – Search Engine 
Search engine là c!m t dùng  ch& toàn b h	 thng bao g1m b thu thp 
thông tin, b lp ch& m!c và b tìm kim thông tin. Các b này hot ng liên t!c t 
lúc khi ng h	 thng, chúng ph! thuc ln nhau v m"t d li	u nh
ng c lp vi 
nhau v m"t hot ng. 
Search engine t
ng tác vi user thông qua giao di	n web, có nhi	m v! tip 
nhn và tr v nhng tài li	u tho yêu cu c$a user. 
 Nói nôm na, tìm kim t là tìm kim các trang mà nhng t trong câu truy v#n 
(query) xu#t hi	n nhiu nh#t, ngoi tr stopword (các t quá thông d!ng nh
 mo t a, 
an, the,…). Mt t trong câu truy v#n càng xu#t hi	n nhiu trong mt trang thì trang 
ó càng 
c chn  tr v cho ng
i dùng. Và mt trang cha t#t c các t trong câu 
truy v#n thì tt hn là mt trang không cha mt ho"c mt s t. Ngày nay, hu ht 
các search engine u h tr chc nng tìm c bn và nâng cao, tìm t n, t ghép, 
c!m t, danh t riêng, hay gii hn phm vi tìm kim nh
 trên  m!c, tiêu , on 
vn bn gii thi	u v trang web,….. 
Ngoài chin l
c tìm chính xác theo t khoá, các search engine còn c gng 
‘hiu’ ý ngh a th
c s
 c$a câu h2i thông qua nhng câu ch do ng
i dùng cung c#p. 
iu này 
c th hi	n qua chc nng s%a li chính t, tìm c nhng hình thc bin 
.i khác nhau c$a mt t. Ví d! : search engine s* tìm nhng t nh
 speaker, 
speaking, spoke khi ng
i dùng nhp vào t speak. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 34 - 0112398 – T Th Ngc Thanh 
Nguyên lý ho4t ng 
 Search engine iu khin robot i thu thp thông tin trên mng thông qua các 
siêu liên kt ( hyperlink ). Khi robot phát hi	n ra mt site mi, nó gi tài li	u (web 
page) v cho server chính  to c s d li	u ch& m!c ph!c v! cho nhu cu tìm kim 
thông tin. 
Bi vì thông tin trên mng luôn thay .i nên robot phi liên t!c cp nht các 
site c/. Mt  cp nht ph! thuc vào tng h	 thng search engine. Khi search engine 
nhn câu truy v#n t user, nó s* tin hành phân tích, tìm trong c s d li	u ch& m!c 
và tr v nhng tài li	u tho yêu cu. 
2.2. Semantic Web 
2.2.1. Khái ni&m 
“Web ng ngh a” là mt dng m rng c$a web hi	n nay, mà cho phép ta truy 
tìm, chia s,, phi hp, s% d!ng li và rút trích thông tin mt cách chính xác, d- dàng.”( 
Tim – Berners Lee, XML – 2000 ). 
Web ng ngh a là mt mng l
i thông tin 
c liên kt theo cách mà máy tính 
có th d- dàng x% lý 
c trên quy mô toàn cu. Chúng ta có th xem web ng ngh a 
nh
 là mt c s d li	u toàn cu 
c liên kt vi nhau. 
Web ng ngh a 
c phát trin bi Tim – Berners Lee, nhà phát minh c$a 
WWW, URIs, HTTP, và HTML. Hi	n nay có mt nhóm nghiên cu ti tp oàn 
WWW ang ci tin, m rng và tiêu chu5n hoá h	 thng ng ngh a. 
D li	u trong tp tin HTML th
ng hu ích trong mt s tr
ng hp. Phn ln 
d li	u trên web là dng HTML nên khó s% d!ng trên quy mô ln, bi vì nó không có 
mt h	 thng toàn cu  xu#t bn d li	u. 
Do ó, Web ng ngh a 
c xem nh
 là mt gii pháp k thut. 
Web ng ngh a 
c xây d
ng ch$ yu trên cú pháp s% d!ng URIs  biu di-n 
d li	u, th
ng th#y là c#u trúc d
a trên b ba (subject, predicate, object), ví d!: nhiu 
b ba c$a d li	u URI có th 
c c#t gi trong c s d li	u, ho"c thay th ln nhau 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 35 - 0112398 – T Th Ngc Thanh 
trên word wide web b0ng cách s% d!ng mt tp các cú pháp "c bi	t 
c pháp trin 
chuyên bi	t ph!c v! cho nhi	m v! ó. Cú pháp này 
c gi là cú pháp RDF. 
Web ng ngh a yêu cu d li	u không nhng máy có th c 
c mà còn 
mong mun máy có th hiu 
c. Trích dn câu nói c$a Tim – Berners Lee: 
“The semantic web goal is to be a unifying system which will (like the web for 
human communication) be as un-restraining as possible so that the complexity of 
reality can be described”. 
Tm dch là: “M!c ích c$a web ng ngh a là  mt h	 thng hp nh#t (ging 
nh
 web dành cho s
 giao tip c$a ng
i) càng không b cn tr càng tt  mà  
phc tp c$a th
c t có th 
c mô t”. 
Vi web ng ngh a, nó s* d- dàng nhn bit toàn b phm vi c$a các công c! 
và ng d!ng khó gii quyt trong khuôn kh. c$a web hi	n ti. 
Hai công ngh	 quan trng cho vi	c phát trin semantic web là: eXtensible 
Markup Language (XML) và Resource Description Frameword (RDF). XML cho 
phép mi ng
i có th to ra các tag (th, ) c$a riêng mình. Còn RDF thì trình bày ng 
ngh a, RDF s% d!ng tp các triple  mô t các khái ni	m c s. 
URI ( Uniform Resource Identifier): 
Mt URI n gin dùng  nhn bit mt trang web: ging nh
 các chui bt 
u vi “http” hay “ftp” mà bn th
ng th#y trên word wide web. B#t k3 ai c/ng có 
th to ra mt URI và quyn s hu chúng 
c u4 quyn mt cách rõ ràng, chính vì 
vy chúng to nên c s quan ni	m  xây d
ng web toàn cu. Th
c ra, word wide 
web có th xem nh
 là: b#t k3 th gì mà có URI 
c coi nh
 là “on the web”. 
Các URIs là các chui ký t
 có th nhn bit các tài nguyên trên web. Thông 
qua vi	c s% d!ng URIs, chúng ta có th s% d!ng cùng cách "t tên n gin  tham 
chiu n các tài nguyên d
i các nghi thc (protocol) khác nhau nh
 là: HTTP, FTP, 
GOPHER, EMAIL, …. 
URLs ( Uniform Resource Locator): là mt dng 
c s% d!ng rng rãi c$a 
URIs, 
c s% d!ng r#t ph. bin trên web, là các a ch& c$a các tài nguyên. M"c dù 
th
ng 
c bit n nh
 là các URLs, nh
ng URIs c/ng có th 
c tham chiu n 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 36 - 0112398 – T Th Ngc Thanh 
các khái ni	m trong semantic web. Ví d!, gi s% bn có mt quyn sách có tên là 
“Machine Learning”, thì URI c$a nó s* nh
 sau: 
L
u ý là mi th trên web u có mt URI duy nh#t. 
2.2.2. Kin trúc 
Web ng ngh a 
c xây d
ng theo mô hình kin trúc phân tng g1m có 7 
tng, các tng nh
 sau: 
Hình 9: Kin trúc t+ng c a Semantic web. 
Tng Unicode + URI: 
Nh0m bo m vi	c s% d!ng tp ký t
 quc t và cung c#p ph
ng ti	n  nh 
danh các i t
ng trong Web ng ngh a. 
Tng XML + NS + L
c 1 XML: 
Cùng vi các nh ngh a v namespace và schema bo m r0ng ta có th tích 
hp các nh ngh a web ng ngh a vi các chu5n d
a trên XML khác. 
Tng RDF + L
c 1 RDF: 
Dùng siêu d li	u mô t tài li	u trên Web  máy có th hiu 
c chúng. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 37 - 0112398 – T Th Ngc Thanh 
Tng Ontology: 
L
c 1 RDF cung c#p các công c!  nh ngh a nhng t v
ng, c#u trúc và 
các ràng buc trong vi	c mô t cho siêu d li	u v các tài nguyên Web. Nh
ng l
c 
1 RDF ch
a tht s
 y $ cho vi	c mô hình hoá và h tr suy lun trên Semantic 
Web. Ngôn ng Ontology OIL 
c  ra là mt dng m rng c$a l
c 1 RDF. Nó 
cho phép th hi	n ng ngh a hình thc, giúp h tr suy di-n t
 ng. 
 Tng Logic: 
Tng logic 
c xem nh
 là mt c s lut trên Semantic Web. Bn ch#t c$a c 
s lut này có dng nh
 mt h	 chuyên gia. Tng này s* h tr các dch v! nh
 : phân 
loi vn bn, rút trích d li	u. 
 Tng Proof: 
Trong khi tng logic giúp h tr suy lun d
a vào c s lut thì tng Proof 
c 
dùng  chng minh các suy di-n c$a h	 thng b0ng cách liên kt các d ki	n. 
 Tng Trust: 
Trong Web ng ngh a các thông tin 
c s% d!ng chung nh
 mt c s d li	u 
toàn cu, nên cn phi có mt cái gì ó  bo mt. ó là nguyên nhân c$a s
 ra i 
c$a ch ký i	n t%, nó giúp cho thông tin trên Web áng tin cy hn. Trust engine là 
mt h	 thng ang 
c xây d
ng d
a trên nn tng c$a ch ký i	n t%. Các k thut 
 xây d
ng chúng còn ang trong giai on nghiên cu và th% nghi	m. 
2.2.3. Các thách th'c t ra cho Semantic web 
2.2.3.1. Thách th'c 1: Tính s5n có c a ni dung (The availability 
of content) 
Ni dung c$a web ng ngh a là ni dung web 
c chú thích theo các ontology 
"c bi	t, các ontology này nh ngh a ng ngh a c$a các t ho"c các khái ni	m xu#t 
hi	n trong cùng mt ni dung. Mt s
 m rng n gin i vi HTML là 
c dùng 
 chú thích các trang web vi thông tin v ontology. Vi	c to ni dung semantic web 
là mt thách thc ln, bi vì “c s h tng” c$a semantic web vn còn ang 
c xây 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 38 - 0112398 – T Th Ngc Thanh 
d
ng (ch
a hoàn ch&nh – RDF, OIL, DAML+OIL,…), hi	n ti có r#t ít ni dung web 
ng ngh a có s6n. 
2.2.3.2. Thách th'c 2: Các ontology s5n có, phát tri6n và tin hoá 
Các ontology là chìa khóa i vi semantic web bi vì chúng là nhng b 
chuyên ch ng ngh a 
c cha trong semantic web, có ngh a là chúng cung c#p mt 
tp t v
ng và ng ngh a chú thích. Có 3 v#n  chính cn 
c gii quyt i vi 
thách thc này, hai v#n  u có liên quan n các v#n  v vi	c phát trin các 
ontology truyn thng mà cho n tn bây gi các v#n  này vn ch
a 
c gii 
quyt, và v#n  th ba còn li có liên quan nhiu n khung cnh mi c$a semantic 
web: 
V#n  th nh#t là vi	c xây d
ng các ontology ht nhân (kernel)  
c s% 
d!ng bi t#t c các domain. Nhng khi u t1n ti i vi vi	c xây d
ng mt s 
kernel ontology này là chúng phi 
c ng d!ng trong nhng domain khác nhau. 
V#n  th hai là cung c#p s
 h tr mang tính ch#t gii pháp và công ngh	 i 
vi hu ht các hot ng c$a tin trình phát tri
n ontology, bao g1m: 
a. S
 thu thp tri thc, mô hình khái ni	m và mã hoá ontology trong các 
ngôn ng semantic web (RDFS, OIL, DAML+OIL), và các ngôn ng 
mi – các ngôn ng mi này có th s* 
c 
a ra trong nhng nm sp 
ti [Maedche, Staab – 2001] . 
b. S
 sp xp và ánh x ontology, s
 tích hp ontology, các công c! 
chuyn .i ontology, và các công c! xây d
ng ontology, nu các 
ontology t1n ti sp 
c s% d!ng li [Fensel et al, 2001], [Noy, Musen 
2000]. 
c. Các công c! kim tra tính bn vng cho các ontology 
c s% d!ng li 
[Gomez-Perez 1996]. 
V#n  th ba là s
 tin hoá c$a các ontology và mi quan h	 c$a chúng i vi 
các d li	u ã 
c chú thích. Các công c! qun lý c#u hình là cn thit cho s
 iu 
khin các phiên bn c$a mi ontology c/ng nh
 s
 ph! thuc ln nhau gia chúng và 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 39 - 0112398 – T Th Ngc Thanh 
các chú thích. T#t c các v#n  này có th là không quan trng lm, nh
ng cn thit 
phi gii quyt tr
c khi mt semantic web th
c s
 ra i. 
2.2.3.3. Thách th'c 3: Scalability of semantic web content 
Mt khi chúng ta ã có ni dung c$a semantic web, chúng ta s* phi quan tâm 
n vi	c phi qun lý nó nh
 th nào, có ngh a là cách t. chc nó nh
 th nào, ni l
u 
tr nó và cách  tìm 
c ni dung úng n. Có 2 v#n  chính trong thách thc 
này: 
a. V#n  th nh#t có liên quan n vi	c l
u tr và t. chc c$a các trang 
web ng ngh a (semantic web pages). Semantic web “c s” bao g1m 
các trang 
c chú thích d
a trên ontology, c#u trúc liên kt c$a các 
trang này phn ánh c#u trúc c$a WWW, có ngh a là các trang liên kt 
vi nhng trang khác thông qua các hyperlink. Theo cách liên kt này 
(hyperlink) thì không khai thác 
c y $ ng ngh a c$a các trang 
web ng ngh a. Chin l
c semantic indexes 
c  xu#t  gom 
nhóm ni dung c$a semantic web d
a trên các ch$  c! th. Semantic 
indexes s* 
c phát sinh t
 ng b0ng cách s% d!ng thông tin c$a 
ontology và các tài li	u ã 
c chú thích. 
b. V#n  th hai có liên quan n vi	c d- dàng tìm kim thông tin trên 
semantic web, nói cách khác là có liên quan n vi	c phi hp gia các 
semantic indexes. 
2.2.3.4. Thách th'c 4: a ngôn ng% 
Vi	c hc d
a trên s
 phân tán c$a ngôn ng thông qua ni dung c$a WWW ch& 
ra r0ng thm chí nu ting Anh là ngôn ng 
u th hn i vi các tài li	u, mt s tài 
nguyên 
c vit b0ng ngôn ng khác c/ng r#t quan trng: Ting Anh 68,4%; Ting 
Nht 5,9%; Ting c 5,8%; Ting Trung Quc 3,9%; Ting Pháp 3,0%; Ting Tây 
Ban Nha 2,4%; Ting Nga 1,9%; Ting Italia 1,6%; Ting B1 ào Nha 1,4%; Ting 
Hàn 1,3%; Các ngôn ng khác 4,6% [www.vilaweb.com]. Tính a dng c$a ngôn ng 
còn quan trng hn nhiu i vi các tài nguyên WWW. a ngôn ng óng vai trò 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 40 - 0112398 – T Th Ngc Thanh 
ngày càng ln i vi các c#p  sau:  c#p  ontology,  c#p  chú thích, và  c#p 
 giao di	n ng
i dùng. 
( c#p  ontology, nhng ng
i thit k ontology có th mun s% d!ng ngôn 
ng a ph
ng c$a mình cho vi	c phát trin ontology mà trong ó các chú thích s* 
c gn vào. Bi vì không phi t#t c ng
i s% d!ng u là nhng ng
i xây d
ng 
ontology, nên c#p  này có  
u tiên th#p nh#t. S
 t1n ti cu a ngôn ng và các tài 
nguyên ngôn ng hc, nh
 là WordNet [wordnet], EuroWordnet [eurowordnet],…có 
th 
c xem xét t& m&  h tr v#n  a ngôn ng  c#p  này. 
( c#p  chú thích (annotation), chú thích c$a ni dung có th 
c th
c hi	n 
trong nhiu ngôn ng khác nhau. Bi vì nhiu ng
i dùng ("c bi	t là các nhà cung 
c#p ni dung) s* thích chú thích ni dung hn là phát trin các ontology, s
 h tr phù 
hp là cn thit phi  cho các nhà cung c#p ( ni dung ) chú thích ni dung b0ng 
ngôn ng a ph
ng c$a h.  có th phát sinh ni dung web ng ngh a b0ng t#t c 
kh nng, chúng ta không th yêu cu chú thích ni dung t ting Pháp sang ting c 
c và ng
c li. 
Cui cùng  c#p  giao di	n ng
i dùng, hàng t& ng
i mun truy xu#t vào ni 
dung thích hp b0ng ngôn ng a ph
ng c$a h b#t ch#p ngôn ng ngu1n – ngôn 
ng mà trong ó các chú thích 
c trình bày. M"c dù hi	n ti, a s ni dung u 
c vit b0ng ting Anh, chúng ta hy vng r0ng s* có nhiu ni dung hn 
c vit 
b0ng nhiu ngôn ng khác. B#t k3 h
ng tip cn nào c$a semantic web c/ng nên bao 
g1m các ti	n ích truy xu#t thông tin trong nhiu ngôn ng. Các công ngh	 quc t hoá 
và a ph
ng hoá nên 
c xem xét c5n thn i vi vi	c truy xu#t thông tin cá nhân 
d
a trên ngôn ng a ph
ng c$a ng
i dùng. 
2.2.3.5. Thách th'c 5: Visualization – s# m7ng tng 
Vi s
 gia tng thông tin v
t bc, s
 m
ng t
ng (hình dung) c$a tr
c giác 
v thông tin s* tr nên r#t quan trng, bi vì ng
i dùng s* yêu cu s
 d- dàng  
nhn bit s
 phù hp c$a ni dung cho m!c ích c$a h ngày càng gia tng. Thêm vào 
ó vi	c s% d!ng semantic indexes và các routers cho vi	c l
u tr, t. chc và tìm kim 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 41 - 0112398 – T Th Ngc Thanh 
thông tin, v sau này s* yêu cu mt b
c quan trng trong s
 m
ng t
ng. Các 
công ngh	 nên cho phép i vi các công ngh	 3 chiu và s
 m
ng t
ng mi  
m
ng t
ng ra ni dung c$a semantic web trong b#t k3 mt ngôn ng web hi	n ti 
nào (RDFS, OIL, DAML + OIL). Thông qua công ngh	 hin th 1 ho thi gian th
c 
3D tho áng và vi	c khai thác các mi quan h	 ng ngh a, mt giao di	n ba chiu 
mi có th 
c phát sinh mt cách t
 ng. Theo cách này, nhiu thông tin hn có 
th 
c trình bày trong mt không gian nh2 hn, và ng
i dùng có th t
ng tác vi 
các site mt cách th
c t và ti	n li [Van Harmelen et al 2001]. 
2.2.3.6. Thách th'c 6: S# chu,n hoá các ngôn ng% semantic web 
Semantic web là mt l nh v
c ang n.i bt và WWW Consortium s* 
a ra các 
gii thi	u v các ngôn ng và công ngh	 s* 
c s% d!ng.  v
n lên n mc ngh	 
thut trong semantic web, và các công c! phn ln ph! thuc vào ngôn ng semantic 
web mà chúng 
c h tr, thì nhu cu chu5n hoá ngôn ng semantic web là mt òi 
h2i cn thit. 
2.2.4. So sánh web và web ng% ngh!a 
im ging nhau gia Web và Web ng ngh a: c 2 u dùng nhng liên kt 
(link) URI, nh
ng Web ng ngh a s% d!ng các link này r#t nhiu, vi	c s% d!ng link 
làm gia tng tính chính xác c$a thông tin. 
S
 khác nhau c bn gia Web và Web ng ngh a: 
Web ng% ngh!a Web 
Web ng ngh a là mt không gian 
thông tin trong ó thông tin 
c biu 
di-n thông qua mt ngôn ng mà máy 
và ng
i u có th hiu 
c. 
Web là mt không gian thông tin cha 
ng thông tin ch& h
ng vào vi	c biu 
di-n trong mt ngôn ng t
 nhiên mà 
ch& có ng
i mi hiu 
c. 
Web ng ngh a là mt d li	u liên kt 
vi nhau mt cách ng ngh a và hình 
thc. 
Web là mt tp hp thông tin liên kt 
vi nhau mt cách không hình thc. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 42 - 0112398 – T Th Ngc Thanh 
2.2.5. Các khái ni&m liên quan 
2.2.5.1. Metadata 
Metadata là thông tin có c#u trúc mô t, gii thích, nh v ho"c m"t khác 
làm cho d- dàng truy v#n, s% d!ng, qun lý mt tài nguyên thông tin. Metadata th
ng 
c gi là d li	u v d li	u (t in d li	u), ho"c là thông tin v thông tin. 
Metadata là thông tin v thông tin, metadata 
c s% d!ng rng rãi trong 
th gii th
c cho m!c ích tìm kim. Ví d!, bn mun m
n mt vài quyn sách  
mt th
 vi	n nào ó thông qua máy tính. Th
ng thì th
 vi	n s* cung c#p mt h	 
thng tra cu, h	 thng này cho phép bn li	t kê sách theo tên tác gi (author), theo 
t
a sách (title), theo ch$  (subject), v.v…. Danh sách li	t kê này cha nhiu thông 
tin quan trng nh
: tên tác gi, t
a sách, ISBN, và thông tin quan trng nh#t là ni c#t 
gi sách. Bn cn vài thông tin (trong tr
ng hp này là ni c#t gi sách) mà bn 
mun bit và bn s% d!ng metadata (trong tr
ng hp này là: tên tác gi, t
a sách, và 
ch$ )  l#y 
c sách. 
Có 3 kiu metadata: 
a. Descriptive metadata: mô t mt tài nguyên cho nhng m!c ích nh
 là 
khám phá ho"c là nhn di	n. Nó có th bao g1m các phn t% nh
 là: 
titles, astract, author, và keywords. 
b. Structural metadata: ví d!: cho bit các i t
ng phc hp liên kt vi 
nhau nh
 th nào, các trang (pages) 
c sp xp thành các ch
ng nh
th nào. 
c. Administrative metadata: cung c#p thông tin giúp cho vi	c qun lý mt 
tài nguyên, nh
 là nó 
c to ra khi nào và nh
 th nào, kiu file, và 
các thông tin k thut khác, và nhng ai có th truy cp n nó. 
2.2.5.2. Namespace 
Chúng ta có th m rng tp t v
ng c$a chúng ta thông qua các 
namespace – là các nhóm c$a tên các phn t% và tên các thuc tính. Gi s%, nu bn 
mun gp (include) mt ký hi	u (symbol) 
c mã hoá trong mt ngôn ng ánh d#u 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 43 - 0112398 – T Th Ngc Thanh 
nào ó trong mt tài li	u XML, thì bn có th khai báo mt namespace ( không gian 
tên) mà symbol ó thuc v. Thêm vào ó, chúng ta có th tránh 
c tình hung hai 
i t
ng XML trong các không gian tên khác nhau vi cùng mt tên mà có ý ngh a 
khác nhau thông qua các "c tr
ng c$a các namespace. Gii pháp là gán mt tin t 
nhn bit namespace mà mi phn t% ho"c các thuc tính thuc v. Cú pháp c$a 
namespace nh
 sau: 
 ns-prefix:local-name 
Trong ó ns-prefix là tên c$a namespace, và local-name là tên c$a phn 
t% ho"c thuc tính. 
Ví d! v namespace: 
Tài li	u XML d
i ây là mt th
 vi	n sách. Chúng ta bt u b0ng phn 
t% gc có tên th, là , bên trong th, gc cha các phn t% sách và t
a 
sách nh
 sau: 
 Earthquakes for lunch 
Không gian tên cc b (local namespace): 
Chúng ta có th "t thuc tính xmlns  phn t% gc hay  b#t k3 th, nào khác. 
Khi thuc tính này không n0m trong th, gc thì ta gi ó là không gian tên c!c b. 
Ví d!: Xem on xml d
i ây: 
<minhkhai: library 
xmlns: minhkhai= > 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 44 - 0112398 – T Th Ngc Thanh 
Earthquakes for lunch. 
<amazon:book 
xmlns:amazon=> 
Earthquakes for lunch. 
Trong ví d! này thì namespace: xmlns:amazon= 
c gi là không gian tên c!c b. 
2.2.6. Ontology 
Thut ng “ontology” 
c vay m
n t trit hc. Ý ngh a u tiên c$a nó là 
“the branch of metaphysics that deals with the nature of being” [The American 
Heritage® Dictionary of the English Language: Fourth Edition (2000)]. 
Ontology là mt công ngh	 quan trng mang tính ch#t x
ng sng, vì nó cung 
c#p mt "c tính quan trng: ontology giao tip 
c gia ng ngh a hình thc mà 
máy tính có th hiu 
c vi ng ngh a c$a th gii th
c mà con ng
i có th hiu 
c. 
Nhng Ontology 
c phát trin trong trí tu	 nhân to  tri thc d- dàng chia 
s, và s% d!ng li. K t u thp niên 90 c$a th k4 XX, Ontology ã tr thành mt  
tài nghiên cu ph. bin i vi các t. chc nghiên cu trí tu	 nhân to, bao g1m 
nhng k s
 v tri thc (Knowledge), x% lý ngôn ng t
 nhiên và trình bày tri thc. 
Ontology không ch& làm cho tri thc có th s% d!ng li d- dàng hn, nó còn là 
nn tng c$a vi	c to ra các chu5n bi vì nó làm rõ các khái ni	m bên cnh mt thut 
ng ho"c mt mô hình. Yêu cu trên th
c t không phi ch& dành cho mt khái ni	m 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 45 - 0112398 – T Th Ngc Thanh 
duy nh#t, mà là i vi mt s
 t
ng tác m h1 gia các khái ni	m phc tp và chi tit 
( có th 
c trình bày trong nhiu ngôn ng khác nhau). 
 Gn ây, khái ni	m Ontology ã tr nên ph. bin hn nhiu trong các l nh v
c 
nh
 s
 tích hp thông minh, nhng h	 thng thông tin hp tác, ph!c h1i thông tin, 
giao dch th
ng mi i	n t%, và qun lý tri thc. M!c ích c$a Ontology là h
ng 
n tri thc min, nên s
 phát trin c$a nó th
ng là mt quá trình x% lý kéo theo 
nhiu yu t khác. 
T lúc ra i n nay, Ontology ã có r#t nhiu nh ngh a. Tuy nhiên, "c 
im ct li c$a Ontology vn là: “Mt ontology là mt s
 ch& nh tng minh, hình 
thc và chia s	 v mt khái nim dùng chung”. Trong ó: 
 Mt khái nim tham chiu n mt mô hình tru t
ng c$a mt 
vài hi	n t
ng nào ó trong th gii th
c mà xác nh nhng khái 
ni	m có liên quan v hi	n t
ng ó. 
 Tng minh là nhng khái ni	m và nhng ràng buc trên nó 
c 
s% d!ng mt cách rõ ràng. 
 Hình thc tham chiu n công vi	c mà ontology phi th
c hi	n 
 máy tính có th hiu 
c. 
 Chia s	 phn ánh r0ng mt ontology gi tri thc 1ng nh#t, ngh a 
là nó không b hn ch bi mt cá nhân hay mt nhóm riêng l, 
nào. 
Hi	n nay có nhiu ontology ln nh
: CYC, WordNet, …. 
 Ví d! v ontology: 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 46 - 0112398 – T Th Ngc Thanh 
 Hình 10: Mt Ontology n gin 
2.2.7. Rdf 
2.2.7.1 Khái ni&m : 
RDF là t vit tt c$a Resource Description Framework. RDF 
c  c% bi 
W3C cho mt mô hình và ngôn ng siêu d li	u (metadata) chu5n. RDF là mt b 
khung cho vi	c mô t các tài nguyên trên web. 
RDF cung c#p mô hình d li	u và cú pháp  các phn c lp nhau có th 
chuyn .i cho nhau và s% d!ng 
c RDF. 
2.2.7.2 C(u trúc : 
RDF là khung s
n (framework) cho vi	c x% lý metadata, và nó mô t các mi 
quan h	 gia các tài nguyên thông qua các thuc tính và các giá tr. RDF 
c xây 
d
ng d
a trên các lut nh
 sau: 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 47 - 0112398 – T Th Ngc Thanh 
Resource: Mi th 
c mô t b0ng biu thc RDF 
c gi là mt 
resource ( tài nguyên). Mi tài nguyên có mt URI và nó có th là toàn b trang web 
ho"c là mt phn c$a trang web. 
Property: “Property là mt khía cnh, "c tr
ng, thuc tính ho"c quan h	 
riêng bi	t 
c dùng  mô t mt tài nguyên” – trích trong W3C, Resource 
Description Framework (RDF) Model and Syntax Specification. Chú ý là mt 
property c/ng có th là mt resource bi vì nó có nhng tính ch#t riêng c$a nó. 
Statements: Mt statements 
c dùng  kt hp mt resource, mt 
property và mt value c$a nó. Ba phn riêng bi	t này 
c bit nh
 là “subject”, 
“predicate”, và “object”. Ví d!, “The Author of 
 is Peng Wang” là mt statement. 
Chú ý r0ng value c$a câu này có th là mt chui ký t
 mà c/ng có th là mt 
resource. 
 Ví d v RDF: 
 Mt statement ( phát biu ) có th 
c xem nh
 là mt 1 th trong RDF. 
 Phát biu nh
 sau: 
 “The Author of  is 
Peng Wang” 
 Câu trên 
c phân tích thành 3 phn: 
Subject ( Resource )  
Predicate (Property) Author 
Object (Literal) Peng Wang 
 
c biu di-n d
i dng 1 th nh
 sau: 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 48 - 0112398 – T Th Ngc Thanh 
 Chiu c$a m/i tên luôn h
ng t subject n object c$a phát biu ( statement). 
Và 1 th có th c theo cách sau: “ HAS ”, ví d!: 
“ has author Peng Wang”. 
 Nu chúng ta gán mt URI cho thuc tính author, thì s* có : 
  trình bày ngn gn, chúng ta 
a ra mt s tin t ( prefix)  tránh phi 
vit li toàn b a ch& URI tham chiu n. Có mt s tin t gn lin vi các URI 
c s% d!ng rng rãi sau: 
 Tin t rdf: là không gian tên cho URI: 
Tin t rdfs: là không gian tên cho URI: 
Tin t daml: là không gian tên cho URI: 
Tin t xsd: là không gian tên cho URI: 
 Trong ví d! này, chúng ta dùng không gian tên là pwterms  i di	n cho a 
ch& URI mà ta tham chiu n:  
 Khi ó cú pháp RDF cho câu phát biu: “The Author of 
 is Peng Wang” là: 
1 
2 
3 
4 
5 
6 
7 
<rdf:RDF xmlns:rdf="" 
 xmlns:pwterms=" "> 
<rdf:Description 
rdf:about=""> 
Peng Wang 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 49 - 0112398 – T Th Ngc Thanh 
 Mt câu phát biu khác: “Mt ng
i có mã s sinh viên là pw2538 có tên là 
Peng Wang và có a ch& email là 
[email protected] . Ng
i này là tác gi c$a tài 
nguyên ” 
 Có 1 th nh
 sau: 
 Có cú pháp RDF: 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 50 - 0112398 – T Th Ngc Thanh 
 Mô hình d% li&u RDF (RDF Data Model): 
 RDF cung c#p mt mô hình cho vi	c mô t các tài nguyên. Tài nguyên có các 
tính ch#t (property) – thuc tính ho"c là "c tr
ng. RDF nh ngh a tài nguyên nh
 là 
mt i t
ng b#t k3 có th nhn bit duy nh#t b0ng mt URI. Các property 
c kt 
hp vi các tài nguyên 
c nhn bit bi các property – types, và các property – 
types này có các values t
ng ng. Property – types mô t mi quan h	 c$a các values 
c kt hp vi các tài nguyên. Trong RDF, các values có th 
c xem nh
 là 
nguyên t% trong t
 nhiên ( chui text, s, v.v…) ho"c là các loi tài nguyên khác. 
 Bn ch#t ct lõi c$a RDF là mt mô hình c lp cú pháp cho vi	c trình bày các 
tài nguyên và s
 mô t t
ng ng c$a chúng. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 51 - 0112398 – T Th Ngc Thanh 
Hình 11: Mô hình d% li&u RDF 
Mô hình d li	u RDF là mt 1 th có gán nhãn nh h
ng, trong ó các nút là các tài 
nguyên (nhng th
c th vi URI) ho"c nhng ký t
, và các cnh là nhng thuc tính. Nh
 ã 
gii thi	u, mt phát biu RDF là mt b ba (Ch$ ng, V ng, B. ng). Trong ó, tài nguyên 
là Ch$ ng c$a mt phát biu có thuc tính mà giá tr c$a nó là B. ng c$a mt phát biu. 
Mt B. ng có th là tài nguyên ho"c có th là mt giá tr ký t
. Mt phát biu có th 
c 
i di	n nh
 mt 1 th, b0ng cách v* mt cung t mt nút (Ch$ ng) n nút khác (B. ng). 
RDF là mt cách thành lp cho vi	c x% lý siêu d li	u, nó cung c#p 
interoperability (thao tác gi
a các phn) gia các ng d!ng mà chuyn .i thông tin 
máy có th hiu 
c trên web. RDF nh#n mnh các ti	n ích  có th x% lý t
 ng 
các tài nguyên web. 
2.2.7.3 RDF Schema – mt ngôn ng% mô t t" v#ng 
Ngôn ng 
c nh ngh a trong "c t này (specification) g1m mt tp hp 
các tài nguyên mà có th 
c s% d!ng  mô t các thuc tính c$a các tài nguyên 
RDF khác ( bao g1m c các thuc tính) – nh ngh a tp t v
ng RDF c$a ng d!ng 
xác nh. Tp t v
ng này ch$ yu 
c nh ngh a trong mt không gian tên 
c 
gi là “rdfs”, và 
c nhn bit bi tham chiu URI: 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 52 - 0112398 – T Th Ngc Thanh 
schema#. "c t này c/ng s% d!ng tin t “rdf”  tham chiu n không 
gian tên RDF chính:  
H	 thng class và property trong RDF Schema c/ng t
ng t
 nh
 các h	 thng 
kiu c$a các ngôn ng h
ng i t
ng nh
 Java. Tuy nhiên, RDF khác vi các h	 
thng khác  ch thay vì nh ngh a mt class trong quan h	 c$a các thuc tính mà th 
hi	n c$a nó có th có, RDF Schema s* nh ngh a các thuc tính trong quan h	 c$a các 
lp c$a tài nguyên mà chúng ng d!ng. ây là nhi	m v! c$a rdfs:domain và 
rdfs:range 
c mô t trong "c t này. Ví d!, chúng ta có th nh ngh a thuc tính 
eg:author, có min là eg:Document và gii hn là eg:Person, nh
ng trái li mt h	 
thng h
ng i t
ng kinh in có th nh ngh a mt cách "c tr
ng mt class 
eg:Book vi mt thuc tính 
c gi là eg:author c$a kiu eg:Person. 
T" v#ng Domain and Range 
"c t này gii thi	u tp t v
ng RDF cho vi	c mô t cách s% d!ng y $ ng 
ngh a c$a các property và các class trong d li	u RDF. Ví d!, mt l
c 1 RDF có th 
mô t gii hn trên các kiu c$a các value thích hp vi mt s thuc tính. 
RDF Schema cung c#p c ch (k thut) cho vi	c mô t thông tin này, nh
ng không 
th nói trong tr
ng hp nào thì ng d!ng nên s% d!ng nó và s% d!ng nh
 th nào. 
Các ng d!ng khác nhau s* s% d!ng thông tin này theo nhiu cách khác nhau. Ví d!, 
các công c! kim tra d li	u có th s% d!ng thông tin này  tìm ra các li trong 
dataset, mt trình son tho giao tip gia ng
i và máy có th  ngh nhng giá tr 
thích hp, và mt ng d!ng suy lun có th s% d!ng nó suy lun r1i 
a ra thông tin 
mi t d li	u ban u. 
L
c 1 RDF (RDF Schema) có th mô t các mi quan h	 gia các t v
ng t 
nhiu l
c 1 
c phát trin c lp nhau. Bi vì tham chiu URI 
c s% d!ng  
nhn bit các class và property trên web, nên nó có th to ra các thuc tính (property) 
mi có domain và range mà giá tr c$a nó 
c nh ngh a trong mt namespace khác. 
"c t này không c gng  li	t kê t#t c các hình thc có th có c$a vi	c mô 
t t v
ng mà nó 
c s% d!ng  trình bày ng ngh a c$a các class và property c$a 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 53 - 0112398 – T Th Ngc Thanh 
RDF. Thay vào ó, chin l
c mô t t v
ng RDF tha nhn r0ng có nhiu k thut 
mà thông qua ó ng ngh a c$a các class và property 
c cho bit, và  xu#t bn 
mt s quy 
c cho vi	c s% d!ng RDF/XML  mô t các "c tr
ng c$a các class và 
property cu RDF. 
L
c 1 tt hn ho"c là các ngôn ng “ontology” nh
 là DAML+OIL, W3C, 
các ngôn ng suy lun d
a trên lut, và các ch$ ngh a hình thc khác, mi loi s* góp 
phn cho kh nng c$a chúng ta nm bt 
c s
 t.ng hp y $ ng ngh a v d 
li	u trên web. Các nhà thit k t v
ng RDF có th to và phát trin các ng d!ng web 
ng ngh a b0ng cách s% d!ng ti	n ích The basic RDF Schema 1.0, trong khi trình bày 
các ngôn ng mô t t v
ng tt hn – cách này c/ng s% d!ng h
ng tip cn này. 
S lc v RDF Schema 
Bng này trình bày mt cách t.ng quát v tp t v
ng c s c$a RDF 
Tên lp Ghi chú 
rdfs:Resource The class resource, everything. 
rdfs:Literal 
This represents the set of atomic values, eg. 
textual strings. 
rdfs:XMLLiteral The class of XML literals. 
rdfs:Class The concept of Class 
rdf:Property The concept of a property. 
rdfs:Datatype The class of datatypes. 
rdf:Statement The class of RDF statements. 
rdf:Bag An unordered collection. 
rdf:Seq An ordered collection. 
rdf:Alt A collection of alternatives. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 54 - 0112398 – T Th Ngc Thanh 
rdfs:Container This represents the set Containers. 
rdfs:ContainerMembershipProperty 
The container membership properties, rdf:1, 
rdf:2, ..., all of which are sub-properties of 
'member'. 
rdf:List The class of RDF Lists 
Bng 3 : Các lp trong RDF 
Property name comment domain range 
rdf:type Indicates membership of a class rdfs:Resource rdfs:Class 
rdfs:subClassOf Indicates membership of a class rdfs:Class rdfs:Class 
rdfs:subPropertyOf 
Indicates specialization of 
properties 
rdf:Property 
rdf:Propert
y 
rdfs:domain A domain class for a property type rdf:Property rdfs:Class 
rdfs:range A range class for a property type rdf:Property rdfs:Class 
rdfs:label 
Provides a human-readable 
version of a resource name. 
rdfs:Resource rdfs:Literal 
rdfs:comment Use this for descriptions rdfs:Resource rdfs:Literal 
rdfs:member a member of a container rdfs:Container 
not 
specified 
rdf:first 
The first item in an RDF list. Also 
often called the head. 
rdf:List 
not 
specified 
rdf:rest 
The rest of an RDF list after the 
first item. Also often called the 
tail. 
rdf:List rdf:List 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 55 - 0112398 – T Th Ngc Thanh 
rdfs:seeAlso 
A resource that provides 
information about the subject 
resource 
rdfs:Resource 
rdfs:Resour
ce 
rdfs:isDefinedBy 
Indicates the namespace of a 
resource 
rdfs:Resource 
rdfs:Resour
ce 
rdf:value 
Identifies the principal value 
(usually a string) of a property 
when the property value is a 
structured resource 
rdfs:Resource 
not 
specified 
rdf:subject The subject of an RDF statement. rdf:Statement 
rdfs:Resour
ce 
rdf:predicate the predicate of an RDF statement. rdf:Statement 
rdf:Propert
y 
rdf:object The object of an RDF statement. rdf:Statement 
not 
specified 
Bng 4:Các thuc tính c$a RDF 
 (Mô t các t v
ng c$a RDF 
c trình bày trong phn Ph! l!c [1].) 
2.3. eDoc 
2.3.1. Tìm hi6u eLearning 
2.3.1.1. Khái ni&m 
eLearning hay còn gi là Online Learning, chu5n cho t#t c các hình thc c$a 
vi	c hc. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 56 - 0112398 – T Th Ngc Thanh 
Online learning liên quan n vi	c s% d!ng các công ngh	 mng ( nh
 là: 
Internet hay là mng th
ng mi – bussiness network) cho vi	c phân phát, h tr, 
ánh giá vi	c dy hc chính qui và không chính qui. 
“Hc” xy ra  âu và nh
 th nào? (: các tài nguyên và các tài li	u tr
c tuyn, 
các th
 vi	n i	n t%, các tài li	u; và các khoá hc, các bu.i tho lun, chats, email, hi 
ngh, và các ng d!ng chia s, tri thc. Mt chú ý quan trng là online learning không 
nh#t thit phi di-n ra tr
c tuyn (online). S% d!ng công ngh	 cho vi	c hc th
ng là 
mt yu t ph! i vi lp hc và các c hi hc tr
c tip ( face – to – face ). 
Mt s nguyên nhân  s% d!ng online learning: 
a. Vi	c truy cp 
c ci thi	n và tính linh ng: Mi ng
i có th ng 
nhp vào b#t k3 mt máy tính nào,  ti nhà ho"c  ni làm vi	c, vào b#t 
k3 lúc nào k c ngày ln êm,  l#y bài hc ho"c tham kho n các 
tài li	u hc. 
b. Phân phi nhanh hn và tit ki	m chi phí: i vi các t. chc cn truyn 
t thông tin quan trng mà thông tin này nhanh chóng tr nên li thi ( 
ví d!, phiên bn mi nh#t c$a mt sn ph5m), thì hình thc online hu 
nh
 là r, hn và nhanh hn nhiu so vi vi	c ng
i truyn t phi bay 
qua nhiu quc gia  g"p g nhng hc viên  lp hc vi hàng ting 
1ng h1. 
c. Ci tin vi	c iu hành và chu5n hoá: Trong môi tr
ng th
ng mi 
quc t ngày nay, nhiu t. chc m rng trên phm vi toàn cu. S
 khác 
nhau v kin thc và k nng c$a các cá nhân dy có th s* làm cho ch#t 
l
ng hc c$a các hc viên  nhng ni khác nhau s* khác nhau: ví d! 
nhng ng
i hc  New Delphi s* có ch#t l
ng hu#n luy	n khác vi 
nhng ng
i  New York. Online learning cung c#p thông tin nh#t quán, 
ph. bin i vi các i t
ng  khp ni. 
Làm n.i bt thông tin truyn t và s
 cng tác: Thông qua nhng phn mm 
nào ó s* cho phép nhng ng
i hc 
c giao tip vi nhau, cng tác vi nhau qua 
các d
 án, và chia s, tài li	u mà không cn phi g"p m"t tr
c tip. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 57 - 0112398 – T Th Ngc Thanh 
2.3.1.2. Các chu,n c a eLearning 
Ngành công nghi	p eLearning tip t!c 
c m rng mi ngày, và các chu5n 
cn thit  to ni dung bài hc ngày càng tr nên phc tp. 
Tr
c khi mt “qui 
c” c$a eLearning tr thành “standards” (chu5n), nó 
c 
gi là “specification” ( "c t ). Specification 
c duy	t bi mt t. chc – t. chc 
này 
c mi ng
i công nhn, nh
 là IEEE ch+ng hn. 
Mt s chu5n c$a eLearning: 
a. T
p phn t siêu d liu Dublin Core 
Tp phn t% siêu d li	u Dublin Core ( The Dublin Core metada element 
set) là chu5n cho s
 mô t tài nguyên thông tin xuyên domain (bng qua nhiu 
domain). ( ây, tài nguyên thông tin 
c nh ngh a là b#t k3 th gì mà có th 
nhn bit 
c. i vi các ng d!ng Dublin Core, mt tài nguyên s* là mt tài 
li	u i	n t% (electronic document). 
Siêu d li	u Dublin Core 
c dùng cho vi	c tìm kim và ch& m!c cho 
các siêu d li	u d
a trên Web. Tp siêu d li	u này cung c#p t v
ng ng ngh a 
nh
: “Description”, “Creator” và “Date” cho vi	c mô t nhng "c tr
ng thông 
tin quan trng c$a các tài nguyên Internet. 
Tp siêu d li	u Dublin Core cung c#p 15 t v
ng: 
• Title: Tên 
c gán cho tài nguyên. 
• Creator: Th
c th có trách nhi	m to ra tài nguyên. Ví d! nh
: 
cá nhân, t. chc hay mt dch v! nào ó. 
• Subject: Ch$  ni dung c$a tài nguyên. 
• Description: Mô t ni dung c$a tài nguyên. 
• Publisher: Th
c th có nhi	m v! to ra tài nguyên. 
• Contributor: Th
c th có óng góp vào ni dung c$a tài nguyên. 
• Date: Ngày tài nguyên 
c to. 
• Type: Th loi ni dung c$a tài nguyên. 
• Format: Dng l
u tr vt lý c$a tài nguyên. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 58 - 0112398 – T Th Ngc Thanh 
• Identifier: Mt tham chiu c! th n tài nguyên trong mt ng 
cnh cho phép. 
• Source: Tham chiu n mt tài nguyên mà tài nguyên 
c 
dn xu#t. 
• Language: Ngôn ng s% d!ng bi ni dung c$a tài nguyên. 
• Relation: Tham chiu n mt tài nguyên liên quan 
• Coverage: M rng ni dung c$a tài nguyên 
• Right: Thông tin v quyn s hu tài nguyên. 
b. LOM (Learning Object Metadata) 
LOM là mt chu5n v eLearning hi	n ti 
c phát trin bi t. chc 
IEEE. T. chc chu5n hoá công ngh	 hc (Learning Technology Standards 
Committee) c$a IEEE ã phát trin chu5n LOM nh0m giúp cho vi	c s% d!ng và 
s% d!ng li c$a các tài nguyên hc 
c h tr công ngh	 nh
 là vi	c hu#n 
luy	n d
a trên máy tính, và vi	c hc t xa. 
Trong mt h	 thng eLearning, i t
ng hc là nhng gì có th 
c s% 
d!ng, k tha hay tham kho trong vi	c h tr công ngh	 hc. Hi	n ti mt s 
i t
ng ang 
c tip t!c phát trin nh0m áp ng nhu cu hc thay .i 
nhanh chóng. Vi	c thiu thông tin hay siêu d li	u v i t
ng hc to ra 
nhiu cn tr, hn ch cho kh nng qun lý, khám phá và s% d!ng i t
ng 
hc. 
LOM gii quyt v#n  trên b0ng cách nh ngh a mt c#u trúc cho vi	c 
mô t mt i t
ng hc. LOM ch& ra cú pháp và ng ngh a c$a các siêu d 
li	u i t
ng hc, nh ngh a các thuc tính nh0m mô t y $ và tho áng 
các i t
ng hc. 
M!c ích c$a LOM: 
 Cho phép ng
i hc hay ng
i h
ng dn tìm kim, ánh giá i 
t
ng hc. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 59 - 0112398 – T Th Ngc Thanh 
 Cho phép chia s, và trao .i các i t
ng hc qua b#t k3 công ngh	 
có h tr h	 thng hc. 
 Cho phép phát trin các i t
ng hc theo các n v có kh nng 
kt hp hay phân rã theo mt ph
ng pháp phù hp. 
 Cho phép các agent máy tính linh ng là t
 ng trong vi	c t. chc 
các bài hc cung c#p n ng
i hc. 
 Nó hoàn toàn d
a trên chu5n và quan tâm n các i t
ng hc 
trong môi tr
ng m và phân tán. 
 Cho phép các công ngh	 mi kt hp vi các i t
ng hc. 
 Cung c#p cho các nhà nghiên cu chu5n h tr và s
u tp d li	u liên 
quan n hi	u qu c$a các i t
ng hc. 
LOM nh ngh a mt tp ti thiu các thuc tính (attributes)  qun lý, 
nh v, và ánh giá các i t
ng hc. Các thuc tính 
c gom nhóm thành 8 
phm trù: 
• General: cha 
ng thông tin v toàn b i t
ng. 
• Lifecycle: cha 
ng siêu d li	u v s
 tin hoá c$a các i 
t
ng. 
• Technical: vi s
 mô t c$a các "c tr
ng và yêu cu k thut. 
• Educational: cha 
ng các thuc tính v giáo d!c ho"c s
 phm. 
• Rights: mô t quyn s hu và các iu ki	n s% d!ng 
• Relation: nhn bit các i t
ng có liên quan vi nhau. 
• Annotation: cha 
ng các chú thích và ngày, tác gi c$a các chú 
thích này. 
• Classification: nhn bit các b nhn di	n h	 thng phân loi 
khác cho i t
ng. 
Bên trong mi phm trù là mt tp các phn t% d li	u có th t
, mà giá 
tr c$a chúng là các metadata. Ví d!: Các phn t% siêu d li	u liên quan n 
vi	c hc 
c tìm th#y trong phm trù Education là Typical Age Range, 
Difficulty, Typical Learning Time, và Interactivity Level. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 60 - 0112398 – T Th Ngc Thanh 
c. vCard 
vCard là chu5n 
c gii thi	u và phát trin bi IMC (Internet Mail 
Consortium). Các thông tin cá nhân thông th
ng r#t phc tp và có nhiu loi 
khác nhau. Hi	n ti có mt s chu5n  xu#t các c#u trúc cho vi	c trao .i 
thông tin cá nhân PDI (Personal Data Interchange). M!c ích c$a chu5n này là 
nh0m gii quyt nhu cu s
u tp và trao .i thông tin cá nhân qua nhiu kênh 
thông tin khác nhau nh
 i	n thoi, th
 i	n t% hay i thoi tr
c tip. 
Chu5n vCard phù hp cho vi	c trao .i d li	u cá nhân gia các ng 
d!ng và h	 thng. nh dng c$a vCard hoàn toàn c lp vi ph
ng pháp 
dùng  truyn ti nó. Vi	c truyn ti này có th là trao .i mt h	 thng tp 
tin, mng chuyn mch công cng, mng dây dn hay mng không dây. vCard 
nhm n vi	c trao .i thông tin cá nhân. Trong môi tr
ng th
ng mi ngày 
nay, thông tin này th
ng 
c trao .i trên các th, th
ng mi và vCard nh 
ngh a nhng thông tin này d
a trên các i t
ng th, th
ng mi i	n t%. 
d. SCORM (Shareable Content Object Reference Model) 
SCORM nh ngh a mô hình kt hp gia ni dung và môi tr
ng th
c 
thi cho các i t
ng hc. ây là mt mô hình tham chiu n mt tp các k 
thut liên quan vi	c thit k nh0m áp ng yêu cu ni dung hc d
a trên Web, 
nhng yêu cu này bao g1m kh nng tái s% d!ng, truy xu#t, kh nng t
ng 
tác c$a các i t
ng hc. 
e. IMS ( Instructional Management Systems) 
IMS ang 
c phát trin và xúc tin tr thành chu5n m cho các hot 
ng eLearning nh
 s% d!ng, sp xp các ni dung giáo d!c và m rng các 
khái ni	m t.ng quát nh
: thit k ng
i hc, theo dõi và báo cáo quá trình 
ng
i hc nh0m th
c hi	n vi	c trao .i thông tin gia các h	 thng hc khác 
nhau. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 61 - 0112398 – T Th Ngc Thanh 
M!c ích c$a IMS: 
• nh ngh a các chu5n k thut nh0m nâng cao kh nng t
ng tác 
gia ng d!ng và dch v! trong môi tr
ng hc phân tán hi	n nay. 
• H tr vi	c sát nhp "c t c$a IMS vào trong các sn ph5m và dch 
v! trên toàn th gii. S
 ch#p nhn "c t rng rãi s* cho phép phân 
phi môi tr
ng và ni dung hc t nhiu tác gi li vi nhau. 
2.3.2. Tìm hi6u eLib 
Elib (electronic library hay cò gi là digital library) là mt th
 vi	n 5n. T 
‘electronic library’ ng! ý là mt s
u tp c$a các tài nguyên thông tin i	n t% 
c ni 
mng cùng k thut liên kt và c s h tng qun tr. Bn có th truy cp nó t b#t c 
máy PC hay laptop có ni mng nào t b#t c ni nào trên th gii  b#t c thi im 
nào. 
Elib l
u tr và ch& m!c hàng vn sách, báo, tp chí v $ các ch$  trên th 
gii, ch+ng hn nh
 vt lí, thiên vn, sinh hoá, công ngh	 sinh hc, hoá hc và công 
trình xây d
ng hoá ch#t, các thit b xây d
ng, công trình xây d
ng môi tr
ng, khoa 
hc th
c ph5m, và an toàn sc kho, và v	 sinh .v.v… c/ng nh
 các tài li	u v thông 
tin tiu s%, lí lch cá nhân, ngh nghi	p, các t. chc, hi liên hi	p, và du lch v.v…. 
Th
 vi	n i	n t% này 
c s% d!ng ph. bin nh#t trong các tr
ng i hc và nhng 
trung tâm nghiên cu khoa hc. T#t nhiên, i t
ng s% d!ng nó chính là nhng sinh 
viên, nghiên cu sinh và các nhà khoa hc. 
Nhng ch
ng trình Electronic library 
c xây d
ng d
a trên nhng chu5n 
thng nh#t do các hi 1ng, t. chc ln trên th gii lp ra. Mt s t. chc nh chu5n 
ln trên gii nh
 W3C (World Wide Web Consortium), ISO (International 
Organization for Standardization), NISO (National Information Standards 
Organization ),… . Có nhiu chu5n cho nhiu khía cnh khác nhau c$a vi	c l
u tr và 
truy cp thông tin i	n t%, bao g1m các chu5n v thu h1i thông tin (Information 
Retrieval Standard), thao tác gia các phn (Interoperability), nh dng tài nguyên, 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 62 - 0112398 – T Th Ngc Thanh 
nhn dng tài nguyên, mô t tài nguyên,… Sau ây là mt s chu5n s% d!ng trong 
eLib liên quan n v#n  truy cp thông tin i	n t%: 
 Chu,n v thu h.i thông tin: 
Kiu chu5n này cho phép thông tin gia các h	 thng khác nhau, làm cho thun 
ti	n trong vi	c khám phá và truy cp thông tin i	n t%. Ví d! nh
 chu5n thu h1i thông 
tin ISO 23950 (t
ng 
ng vi ANSI Z39.50) nh ngh a mt h
ng chu5n cho hai 
máy tính liên lc và chia s, thông tin vi nhau. Nó ã 
c thit k  h tr khám 
phá tài nguyên và thu h1i tài nguyên c$a nhng tài li	u “full-text”, d li	u m!c l!c, 
các hình nh và multimedia. Chu5n này d
a trên kin trúc client-server và c lp vi 
các h	 thng c! th, hoàn toàn iu hành trên Internet. 
Z39.50: 
Z39.50 là mt trong mt nhóm các chu5n 
c sn xu#t  làm cho d- dàng kt 
ni các h	 thng máy tính. Chu5n này ch& ra các nh dng và th$ t!c chi phi vi	c 
trao .i các thông i	p gia client và server, cho phép ng
i dùng có th tìm kim các 
c s d li	u t xa, nhn di	n các dòng d li	u có nh rõ các chu5n, và thu h1i mt 
vài hay t#t c các dòng 
c nhn di	n và có liên quan, c! th vi vi	c tìm kim và 
thu h1i thông tin trong c s d li	u. Mt trong nhng thun li ln trong vi	c s% d!ng 
Z39.50 là nó cho phép truy cp nh
 nhau n mt s l
ng ln ngu1n thông tin thay 
.i khác nhau. 
Z39.50 tha nhn r0ng vi	c thu h1i thông tin g1m hai thành phn chính – chn 
thông tin d
a trên nhng tiêu chu5n và thu h1i thông tin ó, và nó cung c#p mt ngôn 
ng chung cho c hai hành ng ó. Z39.50 chu5n hoá cách x% s
 mà trong ó client 
và server thông tin vi nhau và hot ng ngay khi có nhng khác bi	t gia các h	 
thng máy tính, các công c! tìm kim và các c s d li	u. 
EDI (Electronic Data Interchange) 
EDI 
c bit n nh
 mt chu5n công ngh	 thông tin quc gia. ( EDI, d li	u 
mà theo truyn thng 
c chuyn vào trong các tài li	u gi#y thì 
c truyn hay 
c thông tin mt cách i	n t% tùy vào các lut và các nh dng 
c thit lp. D 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 63 - 0112398 – T Th Ngc Thanh 
li	u liên i vi mi kiu c$a tài li	u chc nng, ví d! nh
 bng mua bán hay hoá n, 
c vn chuyn ln nhau nh
 là mt thông i	p i	n t%. D li	u ã nh dng có th 
c vn chuyn t ng
i to ra n ng
i nhn thông qua thông tin liên lc b0ng cáp 
hay vn chuyn vt lí vào trong thit b l
u tr i	n t%. 
EDI 
a n mt chui các thông i	p gia hai ni, ví d! ng
i mua và ng
i 
bán, mi ng
i có th xem nh
 là ng
i to ra hay ng
i nhn. Các thông i	p t 
ng
i mua n ng
i bán s* bao g1m, ví d! nh
 d li	u cn thit cho yêu cu i vi 
s
 trích dn (request for quotation_ RFQ), các biên lai mua bán, các thông báo vi	c 
vn chuyn tàu thuyn, và các hoá n. Vi	c th
c thi c$a EDI yêu cu vi	n s% d!ng 
c$a mt h các chu5n liên kt vi nhau. H chu5n này phi bao g1m các chu5n cho 
các kiu thông i	p (c/ng 
c gi là các “nhóm giao dch” _ “transaction set”), và 
cho vi	c vn chuyn th
, các yu t d li	u, và các chui c$a các yu t d li	u 
c 
sp xp gi là các segment d li	u. Mt chu5n thông i	p hay chu5n transaction set 
nh ngh a chui các segment d li	u mà to thành thông i	p và transaction set ó. 
Th
 m!c segment d li	u li	t kê t#t c các segment d li	u, và nh ngh a nh danh 
và chui c$a các yu t d li	u to nên nó. T
 in yu t d li	u cung c#p các chu5n 
c$a t#t c các yu t d li	u. Vi	c vn chuyn th
 cung c#p thông tin iu khin v các 
thông i	p thêm vào cho các h	 thng vn chuyn và tip nhn. Vi	c chu5n hoá c$a 
các nh dng thông i	p, và c$a các segment d li	u và yu t d li	u trong các thông 
i	p ó, làm cho có th thu thp, tháo ri và x% lí các thông i	p b0ng máy tính vi 
các kt qu có th có th oán tr
c. 
ILL (Internet Loan Library) 
Nghi thc ILL (ISO 10160/1) 
c phát trin  gi nhiu giao dch 
c liên 
kt bao g1m các hot ng yêu cu tài li	u g1m nhiu ng
i tham gia. V khái ni	m 
thì nó t
ng 
ng vi EDI và bao g1m vi	c cung c#p cho nh ngh a các data 
element 
c yêu cu, nh ngh a mt nhóm các thông i	p và các mi quan h	 c$a 
nó, và mt cú pháp cho vi	c lp c#u trúc thông i	p. 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 64 - 0112398 – T Th Ngc Thanh 
Nghi thc ILL có v, nh
 có nhiu  cung c#p các dch v! yêu cu, "c bi	t khi 
chúng tr nên phân tán nhiu hn. S
 truyn thông t h	 thng này sang h	 thng khác 
c$a các thông i	p có c#u trúc cho phép mt phm vi rng ln các thi hành 
c t
 
ng, và các th$ t!c b0ng tay hay phi hp cho vi	c theo vt, gi v,… 
c t
 ng. 
Công d!ng c$a nó trong các dch v! t
ng tác i vi yêu cu các tài li	u cn nghiên 
cu xa hn na. 
 Chu,n mã hoá tài nguyên: 
Nhng chu5n này nh ngh a các kiu hin th khác nhau c$a thông tin i	n t%. 
Bao g1m các chu5n: 
o nh dng mô t trang (ví d! postscript, PDF) 
o nh dng 1 ha (ví d! TIFF, GIF, JPEG) 
o Thông tin c#u trúc (SGML, HTML, XML) 
o nh dng hình nh ng và audio. 
o Nén (ví d!: gzip, jar, tar, zip). 
 Chu,n nh*n d4ng tài nguyên: 
G1m mt s chu5n sau: 
 DOI (Digital Object Identifier) 
Digital Object Identifier là mt h	 thng 
c phát trin bi Bowker và CNRI 
(Corporation for National Research Initiative)  US, theo mt yêu cu v các  xu#t 
cho công ngh	 nhn dng ni dung k thut s 
c 
a ra bi Association of 
American Publishers. H	 thng DOI có ba thành phn: phn nh danh, th
 m!c và c 
s d li	u. H	 thng này cho phép các b nh dng qui nh nhng mc khác nhau, 
và cho các h	 thng khác (ví d! SICI, ISSN) 
c thêm vào. 
H	 thng DOI có th 
c nh ngh a nh
 là “mt b nhn dng duy nh#t có 
th gii quyt 
c và nhiu mng c$a d li	u trng thái kiu kt hp trong mt c s 
qun lí thông tin”. Di-n t nhng phn c$a nh ngh a nh
 sau: 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 65 - 0112398 – T Th Ngc Thanh 
a. Mt “b nhn dng duy nh#t”: nhi	m v! c$a DOI là duy nh#t i vi 
mt mng c$a "c tính tri thc. nh ngh a c$a mng này 
c ch& rõ 
bi mt s mng chính c$a thông tin v nó (siêu d li	u) mà thuc vào 
th loi c! th: dù th
c th là mt bài báo hay mt video clip, ví d! nh
vy. nh danh này là mt chui không rõ ràng; nó không cha b#t c tri 
thc cú pháp v th
c th này. 
b. “có th gii quyt 
c”; vi “d li	u trng thái kt hp”: i sâu vào 
thông qua h	 thng Internet t b nhn dng ó n mt hay nhiu mng 
c$a d li	u kt hp. Nhng mng này biu di-u trng thái hi	n ti (giá 
tr) c$a mt s kiu d li	u (ví d! nh
 mt URL). Nhng mng này c$a 
d li	u có th hin th, hay dn n, các dch v! s% d!ng DOI nh
 là mt 
im th
c th. 
c. “mt c s qun lí thông tin”: mt khi mt mng d li	u thu 
c do s
 
phân tích, thì siêu d li	u v th
c th 
c nh danh có th thi hành vi 
siêu d li	u t nhng ngu1n khác (ví d! v ng cnh)  xây d
ng các 
dch v! và các giao dch t
 ng. Kh nng thi hành này 
c hoàn t#t 
thông qua vi	c qun lí siêu d li	u trong mt h
ng 
c iu khin, 
phù hp vi mt kin trúc thi hành mà làm cho DOI có th 
a ra nhng 
ng d!ng  mt b nhn dng liên t!c n gin. 
 SICI 
Chu5n SICI là chu5n ANSI/NISO Z39.56-1996 nh ngh a nhng lut l	 v mã 
dùng nhn dng duy nh#t chui các item (ví d! nh
 các s báo) và mi thành phn (ví 
d! nh
 bài báo) cha trong mt chui. SICI là t vit tt c$a Serial Item and 
Contribution Identifier và 
c s% d!ng trong chu5n này  ch& mã c$a chính nó. 
Chu5n này 
c nh ngh a cho vi	c s% d!ng vi chui các xu#t bn trong t#t 
c các nh dng. i vi m!c ích c$a chu5n này, mt chui 
c nh ngh a nh
 là 
mt xu#t bn phát hành trong nhng phn liên t!c  nhng khong trng u "n hay 
  tài: Tìm kim ng ngh a ng d!ng trên l nh v
c eDoc 
0112274 – Phm Th M Ph
ng - 66 - 0112398 – T Th Ngc Thanh 
không u "n, mang bc s và/ho"c th t
 thi gian (numerical and/or chronological 
designation), và có xu h
ng 
c tip t!c vô hn. 
SICI có xu h
ng 
c to ra và s% d!ng bi các thành viên c$a cng 1ng th
m!c tham gia vào nhng chc nng kt hp vi vi	c qun lí c$a các chui và các phn 
mà chúng cha 
ng, các chc nng nh
 sp th t
, b. sung vào th
 vi	n, yêu cu, 
thu tin nhun bút, qun lí quyn, thu h1i tr
c tuyn, liên kt c s d li	u, và phân 
phát tài li	u. 
B nhn dng 
c xây d
ng theo chu5n này 
c s% d!ng trong nhng ng 
d!ng: Electronic Data Interchange (EDI), mã vch Serial Industry Systems Advisory 
Committee (SISAC), truy v#n Z39.50, Uniform Resource Names (URNs), th
 i	n t%, 
và bn ghi c$a con ng
i trong in #n. Chu5n này không nh ngh a b#t c h	 thng 
vn chuyn nào rõ r	t hay ý ngh a c$a vi	c th
c thi. 
SICI s% d!ng chui s chu5n quc t (International Standard Serial Number _ 
ISSN)  nh nhn di	n chui tiêu . Do ó,  s% d!ng chu5n này trong vi	c xây 
d
ng mt item hay góp phn nhn di	n vt ch#t 
c phát sinh trong chui này, thì 
chui này phi 
c gán vào trong mt ISSN. 
Chu5n SICI là mt s
 kt hp c$a các segment 
c nh ngh a, t#t các chúng 
u 
c yêu cu. Nhng segment này là: 
a. Item Segment, các data element cn mô t chui item (ISSN, bng niên