Đề tài Tìm kiếm ngữ nghĩa ứng dụng trong lĩnh vực eDOC

Tài liệu Đề tài Tìm kiếm ngữ nghĩa ứng dụng trong lĩnh vực eDOC: SV ne t.vn 1 LI CM N u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh Thông tin tr ng  i h c Khoa h c T nhiên ã tn tình d y d, dìu dt chúng em sut bn nm  i h c. Chúng em cm n Cô Ph m Th B ch Hu , ng i tn tình h ng dn, giúp , ng viên chúng em hoàn thành lun vn này. Cui cùng, chúng con cm n Ba, M và nhng ng i thân ã khích l , h tr, ng viên chúng con trong thi gian h c tp, nghiên cu  có  c thành qu nh ngày nay. Tháng 7 nm 2005 Sinh viên Ph m Th M Ph ng – T Th Ng c Thanh SV ne t.vn 2 NHN XÉT CA GIÁO VIÊN HNG DN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ...

pdf152 trang | Chia sẻ: haohao | Lượt xem: 1242 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Tìm kiếm ngữ nghĩa ứng dụng trong lĩnh vực eDOC, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
SV ne t.vn 1 LI CM N u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh Thông tin tr ng  i h c Khoa h c T nhiên ã tn tình d y d, dìu dt chúng em sut bn nm  i h c. Chúng em cm n Cô Ph m Th B ch Hu , ng i tn tình h ng dn, giúp , ng viên chúng em hoàn thành lun vn này. Cui cùng, chúng con cm n Ba, M và nhng ng i thân ã khích l , h tr, ng viên chúng con trong thi gian h c tp, nghiên cu  có  c thành qu nh ngày nay. Tháng 7 nm 2005 Sinh viên Ph m Th M Ph ng – T Th Ng c Thanh SV ne t.vn 2 NHN XÉT CA GIÁO VIÊN HNG DN …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… ………………………………………………………………………………….... …………………………………………………………………………………… Ngày…… tháng……nm 2005 Ký tên SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 3 - 0112398 – T Th Ng c Thanh NHN XÉT CA GIÁO VIÊN PHN BI N …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………….……………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………………………………………………………………… …………………………… Ngày…… tháng……nm 2005 Ký tên SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 4 - 0112398 – T Th Ng c Thanh M C L C M U.................................................................................................................................10 Chng 1 : TNG QUAN.....................................................................................................11 1.1. "t v#n  ................................................................................................................ 11 1.2. Bài toán gii quyt ................................................................................................... 13 1.3. H ng tip cn......................................................................................................... 14 Chng 2 : C S LÝ THUYT ........................................................................................17 2.1. Chin l c tìm kim thông tin c$a các b tìm kim (Search Engine) ..................... 17 2.1.1. Mt s search engine thông d!ng: ................................................................... 17 2.1.2. Chin l c tìm kim ........................................................................................ 32 Nguyên lý ho t ng........................................................................................................ 34 2.2. Semantic Web .......................................................................................................... 34 2.2.1. Khái ni m......................................................................................................... 34 2.2.2. Kin trúc .......................................................................................................... 36 2.2.3. Các thách thc "t ra cho Semantic web ......................................................... 37 2.2.4. So sánh web và web ng ngh a........................................................................ 41 2.2.5. Các khái ni m liên quan................................................................................... 42 2.2.6. Ontology .......................................................................................................... 44 2.2.7. Rdf ................................................................................................................... 46 2.3. eDoc ......................................................................................................................... 55 2.3.1. Tìm hiu eLearning.......................................................................................... 55 2.3.2. Tìm hiu eLib................................................................................................... 61 2.3.3. Tìm hiu eDoc ................................................................................................. 68 2.4. Mt s v#n  trong x% lí ngôn ng t nhiên: ......................................................... 71 2.4.1. V#n  trong vi c x% lí vn bn:...................................................................... 72 2.4.2. V#n  x% lí ng ngh a: ................................................................................... 72 2.4.3. Phân lo i vn bn (Text Classification)........................................................... 82 Chng 3 : MÔ HÌNH VÀ GII THUT ..........................................................................84 3.1. Công ngh tìm kim ng ngh a trên th gii hi n nay: ........................................... 84 3.2. Các b c xây d ng mt ng d!ng semantic search engine:.................................... 91 3.3.1. Xây d ng kin trúc Web ng ngh a:................................................................ 92 3.3.2. Lp ch& m!c ng ngh a tim tàng: ................................................................... 93 3.3. Mô hình  ngh cho ng d!ng tìm kim ng ngh a trên l nh v c eDoc................. 96 3.4. Các gii thut s% d!ng ........................................................................................... 100 3.4.1. Gii thut x% lý tài li u: ................................................................................. 100 3.4.2. Gii thut rút trích siêu d li u: ..................................................................... 102 3.4.3. Gii thut phân lo i l nh v c cho tài li u:...................................................... 104 3.4.4. Gii thut x% lí câu truy v#n: ......................................................................... 104 Chng 4 : CHNG TRÌNH NG D NG....................................................................105 4.1. Gii thi u ch ng trình ng d!ng: ........................................................................ 105 4.2. Kin trúc c$a ng d!ng:......................................................................................... 105 4.3. Mô t ph m vi ng d!ng........................................................................................ 107 4.3.1. Mô t bài toán: ............................................................................................... 107 SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 5 - 0112398 – T Th Ng c Thanh 4.3.2. Xác nh yêu cu: .......................................................................................... 107 4.4. Xây d ng ng d!ng: .............................................................................................. 108 4.4.1. Thit k d li u: ............................................................................................. 108 4.4.2. Thit k x% lý:................................................................................................ 110 4.5. Kt qu ch ng trình ............................................................................................. 112 4.6. Th c nghi m ch ng trình .................................................................................... 114 Chng 5 : KT LUN ......................................................................................................118 5.1. ánh giá kt qu nghiên cu ................................................................................. 118 5.1.1. 'u im ......................................................................................................... 118 5.1.2. Khuyt im:.................................................................................................. 119 5.2. H ng phát trin .................................................................................................... 119 TÀI LI U THAM KHO...................................................................................................120 I. Lun vn, lun án:...................................................................................................... 120 II. Sách, eBooks:............................................................................................................. 120 III. Website: ................................................................................................................. 122 PH L C..............................................................................................................................124 1. Cú pháp RDF: ............................................................................................................ 124 2. RDF Gateway: ........................................................................................................... 129 2.1. Kin trúc c$a RDF Gateway:............................................................................. 130 2.2. Tính nng (Features).......................................................................................... 132 3. H thng nhãn ng ngh a:.......................................................................................... 138 3.1. Nhãn ng ngh a c bn cho danh t: ................................................................. 139 3.2. Nhãn ng ngh a c bn cho ng t: ................................................................. 141 3.3. Nhãn ng ngh a c bn cho tính t:................................................................... 142 3.4. H thng nhãn ng ngh a LDOCE .................................................................... 142 4. H c s tri thc ng ngh a t v ng WordNet .......................................................... 144 4.1. H thng nhãn ng ngh a c$a danh t: .............................................................. 144 4.2. H thng nhãn ng ngh a c$a ng t: .............................................................. 149 SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 6 - 0112398 – T Th Ng c Thanh DANH M C CÁC BNG Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin ......... 28 Bng 2: S lc v các c trng c a mt s search engine thông dng trên Internet .. 32 Bng 3 : Các lp trong RDF ............................................................................................ 54 Bng 4:Các thuc tính c a RDF........................................................................................... 55 Bng 5: Danh sách các ngh!a và ràng buc c a các t" th#c trong câu............................. 77 Bng 6 Mô t c s$ d% li&u cho 'ng dng.......................................................................... 110 Bng 7 Các module c a chng trình................................................................................ 110 Bng 8 Module eDocSearch ................................................................................................ 111 Bng 9 Module eDocSearch ................................................................................................ 111 Bng 10 Các câu truy v(n th nghi&m............................................................................... 115 Bng 11 Thng kê l!nh v#c khoa h)c máy tính................................................................. 116 Bng 12 Thng kê l!nh v#c ngh& thu*t. ............................................................................. 116 Bng 13: Nhãn ng% ngh!a c bn cho danh t".................................................................. 140 Bng 14: Nhãn ng% ngh!a c bn cho ng t" .................................................................. 142 Bng 15 : Nhãn ng% ngh!a c bn cho tính t"................................................................... 142 Bng 16: H& thng nhãn ng% ngh!a LDOCE .................................................................... 144 Bng 17:S# phân lp danh t" trong WordNet.................................................................. 148 SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 7 - 0112398 – T Th Ng c Thanh DANH M C CÁC HÌNH Hình 1: Giao di&n c a Google............................................................................................... 18 Hình 2: Giao di&n c a Yahoo................................................................................................ 19 Hình 3: Giao di&n c a Ask Jeeves ........................................................................................ 20 Hình 4: Giao di&n c a AllTheWeb ....................................................................................... 21 Hình 5: Giao di&n c a Teoma ............................................................................................... 22 Hình 6: Giao di&n HotBot ..................................................................................................... 23 Hình 7: Giao di&n c a Altavista............................................................................................ 24 Hình 8: Giao di&n c a Lycos................................................................................................. 25 Hình 9: Kin trúc t+ng c a Semantic web........................................................................... 36 Hình 10: Mt Ontology n gin......................................................................................... 46 Hình 11: Mô hình d% li&u RDF............................................................................................. 51 Hình 12 : Tiêu chu,n ánh giá tính bo m*t c a eDoc ...................................................... 71 Hình 13 Các quan h& cú pháp và ràng buc ng% ngh!a ..................................................... 76 Hình 14 Cây quyt -nh trong vi&c ch)n ngh!a phù hp. .................................................. 78 Hình 15: Dòng c s$ tìm kim Web ................................................................................... 91 Hình 16: Mô hình  ngh- cho 'ng dng tìm kim ng% ngh!a trên l!nh v#c eDoc .......... 97 Hình 17: Qui trình x lý c a t+ng search engine ................................................................ 99 Hình 18: Gii thu*t x lý tài li&u: ...................................................................................... 100 Hình 19: Gii thu*t rút trích siêu d% li&u.......................................................................... 103 Hình 20: S . d% li&u quan h& c a 'ng dng.................................................................. 108 Hình 21: Giao di&n chính c a 'ng dng............................................................................ 112 Hình 22: Giao di&n kt qu tìm kim c a 'ng dng......................................................... 113 Hình 23: Giao di&n qun lí tài nguyên ............................................................................... 113 Hình 24: Kin trúc c a RDF Gateway............................................................................... 130 Hình 25: Giao di&n c a RQF Query Analyzer. ................................................................. 136 SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 8 - 0112398 – T Th Ng c Thanh DANH M C CÁC T/ VIT T0T eDoc Electronic document eLib Electronic library eLearning Electronic learning www World Wide Web URI Uniform Resource Identifier URL Uniform Resource Locator HTTP Hypertext Transfer Protocol RDF Resources Descriprion Framework OIL Ontology Inference Language OWL Ontology Web Language XML eXtensible Markup Language SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 9 - 0112398 – T Th Ng c Thanh DANH M C CÁC THUT NG1 Class Lp Property Thuc tính Metadata Siêu d li u Subject Ch$ , ch$ ng Title Tiêu  Namespace Không gian tên Predicate V ng Triple B ba (subject, predicate, object) SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 10 - 0112398 – T Th Ng c Thanh M( )U Hi n nay, hu ht các h thng tìm kim trên Internet u i theo h ng truyn thng ó là tìm kim theo t khoá ( key word ). Theo cách tìm kim này, khi ta gõ vào t cn tìm, các h thng tìm kim s* hin th các tài li u mà trong nó có cha t khoá cn tìm. Do ó, kt qu tr ra là mt danh sách r#t nhiu các tài li u, mà có th các tài li u này không liên quan gì n ni dung ta cn tìm. Và ôi khi các h thng này không  a ra ht các tài li u cn thit, tc là tha tài li u không cn thit nh ng l i thiu h+n nhng tài li u quan tr ng khác. V#n  "t ra là ta phi xây d ng mt h thng tìm kim nh th nào  khc ph!c hi n tr ng nêu trên ?  gii quyt v#n  này, ta cn xây d ng h thng tìm kim sao cho áp ng y $ thông tin mà ng i dùng mong mun, ngh a là phi xây d ng h thng tìm kim theo ng ngh a d a trên thông tin ng i dùng  a vào. T nhn thc trên chúng em quyt nh ch n  tài: Tìm kim ng% ngh!a 'ng dng trên l!nh v#c eDoc (nhng tài li u i n t% ting Anh) vi m!c ích tìm hiu và xây d ng mt công c! tìm kim theo ng ngh a  có th tìm kim thông tin chính xác và y $,  có th h n ch  c phn nào v#n  tìm kim theo t khoá c$a các search engine hi n t i. Các i t ng nghiên cu liên quan n  tài: eDoc, Semantic Web, RDF, OWL, Metadata,…. Trong ph m vi  tài, vì thi gian th c hi n ngn, nên chúng em ch& th% nghi m ch ng trình tìm kim trong mt s l nh v c: Khoa h c máy tính (Computer Science), Ngh thut (Art). Hai l nh v c này có v, nh không liên h vi nhau nh ng th c t vn có nhng tr ng hp cn phi phân bi t, ví d! nh tài li u v “ngh thut lp trình” (“Art of programming”) thì phi phân tài li u v l nh v c khoa h c máy tính ch không phi ngh thut …. Tóm l i, ng d!ng mà chúng em xây d ng ch& tìm kim thông tin trong các l nh v c nêu trên. Tuy nhiên, ng d!ng có th d- dàng m rng ra nhiu l nh v c còn l i. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 11 - 0112398 – T Th Ng c Thanh Chng 1 : TNG QUAN 1.1. t v(n  Nhu cu tìm kim, nm bt thông tin là mt nhu cu không th thiu trong i sng c$a mi ng i. Khi vi c s% d!ng World Wide Web ã tr nên ph. bin rng khp, thì công vi c c$a các search engine c/ng tr thành mt phn sng còn và có li ích cho Web. Các công c! tìm kim tr thành nhng công c! công cng cho m i ng i dùng c$a Internet; Google và Yahoo, c/ng tr thành nhng cái tên quen thuc. Các công c! tìm kim hi n nay d a trên mt trong hai d ng c$a công ngh tìm kim Web: tìm kim do con ng i t ch&  ng dn và tìm kim t ng. Công c! tìm kim do con ng i ch&  ng dn s% d!ng mt c s d li u c$a các t khoá, các khái ni m, và các tham chiu. Nhng công c! tìm kim theo t khoá tr v mt dãy các trang, nh ng ph ng pháp n gin này th ng dn n hàng lo t các kt qu không liên quan và không xác th c. Ho t ng c$a mt công c! tìm kim d a trên ni dung là: s* m s l ng các t truy v#n ( các t khoá) so vi các t hi n di n trong mi trang  c cha trong ch& m!c c$a nó. Sau ó, công c! tìm kim này s* sp xp các trang. Tip cn phc t p hn b0ng cách  a các v trí c$a t khoá vào mt mc  quan tr ng c! th. Ví d!, các t khoá xu#t hi n trong th, title c$a trang web thì quan tr ng hn trong phn body. Các kiu khác c$a công c! tìm kim do ng i dùng ch&  ng dn, nh Yahoo, s% d!ng các l c 1 ch$   giúp ch& h ng tìm kim và tr v các kt qu có liên quan hn. Nhng l c 1 ch$  này do con ng i t o ra. Bi lí do này, chúng ta phi tn chi phí t o ra và duy trì trong các t mang “ý ngh a thi gian” (thay .i theo thi gian), và r1i thì không  c cp nht th ng xuyên nh các h thng t ng. Cách tip cn tìm theo t khoá vn còn mt s h n ch, iu này ã làm gim i tính úng n c$a các search engine. Ví d! nh các t 1ng âm khác ngh a (ch+ng h n: bank (ngân hàng), bank (b sông), …) ho"c các t có các bin th khác nhau do có các tin t và hu t nh student và students; small, smaller, smallest; …. Ngoài ra, các search engine không tr v các tài li u có các t 1ng ngh a vi các t trong câu SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 12 - 0112398 – T Th Ng c Thanh truy v#n mà ng i dùng nhp vào. Key word không $  biu di-n chính xác nhu cu c$a ng i dùng c/ng nh ni dung các trang web, h n ch này làm cho các search engine tr v nhng tài li u không liên quan n v#n  mà ng i dùng quan tâm. Bi vì t*p hp các t" khóa là d ng biu di-n s l c nh#t c$a ni dung, và do ó, cách biu di-n này là mt d ng góc nhìn lun lý (logical view) c$a ni dung mang m'c  thông tin th(p nh(t, ó chính là lý do c bn khin cho các Search Engine hi n nay có t2 l& s trang web h%u ích trên tng s trang web tr v th(p. Google vi 400 tri u tài li u thu v mi ngày và trên 8 t& trang web  c lp ch& m!c, và là công c! tìm kim thông d!ng nh#t  c s% d!ng ngày nay, nh ng thm chí vi Google vn còn có nhiu v#n . Ví d!, b0ng cách nào b n tìm kim ch& vi mt l ng ít d li u mà b n cn trong mt bin kt qu không liên quan  c  a ra? Khi công ngh trí tu nhân t o (Artificial Intelligence_AI) phát trin m nh, thì v#n  "t ra là làm th nào   a ra nhng ph ng pháp tìm kim tt hn mà có th th c s tin cy vào nhng kt qu tìm kim ó. ó là xu h ng c$a nhng công c! tìm kim d a vào ng ngh a và các agent tìm kim theo ng ngh a. Mt công c! tìm kim ng ngh a tìm kim các tài li u có ngh a t ng t nhau ch không ch& nhng t ng t ng t nhau.  Web tr thành mt m ng ng ngh a, phi cung c#p nhiu siêu d li u v ni dung c$a nó, thông qua vi c s% d!ng các th, RDF (Resource Description Framework) và OWL (Ontology Web Language), các th, này s* giúp th c hi n  a Web vào trong m ng ng ngh a. Trong m ng ng ngh a, ý ngh a c$a ni dung  c th hi n tt hn, và nhng liên kt logic  c th c hi n gia nhng thông tin liên quan nhau. Công c! tìm kim ng ngh a, chúng ta  cp  ây, có hai u im ln so vi các công c! tìm kim truyn thng: 1. Nó ch#p nhn các truy v#n  c phát biu  ngôn ng t nhiên. 2. Kt qu là tìm kim mt mu thông tin; không phi là mt danh sách các tài li u có th (ho"c không) cha thông tin yêu cu. Tht vy công c! tìm kim ng ngh a bt u vi l ng thông tin quá ti. Nó tip nhn mt s các tác v! không  c ai a thích trong vi c tìm kim thông tin hi n SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 13 - 0112398 – T Th Ng c Thanh nay: m ra mi tài li u c$a danh sách kt qu và quét nó mt cách th$ công  l#y thông tin. Theo cách ó, các công c! tìm kim ng ngh a có kh nng cách m ng hoá, h ng n vi c tìm kim thông tin i n t% mt cách t ng: nó thay .i mô hình tìm kim t vic thu hi tài liu n vic tr li câu hi. 1.2. Bài toán gii quyt Theo thng kê trong nm 2001: “Các nhân viên tn trung bình 8 gi mt tun, hay 16% gi công hàng tun c$a h ,  tìm kim và s% d!ng ni dung thông tin bên ngoài. Chi phí l ng ch& riêng cho công ty c$a M là 107 t& ôla mt nm. Vi c tìm kim ng ngh a là mt c hi y ý ngh a cho các công ty giúp cho nhân viên c$a h có kh nng hn và hi u qu hn trong vi c "t thông tin bên ngoài vào công vi c c$a h .” Không cn nói nhiu thêm na. S quá ti thông tin là mt v#n  ln trong xã hi thông tin. Nhng khám phá t ng t c/ng  c tìm th#y trong nhiu nghiên cu, làm n.i bt v#n : phi  a ra gii pháp trong vi c ci tin x% lí tìm kim thông tin. Ngo i tr nhng ích li to ln mà các công c! tìm kim mang l i cho chúng ta nhng nm gn ây b0ng vi c làm cho có th truy cp n hàng tri u các tài li u, b#t ch#p v trí vt lí và ngôn ng, thì chúng vn có mt s h n ch c bn. Ví d!, chúng không “hiu” các t con ng i gõ vào và do ó  t ti mt s l ng kh.ng l1 c$a các kt qu sai. Hn na, chúng ho t ng hi u qu khi h2i v nhng s ki n, ch+ng h n nh “Kerry” và “vua c$a Tây Ban Nha”. Tuy nhiên, chúng th c hi n nhiu kt qu không tt nu câu truy v#n nói v s liên h gia các khái ni m ch+ng h n nh “Nhng quc gia nào ã tham gia trong chin tranh Iraq?” và “t.ng thng n c Pháp theo chính ng nào?” Có ba v#n  cn  c ci tin  ci thi n các kt qu c$a công c! tìm kim là: (i) Công c! tìm kim cn cho phép nhng truy v#n phc t p hn (ví d! trong ngôn ng t nhiên), (ii) Công c! tìm kim cn “hiu” nhng gì con ng i h2i, và (iii) Công c! tìm kim phi cung c#p câu tr li cho truy v#n (có th sao l u l i nhng liên kt n các tài li u mà cho ra câu tr li). SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 14 - 0112398 – T Th Ng c Thanh 1.3. Hng tip c*n Có hai tip cn  ci thi n các kt qu tìm kim thông qua ph ng pháp ng ngh a: 1. Kin trúc c$a Semantic Web. 2. Lp ch& m!c cho ng ngh a tim tàng (Latent Semantic Indexing). Tuy nhiên, hu ht các công c! tìm kim d a trên ng ngh a phi chu nhng v#n  th c thi bi qui mô c$a m ng ng ngh a r#t ln. Nh0m m!c ích làm cho tìm kim ng ngh a tr nên hi u qu trong vi c tìm kim các kt qu mong mun, m ng này phi cha mt l ng ln các thông tin liên quan. Cùng lúc ó, mt m ng rng ln t o ra nhng khó khn trong vi c x% lí nhiu  ng dn có th có cho mt gii pháp liên quan. Chúng ta s% d!ng khía c nh sc bén c$a công ngh Web ng ngh a – kt hp ch"t ch* s phi hp c$a các công ngh tiên tin – làm cho mô hình có th chuyn nhanh trong vi c tìm kim thông tin. • Công ngh& x lí ngôn ng% t# nhiên cho phép ng i dùng h2i nhng câu h2i mà h mun, hn là phi nêu lên nhng t khoá có liên quan trong câu h2i c$a h . • Các Ontology -nh ngh!a l!nh v#c quan tâm. Chúng  c xem nh là “b não” c$a công c! tìm kim, bi vì nó c gng hiu nhng câu truy v#n c$a ng i dùng trong các t c$a ontology này. Theo cách này chú ý r0ng công c! tìm kim ng ngh a c$a chúng ta không phi là có m!c ích thông th ng nh Google, mà nó có ý nh áp d!ng i vi mt l nh v c hay khu v c c! th (ví d! v l nh v c pháp lí, vn hoá, th thao v.v…). • Phân tích tri th'c. Công ngh này chuyn d li u không có c#u trúc sang thông tin có c#u trúc. Nó rút trích thông tin t các vn bn t do, SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 15 - 0112398 – T Th Ng c Thanh các vn bn bán c#u trúc và c#u trúc  phát sinh ra ontology vi tri thc tht s . • Truy c*p tri th'c thông minh. Các câu tr li cho các truy v#n  t  c do vi c truy v#n ontology  c  a ra t ng, và  c biu di-n trong nhng d ng khác nhau: o “D liu” c$a th c th chính  c h2i n (ví d! trong l nh v c xã hi, d li u c$a mt ngh s ). o nh hng ng ngha. Nhng t c$a các câu tr li  c t ng siêu liên kt n các khái ni m ontology con, cho phép nh h ng b0ng “ý ngh a”. o Các th thông minh và liên k t thông minh. Các câu tr li luôn  c sao l u bi các ngu1n và các tài li u chúng d a vào. Khi nhng tài li u ó  c tra cu, thì phn mm gán th, và liên kt s* t ng nhn ra các t cha ý ngh a l nh v c và liên kt chúng n ontology, hay thêm vào các th, thông minh vi nhng ho t ng  c nh ngh a trong ontology. o S “t ng t ng” thông minh. Thông th ng, các câu tr li phát sinh ra nhiu các khái ni m liên quan và các mi quan h . Phm mm “t ng t ng” thông minh cho phép mt khái ni m i xuyên qua tri thc này. Có mt v#n  mà công c! tìm kim ng ngh a  c nh ngh a  ây vn ch a th hoàn t#t so vi nhng công c! tìm kim vi m!c ích thông th ng (không có ng ngh a) nh Google ó là: ph m vi. Trong Google b n có th tìm kim vi b#t k3 t khoá nào trong b#t k3 l nh v c nào. Nu các t khoá xu#t hi n trong mt s tài li u trên Web, Google s* tìm th#y nó. Mt công c! tìm kim ng ngh a cn mt s tri thc nâng cao: nó cn bit ý ngh a,  c biu di-n trong mt ontology. Th c t là các ontology – trong tr ng thái thi hành hi n t i – vn còn làm b0ng th$ công, h n ch chúng trong nhng m!c ích thông th ng. Do ó, các công c! tìm kim ng ngh a là nhng công c! quan tr ng cho nhng l nh v c c! th. Trong tr ng hp này, m!c ích SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 16 - 0112398 – T Th Ng c Thanh c$a các công c! tìm kim ng ngh a là b. sung cho các công c! tìm kim thông th ng, hn là c nh tranh nh nhng i th$ . SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 17 - 0112398 – T Th Ng c Thanh Chng 2 : C S LÝ THUYT 2.1. Chin lc tìm kim thông tin c a các b tìm kim (Search Engine) 2.1.1. Mt s search engine thông dng: Sau ây là danh sách mt s search engine. T i sao chúng  c xem là nhng search engine “ln”? ó là bi vì chúng  c bit n nhiu và s% d!ng tt. i vi các chuyên gia web, các công c! tìm kim ln là danh sách nhng ni quan tr ng nh#t bi chúng phát sinh ra mt l ng r#t ln các trang web tim tàng. i vi nhng ng i tìm kim, các công c! tìm kim ph. bin th ng tr ra các kt qu áng tin cy hn. Nhng search engine này r#t có th  c duy trì tt và nâng c#p khi cn thit,  gi th cân b0ng vi tc  phát trin c$a web. Nhng search engine sau là t#t c nhng l a ch n tt nh#t  bt u khi tìm kim thông tin: SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 18 - 0112398 – T Th Ng c Thanh 2.1.1.1. Google: Hình 1: Giao di&n c a Google Nguyên thu4, Google là mt  án c$a tr ng  i h c Stanford  c th c hi n bi hai sinh viên Larry Page và Sergey Brin g i là BackRub. n nm 1998, thì .i tên thành Google, và 1 án này ã tr thành công ty riêng Google "t t i khuôn viên tr ng  i h c. Nó vn còn  c l u gi cho n ngày nay. Google là công c! tìm kim n.i ting, tt nh#t trong các l a ch n  tìm kim thông tin trên web. Dch v! d a vào crawler, spider cung c#p trang web vi thông tin  a ra toàn di n cùng vi mc  liên quan tt. ây là công c! tt nh#t hi n nay trong vi c tìm kim b#t c th gì b n mun. Tuy nhiên, Google cung c#p ch n l a  tìm kim ch$ yu v các trang web. S% d!ng hp tìm kim trên trang ch$ Google, b n có th d- dàng nh v các nh qua SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 19 - 0112398 – T Th Ng c Thanh web, nhng  ngh  c "t trong các nhóm tho lun Usenet, nh v thông tin tin tc hay th c hi n tìm kim sn ph5m. 2.1.1.2. Yahoo: Hình 2: Giao di&n c a Yahoo  a ra nm 1994, Yahoo là “th m!c” c/ nh#t c$a web, mt ni mà các nhà biên tp t. chc các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 nm 2002, Yahoo chuyn sang lp danh sách d a vào crawler cho nhng kt qu chính c$a nó. Công c! này s% d!ng công ngh t Google cho n tháng 2 nm 2004. Hi n nay, Yahoo s% d!ng công ngh tìm kim riêng c$a mình. Yahoo Directory vn t1n t i. B n s* ch& ra các liên kt “danh m!c” phía d i mt s các trang web li t kê trong kt qu tr v c$a mt tìm kim t khoá. Khi  c SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 20 - 0112398 – T Th Ng c Thanh  xu#t, nhng trang web này dn b n n mt danh sách các trang web ã  c xem xét và phê chu5n bi mt nhà biên tp. Công ngh AltaVista và AllTheWeb  c phi hp vi k thut Inktomi, mt công c! tìm kim d a trên crawler,  t o nên mt Yahoo crawler hi n nay. 2.1.1.3. Ask Jeeves: Hình 3: Giao di&n c a Ask Jeeves Ask Jeeves bt u n.i ting t nm 1998 và 1999,  c bit nh là mt công c! tìm kim “ngôn ng t nhiên” cho phép ta tìm kim b0ng cách h2i nhng câu h2i và tr v kt qu vi nhng gì có v là tr li úng v m i th. Th c s , công ngh không phi là nhng gì làm cho Ask Jeeves th c thi tt. Bên c nh các bi cnh, công c! này t i mt thi im có khong 100 trình so n tho SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 21 - 0112398 – T Th Ng c Thanh giám sát các log tìm kim. Sau ó chúng vào trong web và nh v nhng site mà chúng cho là tt nh#t t ng xng vi các truy v#n ph. bin nh#t. 2.1.1.4. AllTheWeb: Hình 4: Giao di&n c a AllTheWeb  c Yahoo cung c#p ngu1n, có th th#y AllTheWeb là mt “tìm kim thun tuý” (“pure search”) nh nhàng hn, tu3 bin hn và d- chu hn là khi th c hi n  Yahoo. Tiêu im là trong tìm kim web, ngo i tr tin tc, tìm kim hình nh, video, MP3 và FPT c/ng  c  a ra. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 22 - 0112398 – T Th Ng c Thanh 2.1.1.5. Teoma: Hình 5: Giao di&n c a Teoma Teoma là mt công c! tìm kim d a trên crawler  c s hu bi Ask Jeeves. Nó có s l ng trang web  c ch& m!c nh2 hn Google và Yahoo. Nm 2000, Teoma ra i cùng vi thành công c$a mình:  a ra  c nhng th liên quan. Tính nng “Refine” c$a công c! này  xu#t ra nhng ch$   kho sát sau khi b n th c hi n mt tìm kim. Teoma  c Ask Jeeves mua vào tháng 9 nm 2001 và c/ng cung c#p mt s kt qu cho web site này. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 23 - 0112398 – T Th Ng c Thanh 2.1.1.6. HotBot: Hình 6: Giao di&n HotBot HotBot h tr truy cp d- dàng n 3 trang web search engine d a vào crawler ln: Yahoo, Google, và Teoma. Không nh mt meta search engine, nó không th pha trn các kt qu t t#t c các crawler này vi nhau. Do ó, nó là mt cách nhanh, d- dàng  l#y các “ý kin” tìm kim web khác nhau trong mt ni. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 24 - 0112398 – T Th Ng c Thanh 2.1.1.7. AltaVista: Hình 7: Giao di&n c a Altavista AltaVista  c  a ra vào tháng 9 nm 1995 và  c xem nh là “Google” trong mt vài nm, nó cung c#p nhng kt qu liên quan và ã có mt nhóm ng i dùng yêu thích công c! tìm kim này. Nh ng t sau nm 1998, ng i ta không còn a chung AltaVista na, bi vì s mi m, c$a các danh sách AltaVista và tin tc  c  a ra c$a crawler trong trang web này không  c cp nht th ng xuyên. Ngày nay, AltaVista mt ln na tp trung vào tìm kim. Các kt qu n t Yahoo, và cho phép n các trang web  tìm hình nh, MP3/Audio, Video, các danh sách danh m!c con ng i và các kt qu tin tc. Nu mun mt cm giác nh nhàng hn Yahoo nh ng vn có các kt qu c$a Yahoo, AltaVista là mt ch n l a tt. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 25 - 0112398 – T Th Ng c Thanh 2.1.1.8. Lycos: Hình 8: Giao di&n c a Lycos Lycos là mt trong nhng công c! tìm kim c/ nh#t trên web,  c  a ra nm 1994.  c mô t nh là nhng c.ng truy cp web ( web portal ) hay nhng trung tâm truy cp, là ni mà ng i dùng i vào  l#y thông tin cho m i l nh v c, k c tán gu, gi th i n t%,… SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 26 - 0112398 – T Th Ng c Thanh Search Engine Google AlltheWeb AltaVista Teoma Database google.com alltheweb.com altavista.com teoma.com Kích th c(# trang ) Khong 8 t& (1 t& không ánh ch& m!c trên toàn vn bn) Khong 3 t&, ch& m!c trên toàn vn bn. Khong 1 t& Khong 1 t& a ph ng ti n (multimedia) H tr H tr H tr Không h tr Toán t% M"c nh AND AND AND AND Lo i tr - - - - C!m t Dùng d#u “ “ Dùng d#u “ ” Dùng d#u “ ” Dùng d#u “ “ Rút g n Không h tr Dùng ký t *  thay th cho các ký t trong d#u “ “ Không h tr Dùng ký t * Không h tr Boolean OR (ch& dùng cho danh t riêng ) AND, OR, ANDNOT, RANK, () AND, OR, ANDNOT, NEAR, () OR (ch& dùng cho tên riêng) SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 27 - 0112398 – T Th Ng c Thanh Stop words Thông th ng b2 qua các t thông d!ng + nu mun tìm và phi "t trong c"p d#u “ “ Dùng d#u “ “ trong search c bn B2 qua trong search nâng cao Thông th ng b2 qua các t thông d!ng + nu mun tìm Danh t riêng Không h tr Không h tr H tr Không h tr Gii h n field cn tìm intitle: inurl: allintitle: Allinurl: filetype: Link:site: Trong search nâng cao : cache:info: Normal.title: url.all: Link.all: Link.extension : Title: domain: Link: image: Text: url: host: Anchor: applet: intitle: inurl: site: geoloc: lang: last: afterfate: Các "c tính "c bi t ~ tìm t 1ng ngh a Gii h n bi ngôn ng Nhiu kiu file : pdf, doc,… Caches : trang web khi ánh ch& m!c Duy t qua các URL Trong tìm nâng cao : gii h n bi ngày, domain, a ch& iP Gii h n bi ngày, v trí, ngôn ng Trong tìm nâng cao : s% d!ng sortby  l c và sp xp kt qu. Dùng refine  ti u kt qu. Resource  có  c các trang và liên kt tp trung trên ch$  cn tìm. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 28 - 0112398 – T Th Ng c Thanh 'u im 'u im chính R#t tt vi nhng trang có  ph. bin cao. Các trang tin tc gn ây Tt nh Google. Không có stopword. Dùng nhiu toán t% Boolean trong tìm kim. Trong tìm nâng cao h tr hin th kt qu theo  ph. bin c$a t. Tính  ph. bin tt, d a vào s l ng trang web cùng ch$  vi các trang ang xét. Th ng  t kt qu áng khích l . Search Engine Google AlltheWeb AltaVista Teoma Bng 1 : Bng hng dn nhanh v cách s dng mt s search engine ph bin Search engine C s$ d% li&u Toán t L#a ch)n tìm kim Linh tinh Google oogle.com H tr tìm kim nâng cao H thng th m!c ch$  (Subject Toàn vn bn c$a các trang web, .pdf, .doc, .xls, .ps, .wpd (4.3B, + 1B mt phn c$a ch& m!c URLs) AND (m"c nh) OR (danh t riêng) + cho các stop word thông d!ng, cho các URL ho"c các trang c! th (ví Dùng *  rút g n. Dùng “” tìm c!m t. Fields : intitle:, inurl:, link:, site: Tìm trên h thng danh m!c các ch$  trong Kim li chính t. L u tr các trang ã lp ch& m!c. Tt cho tìm các trang hay b li 404. Phiên dch n 5 ngôn ng. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 29 - 0112398 – T Th Ng c Thanh Directory) H thng th m!c m (Open Directory) Tin tc : cp nht th ng xuyên (4500 ngu1n ). Các d ng file nh Nhóm : Usenet t 1981 n nay d! +edu) - lo i tr th m!c web. Tìm các trang web t ng t . ~ tìm t 1ng ngh a. AlltheWeb eb.com H tr tìm kim nâng cao Toàn b vn bn các trang web, .pdf, Flash, (3.1B toàn b ch& m!c URLs) Tin tc : cp nht th ng xuyên (3000 ngu1n) Tranh nh Video Audio FPT AND (m"c nh) OR, phi "t các t trong d#u “ “. ANDNOT, RANK -  lo i b2 Không rút g n. Dùng d#u “ “ cho c!m t. Field intitle:inurl: link:site: Trong tìm nâng cao : gii h n theo ngày, ngôn ng, domain, file format, a ch& iP. Kim li chính t. Tìm nâng cao : tranh nh, video. H tr s% d!ng k thut “clusters”  ti u câu truy v#n. AltaVista a.com Toàn b vn bn các trang web (khong AND (m"c nh) Trong tìm nâng D#u *  rút g n. D#u “” cho c!m t. Kim li chính t. Phiên dch : 8 SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 30 - 0112398 – T Th Ng c Thanh H tr tìm kim nâng cao H thng th m!c ch$  (Subject Directory ) H thng th m!c m (Open Directory) 1B) và file .pdf. Tin tc (3000 ngu1n), nh, MP3/Audio, Video. cao ho"c danh t riêng trong tìm c bn : AND, OR, ANDNOT, NEAR, d#u () l1ng nhau. - cho lo i tr. Tìm nâng cao : gii h n ngày, ngôn ng. ngôn ng c$a Châu Âu & các ngôn ng c$a Châu Á. AltaVistaPrima : ti u câu h2i. Teoma om H tr tìm kim nâng cao Toàn b vn bn trang web (khong 1B) AND (m"c nh) OR (danh t riêng) + ho"c “” cho stopword -  lo i b2 Không rút g n. Dùng d#u “ “ cho c!m t. Field intitle:inurl: site:geoloc:lang:l ast: afterdate:befored ate: betweendate: Trong tìm nâng cao : gii h n theo ngày, ngôn ng, domain, file format, a ch& iP. Kim li chính t. Gom nhóm kt qu Refine  ti u câu h2i. Resource  có các trang ho"c liên kt tp trung vào ch$ . SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 31 - 0112398 – T Th Ng c Thanh AskJeeves www.ask.co m Nhn kt qu t CSDL c$a Teoma. Tìm sn ph5m : PriceGrabber. com, Tìm tranh nh : Picsearch.co m Tìm tin tc : Moreover.co m. Ging Teoma. i vi nhng câu h2i n gin, xu#t hi n c%a s. i tho i. Ging Teoma. Click vào Remove Frame  th#y URLs c$a các trang. Kim li chính t. AskJeeves for Kids www.ajkids.c om Tr li tt các câu h2i n gin. Games cho tr, em, Tin tc theo tng nhóm tu.i. H2i b0ng ngôn ng t nhiên. Không s% d!ng các toán t% Boolean. Click vào No frames  th#y URL c$a trang kt qu. Dn n các trang ph!c v! h c tp : t in, vt lý, khoa h c, bn 1, lch s%,… Yahoo o.com Xem xét các trang web (khong 13K) AND (m"c nh) OR C!m t : “” Rút g n : * Fields t: title, u:URL Nhiu dch v! trong Yahoo: Tin tc : tng gi. Th thao :t& s,.. Bn 1, thi tit, SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 32 - 0112398 – T Th Ng c Thanh mua sm. Bng 2: S lc v các c trng c a mt s search engine thông dng trên Internet 2.1.2. Chin lc tìm kim T “search engine” th ng  c s% d!ng rng rãi  mô t các công c! tìm kim d a trên crawler và các th m!c do con ng i cung c#p. ây là hai lo i c$a các search engine tp hp các danh sách c$a chúng trong nhng cách khác nhau hoàn toàn. Search engine d a vào crawler g1m 3 phn:  B thu th*p thông tin – Robot Robot là mt ch ng trình t ng duy t qua các c#u trúc siêu liên kt  thu thp tài li u và mt cách  quy nó nhn v t#t c các tài li u có liên kt vi tài li u này. Robot  c bit n d i nhiu tên g i khác nhau : spider, web wanderer ho"c web worm, crawler… Nhng tên g i này ôi khi gây nhm ln, nh t ‘ spider ’, ‘ wanderer ’ làm ng i ta ngh r0ng robot t nó di chuyn và t ‘ worm ’ làm ng i ta liên t ng n virus. V bn ch#t robot ch& là mt ch ng trình duy t và thu thp thông tin t các site theo úng giao thc web. Nhng trình duy t thông th ng không  c xem là robot do thiu tính ch$ ng, chúng ch& duy t web khi có s tác ng c$a con ng i.  B l*p ch3 mc – Index H thng lp ch& m!c hay còn g i là h thng phân tích và x% lý d li u, th c hi n vi c phân tích, trích ch n nhng thông tin cn thit (th ng là các t n , t ghép , c!m t quan tr ng) t nhng d li u mà robot thu thp  c và t. chc thành SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 33 - 0112398 – T Th Ng c Thanh c s d li u riêng  có th tìm kim trên ó mt cách nhanh chóng, hi u qu. H thng ch& m!c là danh sách các t khoá, ch& rõ các t khoá nào xu#t hi n  trang nào, a ch& nào.  B tìm kim thông tin – Search Engine Search engine là c!m t dùng  ch& toàn b h thng bao g1m b thu thp thông tin, b lp ch& m!c và b tìm kim thông tin. Các b này ho t ng liên t!c t lúc khi ng h thng, chúng ph! thuc ln nhau v m"t d li u nh ng c lp vi nhau v m"t ho t ng. Search engine t ng tác vi user thông qua giao di n web, có nhi m v! tip nhn và tr v nhng tài li u tho yêu cu c$a user. Nói nôm na, tìm kim t là tìm kim các trang mà nhng t trong câu truy v#n (query) xu#t hi n nhiu nh#t, ngo i tr stopword (các t quá thông d!ng nh m o t a, an, the,…). Mt t trong câu truy v#n càng xu#t hi n nhiu trong mt trang thì trang ó càng  c ch n  tr v cho ng i dùng. Và mt trang cha t#t c các t trong câu truy v#n thì tt hn là mt trang không cha mt ho"c mt s t. Ngày nay, hu ht các search engine u h tr chc nng tìm c bn và nâng cao, tìm t n, t ghép, c!m t, danh t riêng, hay gii h n ph m vi tìm kim nh trên  m!c, tiêu , o n vn bn gii thi u v trang web,….. Ngoài chin l c tìm chính xác theo t khoá, các search engine còn c gng ‘hiu’ ý ngh a th c s c$a câu h2i thông qua nhng câu ch do ng i dùng cung c#p. iu này  c th hi n qua chc nng s%a li chính t, tìm c nhng hình thc bin .i khác nhau c$a mt t. Ví d! : search engine s* tìm nhng t nh speaker, speaking, spoke khi ng i dùng nhp vào t speak. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 34 - 0112398 – T Th Ng c Thanh Nguyên lý ho4t ng Search engine iu khin robot i thu thp thông tin trên m ng thông qua các siêu liên kt ( hyperlink ). Khi robot phát hi n ra mt site mi, nó gi tài li u (web page) v cho server chính  t o c s d li u ch& m!c ph!c v! cho nhu cu tìm kim thông tin. Bi vì thông tin trên m ng luôn thay .i nên robot phi liên t!c cp nht các site c/. Mt  cp nht ph! thuc vào tng h thng search engine. Khi search engine nhn câu truy v#n t user, nó s* tin hành phân tích, tìm trong c s d li u ch& m!c và tr v nhng tài li u tho yêu cu. 2.2. Semantic Web 2.2.1. Khái ni&m “Web ng ngh a” là mt d ng m rng c$a web hi n nay, mà cho phép ta truy tìm, chia s,, phi hp, s% d!ng l i và rút trích thông tin mt cách chính xác, d- dàng.”( Tim – Berners Lee, XML – 2000 ). Web ng ngh a là mt m ng l i thông tin  c liên kt theo cách mà máy tính có th d- dàng x% lý  c trên quy mô toàn cu. Chúng ta có th xem web ng ngh a nh là mt c s d li u toàn cu  c liên kt vi nhau. Web ng ngh a  c phát trin bi Tim – Berners Lee, nhà phát minh c$a WWW, URIs, HTTP, và HTML. Hi n nay có mt nhóm nghiên cu t i tp oàn WWW ang ci tin, m rng và tiêu chu5n hoá h thng ng ngh a. D li u trong tp tin HTML th ng hu ích trong mt s tr ng hp. Phn ln d li u trên web là d ng HTML nên khó s% d!ng trên quy mô ln, bi vì nó không có mt h thng toàn cu  xu#t bn d li u. Do ó, Web ng ngh a  c xem nh là mt gii pháp k thut. Web ng ngh a  c xây d ng ch$ yu trên cú pháp s% d!ng URIs  biu di-n d li u, th ng th#y là c#u trúc d a trên b ba (subject, predicate, object), ví d!: nhiu b ba c$a d li u URI có th  c c#t gi trong c s d li u, ho"c thay th ln nhau SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 35 - 0112398 – T Th Ng c Thanh trên word wide web b0ng cách s% d!ng mt tp các cú pháp "c bi t  c pháp trin chuyên bi t ph!c v! cho nhi m v! ó. Cú pháp này  c g i là cú pháp RDF. Web ng ngh a yêu cu d li u không nhng máy có th  c  c mà còn mong mun máy có th hiu  c. Trích dn câu nói c$a Tim – Berners Lee: “The semantic web goal is to be a unifying system which will (like the web for human communication) be as un-restraining as possible so that the complexity of reality can be described”. T m dch là: “M!c ích c$a web ng ngh a là  mt h thng hp nh#t (ging nh web dành cho s giao tip c$a ng i) càng không b cn tr càng tt  mà  phc t p c$a th c t có th  c mô t”. Vi web ng ngh a, nó s* d- dàng nhn bit toàn b ph m vi c$a các công c! và ng d!ng khó gii quyt trong khuôn kh. c$a web hi n t i. Hai công ngh quan tr ng cho vi c phát trin semantic web là: eXtensible Markup Language (XML) và Resource Description Frameword (RDF). XML cho phép m i ng i có th t o ra các tag (th, ) c$a riêng mình. Còn RDF thì trình bày ng ngh a, RDF s% d!ng tp các triple  mô t các khái ni m c s. URI ( Uniform Resource Identifier): Mt URI n gin dùng  nhn bit mt trang web: ging nh các chui bt u vi “http” hay “ftp” mà b n th ng th#y trên word wide web. B#t k3 ai c/ng có th t o ra mt URI và quyn s hu chúng  c u4 quyn mt cách rõ ràng, chính vì vy chúng t o nên c s quan ni m  xây d ng web toàn cu. Th c ra, word wide web có th xem nh là: b#t k3 th gì mà có URI  c coi nh là “on the web”. Các URIs là các chui ký t có th nhn bit các tài nguyên trên web. Thông qua vi c s% d!ng URIs, chúng ta có th s% d!ng cùng cách "t tên n gin  tham chiu n các tài nguyên d i các nghi thc (protocol) khác nhau nh là: HTTP, FTP, GOPHER, EMAIL, …. URLs ( Uniform Resource Locator): là mt d ng  c s% d!ng rng rãi c$a URIs,  c s% d!ng r#t ph. bin trên web, là các a ch& c$a các tài nguyên. M"c dù th ng  c bit n nh là các URLs, nh ng URIs c/ng có th  c tham chiu n SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 36 - 0112398 – T Th Ng c Thanh các khái ni m trong semantic web. Ví d!, gi s% b n có mt quyn sách có tên là “Machine Learning”, thì URI c$a nó s* nh sau: L u ý là m i th trên web u có mt URI duy nh#t. 2.2.2. Kin trúc Web ng ngh a  c xây d ng theo mô hình kin trúc phân tng g1m có 7 tng, các tng nh sau: Hình 9: Kin trúc t+ng c a Semantic web. Tng Unicode + URI: Nh0m bo m vi c s% d!ng tp ký t quc t và cung c#p ph ng ti n  nh danh các i t ng trong Web ng ngh a. Tng XML + NS + L c 1 XML: Cùng vi các nh ngh a v namespace và schema bo m r0ng ta có th tích hp các nh ngh a web ng ngh a vi các chu5n d a trên XML khác. Tng RDF + L c 1 RDF: Dùng siêu d li u mô t tài li u trên Web  máy có th hiu  c chúng. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 37 - 0112398 – T Th Ng c Thanh Tng Ontology: L c 1 RDF cung c#p các công c!  nh ngh a nhng t v ng, c#u trúc và các ràng buc trong vi c mô t cho siêu d li u v các tài nguyên Web. Nh ng l c 1 RDF ch a tht s y $ cho vi c mô hình hoá và h tr suy lun trên Semantic Web. Ngôn ng Ontology OIL  c  ra là mt d ng m rng c$a l c 1 RDF. Nó cho phép th hi n ng ngh a hình thc, giúp h tr suy di-n t ng. Tng Logic: Tng logic  c xem nh là mt c s lut trên Semantic Web. Bn ch#t c$a c s lut này có d ng nh mt h chuyên gia. Tng này s* h tr các dch v! nh : phân lo i vn bn, rút trích d li u. Tng Proof: Trong khi tng logic giúp h tr suy lun d a vào c s lut thì tng Proof  c dùng  chng minh các suy di-n c$a h thng b0ng cách liên kt các d ki n. Tng Trust: Trong Web ng ngh a các thông tin  c s% d!ng chung nh mt c s d li u toàn cu, nên cn phi có mt cái gì ó  bo mt. ó là nguyên nhân c$a s ra i c$a ch ký i n t%, nó giúp cho thông tin trên Web áng tin cy hn. Trust engine là mt h thng ang  c xây d ng d a trên nn tng c$a ch ký i n t%. Các k thut  xây d ng chúng còn ang trong giai o n nghiên cu và th% nghi m. 2.2.3. Các thách th'c t ra cho Semantic web 2.2.3.1. Thách th'c 1: Tính s5n có c a ni dung (The availability of content) Ni dung c$a web ng ngh a là ni dung web  c chú thích theo các ontology "c bi t, các ontology này nh ngh a ng ngh a c$a các t ho"c các khái ni m xu#t hi n trong cùng mt ni dung. Mt s m rng n gin i vi HTML là  c dùng  chú thích các trang web vi thông tin v ontology. Vi c t o ni dung semantic web là mt thách thc ln, bi vì “c s h tng” c$a semantic web vn còn ang  c xây SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 38 - 0112398 – T Th Ng c Thanh d ng (ch a hoàn ch&nh – RDF, OIL, DAML+OIL,…), hi n t i có r#t ít ni dung web ng ngh a có s6n. 2.2.3.2. Thách th'c 2: Các ontology s5n có, phát tri6n và tin hoá Các ontology là chìa khóa i vi semantic web bi vì chúng là nhng b chuyên ch ng ngh a  c cha trong semantic web, có ngh a là chúng cung c#p mt tp t v ng và ng ngh a chú thích. Có 3 v#n  chính cn  c gii quyt i vi thách thc này, hai v#n  u có liên quan n các v#n  v vi c phát trin các ontology truyn thng mà cho n tn bây gi các v#n  này vn ch a  c gii quyt, và v#n  th ba còn l i có liên quan nhiu n khung cnh mi c$a semantic web: V#n  th nh#t là vi c xây d ng các ontology h t nhân (kernel)   c s% d!ng bi t#t c các domain. Nhng khi u t1n t i i vi vi c xây d ng mt s kernel ontology này là chúng phi  c ng d!ng trong nhng domain khác nhau. V#n  th hai là cung c#p s h tr mang tính ch#t gii pháp và công ngh i vi hu ht các ho t ng c$a tin trình phát tri n ontology, bao g1m: a. S thu thp tri thc, mô hình khái ni m và mã hoá ontology trong các ngôn ng semantic web (RDFS, OIL, DAML+OIL), và các ngôn ng mi – các ngôn ng mi này có th s*  c  a ra trong nhng nm sp ti [Maedche, Staab – 2001] . b. S sp xp và ánh x ontology, s tích hp ontology, các công c! chuyn .i ontology, và các công c! xây d ng ontology, nu các ontology t1n t i sp  c s% d!ng l i [Fensel et al, 2001], [Noy, Musen 2000]. c. Các công c! kim tra tính bn vng cho các ontology  c s% d!ng l i [Gomez-Perez 1996]. V#n  th ba là s tin hoá c$a các ontology và mi quan h c$a chúng i vi các d li u ã  c chú thích. Các công c! qun lý c#u hình là cn thit cho s iu khin các phiên bn c$a mi ontology c/ng nh s ph! thuc ln nhau gia chúng và SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 39 - 0112398 – T Th Ng c Thanh các chú thích. T#t c các v#n  này có th là không quan tr ng lm, nh ng cn thit phi gii quyt tr c khi mt semantic web th c s ra i. 2.2.3.3. Thách th'c 3: Scalability of semantic web content Mt khi chúng ta ã có ni dung c$a semantic web, chúng ta s* phi quan tâm n vi c phi qun lý nó nh th nào, có ngh a là cách t. chc nó nh th nào, ni l u tr nó và cách  tìm  c ni dung úng n. Có 2 v#n  chính trong thách thc này: a. V#n  th nh#t có liên quan n vi c l u tr và t. chc c$a các trang web ng ngh a (semantic web pages). Semantic web “c s” bao g1m các trang  c chú thích d a trên ontology, c#u trúc liên kt c$a các trang này phn ánh c#u trúc c$a WWW, có ngh a là các trang liên kt vi nhng trang khác thông qua các hyperlink. Theo cách liên kt này (hyperlink) thì không khai thác  c y $ ng ngh a c$a các trang web ng ngh a. Chin l c semantic indexes  c  xu#t  gom nhóm ni dung c$a semantic web d a trên các ch$  c! th. Semantic indexes s*  c phát sinh t ng b0ng cách s% d!ng thông tin c$a ontology và các tài li u ã  c chú thích. b. V#n  th hai có liên quan n vi c d- dàng tìm kim thông tin trên semantic web, nói cách khác là có liên quan n vi c phi hp gia các semantic indexes. 2.2.3.4. Thách th'c 4: a ngôn ng% Vi c h c d a trên s phân tán c$a ngôn ng thông qua ni dung c$a WWW ch& ra r0ng thm chí nu ting Anh là ngôn ng u th hn i vi các tài li u, mt s tài nguyên  c vit b0ng ngôn ng khác c/ng r#t quan tr ng: Ting Anh 68,4%; Ting Nht 5,9%; Ting c 5,8%; Ting Trung Quc 3,9%; Ting Pháp 3,0%; Ting Tây Ban Nha 2,4%; Ting Nga 1,9%; Ting Italia 1,6%; Ting B1 ào Nha 1,4%; Ting Hàn 1,3%; Các ngôn ng khác 4,6% [www.vilaweb.com]. Tính a d ng c$a ngôn ng còn quan tr ng hn nhiu i vi các tài nguyên WWW. a ngôn ng óng vai trò SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 40 - 0112398 – T Th Ng c Thanh ngày càng ln i vi các c#p  sau:  c#p  ontology,  c#p  chú thích, và  c#p  giao di n ng i dùng. ( c#p  ontology, nhng ng i thit k ontology có th mun s% d!ng ngôn ng a ph ng c$a mình cho vi c phát trin ontology mà trong ó các chú thích s*  c gn vào. Bi vì không phi t#t c ng i s% d!ng u là nhng ng i xây d ng ontology, nên c#p  này có  u tiên th#p nh#t. S t1n t i cu a ngôn ng và các tài nguyên ngôn ng h c, nh là WordNet [wordnet], EuroWordnet [eurowordnet],…có th  c xem xét t& m&  h tr v#n  a ngôn ng  c#p  này. ( c#p  chú thích (annotation), chú thích c$a ni dung có th  c th c hi n trong nhiu ngôn ng khác nhau. Bi vì nhiu ng i dùng ("c bi t là các nhà cung c#p ni dung) s* thích chú thích ni dung hn là phát trin các ontology, s h tr phù hp là cn thit phi  cho các nhà cung c#p ( ni dung ) chú thích ni dung b0ng ngôn ng a ph ng c$a h .  có th phát sinh ni dung web ng ngh a b0ng t#t c kh nng, chúng ta không th yêu cu chú thích ni dung t ting Pháp sang ting c  c và ng c l i. Cui cùng  c#p  giao di n ng i dùng, hàng t& ng i mun truy xu#t vào ni dung thích hp b0ng ngôn ng a ph ng c$a h b#t ch#p ngôn ng ngu1n – ngôn ng mà trong ó các chú thích  c trình bày. M"c dù hi n t i, a s ni dung u  c vit b0ng ting Anh, chúng ta hy v ng r0ng s* có nhiu ni dung hn  c vit b0ng nhiu ngôn ng khác. B#t k3 h ng tip cn nào c$a semantic web c/ng nên bao g1m các ti n ích truy xu#t thông tin trong nhiu ngôn ng. Các công ngh quc t hoá và a ph ng hoá nên  c xem xét c5n thn i vi vi c truy xu#t thông tin cá nhân d a trên ngôn ng a ph ng c$a ng i dùng. 2.2.3.5. Thách th'c 5: Visualization – s# m7ng tng Vi s gia tng thông tin v t bc, s m ng t ng (hình dung) c$a tr c giác v thông tin s* tr nên r#t quan tr ng, bi vì ng i dùng s* yêu cu s d- dàng  nhn bit s phù hp c$a ni dung cho m!c ích c$a h ngày càng gia tng. Thêm vào ó vi c s% d!ng semantic indexes và các routers cho vi c l u tr, t. chc và tìm kim SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 41 - 0112398 – T Th Ng c Thanh thông tin, v sau này s* yêu cu mt b c quan tr ng trong s m ng t ng. Các công ngh nên cho phép i vi các công ngh 3 chiu và s m ng t ng mi  m ng t ng ra ni dung c$a semantic web trong b#t k3 mt ngôn ng web hi n t i nào (RDFS, OIL, DAML + OIL). Thông qua công ngh hin th 1 ho thi gian th c 3D tho áng và vi c khai thác các mi quan h ng ngh a, mt giao di n ba chiu mi có th  c phát sinh mt cách t ng. Theo cách này, nhiu thông tin hn có th  c trình bày trong mt không gian nh2 hn, và ng i dùng có th t ng tác vi các site mt cách th c t và ti n li [Van Harmelen et al 2001]. 2.2.3.6. Thách th'c 6: S# chu,n hoá các ngôn ng% semantic web Semantic web là mt l nh v c ang n.i bt và WWW Consortium s*  a ra các gii thi u v các ngôn ng và công ngh s*  c s% d!ng.  v n lên n mc ngh thut trong semantic web, và các công c! phn ln ph! thuc vào ngôn ng semantic web mà chúng  c h tr, thì nhu cu chu5n hoá ngôn ng semantic web là mt òi h2i cn thit. 2.2.4. So sánh web và web ng% ngh!a im ging nhau gia Web và Web ng ngh a: c 2 u dùng nhng liên kt (link) URI, nh ng Web ng ngh a s% d!ng các link này r#t nhiu, vi c s% d!ng link làm gia tng tính chính xác c$a thông tin. S khác nhau c bn gia Web và Web ng ngh a: Web ng% ngh!a Web Web ng ngh a là mt không gian thông tin trong ó thông tin  c biu di-n thông qua mt ngôn ng mà máy và ng i u có th hiu  c. Web là mt không gian thông tin cha  ng thông tin ch& h ng vào vi c biu di-n trong mt ngôn ng t nhiên mà ch& có ng i mi hiu  c. Web ng ngh a là mt d li u liên kt vi nhau mt cách ng ngh a và hình thc. Web là mt tp hp thông tin liên kt vi nhau mt cách không hình thc. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 42 - 0112398 – T Th Ng c Thanh 2.2.5. Các khái ni&m liên quan 2.2.5.1. Metadata Metadata là thông tin có c#u trúc mô t, gii thích, nh v ho"c m"t khác làm cho d- dàng truy v#n, s% d!ng, qun lý mt tài nguyên thông tin. Metadata th ng  c g i là d li u v d li u (t in d li u), ho"c là thông tin v thông tin. Metadata là thông tin v thông tin, metadata  c s% d!ng rng rãi trong th gii th c cho m!c ích tìm kim. Ví d!, b n mun m n mt vài quyn sách  mt th vi n nào ó thông qua máy tính. Th ng thì th vi n s* cung c#p mt h thng tra cu, h thng này cho phép b n li t kê sách theo tên tác gi (author), theo t a sách (title), theo ch$  (subject), v.v…. Danh sách li t kê này cha nhiu thông tin quan tr ng nh : tên tác gi, t a sách, ISBN, và thông tin quan tr ng nh#t là ni c#t gi sách. B n cn vài thông tin (trong tr ng hp này là ni c#t gi sách) mà b n mun bit và b n s% d!ng metadata (trong tr ng hp này là: tên tác gi, t a sách, và ch$ )  l#y  c sách. Có 3 kiu metadata: a. Descriptive metadata: mô t mt tài nguyên cho nhng m!c ích nh là khám phá ho"c là nhn di n. Nó có th bao g1m các phn t% nh là: titles, astract, author, và keywords. b. Structural metadata: ví d!: cho bit các i t ng phc hp liên kt vi nhau nh th nào, các trang (pages)  c sp xp thành các ch ng nh th nào. c. Administrative metadata: cung c#p thông tin giúp cho vi c qun lý mt tài nguyên, nh là nó  c t o ra khi nào và nh th nào, kiu file, và các thông tin k thut khác, và nhng ai có th truy cp n nó. 2.2.5.2. Namespace Chúng ta có th m rng tp t v ng c$a chúng ta thông qua các namespace – là các nhóm c$a tên các phn t% và tên các thuc tính. Gi s%, nu b n mun gp (include) mt ký hi u (symbol)  c mã hoá trong mt ngôn ng ánh d#u SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 43 - 0112398 – T Th Ng c Thanh nào ó trong mt tài li u XML, thì b n có th khai báo mt namespace ( không gian tên) mà symbol ó thuc v. Thêm vào ó, chúng ta có th tránh  c tình hung hai i t ng XML trong các không gian tên khác nhau vi cùng mt tên mà có ý ngh a khác nhau thông qua các "c tr ng c$a các namespace. Gii pháp là gán mt tin t nhn bit namespace mà mi phn t% ho"c các thuc tính thuc v. Cú pháp c$a namespace nh sau: ns-prefix:local-name Trong ó ns-prefix là tên c$a namespace, và local-name là tên c$a phn t% ho"c thuc tính. Ví d! v namespace: Tài li u XML d i ây là mt th vi n sách. Chúng ta bt u b0ng phn t% gc có tên th, là , bên trong th, gc cha các phn t% sách và t a sách nh sau: Earthquakes for lunch Không gian tên cc b (local namespace): Chúng ta có th "t thuc tính xmlns  phn t% gc hay  b#t k3 th, nào khác. Khi thuc tính này không n0m trong th, gc thì ta g i ó là không gian tên c!c b. Ví d!: Xem o n xml d i ây: <minhkhai: library xmlns: minhkhai= > SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 44 - 0112398 – T Th Ng c Thanh Earthquakes for lunch. <amazon:book xmlns:amazon=> Earthquakes for lunch. Trong ví d! này thì namespace: xmlns:amazon=  c g i là không gian tên c!c b. 2.2.6. Ontology Thut ng “ontology”  c vay m n t trit h c. Ý ngh a u tiên c$a nó là “the branch of metaphysics that deals with the nature of being” [The American Heritage® Dictionary of the English Language: Fourth Edition (2000)]. Ontology là mt công ngh quan tr ng mang tính ch#t x ng sng, vì nó cung c#p mt "c tính quan tr ng: ontology giao tip  c gia ng ngh a hình thc mà máy tính có th hiu  c vi ng ngh a c$a th gii th c mà con ng i có th hiu  c. Nhng Ontology  c phát trin trong trí tu nhân t o  tri thc d- dàng chia s, và s% d!ng l i. K t u thp niên 90 c$a th k4 XX, Ontology ã tr thành mt  tài nghiên cu ph. bin i vi các t. chc nghiên cu trí tu nhân t o, bao g1m nhng k s v tri thc (Knowledge), x% lý ngôn ng t nhiên và trình bày tri thc. Ontology không ch& làm cho tri thc có th s% d!ng l i d- dàng hn, nó còn là nn tng c$a vi c t o ra các chu5n bi vì nó làm rõ các khái ni m bên c nh mt thut ng ho"c mt mô hình. Yêu cu trên th c t không phi ch& dành cho mt khái ni m SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 45 - 0112398 – T Th Ng c Thanh duy nh#t, mà là i vi mt s t ng tác m h1 gia các khái ni m phc t p và chi tit ( có th  c trình bày trong nhiu ngôn ng khác nhau). Gn ây, khái ni m Ontology ã tr nên ph. bin hn nhiu trong các l nh v c nh s tích hp thông minh, nhng h thng thông tin hp tác, ph!c h1i thông tin, giao dch th ng m i i n t%, và qun lý tri thc. M!c ích c$a Ontology là h ng n tri thc min, nên s phát trin c$a nó th ng là mt quá trình x% lý kéo theo nhiu yu t khác. T lúc ra i n nay, Ontology ã có r#t nhiu nh ngh a. Tuy nhiên, "c im ct li c$a Ontology vn là: “Mt ontology là mt s ch& nh t ng minh, hình th c và chia s v mt khái nim dùng chung”. Trong ó:  Mt khái nim tham chiu n mt mô hình tru t ng c$a mt vài hi n t ng nào ó trong th gii th c mà xác nh nhng khái ni m có liên quan v hi n t ng ó.  T ng minh là nhng khái ni m và nhng ràng buc trên nó  c s% d!ng mt cách rõ ràng.  Hình th c tham chiu n công vi c mà ontology phi th c hi n  máy tính có th hiu  c.  Chia s phn ánh r0ng mt ontology gi tri thc 1ng nh#t, ngh a là nó không b h n ch bi mt cá nhân hay mt nhóm riêng l, nào. Hi n nay có nhiu ontology ln nh : CYC, WordNet, …. Ví d! v ontology: SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 46 - 0112398 – T Th Ng c Thanh Hình 10: Mt Ontology n gin 2.2.7. Rdf 2.2.7.1 Khái ni&m : RDF là t vit tt c$a Resource Description Framework. RDF  c  c% bi W3C cho mt mô hình và ngôn ng siêu d li u (metadata) chu5n. RDF là mt b khung cho vi c mô t các tài nguyên trên web. RDF cung c#p mô hình d li u và cú pháp  các phn c lp nhau có th chuyn .i cho nhau và s% d!ng  c RDF. 2.2.7.2 C(u trúc : RDF là khung s n (framework) cho vi c x% lý metadata, và nó mô t các mi quan h gia các tài nguyên thông qua các thuc tính và các giá tr. RDF  c xây d ng d a trên các lut nh sau: SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 47 - 0112398 – T Th Ng c Thanh Resource: M i th  c mô t b0ng biu thc RDF  c g i là mt resource ( tài nguyên). Mi tài nguyên có mt URI và nó có th là toàn b trang web ho"c là mt phn c$a trang web. Property: “Property là mt khía c nh, "c tr ng, thuc tính ho"c quan h riêng bi t  c dùng  mô t mt tài nguyên” – trích trong W3C, Resource Description Framework (RDF) Model and Syntax Specification. Chú ý là mt property c/ng có th là mt resource bi vì nó có nhng tính ch#t riêng c$a nó. Statements: Mt statements  c dùng  kt hp mt resource, mt property và mt value c$a nó. Ba phn riêng bi t này  c bit nh là “subject”, “predicate”, và “object”. Ví d!, “The Author of is Peng Wang” là mt statement. Chú ý r0ng value c$a câu này có th là mt chui ký t mà c/ng có th là mt resource. Ví d v RDF: Mt statement ( phát biu ) có th  c xem nh là mt 1 th trong RDF. Phát biu nh sau: “The Author of is Peng Wang” Câu trên  c phân tích thành 3 phn: Subject ( Resource ) Predicate (Property) Author Object (Literal) Peng Wang  c biu di-n d i d ng 1 th nh sau: SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 48 - 0112398 – T Th Ng c Thanh Chiu c$a m/i tên luôn h ng t subject n object c$a phát biu ( statement). Và 1 th có th  c theo cách sau: “ HAS ”, ví d!: “ has author Peng Wang”. Nu chúng ta gán mt URI cho thuc tính author, thì s* có :  trình bày ngn g n, chúng ta  a ra mt s tin t ( prefix)  tránh phi vit l i toàn b a ch& URI tham chiu n. Có mt s tin t gn lin vi các URI  c s% d!ng rng rãi sau: Tin t rdf: là không gian tên cho URI: Tin t rdfs: là không gian tên cho URI: Tin t daml: là không gian tên cho URI: Tin t xsd: là không gian tên cho URI: Trong ví d! này, chúng ta dùng không gian tên là pwterms   i di n cho a ch& URI mà ta tham chiu n: Khi ó cú pháp RDF cho câu phát biu: “The Author of is Peng Wang” là: 1 2 3 4 5 6 7 <rdf:RDF xmlns:rdf="" xmlns:pwterms=" "> <rdf:Description rdf:about=""> Peng Wang SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 49 - 0112398 – T Th Ng c Thanh Mt câu phát biu khác: “Mt ng i có mã s sinh viên là pw2538 có tên là Peng Wang và có a ch& email là pw2538@bristol.ac.uk . Ng i này là tác gi c$a tài nguyên ” Có 1 th nh sau: Có cú pháp RDF: SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 50 - 0112398 – T Th Ng c Thanh Mô hình d% li&u RDF (RDF Data Model): RDF cung c#p mt mô hình cho vi c mô t các tài nguyên. Tài nguyên có các tính ch#t (property) – thuc tính ho"c là "c tr ng. RDF nh ngh a tài nguyên nh là mt i t ng b#t k3 có th nhn bit duy nh#t b0ng mt URI. Các property  c kt hp vi các tài nguyên  c nhn bit bi các property – types, và các property – types này có các values t ng ng. Property – types mô t mi quan h c$a các values  c kt hp vi các tài nguyên. Trong RDF, các values có th  c xem nh là nguyên t% trong t nhiên ( chui text, s, v.v…) ho"c là các lo i tài nguyên khác. Bn ch#t ct lõi c$a RDF là mt mô hình c lp cú pháp cho vi c trình bày các tài nguyên và s mô t t ng ng c$a chúng. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 51 - 0112398 – T Th Ng c Thanh Hình 11: Mô hình d% li&u RDF Mô hình d li u RDF là mt 1 th có gán nhãn nh h ng, trong ó các nút là các tài nguyên (nhng th c th vi URI) ho"c nhng ký t , và các c nh là nhng thuc tính. Nh ã gii thi u, mt phát biu RDF là mt b ba (Ch$ ng, V ng, B. ng). Trong ó, tài nguyên là Ch$ ng c$a mt phát biu có thuc tính mà giá tr c$a nó là B. ng c$a mt phát biu. Mt B. ng có th là tài nguyên ho"c có th là mt giá tr ký t . Mt phát biu có th  c  i di n nh mt 1 th, b0ng cách v* mt cung t mt nút (Ch$ ng) n nút khác (B. ng). RDF là mt cách thành lp cho vi c x% lý siêu d li u, nó cung c#p interoperability (thao tác gi a các phn) gia các ng d!ng mà chuyn .i thông tin máy có th hiu  c trên web. RDF nh#n m nh các ti n ích  có th x% lý t ng các tài nguyên web. 2.2.7.3 RDF Schema – mt ngôn ng% mô t t" v#ng Ngôn ng  c nh ngh a trong "c t này (specification) g1m mt tp hp các tài nguyên mà có th  c s% d!ng  mô t các thuc tính c$a các tài nguyên RDF khác ( bao g1m c các thuc tính) – nh ngh a tp t v ng RDF c$a ng d!ng xác nh. Tp t v ng này ch$ yu  c nh ngh a trong mt không gian tên  c g i là “rdfs”, và  c nhn bit bi tham chiu URI: SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 52 - 0112398 – T Th Ng c Thanh schema#. "c t này c/ng s% d!ng tin t “rdf”  tham chiu n không gian tên RDF chính: H thng class và property trong RDF Schema c/ng t ng t nh các h thng kiu c$a các ngôn ng h ng i t ng nh Java. Tuy nhiên, RDF khác vi các h thng khác  ch thay vì nh ngh a mt class trong quan h c$a các thuc tính mà th hi n c$a nó có th có, RDF Schema s* nh ngh a các thuc tính trong quan h c$a các lp c$a tài nguyên mà chúng ng d!ng. ây là nhi m v! c$a rdfs:domain và rdfs:range  c mô t trong "c t này. Ví d!, chúng ta có th nh ngh a thuc tính eg:author, có min là eg:Document và gii h n là eg:Person, nh ng trái l i mt h thng h ng i t ng kinh in có th nh ngh a mt cách "c tr ng mt class eg:Book vi mt thuc tính  c g i là eg:author c$a kiu eg:Person. T" v#ng Domain and Range "c t này gii thi u tp t v ng RDF cho vi c mô t cách s% d!ng y $ ng ngh a c$a các property và các class trong d li u RDF. Ví d!, mt l c 1 RDF có th mô t gii h n trên các kiu c$a các value thích hp vi mt s thuc tính. RDF Schema cung c#p c ch (k thut) cho vi c mô t thông tin này, nh ng không th nói trong tr ng hp nào thì ng d!ng nên s% d!ng nó và s% d!ng nh th nào. Các ng d!ng khác nhau s* s% d!ng thông tin này theo nhiu cách khác nhau. Ví d!, các công c! kim tra d li u có th s% d!ng thông tin này  tìm ra các li trong dataset, mt trình so n tho giao tip gia ng i và máy có th  ngh nhng giá tr thích hp, và mt ng d!ng suy lun có th s% d!ng nó suy lun r1i  a ra thông tin mi t d li u ban u. L c 1 RDF (RDF Schema) có th mô t các mi quan h gia các t v ng t nhiu l c 1  c phát trin c lp nhau. Bi vì tham chiu URI  c s% d!ng  nhn bit các class và property trên web, nên nó có th t o ra các thuc tính (property) mi có domain và range mà giá tr c$a nó  c nh ngh a trong mt namespace khác. "c t này không c gng  li t kê t#t c các hình thc có th có c$a vi c mô t t v ng mà nó  c s% d!ng  trình bày ng ngh a c$a các class và property c$a SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 53 - 0112398 – T Th Ng c Thanh RDF. Thay vào ó, chin l c mô t t v ng RDF tha nhn r0ng có nhiu k thut mà thông qua ó ng ngh a c$a các class và property  c cho bit, và  xu#t bn mt s quy c cho vi c s% d!ng RDF/XML  mô t các "c tr ng c$a các class và property cu RDF. L c 1 tt hn ho"c là các ngôn ng “ontology” nh là DAML+OIL, W3C, các ngôn ng suy lun d a trên lut, và các ch$ ngh a hình thc khác, mi lo i s* góp phn cho kh nng c$a chúng ta nm bt  c s t.ng hp y $ ng ngh a v d li u trên web. Các nhà thit k t v ng RDF có th t o và phát trin các ng d!ng web ng ngh a b0ng cách s% d!ng ti n ích The basic RDF Schema 1.0, trong khi trình bày các ngôn ng mô t t v ng tt hn – cách này c/ng s% d!ng h ng tip cn này. S lc v RDF Schema Bng này trình bày mt cách t.ng quát v tp t v ng c s c$a RDF Tên lp Ghi chú rdfs:Resource The class resource, everything. rdfs:Literal This represents the set of atomic values, eg. textual strings. rdfs:XMLLiteral The class of XML literals. rdfs:Class The concept of Class rdf:Property The concept of a property. rdfs:Datatype The class of datatypes. rdf:Statement The class of RDF statements. rdf:Bag An unordered collection. rdf:Seq An ordered collection. rdf:Alt A collection of alternatives. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 54 - 0112398 – T Th Ng c Thanh rdfs:Container This represents the set Containers. rdfs:ContainerMembershipProperty The container membership properties, rdf:1, rdf:2, ..., all of which are sub-properties of 'member'. rdf:List The class of RDF Lists Bng 3 : Các lp trong RDF Property name comment domain range rdf:type Indicates membership of a class rdfs:Resource rdfs:Class rdfs:subClassOf Indicates membership of a class rdfs:Class rdfs:Class rdfs:subPropertyOf Indicates specialization of properties rdf:Property rdf:Propert y rdfs:domain A domain class for a property type rdf:Property rdfs:Class rdfs:range A range class for a property type rdf:Property rdfs:Class rdfs:label Provides a human-readable version of a resource name. rdfs:Resource rdfs:Literal rdfs:comment Use this for descriptions rdfs:Resource rdfs:Literal rdfs:member a member of a container rdfs:Container not specified rdf:first The first item in an RDF list. Also often called the head. rdf:List not specified rdf:rest The rest of an RDF list after the first item. Also often called the tail. rdf:List rdf:List SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 55 - 0112398 – T Th Ng c Thanh rdfs:seeAlso A resource that provides information about the subject resource rdfs:Resource rdfs:Resour ce rdfs:isDefinedBy Indicates the namespace of a resource rdfs:Resource rdfs:Resour ce rdf:value Identifies the principal value (usually a string) of a property when the property value is a structured resource rdfs:Resource not specified rdf:subject The subject of an RDF statement. rdf:Statement rdfs:Resour ce rdf:predicate the predicate of an RDF statement. rdf:Statement rdf:Propert y rdf:object The object of an RDF statement. rdf:Statement not specified Bng 4:Các thuc tính c$a RDF (Mô t các t v ng c$a RDF  c trình bày trong phn Ph! l!c [1].) 2.3. eDoc 2.3.1. Tìm hi6u eLearning 2.3.1.1. Khái ni&m eLearning hay còn g i là Online Learning, chu5n cho t#t c các hình thc c$a vi c h c. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 56 - 0112398 – T Th Ng c Thanh Online learning liên quan n vi c s% d!ng các công ngh m ng ( nh là: Internet hay là m ng th ng m i – bussiness network) cho vi c phân phát, h tr, ánh giá vi c d y h c chính qui và không chính qui. “H c” xy ra  âu và nh th nào? (: các tài nguyên và các tài li u tr c tuyn, các th vi n i n t%, các tài li u; và các khoá h c, các bu.i tho lun, chats, email, hi ngh, và các ng d!ng chia s, tri thc. Mt chú ý quan tr ng là online learning không nh#t thit phi di-n ra tr c tuyn (online). S% d!ng công ngh cho vi c h c th ng là mt yu t ph! i vi lp h c và các c hi h c tr c tip ( face – to – face ). Mt s nguyên nhân  s% d!ng online learning: a. Vi c truy cp  c ci thi n và tính linh ng: M i ng i có th ng nhp vào b#t k3 mt máy tính nào,  t i nhà ho"c  ni làm vi c, vào b#t k3 lúc nào k c ngày ln êm,  l#y bài h c ho"c tham kho n các tài li u h c. b. Phân phi nhanh hn và tit ki m chi phí: i vi các t. chc cn truyn  t thông tin quan tr ng mà thông tin này nhanh chóng tr nên li thi ( ví d!, phiên bn mi nh#t c$a mt sn ph5m), thì hình thc online hu nh là r, hn và nhanh hn nhiu so vi vi c ng i truyn  t phi bay qua nhiu quc gia  g"p g nhng h c viên  lp h c vi hàng ting 1ng h1. c. Ci tin vi c iu hành và chu5n hoá: Trong môi tr ng th ng m i quc t ngày nay, nhiu t. chc m rng trên ph m vi toàn cu. S khác nhau v kin thc và k nng c$a các cá nhân d y có th s* làm cho ch#t l ng h c c$a các h c viên  nhng ni khác nhau s* khác nhau: ví d! nhng ng i h c  New Delphi s* có ch#t l ng hu#n luy n khác vi nhng ng i  New York. Online learning cung c#p thông tin nh#t quán, ph. bin i vi các i t ng  khp ni. Làm n.i bt thông tin truyn  t và s cng tác: Thông qua nhng phn mm nào ó s* cho phép nhng ng i h c  c giao tip vi nhau, cng tác vi nhau qua các d án, và chia s, tài li u mà không cn phi g"p m"t tr c tip. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 57 - 0112398 – T Th Ng c Thanh 2.3.1.2. Các chu,n c a eLearning Ngành công nghi p eLearning tip t!c  c m rng mi ngày, và các chu5n cn thit  t o ni dung bài h c ngày càng tr nên phc t p. Tr c khi mt “qui c” c$a eLearning tr thành “standards” (chu5n), nó  c g i là “specification” ( "c t ). Specification  c duy t bi mt t. chc – t. chc này  c m i ng i công nhn, nh là IEEE ch+ng h n. Mt s chu5n c$a eLearning: a. T p phn t siêu d liu Dublin Core Tp phn t% siêu d li u Dublin Core ( The Dublin Core metada element set) là chu5n cho s mô t tài nguyên thông tin xuyên domain (bng qua nhiu domain). ( ây, tài nguyên thông tin  c nh ngh a là b#t k3 th gì mà có th nhn bit  c. i vi các ng d!ng Dublin Core, mt tài nguyên s* là mt tài li u i n t% (electronic document). Siêu d li u Dublin Core  c dùng cho vi c tìm kim và ch& m!c cho các siêu d li u d a trên Web. Tp siêu d li u này cung c#p t v ng ng ngh a nh : “Description”, “Creator” và “Date” cho vi c mô t nhng "c tr ng thông tin quan tr ng c$a các tài nguyên Internet. Tp siêu d li u Dublin Core cung c#p 15 t v ng: • Title: Tên  c gán cho tài nguyên. • Creator: Th c th có trách nhi m t o ra tài nguyên. Ví d! nh : cá nhân, t. chc hay mt dch v! nào ó. • Subject: Ch$  ni dung c$a tài nguyên. • Description: Mô t ni dung c$a tài nguyên. • Publisher: Th c th có nhi m v! t o ra tài nguyên. • Contributor: Th c th có óng góp vào ni dung c$a tài nguyên. • Date: Ngày tài nguyên  c t o. • Type: Th lo i ni dung c$a tài nguyên. • Format: D ng l u tr vt lý c$a tài nguyên. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 58 - 0112398 – T Th Ng c Thanh • Identifier: Mt tham chiu c! th n tài nguyên trong mt ng cnh cho phép. • Source: Tham chiu n mt tài nguyên mà tài nguyên  c dn xu#t. • Language: Ngôn ng s% d!ng bi ni dung c$a tài nguyên. • Relation: Tham chiu n mt tài nguyên liên quan • Coverage: M rng ni dung c$a tài nguyên • Right: Thông tin v quyn s hu tài nguyên. b. LOM (Learning Object Metadata) LOM là mt chu5n v eLearning hi n t i  c phát trin bi t. chc IEEE. T. chc chu5n hoá công ngh h c (Learning Technology Standards Committee) c$a IEEE ã phát trin chu5n LOM nh0m giúp cho vi c s% d!ng và s% d!ng l i c$a các tài nguyên h c  c h tr công ngh nh là vi c hu#n luy n d a trên máy tính, và vi c h c t xa. Trong mt h thng eLearning, i t ng h c là nhng gì có th  c s% d!ng, k tha hay tham kho trong vi c h tr công ngh h c. Hi n t i mt s i t ng ang  c tip t!c phát trin nh0m áp ng nhu cu h c thay .i nhanh chóng. Vi c thiu thông tin hay siêu d li u v i t ng h c t o ra nhiu cn tr, h n ch cho kh nng qun lý, khám phá và s% d!ng i t ng h c. LOM gii quyt v#n  trên b0ng cách nh ngh a mt c#u trúc cho vi c mô t mt i t ng h c. LOM ch& ra cú pháp và ng ngh a c$a các siêu d li u i t ng h c, nh ngh a các thuc tính nh0m mô t y $ và tho áng các i t ng h c. M!c ích c$a LOM:  Cho phép ng i h c hay ng i h ng dn tìm kim, ánh giá i t ng h c. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 59 - 0112398 – T Th Ng c Thanh  Cho phép chia s, và trao .i các i t ng h c qua b#t k3 công ngh có h tr h thng h c.  Cho phép phát trin các i t ng h c theo các n v có kh nng kt hp hay phân rã theo mt ph ng pháp phù hp.  Cho phép các agent máy tính linh ng là t ng trong vi c t. chc các bài h c cung c#p n ng i h c.  Nó hoàn toàn d a trên chu5n và quan tâm n các i t ng h c trong môi tr ng m và phân tán.  Cho phép các công ngh mi kt hp vi các i t ng h c.  Cung c#p cho các nhà nghiên cu chu5n h tr và s u tp d li u liên quan n hi u qu c$a các i t ng h c. LOM nh ngh a mt tp ti thiu các thuc tính (attributes)  qun lý, nh v, và ánh giá các i t ng h c. Các thuc tính  c gom nhóm thành 8 ph m trù: • General: cha  ng thông tin v toàn b i t ng. • Lifecycle: cha  ng siêu d li u v s tin hoá c$a các i t ng. • Technical: vi s mô t c$a các "c tr ng và yêu cu k thut. • Educational: cha  ng các thuc tính v giáo d!c ho"c s ph m. • Rights: mô t quyn s hu và các iu ki n s% d!ng • Relation: nhn bit các i t ng có liên quan vi nhau. • Annotation: cha  ng các chú thích và ngày, tác gi c$a các chú thích này. • Classification: nhn bit các b nhn di n h thng phân lo i khác cho i t ng. Bên trong mi ph m trù là mt tp các phn t% d li u có th t , mà giá tr c$a chúng là các metadata. Ví d!: Các phn t% siêu d li u liên quan n vi c h c  c tìm th#y trong ph m trù Education là Typical Age Range, Difficulty, Typical Learning Time, và Interactivity Level. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 60 - 0112398 – T Th Ng c Thanh c. vCard vCard là chu5n  c gii thi u và phát trin bi IMC (Internet Mail Consortium). Các thông tin cá nhân thông th ng r#t phc t p và có nhiu lo i khác nhau. Hi n t i có mt s chu5n  xu#t các c#u trúc cho vi c trao .i thông tin cá nhân PDI (Personal Data Interchange). M!c ích c$a chu5n này là nh0m gii quyt nhu cu s u tp và trao .i thông tin cá nhân qua nhiu kênh thông tin khác nhau nh i n tho i, th i n t% hay i tho i tr c tip. Chu5n vCard phù hp cho vi c trao .i d li u cá nhân gia các ng d!ng và h thng. nh d ng c$a vCard hoàn toàn c lp vi ph ng pháp dùng  truyn ti nó. Vi c truyn ti này có th là trao .i mt h thng tp tin, m ng chuyn m ch công cng, m ng dây dn hay m ng không dây. vCard nhm n vi c trao .i thông tin cá nhân. Trong môi tr ng th ng m i ngày nay, thông tin này th ng  c trao .i trên các th, th ng m i và vCard nh ngh a nhng thông tin này d a trên các i t ng th, th ng m i i n t%. d. SCORM (Shareable Content Object Reference Model) SCORM nh ngh a mô hình kt hp gia ni dung và môi tr ng th c thi cho các i t ng h c. ây là mt mô hình tham chiu n mt tp các k thut liên quan vi c thit k nh0m áp ng yêu cu ni dung h c d a trên Web, nhng yêu cu này bao g1m kh nng tái s% d!ng, truy xu#t, kh nng t ng tác c$a các i t ng h c. e. IMS ( Instructional Management Systems) IMS ang  c phát trin và xúc tin tr thành chu5n m cho các ho t ng eLearning nh s% d!ng, sp xp các ni dung giáo d!c và m rng các khái ni m t.ng quát nh : thit k ng i h c, theo dõi và báo cáo quá trình ng i h c nh0m th c hi n vi c trao .i thông tin gia các h thng h c khác nhau. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 61 - 0112398 – T Th Ng c Thanh M!c ích c$a IMS: • nh ngh a các chu5n k thut nh0m nâng cao kh nng t ng tác gia ng d!ng và dch v! trong môi tr ng h c phân tán hi n nay. • H tr vi c sát nhp "c t c$a IMS vào trong các sn ph5m và dch v! trên toàn th gii. S ch#p nhn "c t rng rãi s* cho phép phân phi môi tr ng và ni dung h c t nhiu tác gi l i vi nhau. 2.3.2. Tìm hi6u eLib Elib (electronic library hay cò g i là digital library) là mt th vi n 5n. T ‘electronic library’ ng! ý là mt s u tp c$a các tài nguyên thông tin i n t%  c ni m ng cùng k thut liên kt và c s h tng qun tr. B n có th truy cp nó t b#t c máy PC hay laptop có ni m ng nào t b#t c ni nào trên th gii  b#t c thi im nào. Elib l u tr và ch& m!c hàng v n sách, báo, t p chí v $ các ch$  trên th gii, ch+ng h n nh vt lí, thiên vn, sinh hoá, công ngh sinh h c, hoá h c và công trình xây d ng hoá ch#t, các thit b xây d ng, công trình xây d ng môi tr ng, khoa h c th c ph5m, và an toàn sc kho, và v sinh .v.v… c/ng nh các tài li u v thông tin tiu s%, lí lch cá nhân, ngh nghi p, các t. chc, hi liên hi p, và du lch v.v…. Th vi n i n t% này  c s% d!ng ph. bin nh#t trong các tr ng  i h c và nhng trung tâm nghiên cu khoa h c. T#t nhiên, i t ng s% d!ng nó chính là nhng sinh viên, nghiên cu sinh và các nhà khoa h c. Nhng ch ng trình Electronic library  c xây d ng d a trên nhng chu5n thng nh#t do các hi 1ng, t. chc ln trên th gii lp ra. Mt s t. chc nh chu5n ln trên gii nh W3C (World Wide Web Consortium), ISO (International Organization for Standardization), NISO (National Information Standards Organization ),… . Có nhiu chu5n cho nhiu khía c nh khác nhau c$a vi c l u tr và truy cp thông tin i n t%, bao g1m các chu5n v thu h1i thông tin (Information Retrieval Standard), thao tác gia các phn (Interoperability), nh d ng tài nguyên, SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 62 - 0112398 – T Th Ng c Thanh nhn d ng tài nguyên, mô t tài nguyên,… Sau ây là mt s chu5n s% d!ng trong eLib liên quan n v#n  truy cp thông tin i n t%:  Chu,n v thu h.i thông tin: Kiu chu5n này cho phép thông tin gia các h thng khác nhau, làm cho thun ti n trong vi c khám phá và truy cp thông tin i n t%. Ví d! nh chu5n thu h1i thông tin ISO 23950 (t ng  ng vi ANSI Z39.50) nh ngh a mt h ng chu5n cho hai máy tính liên l c và chia s, thông tin vi nhau. Nó ã  c thit k  h tr khám phá tài nguyên và thu h1i tài nguyên c$a nhng tài li u “full-text”, d li u m!c l!c, các hình nh và multimedia. Chu5n này d a trên kin trúc client-server và c lp vi các h thng c! th, hoàn toàn iu hành trên Internet. Z39.50: Z39.50 là mt trong mt nhóm các chu5n  c sn xu#t  làm cho d- dàng kt ni các h thng máy tính. Chu5n này ch& ra các nh d ng và th$ t!c chi phi vi c trao .i các thông i p gia client và server, cho phép ng i dùng có th tìm kim các c s d li u t xa, nhn di n các dòng d li u có nh rõ các chu5n, và thu h1i mt vài hay t#t c các dòng  c nhn di n và có liên quan, c! th vi vi c tìm kim và thu h1i thông tin trong c s d li u. Mt trong nhng thun li ln trong vi c s% d!ng Z39.50 là nó cho phép truy cp nh nhau n mt s l ng ln ngu1n thông tin thay .i khác nhau. Z39.50 tha nhn r0ng vi c thu h1i thông tin g1m hai thành phn chính – ch n thông tin d a trên nhng tiêu chu5n và thu h1i thông tin ó, và nó cung c#p mt ngôn ng chung cho c hai hành ng ó. Z39.50 chu5n hoá cách x% s mà trong ó client và server thông tin vi nhau và ho t ng ngay khi có nhng khác bi t gia các h thng máy tính, các công c! tìm kim và các c s d li u. EDI (Electronic Data Interchange) EDI  c bit n nh mt chu5n công ngh thông tin quc gia. ( EDI, d li u mà theo truyn thng  c chuyn vào trong các tài li u gi#y thì  c truyn hay  c thông tin mt cách i n t% tùy vào các lut và các nh d ng  c thit lp. D SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 63 - 0112398 – T Th Ng c Thanh li u liên i vi mi kiu c$a tài li u chc nng, ví d! nh bng mua bán hay hoá n,  c vn chuyn ln nhau nh là mt thông i p i n t%. D li u ã nh d ng có th  c vn chuyn t ng i t o ra n ng i nhn thông qua thông tin liên l c b0ng cáp hay vn chuyn vt lí vào trong thit b l u tr i n t%. EDI  a n mt chui các thông i p gia hai ni, ví d! ng i mua và ng i bán, mi ng i có th xem nh là ng i t o ra hay ng i nhn. Các thông i p t ng i mua n ng i bán s* bao g1m, ví d! nh d li u cn thit cho yêu cu i vi s trích dn (request for quotation_ RFQ), các biên lai mua bán, các thông báo vi c vn chuyn tàu thuyn, và các hoá n. Vi c th c thi c$a EDI yêu cu vi n s% d!ng c$a mt h các chu5n liên kt vi nhau. H chu5n này phi bao g1m các chu5n cho các kiu thông i p (c/ng  c g i là các “nhóm giao dch” _ “transaction set”), và cho vi c vn chuyn th , các yu t d li u, và các chui c$a các yu t d li u  c sp xp g i là các segment d li u. Mt chu5n thông i p hay chu5n transaction set nh ngh a chui các segment d li u mà t o thành thông i p và transaction set ó. Th m!c segment d li u li t kê t#t c các segment d li u, và nh ngh a nh danh và chui c$a các yu t d li u t o nên nó. T in yu t d li u cung c#p các chu5n c$a t#t c các yu t d li u. Vi c vn chuyn th cung c#p thông tin iu khin v các thông i p thêm vào cho các h thng vn chuyn và tip nhn. Vi c chu5n hoá c$a các nh d ng thông i p, và c$a các segment d li u và yu t d li u trong các thông i p ó, làm cho có th thu thp, tháo ri và x% lí các thông i p b0ng máy tính vi các kt qu có th có th oán tr c. ILL (Internet Loan Library) Nghi thc ILL (ISO 10160/1)  c phát trin  gi nhiu giao dch  c liên kt bao g1m các ho t ng yêu cu tài li u g1m nhiu ng i tham gia. V khái ni m thì nó t ng  ng vi EDI và bao g1m vi c cung c#p cho nh ngh a các data element  c yêu cu, nh ngh a mt nhóm các thông i p và các mi quan h c$a nó, và mt cú pháp cho vi c lp c#u trúc thông i p. SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 64 - 0112398 – T Th Ng c Thanh Nghi thc ILL có v, nh có nhiu  cung c#p các dch v! yêu cu, "c bi t khi chúng tr nên phân tán nhiu hn. S truyn thông t h thng này sang h thng khác c$a các thông i p có c#u trúc cho phép mt ph m vi rng ln các thi hành  c t ng, và các th$ t!c b0ng tay hay phi hp cho vi c theo vt, g i v,…  c t ng. Công d!ng c$a nó trong các dch v! t ng tác i vi yêu cu các tài li u cn nghiên cu xa hn na.  Chu,n mã hoá tài nguyên: Nhng chu5n này nh ngh a các kiu hin th khác nhau c$a thông tin i n t%. Bao g1m các chu5n: o nh d ng mô t trang (ví d! postscript, PDF) o nh d ng 1 h a (ví d! TIFF, GIF, JPEG) o Thông tin c#u trúc (SGML, HTML, XML) o nh d ng hình nh ng và audio. o Nén (ví d!: gzip, jar, tar, zip).  Chu,n nh*n d4ng tài nguyên: G1m mt s chu5n sau:  DOI (Digital Object Identifier) Digital Object Identifier là mt h thng  c phát trin bi Bowker và CNRI (Corporation for National Research Initiative)  US, theo mt yêu cu v các  xu#t cho công ngh nhn d ng ni dung k thut s  c  a ra bi Association of American Publishers. H thng DOI có ba thành phn: phn nh danh, th m!c và c s d li u. H thng này cho phép các b nh d ng qui nh nhng mc khác nhau, và cho các h thng khác (ví d! SICI, ISSN)  c thêm vào. H thng DOI có th  c nh ngh a nh là “mt b nhn d ng duy nh#t có th gii quyt  c và nhiu mng c$a d li u tr ng thái kiu kt hp trong mt c s qun lí thông tin”. Di-n t nhng phn c$a nh ngh a nh sau: SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 65 - 0112398 – T Th Ng c Thanh a. Mt “b nhn d ng duy nh#t”: nhi m v! c$a DOI là duy nh#t i vi mt mng c$a "c tính tri thc. nh ngh a c$a mng này  c ch& rõ bi mt s mng chính c$a thông tin v nó (siêu d li u) mà thuc vào th lo i c! th: dù th c th là mt bài báo hay mt video clip, ví d! nh vy. nh danh này là mt chui không rõ ràng; nó không cha b#t c tri thc cú pháp v th c th này. b. “có th gii quyt  c”; vi “d li u tr ng thái kt hp”: i sâu vào thông qua h thng Internet t b nhn d ng ó n mt hay nhiu mng c$a d li u kt hp. Nhng mng này biu di-u tr ng thái hi n t i (giá tr) c$a mt s kiu d li u (ví d! nh mt URL). Nhng mng này c$a d li u có th hin th, hay dn n, các dch v! s% d!ng DOI nh là mt im th c th. c. “mt c s qun lí thông tin”: mt khi mt mng d li u thu  c do s phân tích, thì siêu d li u v th c th  c nh danh có th thi hành vi siêu d li u t nhng ngu1n khác (ví d! v ng cnh)  xây d ng các dch v! và các giao dch t ng. Kh nng thi hành này  c hoàn t#t thông qua vi c qun lí siêu d li u trong mt h ng  c iu khin, phù hp vi mt kin trúc thi hành mà làm cho DOI có th  a ra nhng ng d!ng  mt b nhn d ng liên t!c n gin.  SICI Chu5n SICI là chu5n ANSI/NISO Z39.56-1996 nh ngh a nhng lut l v mã dùng nhn d ng duy nh#t chui các item (ví d! nh các s báo) và mi thành phn (ví d! nh bài báo) cha trong mt chui. SICI là t vit tt c$a Serial Item and Contribution Identifier và  c s% d!ng trong chu5n này  ch& mã c$a chính nó. Chu5n này  c nh ngh a cho vi c s% d!ng vi chui các xu#t bn trong t#t c các nh d ng. i vi m!c ích c$a chu5n này, mt chui  c nh ngh a nh là mt xu#t bn phát hành trong nhng phn liên t!c  nhng khong trng u "n hay SV ne t.vn  tài: Tìm kim ng ngh a ng d!ng trên l nh v c eDoc 0112274 – Ph m Th M Ph ng - 66 - 0112398 – T Th Ng c Thanh không u "n, mang bc s và/ho"c th t thi gian (numerical and/or chronological designation), và có xu h ng  c tip t!c vô h n. SICI có xu h ng  c t o ra và s% d!ng bi các thành viên c$a cng 1ng th m!c tham gia vào nhng chc nng kt hp vi vi c qun lí c$a các chui và các phn mà chúng cha  ng, các chc nng nh sp th t , b. sung vào th vi n, yêu cu, thu tin nhun bút, qun lí quyn, thu h1i tr c tuyn, liên kt c s d li u, và phân phát tài li u.

Các file đính kèm theo tài liệu này:

  • pdf[LVIT040] - Tìm kiếm ngữ nghĩa ứng dụng trong lĩnh vực eDOC.pdf