Đề tài Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số

Tài liệu Đề tài Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số: Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số 1-1 CHƯƠNG 1 TỔNG QUAN 1.1. Thư viện số Thư viện số là thư viện phục vụ thông tin điện tử ( được số hóa) - được đọc với sự trợ giúp của máy vi tính. Thông tin điện tử có thể được chứa trong những Tư liệu điện tử nằm trong và ngoài thư viện. Tư liệu điện tử bao gồm: • CD-ROM và băng từ - CD-ROM thường chứa những CSDL chuyên ngành, được phục vụ riêng lẻ hay trên mạng máy tính. • Tạp chí điện tử - ấn hành trên mạng Internet. Thư viện có thể đặt mua như tạp chí in và sẽ được cấp quyền login vào để truy cập. • Cơ sở dữ liệu trực tuyến - có rất nhiều trên mạng Internet do những trường đại học, những cơ sở thông tin, và những công ty tư nhân như LEXIX- NEXIX, DIALOG, vv... - Cũng như tạp chí điện tử, thư viện có thể đặt mua quyền sử dụng. • Tài liệu khác trên Internet - tài liệu trong những web site của những cơ sở chính quyền, trường đại học, công ty, hội đoàn, vv... Vi...

pdf128 trang | Chia sẻ: haohao | Lượt xem: 1243 | Lượt tải: 0download
Bạn đang xem trước 20 trang mẫu tài liệu Đề tài Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số 1-1 CHƯƠNG 1 TỔNG QUAN 1.1. Thư viện số Thư viện số là thư viện phục vụ thông tin điện tử ( được số hóa) - được đọc với sự trợ giúp của máy vi tính. Thông tin điện tử có thể được chứa trong những Tư liệu điện tử nằm trong và ngoài thư viện. Tư liệu điện tử bao gồm: • CD-ROM và băng từ - CD-ROM thường chứa những CSDL chuyên ngành, được phục vụ riêng lẻ hay trên mạng máy tính. • Tạp chí điện tử - ấn hành trên mạng Internet. Thư viện có thể đặt mua như tạp chí in và sẽ được cấp quyền login vào để truy cập. • Cơ sở dữ liệu trực tuyến - có rất nhiều trên mạng Internet do những trường đại học, những cơ sở thông tin, và những công ty tư nhân như LEXIX- NEXIX, DIALOG, vv... - Cũng như tạp chí điện tử, thư viện có thể đặt mua quyền sử dụng. • Tài liệu khác trên Internet - tài liệu trong những web site của những cơ sở chính quyền, trường đại học, công ty, hội đoàn, vv... Việc truy cập thường là miễn phí. Thông tin điện tử đôi khi còn bao gồm tư liệu được số hóa, tập hợp dưới hình thức Thư viện số. Tư liệu được số hóa trước tiên là tranh ảnh, tài liệu quý hiếm, vv... Ngày nay nhiều thư viện có khuynh hướng số hóa đại bộ phận tư liệu trong thư viện để phục vụ dưới dạng điện tử. 1.2. Nghiên cứu về thư viện số tại Mỹ Vấn đề nghiên cứu về thư viện số là một trong 5 hướng nghiên cứu chủ yếu về CNTT của Mỹ hiện nay. Những tiến bộ cực kỳ nhanh chóng của kỹ thuật tính toán và mạng máy tính làm cho một tư liệu chỉ trong nháy mắt đã có thể “nhân bản” và chuyển tới hành trăm triệu người trên khắp thế giới. Năm 1994, người ta đưa ra một vấn đề gọi là SÁNG KIẾN THƯ VIỆN SỐ (SKTVS) mà ngày nay gọi là DLI pha 1. SKTVS pha 1 tập trung làm sáng tỏ từng 1-2 bước các vấn đề về mô hình quan niệm, cấu trúc, những thách thức về tính toán nhằm tạo ra các các kho tri thức nhân loại dạng điện tử. Trong 5 năm, SKTVS pha 1 đã có những thành công bước đầu mà chúng ta đang chứng kiến, chẳng hạn đó là các công cụ tìm kiếm nổi tiếng trên Internet. SKTVS pha 2 – DLI pha 2 bắt đầu từ 1999 và đã thu hút rất nhiều nhà khoa học và kỹ sư CNTT, các nhà nghiên cứu của nhiều ngành KHXH, nghệ thuật, sinh học…Mục tiêu là phát triển các nguồn tư liệu số, thử nghiệm liên kết giữa các nguồn tư liệu phân tán, thiết lập nguyên tắc, phần mềm và cấu trúc mạng có khả năng liên hợp các tư liệu đa phương tiện thành các bản ghi nhất thể, giải quyết vấn đề ngữ nghĩa hiện đang cản trở việc tích hợp tư liệu số từ các tư liệu từ các sưu tập phân tán và rất khác nhau về cấu trúc. Pha 2 của SKTVS tập trung vào 3 hướng nghiên cứu lớn sau: • Human-centered research-nghiên cứu hỗ trợ việc tạo ra thông tin và sử dụng thông tin. • Content and collections-tạo lập thư viện số chứa đựng các dạng tri thức. • System-centered research-các vấn đề kỹ thuật, phần mềm, phân loại khi tổ chức và liên kết các bộ dữ liệu số dạng thức khác nhau thông qua Internet. Để hình dung rõ hơn về 3 hướng nghiên cứu trên, chúng ta sẽ lược qua các dự án chính, các vấn đề quan trọng nhất của 3 hướng nghiên cứu và triển khai này. 1.2.1.Human-centered research (nghiên cứu hướng nguời dùng) Trong hướng này, có các dự án và chương trình lớn: Personalized Retrieval and Summarization of Image, Video, and Language Resources (PERSIVAL). Trong dự án PERSIVAL, các nhà nghiên cứu ở Đại học Columbia đang thử nghiệm thiết kế hệ thống giúp cho các bệnh nhân truy cập dễ dàng và nhanh chóng đến các nguồn thông tin y học trực tuyến thích hợp cho từng người bệnh. Digital resource designed for children. Các nhà nghiên cứu ở Đại học Maryland phát triển các công cụ thích hợp cho phép nghe, xem, tìm kiếm, hỏi đáp 1-3 và tổ chức thông tin nghe, nhìn, văn bản…cho trẻ em. Technologies and tools for students. Nhiều đại học và cơ quan nghiên cứu như Đại Học Quốc Gia Georgia, Hiệp Hội Máy Tính (Association for Computing Machinery-ACM), Ủỵ Ban Giáo Dục của SIGGRAPH (SIGGRAPH Education Committee) đang phát triển các kỹ thuật và công cụ cho sinh viên để việc truy cập thông tin trực tuyến phục vụ học tập ở đại học được hiệu quả. Video information college. Dự án được triển khai tại Đại Học Carnegie Mellon nhằm thiết lập môi trường làm việc với các tư liệu video, văn bản, ảnh và âm thanh. Alexandria Digital Earth prototype (ADEPT). Đây là một bộ phận của chương trình hợp tác về thư viện số giữa Đại học Berkeley, Đại học Santa Barbara (UCSB), Đại học Stanford, Trung tâm Siêu Máy Tính San Diego và Thư Viện Số California, liên quan chủ yếu đến việc sử dụng các loại thông tin không gian, thư mục hóa chúng, những vấn đề tìm kiếm trên Web… http:/www.alexandria.ucsb.edu/adept/ 1.2.2. Content and collections (Nội dung và các bộ sưu tập) Hướng này tập trung nghiên cứu việc tổ chức các kho thông tin về mọi lĩnh vực tri thức. Một số dự án lớn có thể kể đến như: Digital Library for the humanity. Đại Học Tuffs hợp tác với viện Max Planck ở Berlin, Hội Ngôn Ngữ Hiện Đại (the Modern Language Association), Bảo Tàng Nghệ Thuật Boston (the Boston Museum of Fine Arts) và Tổ Hợp Xuất Bản Điện Tử Stoa (the Stoa electronic pubishing consortium) phát triển một thư viện điện tử chứa các tư liệu từ thời Ai Cập cổ đại đến thế kỷ 19. National Gallery of Spoken Word (NGSW). Đại Học Quốc Gia Michigan đang thực hiện một thư viện các bài nói lịch sử suốt thế kỷ 20 với các công cụ xử lý hiệu quả. 1-4 National digital library for science, mathematics, engineering, ang technology education (SMETE). Đại Học Berkeley California phát triển một thư viện số tập hợp các ngành khoa học, toán học và công nghệ hỗ trợ việc học tập ở bậc phổ thông trung học. Digital Atheneum. Đại Học Kentucky được Quỹ Khoa Học Quốc Gia tài trợ phối hợp với Thư Viện Anh và Chương Trình Shared University Research của IBM đang làm việc với kho tư liệu của Thư Viện Anh chứa đựng các tư liệu cổ của Hi Lạp, Do Thái từ thế kỷ 17. Digital workflow management. Hơn 29.000 ngàn bản nhạc Mỹ từ 1790 đến 1960 đang được Đại Học Hopkins chuyển thành một thư viện số. Data provenance. Các nghiên cứu tại Đại Học Pennsylvania hướng tới vấn đề nan giải bậc nhất của các tập hợp dữ liệu trực tuyến. Đó là độ trung thực của một bản tin số và những vấn đề liên quan, có thể xếp vào nhóm các vấn đề hệ thống được trình bày dưói đây. 1.2.3.System-centered research (nghiên cứu hướng hệ thống ) Phát triển các thư viện số đòi hỏi phải giải quyết rất nhiều vấn đề về hệ thống. Có thể nêu vài cái trong số các vấn đề quan trọng mà các nhà khoa học Mỹ đang tập trung giải quyết: New model for scholarly publishing. Bản chất vấn đề là việc xuất bản bây giờ khác xa cách in ấn truyền thống. Xuất bản tức thời, phân tán, liên tục… Mọi quy trình đều phải thay đổi thích hợp để thực hiện việc “xuất bản” trên các hệ thống tính toán phân tán. Vấn đề đang được Đại Học Berkeley California nghiên cứu. Classification systems. Một trong những vấn đề kỹ thuật phức tạp nhất của thư viện là phân loại tư liệu. Mọi công cụ lưu trữ, tìm kiếm đều rất phụ thuộc vào kỹ thuật phân loại. Với các thư viện số chứa đựng, tích hợp mọi dạng thức thông tin, tri thức thì vấn đề càng phức tạp. Rất nhiều đại học và các viện nghiện cứu đang 1-5 tập trung cho vấn đề này. Có thể xem trong Web site: Security, quality, access, and reliability. Với thư viện số thì an toàn, bảo mật, chống sao chép bất hợp pháp, kỹ thuật tìm kiếm… còn chứa đựng rất nhiều vấn đề mở. Chẳng hạn ở Đại Học Cornell, các nhà nghiên cứu đang tập trung cho tính toàn vẹn của một thư viện số. 1.3. Nghiên cứu về thư viện số tại Việt nam Ở Việt nam, các nghiên cứu về thư viện số mới chỉ ở các buớc khởi đầu. Trong những năm qua nhiêề phần mền quản lý thư viện và hỗ trợ đọc sách trên Internet đã được đầu tư phát triển. Bảng 1.1 là đặc tính của một số phần mềm quản lý thư viện do các nhà sản xuất phần mềm trong nước phát triển. Bảng 1.1. Danh sách một số phần mền quản lý thư viện do các nhà sản xuất phần mềm Việt nam phát triển Tên thuộc tính LIBOL (Tinh Vân) ILIB (CMC Soft) VEBRARY (Lạc Việt) Mô tả Phát triển vì nhu cầu trong nước (1997) và sau đó được thay đổi theo các chuẩn quốc tế Có giao diện dạng Web và được thiết kế theo mô hình mở 3 lớp. Đây là hệ thống quản lý thư viện điện tử, được dùng đầu tiên tại Trung Tâm Thông Tin Tư Liệu Đại Học Đà Nẵng Hệ điều hành WinNT, Unix, Linux Cơ sở dữ liệu NA Oracle 8i đối với phiên bản lớn SQL-Server đối với phiên bản nhỏ SmiLib NA Hỗ trợ tiếng Việt Hỗ trợ tiếng Việt mà một số ngôn ngữ khác như Anh, Nga, Nhật, Hoa, hỗ trợ Unicode Hỗ trợ đa ngôn ngữ, trong đó tiêng Việt theo bảng mã Unicode và TVCN Hỗ trợ tìm kiếm Tìm kiếm tra cứu mạnh, hỗ trợ tất cả các khung phân loại Hỗ trợ tìm kiếm tra cứu theo nhiều tiêu chí khác nhau Các chức năng chuyên môn Môi trường hiển thị: Web Chuẩn giao tiếp dữ liệu ISO2709 Hỗ trợ tra cứu liên thư viện qua chuẩn Z39.50 Có khả năng tùy biến giao diện Có 8 phân hệ nhgiệp vụ chuyên môn: tra cứu (Z39.50), , biên mục, ấn phẩm điện tử, ấn phẩm định kỳ, phân hệ bổ sung, phân hệ quản lý, phân hệ bạn đọc và phân hệ mượn trả. Hỗ trợ tôi đa khả năng liên thư việ theo các chuẩn (MARC, USMARC, UNIMARC Cho phép tra cứu liên thư viện theo chuẩn Z39.50 Có chức năng hỗ trợ mã vạch Cho phép thay đổi các module khác nhau qua các thông số Mọi thao tác trên thư viện đều qua trình duyệt Web Lưu trữ và lập chỉ mục với số lượng lớn các dạng tài liệu SGML, XML, MARC, RTF, các dạng tài liệu đa phương tiện theo chuẩn open-ebook của W3C Hỗ trợ các tiêu chuẩn về sách điện tử và thư viện như Z39.50, Unicode… Biên mục theo chuẩn MARC, ÚMARC (ngầm định là MARC21) Có nhiều tính năng khác như bổ sung tài liệu, lưu thông tài liệu, quản lý xuất bản phẩm nhiều kỳ, mượn liên thư viện, báo cáo thống kê. Tính năng bảo mật đáng lưu ý. Nhận xét Có khả năng đáp ứng hầu hết các nhu cầu chuẩn hóa về nghiệp vụ Thân thiện với người dùng, chức năng tìm kiếm nhanh chóng, chính xác trên nhiều ngôn ngữ và nhiều tiêu chí Có tính mở và linh hoạt Đã được ứng dụng tại một số nơi như Học Viện Quan hệ Quốc tế… Tuân thủ những tiêu chuẩn mở về hệ thống thư viện và được xây dựng trên nền công nghệ hiện đại, quản lý thư viện hiệu quả, có khả năng liên thông với các thư viện khác trên thế giới. 1-6 Thông tin liên lạc Cty Công nghệ Tin học Tinh Vân 371 Kim Mã, Hà NộI ĐT: (4) 771 5737 dlin@hn.cmc.com.vn Cty CMC Soft 777 GiảI Phóng, Hà NộI ĐT: (4) 664 1595 vebrary@lacviet.com.vn Cty Cổ phần Tin học Lạc VIệt 191A Hoàng Văn THụ, q. Phú Nhuận, tp. Hồ Chí Minh ĐT: (8) 842 3333 Fax: (8) 842 2370 1.4. Mục tiêu nghiên cứu của đề tài Các nghiên cứu-ứng dụng CNTT vào quản lý và khai thác thông tin trong các thư viện đã và đang được quan tâm. Sự phát triển nhanh chóng của CNTT và Internet vào những thập niên sau của thế kỷ 20 đã tạo ra lượng thông tin khổng lồ. Các thư viện số hóa đã được hình thành và hiện đang lưu trữ một lượng lớn thông tin, dễ dàng truy cập qua Internet. Do đó cần phải xây dựng các công cụ hỗ trợ tổ chức, tìm, đọc, tổng hợp thông tin. Những năm qua, nhiều thư viện và các trung tâm lưu trữ trong nước đã có những bước phát triển đáng kể trong việc sử dụng các công cụ CNTT để quản lý tư liệu, độc giả và hỗ trợ công tác tra cứu thông tin. Tuy nhiên hướng nghiên cứu phát triển các công cụ hỗ trợ tìm kiến, phân tích, tổng hợp thông tin vẫn đang còn chưa được đầu tư phát triển. Ngoài nuớc, nhóm nghiên cứu về thư viện số thuộc Đại học Arizona ở địa chỉ trang web là là một trong các nhóm thức đẩy các 1-7 nghiên cứu nhằm phát triển các kỹ thuật phân loại tư liệu hỗ trợ tìm đọc và tổng hợp thông tin. Đề tài “Xây dựng một số công cụ hỗ trợ tra cứu và tổng hợp thông tin trong thư viên số “ tập trung vào các nội dung sau: • Nghiên cứu nhu cầu khai thác thông tin của độc giả trong một số thư viện số hóa tiêu biểu như thư viện cao học trường ĐHKHTN; thư viện sách điện tử thuộc chương trình đào tạo từ xa ĐHQG-HCM làm cơ sở cho việc áp dụng trong các thư viện khác. • Nghiên cứu đề xuất qui trình tổ chức thông tin hỗ trợ tiến trình sưu tầm, tổ chức và khai thác thông tin trong các thư viện số hóa và xây dựng hệ thống phần mềm hỗ trợ qui trình. • Nghiên cứu và xây dựng các công cụ phần mềm hỗ trợ tìm kiếm, phân tích tổng hợp thông tin trong các thư viện số hóa. Giai đoạn 1: từ tháng 12/2001 đến 7/2002 • Nghiên cứu các nhu cầu khai thác thông tin trong thư viện số • Nghiên cứu đặc trưng của thông tin tư liệu • Nghiên cứu các công nghệ sưu tầm, tổ chức thông tin theo tiếp cận tác nhân thông minh, phân lớp gom cụm • Thiết kế hệ thống và cài đặt một số phần mềm phân lớp gom cụm Giai đoạn 2: Từ 08/2002 đến 3/2003 • Nghiên cứu công nghệ tìm kiếm thông tin theo tiếp cận tác nhân thông minh • Cài đặt một số phần mềm phân lớp, gom cụm, hỗ trợ tra cứu thông tin 1.5. Các kết quả đạt được của đề tài • Xây dựng khung tiêu đề đề mục Việt, Anh , từ điển từ đồng hiện CNTT • Xây dựng công cụ Search và Download • Xây dựng công cụ tìm các dãy từ phổ biến để đặc trưng văn bản • Xây dựng công cụ tổng hợp văn qua gom cụm bằng mạng Kohonen • Xây dựng thư viện số trên Web với hàng ngàn bài báo khoa học. Phát triển truy vấn thư viện qua từ khóa, qua tiêu đề đề mục, qua từ đồng hiện, qua lớp ra Kohonen trên giao diện Web. 2-1 CHƯƠNG 2 TỔ CHỨC KHAI THÁC THÔNG TIN THƯ VIỆN 2.1. Tổ chức phục vụ khai thác thông tin Bước qua giai đoạn quản lý tư liệu đã tồn tại nhiều thế hệ, đến giai đoạn quản lý thông tin đã đặt ra cho nghề thư viện vấn đề trao đổi và chia sẻ thông tin. Đây là bước ngoặt quan trọng trong nghề thư viện, đồng thời việc ứng dụng triệt để thành tựu CNTT đã đặt ra một thách thức cho nghề thư viện là phải nhanh chóng thay đổi quan niệm ngành nghề đề đối phó với với sự phát triển như vũ bảo của CNTT. Ngày nay lượng thông tin dồi dào trở nên quá tải, CNTT lại giúp người ta chọn lọc thông tin có ích và có ý nghĩa được gọi là tri thức và CNTT đồng thời cũng giúp người ta tự hình thành tri thức – Đây là giai đoạn quản lý tri thức. Ngày nay để đánh giá một thư viện, người ta cho rằng: “Giá trị thư viện không phải ở chỗ thư viện có bao nhiêu nguồn thông tin mà là thư viện đáp ứng nhu cầu thông tin một cách có hiệu quả như thế nào từ rất nhiều nguồn thông qua công nghệ mới”; Trong một quan niệm mới khác về thư viện, người ta cho rằng “Chuyên môn cốt lõi của nghề thư viện là điểm giao nhau của ba mặt: thông tin, công nghệ thông tin và người sử dụng”. Hiểu biết về nguồn thông tin và cách tổ chức thông tin là năng lực quan trọng của cán bộ thư viện. Nghiệp vụ thư viện cho chúng ta biết cách thu thập thông tin – biểu thị qua công tác quản lý và phương thức truy hồi thông tin; biết cách tổ chức thông tin – biểu thị qua công tác phân loại, biên mục, chỉ mục và thiết lập cơ sở dữ liệu; biết cách lưu trữ thông tin – biểu thị qua công tác quản lý vật lý nguồn thông tin và các hoạt động tìm kiếm. Nói chung, người cán bộ thư viện phải biết cách tạo điều kiện để người sử dụng truy cập được thông tin. Công nghệ thông tin và truyền thông đã có ảnh hưởng trong 20 năm qua và ngày nay đang có khả năng thay đổi cuộc sống của chúng ta về mọi mặt. Động lực thay đổi quan trọng nhất chính là thông tin. Công nghệ thông tin mở rộng bốn bức tường của thư viện nhằm cung cấp nguồn thông tin trong thư viện ra ngoài, đồng thời cung 2-2 cấp nguồn tư liệu ngoài phạm vi thư viện cho người sử dụng trong thư viện. CNTT đã đưa ngành thông tin thư viện đạt đến đỉnh cao của quản lý thông tin. Trong giai đoạn này – người cán bộ thư viện đã thay đổi vai trò của mình từ người giữ sách thụ động sang vai trò chủ động của người cung cấp thông tin – là đã bắt đầu quan tâm đến người sử dụng. Ngày nay trong công tác phục vụ thông tin, áp lực thường trực đối với người cán bộ thư viện là phải thực hiện: - Cung cấp lượng thông tin đúng, - Thời điểm đúng, - Hình thức trình bày đúng, - Nhằm sử dụng đúng mục đích, - Chi phí hợp lý. Muốn hoàn thành tốt công việc trên thì người cán bộ thư viện phải quan tâm đến người sử dụng với việc sử dụng thông tin: - Hiểu nhu cầu người sử dụng, - Phương thức sử dụng thông tin, - Khả năng đáp ứng nhu cầu Giá trị chuyên nghiệp của nghề thư viện sẽ được nâng cao một khi chúng ta không phải chỉ tập trung vào việc mua và cho mượn sách và những tài liệu khác mà là phải biết nhận định nhu cầu và tìm ra giải pháp thông tin cho người sử dụng, đồng thời bằng cách sử dụng CNTT để quản lý thông tin một cách hợp lý nhằm đưa thông tin đến với người sử dụng một cách nhanh nhất. Bước qua giai đoạn quản lý tri thức, yêu cầu đặt ra cho người cán bộ thư viện là phải quản lý lượng thông tin điện tử khổng lồ nhằm đáp ứng nhu cầu tìm kiếm của người sử dụng ngày càng gia tăng. Biên mục tự động là một trong những vấn đề then chốt trong giai đoạn này để quản lý thư viện kỹ thuật số. Sử dụng hệ thống ngôn ngữ tiêu đề đề mục để giúp người sử dụng tìm kiếm và tập trung thông tin theo chủ đề là một công việc biên mục mang tính nghiệp vụ cao nhất - đòi hỏi cả hai tính chất đặc thù là kỹ thuật và nghệ thuật. Việc biên mục tự động do đó đòi hỏi chuyên gia tin học và cán bộ thư viện phải có một sự phối hợp đồng bộ để tạo nên một hệ thống tiêu đề đề mục phản 2-3 ánh đúng nội dung của kho tin. Đồng thời hỗ trợ việc tìm kiếm thông tin cho người sử dụng thông qua hệ thống tiêu đề đề mục hoàn chỉnh đó. Tiêu đề đề mục hay đề mục là một danh từ hay cụm từ được hình thành theo những nguyên tắc định sẳn với một cấu trúc nhất định hay ngữ pháp ngôn ngữ tiêu đề đề mục. Một tiêu đề đề mục phản ánh một nội dung của tài liệu. Một danh sách tiêu đề đề mục được biên soạn trước và đưa vào trong CSDL được xem như là một tập tin có thẩm quyền (authority file) dùng để kiểm soát tính nhất quán (authority control) của tiêu đề đề mục. Đồng thời được dùng để ấn định tiêu đề đề mục cho từng tài liệu điện tử một cách tự động. Ngôn ngữ tiêu đề đề mục không quá máy móc và đơn giản như từ khóa, và cũng không dài dòng như ngôn ngữ thường. Tiêu đề đề mục có một cấu trúc nhất định gồm đề mục mục chính với những phân mục phản ánh tính khoa học và đại chúng sẽ trở nên gần gũi với những tìm tin phục vụ công tác nghiên cứu; bản thân danh sách tiêu đề đề mục cũng đã đóng góp một phần trong công tác nghiên cứu cho những ai theo đuổi một đề tài theo một chủ đề nào đó. Để ấn định một tiêu đề đề mục cho một cuốn sách hay một tài liệu, người cán bộ biên mục phải mất nhiều thời gian trước khi đưa vào CSDL một biểu ghi có chứa tiêu đề đề mục đó, đây là công việc tiền kết hợp (pre-coordinating). Tiền kết hợp theo cách này sẽ không thực hiện được khi khối lượng thông tin cần xử lý trở nên quá lớn. Tuy nhiên với giải pháp hỗ trợ của CNTT được trình bày trong đề tài nghiên cứu khoa học này, công việc biên mục trở nên tự động. Ngoài ra với các nghiên cứu gom cụm thông tin sẽ cung cấp giải pháp đề xuất tập các từ khóa đặc trưng cho nhóm thông tin cần khảo sát tạo điều kiện cho việc xây dựng các khung tiêu đề đề mục. 2-4 2.2. Một ví dụ điển hình về thư viện điện tử trực tuyến (www.webcrawler.com) Webcrawler là một trong những thí dụ điển hình về thư viện điện tử online. Trên trang chủ của Webcrawler, ở trên cùng bên góc trái là Ô hội thoại để tìm theo Từ khóa. Phía dưới là 18 chanels cho các chủ đề khác nhau (Giải trí, Giáo dục, Máy tính và Internet, Tin tức, Sức khỏe, Mua sắm,vv…). 2-5 Ví dụ khi nhấp chuột vào chanel Giáo dục (Education), ta sẽ đi đến một trang web mà trên đó, trong phần Thư mục (Directory) sẽ bao gồm 14 lãnh vực thuộc Giáo dục (Ái hữu, Nghệ thuật và Nhân văn, Hỗ trợ tài chánh, Luật học, Thư viện, Tham khảo, Khoa học & Tự nhiên, Khoa học Xã hội, Các Viện và Trường đại học, ...). Nếu ta thử nhấp chuột vào mục Khoa học và Tự nhiên, ta sẽ lại đi đến một webpage gồm 17 ngành Khoa học tự nhiên (Hóa học, Vật lý, vv…). Nếu cần tìm các thông tin về Hóa học, ta lại nhấp chuột vào mục Hóa học, dưới đề mục Hóa học này lại gồm 15 chuyên ngành nhỏ và các vấn đề liên quan đến Hóa học (Hóa phân tích, Hóa đại cương,v.v…). Webcrawler sẽ đề nghị những website tốt nhất về những vấn đề này mỗi khi ta nhấp chuột vào các đề mục trong Directory. Sự tổ chức của một thư viện điện tử online về bản chất không khác với một thư viện truyền thống: một chủ đề lớn bao gồm những chủ đề nhỏ, rồi đến lượt các chủ đề nhỏ này bao gồm các chủ đề nhỏ hơn, và cứ thế tiếp tục cho đến tận nguồn thông tin cuối cùng là một trang web hay một bài viết. Điều làm cho các nguồn thông tin trong một thư viện điện tử online như trong phần Directory của Webcrawler khác với các nguồn thông tin truyền thống là khối lượng khổng lồ của khả năng nối kết to lớn giữa các thông tin trên mạng. Ví dụ khi tìm các thông tin về Hóa học, từ những web site tốt nhất được đề nghị trong phần Directory Matches của Webcrawler, chúng ta sẽ được dẫn đến rất nhiều web site lớn khác như web site của Hiệp hội Hóa học Hoa Kỳ, và nhiều web site khác mà chính bản thân chúng cũng có 2-6 thể coi như những thư viện về hóa học vì khối lượng thông tin to lớn được nối kết trong mọi web site này. 3-1 CHƯƠNG 3 TIÊU ĐỀ ĐỀ MỤC 3.1 TIÊU ĐỀ ĐỀ MỤC Tiêu đề đề mục được dịch từ Subject Heading (Subject = Đề mục và Heading = Tiêu đề) đôi khi được gọi là Đề mục như ta đã biết, cùng với Tác giả và Nhan đề là những điểm truy cập quan trọng nhất trong Hệ thống tra cứu thư viện. Tác giả và Nhan đềø được mô tả dựa vào dữ liệu có sẵn của tư liệu, trong khi đó Tiêu đề đề mục do cán bộ biên mục xác định dựa vào nội dung tư liệu rồi đưa vào hệ thống như một dữ liệu mới, tiến trình này được gọi là Phân tích Đề mục hay Phân tích Chủ đề (Subject Analysis) phải được thực hiện với nghệ thuật và kỹ thuật biên mục. Từng tư liệu được xác định đúng tiêu đề đề mục hay hệ thống tiêu đề đề mục của một thư viện được xử lý tốt thì nội dung kho tư liệu của thư viện đó được phản ánh một cách đầy đủ. Do đó Tiêu đề đề mục được dùng rộng rãi trong Biên mục sách (Cataloging). Thư viện của một quốc gia sử dụng ngôn ngữ nào thì Tiêu đề đề mục được thể hiện bằng ngôn ngữ đó. Từng quốc gia do đó thiết lập một Hệ thống Tiêu đề Đề mục bằng ngôn ngữ của riêng mình, nhưng phải tuân theo những cấu trúc và nguyên tắc thiết lập chung để dần dần tiến đến một ngôn ngữ chung "Ngôn ngữ tiêu đề đề mục = Subject Heading Language". Một vài minh họa phô hiện thông tin trên biểu ghi về tư liệu với Đề mục. sử dụng Tiếng Việt cho Hệ thống Tiêu đề đề mục của Thư viện mình như minh họa trong Hình 3.1 - Hai Đề mục được đánh số thứ tự Ả Rập ở dòng cuối cùng của Thẻ Thư mục. 3-2 Hình 3.1: Thông tin về sách (Hệ thống Online Catalog của Thư viện ĐH Khoa học Tự Nhiên) Độc giả có thể nhấp chuột vào các Đề mục sau để tìm tài liệu có nội dung tương ứng: C++ (NGÔN NGỮ LẬP TRÌNH MÁY TÍNH) ĐỒ HỌA MÁY TÍNH Thư viện Quốc hội Hoa kỳ sử dụng Khung Đề mục LC (Library of Congress Subject Headings) để định Tiêu đề đề mục. Ví dụ ở Hình 3.2 cho ta thấy thông tin về một cuốn sách xuất bản bằng Tiếng Việt có hai Đề mục bằng Tiếng Anh được dịch như sau: BỘ ĐỘI--GIÁO DỤC NGOẠI KHÓA--VIỆT NAM VIỆT NAM--LỰC LƯỢNG VŨ TRANG--SINH HOẠT CHÍNH TRỊ 3-3 Hình 3.2: Thông tin về sách (Hệ thống Online Catalog của Thư viện Quốc hội Hoa kỳ) Ví dụ ở Hình 3.3 là một biểu ghi thư mục một tác phẩm Tiếng Ba Lan của Thư viện Quốc gia Anh gồm 4 Tiêu đề mục bằng Tiếng Anh. Đề mục ở đây được chọn từ Khung LCSH (Library of Congress Subject Headings). Những đề mục được dịch như sau: KINH TẾ DỰ BÁO--BA LAN BA LAN--ĐIỀU KIỆN KINH TẾ--1990- BA LAN--CHÍNH SÁCH KINH TẾ--1990- 3-4 Hình 3.3: Thông tin về sách (Hệ thống Online Catalog của Thư viện Quốc gia Anh) Hình 3.4 trình bày một biểu ghi thư mục của một bài tạp chí trong Cơ sở dữ liệu CD-ROM "General Science" của EBSCO. Bài tạp chí này được phân tích thành hai Đề mục mang nội dung khác nhau, được dịch như sau: Y TẾ, CHĂM SÓC--VIỆT NAM VIỆT NAM--CHÍNH SÁCH KINH TẾ 3-5 Search/Subjects/Find GENERAL SCIENCE (FEB'91 - MAR'96) +--------------------------Detailed Display - 1 of 1---------------------------+ Subject: MEDICAL care -- Vietnam; VIETNAM -- Economic policy Title: The influence of market economics on primary health care in Vietnam. Author: Gellert, George A. Summary: Analyzes the impact of economic reforms introduced in Vietnam in 1986 on health care in the country. Information on Vietnam's health care system; Abolishing the subsidy system; Details of factors affecting primary health care; Disease prevention and health promotion programs;Conclusions. Source: (Journal of the American Medical Association, 5/17/95, Vol. 273 Issue 19,p1498,5p) ISSN: 0098-7484 Item No: 9506043952 Hình 3.4: Thông tin về bài tạp chí (CSDL CD-ROM EBSCO) Qua các minh họa trên ta thấy Tiêu đề đề mục đóng vai trò quan trọng trong việc giới thiệu nội dung của một tư liệu (sách hoặc bài tạp chí...). Tiêu đề đề mục là một trường độc lập trong một biểu ghi. 3.2. TỪ KHÓA Từ khóa là từ được dùng để định vị thông tin trong một Cơ sở dữ liệu. Thông tin có thể là một biểu ghi thư mục (bibligographic record), bản tóm tắc (abstract), hay toàn văn (full text) mà Từ khóa hiện diện trong đó. Có hai loại Từ khóa: 3-6 • Từ khóa tự do (Free Style Keyword) là từ nằm sẵn trong tư liệu hay CSDL. Từ khóa này không có riêng một trường độc lập. • Từ khóa có kiểm soát (Controlled Style Keyword) là từ được chọn lọc đưa vào CSDL. Từ khóa loại này có riêng một trường độc lập. Khác với Tiêu đề đề mục đã có từ lâu, Từ khóa chỉ mới xuất hiện khi computer được áp dụng trong ngành Thông tin Thư viện. Từ khóa giúp ta tìm nhanh tài liệu có chứa từ khóa đó. Nhờ các Phép toán Boolean giúp ta kết hợp nhiều nội dung tìm hay hạn chế số lượng kết quả tìm. Do đo Từ khóa được dùng để định vị và chỉ điểm (pointing) thông tin cần tìm trong CSDL. Từ khóa được dùng rộng rãi trong công tác Chỉ mục tạp chí (Indexing). 3.3. SO SÁNH TIÊU ĐỀ ĐỀ MỤC VỚI TỪ KHÓA. Tiêu đề đề mục với Từ khóa tự do: Được dùng trong Biên mục sách • Tiêu đề đề mục là do Cán bộ biên mục đưa vào Cơ sở dữ liệu để phản ánh nội dung tư liệu. • Từ khóa tự do có thể là Từ khóa trong Nhan đề, Từ khóa trong Tác giả, Từ khóa trong Đề mục. Vài minh họa cách sử dụng Từ khóa tự do trong Hệ thống tra cứu Online Catalog. So sánh với cách sử dụng Tiêu đề đề mục. Hình 3.5 và Hình 3.6 cho ta thấy hai cách tìm theo Tiêu đề (Heading) và Từ khóa tự do (Keyword) trong Hệ thống Online Catalog của Thư viện Baker, Đại học Harvard, Hoa kỳ. 3-7 Hình 3.5 Khi ta chọn BASIC SEARCH màn hình sẽ hiện ra như Hình 3.5 cho ta phương thức tìm theo Tiêu đề gồm: Tiêu đề Tác giả, Tiêu đề Nhan đề, Tiêu đề Tên Tạp chí, Tiêu đề đề mục, và Tiêu đề ký hiệu Phân loại (Xếp giá). Mỗi Tiêu đề là một Trường trong CSDL. Ta phải gõ đầy đủ thông tin về Tiêu đề. Chẳng hạn như đối với Tiêu đề đề mục thì ta phải gõ đầy đủ Đề mục chính, Tiểu phân mục, dấu phân cách,v.v... Ví dụ: VIETNAM--HISTORY--1954-1975 Nếu ta chọn KEYWORD SEARCH Màn hình như Hình3.6 cho ta phương thức tìm theo Từ khóa tự do kèm theo giải thích cách tìm theo những Toán tử logic: • thêm AND/OR vào ô hội thoại • dùng ngoặc kép để thể hiện Từ khóa nhóm từ: "venture capital" • dùng + để đánh dấu những từ thiết yếu: +management 3-8 • dùng * để đánh đấu những từ quan trọng: *technology • dùng ? để chặt cụt từ: industr? • dùng ! để ngăn chặn từ: !computer Hình 3.6 Màn hình như Hình 3.7 minh họa cách tìm Từ khóa trong Nhan đề và Từ khóa trong Đề mục trong Hệ thống Online Catalog của Thư viện Quốc gia Anh. 3-9 Hình 3.7 Nếu ta chọn Từ khóa trong Đề mục thì vào ô hội thoại Subject (Đề mục). Ví dụ ta chọn Từ khóa economic. Những cuốn sách có Đề mục mang Từ khóa trên được phô hiện; giã sử ta chọn cuốn sách có biểu ghi như Hình 3.3 có tựa đề là "Polonia quo vadis?..." và có những Đề mục mang Từ khóa economic như sau: ECONOMIC FORECASTING--POLAND POLAND--ECONOMIC CONDITIONS--1990- POLAND--ECONOMIC POLICY--1990- Nếu ta chọn Từ khóa trong Nhan đề thì vào ô hội thoại Title (Nhan đề). Ví dụ ta chọn Từ khóa Vietnam. Màn hình như Hình 3.8 phô hiện những nhan đề sách có chứa Từ khóa Vietnam. 3-10 Hình 3.8 Hình 3.9 Hệ thống Online của Thư viện ĐH Simmons, Hoa kỳ như trong Hình 3.9 cho ta thấy độc giả có thể tìm tư liệu theo Tác giả (Author), Nhan đề (Title), Đề mục 3-11 (Subject), Từ Khóa tự do (Keyword), Ký hiệu xếp giá theo số Phân loại LC, Ký hiệu xếp giá không theo số Phân loại LC, số ISSN/ISBD. Tiêu đề đề mục với Từ khóa có kiểm soát: Cả hai đều là Thuật ngữø có kiểm soát (Controlled vocabulary) được tạo thành Trường độc lập trong Hệ thống Online Catalog. • Tiêu đề đề mục được dùng để mô tả nội dung tư liệu. Danh sách Tiêu đề đề mục (Subject heading list) chẳng hạn như "Library of Congress Subject Headings" và "Sear List of Subject Headings" được dùng trong Biên mục sách và đôi khi được dùng trong Chỉ mục Tạp chí. • Từ khóa có kiểm soát tập hợp những từ phản ánh một phần nội dung tư liệu, được kiểm soát để đồng nhất. Từ khóa nói chung không chú trọng đến cấu trúc và mô tả dữ liệu. Chỉ chú trọng đến việc kết hợp để tạo nên những biểu thức tìm nhằm định vị nhanh và chỉ điểm đúng thông tin trong CSDL. Danh sách những Từ khóa có kiểm soát được gọi là Thesaurus được dùng trong Chỉ mục tạp chí. 3.4 KẾT LUẬN Tiêu đề đề mục và Từ khóa là bộ phận không thể thiếu trong Bộ máy tra cứu tư liệu. Trong đó Tiêu đề đề mục là bộ phận chủ yếu nhất trong Biên mục học (Cataloging), hiện diện trong giáo trình Khoa học Thông tin và Thư viện kể từ khi Nghề Thư viện ra đời cách đây rất lâu và càng tỏ ra hữu hiệu trong Hệ thống Mục lục trực tuyến (Online catalog) ngày nay. Do vậy cần khuyến khích sử dụng và thành lập "Danh sách Tiêu đề đề mục Tiếng Việt" theo chuẩn quốc tế để hỗ trợ phát triển công tác biên mục thư viện đặc biệt là các thư viện điện tử nhằm hỗ trợ tiến trình tra cứu thông tin. 4-1 CHƯƠNG 4 XÂY DỰNG CÔNG CỤ TÌM KIẾM VÀ DOWNLOAD DỰA TRÊN TÁC NHÂN 4.1.TÁC NHÂN” PHẦN MỀM (SOFTWARE AGENT): 4.1.1. Các định nghĩa về “tác nhân” Stan Franklin và Art Graesser ở Viện các hệ thống thông minh ở đại học Memphis liệt kê ra một số định nghĩa về tác nhân như sau: • The MuBot Agent ( "Từ tác nhân được dùng cho hai nghĩa. Thứ nhất là khả năng tự động thi hành Thứ hai là khả năng định hướng hoạt động theo lĩnh vực" • The Hayes - Roth Agent (Hayes -Poth 1995) Các tác nhân thông minh biểu hiện 3 chức năng: cảm nhận về những trạng thái trong môi trường, hành động để tác động lên trạng thái trong môi trường đó. • The IBM Agent ( 'Tác nhân thông minh hoàn toàn là một phần mềm thực hiện một tập các hành động dựa trên cư xử của người sử dụng hay chương trình khác với môt vài mức độ độc lập hay tự hoạt động, và trong quá trình làm như thế, dùng một số tri thức về mục đích và mong muốn của người sử dụng • The Brustoloni Agent (Brustoloni 9991, Frankin 1995, trang 265) "Các tác nhân là các hệ thống có khả năng tự hoạt động, hành động có mục đích trong thế giới thực." . Theo những định nghĩa trên có thể làm chúng ta thấy rõ rằng các tác nhân phải có tính tự hoạt động (độc lập), tìm kiếm mục tiêu, kiên định, suy luận và khả năng giao tiếp. 4.1.2. Các thuộc tính của tác nhân Tác nhân về cơ bản hoàn toàn khác với các chương trình phần mềm và các chương trình, chúng phải có các đặc tính và thuộc tính đặc biệt. Một tác nhân phải có các đặc tính sau: 4-2 • Thích nghi: một tác nhân phải có khả năng làm việc thích nghi. Khi môi trường thay đổi, tác nhân phải tự động cảm nhận và có hành động thích nghi với những thay đổi của môi trường. • Tự khởi động: một tác nhân có thể tự kích hoạt hay dùng kích hoạt dựa trên tiêu chuẩn của chính bản thân nó và có khả năng quyết định thu gom thông tin sử dụng các ưu tiên của người dùng. Hoạt động thường xuyên theo giờ, ngày, tuần hay hàng tháng được đặt ra. Tác nhân cần có khả năng quyết định kích hoạt hay ngừng hoạt động. • Trong suốt: Người sử dụng sẽ không nhìn thấy hoạt động bên dưới của tác nhân trong hệ thống. . Mọi công việc trên đều trong suốt với người sử dụng. Người sử dụng hầu như không biết tác nhân đang chạy trong hệ thống của mình. 4.1.3. Sự tác động trực tiếp của Internet Nhiều người cho rằng "tác nhân" và Internet luôn gắn liền với nhau. Lý do là đầu tiên tác nhân được sử dụng cho các công việc trên môi trường Internet ( tác nhân tìm kiếm chẳng hạn). Tuy vậy, tác nhân có thể hành động trong bất kỳ môi trường nào. 4.1.4. Các loại tác nhân: Có thể tóm tắt đặc điểm của một số loại tác nhân như sau: • Tác nhân thông minh: là loại mang ý nghĩa tổng quát và phù hợp với các định nghĩa đã trình bày ở trên • Tác nhân học: là những tác nhân phần mềm mà cơ bản học từ người sử dụng hay người chủ của nó. Việc học chúng ta định nghĩa ở đây như là việc bổ sung hành vi thông qua kinh nghiệm hay sự phán đoán. Một khi các công việc được học, tác nhân có thể sau đó chỉ dẫn hay đề nghị các cách thức để cải tiến công việc nào đó. • Tác nhân niềm tin: đây là tác nhân mà có hình ảnh cử động hay có lẽ là có tính cách khiến chúng đáng tin cậy. Một phần của kỹ thuật tác nhân vẫn ở 4-3 trong nó. Trong tương lai các tác nhân này sẽ trở nên thông minh hơn. Tác nhân niềm tin hiện thời không thông minh chúng chỉ xuất hiện thân thiện để giao tiếp với người dùng. Chúng thường xuất hiện thân thiện để giao tiếp với người dùng. Chúng thường có mặt ở các trò chơi trẻ con như những con thú ảo,… • Tác nhân có khả năng chuyển tải: Những tác nhân này rất năng động, linh hoạt và có khả năng di chuyển đến nơi khác. Chúng có thể cư ngụ trên một máy chủ hay một máy trạm nào đó, và gặm nhấm thông tin từ máy tính, mạng Internet đã thực hiện công việc của nó. Nó thường được sử dụng để thu nhập dữ liệu, thông tin hay là những thay đổi. Tác nhân có khả năng vận tải có nhiều thuận lợi hơn so với mô hình client/server truyền thống. 4.1.5. Ứng dụng khái niệm “tác nhân” trong chương trình: Chương trình cần được thiết kế theo hướng tiếp cận tác nhân đảm bảo đáp ứng đúng mục tiêu đã đề ra ban đầu: xây dựng một chương trình nhằm giúp cho người quản trị thư viện có thể biên mục một cách nhanh chóng và hiệu quả nhằm tiết kiệm thời gian và công sức tìm kiếm thông tin trên Internet. Theo cách tiếp cận này, chương trình được thiết kế gồm 2 “tác nhân” chính: tác nhân tìm kiếm và tác nhân download. Khi chương trình được kích hoạt, hai tác nhân sẽ hoạt động liên tục để thực hiện nhiệm vụ của mình. Trong quá trình thực hiện các tác nhân có thể chuyển sang trạng thái chờ nếu không có việc và sẽ tự động hoạt động trở lại khi cần thiết. Các tác nhân sẽ có khả năng hoạt động độc lập và liên tục không đòi hỏi nhiều sự can thiệp của con người. Các tác nhân sẽ hoạt động dưới dạng một dịch vụ của hệ thống để đảm bảo tính trong suốt đối với người sử dụng. 4-4 4.2. GIỚI THIỆU VẤN ĐỀ: Ngày nay với sự bùng nổ thông tin, nhất là sự phát triển mạnh mẽ của Internet và World Wide Web. Việc tìm kiếm thông tin thật sự dễ dàng đối với người dùng Internet. Tuy nhiên, Internet như một xa lộ rộng lớn và rất dễ đưa người sử dụng đi lạc trong cái mênh mông của nó. Thật là dễ dàng vì bạn có thể dùng các trang tìm kiếm thông tin như yahoo hay google... để tìm kiếm một thứ gì đó. Nhưng giả sử chúng ta cần tìm kiếm một số luận văn nghiên cứu về máy học, và chúng ta bắt đầu tìm kiếm một cách bình thường, tức là vào google hay yahoo để search với từ khóa :”Machine learning”. Lúc này kết quả hiện ra là hàng ngàn các trang web nói về machine learning, bao gồm các trang web của các khoa máy tính của các đại học ,viện trên thế giới và các home page của các chuyên gia... Để tìm kiếm tiếp chúng ta lần lượt chọn các địa chỉ web và xem, rồi chọn lọc.... Đến khi nào thông tin của chúng ta thỏa mãn thì thôi. Việc tìm kiếm này đòi hỏi công sức và thời gian rất nhiều. Một câu hỏi đặt ra là trong một tổ chức như một viện hay một trường đại học, việc tìm kiếm thông tin như vậy sẽ rất không khoa học. Ví dụ cùng một mục đích nhưng anh A ở khoa này phải tốn cả buổi trời để tìm, rồi anh B cũng vậy, và còn nhiều người nữa. Thời gian cho việc tìm có thể là cấp số cộng. Nếu ta có thể xây dựng được một thư viện, tạm gọi là thư viện số. Tổ chức các thông tin và tài liệu tìm kiếm trên web một các khoa học và chính xác thì việc tìm kiếm thông tin hoàn toàn nhanh chóng và hiệu quả. Việc tìm kiếm chỉ thực hiện một lần, và có thể được cập nhật thông tin thường xuyên (vì web liên tục phát triển). Để xây dựng được thư viện số thì một trong thành phần quan trọng là tìm kiếm và lấy thông tin trên Internet. Trong phần báo cáo này chúng tôi xin trình bày hai cơ chế hỗ trợ xây dựng thư viện số là : search engine và download engine. 4-5 4.3. CHỨC NĂNG SEARCH ENGINE Thuật ngữ Search engine khá là thân thiện với chúng ta, những người sử dụng Internet thường xuyên. Ít nhất là một lần chúng ta sử dụng các trang web như Yahoo, Google hay Altavista để tìm kiếm một thông tin nào đó. Các trang web này lấy từ khóa mà người tìm kiếm hỏi rồi đưa vào một chức năng gọi search engine, search engine này thực chất là một chương trình máy tính, chương trình này sẽ truy lùng trong một cơ sở dữ liệu thông tin tìm kiếm (được tổ chức ở web server của các trang web tìm kiếm). Sau khi tìm xong thì web server sẽ trả về cho người dùng các kết quả tìm kiếm được. Đây là dạng tìm kiếm trực tiếp trên web. Ngoài ra còn có một dạng tìm kiếm client như sau: Một chương trình tìm kiếm chạy ở máy có kết nối cổng internet, cho phép người dùng tìm kiếm các thông tin trên các search engine khác nhau... Cách tìm kiếm này tiện lợi cho phép tìm kiếm thông tin đa dạng trên nhiều search engine và có thể lưu trữ lại các thông tin tìm kiếm theo nhiều định dạng tập tin khác nhau như text file, hoặc các sheet của excel... Chức năng Search Engine được cài đặt trong đề tài được phát triển theo hướng thứ hai. Chương trình cho phép chúng ta tận dụng sức mạnh của các Search Engine hiện có, đồng thời nâng cao hiệu quả của việc tìm kiếm dưói dạng thư viện số hóa. Ngoài ra, việc tìm kiếm sẽ được kích hoạt một cách tự động nhằm làm giảm tối đa sự can thiệp của con người vào quá trình tìm kiếm thông tin trên Internet vốn rất tốn thời gian. 4.4. CÀI ĐẶT SEARCH ENGINE TRONG THƯ VIỆN SỐ Hướng tiếp cận là xây dựng một chương trình tìm kiếm tự động dạng một chương trình search kết nối nhiều cơ sở dữ liệu thông tin của các search engine trên web như google và yahoo. Chương trình này sẽ hoạt động dạng một chương trình NT Service, nó sẽ hoạt động dưới dạng nền (deamon program), liên tục cập nhật thông tin mà người dùng cần tìm rồi thực hiện việc tìm kiếm trên Internet và lưu vào cơ sở dữ liệu của thư viện số. 4-6 Do luôn hoạt động dưới hình thức nền, nên khi có một yêu cầu do một người quản lý thư viện hay một người dùng cần tìm kiếm thông tin mới nào đó, thì chức năng tìm kiếm sẽ được kích hoạt. Các kết quả tìm đươc sẽ được lưu trữ vào thư viện và người dùng tìm kiếm sẽ được những thông tin cần tra cứu. Để thông tin được cập nhật liên tục thì thông thường theo định kỳ search engine phải cập nhật các thông tin đã tìm kiếm. Tức là thêm các thông tin mới và hủy bỏ những thông tin không còn tồn tại hay không còn giá trị trên Internet. Như chúng ta biết thì các trang web liên tục phát triển hàng ngày có hàng ngàn trang web ra đời và cũng có nhiều trang web không còn cung cấp hay không còn tồn tại nữa... Hình 4.1 Mô hình hoạt động của Search Engine Thông tin tìm kiếm Search Engine Internet - WWW Google Yahoo Altavista ..... Cơ sở dữ liệu thư viện số User- LAN Thông tin kết quả Thông tin mới cần tìm kiếm Chuyển từ khóa tìm kiếm cho search engine Thực hiện tìm kiếm trên Internet Lưu thông tin tìm kiếm mới vào CSDL Truy cập thư viện số ™ Mô hình hoạt động của Search Engine phục vụ cho thư viện số. 4-7 4.5. CHỨC NĂNG DOWNLOAD ENGINE Như chúng ta đã biết phần quan trọng của Internet & World Wide Web là cung cấp các tài liệu điện tử (e-book). Tài liệu này thường được lưu dưới rất nhiều định dạng tập tin khác nhau như pdf, ps, html, text file... Việc lấy các tài liệu dạng này về thư viện số cần phải có một chương trình tải về (download) từ Internet. Hiện tại có rất nhiều chương trình download thương mại trên thị trường cung cấp rất nhiều tiện ích tuỳ theo nhu cầu của người dùng. Tuy nhiên, do yêu cầu xây dựng thư viện số nên chúng ta cần phải xây dựng một chương trình download riêng để kết hợp với search engine. Tạo thành một khối kết hợp tự động, nhằm làm giảm sự can thiệp của người điều hành trực tiếp. Chức năng Download Engine sẽ đảm nhiệm công việc download các tài liệu điện tử tìm được về lưu vào cơ sở dữ liệu của thư viện số hóa. Công việc này cũng sẽ được kích hoạt tự động cùng với chức năng Search Engine. 4.6. CÀI ĐẶT DOWNLOAD ENGINE TRONG THƯ VIỆN SỐ Thành phần download engine này chịu trách nhiệm tải về các tập tin trên Internet bao gồm các tài liệu điện tử, các tập tin nguồn.... Cũng tương tự như search engine, chức năng downlaod engine cũng hoạt động dưới dạng NT Service. Tức là hoạt động nền bên dưới, khi nào có yêu cầu download thì nó sẽ tự động kết nối vào URL đã tìm được trong cơ sở dữ liệu và thực hiện việc download các tập tin về rồi lưu vào thư viện số. Chức năng này hoạt động dựa trên kết quả đạt được của chương trình Search Engine. Mỗi khi được kích hoạt, chương trình sẽ dò tìm trong cơ sở dữ liệu của thư viện để tiến hành download các tư liệu theo yêu cầu. Các tư liệu tải về sau khi được lưu lại sẽ được cập nhật thông tin trong cơ sở dữ liệu để phục vụ cho hoạt động của thư viện số. 4-8 Hình 4.2. Mô hình hoạt động của download engine 4.7. KẾT HỢP CƠ CHẾ SEARCH VÀ DOWNLOAD TRONG XÂY DỰNG THƯ VIỆN SỐ Việc kết hợp search engine và download engine vào việc xây dựng thư viện số là công việc thiết yếu. Hai chương trình này sẽ giúp cho người quản trị thư viện có thể biên mục thư viện số một cách nhanh chóng và hiệu quả. Việc kết hợp này sẽ đem lại nhiều lợi ích. Lúc này người biên mục không tốn nhiều thời gian, và công sức tìm kiếm thông tin trên Internet bằng các chương trình tìm kiếm khác nhau rồi sau đó chọn lọc và lưu giữ chúng. Và cuối cùng là chọn các tư liệu trên Internet để download về. Thông tin download Download Engine Internet - WWW Cơ sở dữ liệu thư viện số Quản trị thư viện số File Tư liệu, e-book Chuyển URL cần download cho chương trình Thực hiện download Lưu nội dung download vào CSDL ™ Mô hình hoạt động của Download Engine phục vụ cho thư viện số. URL User- LAN 4-9 Hình 4.3. Mô hình kết hợp hoạt động của search engine và download engine Cách thức hoạt động như sau: người quản trị hay biên mục thư viện trong quá trình xây dựng và duy trì thư viện số, họ sẽ đưa yêu cầu tìm kiếm thông tin trên Internet cho Search engine. Search engine sẽ thực hiện việc tìm kiếm trên Internet sau đó lưu kết quả tìm kiếm tức là địa chỉ của các trang web có nội dung liên quan. Những thông tin này được lưu vào cơ sở dữ liệu thư viện số nhằm cung cấp cho hai mục đích : cung cấp địa chỉ cho người tìm kiếm, và mục đích thứ hai là dùng các địa chỉ này để làm nguồn cho phần download engine lấy các tập tin và tài liệu liên quan từ nguồn này. Việc lấy các tài liệu từ các nguồn này rất cần thiết. Khi đó sẽ rất tiện lợi cho người dùng thư viện là họ không những tìm kiếm được trang web liên quan đến lĩnh vực mà còn xem được các tài liệu từ các nguồn này. Thông tin tìm kiếm Search Engine Internet - WWW Cơ sở dữ liệu thư viện số Quản trị thư viện số Chuyển thông tin tìm kiếm cho search engine Thực hiện Tìm kiếm URL Download Engine Google Yahoo .... Thông tin download Lưu kết quả tìm kiếm vào CSDL Chuyển thông tin cần download Chuyển thông tin cần download Lưu nội dung download về CSDL 4-10 Toàn bộ các công việc trên được cài đặt sử dụng hướng tiếp cận mới gọi là tác nhân thông minh (Intelligent Agent). Hướng tiếp cận mới này cho phép xây dựng những phần mềm có khả năng thay thế cho con người, ở đây là thay thế cho vị trí người quản thủ thư viện trong mô hình thư viện số. 4.8. KẾT QUẢ XÂY DỰNG CHƯƠNG TRÌNH 4.8.1. Gíơi thiệu Trong thời gian qua nhóm phát triển phần mềm đã xây dựng xong search engine. Chương trình này được gọi là Search Agent. Search Agent là một chương trình application dạng NT Service chạy trên nền Windows NT hay Windows 2000, Windows XP. Chương trình Search Agent hoạt động với đầu vào input và xuất dữ liệu output thông qua cơ sở dữ liệu là SQL Server. Tức là thông tin cần tìm sẽ được một chương trình nhập vào thông qua một client program hay một form từ một trang web. Thông tin cần tìm này hay còn gọi là khóa cần tìm sẽ được lưu vào một bảng tạm để chuẩn bị cho Search Agent thực hiện việc tìm kiếm. Search Agent luôn luôn truy cập vào bảng tạm này để lấy các thông tin mới cần tìm theo một khoảng thời gian nhất định cho trước. Các thông tin lấy về tức là các địa chỉ các trang web hay còn gọi là URL sẽ được lưu vào một bảng khác. Các thông tin này được chỉ mục với các từ khóa để tiện cho việc tìm kiếm của người dùng trong thư viện. Hình 4.4: Quá trình vận động của Search Agent Internet - WWW URL Google Yahoo .... Search agents yêu cầu tìm kiếm URLs kết quả Tự làm giàu tri thức từ các URLs kết quả 4-11 Search agent sẽ tiến hành lấy các kết quả tìm kiếm dựa trên kết quả có được từ các search engine khác. Tự động dò tìm các trang web ứng với từ khóa bằng cách tự tạo cho mình tri thức từ những trang web mà agent đi qua. Các thông tin lấy về tức là các địa chỉ các trang web hay còn gọi là URL sẽ được lưu vào một bảng khác. Các thông tin này được chỉ mục với các từ khóa để tiện cho việc tìm kiếm của người dùng trong thư viện.Giới thiệu chương trình Search Agent: Giới thiệu chương trình Search Agent: o Tên chương trình: Search Agent o Công cụ phát triển : Visual Studio 6. o Môi trường sử dụng : Windows NT, Windows 2K, Windows XP. o Cơ sở dữ liệu : SQL Server. o Yêu cầu kĩ thuật: cấu hình máy tính CPU Pentium II, 64MB RAM, 4GB HDD trở lên và phải có kết nổi với Internet. o Kết nối với cơ sở dữ liệu tìm kiếm trên Internet : Google và Yahoo. 4.8.2.Phân tích yêu cầu xây dựng Search Agent: o Xây dựng một ứng dụng Search engine thực hiện việc truy tìm thông tin trên Internet thông qua một từ khóa (keyword) hay cụm từ khóa (multiword). o Search engine thực hiện việc tìm kiếm thông qua cơ chế tự động kết nối với các cơ sở dữ liệu tìm kiếm trên Internet như Google, Yahoo, Hotbot, Altav ista... Để lấy các thông tin về các trang web liên quan cần tìm kiếm. o Việc thực hiện tìm kiếm phải đảm bảo tốc độ tốt nhất và tìm kiếm được nhiều thông tin nhất. Tức là kết nối với cơ sở dữ liệu tìm kiếm nhanh và chất lượng, điển hình là Google và Yahoo là hai trang tìm kiếm nhanh và hiệu quả ở thời điểm hiện tại. o Xây dựng chương trình kết nối với cơ sở dữ liệu lớn như SQL Server hay Oracle để các thông tin kết quả tìm kiếm được (có thể rất nhiều) 4-12 được lưu trữ tốt nhằm phục vụ cho mục đích tra cứu sau này hay là download tài liệu cho thư viện. o Xây dựng Search engine thành một module hoàn chỉnh dưới dạng một chương trình NT Services của Windows NT. Chương trình này là một dạng chương trình thực hiện nền (background) tức là không xuất hiện kiểu application bình thường mà dưới dạng Service. o Kết hợp với việc xây dựng download engine cho việc tích hợp hai cơ chế search – download ứng dụng trong thư viện số. 4.8.3.Phần thiết kế Search Agent: Thành phần Search Agent chia thành hai nhóm xử lý chính: Xử lý thông tin vào - ra (input - output) và thực hiện kết nối với cơ sở dữ liệu tìm kiếm trên Web để lấy thông tin. Trong đó phần xử lý thông tin hay dữ liệu có kết nối với cơ sở dữ liệu quan hệ như SQL Server hay Oracle. Phần thực hiện kết nối với cơ sở dữ lịêu tìm kiếm trên Web, sẽ thực hiện việc kết nối với Internet thông qua kỹ thuật WinInet trong lập trình Internet của Windows để kết nối với các host Google hay Yahoo. ‰ Sơ đồ hoạt động chung của Search Engine CSDL Search Engine Internet - WWW Google Yahoo CSDL ... Thông tin tìm kiếm được lưu trong CSDL, sẽ được đưa vào phần module tìm Truy cập vào Internet để lấy thông tin Kết quả tìm kiếm sẽ được lưu vào CSDL Hình 4.5a Sơ đồ hoạt động của 4-13 ‰ Sơ đồ xử lý của Search engine Như yêu cầu trong phần phân tích, quá trình xử lý của Search engine là một chu trình kép kín xử lý từ giai đoạn lấy thông tin từ cơ sở dữ liệu rồi thực hiện truy cập Internet để truy lùng thông tin. Sau khi hoàn tất việc lấy thông tin thì chu trình tiếp tục thực hiện quá trình lại từ đầu. Để tận dụng thời gian xử lý và tránh lãng phí tài nguyên mạng: Search engine cho phép tạo ra n số các thể hiện (instance) để thực hiện đồng thời tác vụ tìm kiếm đồng thời với nhau. Việc cho phép tạo ra nhiều các thể hiện để thực hiện một công việc với các tham số khác nhau cho phép tăng tốc độ việc tìm kiếm và hiệu quả của chương trình lên rất nhiều. Trong sơ đồ ở hình 4.5a trình bày mô hình hoạt động của một module Search engine. Như chúng ta đã phân tích thì khi Search engine thực sự hoạt động thì không phải chỉ có một thể hiện làm việc mà có n module search engine nhỏ được tạo ra. Sai Bảng CSDL lưu trữ từ khóa tìm kiếm Xử lý từ khóa Từ khóa hợp lệ / hay tồn tại từ khóa Thực hiện kết nối Internet và tìm kiếm Kết quả tìm kiếm hợp lệ Xử lý kết quả tìm kiếm được Lưu vào bảng kết quả tìm kiếm trong CSDL Tiếp tục lấy thông tin để tìm kiếm tiếp. Bảng kết quả tìm kiếm Đúng Sai Hình 4.5b Sơ đồ hoạt động của một thể hiện tạo ra từ Search engine 4-14 Tiếp sau là mô hình xử lý của toàn bộ Search engine khi làm việc. Trong sơ đồ này chúng tôi không mô tả chi tiết các xử lý của từng module vì đã mô tả trong sơ đồ xử lý từng module riêng lẻ hình 4.5b. ‰ Thiết kế CSDL sử dụng trong Search engine Theo yêu cầu của việc xây dựng thì chương trình Search engine sẽ truy cập vào cơ sở liệu quan hệ là SQL Server hay Oracle để lấy các thông tin yêu cầu (từ khóa hay cụm từ khóa cần tra cứu). Do đó trong phần này chúng tôi giới thiệu các bảng cơ sở dữ liệu được xây dựng để lưu trữ thông tin cung cấp cho các hoạt động của Search engine. Bao gồm hai bảng chính: o Bảng Request Table: Lưu trữ các từ khóa hay cụm từ khóa cần tìm kiếm và trạng thái của từ khóa. Tức là đã thực hiện việc tìm kiếm hay chưa. o Bảng Result Table: Chứa các thông tin về các địa chỉ trang web (URL) mà Search Engine đã tìm kiếm được. CSDL Instance 1 Search Engine Instance 2 Search Engine Instance 3 Search Engine Instance n Search Engine CSDL Khối Search engine được tạo ra với n instance. Cho phép đồng thời thực hiện n tác vụ tìm kiếm thông tin trên Internet Hình 4.5c: Sơ đồ hoạt động toàn bộ Search engine khi tạo ra n instance tìm kiếm. 4-15 Request Table ID_Wordterm long Wordterm Varchar(256) MaxResult Int SearchEngine Byte Finished bit + ID_Wordterm: là trường khoá + Wordterm: chứa nội dung từ khóa cần tìm tối đa là 256 ký tự. Nhưng hầu hết không bao giờ dùng nhiều, vì nếu ta dùng càng nhiều từ khóa để tìm thì rất hạn chế kết quả tìm kiếm. + MaxResult: Chỉ cho phép tìm tối đa là n kết quả mà thôi. Vì nếu không chặn trước thì rất có thể sẽ xử lý quá nhiều kết quả. + SearchEngine: Đây là trường kiểu nguyên xác định search engine đề thực hiện việc tìm kiếm. Qui định giá trị 0 là dùng toàn bộ search engine có cài đặt kết nối để tìm kiếm; giá trị 1 dùng Google; giá trị 2 dùng Yahoo; giá trị 3 là Hotbot; giá trị 4 là Altavista... + Finished: là trường trạng thái, nhằm xác định trạng thái của từ khóa là đang có một module search engine thực hiện tìm kiếm (có thể là hoàn thành rồi) hay chưa có module nào thực hiện, đây chính là thông tin mới cần tìm kiếm. Chúng ta phải tạo ra trường này vì do Search engine có tạo ra nhiều thể hiện để tìm kiếm nếu không quản lý trạng thái của từng record thì sẽ có nhiều module tìm kiếm trùng lắp và không quản lý được. Result Table ID_Url Long ID_Wordterm long Url Varchar(256) Abstract Varchar(255) Location Varchar(256) + ID_Url : trường khóa của bảng Result table. + ID_Wordterm : ID của từ khóa xác định. Đây là khóa ngoại của bảng Request Table. + Url : Chứa địa chỉ của trang web liên quan với từ khóa mà chương trình tìm kiếm được. Địa chỉ này có thể là dạng HTTP hay FPT. + Abstract : chứa abstract của trang web hay địa chỉ tìm được. + Location : Phần này dùng cho download engine. Nó chứa vị trí của tập tin được download về. 4-16 Một số minh họa dữ liệu mẫu của hai bảng Request Table ID_Wordterm Wordterm MaxResult SearchEngine Finished 1 Data Mining 50 0 0 2 Machine Learning 100 1 0 3 SOM 30 0 0 4 GIS 60 0 0 5 MS.NET 100 0 0 Result Table ID_Url ID_Wordterm URL Abstract Location 1 2 www.ics.uci.edu/~mlearn UCI Machine Learning Group 2 2 www.cs.utexas.edu UTCS Machine Learning Research Group 3 2 robotics.stanford.edu Introduction to Machine Learning ... ... ... ... 4.8.4.Cài đặt Search Agent: ‰ Mô tả các hàm chức năng chính: Trong phần này chúng tôi xin chỉ trình bày hai thủ tục được cài đặt chính trong Search Agent là CreateSearchModule(int) và PerformSearching(): ™ CreateSearchModule(int) : thực hiện chức năng tạo ra các thread để thực hiện chức năng tìm kiếm. Đây chính là phần tạo tiểu trình và gọi thủ tục PerformSearching() 4-17 CreateSearchModule(int) Begin While i=1 to n do Begin CreateThread( PerformSearching() ) StartThread( PerformSearching() ) End End ™ PerformSearching(): Thủ tục này là phần chính của chương trình Search Agent. Chức năng là truy cập CSDL lấy thông tin cần tìm kiếm, sau đó vào Internet tìm kiếm và cuối cùng lưu kết quả vào CSDL. Toàn bộ các lệnh này được nằm trong một vòng lặp. Được quản lý bởi một cờ, khi cờ còn hiệu lực thì vòng lặp còn thực hiện. Cờ hết hiệu lực khi chương trình Search Agent bị stop (dùng Service manager). PerformSearching() Begin While ( fContinue) Begin GetWordTerm(string wordterm) If ( InvalidWordTerm(wordterm)) Continue String content Content = SearchInternet( wordterm) FilterResult_SaveToDB( Content) End End + GetWordTerm( string) : lấy từ khóa cần tìm trong CSDL + InvalidWordTerm( string) : Kiểm tra xem từ khóa có hợp lệ hay không. 4-18 + string SearchInternet( string) : Thực hiện việc tìm kiếm trên Internet trả về một chuỗi chính là nội dung của kết quả cần tìm. Chuỗi này chính là nội dung của trang HTML chứa kết quả tìm được từ các search engine. ™ CAgentActs::ExecuteRequestEx: hàm này thực hiện việc tìm kiếm bằng cách dùng các hàm của WinInet. Đây là hàm quan trọng nhất trong chương trình ™ CAgentActs::SaveData: Phân tích và lưu kết quả tìm kiếm vào trong bảng SearchResult. ™ CClock::Wait: được kích hoạt một lầnkhi chương trình chính chạy. Nó có nhiệm vụ tái kích hoạt chương trình chính tại một thời điểm ấn định trước. While (1) { If (begin) Tính độ lệch n so với giờ thiết lập If (độ lệch n = 0) Tái kích hoạt lại dịch vụ Else { Tạm ngưng dịch vụ trong khoảng thời gian n Gán độ lệch n = 0 } } ‰ Miêu tả hoạt động của chương trình: ™ Khi chương trình bắt đầu thực hiện, tiểu trình chính sẽ đăng ký dịch vụ với hệ thống (CServiceModule::Start). ™ Tiếp theo, tiểu trình chính sẽ tạo ra 1 tiểu trình mới để thực thi dịch vụ chính của chương trình Search Agent (CServiceModule::ServiceMain). Đồng thời chương trình cũng tạo ra một tiểu trình chạy song song để tiến hành kích hoạt lại chương trình vào thời điểm ấn định trước để cập nhật lại nội dung khi cần thiết(CClock::Activate, CClock::Wait). ™ Khi chương trình Search Agent được kích hoạt (CFactoryAgent::StartAgents), nó sẽ tạo ra các tiểu trình khác để 4-19 thực thi các chức năng tìm kiếm (CFactoryAgent::StartSearchProc) và download (FactoryAgent::StartDownloadProc) tự động. ™ Toàn bộ kết quả tìm kiếm được ghi xuống cơ sở dữ liệu (CAgentActs::SaveData) trước khi dịch vụ chuyển sang trạng thái tạm dừng. ™ Sau khi chuyển sang trạng thái chờ, dịch vụ sẽ được kích hoạt trở lại vào thời điểm đã định trước. Nếu không có công việc mới chương trình lại tiếp tục chuyển sang trạng thái chờ và lại dược tái kích hoạt khi đến giờ. 4.8.5.Kiểm thử: Trong phần này nhóm làm phần mềm xin được báo cáo qua kết quả chạy thử chương trình với dữ liệu thực để kiểm tra khả năng thực thi của chương trình. Chương trình bắt đầu chạy lúc 16h với những số liệu ban đầu như sau: Bảng 4.1: Dữ liệu đầu vào Với dữ liệu đầu vào như Bảng 4.1, kết quả sau khi hoàn tất phải là 150 tập tin *.html có nội dung chứa các từ khóa cần tìm. Tuy nhiên trên thực tế, chương trình có thể không hoàn tất công việc ngay lần thực hiện đầu tiên mà chỉ thực hiện một phần công việc sau đó chuyển sang trạng thái chờ đến thời điểm thích hợp để tiếp 4-20 tục thực hiện. Việc chương trình chuyển sang trạng thái tạm dừng có 2 nguyên nhân như sau: đang kẹt mạng không thể kết nối vào Internet hoặc công việc đã hoàn tất. Trong kết quả thử nghiệm đang trình bày, chương trình tạm dừng do không thể kết nối vào Internet với kết quả thực hiện được thể hiện trong các bảng sau: Bảng 4.2: Kết quả tìm kiếm khi chương trình tạm dừng Bảng 4.3: Kết quả download khi chương trình tạm dừng 4-21 Theo số liệu trong Bảng 4.2 và Bảng 4.3, chương trình tạm dừng vào lúc 18h58 với kết quả: đã hoàn tất việc tìm kiếm các từ khóa theo yêu cầu và download được 62 trang HTML. Như vậy chương trình tạm dừng khi chưa hoàn tất công việc. Theo như cấu hình ban đầu, chương trình sẽ hoạt động trở lại vào lúc 2 giờ hàng ngày. Sau khi chương trình tái kích hoạt, kết quả ghi nhận được như sau: Bảng 4.4: Kết quả khi hoàn tất công việc Như vậy, sau khi thực hiện lại chương trình đã có thể hoàn tất việc download với kết quả download được 145 tập tin *.html (thêm 83 tập tin) so với yêu cầu ban đầu là 150. Kết quả trên là chấp nhận được so với hiện trạng Internet của ta hiện nay và hoàn toàn đáp ứng được cho nhu cầu cài đặt phục vụ thư viện số. Trong Bảng 4.5 bên dưới là một phần của kết quả được lưu lại trong cơ sở dữ liệu dùng để phục vụ cho hoạt động của thư viện số. (những vị trí có giá trị 1 trong trường filespec có nghĩa là đã tiến hành dowload nhưng không thể hoàn tất được) 4-22 Bảng 4.5: Kết quả mẫu trong cơ sở dữ liệu Trong Hình 4.6 và 4.7 bên dưới là một phần nội dung của hai trang Web đã download được liên quan đến từ khóa “AOP”. 4-23 Hình 4.6 Hình 4.7 4-24 Trong phần kết của chương, nhóm phần mềm xin trình bày biểu đồ thống kê sự hoạt động của Search Agent theo những số liệu mà chúng tôi thu thập được trong quá trình chạy thử chương trình. Mỗi đường trong biểu đồ cho biết khả năng làm việc của chương trình theo từng thời điểm trong ngày ( số tập tin mà chương trình đã download được trong một giờ ). Từ kết quả thống kê, chúng ta nhận thấy, chương trình download làm việc tốt nhất trong khoảng từ 1 đến 2 giờ sáng. Kết quả này đã giúp chúng tôi ấn định giờ kích hoạt cho hệ thống. 5-1 CHƯƠNG 5 TÌM DÃY TỪ PHỔ BIẾN ĐỂ ĐẶC TRƯNG VĂN BẢN VÀ HỖ TRỢ BIÊN MỤC TỰ ĐỘNG 5.1 CÂY HẬU TỐ MỞ RỘNG Cây hậu tố T là một cây có hướng có gốc, biểu diễn một chuỗi s bất kỳ có chiều dài m với đúng m nút lá. Mỗi cạnh trên cây hậu tố đều được gán nhãn bằng một chuỗi con khác rỗng của chuỗi s . Các nhãn của hai cạnh bất kỳ xuất phát từ một nút chung phải bắt đầu bằng các ký tự khác nhau. Đối với nút lá của cây hậu tố, việc kết các nhãn của các nút nằm trên con đường đi từ gốc đến nút lá đó sẽ tạo thành một hậu tố của chuỗi s. Cây hậu tố mở rộng là một cây hậu tố nhằm kết tất cả các hậu tố của các trình tự trong tập chuỗi S. Ví dụ : Hình 5.1 là cây hậu tố ứng với chuỗi ACGACT. Các hậu tố của chuỗi trên là: ACGACT; CGACT; GACT; ACT;CT;T. Hình 5.1: Cây hậu tố 5.1.1 Lý do sử dụng cây hậu tố mở rộng Thao tác đầu tiên hệ thống phải thực hiện là phải tìm và lưu trữ tất cả các dãy từ ( tập các từ liền nhau) trong một văn bản, tập văn bản và toàn bộ thông tin cần thiết của chúng. Điều này dẫn đến khó khăn rất lớn cho hệ thống vì số lượng các dãy từ trong mỗi văn bản có kích thước, cấu trúc câu, cách viết câu khác nhau rất lớn. Điều này có thể được chứng minh như sau: 5-2 -Số dãy từ trong câu có thể tăng theo bình phương số từ của câu đó: Giả sử câu S gồm n từ W1 W2…Wn.Khi đó,các dãy từ của S sẽ gồm: o Bắt đầu bằng W1 có n dãy từ: W1,W1W2,……,W1W2…Wn o Bắt đầu bằng W2 có n-1 dãy từ: W2,W2W3,……,W2W3…Wn ........................................................................................................ o Bắt đầu bằng Wn có 1 dãy từ: Wn Nếu các từ trong câu S là khác nhau từng đôi một thì số dãy từ tối đa của S sẽ là : ∑ = n i i 1 = n*(n+1)/2 ≈ n2/2 dãy từ - Số dãy từ trong văn bản tăng theo bình phương kích thước của nó: Giả sử văn bản d gồm k câu: o S1 có n1 từ (có tối đa n12/2 dãy từ) o S2 có n2 từ (có tối đa n22/2 dãy từ) o ………………… o Sk có nk từ (có tối đa nk2/2 dãy từ) Khi đó, số dãy từ tối đa của văn bản d sẽ là: ∑ = k i 1 ni2/2 ≤ (∑ = k i 1 ni)2/2 = n2/2 với n là số từ trong văn bản d. Trong trường hợp xấu nhất, văn bản d chỉ có một câu, mỗi từ là một kí tự thì khi đó n = Kích thước (d)/2. Khi đó, số dãy từ tối đa của d có thể sẽ là : Kích thước(d)2/8. Qua chứng minh trên , ta nhận xét rằng, số lượng dãy từ phải xử lý trong các văn bản là rất lớn.Vì vậy việc ghi nhận và xử lý chúng mất rất nhiều thời gian và không gian lưu trữ. Điều này bắt buộc hệ thống phải thỏa mãn các yêu cầu chính về mặt tìm kiếm và lưu trữ, hệ thống phải thỏa mãn một số yêu cầu sau: • Tính hiệu quả:việc tìm kiếm phải tiến hành với tốc độ chấp nhận, lưu trữ thuận lợi cho việc rút trích các đặc trưng của các văn bản với không gian lưu trữ tối ưu. 5-3 • Tính dễ mở rộng (Tính tăng cường): Trên thực tế, các văn bản trong tập văn bản không phải cố định mà càng ngày càng được tăng cường mở rộng theo nhu cầu và tính chất công việc của người sử dụng.Lấy ví dụ:Giả sử ban đầu tập văn bản chỉ có 10 văn bản nhưng sau đó cần phải xử lý trên tập văn bản mới gồm 20 văn bản trong đó có 10 văn bản của tập ban đầu. Việc xử lý lại từ đầu 20 văn bản này là rất khó khăn và tốn kém về mặt thời gian và chi phí. Do vậy, hệ thống phải được xây dựng sao cho có thể kế thừa các kết quả phân tích và xử lý của tập văn bản ban đầu. Nói cách khác, hệ thống phải có khả năng tăng cường tức là từ tập D={d1,d2,,dn} có thể dễ dàng phát triển với tập D’ với D⊂D’ 5.1.2 Các đặc điểm nổi bật của cây hậu tố Cây hậu tố là cấu trúc dữ liệu thích hợp để giải quyết bài toán tìm kiếm và lưu trữ các cụm từ cũng như các thông tin liên quan của nó trong từng văn bản và tập văn bản. Các đặc điểm chính của cây hậu tố có thể tóm lược là: - Dễ mở rộng (tính tăng cường): đây là một trong những đặc điểm chính của cây hậu tố. Cây hậu tố có thể được tăng cường vào thêm 1 hoặc nhiều văn bản mà không cần phải thực hiện việc tìm kiếm các dãy từ lại từ đầu. Đặc điểm này cho phép hệ thống dễ dàng “học” mở rộng với tập văn bản lớn với nhiều loại văn bản khác nhau và đồng thời giảm rất nhiều thời gian xử lý. Đặc điểm này giúp hệ thống không bị giới hạn về không gian làm việc cũng như khối lượng dữ liệu. - Các dãy từ không bị giới hạn về chiều dài vì chiều cao của cây hậu tố không bị giới hạn.Đặc điểm này cho phép hệ thống có khả năng xử lý được nhiều loại văn bản có các câu rất dài (nhiều từ). -Việc rút trích các thông tin về các dãy từ phục vụ cho việc rút trích các đặc trưng văn bản rất dễ dàng và nhanh chóng. 5-4 5.1.3 Các thành phần của cây hậu tố Cây hậu tố được tổ chức thành cây gồm nhiều nút. Mỗi nút sẽ lưu trữ tất cả các thông tin về các cụm từ ( tần số xuất hiện trong tập văn bản, tần số xuất hiện trong từng văn bản) trong khi quan hệ giữa chúng lại nói lên sự tồn tại của các cụm từ.Thành phần mỗi nút như sau: key count listid child next Mô tả chi tiết: Mỗi nút của cây hậu tố gồm có 2 thành phần key, count lưu trữ dữ liệu thật sự của mỗi nút và 3 thành phần listid , child , next là các con trỏ cho biết mối quan hệ giữa các nút với nhau. Có 2 loại quan hệ giữa các nút. Đó là: -Quan hệ“anh em”:Hai nút m, n được gọi là 2 nút anh em nếu: (i) Thành phần next của m trỏ đến nút n (ii) Thành phần next của n trỏ đến nút m (iii)Tồn tại nút k sao cho: (m,k),(n,k) là 2 cặp nút anh em -Quan hệ “cha con”:Nút m là nút cha của n nếu: (i) Thành phần child của m trỏ đến nút n (ii)Tồn tại nút k sao cho:m là cha của k,k là anh em với n Chi tiết các thành phần của mỗi nút được qui ước như sau: • Child: Đây là con trỏ trỏ đến nút con của nút hiện hành. Con trỏ này cũng nói lên sự tồn tại của các cụm từ. Giả sử có cụm từ W1 W2 … Wn khi đó để lưu trữ cụm từ này, cây hậu tố phải được tổ chức sao cho tồn tại đường đi từ nút gốc đến các nút N1, N2, …, Nn ( Ni.Key = Wi ∀ i∈{1,…,n}) nghĩa là: (i)Nút gốc là nút cha của N1 (ii)Nút Ni là nút cha của Ni+1 ∀ i∈{1,…,n-1} (Trong đó nút gốc có trường Key là rỗng) 5-5 Bên cạnh đó, việc sử dụng con trỏ này cho phép ta xây dựng cây hậu tố có chiều cao không bị giới hạn và điều đó cho phép hệ thống của chúng ta có thể xử lý được nhiều câu rất dài. • Next:Trỏ đến nút anh em kế tiếp của nút hiện hành. Con trỏ này nói lên quan hệ anh em giữa nút hiện hành và nút mà nó trỏ đến. Việc sử dụng con trỏ này làm giảm đáng kể không gian lưu trữ. Giả sử ta có 2 dãy từ như sau: Dãy từ 1:W1 W2…Wi Wi+1..Wn Dãy từ 2:W1 W2…Wi W’i+1 … W’m Hai dãy từ trên có i từ đầu giống nhau và Wi+1 ≠ W’i+1. Giả sử đã tồn tại một đường đi từ nút gốc đến N1,N2,…,Nn(Ni.Key=Wi∀ i∈{1,…,n}) . Khi đó, để lưu trữ dãy từ 2 ta phải tạo các nút Mi+1,…,Mm (Mj.Key = W’j ∀ j ∈{i+1,…,m} và Mj là nút cha của Mj+1∀ j∈ {i+1,…,m-1}) và được nối với cụm từ 1 thông qua việc gán Ni+1.Next = Địa chỉ nút (Mi+1). Rõ ràng chúng ta chỉ cần n+(m-(i+1)+1) = n+m-i nút để lưu trữ 2 dãy từ này. Điều này làm giảm đáng kể không gian lưu trữ. Bằng việc dùng các con trỏ Child và Next, hệ thống có khả năng mở rộng với tập văn bản lớn hơn. • Key: Lưu trữ một từ. Gọi nút hiện hành này là N và giả sử con đường đi từ nút gốc đến nút hiện hành có dạng như sau:N1, N2, …,Nn, N. Điều này có nghĩa là ta đã lưu dãy từ N1.key … Nn.key N.key trên cây hậu tố. Nói cách khác,thành phần này lưu trữ từ cuối cùng của dãy từ có các từ là giá trị khoá của các nút trong đường đi từ nút gốc đến nút hiện hành. • Listid: Đây là con trỏ trỏ đến danh sách các văn bản chứa cụm từ kể từ nút gốc đến nút hiện hành như đã mô tả trong phần trên. Mỗi phần tử trong danh sách gồm có các thành phần sau: id count next 5-6 Ý nghĩa các thành phần như sau: STT THÀNH PHẦN Ý NGHĨA 1 id Mã số văn bản chứa cụm từ đang xét 2 count Số lần (tần xuất) xuất hiện của cụm từ đang xét trong văn bản Id 3 next Trỏ đến phần tử kế tiếp • Count: Cho biết số lần xuất hiện (tần xuất) của cụm từ kể từ nút gốc đến nút hiện hành trong tập văn bản ( hay số văn bản có chứa cụm từ đang xét).Như vậy, số phần tử trong danh sách liên kết trỏ bởi thành phần listid phải đúng bằng count. Ví dụ: Chúng ta có 3 văn bản như sau: Văn bản 1: Cat ate cheese; Văn bản 2: Mouse ate cheese too. Văn bản 3: Cat ate mouse too. Khi đó, cây hậu tố của tập D = {văn bản 1, văn bản 2, văn bản3} sẽ có dạng như hình vẽ 5.2. Con số trên mỗi nút cho biết số văn bản chứa cụm từ(tính từ gốc).Các con số trong dấu ngoặc [] cho biết mã của các văn bản có chứa những cụm từ này. Hình 5.2: Cây hậu tố của tập văn bản {d1,d2,d3} cat root Che mo too ate ches mo too mo too too ate too che too 2 [1 3] 2 [1 2] 2 [2 3] 2 [2 3] 2 [1 3] 1 [1] 1 [3] 1 [3] 1 [3] 1 [2] 1 [2] 1 [2] 1 [2] 1 [3] ate Ch 3 [1,2,3] 2[1 2] 5-7 Trong caây haäu toá, caùc nuùt caøng naèm ôû möùc cao (gaàn nuùt goác) caøng chöùa ít vaên baûn. Ñieàu naøy phuø hôïp vôùi thöïc teá vì nhöõng cuïm töø caøng daøi (coù nhieàu chöõ ) thì caøng hieám xuaát hieän trong taäp vaên baûn thaäm chí ngay caû trong töøng vaên baûn thaønh phaàn. Ñaây cuõng laø nhöõng ñaëc ñieåm noåi baät cuûa caây haäu toá. Ñaëc ñieåm naøy cho pheùp ngöôøi söû duïng coù theå tìm kieám caùc cuïm töø phoå bieán nhanh choùng hôn so vôùi caùc phöông phaùp khaùc vì khi duyeät caây neáu nuùt cha coù soá löôïng caùc vaên baûn nhoû hôn ngöôõng truy vaán cho tröôùc thì taát caû caùc nuùt con cuûa noù khoâng caàn phaûi xem xeùt. 5.1.4 Löu tröõ caây haäu toá Caâyhaäu toá laø moät caáu truùc döõ lieäu phöùc taïp vaø khoâng ngöøng phaùt trieån môû roäng theo soá löôïng caùc vaên baûn trong caùc taäp vaên baûn maø chuùng ta caàn phaân cuïm. Do ñoù, heä thoáng khoâng theå löu tröõ caây haäu toá treân boä nhôù maø phaûi löu tröõ treân ñóa.Vieäc löu tröõ caây haäu toá treân ñóa ngoaøi yeâu caàu baûo ñaûm söï chính xaùc vaø toaøn veïn döõ lieäu coøn phaûi baûo ñaûm ñöôïc caùc tính chaát quan troïng khaùc cuûa caây haäu toá nhaát laø tính taêng cöôøng. Löu tröõ caây haäu toá chính laø löu tröõ caùc nuùt vaø moái quan heä giöõa caùc nuùt cuûa chuùng. Caùc nuùt cuûa caây haäu toá ñöôïc löu tröõ treân ñóa döôùi daïng caùc Record. Caùc Record naøy seõ löu tröõ caùc thoâng tin cuûa nuùt cuõng nhö moái quan heä giöõa caùc nuùt vôùi nhau. Caáu truùc naøy ñöôïc ñònh nghóa trong ngoân ngöõ C nhö sau: typedef struct { char key[20]; DWORD count; DWORD listid; DWORD child; DWORD next; }NODE; 5-8 Moâ taû chi tieát caùc tröôøng cuûa caáu truùc NODE: STT Tröôøng YÙ nghóa Kieåu Raøng buoäc 1 Key Löu tröõ khoùa cuûa nuùt ñang xeùt trong caây haäu toá Chuoãi Chieàu daøi khoâng quaù 20 bytes 2 count Löu tröõ soá löôïng vaên baûn cuûa nuùt ñang xeùt Soá nguyeân Khoâng aâm 3 listid Vò trí cuûa danh saùch maõ soá caùc vaên baûn treân ñóa Soá nguyeân Khoâng aâm 4 child Vò trí nuùt con ñaàu tieân cuûa nuùt ñang xeùt treân ñóa Soá nguyeân Khoâng aâm 5 next Vò trí nuùt anh em ñaàu tieân cuûa nuùt ñang xeùt treân ñóa Soá nguyeân Khoâng aâm Tuy nhieân ñeå giaûm kích thöôùc file löu tröõ caây haäu toá, ta coù theå löu tröõ maõ soá caùc vaên baûn taïi moãi nuùt leân moät file döõ lieäu khaùc nhaèm giaûm thôøi gian ñoïc vaø di dôøi ñaàu ñoïc cuûa ñóa. File naøy cuõng ñöôïc toå chöùc döôùi daïng caùc Record lieân tieáp nhau vôùi caáu truùc ñöôïc ñònh nghóa nhö sau: typedef struct { DWORD id; DWORD count; DWORD next; } LISTID; Moâ taû chi tieát caùc tröôøng cuûa caáu truùc LISTID: STT Tröôøng YÙ nghóa Kieåu Raøng buoäc 1 Id Maõ soá cuûa vaên baûn chöùa cuïm töø ñang xeùt Soá nguyeân Khoâng aâm 2 count Soá laàn xuaát hieän cuïm töø ñang xeùt trong vaên baûn coù maõ soá laø id Soá nguyeân Khoâng aâm 3 next Vò trí cuûa phaàn töû khaùc treân ñóa Soá nguyeân Khoâng aâm 5-9 5.2 CÁC THUẬT GIẢI TRÊN CÂY HẬU TỐ 5.2.1 Thuật giải tăng cường “Thuật giải tăng cường” là một loại thuật giải quan trọng trong việc giải quyết bài toán tăng cường được sử dụng trong các lĩnh vực khai thác dữ liệu. Mục đích của việc tăng cường là cho phép người sử dụng có thể tận dụng lại các kết quả đã được xây dựng trước và làm giảm tối thiểu thời gian, chi phí xử lý của hệ thống. Thuật giải tăng cường chủ yếu nhằm để lưu trữ các dãy từ trong tập văn bản cũng như tần số xuất hiện của nó trong từng văn bản và toàn tập văn bản. Khi ta tăng cường thêm một số văn bản vào tập văn bản ban đầu, hệ thống sẽ tự động thêm và cập nhật lại các thông tin về các dãy từ trong hệ thống. Để tăng cường các văn bản vào cây hậu tố, các văn bản trước hết sẽ được qua bước tiền xử lý để lọc những thông tin không cần thiết. Sau đó, hệ thống sẽ lấy các câu trong từng văn bản và các hậu tố của các câu này sẽ được thêm và cập nhật vào cây hậu tố. Hậu tố của một câu là tất cả các từ nằm liên tiếp nhau trong câu đó. Ví dụ: Câu “cat ate cheese” có các hậu tố là: ƒ cat ate cheese, cat ate, cat ƒ ate cheese,ate ƒ cheese Giả sử trong văn bản d có câu S = T0 T1 … Tm-1 với m là số chữ của S và Ti (i ∈ {0,1,..,m-1}) là các chữ của nó. S có thể có nhiều hậu tố khác nhau. Gọi các hậu tố của câu S là Suffix(S). Thuật giải tăng cường câu S trong văn bản d sẽ được thực hiện thông qua việc tăng cường từng hậu tố của nó S vào trong cây. Việc tăng cường hậu tố sf ∈ Suffix(S) trong đó sf = W0 W1 …Wn-1 với n là số chữ của sf được tiến hành như sau: -Tìm số nguyên j lớn nhất (0 ≤ j ≤ n) sao cho W0 W1…Wj-1 là một nhánh trong cây hậu tố. Gọi nhánh vừa tìm được là N0 N1 … Nj-1 với Ni là 5-10 nút cha của Ni+1 ∀ i ∈{0,1,…,j-2}. Gọi d(N) là danh sách phần tử LISTID tại nút N. Khi đó, tại mỗi nút Ni ta kiểm tra xem có phần tử nào trong d(Ni) có thành phần mã id là d hay không? Có hai trường hợp xảy ra: (i) Nếu phần tử k trong d(Ni) có mã văn bản id thì ta phải tăng giá trị k.count lên 1 đơn vị nghĩa là tăng số lần xuất hiện của hậu tố sf trong văn bản d lên 1. (ii)Nếu không có phần tử nào trong d(Ni) có thành phần mã văn bản bằng d thì ta phải thêm phần tử LISTID mới vào trong d(Ni) với thành phần mã văn bản id là d và thành phần count của nó là 1. Điều này có nghĩa là hệ thống ghi nhận sự xuất hiện của dãy từ đang xét trong văn bản d và số lần xuất hiện của sf trong d tạm thời là 1. Cuối cùng tăng trường count của nút hiện hành lên 1 để cập nhật lại tần số xuất hiện của dãy từ sf trong tập văn bản. -Gọi C là tập hợp các nút con của nút Nj-1.Giả sử C gồm t phần tử là C0, C1, …, Ct-1. Trong đó thành phần con trỏ next của Ci trỏ đến Ci+1 ( i = {0,1,..,t-1}). Tạo nhánh mới Nj, Nj+1, …,Nn-1 mà mỗi nút trong danh sách này là nút cha của nút đứng phía sau nó và thành phần khóa của mỗi nút Ni (i = {j,…...,n-1}) chính là Wi và thành phần listid của Ni chỉ có đơn giản có một phần tử có mã văn bản là d và tần số xuất hiện trong d là 1. Sau đó, để gắn nhánh mới này vào cây hậu tố ta chỉ việc cho con trỏ next của nút Ck (với Ck.Key 0), con trỏ next của Nj trỏ đến nút Ck+1 (nếu k+1<t) . Trong trường hợp t=0 ( nút Nj-1 không có nút con) ta cho con trỏ child của nút Nj-1 trỏ đến Nj. Chi tiết thuật giải tăng cường trên cây hậu tố: Input: (i) Câu S = W0 W1 Wn-1 , n : số chữ trong S (ii) Văn bản d chứa câu S (iii)Cây hậu tố đã xây dựng sẵn Output: Cây hậu tố sau khi tăng cường với các cụm từ được sắp xếp 5-11 Bước 1: j = 0 m = 1 Xét nút gốc N Bước 2: Nếu N.key = Wj thì { j = j + 1 Nếu N.child khác NULL thì làm { m = 1 N = N.child Trở lại bước 2 } Ngược lại:Qua bước 4 } Ngược lại qua bước 3 Bước 3: Nếu N.next khác NULL thì { N = N.next m = m + 1 Trở lại bước 2 } Qua bước 4 Bước 4: Tạo nhánh Nj Nj+1 … Nn-1 bằng cách For i=j to n-1 do { 5-12 Ni.key = Wi Ni.listid = (d, 1) } for i=j+1 to n-1 do { Ni-1.child = Ni } Bước 5: • Nếu m > 0 thì Nj-1.next = Nj • Ngược lại Nj-1.child = Nj Bước 6: • Loại chữ đầu tiên ra khỏi câu S để xét các hậu tố khác • n = n-1 • Nếu n=0:dừng thuật toán • Ngược lại:trở lại Bước 1 xử lý cho hậu tố S Quá trình này sẽ kết thúc khi n = 0 nghĩa là khi đã cập nhật toàn bộ các hậu tố của câu S ban đầu vào cây hậu tố. 5.2.2 Thuật giải duyệt cây hậu tố Mục đích của việc duyệt cây hậu tố nhằm cho phép người sử dụng có thể xem toàn bộ các thông tin về các dãy từ trong toàn tập văn bản. Số lượng các dãy từ trong toàn tập văn bản cũng như trong các văn bản thành phần là rất lớn nên kích thước cây hậu tố cũng rất lớn. Điều này không cho phép sử dụng các thuật giải duyệt cây đệ quy truyền thống để duyệt toàn bộ nội dung của nó. Thuật giải duyệt cây hậu tố được xây dựng trong đề tài này là thuật toán không dùng phương pháp đệ quy, có khả năng hiển thị toàn bộ các thông tin về các cụm từ trong toàn tập văn bản với cây hậu tố có kích thước lớn. 5-13 Trong đề tài này, phương pháp duyệt theo chiều sâu được áp dụng để duyệt toàn bộ nội dung của cây hậu tố. Đầu tiên ta xem xét nút gốc. Sau khi xem xét xong nút hiện hành, ta lại xét các nút con của nó cho đến khi gặp nút lá. Tại nút này ta tiến hành quay ngược lên các nút cha của nó. Quá trình quay ngược sẽ dừng khi ta gặp nút gốc thì chấm dứt quá trình duyệt hoặc đến nút cha nào đó mà tại nút này vẫn còn những nút “anh em” chưa được duyệt và ta lại duyệt tiếp nút kế nó.Vì số nút trong cây hậu tố là hữu hạn nên quá trình này sẽ kết thúc sau một thời gian cụ thể. Thuật giải duyệt cây được tiến hành qua các bước : Input: Cây hậu tố Output: Thông tin của cây hậu tố Bước 1: k = 0 N0=nút gốc Bước 2:(duyệt theo chiều sâu) Duyệt Nk Nếu Nk.child khác NULL thì { k = k + 1 Nk+1 = Nk.child Trở lại Bước 2 } Ngược lại qua bước 3 Bước 3:(Quay lui) k = k – 1 Nếu k < 0:(đến nút gốc) dừng thuật toán Ngược lại: Nếu Nk.next khác NULL thì { Nk = Nk.next 5-14 Quay lại bước 2 } Ngược lại:quay lại Bước 3 Ví dụ: Với tập văn bản gồm 3 văn bản sau: d1:cat ate cheese d2:mouse ate cheese too d3:cat ate mouse too thì các dãy từ của tập văn bản này là: ate [3]( 1 2 3) ate cheese [2]( 2 3) ate cheese too [1]( 2) ate mouse [1]( 1) ate mouse too [1]( 1) cat [2]( 1 3) cat ate [2]( 1 3) cat ate cheese [1]( 3) cat ate mouse [1]( 1) cat ate mouse too [1]( 1) cheese [2]( 2 3) cheese too [1]( 2) mouse [2]( 1 2) mouse ate [1]( 2) mouse ate cheese [1]( 2) mouse ate cheese too [1]( 2) mouse too [1]( 1) too [2]( 1 2) 5-15 5.2.3 Thuật giải tìm dãy từ phổ biến Dãy từ là tập hợp nhiều từ đứng cạnh nhau, có thể không có ý nghĩa về mặt cú pháp và ngữ nghĩa. Dãy từ phổ biến là dãy từ có số lần xuất hiện trong tập văn bản lớn hơn một ngưỡng cho trước. Thuật giải tìm kiếm các dãy từ phổ biến theo ngưỡng phổ biến τ được tiến hành qua các bước sau: Input: Cây hậu tố Ngưỡng τ Output: Tập các dãy từ phổ biến Bước 1: k = 0 N0= nút gốc T = φ Bước 2:(duyệt theo chiều sâu) Nếu Nk.count >=τ thì { T = T ∪ {Nk.key} Nếu Nk.child khác NULL thì { k = k + 1 Nk+1 = Nk.child Trở lại Bước 2 } Ngược lại qua bước 3 } Ngược lại: { 5-16 Thông báo T là dãy từ phổ biến Qua bước 3 } Bước 3:(Quay lui) T = T \ {Nk.key} k = k – 1 Nếu k < 0:(đến nút gốc) dừng thuật giải Ngược lại: Nếu Nk.next khác NULL thì { Nk = Nk.next Quay lại bước 2 } Ngược lại:quay lại Bước 3 Ví dụ: Một số dãy từ phổ biến được phát hiện từ việc phân tích khối ngữ liệu văn bản các tóm tắt báo cáo khoa học, với ngưỡng được chọn là 2 (văn bản): text, retrieval, using, map, documents, organized, model, space, of*a, document, k, able to, algorithm, as the feature vectors, som, of the about, the mapping, documents, million, patent, search, keyword selection method,characterizing, of data the clusters, the method, order, websom, textual data, and filtering, information, a tool, text documents, document maps, maps, method, on the, encoded,word,self-organizing, dimensionality reduction is,random, the data, the original dimensionality, vectors. 5-17 5.3 TẠO VECTOR ĐẶC TRƯNG VĂN BẢN 5.3.1.Mô hình không gian vector các dãy từ phổ biến trong khối ngữ liệu Trong mô hình không gian vector có thành phần là các dãy từ (các từ liền nhau) xuất hiện phổ biến trong ít nhất là hai văn bản, mỗi văn bản được đại diện bằng vector các dãy từ phổ biến. Một tập các văn bản (khối ngữ liệu) được đại diện bằng một ma trận A có dòng là văn bản và cột là các dãy từ phổ biến. Mỗi phần tử aik của ma trận A cho biết trọng số của dãy từ k trong văn bản thứ i. Gọi M là số dòng của ma trận (số văn bản) trong khối ngữ liệu, gọi N số cột (số dãy từ phổ biến) của khối dữ liệu, fik là tần số xuất hiện của dãy từ phổ biến thứ k trong văn bản i, nk là số văn bản có chứa dãy từ phổ biến thứ k trong khối ngữ liệu. Có nhiều cách để ấn định trọng số aik. Một số cách tiêu biểu như: a) Trị nhị phân aik = 1 nếu fik ≥ 0 và aik = 0 nếu ngược lại b) Tần số của dãy từ aik = fik c) Hệ số tfidf Các cách trên không tính đến tần số của dãy từ phổ biến trong tất cả các văn bản trong khối ngữ liệu. Một tiếp cận khác để tính trọng của dãy từ là sử dụng hệ số tfidf ( term frequency. Inversed document frequency) để gán trọng cho dãy từ k trong văn bản i là aik = fik x log( M/nk ) 5.3.2. Rút gọn chiều Như đã trình bày ở trên mỗi dãy từ phổ biến sẽ ứng với một chiều trong không gian vector đặc trưng cho văn bản. Trong khối ngữ liệu lớn với hàng ngàn văn bản, số dãy từ phổ biến có thể lên đến hàng chục ngàn. Do vậy cần các phương pháp để rút gọn chiều của không gian vector đại diện văn bản. Mục đích của bước rút gọn chiều là loại bỏ các từ hoặc dãy từ không chứa thông tin để cải thiện khả năng đặc trưng của vector cho văn bản. Một số phương pháp rút gọn chiều tiêu biểu có thể liệt kê như sau: 5-18 a)Ngưỡng tần số văn bản Tần số văn bản của một dãy từ là số lượng văn bản có chứa dãy từ đó. Các từ hoặc dãy từ có tần số văn bản nhỏ hơn hoặc bằng một ngưỡng cho trước (ngưỡng tần số văn bản) sẽ bị loại bỏ. b)Các hư từ hoặc từ kết thúc Các hư từ là các từ xuất hiện phổ biến nhưng không mang thông tin nào cả. Trong các văn bản tiếng Anh các hư từ thường là giới từ, đại từ, liên từ như: a, an, i , of, about, where, that, when. . . 5.3.3. Tạo vector đặc trưng văn bản 5.3.3.1. Tiếp cận truyền thống Khối ngữ liệu văn bản được phân tích để tìm các dãy từ phổ biến. Sau khi rút gọn đặc trưng, các vector nhị phân đặc trưng cho văn bản sẽ được tạo theo cơ chế trị nhị phân. Thành phần thứ aik =1 nếu văn bản i có chứa dãy từ k và aik=0 nếu ngược lại. Một văn bản bản được đại diện bởi một điểm trong không gian n chiều (n là số dãy từ phổ biến trong khối ngữ liệu nhiều văn bản), trong đó mỗi thành phần của véc tơ có giá trị 1 hay 0 tùy thuộc vào sự có mặt hay không của cụm từ đó trong văn bản hiện hành ta đang xét. Goi T = {T1, T2,…,Tm} là tập các dãy từ phổ biến với ngưỡng τ Mỗi văn bản di ∈ D sẽ được đặc trưng thành vector vi m chiều Trong đó: vi = với 0 nếu Tj không xuất hiện trong di vij = 1 nếu Tj xuất hiện trong di Ví dụ: Giả sử ta có 3 văn bản: 5-19 d1:“cat ate cheese” d2: “mouse ate cheese too” d3: “cat ate mouse too” Với ngưỡng τ = 2, ta có 7 cụm từ phổ biến là: T ={cat, cat ate, ate, ate cheese, cheese, mouse, too} Khi đó: d1 đặc trưng thành v1(1, 1, 1, 1, 1, 0, 0) d2 đặc trưng thành v2(0, 0, 1, 1, 1, 1, 1) d3 đặc trưng thành v3(1, 1, 1, 0, 0, 1, 1) 5.3.3.2. Tiếp cận cải tiến có sử dụng từ gần nghĩa Trong tâp các dãy từ phổ biến này có thể có các từ đồng nghĩa hoặc gần nghĩa với nhau. Ví dụ tập các dãy từ phổ biến có chứa từ "man" và "person". Giả sử trong văn bản thứ nhất có chứa từ "man" và không có chứa từ "person", trong văn bản thứ hai có chứa từ "person" nhưng không có chứa từ "man". Theo cách truyền thống vector đặc trưng cho văn bản thứ nhất sẽ có trị 1 ứng với thành phần "man" và có trị 0 ứng với từ "person"; vector đặc trưng cho văn bản hai sẽ có trị 0 ứng với thành phần "man" và có trị 1 ứng với từ "person". Tuy vậy, giữa từ "person" và từ "man" có liên hệ về nghĩa với nhau vì man (người đàn ông, nhân loại) và person( người) nhưng trong tiếp cận truyền thống không xem xét khả năng này. Gần đây một số tác giả như Elle M. Voorhees (1998), Darin Brezeale(1999) đã quan tâm đến từ đồng nghĩa trong mô hình vector đặc trưng cho văn bản nhằm nâng cao khả năng phân lớp hoặc gom cụm văn bản trong đó quan hệ giữa các văn bản được bổ sung thêm quan hệ gần nghĩa giữa các từ. Sau khi đã phát hiện được các từ gần nghĩa nhau, Darin Brezeale đã điều chỉnh các thành phần của vector nhị phân đặc trưng cho văn bản. Trong ví dụ trên, văn bản thứ nhất có chứa từ "man" và không có chứa từ "person" nhưng do từ "man" và "person" có quan hệ gần nghĩa nên thành phần "person" trong vector đặc trưng cho văn bản thứ nhất sẽ được điều chỉnh thành trị 1. Vấn đề đặt ra là làm thế 5-20 nào để đo đạc mức độ đồng nghĩa giữa hai từ? Darin Bre.zeale(1999) đã sử dụng WordNet được cung cấp miễn phí trên Internet để thực hiện vần đề này. WordNet là tên của một dự án được khởi động từ năm 1985 do George Miller đề xướng nhằm thiết kế hệ thống cho phép tra cứu từ điển tiếng Anh theo khái niệm của từ. WordNet hiện đang được lưu trên Internet và có thể mang về sử dụng trên máy tính cá nhân. Wordnet tổ chức thông tin theo nghĩa của từ thay vì dạng từ. Như trong các từ điển tiếng Anh truyền thống, Wordnet chứa các thông tin cơ bản về từ. Bên cạnh đó, WordNet còn chứa một thông tin hữu ích là các quan hệ giữa các từ trong đó có quan hệ đồng nghĩa và quan hệ hypernym. Quan hệ hypernym của một từ là một từ tổng quát hơn thỏa phát biểu " là một loại của ". Ví dụ tree "là một loại của" plant, plant "là một loại của" organism". Hình 5.3 là một đồ thị biểu diễn quan hệ " là một loại của" của các từ organism, plant, flora, tree, bush, aralia. Hình 5.3. Ñoà thò quan heä hypernym giöõa caùc danh töø WordNet lưu trữ các danh từ, động từ, tính từ, trạng tự. Trong tiếp cận của Darin Brezeale, chỉ sử dụng danh từ làm cơ sở phát triển thuật giải. Theo G.Miller, WordNet có 25 nhóm danh từ như sau: Organism Plant Flora Tree Bush Aralia 5-21 {act, activity} {animal,fauna} {artifact} {attribute} {body} {cognition,knowledge} {communication} {event, happening} {feeeling, emotion} {food} {group, grouping} {location} {motivation, motive} {natural object} {natural phenomenon} {person, human being} {plant, flora} {possesion} {process} {quantity, amount} {relation} {shape} {state} {substance} {time} WordNet cung cấp nhiều cách để xác định các từ có quan hệ ngữ nghĩa với nhau. Tiếp cận của Darin Brezeale đã sử dụng cấu trúc cây hypernym của một từ nhằm phát hiện quan hệ gần nghĩa của hai từ. Sau khi đã xác lập được cây chứa hai từ cần xét, sẽ duyệt cây để xem hai từ này có chung tổ tiên hay không và tính số nút từ nút ứng với từ cần xét đến nút tổ tiên chung. Khoảng cách ngữ nghĩa giữa hai từ bằng tổng khoảng cách của con đường đi từ hai từ đến nút tổ tiên chung. Khoảng cách này càng ngắn thì hai từ càng gần nghĩa. Ví dụ với cây hypernym trong hình 5.3, khoảng cách giữa từ "tree" và từ "flora" là 3, khoảng cách giữa từ "plant" và "flora" là 2. Để điều chỉnh các thành phần của vector nhị phân đặc trưng văn bản ừng với các từ gần nghĩa, Darin Brezeale đã sử dụng ngưỡng gần nghĩa. Chỉ có các căp từ có mức độ gần nghĩa nhỏ hơn hoặc bằng ngưỡng này thì các thành phần tương ứng trong vector đặc trưng mới bị điều chỉnh. Ngưỡng này thuờng được chọn là 3, do vậy từ "tree" và "flora" trong cây hypernym ở hình 5.3 được xem là đồng nghĩa và các thành phần tương ứng với các từ này trong vector đặc trưng đều bị điều chỉnh. 5-22 5.4. DÙNG CÂY HẬU TỐ HỖ TRỢ TẠO TIÊU ĐỀ ĐỀ MỤC Phần này trình bày các buớc sử dụng cây hậu tố đề tìm các dãy từ phổ biến tối đại trong một khối ngữ liệu gồm nhiều văn bản. Sau đó sử dụng tập hợp các từ phổ biến nhằm tiền xử lý dữ liệu (biên mục tài liệu) . Qui trình gồm các bước sau: Buớc 1: Sử dụng cây hậu tố để tìm danh sách các dãy từ phổ biến trong một khối ngữ liệu gồm nhiều văn bản Buớc 2: Sử dụng danh sách các dãy từ phổ biến để biên mục các tập tin trong khối ngữ liệu và tạo danh sách tiền kết hợp tập văn bản vào danh sách các dãy từ phổ biến. Bước 3:Tra cứu thư viện thông qua danh sách tiền kết hợp Kết quả thử nghiệm: 1.Danh sách các dãy từ phổ biến được phát hiện từ các kho ngữ liệu thử nghiệm và số văn bản có chứa dãy từ phổ biến. STT Dãy từ phổ biến Số văn bản ================================================ 1 : annotated 2 2 : automatic 11 3 : bilingual corpus 3 4 : in the 15 5 : in this 2 6 : method 24 7 : model for 2 8 : natural language processing 3 9 : of information 2 10 : the accuracy of 2 11 : this problem 4 12 : to solve 4 13 : we will 4 14 : extract 5 15 : human 2 16 : in a 13 17 : is a 23 18 : languages 5 19 : meaning 3 20 : on the 15 21 : organized 6 22 : part 32 23 : some 10 24 : the similar 3 25 : better 3 5-23 26 : is used 6 27 : machine translation 3 28 : natural 4 29 : optimized 2 30 : processing 8 31 : result 16 32 : we describe 4 33 : access 3 34 : application 11 35 : develop 10 36 : information 12 37 : on computer 2 38 : or to 2 39 : such as 7 40 : technology 3 41 : user 6 42 : course 2 43 : making 2 44 : student's 2 45 : network 5 46 : paper 27 47 : the document 8 48 : an overview 5 49 : applications 8 50 : geometric 2 51 : technique 4 52 : model 11 53 : algorithms 4 54 : approaches 4 55 : association rules 2 56 : data 14 57 : large set of 2 58 : mining 7 59 : problem 13 60 : way 5 61 : based 17 62 : can be 18 63 : cases 2 64 : complex 2 65 : knowledge 7 66 : problems 3 Tiền kết hợp các tập tin vào các danh sách dãy từ phổ biến: STT Dãy từ phổ biến Mã văn bản ================================================ 1 : (approx p1 2 : - sentence p1 3 : annotated p1 4 : annotated p22 5 : automatic p1 6 : automatic p2 7 : automatic p5 8 : automatic p15 9 : automatic p17 5-24 10 : automatic P25 11 : automatic P28 12 : automatic p32 13 : automatic p39 14 : automatic p40 15 : automatic p44 16 : been solved p1 17 : bilingual corpus p1 18 : bilingual corpus p20 19 : bilingual corpus P25 20 : but in p1 609 : page segmentation p18 610 : page segmentation P27 611 : using recursive morphological p18 612 : association rules are p19 613 : attributes p19 614 : dynamic programming p19 615 : numeric p19 616 : optimized association rules p19 617 : optimized support p19 Tra cứu thư viện thông qua danh sách tiền kết hợp Chi tiết thuật giải kết hợp tập văn bản vào danh sách các dãy từ phổ biến: Input: − Tập các văn bản mới NP 5-25 − Tập các dãy từ phổ biến mới NS − Tập các dãy từ phổ biến được đánh dấu là đã được kết hợp với các văn bản hiện có S − Tập các văn bản được đánh dấu là đã kết hợp với các dãy từ phổ biến hiện có P − Tập kết hợp tập văn bản vào danh sách các dãy từ phổ biến SP{(px, sy), …}, px ∈ P, sy ∈ S − Tập các dãy từ phổ biến và số văn bản có chứa dãy từ phổ biến SR{(sx, n), …}, sx ∈ S, n ∈ N Output: − Tập kết hợp tập văn bản vào danh sách các dãy từ phổ biến SP{(px, sy), …}, px ∈ P, sy ∈ S − Tập các dãy từ phổ biến được đánh dấu là đã được kết hợp với các văn bản hiện có S − Tập các văn bản được đánh dấu là đã kết hợp với các dãy từ phổ biến P − Tập các dãy từ phổ biến và số văn bản có chứa dãy từ phổ biến SR{(sx, n), …}, sx ∈ S, n ∈ N Bước 1: tP = ∅ tS = ∅ pc = 0 Bước 2: Nếu NS.count >0 thì { For i=1 to NS.count do { pc = 0 For j=1 to P.count do { 5-26 tSubS = {tập các tiêu đề con của NS[i]} T = True For k=1 to tSubS.count do { Nếu trong văn bản P[j] không chứa tSubS[k] thì { T = false ; break; } } Nếu T=True thì { SP = SP + {(P[j], NS[i])} pc = pc + 1 } } tS = tS + {NS[i]} Nếu NS[i] chưa có trong SR thì SR = SR + {(NS[i], pc)} Ngược lại Trong SR, sửa (NS[i], n) thành (NS[i], pc), n giá trị ban đầu sẵn có } S = S + tS } Bước 3: Nếu NP.count >0 thì { tP = NP P = P + tP For i=1 to S.count do { pc = 0 5-27 For j=1 to NP.count do { tSubS = {tập các tiêu đề con của S[i]} T = True For k=1 to tSubS.count do { Nếu trong văn bản P[j] không chứa tSubS[k] thì { T = false ; break; } } Nếu T=True thì { SP = SP + {(NP[j], S[i])} } } Nếu S[i] chưa có trong SR thì SR = SR + {(S[i], pc)} Ngược lại Trong SR, sửa (S[i], n) thành (S[i], pc), n giá trị ban đầu sẵn có } } 5-28 Các bảng dữ liệu liên quan đến thao tác kết hợp tập văn bản vào danh sách các dãy từ phổ biến: Mô hình vật lý: PAPER (PAPERID, PAPERNAME, TITLE, ABSTRACT, KEYWORDS, PAPERFILENAME, PAPERFILEPATH) NEWPAPER (PAPERID, PAPERNAME, TITLE, ABSTRACT, KEYWORDS, PAPERFILENAME, PAPERFILEPATH) SUBJECTHEADINGS (SHID, SUBJECTHEADINGS) NEWSUBJECTHEADINGS (SHID, SUBJECTHEADINGS) SUBJECTHEADINGPAPER (SHID, PAPERID) SEARCHRESULT (SHID, SUBJECTHEADINGS, ITEMSCOUNT) 5-29 Mô tả các bảng dữ liệu: PAPER: chứa các văn bản hiện có đã được kết hợp vào danh sách các dãy từ phổ biến (chứa tập P trong giải thuật trên) Thuộc Tính Diễn giải PAPERID Mã số bài báo. Mỗi bài báo có một mã số duy nhất để phân biệt với các bài báo khác PAPERNAME Tựa đề của bài báo TITLE Chủ đề của bài báo ABTRACT Trích yếu của bài báo, tóm lược của bài báo KEYWORDS Các từ khóa chính trong bài báo. Các từ khóa này có sẵn hoặc sẽ được trích rút đặc trưng từ các trích yếu của bài báo PAPERFILENAME Tên tập tin toàn văn của bài báo PAPERFILEPATH Đường dẫn nơi chứa tập tin toàn văn của bài báo. NEWPAPER: chứa các văn bản mới, chưa được kết hợp vào danh sách các dãy từ phổ biến (chứa tập NP trong giải thuật trên). Thuộc Tính Diễn giải PAPERID Mã số bài báo. Mỗi bài báo có một mã số duy nhất để phân biệt với các bài báo khác PAPERNAME Tựa đề của bài báo TITLE Chủ đề của bài báo ABTRACT Trích yếu của bài báo, tóm lược của bài báo KEYWORDS Các từ khóa chính trong bài báo. Các từ khóa này có sẵn hoặc sẽ được trích rút đặc trưng từ các trích yếu của bài báo PAPERFILENAME Tên tập tin toàn văn của bài báo PAPERFILEPATH Đường dẫn nơi chứa tập tin toàn văn của bài 5-30 báo. SUBJECTHEADINGS: Tiêu đề đề mục. Chứa danh sách các dãy từ phổ biến hiện có đã được kết hợp vào danh sách các văn bản (chứa tập S trong giải thuật trên). Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. SUBJECTHEADINGS Dãy các từ phổ biến được ngăn cáhch bằng một ký tự ngăn cách “&&” NEWJECTHEADINGS: Tiêu đề đề mục. Chứa danh sách các dãy từ phổ biến mới, chưa được kết hợp vào danh sách các văn bản (chứa tập NS trong giải thuật trên). Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. SUBJECTHEADINGS Dãy các từ phổ biến được ngăn cáhch bằng một ký tự ngăn cách “&&” SUBJECTHEADINGPAPER: Tập kết hợp tập văn bản vào danh sách các dãy từ phổ biến (chứa tập SP trong giải thuật trên). Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. PAPERID Tương ứng với một mã số của tiêu đề đề mục sẽ có một hay nhiều mã số của bài báo đã được tìm thấy trong thư viện bài báo 5-31 SEARCHRESULT: Tập các dãy từ phổ biến và số văn bản có chứa dãy từ phổ biến (chứa tập SR trong giải thuật trên). Thuộc Tính Diễn giải SHID Mã số một tiêu đề đề mục. THEADINGS Tên của một tiêu đề đề mục cùng từ đồng hiện của tiêu đề đề mục đó, hay dãy từ phổ biến. ItemsCount Số các bài báo được tìm thấy theo tiêu đề đề mục có trong thư viện bài báo 5.5. SỬ DỤNG DÃY TỪ PHỔ BIẾN HỖ TRỢ BIÊN MỤC TỰ ĐỘNG Như đã trình bày trong chương 3 mỗi tiêu đề đề mục được xác định bằng một tập hợp các từ. Có thể biểu diễn cấu trúc của tiêu đề đề mục dưới dạng cấu trúc cây như trong hình sau Việt Nam DakLak Điểm truy cập 1 Đồng Nai Điểm truy cập 2 An Giang Điểm truy cập 3 Vật lý Hiện đại Điểm truy cập 4 Hạt nhân Điểm truy cập 5 Lượng tử Điểm truy cập 6 . . . . . Một điểm truy cập được xác định bằng nhãn chứa các cụm từ trên các cạnh nối từ gốc đến nút lá ứng với điểm truy cập đó. Ví dụ điểm truy cập 1 sẽ 5-32 ứng với nhãn Việt Nam – DakLak, Điểm truy cập 2 ứng với nhãn Việt Nam - Đồng nai. Sử dụng cây hậu tố mở rộng có thề xác định được một cách từ động các dãy từ phổ biến trong văn bản. Sau đó tra cứu trên cấu trúc cây hậu tố để gắn văn bản vào các điểm truy cập có nhãn là tập con của tập các dãy từ phổ biến được phát hiện từ việc phân tích văn bản. Với phương pháp này có thể hỗ trợ công tác biên mục tư liệu. Cũng cần lưu ý là một văn bản có thể được gắn vào nhiều điểm truy cập. Ví dụ văn bản có chứa dãy từ Vật Lý- Hiện đại- Hạt nhân sẽ được gắn vào hai điểm truy cập là điểm truy cập 4 và điểm truy cập 5. Do vậy có thể truy cập văn bản từ nhiều điểm truy cập khác nhau. 6-1 CHƯƠNG 6 GOM CỤM THÔNG VĂN BẢN BẰNG MẠNG KOHONEN 6.1 KIẾN TRÚC CỤM PHẲNG Cho tập đối tượng O, gom cụm phẳng là tiến trình gom các đối tượng thành các cụm ( tập con của O) sao cho các đối tượng trong cụm có mức độ tương tự cao và các đối tượng trong các cụm khác nhau có mức độ tương tự thấp. Kết qủa gom cụm phẳng sẽ tạo ra một phân hoạch tập đối tượng. Gọi C1,C2,...,Ck là một kiến trúc cụm phẳng, các cụm thỏa các tính chất sau: i) ∀i,j ∈[1,...,k] , Ci ∩ Cj = ∅ ii) Υk i iC 1= = O 6.1. MẠNG KOHONEN Mạng Kohonen là một mạng nơron làm việc theo lối tự tổ chức nhằm tạo ra một ánh xạ từ tập các mẫu học có số chiều lớn thành các cụm có số chiều thấp hơn [3],[4]. Mạng Kohonen hai chiều thường được sử dụng để gom cụm văn bản vì kết quả gom cụm được thể hiện trực quan trên một lưới hai chiều. Trong mạng Kohonen hai chiều, các nơron của lớp ra được sắp xếp trên một mảng hai chiều. Mảng này được gọi là lớp ra Kohonen. Tất cả các nơron của lớp vào đều được nối với các nơron trên lớp ra Kohonen. Hình 6.1 là cấu trúc của mạng Kohonen hai chiều. Hình 6.1: Cấu trúc của mạng Kohonen hai chiều 6-2 6.3. GOM CỤM TỪ LỚP RA KOHONEN Mỗi liên kết giữa đầu vào và đầu ra của mạng Kohonen tương ứng với một trọng số. Tổng đầu vào của mỗi nơron trong lớp Kohonen bằng tổng các trọng của các đầu vào nơron đó. Tiến trình huấn luyện sẽ điều chỉnh các trọng số dần dần theo mẩu học. Kết quả của tiến trình huấn luyện sẽ tạo trên lớp ra Kohonen các cụm dữ liệu ứng với nhóm các nút gần nhau trên lớp ra Kohonen. Các mẫu học sẽ thuộc về cụm có khoảng cách gần nhất từ nó đến nơron trong cụm. Theo tính chất của thuật giải huấn luyện trên mạng Kohonen, các cụm có vị trí gần nhau trên mạng Kohonen sẽ chứa các đối tượng có mức độ tương tự cao. Tính chất này được sử dụng để truy cập thông tin tương tự trong thư viện số nhờ lớp ra Kohonen được hiển thị trên màn hình. 6.4. THUẬT GIẢI HUẤN LUYỆN MẠNG KOHONEN Chức năng cơ bản của thuật giải huấn luyện mạng Kohonen là gom các vector trọng của các nơron trên lớp ra Kohonen thành các cụm rời nhau. Thuật giải huấn luyện mạng Kohonen Bước 1: Khởi tạo ngẫu nhiên các trọng số trên lớp ra Kohonen và gán Nc(t) là bán kính của vùng láng giềng. Khởi gán biến chu kỳ t=1 Bước 2: Đưa vào một mẫu học v(t) và chuẩn hóa vector nhập v(t) Tính khoảng cách Euclide từ vector nhập v(t) đến tất cả các vector trọng của tất cả các nơron trên lớp ra Kohonen và chọn nơron có khoảng cách Euclide dE nhỏ nhất từ vector học v(t) đến trọng ứng với nút đó. dE(v,wic jc) = min (dE(vi,wij)) Trong đó i,j là c

Các file đính kèm theo tài liệu này:

  • pdfĐề tài- Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số.pdf