Khóa luận Tự động tổng hợp và phân loại tin trong hệ thống trang tin điện tử

Tài liệu Khóa luận Tự động tổng hợp và phân loại tin trong hệ thống trang tin điện tử: ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Xuân Thành TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Xuân Thành TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành HÀ NỘI - 2010 Lời cảm ơn Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc nhất tới thầy giáo – TS. Nguyễn Trí Thành đã tận tình hướng dẫn, đôn đốc tôi trong suốt quá trình là khóa luận tốt nghiệp. Tôi xin được chân thành cảm ơn các thầy, cô và các cán bộ của trường Đại Học Công Nghệ đã tạo cho tôi những điều kiện thuận lợi để học tập và nghiên cứu. Tôi xin gửi lời cảm ơn tới ThS Nguyễn Thanh Bình, ThS Lê Văn Thanh và tập thể các anh chị em của công ty iTim đã động viên, khích lệ, tạo điều kiện cho tôi trong suốt ...

59 trang | Chia sẻ: haohao | Lượt xem: 1214 | Lượt tải: 0

Bạn đang xem trước 20 trang mẫu tài liệu Khóa luận Tự động tổng hợp và phân loại tin trong hệ thống trang tin điện tử, để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Lê Xuân Thành TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ Lê Xuân Thành TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán bộ hướng dẫn: TS. Nguyễn Trí Thành HÀ NỘI - 2010 Lời cảm ơn Lời đầu tiên, tơi xin được bày tỏ lịng biết ơn sâu sắc nhất tới thầy giáo – TS. Nguyễn Trí Thành đã tận tình hướng dẫn, đơn đốc tơi trong suốt quá trình là khĩa luận tốt nghiệp. Tơi xin được chân thành cảm ơn các thầy, cơ và các cán bộ của trường Đại Học Cơng Nghệ đã tạo cho tơi những điều kiện thuận lợi để học tập và nghiên cứu. Tơi xin gửi lời cảm ơn tới ThS Nguyễn Thanh Bình, ThS Lê Văn Thanh và tập thể các anh chị em của cơng ty iTim đã động viên, khích lệ, tạo điều kiện cho tơi trong suốt quá trình làm khĩa luận. Tơi cũng xin gửi lời cảm ơn tới các bạn trong tập thể lớp K51CD và K51CHTTT đã ủng hộ và khuyến khích tơi trong suốt quá trình học tập tại trường. Cuối cùng, tơi muốn được gửi lời cảm ơn vơ hạn tới gia đình và bạn bè, những người thân yêu luơn bên cạnh và động viên tơi trong suốt quá trình thực hiện khĩa luận tốt nghiệp. Tơi xin chân thành cảm ơn! Sinh viên Lê Xuân Thành i Tĩm tắt nội dung Trong hệ thống các website điện tử, các trang tin tức chiếm một vai trị hết sức quan trọng, giúp con người cập nhật những tin tức thời sự mới nhất thuận tiện mọi lúc mọi nơi. Theo Hiệp hội các nhà xuất bản trực tuyến (Online Publishers Association – OPA) thì phần lớn thời gian trên Internet con người dùng để đọc tin tức1. Như vậy, nhu cầu cập nhật tin tức của con người là rất lớn, và nếu người dùng chỉ phải vào một trang Web duy nhất để cập nhật được tất cả các tin tức thì sẽ tiện dụng hơn rất nhiều so với việc phải truy cập vào nhiều trang. Khĩa luận này tập trung vào việc nghiên cứu và xây dựng một hệ thống tổng hợp tin tức, dựa trên bài tốn trích xuất thơng tin từ tài liệu Web và bài tốn phân lớp văn bản. Khĩa luận đưa ra mơ hình gom tin tự động với tính mở rộng cao, trình bày các bước xây dựng một hệ thống tổng hợp tin tức. Khĩa luận cũng đã tiến hành chạy các thực nghiệm và đánh giá kết quả. Kết quả đánh giá cho thấy chất lượng gom tin và phân loại là nhanh và đáng tin cậy. 1 ii Mục lục Tĩm tắt nội dung .................................................................................................................i Mục lục ................................................................................................................................ii Bảng các ký hiệu viết tắt ...................................................................................................iv Danh sách các hình .............................................................................................................v Danh sách các bảng biểu ...................................................................................................vi Giới thiệu .............................................................................................................................1 Chương 1. Khái quát về các trang tin tức và các hệ thống tổng hợp tin tức của Việt Nam ........................................................................................................................3 1.1. Khái quát chung về các báo điện tử ........................................................................3 1.2. Khái quát chung về các hệ thống tổng hợp tin tức..................................................3 Chương 2. Cơ sở lý thuyết xây dựng mơ hình hệ thống tổng hợp và phân loại tin tự động ........................................................................................................................8 2.1. Xây dựng crawler ....................................................................................................8 2.1.1. Khái niệm crawler...........................................................................................8 2.1.2. Xây dựng crawler .........................................................................................10 2.2. Xây dựng bộ trích chọn thơng tin..........................................................................11 2.2.1. Trích chọn thơng tin trên tài liệu Web..........................................................11 2.2.2. Xây dựng bộ trích chọn tài liệu Web............................................................11 2.3. Xây dựng bộ phân lớp ...........................................................................................12 2.3.1. Khái niệm phân lớp văn bản.........................................................................12 2.3.2. Áp dụng thuật tốn phân lớp entropy cực đại xây dựng bộ phân lớp văn bản. ......................................................................................................................14 2.3.3. Phương pháp đánh giá hiệu suất phân lớp....................................................18 Chương 3. Xây dựng hệ thống tổng hợp và phân loại tin tự động ...........................21 3.1. Cơ sở thực tiễn.......................................................................................................21 3.2. Xây dựng mơ hình hệ thống ..................................................................................24 3.2.1. Mơ hình tổng quan........................................................................................25 3.2.2. Module chuẩn hĩa dữ liệu huấn luyện/kiểm tra mơ hình .............................29 3.2.3. Module phân lớp...........................................................................................30 3.2.4. Module sinh file huấn luyện .........................................................................31 3.3. Khả năng mở rộng của hệ thống............................................................................32 iii Chương 4. Thực nghiệm và đánh giá kết quả.............................................................34 4.1. Mơi trường phần cứng và phần mềm ....................................................................34 4.1.1. Mơi trường phần cứng ..................................................................................34 4.1.2. Cơng cụ phần mềm .......................................................................................34 4.2. Cấu trúc Cơ sở dữ liệu...........................................................................................37 4.3. Đánh giá chất lượng tổng hợp tin..........................................................................39 4.4. Thực nghiệm và đánh giá hiệu suất phân loại tin tự động ....................................39 4.4.1. Xây dựng tập dữ liệu huấn luyện và kiểm tra mơ hình ................................39 4.4.2. Thực nghiệm thứ nhất...................................................................................41 4.4.3. Thực nghiệm thứ hai.....................................................................................44 Kết luận .............................................................................................................................47 Tài liệu tham khảo ............................................................................................................49 iv Bảng các ký hiệu viết tắt Ký hiệu Diễn giải HTML HyperText Markup Language URL Uniform Resource Locator WWW World Wide Web CSDL Cở sở dữ liệu v Danh sách các hình Hình 1. Minh họa lỗi tổng hợp tin trang Baomoi.com…………………………………….5 Hình 2. Minh họa lỗi mất ảnh trang tintuc.xalo.vn………………………………………..7 Hình 3. Sơ đồ cơ bản của một crawler đơn luồng…………………………………………9 Hình 4. Lược đồ chung xây dựng bộ phân lớp văn bản………………………………….13 Hình 5a. Mơ tả phần nội dung cần lấy trên trang tin 1…………………………………...21 Hình 5b. Mơ tả phần nội dung cần lấy trên trang tin 2…………………………………...22 Hình 6. Mơ hình cây DOM của 2 detail-pages…………………………………………...22 Hình 7a. Các đặc trưng cho phép trích chọn thơng tin bài báo 1………………………...23 Hình 7b. Các đặc trưng cho phép trích chọn thơng tin bài báo2…………………………24 Hình 8. Mơ hình tổng quan của hệ thống tổng hợp và phân loại tin tức…………………25 Hình 9. Đặc điểm giúp loại tin thuộc lớp chưa quan tâm……………………….........…..28 Hình 10. Module chuẩn hĩa dữ liệu huấn luyện/kiểm tra mơ hình………………………29 Hình 11. Module phân lớp………………………………………………………………..31 Hình 12. Module sinh file huấn luyện……………………………………………………32 vi Danh sách các bảng biểu Bảng 1. Các nhĩm tài liệu sau phân lớp………………………………………………….19 Bảng 2. Cấu hình phần cứng sử dụng trong thực nghiệm………………………………..34 Bảng 3. Các cơng cụ phần mềm sử dụng trong thực nghiệm…………………………….34 Bảng 4. Mơ tả chức năng các lớp trong các gĩi………………………………………….36 Bảng 5. Chi tiết CSDL……………………………………………………………….......38 Bảng 6. Các lớp tài liệu sử dụng trong thực nghiệm…………………………………….40 Bảng 7. Thống kê số lượng tài liệu dùng cho việc học mơ hình…………………………41 Bảng 8. Thống kê số lượng tài liệu thực nghiệm 1 dùng kiểm tra mơ hình……………...42 Bảng 9. Kết quả thực nghiệm 1…………………………………………………………..43 Bảng 10. Thống kê số lượng tài liệu thực nghiệm 2 dùng kiểm tra mơ hình…………….44 Bảng 11. Kết quả thực nghiệm 2…………………………………………………………45 1 Giới thiệu Trong gần hai mươi năm trở lại đây, cùng với sự phát triển bùng nổ của Internet mà đặc biệt là World Wide Web (www) - hay cịn gọi tắt là Web - mang lại cho con người rất nhiều lợi ích. Đồng thời với đĩ cũng là sự bùng nổ về thơng tin, giúp con người dễ dàng cập nhật tin tức mới nhất, nhưng hệ quả sau đĩ là sự tiêu tốn rất nhiều thời gian, khi những thơng tin cần đối với một người dùng thuộc một nội dung cụ thể lại nằm trên nhiều trang Web khác nhau. Ví dụ đối với một nhà đầu tư chứng khốn, thơng tin họ quan tâm là các tin tức mới nhất về thị trường chứng khốn, về kết quả giao dịch ở các sàn chứng khốn, nhưng để cĩ được điều này thường họ phải truy cập vào nhiều trang khác nhau để cĩ đủ thơng tin. Như vậy, nhu cầu đặt ra cần cĩ một hệ thống tổng hợp tin tức nhanh nhất và được phân chia theo các mục, phân mục rõ ràng, giúp thuận tiện hơn cho nhu cầu thơng tin của người dùng. Điều này giúp người dùng thuận tiên hơn cho việc tìm, cập nhật các thơng tin mà mình quan tâm một cách thuận tiện nhất, tiết kiệm thời gian nhất. Điều này đặc biệt cĩ ý nghĩa trong cuộc sống bận rộn hiện đại ngày nay. Để giải quyết được bài tốn về hệ thống tổng hợp tin tức cần phải giải quyết được hai bài tốn khác là trích xuất thơng tin từ tài liệu Web và phân lớp tự động các văn bản Web – là hai bài tốn được quan tâm ở rất nhiều các hội nghị lớn về khai phá dữ liệu và xử lý ngơn ngữ tự nhiên [6],[9],[10],[14]. Khĩa luận xây dựng một tập luật cho phép tự động gom và trích xuất thơng tin từ các trang tin tức của Việt Nam, tin tức được lấy về sẽ được gán nhãn tự động nhờ vào thuật tốn phân lớp văn bản entropy cực đại (maximum entropy), và được ghi lại vào CSDL, phục vụ cho việc xuất bản tin. Khĩa luận gồm cĩ 4 chương được mơ tả sơ bộ dưới đây: Chương 1: Khái quát về các trang tin tức và các hệ thống tổng hợp tin tức của Việt Nam. Giới thiệu về các trang báo điện tử (trang tin tức) và các hệ thống tổng hợp tin tức. Đánh giá ưu và nhược điểm của các hệ thống đĩ. Chương 2: Cơ sở lý thuyết xây dựng mơ hình hệ thống tổng hợp và phân loại tin tự động. Giới thiệu về crawler, trích chọn thơng tin từ tài liệu Web, phân lớp văn bản bằng phương pháp entropy cực đại. Đồng thời chương này cũng giới thiệu về phương pháp đánh giá hiệu suất của việc phân lớp văn bản thơng độ hồi tưởng, độ chính xác và độ đo F1. 2 Chương 3: Xây dựng hệ thống tổng hợp và phân loại tin tự động. Nêu ra các cơ sở lý thực tiễn cĩ thể áp dụng cho việc trích chọn thơng tin đối với tài liệu Web. Đưa ra mơ hình hệ thống, các module, cách thức tương tác giữa các module với nhau. Từ đĩ nêu lên được tính mở rộng cao của hệ thống. Chương 4: Thực nghiệm và đánh giá kết quả để đánh giá bài tốn mơ hình được xây dựng trong chương 3. Kết quả thực nghiệm cho thấy hiệu quả tốt của hệ thống tổng hợp và phân loại tin tự động của khĩa luận. Phần kết luận tĩm lược nội dung chính của khĩa luận và nêu lên định hướng của khĩa luận trong thời gian tới. 3 Chương 1. Khái quát về các trang tin tức và các hệ thống tổng hợp tin tức của Việt Nam 1.1. Khái quát chung về các báo điện tử Hiện nay, các website báo điện tử của Việt Nam chiếm một vai trị khơng thể thiếu trong việc cung cấp tới bạn đọc các nội dung thơng tin chính trị, xã hội, thể thao, giải trí... mới nhất. Điều này được thể hiện qua việc hai trang tin tức lớn nhất của Việt Nam là vnexpress.net và dantri.com.vn liên tục nằm trong top 10 websites được truy cập nhiều nhất tại Việt Nam, theo xếp hạng của alexa.com. Mặc dù vậy các báo điện tử của Việt Nam hiện nay, việc phân lớp (phân loại) tin tức thường được làm thủ cơng bởi người viết báo hoặc người biên tập. Do vậy nhu cầu đặt ra là cần cĩ một hệ thống phân lớp văn bản Tiếng Việt, cho phép gán nhãn cho các tài liệu một cách tự động. Khĩa luận xin trình bày một phương pháp cho phép phân lớp các văn bản hay tài liệu Web vào các lớp, dựa vào mơ hình được trả về sau quá trình huấn luyện, sẽ được trình bày kỹ hơn trong chương 2. 1.2. Khái quát chung về các hệ thống tổng hợp tin tức Khoảng hơn một năm trở lại đây, các hệ thống tổng hợp tin tức của Việt Nam phát triển rất mạnh. Sau đây khĩa luận xin liệt kê ra một số hệ thống hiện đang được xem là thành cơng nhất, đều nằm trong top 40 websites được truy cập nhiều nhất Việt Nam theo xếp hạng của alexa.com. Baomoi.com: Cĩ thể nĩi baomoi.com là trang tổng hợp tin nổi bật nhất hiện nay với rất nhiều ưu điểm nổi trội so với các hệ thống tổng hợp báo khác: • Ưu điểm: - Baomoi.com được biết đến như là trang tổng hợp lấy tin từ nhiều nguồn nhất, từ các báo điện tử lớn tin tức tổng hợp trên đủ lĩnh vực cho đến các báo chỉ chuyên về một lĩnh vực (ví dụ: chỉ chuyên về ơtơ-xe máy), hay đến cả các báo địa phương. - Baomoi.com cịn được biết đến như là trang tổng hợp tin cĩ crawler tốt nhất, tin tức sau khi xuất hiện trên trang gốc, chỉ sau một vài phút đã cĩ tin tổng hợp trên baomoi.com. 4 - Hỗ trợ tìm kiếm tin tức • Nhược điểm: baomoi.com cho phép người đọc xem một tin chi tiết theo 2 cách, tuy nhiên cả 2 cách đều cĩ những vấn đề khơng tốt: - Cách thứ nhất là xem trang gốc - website chứa bài báo quan tâm thơng qua trang của baomoi.com. Như vậy cĩ nghĩa là báo mới đứng vai trị trung gian, nhận dữ liệu từ webstie chứa bài báo và gửi nguyên vẹn đến cho người đọc. Cách làm này là cách phổ biến với hầu hết các tin của baomoi.com, cách này khơng tối ưu cho người sử, trong khi người sử dụng chỉ cần xem nội dung tin thì việc xem cả trang gốc như thế mang đến rất nhiều thơng tin thừa như các ảnh, các flash quảng cáo, làm cho tốc độ xem tin bị chậm, đặc biệt đối với những tin cĩ clip thì tốc độ xem clip là rất chậm hoặc cĩ thể dẫn đến hiện tượng “đơ” trình duyệt. - Cách thứ hai, tin được lấy về và lưu trong CSDL của baomoi.com, sau đĩ khi cĩ yêu cầu tin, thì tin sẽ được truy vấn để trả về kết quả ở trang chi tiết (detail-page), cách làm này ít phổ biến hơn cách thứ nhất. Cách làm này của baomoi.com xuất hiện các lỗi về trích xuất tin, đối với những bài viết cĩ nhiều ảnh, thì ảnh sẽ bị đẩy hết xuống dưới cùng, sau phần kết thúc bài báo như trong Hình 1. 5 Hình 1. Minh họa lỗi tổng hợp tin trang Baomoi.com 6 tintuc.xalo.vn: • Ưu điểm: - Tốc độ lấy tin của tintuc.xalo.vn là rất nhanh, cĩ thể nĩi về tốc độ thì tintuc.xalo.vn khơng hề thua kém baomoi.com. - Tintuc.xalo.vn cho phép người đọc cĩ thể dễ dàng truy cập đến bài báo gốc nếu cần bằng một liên kết đặt phía dưới tiêu đề ở detail-page. • Nhược điểm: - Ở page-list khá nhiều tin của tintuc.xalo.vn gặp hiện tượng mất ảnh minh họa tin247.com: Tốc độ lấy tin của tin247.com là khá chậm, tin tức sau khi xuất hiện ở trang gốc khoảng vài giờ mới được cập nhật trên trang tin của tin247.com. Như vậy thì nĩi chung khơng đáp ứng được nhu cầu cập nhật tin tức nhanh chĩng như 2 trang tổng hợp trên. 7 Hình 2. Minh họa lỗi mất ảnh trang tintuc.xalo.vn 8 Chương 2. Cơ sở lý thuyết xây dựng mơ hình hệ thống tổng hợp và phân loại tin tự động Ở chương này, khĩa luận xin trình bày các bước xây dựng một hệ thống tổng hợp tin tức. Để cĩ một hệ thống tổng hợp tin tức tốt hai điều phải quan tâm đầu tiên đĩ là xây dựng một crawler tốt, và tiếp theo là xây dựng cây phân lớp đạt hiệu quả cao. Chính vì thế khĩa luận đã tiến hành tham khảo, đánh giá và lựa chọn phương pháp phân lớp hiệu quả để áp dụng cho hệ thống. Phương pháp entropy cực đại (Maximum Entropy) là phù hợp hơn cả [3],[16]. Trong các phương pháp phân lớp văn bản nổi tiếng nhất được biết đến như Nạve Bayes, SVM và entropy cực đại, Nạve Bayes là phương pháp lâu đời nhất và với độ chính xác khơng cao nhưng lại cĩ tốc độ phân lớp là nhanh hơn entropy cực đại và SVM, ngược lại thì SVM lại là thuật tốn hiện đại và được biết đến là phương pháp phân lớp văn bản cĩ độ chính xác là cao nhất hiện nay nhưng tốc độ phân lớp thì chậm hơn so với Nạve Bayes và entropy cực đại. Đối với yếu tố phân lớp của một hệ thống tổng hợp tin tức thì cần phải cân bằng được cả hai yêu tố chất lượng phân lớp và tốc độ. Vậy khĩa luận đi đến kết luận sẽ sử dụng phương pháp entropy cực đại cho việc phân lớp văn bản do entropy cực đại cĩ thời gian thực thi khơng thua nhiều Nạve Bayes nhưng hiệu quả thì cũng rất tốt, khơng thua kém nhiều so với SVM [15],[16]. Khĩa luận cũng trình bày phương pháp đánh giá hiệu quả của cây phân lớp dựa vào các độ đo là độ chính xác (P), độ hồi tưởng (R) và độ đo (F1). 2.1. Xây dựng crawler 2.1.1. Khái niệm crawler Kích thước quá lớn và bản chất thay đổi khơng ngừng của Web đặt ra một nhu cầu mang tính nguyên tắc là, cần phải cập nhật khơng ngừng tài nguyên cho các hệ thống trích chọn thơng tin trên Web. Thành phần crawler đáp ứng được nhu cầu này bằng cách đi theo các siêu liên kết trên các trang Web để tải về một cách tự động nội dung các trang Web. Web crawler khai thác sơ đồ cấu trúc của Web để duyệt khơng gian Web bằng cách chuyển từ trang Web này sang trang Web khác. 9 Hình 3. Sơ đồ cơ bản của một crawler đơn luồng [12] Hình vẽ biểu diễn sơ đồ khối một crawler đơn luồng. Chương trình crawler yêu cầu một danh sách các URL chưa được thăm (frontier). Ban đầu frontier chứa các URL hạt nhân do người dùng hoặc chương trình khác cung cấp. Mỗi vịng lắp crawling bao gồm: lấy ra các URL tiếp theo cần được tải về từ frontier, nạp trang Web tương ứng với URL đĩ bằng giao thức HTTP, chuyển nội dung trang Web vừa được tải về cho phục vụ kho chứa trang Web. Quá trình crawling được kết theo theo hai tình huống: - Đạt được điều kiện dừng cho trước, chẳng hạn như số lượng các trang Web được tải về đã đáp ứng được yêu cầu đặt ra. - Danh sách các URL tại frontier rỗng, khơng cịn trang Web yêu cầu crawler phải tải về. Lưu ý rằng, điều kiện frontier rỗng được tính với một độ trễ nào đĩ, bởi cĩ [done] [no URL] Cr aw lin g Lo o p Initialize frontier with seed URLs start Check for termination [not done] Fetch page Parse page Add URLs to frontier [URL] Pitch URL from frontier end 10 một số trường hợp, bộ điều khiển crawling chưa chuyển kịp các dánh sách URL sẽ tới thăm. Hoạt động của thành phần crawler cĩ thể được xem như một bài tốn duyệt đồ thị. Tồn bộ thế giới được Web xem như một đồ thị lớn với các đỉnh là các trang Web và các cung là các siêu liên kết. Quá trình tải một trang Web và đi tới một trang Web mới tương tự như quá trình mở rộng một đỉnh trong bài tốn tìm kiếm trên đồ thị [2]. 2.1.2. Xây dựng crawler Đối với một trang Web X, muốn tổng hợp được những tin tức mới nhất của nĩ, trước tiên cần gieo cho frontier một hạt giống là URL trang Home (hoặc trang Portal) của Web X đĩ. Ví dụ đối với vnexpress.net thì trang Home cĩ URL là: Dùng giao thức HTTP để tải về mã html - gọi là Y - của URL hạt giống. Mã html Y chứa rất nhiều các URL, trong đĩ chỉ một bộ phận nhỏ URL là siêu liên kết đến các detail-page của một tin bài cụ thể là cĩ giá trị, cịn phần lớn các URL cĩ trong Y đều là liên kết khơng liên quan, chủ yếu là các liên kết quảng cáo... Nếu đưa tất cả các siêu liên kết này vào frontier thì sẽ là khơng tối ưu, do frontier phải duyệt qua các URL khơng chứa nội dung thơng tin, như vậy sẽ ảnh hưởng đến tốc độ cập nhật tin mới của hệ thống, cĩ thể gặp phải trường hợp như tin247.com ở trên. Để lấy được các URL chứa nội dung thơng tin cần thiết (phù hợp), khĩa luận đưa ra một tập mẫu cho phép nhận dạng thẻ HTML chứa siêu liên kết tới detail-page. Ví dụ đối với báo vnexpress.net, từ mã html của trang Home cĩ thể dễ dàng nhận biết được các tin cĩ nội dung thơng tin được chứa trong các thẻ HTML với tên class như là link-topnews, folder-topnews, other-foldernews, link-othernews hay link-title. Tập dữ liệu đặc trưng này giúp dễ dàng nhận diện và lấy ra các siêu liên kết chứa nội dung thơng tin đưa vào frontier. Để lấy được các tin mới một cách nhanh nhất, crawler dừng quá trình thêm vào URL vào frontier sau chỉ một lần duyệt frontier hạt giống. Sau khi tồn bộ URL thuộc frontier được xử lý hết, crawler được tạm dừng (delay) trong một khoảng thời gian xác định trước khi lặp lại quá trình. 11 Việc xây dựng crawler cũng chính là xây dựng luật lấy URL từ tập các đặc trưng. 2.2. Xây dựng bộ trích chọn thơng tin 2.2.1. Trích chọn thơng tin trên tài liệu Web Web là dữ liệu điển hình trong dữ liệu bán cấu trúc. Trích xuất thơng tin Web đĩ là vấn đề trích xuất các thành phần thơng tin mục tiêu từ những trang Web. Một chương trình hay một luật trích xuất thường được gọi là một wrapper [4]. Bài tốn trích xuất thơng tin cho dữ liệu bán cấu trúc là rất hữu dụng bởi vì nĩ cho phép thu thập và tích hợp dữ liệu từ nhiều nguồn để cung cấp cho những dịch vụ giá trị gia tăng như : thu được những thơng tin Web một cách tùy ý, meta-search, hay các hệ thống tổng hợp tin tức. Ngày càng nhiều các cơng ty, các tổ chức phổ cập các thơng tin ở trên Web, thì khả năng trích xuất dữ liệu từ các trang Web đĩ ngày càng trở nên quan trọng. Bài tốn này đã được bắt đầu nghiên cứu vào giữa những năm của thập niên 1990 bởi nhiều cơng ty và các nhà nghiên cứu [4]. Thơng tin bán cấu trúc trên Web rất đa dạng và phụ thuộc vào cách lưu trữ và trình bày của từng webstie cụ thể Trích trọng trơng tin, dữ liệu từ những tài liệu Web bán cấu trúc là một vấn đề rất quan trọng trong trích chọn dữ liệu nĩi chung. Các Website thường được trình bày theo nhiều cách rất đa dạng, sử dụng nhiều định dạng về bảng biểu, màu sắc, font chữ, hình ảnh,... nhằm tạo ra sự bắt mắt, thoải mái cho bạn đọc. Đặc điểm của các thơng tin, dữ liệu tồn tại ở dạng bán cấu trúc là ngồi những từ khĩa (ngơn ngữ tự nhiên) thì cịn những cứ liệu (evidence) khác như bảng biểu, danh sách, kích thước font chữ, màu sắc, định dạng, các thẻ HTML... giúp quá trình trích chọn dễ dàng khả thi hơn. Các phương pháp trích chọn thơng tin dạng bán cấu trúc cũng thường phải tận dụng được hết các căn cứ này. 2.2.2. Xây dựng bộ trích chọn tài liệu Web Đối với một trang tổng hợp tin tức, việc trích chọn tài liệu cần phải lấy ra được các phần nội dung sau: - Phần bắt đầu và kết thúc bài báo từ đĩ trích rút ra các nội dung kế tiếp. 12 - Tiêu đề bài báo - Tĩm tắt - Ảnh minh họa - Phần thân bài báo Tương tự với việc trích rút ra các URL để đưa vào frontier như phần crawler (2.1.2). Xậy dựng bộ trích chọn tài liệu cũng là việc tạo ra một tập gồm các đặc trưng, cho phép nhận biết để trích rút được các nội dung cần thiết như trình bày ở trên. Chính tập các đặc trưng này, kết hợp với URL hạt giống và tập các đặc trưng nhận biết URL chứa nội dung thơng tin (được trình bày trong phần 2.1.2) tạo nên một tập dữ liệu đầu vào, cho phép crawling, trích chọn ra nội dung thơng tin của một trang Web bất kì. 2.3. Xây dựng bộ phân lớp 2.3.1. Khái niệm phân lớp văn bản Phân lớp là một trong những mối quan tầm nhiều nhất của con người trong quá trình làm việc với một tập hợp đối tượng. Điều này giúp con người cĩ thể tiến hành việc sắp xếp, tìm kiếm các đối tượng, một cách thuận lợi. Khi biểu diễn đối tượng vào hệ thống thơng tin, tính chất lớp vốn cĩ của đối tượng trong thực tế thường được biểu diễn bằng một thuộc tính “lớp” riêng biệt. Chẳng hạn, trong hệ thống thơng tin quản lý tư liệu thuộc thư viện, thuộc tính về loại tư liệu cĩ miền giá trị là tập tên chuyên nghành của tư liệu, gồm các giá trị như “Tin học”, “Vật lý”,... Trước đây các cơng việc gán các giá trị của thuộc tính lớp thường được làm một cách thủ cơng. Nhưng hiên nay, với sự bùng nổ của thơng tin và các loại dữ liệu, việc đánh thuộc tính lớp một cách thủ cơng là rất khĩ khăn, cĩ thể nĩi là khơng thể. Do vậy, cácphương pháp phân lớp tự động, trong đĩ cĩ phân lớp văn bản là rất cần thiết và là một trong những chủ đề chính của khai phá dữ liệu. Phân lớp văn bản được các nhà nghiên cứu định nghĩa thống nhất như là việc gán tên các chủ đề (tên lớp/nhãn lớp) đã được xác định cho trước vào các văn bản dựa trên nội dung của nĩ. Phân lớp văn bản là cơng việc được sự dụng để hỗ trợ trong quá trình tìm kiếm thơng tin (Information Retrieval), chiết lọc thơng tin (Information Extraction), lọc văn bản hoặc tự động dẫn đường cho các văn bản tới những chủ đề xác định trước. 13 Hình 4. Lược đồ chung xây dựng bộ phân lớp văn bản Hình 4 biểu diễn một lược đồ chung cho hệ thống phân lớp văn bản, trong đĩ bao gồm ba thành phần chính: thành phần đầu tiên là biểu diễn văn bản, tức là chuyển các dữ liệu văn bản thành một dạng cĩ cấu trúc nào đĩ. Thành phần thứ hai là học quy nạp – sử dụng các kỹ thuật học máy để phân lớp văn bản vừa biểu diễn. Thành phần thứ ba là tri thức ngồi – bổ sung các kiến thức thêm vào do người dung cung cấp để làm tăng độ chính xác trong biểu diễn văn bản hay trong quá trình học máy. Trong nhiều trường hợp, các phương pháp học hệ thống phân lớp cĩ thể bỏ qua thành phần thứ ba này. Thành phần thứ hai được coi là trung tâm của một hệ thống phân lớp văn bản. Trong thành phần này, cĩ nhiều phương pháp học máy được áp dụng như mơ hình học Bayes, cây quyết định, phương pháp k láng giềng gần nhất, SVM, entropy cực đại (maximum entropy),... là phù hợp [2]. Dữ liệu văn bản Tri thức ngồi Học quy nạp Các cơng cụ phân lớp Biểu diễn ban đầu Biểu diễn ban Biểu diễn cuối Làm giảm số chiều hoặc lựa chọn thuộc tính (1) 14 2.3.2. Áp dụng thuật tốn phân lớp entropy cực đại xây dựng bộ phân lớp văn bản Rất nhiều bài tốn trong lĩnh vực xử lý ngơn ngữ tự nhiên (NLP) cĩ thể được xem xét dưới dạng các bài tốn phân lớp với việc ước lượng xác suất cĩ điều kiện ( ),p a b của “lớp” a (class) xuất hiện trong “ngữ cảnh” b (context) hay nĩi cách khác là ước lượng xác suất xuất hiện của a với điều kiện b. Ngữ cảnh thường bao gồm các từ và việc chọn ngữ cảnh phụ thuộc theo từng bài tốn cụ thể. Ngữ cảnh b cĩ thể là một từ đơn lẻ, cũng cĩ thể chứa một số từ xung quanh hoặc các từ cùng với các nhãn cú pháp tương ứng. Một lượng văn bản lớn sẽ cung cấp rất nhiều thơng tin về sự xuất hiện đồng thời của các lớp a và ngữ cảnh b, nhưng lượng văn bản đĩ chắc chắn sẽ khơng đủ để chỉ ra một cách chính xác xác suất ( ),p a b của mọi cặp ( ),a b vì các từ trong b thường nằm rải rác. Do đĩ cần phải tìm một phương pháp ước lượng (cĩ thể tin tưởng được) mơ hình xác suất cĩ điều kiện ( ),p a b sử dụng các cứ liệu về sự xuất hiện đồng thời của lớp a và ngữ cảnh b. Mơ hình xác suất entropy cực đại cung cấp một cách đơn giản để kết hợp các cứ liệu ngữ cảnh khác nhau để ước lượng xác suất của một số lớp ngơn ngữ xuất hiện cùng với một số ngữ cảnh ngơn ngữ. 2.3.2.1. Biểu diễn các đặc trưng Theo [1],[7] các đặc trưng (feature) được biểu diễn bằng các mệnh đề biểu diễn thơng tin ngữ cảnh (context predicate). Nếu A là tập các lớp thực hiện phân lớp và B là tập các ngữ cảnh mà quan sát được, thì mệnh đề biểu diễn thơng tin ngữ cảnh là một hàm được mơ tả như sau: : { , }cp B true false→ Hàm này trả về giá trị true hoặc false, phụ thuộc vào sự xuất hiện hoặc khơng xuất hiện của các thơng tin hữu ích trong một số ngữ cảnh b B∈ . Tập các mệnh đề biểu diễn thơng tin ngữ cảnh được sử dụng rất nhiều trong các bài tốn tuy nhiên với mỗi bài tốn thì người thực nghiệm phải cung cấp một tập thơng tin ngữ cảnh riêng. Các mệnh đề biểu diễn thơng tin ngữ cảnh được sử dụng trong các đặc trưng – đĩ là một hàm cĩ dạng như sau: : {0,1}f A B× → 15 Và được mơ tả dưới dạng: ( ) ( ) , ' 1 ' and , 0cp a if a a cp b truef a b other  = = =   Hàm này kiểm tra sự xuất hiện đồng thời của lớp dự đốn a' với mệnh đề biểu diễn thơng tin ngữ cảnh cp. Ví dụ nếu trong bài tốn xuất hiện: - a' là lớp “THETHAO”, b là văn bản hiện tại. - cp = [ văn bản hiện tại chứa cụm từ “bĩng_đá” ]. thì hàm đặc điểm này sẽ trả về giá trị 1 nếu như lớp dự đốn a là “THETHAO”. 2.3.2.2. Cách tiếp cận theo ngữ liệu Cho rằng tồn tại một tập dữ liệu huấn luyện 1 1{( , ),..., ( , )}N NT a b a b= trong đĩ một tập hợp lớn các ngữ cảnh 1{ , , }Nb b… được gắn nhãn tương ứng trong tập hợp các lớp 1{ , , }Na a… , sau đĩ tiến hành học cho mơ hình phân lớp entropy cực đại trên tập dữ liệu huấn luyện đĩ. Ý tưởng tập dữ liệu huấn luyện bao gồm các cặp, mỗi cặp là một véc-tơ giá trị logic cùng với một lớp tương ứng rất phổ biến và được sử dụng với rất nhiều các thuật tốn được mơ tả trong các tài liệu về học máy. Học với ước lượng likelihood cực đại trên mơ hình mũ Để kết hợp các cứ liệu ta cĩ thể đánh trọng số cho các đặc trưng bằng cách sử dụng một mơ hình log-linear hay mơ hình mũ: ( ) ( ) ( ), 1 1 , i k f a b i i p a b Z b λ = = ∏ (1) ( ) ( ), 1 i k f a b i a i Z b λ = =∑∏ trong đĩ k là số lượng các đặc trưng và ( )Z b là biểu thức chuẩn hĩa để đảm bảo điều kiện ( | ) 1 a p a b =∑ . Mỗi tham số iλ tương ứng với một đặc điểm if và cĩ thể được hiểu là “trọng số” của đặc điểm tương ứng ( iλ > 0). Khi đĩ xác suất ( ),p a b là kết quả được chuẩn hố của các đặc trưng cĩ ý nghĩa với cặp ( ),a b , tức là với các đặc điểm if mà 16 ( , ) 1if a b = . Các trọng số 1{ , , }kλ λ… của phân phối xác suất *p là phân phối xác suất phù hợp nhất với tập dữ liệu huấn luyện cĩ thể xác định thơng qua một kĩ thuật phổ biến của ước lượng likelihood cực đại: ( , ) 1 1{ | ( | ) }( ) i k f a b i i Q p p a b Z b λ = = = ∏ , ( ) ( , ) log ( , ) a b L p p a b p a b=∑ * arg max ( ) q Q p L q ∈ = trong đĩ Q là tập hợp các mơ hình của dạng log-linear, ( | )p a b là xác suất thực nghiệm trên tập T, ( )L p là log-likelihood cĩ điều kiện của tập dữ liệu huấn luyện T (được chuẩn hố bởi số lượng sự kiện huấn luyện) và *p là phân phối xác suất tối ưu phụ thuộc theo tiêu chuẩn likelihood cực đại. Học dưới mơ hình entropy cực đại Trong khi cĩ rất nhiều cách để kết hợp các cứ liệu dưới dạng nào đĩ của một mơ hình phân phối xác suất, dạng (1) cĩ tính tích cực riêng dưới hình mẫu entropy cực đại. Nguyên lý entropy cực đại trong [17] chỉ ra rằng mơ hình xác suất tốt nhất cho dữ liệu là mơ hình làm cực đại giá trị entropy trong số các mơ hình phân phối xác suất thoả mãn các cứ liệu. 2.3.2.3. Mơ hình entropy cực đại cĩ điều kiện Trong hình mẫu được dùng để giải quyết bài tốn đặt ra, cĩ k đặc trưng và khi cho trước một lớp a A∈ cùng với một ngữ cảnh b B∈ thì cơng việc là phải tìm một ước lượng cho xác suất cĩ điều kiện ( ),p a b . Trong các hình mẫu entropy cực đại cĩ điều kiện được sử dụng trong các nghiên cứu [5],[8],[11],[13],[16],[18], lời giải tối ưu *p là phân phối “khơng chắc chắn nhất” (entropy đạt cực đại) thoả mãn k ràng buộc trên các kì vọng của các đặc điểm: * arg max ( ) p P p H p ∈ = , ( ) ( , ) log ( , ) a b H p p a b p a b=∑ 17 { | , {1... }}p i ipP p E f E f i k= = = , ( , ) ( , )i ip a b E f p a b f a b=∑ , ( ) ( , ) ( , )p i i a b E f p b p a b f a b=∑ Ở đây ( )H p kí hiệu cho entropy cĩ điều kiện được tính trung bình trên tập huấn luyện, khác với entropy kết hợp, và xác suất biên của b sử dụng ở đây là xác suất thực nghiệm ( )p b , khác với xác suất mơ hình ( )p b . p iE f là kì vọng của mơ hình p của if , nĩ sử dụng ( )p b làm một xác suất biên. Tương tự như vậy ipE f là kì vọng thực nghiệm của p của if . ( , )p a b kí hiệu cho xác suất thực nghiệm của ( ),a b trong một số mẫu huấn luyện nhất định. Và cuối cùng P kí hiệu cho tập các mơ hình xác suất thoả mãn các cứ liệu quan sát được. 2.3.2.4. Mối quan hệ với likelihood cực đại Thơng thường hình mẫu likelihood cực đại và entropy cực đại là hai cách tiếp cận khác nhau trong mơ hình hố thống kê, nhưng chúng cĩ cùng câu trả lời trong trường hợp này. Cĩ thể thấy rằng việc ước lượng tham số của likelihood cực đại cho mơ hình của dạng (1) tương đương với việc ước lượng tham số của entropy cực đại trên tập các mơ hình thoả mãn. Điều đĩ cĩ nghĩa là: * arg max ( ) arg max ( ) q Q p P p L q H p ∈ ∈ = = Điều này được mơ tả trong [3] sử dụng lý thuyết thừa số nhân lagrange và trong [11] với các đối số lý thuyết thơng tin (đối với trường hợp *p là một mơ hình kết hợp). Dưới tiêu chuẩn likelihood cực đại, *p sẽ phù hợp với dữ liệu ở mức gần nhất cĩ thể, trong khi đĩ dưới tiêu chuẩn entropy cực đại, *p sẽ khơng giả định bất kì điều gì vượt quá những trơng tin trong các ràng buộc tuyến tính định nghĩa ra P. Trong [18] trình bày các chứng minh cho thấy rằng điều kiện * arg max ( ) q Q p L q ∈ = là tương đương với điều kiện * arg max ( ) p P p H p ∈ = . Điều này rất quan trọng để thấy rằng dạng (1) khơng phải là đưa ra 18 một cách khơng cĩ căn cứ, lời giải cho entropy cực đại * arg max ( ) p P p H p ∈ = phải cĩ dạng này. Sự tương đương này đã cung cấp một phương pháp mới cho phép ước lượng tham số cho các mơ hình dựa trên nguyên lý entropy cực đại bằng cách sử dụng các phép ước lượng tham số cho likelihood cực đại. 2.3.2.5. Các thuật tốn ước lượng tham số Cho tập huấn luyện 1 1{( , ),..., ( , )}N NT a b a b= . Phân phối mũ: ( ) ( ) ( ), 1 1| i k f a b i i p a b Z b λ = = ∏ trong đĩ 1{ ... }kλ λ λ= là tập trọng số, ( ) ( ), 1 i k f a b i a i Z b λ = =∑∏ là thừa số chuẩn hố. Huấn luyện mơ hình entropy cực đại chính là ước lượng tập trọng số 1{ ... }kλ λ λ= để cho phân phối ở trên đạt entropy cao nhất. Các thuật tốn phổ biến được sử dụng bao gồm: Thuật tốn GIS – Generalized Iterative Scaling – được đưa ra trong [8]; Thuật tốn IIS – Improved Iterative Scaling – được đưa ra trong [11] là thuật tốn ước lượng tham số của mơ hình mũ do các thành viên trong nhĩm nghiên cứu tại IBM’s T. J. Watson Research Center đưa ra vào những năm đầu của thập kỉ 90; Thuật tốn L-BFGS – Limited memory BFGS – là phương pháp giới hạn bộ nhớ cho phương pháp quasi-Newton. 2.3.3. Phương pháp đánh giá hiệu suất phân lớp Việc đánh giá độ phân lớp dựa trên việc áp dụng mơ hình đối với các dữ liệu thuộc tập dữ liệu kiểm tra testD , sử dụng mơ hình cho từng trường hợp dữ liệu ở testD mà kết quả ra là lớp c dự báo cho từng dữ liệu. Hai độ đo được dùng phổ biến để đánh giá chất lượng của thuật tốn phân lớp là độ hồi tưởng (recall) R và đọ chính xác (precision) P. Ngồi ra, một số độ đo kết hợp được xây dựng từ các độ đo này cũng được sử dụng, trong đĩ điển hình nhất là độ đo F1. Phần dưới đây trình bày các tính tốn chi tiết giá trị của các độ đo hồi tưởng và độ chính xác trong bài tốn phân lớp văn bản. 19 Xét trường hợp lực lượng của tập C các lớp trong bài tốn lớn hơn hai (|C| > 2) với lưu ý rằng, trường hợp tập C chỉ gồm cĩ hai lớp là đơn giản. Đối với lớp c, cho thực hiện mơ hình phân lớp vừa được xác định với các dữ liệu thuộc testD nhận được các đại lượng cTP , cTN , cFP , cFN như bảng dưới đây: Giá trị thực tế Lớp c Thuộc lớp c Khơng thuộc lớp c Thuộc lớp c cTP cTN Giá trị qua bộ phân lớp Khơng thuộc lớp c cFP cFN Diễn giải bằng lời cho từng giá trị trong bảng: - cTP (true positives): số lượng ví dụ dương (tài liệu thực sự thuộc lớp c) được thuật tốn phân lớp gán cho giá trị đúng thuộc lớp c. - cTN (true negatives): số lượng ví dụ âm (tài liệu thực sự khơng thuộc c) nhưng lại được thuật tốn phân lớp gán cho giá trị đúng thuộc lớp c. - cFP (false positives): số lượng ví dụ dương được thuật tốn phân lớp gán cho giá trị sai là khơng thuộc lớp c. - cFN (false negatives): số lượng ví dụ âm được thuật tốn phân lớp gán cho giá trị sai là khơng thuộc lớp c. Khi đĩ, với mỗi lớp c, giá trị các độ đo cR và cP được tính như sau: c c c c TPR TP FP = + và c c c c TPP TP TN = + Với bài tốn phân lớp nhị phân, các độ đo nĩi trên cho một lớp trong hai lớp là đủ để đánh giá chất lượng bộ phân lớp, tuy nhiên, trong trường hợp bài tốn phân lớp K lớp, các Bảng 1. Các nhĩm tài liệu sau phân lớp 20 độ đo trung bình được sử dụng bao gồm trung bình mịn (microaveraging) và trung bình thơ (macroaveaging). Độ hồi tưởng trung bình thơ (macroaveraging recall): 1 1 KM c c R R K = = ∑ và độ chính xác trung bình thơ (macroaveaging precision): 1 1 KM c c P P K = = ∑ Độ hồi tưởng trung bình mịn (microaveraging recall): 1 1 ( ) K c M c K c c c TP P TP FP = = = + ∑ ∑ và độ chính xác trung bình mịn (microaveraging precision): 1 1 ( ) K c M c K c c c TP P TP TN = = = + ∑ ∑ Các độ đo trung bình mịn được coi là các độ đo tốt hơn để đánh giá chất lượng thuật tốn phân lớp đa lớp tài liệu [2]. 21 Chương 3. Xây dựng hệ thống tổng hợp và phân loại tin tự động Việc xây dụng hệ thống tổng hợp và phân loại tin tự động là vấn đề quan trọng nhất của khĩa luận. Ở chương này, khĩa luận sẽ trình bày các bước xây dựng mơ hình hệ thống trên cơ sở lý thuyết được trình bày trong chương 2. 3.1. Cơ sở thực tiễn Hiện nay, các trang Web đều được xây dựng bởi các ngơn ngữ lập trình Web như PHP, ASP.NET,... Nĩ cho phép sinh ra siêu văn bản một cách tự động. Khi một tin tức được đăng tải trên một báo điện tử, thì nĩ tuân theo định dạng HTML nhất định được sinh ra tự động. Điều này cĩ nghĩa là, khi biết mẫu để trích xuất một tin trong một khuơn mẫu, thì cũng cĩ thể trích xuất được tin ở trang cĩ cùng khuơn mẫu đĩ. Ví dụ: Ở trang tin vnexpress.net, hai bài báo ở hình 5a và 5b là hai tin bài trong hai mục báo khác nhau Hình 5a. Mơ tả phần nội dung cần lấy trên trang tin 1 22 Hình 5b. Mơ tả phần nội dung cần lấy trên trang tin 2 Mặc dù detail-pages của chúng khác nhau nhưng chúng cĩ cùng một câu DOM => cĩ nghĩa là cĩ cùng một khuơn mẫu. Hình 6. Mơ hình cây DOM của 2 detail-pages HTML TABLE TD DIV TD BODY BODY TR TR Nội dung bài báo Quảng cáo 23 2 detail-pages này cĩ cùng một cây DOM, nhưng khĩa luận khơng sử dụng trích chọn thơng tin dựa trên mơ hình cây DOM mà sử dụng đặc trưng mẫu để tìm ra các nội dung thơng tin cần thiết. Các đặc trưng này được thể hiện như trong hình 7a và 7b. Hình 7a. Các đặc trưng cho phép trích chọn thơng tin bài báo 1 24 Hình 7b. Các đặc trưng cho phép trích chọn thơng tin bài báo 2 Từ mẫu tìm được, dễ dàng nhận ra phần nội dung thơng tin cần thiết, điều đĩ khiến việc trích chọn ra nội dung thơng tin cần thiết là hết sức đơn giản. 3.2. Xây dựng mơ hình hệ thống Trên cơ sở thực tiễn và mơ hình lý thuyết đã phân tích ở chương 2, tiếp theo khĩa luận sẽ trình bày mơ hình hĩa hệ thống tổng hợp và phân loại tin tức. Các module cấu thành sẽ cho thấy tính mở của hệ thống, cho phép dễ dàng mở rộng khi cần. 25 3.2.1. Mơ hình tổng quan Hình 8. Mơ hình tổng quan của hệ thống tổng hợp và phân loại tin tức Mơ tả bài tốn Đầu vào: File cấu hình hệ thống xnews.conf Đầu ra: Các tin tức đã được phân tích và tách thành các phần bao gồm: tiêu đề, tĩm tắt, ảnh minh họa, nội dung... ghi vào CSDL. File cấu hình xnews.conf chứa tập các URLs hạt giống, tương ứng với mỗi URL hạt giống là một loạt các mẫu, cho phép trích xuất thơng tin như mong đợi. Định dạng xnews.conf được trình bày như sau: Dịng 1: Chứa số nguyên dương N, với N là số nguồn sẽ sử dụng để tổng hợp tin tức. 8 dịng tiếp theo được trình bày theo định dạng cố định và lặp lại N lần 26 1. URL hạt giống 2. Dấu hiệu nhận biết link con cần lấy 3. Bắt đầu phần nội dung 4. Kết thúc phần nội dung 5. Tiêu đề bài báo 6. Đoạn tĩm tắt nội dung chính 7. Tác giả bài báo 8. Dịng trống Đối với cụm 8 dịng này thì: 7 dịng đầu tiên chứa thơng tin về một Web tin tức, nĩ cho phép crawl, trích xuất tất cả các tin bài cần lấy của Web tin tức đĩ. Dịng thứ 8 được để trống. Ví dụ đối với báo vnexpress.net để cĩ thể lấy được đầy đủ các tin bài cần thiết, khĩa luận xây dựng một bộ gồm các mẫu như sau: ~ ~class="link-topnews"~class="folder-topnews fl"~class="other-folder fl"~<a class="link-othernews"~<a class="link-title"~ ~class="content"~ ~style="margin-top:5px;margin-bottom:5px;"~ ~class=Title~ ~~ ~ormal align=right~ Mỗi một dịng được bắt đầu và kết thúc bởi dấu “~”, đồng thời dấu “~” cũng được sử dụng để làm phân cách cho các mẫu trên cùng một dịng. Đường đi của mơ hình hệ thống 27 Trước hết, “module sinh file huấn luyện” được chạy để sinh ra file huấn luyện, cũng là dữ liệu vào, thành phần chính của “module phân lớp”. Tiếp theo, chương trình đọc file cấu hình xnews.conf để thu được các URLs hạt giống và các mẫu đi cùng với nĩ như được trình bày ở trên. Tạo một yêu cầu (request) HTTP để lấy về mã HTML của trang tin Home tương ứng với URL hạt giống. Đọc và trích xuất ra các siêu liên kết cĩ trong mã HTML này dựa vào mẫu “Dấu hiệu nhận biết link con cần lấy” để thu được danh sách URLs. Truy vấn đến CSDL để kiểm tra các URLs thuộc danh sách này xem đã được thăm chưa, từ đĩ đưa ra được danh sách các URLs chưa thăm. Ở đây, khĩa luận sử dụng lưu trữ trong CSDL bảng băm MD5 của URL thay cho việc lưu trữ trực tiếp URL, đồng thời sử dụng mã MD5 làm khĩa chính của bảng tương ứng trong CSDL (sẽ được trình bày chi tiết hơn trong chương 4). Đối với mỗi URL trong danh sách URLs chưa thăm, lặp lại việc gửi yêu cầu HTTP để thu được mã HTML tương ứng. Sử dụng cơng cụ UnicodeConverter để chuẩn hĩa Unicode mã HTML lấy về, và sau đĩ tiến hành trích xuất thơng tin nhờ vào tập mẫu của file cấu hình xnews.conf. Thơng tin trích xuất được, được đưa vào dữ liệu “các thơng tin đầy đủ về bài báo” bao gồm bảng băm MD5 của URL, URL, tiêu đề bài báo, phần tĩm tắt nội dung, link ảnh minh họa, và phần nội dung bài báo, đồng thời cung cấp “tồn bộ nội dung bài báo” (từ phần bắt đầu đến kết thúc của bài báo đĩ trong mã HTML) cho “module chuẩn hĩa dữ liệu huấn luyện/kiểm tra mơ hình”. Qua bước này, chương trình thu được xâu đã được chuẩn hĩa, làm dữ liệu vào cho “module phân lớp”, qua module thu được nhãn tương ứng của bài báo. Cung cấp nhãn này cho “các thơng tin đầy đủ về bài báo” và cuối cùng là tiến hành ghi các thơng tin này vào CSDL. Xử lý các văn bản khơng thuộc các lớp quan tâm Trên thực tế, xảy ra trường hợp tập các lớp mà bài tốn phân lớp của chương trình quan tâm tới khơng bao quát hết các trường hợp văn bản, tin tức của hệ thống trang tin điện tử. Một phương pháp giải quyết với vấn đề này, là xây dựng thêm một phân lớp, là phân lớp “khác”. Tất cả các văn bản khơng thuộc các phân lớp văn bản thơng thường sẽ được xếp vào phân lớp “khác”. Để giải quyết vấn đề theo cách đơn giản hơn, khĩa luận đã áp dụng một số phương pháp để loại bỏ các trường hợp này từ danh sách URLs dựa vào đặc điểm URL và một số yếu tố khác. Làm như vậy cũng đồng thời tiết kiệm được cơng sức phải xử lý (từ lấy mã HTML, chuẩn hĩa, phân lớp,…) một lượng các văn bản khơng thuộc lớp nào gĩp phần tăng tốc độ chung cho tồn hệ thống. 28 Ví dụ 1: Trên trang báo điện tử vnexpress.net cĩ phân lớp “Tâm sự” là phân lớp khơng thuộc nhĩm được quan tâm của nội dung khĩa luận. Một số URL bài viết thuộc lớp này: - - Dễ dàng nhận thấy đặc điểm chung URL của các bài viết thuộc lớp này. Như vậy với báo điện tử vnexpress.net để loại các bài viết thuộc lớp “Tâm sự” đơn giản chỉ cần loại các URL cĩ chứa xâu “vnexpress.net/GL/Ban-doc-viet/Tam-su/”. Ví dụ 2: Trong trường hợp của báo phapluattp.vn. Xuất hiện các bài báo thuộc lớp “Đơ thị” là phân lớp chưa được khĩa luận quan tâm tới. Dựa vào đặc điểm này, các bài báo thuộc lớp “Đơ thị” cũng sẽ dễ dàng bị loại trước khi chương trình thực hiện trích xuất các nội dung thơng tin cần thiết. Hình 9. Đặc điểm giúp loại tin thuộc lớp chưa quan tâm 29 Kiểm sốt các trang trùng nhau Một vấn đề khơng kém phần quan trọng trong nội dung tổng hợp tin tức là kiểm sốt các bài báo cĩ cùng nội dung. Đối với hệ thống trang tin điện tử của Việt Nam, nhiều trang báo thực hiện việc tổng hợp từ các báo khác bằng phương pháp thủ cơng, và đi kèm với đĩ cĩ một số vấn đề cần được xử lý như sau: - Tiêu đề của tin tức cĩ thể được thay đổi. - Phần tĩm tắt cĩ thể được thêm bớt. - Ảnh minh họa cĩ thể bị thay đổi. - Nội dung cĩ thể được thêm bớt ít nhiều. Để xử lý trường hợp này phương pháp thường được sử dụng là Jaccard Index (chỉ số Jaccard) – cịn được gọi là hệ số tương tự Jaccard, là một số thống kê được sử dụng để so sánh sự giống nhau và đa dạng của các bộ mẫu. Nhưng do cĩ nhiều hạn chế về mặt thời gian, nên vấn đề này sẽ là định hướng phát triển trong tương lai. 3.2.2. Module chuẩn hĩa dữ liệu huấn luyện/kiểm tra mơ hình Hình 10. Module chuẩn hĩa dữ liệu huấn luyện/kiểm tra mơ hình 30 Mơ tả bài tốn Đầu vào: Xâu dữ liệu nội dung bài báo và file danh sách từ dừng1 Đầu ra: Xâu dữ liệu đã được gán nhãn “Xâu dữ liệu nội dung bài báo” là phần nội dung từ bắt đầu đến kết thúc bài báo dưới mã HTML đã được chuẩn hĩa Unicode (là phần dữ liệu được trích xuất từ mã HTML của bài báo tương ứng). Đường đi của mơ hình hệ thống Từ xâu dữ liệu vào, xĩa bỏ các thẻ HTML để thu được tài liệu dạng văn bản phi cấu trúc thơng thường. Sử dụng cơng cụ vnTokenizer phân tích dữ liệu thu được ra dạng từ đơn, từ ghép. Xĩa bỏ các ký tự đặc biệt như dấu chấm, dấu phẩy, chấm phẩy, hai chấm, ba chấm,… thu được xâu dữ liệu chỉ bao gồm các từ đơn từ ghép ngồi ra khơng cịn ký hiệu đặc biệt hay nào khác. Loại bỏ từ dừng ở xâu thu được bằng phương pháp khớp biểu thức chính quy. Từ file danh sách từ dừng sinh ra một mẫu biểu thức chính quy, cho phép khớp tất cả các từ dừng cĩ trong danh sách. Sau khi loại bỏ từ dừng, chuẩn hĩa xâu thu được, xĩa bỏ các dấu trống đầu và cuối, thay tất cả các ký tự trống (ký tự tab, cuối dịng) bằng dấu khoảng cách, giữa hai từ bất kỳ chỉ giữ một dấu khoảng cách duy nhất. Thu được xâu đã được chuẩn hĩa, thực hiện gán nhãn và trả ra xâu đã được gán nhãn. Ở đây, đối với mơ hình huấn luyện, nhãn của dữ liệu đã được biết trước, thực hiện gán nhãn trên xâu đã được chuẩn hĩa. Cịn với mơ hình kiểm tra, nhãn ở đây được gán theo dạng câu hỏi (dấu chấm hỏi “?”). 3.2.3. Module phân lớp Mơ tả bài tốn Đầu vào: File huấn luyện và xâu cần phân lớp đã được chuẩn hĩa Đầu ra: Xâu được phân lớp và gán nhãn File huấn luyện được tạo bởi “module sinh file huấn luyện” và xâu cần được phân lớp được sinh bởi “module chuẩn hĩa dữ liệu huấn luyện/kiểm tra mơ hình”. Đường đi của mơ hình hệ thống 1 31 Từ file huấn luyện, sử dụng cơng cụ maxent cho việc học mơ hình. Sau quá trình học, mơ hình thu được được sử dụng để kiểm tra mơ hình trên “xâu vào đã được chuẩn hĩa” (sử dụng cơng cụ maxent) thu được xâu được gán nhãn. 3.2.4. Module sinh file huấn luyện Mơ tả bài tốn Đầu vào: Tập dữ liệu huấn luyện Đầu ra: File huấn luyện Tập dữ liệu huấn luyện được lấy từ báo vnexpress.net riêng biệt theo 10 phân lớp bao gồm: - XAHOI - THEGIOI - KINHDOANH Hình 11. Module phân lớp 32 - VANHOA - THETHAO - PHAPLUAT - ĐOISONG - KHOAHOC - VITINH - XE Mỗi phân lớp sử dụng 1.000 bài báo cho việc học mơ hình. Như vậy file huấn luyện sẽ bao gồm nội dung được lấy từ 10.000 bài báo đã biết trước nhãn. Đường đi của module Đọc tập dữ liệu huấn luyện để thu được xâu, làm dữ liệu đầu vào cho “module chuẩn hĩa dữ liệu huấn luyện/kiểm tra mơ hình” thu được xâu đã được gán nhãn ghi lại thành file huấn luyện. 3.3. Khả năng mở rộng của hệ thống Theo mơ hình hệ thống của chương trình thể hiện tính module hĩa cao. Các module làm việc ăn khớp với nhau, mỗi module đều cĩ một chức năng rõ ràng và tương đối độc Hình 12. Module sinh file huấn luyện 33 lập với các module cịn lại, các module chỉ tương tác với nhau theo dạng đầu vào của module này là đầu ra của module khác làm cho chương trình dễ dàng kiểm sốt được lỗi phát sinh nếu cĩ. Đồng thời việc nâng cấp tồn bộ hệ thống lấy tin cũng chỉ ảnh hưởng đến từng module riêng biệt chứ khơng tác động tới tất cả các module trong hệ thống. Ví dụ hệ thống cần được nâng cấp về số phân lớp, để mở rộng quy mơ ra những lĩnh vực chưa được quan tâm trước đĩ, hệ thống chỉ cần nâng cấp làm việc với “module sinh file huấn luyện” để cĩ thể phân lớp các văn bản thuộc các lớp mới đĩ. 34 Chương 4. Thực nghiệm và đánh giá kết quả Ở chương này, khĩa luận sẽ trình bày thực nghiệm và kết quả để đánh giá chất lượng của hệ thống tổng hợp và phân loại tin tự động, khĩa luận sẽ đưa ra hai nội dung đánh giá là chất lượng tổng hợp tin và hiệu suất của việc phân loại tin tự động. 4.1. Mơi trường phần cứng và phần mềm 4.1.1. Mơi trường phần cứng Thành phần Thơng số CPU Intel Core 2 Duo T7600 2.0GHz RAM 3GB OS Ubuntu 9.04 Bộ nhớ ngồi 120GB 4.1.2. Cơng cụ phần mềm STT Tên phần mềm Giấy phép Nguồn 1 Netbean 6.5 GPL Bảng 2. Cấu hình phần cứng sử dụng trong thực nghiệm Bảng 3. Các cơng cụ phần mềm sử dụng trong thực nghiệm 35 2 mysql 5.0.75- 0ubuntu10.3 GPL 3 OpenJDK 1.6.0_0 GPL 4 mysql-connector- java-5.1.12-bin.jar GPL 5 maxent-2.5.2.jar GPL 6 vn.hus.nlp.tokenizer- 4.1.1.jar GPL php 7 UnicodeConverter.jar v2.0 GPL Sử dụng các cơng cụ phần mềm trên khĩa luận đã xây dựng chương trình tự động tổng hợp và phân loại tin trong hệ thống trang tin điện tử. Cấu trúc của chương trình gồm cĩ 3 gĩi (packages) chính như sau: J_Lib: Cung cấp các chức năng cần thiết ở mức thư viện cung cấp các chức năng tiện dụng nhất và cĩ mức độ độc lập tương đối với các packages khác. J_NLP: Cung cấp các chức năng tách từ tiếng Việt (sử dụng vnTokenizer) và học cũng như kiểm tra mơ hình với phân lớp văn bản entropy cực đại (sử dụng maxent) xnews: Sử dụng J_Lib và J_NLP để lấy tin, xử lý trích xuất, chuẩn hĩa, phân lớp, ghi nội dung tin tức vào CSDL, làm và đánh giá các thực nghiệm... Chi tiết các lớp của 3 gĩi này được trình bày như bảng bên dưới: 36 Packages Classes Chức năng J_GET Tạo yêu cầu (request) GET để lấy về mã HTML của một URL J_Img Tải ảnh, phân loại và nén ảnh J_RmTag Xĩa các thẻ HTML để thu được bài báo ở dạng văn bản thơng thường J_SQL Kết nối với CSDL (sử dụng mysql- connector-java-5.1.12-bin.jar) J_Lib J_Utilities Sinh mã md5 của một xâu và các tiện tích trên file CreateModel Sinh mơ hình từ tập dữ liệu huấn luyện (sử dụng maxent) Predict Kiểm tra mơ hình, gán nhãn cho dữ liệu kiểm tra (sử dụng maxent) J_NLP J_Tokenizer Sử dụng biểu thức chính quy để chuẩn hĩa xấu, loại ký tự đặc biệt, loại bỏ từ dừng, tách từ đơn, từ ghép (sử dụng vnTokenizer) Crawler Điều khiển lấy tin, trích xuất nội dung, chuẩn hĩa, phân lớp, vào ra trên CSDL,... (sử dụng UnicodeConverter.jar) xnews Lab Tạo dữ liệu học, kiểm tra mơ hình từ tập dữ liệu thơ Bảng 4. Mơ tả chức năng các lớp trong các gĩi 37 4.2. Cấu trúc Cơ sở dữ liệu Cơ sở dữ liệu của chương trình được thiết kế cho việc tối ưu hĩa tốc độ truy vấn, khi số lượng tin tức được lưu là rất lớn. CSDL của chương trình được thiết kế gồm 3 bảng t_store01, t_store02 và t_store03 cụ thể như sau: Bảng t_store01: Cho biết các tin theo ngày và theo thể loại được phép hiển thị. Ứng với mỗi một ngày, bảng t_store01 sinh ra thêm 10 hàng tương ứng với 10 phân lớp của tin tức, lưu trữ thơng tin về các bài báo trong ngày theo 10 phân lớp tương ứng. Bảng t_store02: Lưu trữ tất cả các thơng tin chi tiết của một bài báo cụ thể. Bảng t_store03: Được thiết kế các trường, các chức năng giống với t_store01, chỉ cĩ một điểm khác duy nhất, ngược lại với t_store01 cho biết các tin được phép hiển thị, thì t_store03 lại cho biết các tin khơng được phép hiển thị. Bảng t_store03 nhằm phục vụ cho việc lưu trữ các bài báo được xĩa bằng tay trong trường hợp tin bài khơng phù hợp. Tất cả các tin khi được lấy về, sẽ được mặc định ghi vào bảng t_store01 và bảng t_store02. Bảng t_store03 sẽ được sử dụng đến bởi chức năng của người biên tập báo. Dù là một hệ thống lấy tin tức tự động, nhưng việc hệ thống cần cĩ một người biên tập báo là điều hồn tồn hợp lý. Người biên tập sẽ cĩ nhiệm vụ theo dõi và chuẩn xác lại các thơng tin, ví dụ khi hệ thống được mở rộng nguồn cập nhật tin, hệ thống tự động lấy về một số bài báo cĩ nội dung liên quan đến các vấn đề “nhạy cảm” về chính trị, người biên tập cĩ nhiệm vụ đánh giá mức độ “nhạy cảm” của vấn đề và đưa ra quyết định cĩ giữ bài báo hay khơng. Nếu bài báo cần được xĩa, nĩ sẽ được chuyển từ bảng t_store01 sang t_store03 - nơi chỉ chứa các tin đã bị xĩa (trên thực tế là bị ẩn) và trường vis của bảng t_store02 cũng thay đổi tương ứng. Ngồi ra t_store03 được tạo ra cịn nhằm để cho phép khơi phục lại tin đã xĩa nếu thấy cần thiết. Để phục vụ việc tối ưu hĩa truy vấn, khĩa luận thực hiện đánh chỉ mục (index) trên các bảng của CSDL tương ứng với các khĩa chính của bảng đĩ: - data_type trên t_store01 và t_store03. - u5 trên t_store02. 38 Bảng Trường/ Khĩa Kiểu dữ liệu Mơ tả date_type (p) int Date là ngày theo kiểu int được viết dưới định dạng YYYYMMDD viết liền type, để chia ra tin tức theo 10 phân lớp trong ngày. nums int Số bài đến thời điểm hiện tại trong ngày ứng với mỗi một mục tin date_type. t_store01 lu5 text Danh sách bảng băm MD5 của nums tin tương ứng của mỗi mục tin trong ngày. Hai mã MD5 liên tiếp phân cách nhau bởi xâu “t_#”. Mỗi mã MD5 cho phép truy vấn tin theo u5 của t_store02. u5 (p) char(32) u5 gồm 32 ký tự là bảng băm MD5 của URL bài báo gốc. u5 được sử dụng làm khĩa chính của bảng, đồng thời được đánh chỉ mục (index) cho phép tối ưu hĩa truy vấn. Ngồi tập tất cả các u5 trong t_store02 cũng đại diện cho tất cả các URL đã thăm, như vậy nĩ cho phép kiểm tra URL chưa thăm. vis char(1) vis được ấn định 1 trong 2 trạng thái 0 hoặc 1. Mặc định vis bằng 1 cĩ nghĩa là bài báo đĩ được phép hiển thị. Ngược lại khi vis bằng 0 thì bài báo đĩ khơng được phép hiển thị. t_store02 type int type là số cĩ 2 chữ số 00, 01, …, 09 tương ứng với 10 phân lớp tin tức của hệ thống. Bảng 5. Chi tiết CSDL 39 infors text Thơng tin tổng hợp về một bài báo bao gồm các nội dung thơng tin: ngày tháng định dạng YYYYMMDDHHmm bài báo được lấy về, URL bài báo gốc, tiêu đề bài báo, tĩm tắt, link ảnh minh họa. Các thơng tin được ngăn cách nhau bởi ký hiệu “t_#”. view mediumtext Chứa tồn bộ phần nội dung thơng tin bài báo, từ sau phần tĩm tắt đến kết thúc. t_store03 Hồn tồn tương tự với t_store01 về thành phần. 4.3. Đánh giá chất lượng tổng hợp tin Sau một thời gian thử nghiệm, quan sát và đánh giá, khĩa luận đi tới một số kết luận về chất lượng tổng hợp tin của hệ thống: Tốc độ lấy tin mới nhanh và ổn định. Chương trình đặt một độ trễ (delay) là 2 phút cho hai lần (lặp) lấy tin liên tiếp. Kết quả quan sát cho thấy, khi tin mới xuất hiện trên hệ thống nguồn, thì sau đĩ 1 đến 2 phút, tin tức sẽ được tự động cập nhật vào hệ thống. Chất lượng tin lấy về với độ chính xác cao, hiện khĩa luận chưa phát hiện việc trích rút sai nội dung tin tức như tiêu đều, tĩm tắt, ảnh, nội dung… Khĩa luận sẽ tiếp tục theo dõi và đánh giá trong thời gian tới. 4.4. Thực nghiệm và đánh giá hiệu suất phân loại tin tự động 4.4.1. Xây dựng tập dữ liệu huấn luyện và kiểm tra mơ hình Để chuẩn bị dữ liệu huấn luyện và kiểm tra mơ hình khĩa luận thực hiện phân lớp bằng tay dựa vào các mục tin (category) của Website báo điện tử nguồn. Đối với mỗi một phân lớp, sau khi được phân bằng tay, khĩa luận tạo một số đoạn mã chương trình bằng Java thực hiện việc lấy các tin tức cũ hơn của mục tin (phân lớp) đĩ theo ngày tháng. 40 STT Tên phân lớp VnExpress Mơ tả 1 XAHOI Xã hội Giáo dục, lối sống, du lịch,… 2 THEGIOI Thế giới Tình hình thế giới, chủ yếu là tình hình chính trị. 3 KINHDOANH Kinh doanh Kinh doanh, tình hình kinh tế, thị trường chứng khốn,… 4 VANHOA Văn hố Âm nhạc, thời trang, điện ảnh, nghệ sĩ, mỹ thuật,… 5 THETHAO Thế giới Tình hình thế giới, chủ yếu là tình hình chính trị. 6 PHAPLUAT Pháp luật Vụ án, vụ việc, các văn bản luật mới. 7 DOISONG Đời sống Tâm sự, gia đình, tình cảm, nội trợ, nhà ở, ẩm thực,… 8 KHOAHOC Khoa học Khoa học nĩi chung, khơng liên quan đến lớp Cơng nghệ. 9 VITINH Vi tính Cơng nghệ thơng tin và truyền thơng. 10 XE Ơtơ-Xe máy Phương tiện đi lại. Dữ liệu dùng cho việc huấn luyện mơ hình là các bài báo được lấy từ trang báo điện tử vnexpress.net, với số lượng các phân lớp như sau: Bảng 6. Các lớp tài liệu sử dụng trong thực nghiệm 41 STT Phân lớp Số lượng văn bản 1 XAHOI 1000 2 THEGIOI 1000 3 KINHDOANH 1000 4 VANHOA 1000 5 THETHAO 1000 6 PHAPLUAT 1000 7 DOISONG 1000 8 KHOAHOC 1000 9 VITINH 1000 10 XE 1000 Tổng số 10000 Ở đây, khĩa luận xin đưa ra 2 thực nghiệm kiểm tra chất lượng phân loại tin tự động. 4.4.2. Thực nghiệm thứ nhất Mơ tả thực nghiệm Thực nghiệm nhằm đánh giá chất lượng phân loại tin tự động đối với dữ liệu test cũng được lấy từ báo điện tử vnexpress.net. Bảng 7. Thống kê số lượng tài liệu dùng cho việc học mơ hình 42 Đầu vào: Mơ hình đã qua huấn luyện của hệ thống, và các dữ liệu lấy từ vnexpress.net ở dạng thơ. Đầu ra: Bảng đánh giá kết quả độ chính xác theo các chỉ số bao gồm: độ hồi tưởng (R), độ chính xác (P) và độ đo F1. Tập dữ liệu được dùng cho việc kiểm tra mơ hình được mơ tả trong bảng STT Phân lớp Số lượng văn bản 1 XAHOI 100 2 THEGIOI 100 3 KINHDOANH 100 4 VANHOA 100 5 THETHAO 100 6 PHAPLUAT 100 7 DOISONG 100 8 KHOAHOC 100 9 VITINH 100 10 XE 100 Tổng số 1000 Kết quả thực nghiệm Bảng 8. Thống kê số lượng tài liệu thực nghiệm 1 dùng kiểm tra mơ hình 43 Nhãn Độ chính xác (%) Độ hồi tưởng (%) F1 (%) XAHOI 92.93 92.00 92.46 THEGIOI 98.96 95.00 96.94 KINHDOANH 90.74 98.00 94.23 VANHOA 95.24 100.00 97.55 THETHAO 98.99 98.00 98.49 PHAPLUAT 94.23 98.00 96.08 DOISONG 93.20 96.00 94.58 KHOAHOC 97.92 94.00 95.92 VITINH 100.00 93.00 96.37 XE 98.97 96.00 97.46 Trung bình thơ 96.11 96.00 96.01 Trung bình mịn 96.00 96.00 96.00 Nhận xét: - Kết quả thực nghiệm cho thấy kết quả phân lớp tự động được thực hiện với dữ liệu test mơ hình của báo điện tử vnexpress.net là rất tốt. Tất cả các trường hợp độ đo F1 đều chính xác hơn 92%. Trung bình mịn của độ chính xác và độ hồi tưởng đều đạt 96%. - Đối với đặc trưng của tin tức. Một bài báo cĩ thể thuộc cùng lúc nhiều phân lớp. Ví dụ, một bài báo với nội dung nĩi về “tình trạng mĩc túi diễn ra tại các bến xe bus ở Hà Nội” tin tức này hồn tồn cĩ thể xếp vào phân lớp PHAPLUAT Bảng 9. Kết quả thực nghiệm 1 44 xong cũng đồng thời cĩ thể xếp vào phân lớp XAHOI. Chính bản chất đa lớp cĩ thể cĩ của một tin tức cụ thể cĩ thể dẫn đến kết quả phân lớp bị sai. 4.4.3. Thực nghiệm thứ hai Mơ tả thực nghiệm Thực nghiệm nhằm đánh giá chất lượng phân loại tin tự động đối với dữ liệu test lấy từ các báo khác bao gồm: dantri.com.vn, baodatviet.vn và tuoitre.vn. STT Phân lớp Số lượng văn bản 1 XAHOI 50 2 THEGIOI 50 3 KINHDOANH 50 4 VANHOA 50 5 THETHAO 50 6 PHAPLUAT 50 7 DOISONG 50 8 KHOAHOC 50 9 VITINH 50 10 XE 50 Tổng số 500 Bảng 10. Thống kê số lượng tài liệu thực nghiệm 2 dùng kiểm tra mơ hình 45 Đầu vào: Mơ hình đã qua huấn luyện của hệ thống, và các dữ liệu lấy từ 3 nguồn tin dantri.com.vn, baodatviet.vn và tuoitre.vn ở dạng thơ. Đầu ra: Bảng đánh giá kết quả độ chính xác theo các chỉ số bao gồm: độ hồi tưởng (R), độ chính xác (P) và độ đo F1. Tập dữ liệu được dùng cho việc kiểm tra mơ hình được mơ tả trong bảng 10. Kết quả thực nghiệm Nhãn Độ chính xác (%) Độ hồi tưởng (%) F1 (%) XAHOI 34.85 46.00 39.66 THEGIOI 83.02 88.00 85.44 KINHDOANH 79.63 86.00 82.69 VANHOA 66.67 80.00 72.73 THETHAO 94.23 98.00 96.08 PHAPLUAT 89.58 86.00 87.75 DOISONG 69.23 54.00 60.67 KHOAHOC 76.67 46.00 57.50 VITINH 83.93 94.00 88.86 XE 100 84.00 91.30 Trung bình thơ 77.78 76.20 76.25 Trung bình mịn 76.20 76.20 76.20 Bảng 11. Kết quả thực nghiệm 2 46 Nhận xét: - Kết quả thực nghiệm 2 trong bảng 11 cho biết trong tổng số lượng văn bản được phân lớp, thì cĩ khoảng 76% văn bản được phân lớp đúng theo cách phân lớp của báo dùng để test. - Bảng 9 và bảng 11 cho thấy cĩ sự khác biệt lớn về độ chính xác của thực nghiệm 2 so với thực nghiệm 1. Sở dĩ cĩ sự khác nhau như vậy, là do trong thực nghiệm 2, khĩa luận tiến hành kiểm tra với các báo điện tử khác với báo được sử dụng để học mơ hình, các báo khác nhau này cĩ cây phân lớp khơng tương đồng nhau, do đĩ dẫn đến việc phân lớp đúng theo báo học mơ hình là vnexpress.net thì cĩ thể khơng đúng với báo kiểm tra tuoitre.vn. Ví dụ: tin “Phá án buơn ma túy biên giới, 3 cơng an bị thương”1 theo cây phân lớp của tuoitre.vn được xếp vào lớp XAHOI, nhưng với một tin cĩ nội dung hồn tồn tương tự “3 cảnh sát bị thương khi truy bắt nhĩm buơn ma túy”2 thì vnexpress.net lại xếp tin này vào phân lớp PHAPLUAT. 1 an buon-ma-tuy-bien-gioi-3-cong-an-bi-thuong.html 2 47 Kết luận Kết quả đạt được của khĩa luận Từ việc nghiên cứu về các bài tốn của hệ thống tổng hợp và phân loại tin tự động, khĩa luận đã trình bày phương pháp tổng hợp và phân loại tin tức từ các trang báo điện tử khác nhau. Qua những kết quả thực nghiệm cho thấy tính hiệu quả của phương pháp này. Về mặt nội dung, khĩa luận đã đạt được những kết quả như sau: - Giới thiệu các hệ thống tổng hợp tin hiện cĩ của Việt Nam, ưu và nhược điểm. - Nghiên cứu cơ sở lý thuyết về trích chọn thơng tin tài liệu Web, giới hiệu mơ hình phân lớp văn bản entropy cực đại. Chỉ ra thế mạnh của phương pháp này trong phân lớp văn bản phù hợp với nội dung phân lớp tin tức. Giới thiệu các đại lượng sử dụng cho việc đánh giá kết quả phân lớp. - Thơng qua mơ hình lý thuyết nghiên cứu được về trích chọn tài liệu Web và phân lớp văn bản, khĩa luận đã tiến hành xây dựng mơ hình hệ thống tổng hợp và phân loại tin tự động. - Trên cơ sở mơ hình cĩ được, khĩa luận đã cài đặt được chương trình chính là hệ thống tổng hợp và phân loại tin tự động bằng ngơn ngữ Java sử dụng mơi trường Netbean. - Đánh giá chất lượng tổng hợp và hiệu suất phân loại tin của hệ thống, từ đĩ cho thấy chất lượng tổng hợp và hiệu suất phân loại đều rất tốt. Mặc dù vậy, do hạn chế về thời gian và kiến thức khĩa luận vẫn cịn hạn chế sau: - Khĩa luận chưa xây dựng được giao diện người dùng cho hệ thống. - Chưa đưa ra được phương pháp xử lý thỏa đáng đối với trường hợp một bài báo thuộc nhiều hơn một phân lớp. - Chưa kiểm sốt một cách tồn diện đối với trường hợp các bài báo cĩ nội dung trùng nhau. Định hướng tương lai Trong tương lai, khĩa luận sẽ tiếp tục nghiên cứu về các vấn đề sau: 48 - Phân lớp một bài báo cĩ thể thuộc vào nhiều lớp sử dụng phân lớp mờ Fuzzy. - Kiểm sốt trường hợp các bài báo cĩ nội dung trùng nhau sử dụng chỉ số Jaccard. - Đồng thời khĩa luận cũng cố gắng để sớm cơng bố hệ thống để phục vụ người sử dụng. 49 Tài liệu tham khảo [1]. Nguyen Viet Cuong, Nguyen Thi Thuy Linh, Phan Xuan Hieu and Ha Quang Thuy (2005). “A Maximum Entropy Model for Vietnamese Web Content Classification”. Proceedings of the 8th National Conference on Information Technology of Vietnam: pages 174-189, Vietnam. (in Vietnamese). [2]. Hà Quang Thụy, Phan Xuân Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú. Giáo trình khai phá dữ liệu Web. Nxb GDVN, 2009, tr. 153-166, tr. 220-233. [3]. Berger, A., Della Pietra, S., and Della Pietra, V. A maximum entropy approach to natural language processing. Computational Linguistics, volume 22, number 1, 1996, pages 39-71. [4]. Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, ,December, 2006. [5]. Chieu, H. L. and Ng, H. T. A Maximum Entropy Approach to Information Extraction from Semi-Structured and Free Text. Proceedings of the Eighteenth National Conference on Artificial Intelligence (AAAI 2002), 2002, pages 786-791. [6]. Crescenzi V., Mecca G., and Merialdo P. Roadrunner: Towards Automatic Data Extraction from Large Web Sites.In Proc. of Very Large Data Bases (VLDB’01), pages 109–118, 2001. [7]. Cuong Nguyen Viet, Nguyen Thi Thuy Linh, Ha Quang Thuy and Phan Xuan Hieu (2006). “A Maximum Entropy Model for Text Classification”. Proceedings of International Conference on Internet Information Retrieval 2006 (IRC 2006), pages 143- 149, Korea. [8]. Darroch, J. and Ratcliff, D. Generalized iterative scaling for log-linear models. Annals Mathematical Statistics, volume 43, number 5, 1972, pages 1470–1480. [9]. Debnath S., Mitra P., and Giles C. L. Automatic extraction of informative blocks from webpages. In Proc. SAC, pages 1722-1726, 2005. [10]. Debnath S., Mitra P., Pal N., and Giles C. L. Automatic Identification of Informative , IEEE Trans. Knowl. Data Eng. 17 , 2005. 50 [11]. Della Pietra, S., Della Pietra, V. and Lafferty, J. 1997. Inducing features of random fields. IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 19, number 4, 1997, pages 380–393. [12]. Gautam Pant, Parmini Srinivasan, and Filipo Menczer (2004). Crawling the Web. Web Dynamic 2004: pg. 153-178. [13]. Jaynes, E. R. (1957). Information Theory and Statistical Mechanics. Physic Review, volume 106, 1957, pages 620-630. [14]. Kushmerick WIEN N. Wrapper Induction for Information Extraction. Ph.D Thesis. Dept. of Computer Science, University of Washington, TR UW-CSE-11-04- 1997. [15]. NGAI Grace, WU Deka, CARPUAT Marine, WANG Chi-Shing, WANG Chi- Yung. Semantic Role Labeling with Boosting, SVMs, Maximum Entropy, SNOW, and Decision Lists. [16]. Nigam, K., Lafferty, J. and McCallum, A. Using maximum entropy for text classification. IJCAI-99 Workshop on Machine Learning for Information Filtering, 1999, pages 61-67. [17]. Nigam K., McCallum, A., Thrun S. and Mitchell, T. Text Classification from Labeled and Unlabeled Documents using EM. Machine Learning, volume 39, number 2/3, 2000, pages 103-134. [18]. Ratnaparkhi, A. A simple introduction to maximum entropy models for natural language processing. Technical Report 97-08, Institute for Research in Cognitive Science, University of Pennsylvania, 1997.

Các file đính kèm theo tài liệu này:

LUẬN VĂN- TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ.pdf