Xây dựng công cụ hỗ trợ đọc xuất bản phẩm lưu chiểu dựa trên phương pháp đối sánh ảnh tài liệu

Tài liệu Xây dựng công cụ hỗ trợ đọc xuất bản phẩm lưu chiểu dựa trên phương pháp đối sánh ảnh tài liệu: AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 96 XÂY DỰNG CƠNG CỤ HỖ TRỢ ĐỌC XUẤT BẢN PHẨM LƯU CHIỂU DỰA TRÊN PHƯƠNG PHÁP ĐỐI SÁNH ẢNH TÀI LIỆU Phạm Thị Minh Thư1, Lê Việt Phương1 1Trường Cao đẳng nghề An Giang 2Sở Thơng Tin và Truyền Thơng Tỉnh An Giang Thơng tin chung: Ngày nhận bài: 01/10/2018 Ngày nhận kết quả bình duyệt: 14/11/2018 Ngày chấp nhận đăng: 08/2019 Title: A supportive tool for reading depository publications based on document image matching Keywords: Document images matching, local feature, DBSCAN, SIFT, SURF Từ khĩa: Đối sánh ảnh tài liệu, gom cụm DBSCAN, đặc trưng SIFT, SURF ABSTRACT The research was carried out in many stages such as local features extraction image, then segmenting the image by DBSCAN algorithm (Density-Based Spatial Clustering of Application with Noise), clustering local features and comparing each document image area to matching local features algorithms (SIFT, SURF)...

13 trang | Chia sẻ: quangot475 | Lượt xem: 821 | Lượt tải: 0Free

Bạn đang xem nội dung tài liệu Xây dựng công cụ hỗ trợ đọc xuất bản phẩm lưu chiểu dựa trên phương pháp đối sánh ảnh tài liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 96 XÂY DỰNG CƠNG CỤ HỖ TRỢ ĐỌC XUẤT BẢN PHẨM LƯU CHIỂU DỰA TRÊN PHƯƠNG PHÁP ĐỐI SÁNH ẢNH TÀI LIỆU Phạm Thị Minh Thư1, Lê Việt Phương1 1Trường Cao đẳng nghề An Giang 2Sở Thơng Tin và Truyền Thơng Tỉnh An Giang Thơng tin chung: Ngày nhận bài: 01/10/2018 Ngày nhận kết quả bình duyệt: 14/11/2018 Ngày chấp nhận đăng: 08/2019 Title: A supportive tool for reading depository publications based on document image matching Keywords: Document images matching, local feature, DBSCAN, SIFT, SURF Từ khĩa: Đối sánh ảnh tài liệu, gom cụm DBSCAN, đặc trưng SIFT, SURF ABSTRACT The research was carried out in many stages such as local features extraction image, then segmenting the image by DBSCAN algorithm (Density-Based Spatial Clustering of Application with Noise), clustering local features and comparing each document image area to matching local features algorithms (SIFT, SURF). Finally, determining the mismatched areas, wrong positions of licensing printing and has been printed document images. The propose method is capable to decay document images into each separated block (title, image, paragraph, table), do not use machine learning and do not need to know the detail layout of document images previously; the matching performance is more accurately because of only using each decayed image region to matching and detect the differences instead of using all document images. The experimental result on 223 document images were collected at “Read Depositary” part, presented the accuracy of the propose method is 91%, also found the difference image regions between two document images and found the wrong position about layout on two document images. TĨM TẮT Nghiên cứu được thực hiện qua nhiều cơng đoạn như rút trích đặc trưng cục bộ cho ảnh, sau đĩ thực hiện phân vùng ảnh với thuật tốn DBSCAN (Density-Based Spatial Clustering of Application with Noise), gom cụm các đặc trưng cục bộ và đối sánh từng vùng ảnh tài liệu với giải thuật đối sánh các đặc trưng cục bộ SIFT, SURF. Cuối cùng là xác định được các vùng bị sai khác, sai vị trí của ảnh tài liệu xin cấp phép in và ảnh tài liệu đã được in. Phương pháp nghiên cứu đưa ra cĩ khả năng phân rã được ảnh tài liệu thành từng khối riêng biệt (tiêu đề, hình ảnh, đoạn văn bản, bảng biểu), khơng sử dụng máy học cũng như khơng cần biết trước bố cục cụ thể của ảnh tài liệu; hiệu quả đối sánh ảnh chính xác hơn vì chỉ sử dụng từng vùng ảnh đã phân rã để đối sánh và phát hiện sai khác, thay vì sử dụng tồn bộ ảnh để đối sánh. Kết quả thực nghiệm trên 223 ảnh tài liệu được thu tập tại bộ phận đọc lưu chiểu, cho thấy độ chính xác đạt được của phương pháp đề xuất là 91%, và đã tìm ra được những vùng ảnh khác nhau trên hai ảnh tài liệu, cũng như tìm ra được những vùng bị sai vị trí về bố cục trên hai ảnh tài liệu. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 97 1. GIỚI THIỆU Từ nhu cầu thực tế của bộ phận “đọc lưu chiểu” tại Sở Thơng tin và Truyền thơng tỉnh An Giang cũng như việc nghiên cứu bài tốn đối sánh ảnh tài liệu, chúng tơi thực hiện đề tài nghiên cứu và xây dựng cơng cụ thực hiện việc đối sánh hai ảnh tài liệu với nhau nhằm phát hiện ra sự khác nhau giữa hai trang tài liệu, so sánh cả về mặt nội dung và bố cục văn bản. Trong hai hướng tiếp cận của bài tốn đối sánh ảnh về đặc trưng tồn cục (Global feature (Kyrki, 2002; Lim & Galoogahi, 2010; Raoui, Houssine BOUYAKHF, Devy, & Regragui, 2011)) và đặc trưng cục bộ (Local feature (Kyrki 2002; Lê Việt Phương, 2015; Raoui et al. 2011)). Chúng tơi đi sâu nghiên cứu hướng tiếp cận đối sánh ảnh tài liệu dựa trên các đặc trưng cục bộ SIFT (Lowe, 1999; Lê Việt Phương, Nayef, Visani, Ogier, & Trần Cao Đệ, 2014). SIFT được nhiều nghiên cứu của các nhà khoa học dùng rộng rãi để trích xuất và mơ tả các điểm đặc trưng do nĩ cĩ những đặc điểm như: Bất biến với độ co, phép quay, một phần phép biến đổi affine và mạnh với những thay đổi về độ sáng, sự che khuất và nhiễu. Bên cạnh đĩ giải thuật gom cụm DBSCAN (Atrayee Dhua, Sarma, Singh, & Roy, 2015; Ester, Xu, Kriegel, & Sander, 1996), thực hiện gom cụm các đặc trưng cục bộ sẽ được nghiên cứu cho việc phân vùng ảnh tài liệu, thành các cụm theo bố cục cụ thể của từng đối tượng trong trang ảnh tài liệu, kết quả sẽ chia ảnh tài liệu thành nhiều vùng cụ thể theo từng đối tượng trong ảnh tài liệu. Trong các cơng trình nghiên cứu về đối sánh ảnh với đặc trưng cục bộ như của tác giả Lê Việt Phương với nghiên cứu “Logo detection, recognition and spotting in context by matching local visual features” (Lê Việt Phương, 2015, tr. 1) thực hiện việc nhận dạng logo trên ảnh tài liệu. Tác giả sử dụng nhiều loại đặc trưng cục bộ khác nhau trong mơ tả logo, định vị và nhận dạng logo trên ảnh tài liệu và kết quả nghiên cứu thể hiện đặc trưng cục bộ SIFT mang lại kết quả tối ưu. Tác giả I. Amerini và các cộng sự đã sử dụng đặc trưng cục bộ SIFT trong nghiên cứu “A SIFT- based forensic method for copy-move attack detection and transformation recovery” (Amerini, Ballan, Caldelli, Del Bimbo, & Serra, 2011, tr. 1) với mục tiêu phát hiện ra các vùng ảnh bị sao chép. Tác giả Olivier Augereau a và cs. với nghiên cứu “Semi-structured document image matching and recognition” (Augereau, Journet, & Domenger, 2013, tr. 1) về đối sánh và nhận dạng ảnh tài liệu cũng đã trình bày về việc sử dụng đặc trưng cục bộ SIFT trong đối sánh và nhận dạng ảnh tài liệu. Trong nghiên cứu “Image Matching Using SIFT, SURF, BRIEF and ORB: Performance Comparison for Distorted Images” (Karami, Prasad, & Shehata, 2015, tr. 1) thực hiện nghiên cứu đối sánh ảnh sử dụng các đặc trưng cục bộ SIFT, SURF, BRIEF và ORB trong trường hợp ảnh bị biến dạng. Kết quả trình bày trong nhiều trường hợp thì kỹ thuật ORB mang lại hiệu suất nhanh nhất về mặt thời gian, tuy nhiên về tỉ lệ chính xác thì kỹ thuật SIFT mang lại hiệu quả cao hơn. Với bài tốn trên từ nhu cầu thực tiễn và các cơng trình nghiên cứu trước về đối sánh ảnh sử dụng đặc trưng cục bộ. Chúng tơi thực hiện nghiên cứu đối sánh ảnh tài liệu với phương pháp sử dụng các đặc trưng cục bộ, thực hiện việc đối sánh với hai mục tiêu chính. Thứ nhất là xác định xem trong hai ảnh tài liệu cĩ những vùng nào bị khác nhau khơng. Thứ hai cĩ vùng nào trên ảnh tài liệu bị sai vị trí khơng. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 98 2. PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Mơ hình đề xuất Hình 1. Mơ hình đề xuất đối sánh ảnh tài liệu 2.2 Trích chọn đặc trưng cục bộ SIFT SIFT (Scale invariant Feature Trasnorm) (Rusiđol & Lladĩs 2009; Lê Việt Phương, 2015) là đặc trưng cục bộ bất biến đối với những phép biến đổi tỉ lệ, tịnh tiến, phép quay và khơng đổi một phần đối với những thay đổi gĩc nhìn; đồng thời nĩ cũng rất mạnh với những thay đổi về độ sáng, sự che khuất, nhiễu. Phương pháp rút trích đặc trưng SIFT cĩ thể được tĩm tắt như sau: • Phát hiện các điểm cực trị Scale-Space (Scale-Space extrema detection): Sử dụng hàm sai khác Gausian (Different-of- Gaussian) để xác định tất cả các điểm hấp dẫn tiềm năng mà bất biến với quy mơ và hướng của ảnh. • Định vị các điểm hấp dẫn (key-point localization): Ứng với mỗi vị trí tiềm năng, hàm kiểm tra sẽ được đưa ra để quyết định xem các điểm hấp dẫn tiềm năng cĩ được lựa chọn dựa trên việc đo lường tính ổn định của chúng. • Xác định hướng cho các điểm hấp dẫn (Orientation assignment): Một hoặc nhiều hướng được gán cho mỗi vị trí điểm hấp dẫn dựa trên hướng gradient cục bộ của ảnh. • Mơ tả các điểm hấp dẫn (Key-point descriptor): Các gradient ảnh cục bộ được xác định ở tỷ lệ được chọn trong vùng bao quanh mỗi điểm hấp dẫn. Các gradient được biểu diễn sang một dạng mà cho phép bất biến với sự thay đổi về hình dạng và điều kiện chiếu sáng. Hình 2 là mơ phỏng biên độ gradient của hướng tại mỗi mẫu ảnh trong một vùng lân cận với điểm hấp dẫn. Mỗi điểm hấp dẫn sau khi được xác định hướng sẽ được mơ tả dưới dạng một vec-tor đặc trưng cĩ 4 x 4 x 8=128 chiều. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 99 Hình 2. Ví dụ mơ tả SIFT trong vùng kích thước 4 x 4 x 8 2.3 Phân cụm các đặc trưng với giải thuật DBSCAN Density-Based Spatial Clustering of Application with Noise (DBSCAN) là giải thuật phân cụm dựa trên mật độ đề xuất bởi Ester, Kriegel và Sander vào năm 1996. DBSCAN sử dụng hai tham số: Khoảng cách (eps) và số điểm ít nhất cần cĩ để thành một cụm MinPts. Khơng giống như giải thuật phân cụm dựa trên khoảng cách khác, DBSCAN (Ester & cs., 1996; Yaikhom, 1996) xác định số lượng các cụm một cách tự động và các cụm cĩ hình dạng bất kỳ, điều này phù hợp với bất kỳ đối tượng nào trong ảnh tài liệu khi tiến hành phân rã ảnh tài liệu. Việc phân cụm các đặc trưng cục bộ giúp chúng ta tìm ra được các khối cho từng đối tượng trong ảnh tài liệu như: đoạn văn bản, ảnh, bảng biểu Hình 3. Kết quả phân cụm bởi giải thuật DBSCAN (mỗi cụm một màu). Thuật tốn DBSCAN cĩ thể tìm ra các cụm với hình thù bất kỳ, trong khi đĩ tại cùng một thời điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng dữ liệu nhập vào. Khi cĩ một đối tượng được chèn vào chỉ tác động đến một láng giềng xác định. Eps và MinPts là hai tham số tồn cục được xác định bằng thủ cơng hoặc theo kinh nghiệm. Tham số Eps được đưa vào là nhỏ so với kích thước của khơng gian dữ liệu, thì độ phức tạp tính tốn trung bình của mỗi truy vấn là O(nlogn). Trong thực nghiệm trên giá trị 𝑒𝑝𝑠 = max(𝑤, ℎ) /100 được chọn, trong đĩ w, h là độ cao và độ rộng của ảnh tài liệu. Tuy nhiên với ngưỡng eps này đơi khi khơng phân vùng được chi tiết đối tượng cụ thể như ảnh, đoạn văn bản, bảng biểu, logo.... Như trong hình 4(a) cho thấy được cĩ những vùng ảnh được phân vùng chưa chính xác như vùng được đánh dấu số 1, 2 và được bao màu xanh. Khi đĩ để việc phân đoạn ảnh mang lại độ chính xác cao, phân vùng được từng đối tượng ảnh, đoạn văn bản... chúng tơi đã xử lý thêm cho những vùng được tơ màu xanh bằng cách kiểm tra nếu những phân đoạn ảnh cĩ kích thước lớn hơn 1/5 của ảnh tài liệu thì cần gom nhĩm các đặc trưng cục bộ với DBSCAN lần 2 với ngưỡng eps nhỏ hơn eps=eps*85%. Kết quả trong hình 10(b) cho thấy kết quả tối ưu hơn. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 100 (a) (b) Hình 4. Kết quả gom cụm đặc trưng cục bộ DBSCAN lần 2 với các vùng ảnh 1,2 trong hình 4 (a) vì lớn hơn 1/5 của kích thước ảnh tài liệu. Những vùng được đánh số 1.1, 1.2 là được gom cụm lại từ vùng 1 như kết quả trong hình 4 (b). 2.4 Phương pháp đối sánh điểm đặc trưng Một phân đoạn ảnh cho trước 𝐿𝑖 được biểu diễn bằng 𝑛𝑖 các điểm đặc trưng (key-point). Mỗi điểm đặc trưng k được mơ tả bằng một vector đặc trưng Dk . Cĩ thể được biểu diễn như sau: 𝐿𝑖 = {(𝑥𝑘 , 𝑦𝑘 , 𝐷𝑘)} 𝑤𝑖𝑡ℎ 𝑘 ∈ {1, , 𝑛𝑖} (1) trong đĩ 𝑥𝑘 , 𝑦𝑘 là vị trí x và y của điểm phát hiện đặc trưng cục bộ thứ k. 𝐷𝑘 là một vector mơ tả của key-point với chiều dài của nĩ tùy thuộc vào mơ tả đặc trưng cục bộ (ví dụ, một vector 128- chiều của mơ tả SIFT và một vector 256-chiều của mơ tả BRIEF(Calonder, Lepetit, Strecha, & Fua, 2010)). Một key-point q thứ i trong phân vùng ảnh được ký hiệu bằng 𝐿𝑖 𝑞 . Tương tự như vậy, một ảnh tài liệu 𝑇𝑖 được biểu diễn bằng một tập hợp các key-point đặc trưng cục bộ được phát hiện trong ảnh tài liệu thứ i: 𝑇𝑖 = {(𝑥𝑘 , 𝑦𝑘 , 𝐷𝑘)} 𝑤𝑖𝑡ℎ 𝑘 ∈ {1, , 𝑚𝑖} (2) và mỗi một phần tử tiếp theo cũng được mơ tả tương tự như trên. Hai vector đặc trưng được định nghĩa là gần nhất nếu chúng cĩ khoảng cách gần nhất. Khoảng cách giữa hai điểm cũng được xét theo nhiều cách như độ đo Cosine, khoảng cách gĩc, khoảng cách Euclid, khoảng cách city-block. Đối sánh các điểm đặc trưng cục bộ là việc so sánh giữa tập các key-points được phát hiện trong ảnh đối sánh và tập key-point được phát hiện trong ảnh được đối sánh. Để xác định key-point được gọi là khớp nhau (giống nhau) bằng cách xác định các điểm láng giềng gần nhất trong tập hợp điểm key-point của ảnh được đối sánh. Trong phương thức này, láng giềng gần nhất được định nghĩa là một key-point với khoảng cách gần nhất trong khơng gian mơ tả. Việc đối sánh các điểm đặc trưng được thực hiện trên từng điểm đặc trưng của ảnh tài liệu cần đối sánh. Mỗi điểm đặc trưng q của ảnh cần đối sánh đi tìm hai điểm đặc trưng t1 và t2 của ảnh tài liệu truy vấn sau cho hai điểm này là gần nhất theo khoảng cách Euclidean trong khơng gian của vector đặc trưng (ví dụ khơng gian 128 chiều của vector đặc trưng SIFT). AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 101 𝑑1 = 𝑚𝑖𝑛𝑘(||𝑆𝑞 − 𝑆𝑘||) Và 𝑘 ∗ = 𝑎𝑟𝑔𝑚𝑖𝑛𝑘(||𝑆𝑞 − 𝑆𝑘||) (3) 𝑑2 = 𝑚𝑖𝑛𝑘#𝑘∗(||𝑆𝑞 − 𝑆𝑘||) Với ||𝑆𝑞 − 𝑆𝑘|| là khoảng cách Euclidean giữa hai vector mơ tả 𝑆𝑞 𝑣à 𝑆𝑘 của hai điểm đặc trưng tương ứng q và k. Tỉ số 𝑟 = 𝑑1 𝑑2 sẽ được dùng để quyết định cặp đối sánh (q,t1) cĩ thích hợp hay khơng dựa trên ngưỡng 𝜑 cho trước. Nếu 𝑟 > 𝜑 cĩ nghĩa là cặp đối sánh này khơng đáng tin cậy, vì sẽ cĩ sự mập mờ khơng rõ ràng khi chọn điểm đối sánh là t1 trong khi t2 cũng là điểm đối sánh tiềm năng. Trong trường hợp ngược lại, khi 𝑟 ≤ 𝜑 thì cĩ sự phân biệt nhất định giữa t1 và t2’, do đĩ cặp đối sánh (q, t1) sẽ được chấp nhận. Trong thực nghiệm, chúng tơi chọn 𝜑 = 0.75 dựa trên các thực nghiệm. 2.5 Gom nhĩm các đặc trưng được đối sánh Sau khi các đặc trưng cục bộ đã được đối sánh để tìm ra các cặp đặc trưng tương đồng thỏa điều kiện ngưỡng 𝜑 = 0.75. Tuy nhiên vẫn sẽ cịn những cụm key-point khơng chính xác do khi đối sánh hai ảnh tài liệu cĩ nhiều đối tượng như hình ảnh, bảng biểu, biểu đồ và văn bản; đặc biệt là văn bản sẽ tìm ra nhiều cặp key-point tương đồng ở các khối văn bản khác trên ảnh tài liệu như hình 5. Chính vì vậy sau khi tìm được số cặp key-point tương đồng chúng tơi tiến hành gom nhĩm các key-point tương đồng của ảnh tài liệu thứ hai với thuật tốn gom cụm DBSCAN và trên thực nghiệm chúng tơi xác định được tham số eps=max(w,h)/2 với w, h là độ rộng và độ cao của khối ảnh đang được đối sánh và MinPts=4 là hai tham số tối ưu được thực nghiệm cho việc tìm ra nhĩm cĩ số key-point cao nhất. Hình 5. (trái) Ảnh mơ tả các cặp key-point được đối sánh trước khi gom nhĩm và (phải) sau khi đã gom nhĩm. 2.6 Lọc key-point được đối sánh với Homography và định vị Sau khi thực hiện gom nhĩm các đặc trưng cục bộ được đối sánh kết quả đạt được như hình 5, tuy nhiên, trong kết quả biểu diễn các đường nối các cặp keypoint đối sánh, cịn một số keypoint chưa chính xác (các đường màu vàng); từ đĩ dẫn đến việc định vị vùng ảnh được đối sánh khơng chính xác, cũng như tỉ lệ % xác định vùng ảnh là đúng hay sai chưa tốt. Chúng tơi tiến hành lọc các key- point khơng thực sự chính xác và xác định vùng ảnh của ảnh tài liệu đối sánh trên ảnh được đối sánh dựa trên Homography dùng RANSAC(Lê Việt Phương, Nayef, Visani, Ogier, & Trần Cao Đệ, 2014; Lê Việt Phương, Visani, Trần Cao Đệ, & Ogier, 2013; Krishnan & Jawahar 2016; Lê Việt Phương, 2015; Lê Việt Phương, Đặng Quốc Bảo, & Trần Cao Đệ, 2015). AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 102 (a) (b) (c) (d) Hình 6. Ảnh mơ tả những cặp key-point được đối sánh sau khi được RANSAC loại bỏ những điểm đặc trưng khơng thực sự giống nhau. Trong thực nghiệm đối sánh ảnh tài liệu đã phát hiện ra được những vùng ảnh khơng giống nhau trên hai ảnh tài liệu với một số trường hợp cụ thể, khi tỉ lệ phần % key-point nhỏ hơn ngưỡng 𝜔 = 7%. Nếu chọn ngưỡng cao sẽ dẫn đến việc bỏ qua những vùng đúng nhưng cĩ tỉ lệ thấp do bố cục ảnh phức tạp nhiều ảnh, văn bản hay biểu đồ cĩ nhiều key-point tương đồng nhau. Ngược lại, nếu chọn ngưỡng quá thấp thì sẽ cĩ nhiều vùng khơng giống nhưng bị nhận lầm là giống nhau dẫn đến kết quả đối sánh khơng cao; do cĩ thể bị phát hiện nhầm các vùng ảnh cĩ bố cục phức tạp, hoặc ảnh scan bị mờ. Từ đĩ cho thấy việc chọn ngưỡng cao sẽ hạn chế được lỗi phát hiện nhầm nhưng cũng sẽ AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 103 loại bỏ những vùng đúng cĩ tỉ lệ thấp như hình 6(a). Để khắc phục nhược điểm này, chúng tơi đề xuất giải pháp cải tiến nâng cao tỉ lệ bằng cách cố gắng tìm kiếm thêm các cặp key-point đúng. Để tìm kiếm thêm các cặp key-point đúng, chúng tơi tiến hành thực nghiệm đối sánh ảnh tài liệu lần 2 nhưng chỉ với các key-point nằm trong vùng đã xác định của ảnh được đối sánh (Lê Việt Phương & Trần Cao Đệ, 2015; Lê Việt Phương, Visani, Trần Cao Đệ, & Ogier, 2013). Việc này sẽ làm tăng tỉ lệ key-point đúng lên cao hơn nếu hai vùng ảnh thật sự giống nhau và sẽ khơng tăng tỉ lệ key- point đúng (hoặc tăng khơng đáng kể) nếu hai vùng ảnh thật sự khác nhau. Thuật tốn được đề xuất cho việc lọc các keypoint khơng chính xác và định vị vị trí của phân đoạn ảnh trong ảnh tài liệu đối sánh so với ảnh được đối sánh như sau: Đối với mỗi ứng viên trong vùng của phân đoạn ảnh tài liệu: 1. Tìm một phép biến đổi H giữa các cặp key- point được đối sánh trong vùng ứng viên của phân đoạn ảnh tài liệu. 2. Xác định một vùng giới hạn cĩ thể chứa một phân đoạn ảnh trong ảnh được đối sánh, nhờ vào phép biến đổi H và bốn gĩc của vùng phân đoạn ảnh tài liệu. Trích xuất tất cả các key- point trong vùng giới hạn này. Tiến hành đối sánh lần 2 giữa vùng cần đối sánh với tất cả key-point trích xuất này. Khi đĩ 𝑠𝑖(𝑥𝑖1, 𝑥𝑖2) là tọa độ của các điểm key-point được đối sánh trong phân đoạn ảnh của ảnh tài liệu đối sánh cần được đối sánh, và 𝑡𝑖(𝑦𝑖1, 𝑦𝑖2) là tọa độ của các điểm key-point được đối sánh trong hình ảnh được đối sánh. 3. Ước lượng lại phép biến đổi H bằng cách sử dụng tất cả các cặp key-point được đối sánh (𝑠𝑖, 𝑡𝑖) trong bước 2. 4. Lọc các điểm key-point khơng thật sự chính xác: 𝑖𝑓 ‖𝑡𝑖 − 𝐻(𝑠𝑖)‖ ≥ 𝜃 thì loại số key-point được đối sánh khơng thực sự chính xác. 5. Xác định lại vị trí phân đoạn ảnh tài liệu được ước tính dựa trên bốn gĩc và phép biến đổi H. 6. Cuối cùng, xác định tỉ lệ % của số key-point được đối sánh và số key-point của phân đoạn ảnh trên ảnh tài liệu đối sánh để xác định được là phân đoạn ảnh cĩ giống hay khác trên ảnh được đối sánh với ngưỡng tỉ lệ cho trước. Trong kết quả trình bày của hình 7 sau khi thực hiện tính số key-point của vùng được đối sánh và thực hiện đối sánh lần 2 thì kết quả tỉ lệ % đã lớn hơn ngưỡng 7%. Do đĩ, thay vì bị kết luận là sai như trường hợp trong hình 7(a), sau khi thực hiện đối sánh theo thuật giải đã cải tiến thì kết quả đã được ghi nhận là đúng như hình 7(b). Và so với kết quả quan sát thực tế là các vùng ảnh là đúng. (a) (b) Hình 7. Kết quả đối sánh vùng ảnh với tỉ lệ là 6.8% (a) và kết quả đối sánh sau cải tiến là 14.43% 2.7 Xác định vùng ảnh tài liệu bị sai vị trí Kết thúc quá trình đối sánh, chúng tơi xác định được những đối tượng tồn tại (hoặc khơng tồn tại) và vị trí của nĩ trong ảnh được đối sánh. Tuy nhiên, theo nhu cầu thực tế bài tốn đặt ra là cần phải kiểm tra vị trí xuất hiện của đối tượng cĩ đúng vị trí tương đối so với ảnh đối sánh hay khơng. Vì vậy mà cơng việc tiếp theo của nghiên cứu là xác định các vùng đã cho là đúng cĩ bị sai vị trí về mặt bố cục khơng. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 104 Để thực hiện, chúng tơi tiến hành so sánh vị trí tương đối của tâm của hai vùng ảnh so với biên của hai ảnh đã được chuẩn hố. Hai vùng ảnh được cho là khơng đúng vị trí khi các tọa độ của vùng ảnh bị lệch nhau ở một ngưỡng cho trước (trong thực nghiệm dùng α=0.05). 3. KẾT QUẢ VÀ THẢO LUẬN Trong phần thực nghiệm, chúng tiến hành cài đặt bằng ngơn ngữ Python và sử dụng thư viện mã nguồn mở OpenCV của Intel (Bradski & Kaehler, 2012; Laganière, 2011) thực hiện việc trích đặc trưng SIFT (Đặng Quốc Bảo & cs, 2015; Lê Việt Phương & Trần Cao Đệ, 2015), SURF(Bay, Tuytelaars, & Van Gool, 2006; Đặng Quốc Bảo & cs, 2015; Mandle & Pahadiya, 2016) và đối sánh các đặc trưng cục bộ. Sử dụng DBSCAN trong thư viện sklearn.cluster cho quá trình gom cụm các đặc trưng cục bộ. Chúng tơi sử dụng tập dữ liệu thực tế từ bộ phận “đọc lưu chiểu” của Sở Thơng tin và Truyền thơng tỉnh An Giang với số ảnh tài liệu chạy thực nghiệm là 223 ảnh. Sau khi phân rã ảnh với DBSCAN, chúng tơi tiến hành bước thứ hai là thực hiện việc tìm từng khối ảnh của ảnh thứ nhất trên ảnh thứ hai với việc đối sánh các cặp đặc trưng cục bộ được mơ tả bởi các vector mơ tả SIFT. Trong quá trình đối sánh các cặp đặc trưng cục bộ để xác định khối ảnh cĩ trong ảnh thứ hai khơng, chúng tơi thực hiện tính tỉ lệ giữa số key-point được tìm trên ảnh thứ hai và số key-point của ảnh thứ nhất với giá trị ngưỡng 𝜔 = 0.07. Nghĩa là nếu số lượng key- point được tìm thấy trên ảnh thứ hai đạt tỉ lệ là 7% trở lên so với số key-point được trích đặc trưng từ khối ảnh thứ nhất. Thì xác định là khối ảnh cĩ trong ảnh thứ hai và ngược lại thì đánh dấu khối ảnh đĩ khơng cĩ tại vị trí trên ảnh số hai. Như trên hình 8.a thể hiện tỉ lệ đối sánh giữa khối ảnh trên ảnh đối sánh và ảnh được đối sánh thỏa điều kiện đạt tỉ lệ key-point trên ngưỡng ω = 0.07. Và với hình 8.b thể hiện tỉ lệ số key-point khơng thỏa ngưỡng ω = 0.07. Và cuối cùng ở hình 8.c thể hiện kết quả đối sánh giữa hai ảnh tài liệu với nhau. (a) (b) AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 105 (c) Hình 8. Kết quả đối sánh ảnh tài liệu, xác định được cĩ 3 vùng khơng giống nhau được vẽ khung màu đỏ và 1 vùng sai vị trí được vẽ khung màu vàng Trong bảng 1 trình bày kết quả đánh giá độ chính xác của cơng cụ đối sánh ảnh tài liệu với hai kỹ thuật SIFT, SURF. Bảng 1. Kết quả đánh giá độ chính xác của cơng cụ “Đọc lưu chiểu dựa trên phương pháp đối sánh ảnh tài liệu” Từ kết quả độ chính xác của cơng cụ đối sánh ảnh tài liệu, cho thấy cả hai giá trị precision và recall đều cao, từ đĩ kết quả đối sánh ảnh tài liệu với phương pháp đối sánh các điểm đặc trưng cục bộ SIFT, SURF mang lại kết quả cao trong phạm vi của tập dữ liệu thực nghiệm. Tuy nhiên bên cạnh đĩ cơng cụ vẫn chưa thể hỗ trợ chính xác tuyệt đối cho việc tìm ra hết các vùng khác nhau, các vùng sai vị trí. Cũng như cơng cụ vẫn cịn phát hiện nhầm các vùng bị sai, một phần do chất lượng ảnh tài liệu scan vào khơng tốt như trong hình 9 thể hiện một số trường hợp cơng cụ bị phát hiện nhầm như sau: AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 106 (a:Nguyên nhân do bản in và bản xin cấp phép khi scan bị mờ) (b: Nguyên nhân ảnh tài liệu khi scan bị mất thơng tin thực tế so với bản in ) (c: Số lượng keypoint được phát hiện khơng đủ % ngưỡng xác định là đúng) Hình 9. Ảnh bị phát hiện các vùng ảnh bị sai khơng đúng thực thực tế quan sát. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 107 4. KẾT LUẬN VÀ KHUYẾN NGHỊ Bài báo đã trình bày giải pháp đối sánh ảnh tài liệu với mục tiêu tìm ra được những vùng khơng giống nhau, sai vị trí trên hai ảnh tài liệu. Với mơ hình đề xuất đối sánh ảnh tài liệu qua năm giai đoạn: (1) Trích đặc trưng cục bộ ảnh tài liệu với đặc trưng cục bộ SIFT, SURF; (2) Gom cụm các đặc trưng cục bộ với DBSCAN và gom cụm lại khi vùng ảnh được gom lớn hơn 1/5 kích thước ảnh tài liệu; (3) Đối sánh các đặc trưng cục bộ; (4) Định vị và xác định vị trí của vùng đối sánh (Homography dùng RANSAC); (5) Xác định vùng ảnh sai vị trí với đề xuất xác định tỉ lệ khoảng cách từ tâm vùng ảnh đến biên ảnh. Kết quả thực nghiệm cho thấy phương pháp đề xuất đạt được độ chính xác cao cĩ thể hỗ trợ cho cơng tác đọc lưu chiểu. Trong tương lai chúng tơi sẽ ứng dụng kết quả nghiên cứu trong các hệ thống văn phịng điện tử đáp ứng nhu cầu thực tế như: Xây dựng hệ thống đối chiếu văn bản đã phát hành của một cơ quan đơn vị, chấm bài thi tin học văn phịng tự động qua ảnh kết quả bài thi... Bên cạnh đĩ, chúng tơi tiếp tục nghiên cứu các giải thuật phân vùng và đối sánh ảnh tài liệu cũng như việc kết hợp thêm các đặc trưng khác về màu sắc, hình dạng, kết cấu... với mục tiêu nâng cao khả năng đối sánh ảnh tài liệu. TÀI LIỆU THAM KHẢO Amerini, I., Ballan, L., Caldelli, R., Del Bimbo, A., & Serra, G. (2011). A SIFT-based forensic method for copy-move attack detection and transformation recovery. IEEE Transactions on Information Forensics and Security, 6(3 PART 2), 1099–1110. https://doi.org/10.1109/TIFS.2011.2129512 Atrayee Dhua, Sarma, D. N., Singh, S., & Roy, B. (2015). Segmentation of Images using Density-Based Algorithms. International Journal of Advanced Research in Computer and Communication Engineering, 4 (5), 273– 278. https://doi.org/10.17148/IJARCCE.2015.4561 Augereau, O., Journet, N., & Domenger, J.-P. (2013). Semi-structured document image matching and recognition, 8658, 865804. https://doi.org/10.1117/12.2003911 Calonder, M., Lepetit, V., Strecha, C., & Fua, P. (2010). BRIEF: Binary robust independent elementary features. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 6314 LNCS(PART 4), 778–792. https://doi.org/10.1007/978-3-642-15561-1_56 Đặng Quốc Bảo., Lê Việt Phương., Luqman, M. M., Coustaty, M., Trần Cao Đệ., & Ogier, J.- M. (2015). Camera-based document image retrieval system using local features - comparing SRIF with LLAH, SIFT, SURF and ORB. In 2015 13th International Conference on Document Analysis and Recognition (ICDAR) (pp. 1211–1215). IEEE. https://doi.org/10.1109/ICDAR.2015.7333956 Edla, D. R., & Jana, P. K. (2012). A Prototype- Based Modified DBSCAN for Gene Clustering. Procedia Technology, 6, 485–492. https://doi.org/10.1016/j.protcy.2012.10.058 Ester, M., Xu, X., Kriegel, H., & Sander, J. (1996). Density-based algorithm for discovering clusters in large spatial databases with noise. Proc. Acm Sigkdd Int. Conf. Knowl. Discov. Data Min., pages, 226–231. Retrieved from 1507 Holzinger, W. E., Lưcker, H., & Lưcker, B. (2008). Fulgoromorpha of Seychelles: A preliminary checklist. Bulletin of Insectology, 61(1), 121–122. https://doi.org/10.1007/11744023_32 Karami, E., Prasad, S., & Shehata, M. (2015). Image Matching Using SIFT , SURF , BRIEF and ORB : Performance Comparison for Distorted Images Image Matching Using SIFT, AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 108 SURF, BRIEF and ORB: Performance Comparison for Distorted Images, (February 2016). https://doi.org/10.13140/RG.2.1.1558.3762 Krishnan, P., & Jawahar, C. V. (2016). Matching handwritten document images. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 9905 LNCS, 766–782. https://doi.org/10.1007/978-3-319-46448-0_46 Le Viet Phuong (2015). Logo Detection, Recognition and Spotting in Context by Matching Local Visual Features, (October). Retrieved from https://tel.archives-ouvertes.fr/tel-01373417 Le Viet Phuong., Dang Quoc Bao., & Trần Cao Đệ., (2015). Logo Spotting on Document Images using Local Features. In Proceedings of the Sixth International Symposium on Information and Communication Technology - SoICT 2015 (pp. 1–8). New York, New York, USA: ACM Press. https://doi.org/10.1145/2833258.2833292 Le Viet Phuong, Nayef, N., Visani, M., Ogier, J. M., & Trần Cao Đệ., (2014). Document retrieval based on logo spotting using key- point matching. In Proceedings - International Conference on Pattern Recognition (pp. 3056– 3061). IEEE. https://doi.org/10.1109/ICPR.2014.527 Le Viet Phuong, & Tran Cao De.,(2015). Key- point matching with post-filter using SIFT and BRIEF in logo spotting. In The 2015 IEEE RIVF International Conference on Computing & Communication Technologies - Research, Innovation, and Vision for Future (RIVF) (pp. 89–93). IEEE. https://doi.org/10.1109/RIVF.2015.7049880 Le Viet Phuong, Visani, M., Tran, C. De, & Ogier, J.-M. (2013). Improving Logo Spotting and Matching for Document Categorization by a Post-Filter Based on Homography. In 2013 12th International Conference on Document Analysis and Recognition (pp. 270–274). IEEE. https://doi.org/10.1109/ICDAR.2013.61 Lim, K.-L., & Galoogahi, H. K. (2010). Shape Classification Using Local and Global Features. 2010 Fourth Pacific-Rim Symposium on Image and Video Technology, 115–120. https://doi.org/10.1109/PSIVT.2010.26 Lowe, D. G. (1999). Object recognition from local scale-invariant features. In Proceedings of the Seventh IEEE International Conference on Computer Vision (pp.1150–1157, vol.2). https://doi.org/10.1109/ICCV.1999.790410 Mandle, P., & Pahadiya, B. (2016). An Advanced Technique of Image Matching Using SIFT and SURF, 5(5), 462–466. https://doi.org/10.17148/IJARCCE.2016.5510 9 Raoui, Y., Houssine BOUYAKHF, E., Devy, M., & Regragui, F. (2011). Global and Local Image Descriptors for Content Based Image Retrieval and Object Recognition. Applied Mathematical Sciences, 5(42), 2109–2136. Rusiđol, M., & Lladĩs, J. (2009). Logo spotting by a bag-of-words approach for document categorization. Proceedings of the International Conference on Document Analysis and Recognition, ICDAR, 111–115. https://doi.org/10.1109/ICDAR.2009.103

Các file đính kèm theo tài liệu này:

1576049048_11_pham_thi_minh_thupdf_4648_2200911.pdf