OCR 글자인식 소프트웨어 성능 테스트

책 스캔 방법의 변천사

갤럭시 탭을 사용하면서 책을 PDF로 변환해서 보기 시작하였다. 그러기 위해서는 책을 PDF로 변환하기 위한 작업이 필요하였다.

책의 끝 부분을 재단한 후 북스캐너로 스캔하고 스캐너에 포함된 OCR 프로그램으로 글자인식이 가능한 PDF로 변환하는 것이 쉬운 방법이었다.

그러나 책을 재단하고 싶지는 않았다. 책 보관하는 소유욕과 책을 책장에 전시하고자 하는 허세심(?)도 있기에.

그렇기에 비파괴 스캔을 하였다. 비파괴 스캐너로 Czur 제품이 있지만 가격이 만만치 않았다. 싼 방법을 찾아 보았다.

처음에는 셀카봉을 이용해 독서대와 각도를 맞추어서 촬영하는 방법으로 스캔을 하였다. 그런데 이럴 경우 각도가 잘 안맞아서 스캔 결과물이 위는 좁고 아래는 넓어지는 경우가 발생하였다.

그래서 수직 촬영 거치대를 사용하게 되었다. 수직 촬영 거치대를 사용하니 vFlat에서 수평점을 맞추기가 쉬어졌다. 여기에 조명의 필요성도 있어서 링라이트를 주문하였고, 나중에는 LED 램프도 추가하였다.

이렇게 vFalt으로 촬영 후 PDF 만들기 기능으로 PDF로 저장하였다. 초기에는 vFlat의 텍스트 인식하기 기능으로 OCR을 했으나 이제는 사용하지 않는다.

하루에 100페이지까지 변환을 할 수 있기 때문이다. 그러면 책을 스캔 후 2 ~ 3일 정도 후에야 사용이 가능하기 때문에 귀찮았다.

전체 스캔 가능한 기능이 있다면 유료라도 구입을 할 텐데, 1년이 넘는 기간동안 유료화 소식이 없어서 포기하고 전문 OCR 소프트웨어를 사용하기로 했다.


OCR 소프트웨어

사용해 본 유료 전문 OCR 소프트웨어 2개였다. Adobe Acrobat Pro DC 와 ABBYY FineReader 15이었다. 아크로뱃 프로는 무료인 리더에는 없는 PDF편집 및 OCR 기능이 있었다.

회사에서 Creative Cloud를 구독서비스로 사용하고 있어서 이것을 사용할 수 있었다.

ABBYY FineReader 15는 전문 스캔 프로그램으로 OCR 기능도 당연히 있었다. 유료 프로그램으로 구입을 하였다. 어도비 아크로뱃 프로를 이용해 OCR을 했을 때 처음에는 오류가 있어서 답답해서 이것을 구입했었다.

Adobe Acrobat Pro DC

어도비 아크로뱃 프로 DC는 앞에서 말했 듯이 유료 버전이고 현재는 구독 서비스로 사용하고 있다. 사용법은 간단하다.

이 프로그램은 기본 기능이 PDF 읽기와 편집 기능이다. 그래서 vFlat에서 저장한 PDF를 불러 들이면 읽기 모드로 불려 온다.

우측 메뉴에서 스캔 및 OCR 버튼을 클릭한다.

상단 메뉴에서 텍스트 인식 버튼을 클릭하면 하단 메뉴가 나오는 데, 이 파일에서 를 클릭하면 된다. 여러 파일에서 를 클릭하면 다 수의 파일을 작업할 수 있을 것이나, 테스트 해 본 적은 없다.

상단메뉴가 추가가 되는 데, 페이지와 언어를 선택하고 텍스트 인식 버튼을 클릭하면 글자를 인식하기 시작한다.

300페이지를 인식하는 데, 내 PC에서는 20분 정도 소요가 되었다.

완료 된 후에서는 글자가 인식되어서 페이지의 글을 드래그 하면 선택이 되는 것을 확인할 수 있다.

PDF도 결국은 이미지 형식이므로 이미지 품질을 설정할 수 있다. 어도비에서는 그 설정이 간략하게 되어 있다. 깨끗한 화질을 원하면 600dpi를 선택하면 된다.

체감상 300dpi도 괜찮기는 한데, 아이패드로 볼 때 약간 흐릿하고 계단을 볼 수 있기는 하다. 이것은 vFlat에서 촬영한 원본의 문제라고 볼 수 있다. 스캔 촬영 원본이 그다지 깔끔하지는 않다.

어도비 아크로뱃 프로 DC는 사용하기가 편하다는 장점이 있다.

ABBYY FineReader 15

애비 파인리더는 OCR 방법이 2가지가 있다. 쉬운 방법과 전문적인 방법이다.

쉬운 방법

파일 열기로 PDF를 열면 바로 배경 인식 처리중이 활성화 된다.

설정에서 기본값으로 그렇게 되어 있기 때문이다. 만약 파일을 열 때 인식 처리 과정이 되지 않는다면 설정에서 이미지처리에서 PDF 편집기에서 백그라운드 인식기능 사용을 활성화 시키면 된다.

내 PC에서는 25분 정도 걸렸다.

아쉬운 것은 진행 정도를 바로 알 수는 없다는 것이다. 진행 정도를 알려면 좌측의 문서 썸네일을 아래로 스크롤하면서 썸네일 좌측 하단에 돋보기 아이콘이 있는 것은 인식이 된 부분이므로 그것으로 진행 정도를 알 수 있다.

완료 후 드래그를 해 보니 문자로 인식되었다는 것을 알 수 있다.

파일 저장할 때 주의할 점이 있는 데, 검색 가능한 PDF문서로 저장해야지 글자 인식이 가능한 PDF로 저장이 된다.

전문적인 방법

전문적인 방법 또는 고급 방법은 OCR 편집기에서 열기로 PDF를 열면 된다.

파일을 열면 자동으로 인식과정이 실행됨. 이 방식은 다행히 진행 정도를 그래프로 보여준다.

그리고 인식이 안되는 부분을 에러 페이지로 보여준다. 글자 인식 오류나 이미지 인식 오류를 알 수 있다.

인식이 완료되면 세부 편집이 가능하다. 왼쪽은 원본 이미지이고 오른쪽은 인식된 내용이다. 중간 중간에 파란색으로 칠한 부분은 인식이 제대로 되었는 지 확인이 필요한 부분이다.

이 부분을 세부적으로 편집이 가능한 부분이 하단의 편집창이다.

또한 이미지의 품질을 세부적으로 설정이 가능하다. 설정에서 형식설정에 이미지 품질을 세부적으로 설정이 가능하다.

기본값으로 사용하면 어도비 아크로뱃 프로 DC의 300dpi 수준과 비슷하거나 조금 더 떨어지는 품질로 저장이 된다. 고해상도로 저장을 하려면 이것을 통해 품질을 높여 저장하면 된다.


선택

유료 스캔 소프트웨어로 2개를 사용해 보았다. 애비 파인리더는 세부 설정이 가능하고, 편집 기능도 더 뛰어났다.

그러나 OCR 속도는 어도비 아크로뱃 프로보다 오래 걸렸다.

초기에는 어도비 아크로뱃 프로는 에러가 발생해서 사용을 하지 않았는 데, 업데이트로 기능이 향상 된 것인 지, 아니면 저장한 PDF파일의 안정성이 좋아졌는 지 최근에는 오류가 발생하지 않았다.

그래서 결국 유료로 구입한 애비 파인리더보다 어도비 아크로뱃 프로를 사용하고 있다. 속도가 더 빠르고 기본 이미지 품질이 좋기 때문이다.

또한, 애비 파인리더의 경우 vFlat에서 촬영한 이미지의 문제인 지, 리사이즈 과정에서 각각의 파일이 사이즈가 달라지는 경우가 발생하기도 하여서 아이패드에서 읽을 때 사이즈가 다르게 보여지기 때문이다.

어도비에서는 리사이즈 문제는 발생하지 않았기 때문에 이것을 사용하게 되었다.


추가정보

Loading

One thought on “OCR 글자인식 소프트웨어 성능 테스트

  1. 정말 감사합니다. 하염없이 흘려보낼 고민의 시간과 30만원 가량의 구독 금액을 아껴주셨어요. 디테일한 리뷰 잘 봤어요. 감사합니다.

댓글 남기기