알PDF 문자인식 OCR 사용법

사용 동기

비파괴 스캔 방식으로 책의 내용을 PDF로 저장해서 아이패드에 넣어서 책을 읽고 있었다. 스캔 앱은 vFlat 을 이용하였고 그것으로 PDF 로 만들었었다.

vFlat 이 유료화가 되면서 PDF 생성 횟수 제한이 있어서 PDF 생성을 Adobe Acrobat 에서 만들고 바로 문자 인식 OCR 을 하고 있었다.

그러다 최근에 트렌드 코리아 2024 를 스캔하면서 문제가 발생하였다.

스캔한 이미지를 vFlat 에서나 아크로뱃 에서나 PDF를 생성하는 데는 문제가 없었지만, 문자인식에서는 변환하지 못하는 에러가 발생하였다.

아크로뱃으로 인해 사용하지 않았던 Abbyy FineReader 로도 문자인식을 하려고 했는 데 안되었다.

스캔을 다시 해 봤으나 마찬가지였다.

일정 정도 진행하다가 실패가 되어서 원인을 확인하지 못하였다.

그러다 혹시나 하는 마음에 알PDF 를 이용해 보기로 하였다.


알PDF 설치

알PDF 설치를 하려면 알툴즈 홈페이지에서 설치 프로그램을 다운로드 받아야 한다. 다운로드 받는 것은 아래에 링크를 적어 두었다.

다운로드 받은 프로그램을 설치하면 알PDF를 바로 설치하는 것이 아닌 알매니저 가 설치된다.

알PDF 문자인식 OCR 알매니저 설치

실행하면 위와 같은 메뉴 프로그램이 실행이 되고 알PDF를 설치하기 버튼을 통해 설치를 할 수 있다.

알PDF 문자인식 OCR 설치 화면

설치를 시작합니다, 버튼을 클릭하면 설치가 진행된다.

알PDF 실행 광고 버전

알PDF 실행하면 위와 같이 프로그램이 시작된다.

개인은 무료버전으로 사용이 가능하지만, 광고가 뜬다.

이 상태에서는 PDF 문서를 읽을 수는 있지만 문자 인식은 안된다.

문자인식(OCR) 아이콘을 클릭하면 문자인식(OCR) 구성 요소 다운로드 팝업이 뜬다.

문자 인식 기능 다운로드

해당 프로그램을 다운로드 받아야 한다.

설치 전에 미리 다운로드 받으려면 아래 링크를 적어두었으니 그것을 참고하면 된다.

ALPDF_OCR_Plugin30.exe 설치

다운로드 받은 프로그램을 실행하면 실행 팝업이 뜨고 확인을 클릭하면 된다.


알PDF 문자인식 OCR 사용법

알PDF를 실행 후 PDF 문서를 열고 상단에 있는 문자인식(OCR) 버튼을 클릭하면 된다.

문자인식 옵션 선택

설정 옵션이 나오는 데,

편집 가능한 텍스트로 스캔 을 선택하면 이미지로 된 글자가 텍스트로 변환이 되어 지정된 폰트로 전환이 된다.

이것의 단점은 인식되지 못한 글자는 깨지거나 삭제되어 변환이 된다.

이미지에서 검색 가능한 텍스트로 스캔 을 선택하면 이미지는 그대로 둔 상태에서 글자 부분을 드래그해서 선택한 부분을 변환된 텍스트로 복사 붙여넣기가 가능한 상태로 변환시켜 준다.

그래서 보이는 모습은 스캔한 이미지로 보여서 깨진 상태로 인식된 문자의 원본을 알 수 있어서 내용 파악을 쉽게 할 수 있다.

페이지 범위는 모든 페이지로 선택 후 적용하면 문자인식 과정을 거치게 된다.

알PDF 문자인식 OCR 처리 과정

진행 처리 과정은 위와 같이 나온다.

이 과정을 통해서 문자인식 에러가 발생했던 트렌드 코리아 2024 서적을 PDF로 만들 수 있었다.


문제 발생

VFlat 과 아크로뱃 에서 실패했던 문자인식을 성공해서 알PDF 기능이 예전과 달리 좋아졌구나 하는 생각이 들었다.

하지만 완벽하지는 않았다.

알PDF 문자인식 OCR 문제점

책을 일고 있는 데, 22페이지부터 흰 백지의 페이지가 나타나는 것이었다.

전체 페이지를 확인해 보니 백지로 인식된 페이지들이 무수히 나왔다.

다른 프로그램들은 이런 오류를 실패로 처리해서 아예 문서를 생성하지 않았다면 알PDF는 백지로 만든 후 그나마 결과물을 만들었다는 차이가 있었다.

문자인식을 재실행하였더니, 에러를 일으켰다. 여러 번 테스트 하니 안될 때가 있고, 될 때가 있고 중구 난방이었다.


문제 원인과 해결 방법

vFlat 의 스캔 성능이 문제였다. 예전보다 못한 스캔 결과물 때문으로 보인다.

해상도가 높음, 중간, 낮음 3가지가 있었는 데, 이 중 중간을 선택하고 흑백 모드로 촬영하니 문제가 없었다.

컬러 모드일 경우에는 배경색이 있는 페이지에서 인식 문제를 일으켜서 에러를 발생하였다.

그리고 아닐 수도 있겠지만 갤럭시 S22 울트라의 경우 발열이 너무 나서 세번에 걸쳐 쉬면서 촬영을 했는 데, 이 발열이 문제일 수도 있지 않을까 싶다.

최종 성공한 스캔은 갤럭시 S10 에서 촬영한 것이었다.

그래서 요즘은 재단기와 스캐너 구입에 관심이 높아졌다.


추가 정보

알PDF 다운로드 : https://altools.co.kr/product/ALPDF

문자인식(OCR) 플러그인 다운로드 : https://altools.co.kr/service/FAQ?no=257

Loading

댓글 남기기