웹에서 다양한 자료들을 crawling해서 정리할 때 pdf로 된 경우 복사, 붙여넣기가 너무 힘들어서 시간이 오래걸리는 문제가 있다.

이런 번거로움을 줄이기 위해서 검색을 하다보니 pdf를 word문서인 docx로 변환하는 python library가 있었다.

그 것을 이용해서 간단하게 코드를 짜서 정리하니 표로 정리된 부분이 훨씬 수월하게 복사가 되어 조금은 편해졌다.

from pdf2docx import Converter
import sys
import re


if len(sys.argv)== 1:
    print ("USAGE: %s file.pdf", sys.argv[0])
print (sys.argv)

pdf_file = sys.argv[1]
docx_file = re.sub(".pdf", ".docx", pdf_file, flags=re.I)

# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()

 

+ Recent posts