pdf2docx를 이용한 pdf 변환 코드

으름깨비 2021. 4. 30. 11:36

2021. 4. 30. 11:36

웹에서 다양한 자료들을 crawling해서 정리할 때 pdf로 된 경우 복사, 붙여넣기가 너무 힘들어서 시간이 오래걸리는 문제가 있다.

이런 번거로움을 줄이기 위해서 검색을 하다보니 pdf를 word문서인 docx로 변환하는 python library가 있었다.

그 것을 이용해서 간단하게 코드를 짜서 정리하니 표로 정리된 부분이 훨씬 수월하게 복사가 되어 조금은 편해졌다.

from pdf2docx import Converter
import sys
import re


if len(sys.argv)== 1:
    print ("USAGE: %s file.pdf", sys.argv[0])
print (sys.argv)

pdf_file = sys.argv[1]
docx_file = re.sub(".pdf", ".docx", pdf_file, flags=re.I)

# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()

'개발' 카테고리의 다른 글

Abseil Python Common Libraries (0)	2021.05.07
docker를 이용한 tensorflow 2.x 개발환경 설정 (0)	2021.05.04
eclipse encoding 변경 (0)	2014.08.20
[펌] 언어학 관련 원어 해석 (0)	2011.05.17
[펌] [팁] Linux에서 CPU 속도, 사용가능한 Memory 보기 (0)	2011.05.16

으름로그

pdf2docx를 이용한 pdf 변환 코드

'개발' 카테고리의 다른 글

+ Recent posts

티스토리툴바