웹에서 다양한 자료들을 crawling해서 정리할 때 pdf로 된 경우 복사, 붙여넣기가 너무 힘들어서 시간이 오래걸리는 문제가 있다.
이런 번거로움을 줄이기 위해서 검색을 하다보니 pdf를 word문서인 docx로 변환하는 python library가 있었다.
그 것을 이용해서 간단하게 코드를 짜서 정리하니 표로 정리된 부분이 훨씬 수월하게 복사가 되어 조금은 편해졌다.
from pdf2docx import Converter
import sys
import re
if len(sys.argv)== 1:
print ("USAGE: %s file.pdf", sys.argv[0])
print (sys.argv)
pdf_file = sys.argv[1]
docx_file = re.sub(".pdf", ".docx", pdf_file, flags=re.I)
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)
cv.close()
'개발' 카테고리의 다른 글
Abseil Python Common Libraries (0) | 2021.05.07 |
---|---|
docker를 이용한 tensorflow 2.x 개발환경 설정 (0) | 2021.05.04 |
eclipse encoding 변경 (0) | 2014.08.20 |
[펌] 언어학 관련 원어 해석 (0) | 2011.05.17 |
[펌] [팁] Linux에서 CPU 속도, 사용가능한 Memory 보기 (0) | 2011.05.16 |