anishthite · July 28, 2020 04:18
diff --git a/ocr.py b/ocr.py
 def extract_text_new(file):
    pdf=wi(filename="pdf/" + file,resolution=300)
    pdfImg=pdf.convert('jpeg')
    imgBlobs=[]
    extracted_text=[]
    for img in pdfImg.sequence:
        page=wi(image=img)
        imgBlobs.append(page.make_blob('jpeg'))
    for imgBlob in imgBlobs:
        im=Image.open(io.BytesIO(imgBlob))
        text=pytesseract.image_to_string(im,lang='eng')
        extracted_text.append(text)
    text = "".join(extracted_text)
    references = text.find("References\n")
    if references >= 0:
        text = text[:references]
    text = text.replace("\n", " ")
    return text
	def extract_text_new(file):
	pdf=wi(filename="pdf/" + file,resolution=300)
	pdfImg=pdf.convert('jpeg')
	imgBlobs=[]
	extracted_text=[]
	for img in pdfImg.sequence:
	page=wi(image=img)
	imgBlobs.append(page.make_blob('jpeg'))
	for imgBlob in imgBlobs:
	im=Image.open(io.BytesIO(imgBlob))
	text=pytesseract.image_to_string(im,lang='eng')
	extracted_text.append(text)
	text = "".join(extracted_text)
	references = text.find("References\n")
	if references >= 0:
	text = text[:references]
	text = text.replace("\n", " ")
	return text
No results found