Python3一行代码实现图片文字识别的示例

  

Python3一行代码实现图片文字识别的示例

在这个示例中,我们将使用Python3语言和一个名为tesseract的开源OCR引擎来实现图片文字识别。其中,“OCR”是“Optical Character Recognition(光学字符识别)”的缩写。

必备工具

在开始此示例之前,您需要安装以下工具:

  • Python3
  • Tesseract
  • pytesseract模块

确保安装了以上所有内容后,我们可以继续进行下一步。

示例1:在图像上识别英文文字

要在图像上识别英文文字,可以使用以下代码:

import pytesseract
from PIL import Image

image = Image.open('sample.jpg')
text = pytesseract.image_to_string(image, lang='eng')
print(text)

在执行此代码之前,您需要先准备一张英文文本的图片,并将其命名为sample.jpg。此代码的执行结果应该会在命令行中打印出图片上的文本内容。

在这个示例中,我们使用了Pillow(Python Imaging Library)模块来读取图片,并使用pytesseract模块来识别图片上的文本。

示例2:在图像上识别中文文字

要在图像上识别中文文字,可以使用以下代码:

import pytesseract
from PIL import Image

image = Image.open('sample.jpg')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

相比上一个示例,我们只是在像素后增加了一个参数,该参数指定了语言。在这个示例中,我们指定了中文简体作为语言。

同样请注意,您需要先准备一张中文文本的图片,并将其命名为sample.jpg。执行此代码应将图片上的文本内容输出到命令行中。

结论

使用Python3和tesseract库,实现图片文字识别是非常简单的。在本文中,我们给出了两个示例,一个用于英文图片,另一个用于中文图片。

相关文章