Python3一行代码实现图片文字识别的示例

发布时间：2023/12/16

在这个示例中，我们将使用Python3语言和一个名为tesseract的开源OCR引擎来实现图片文字识别。其中，“OCR”是“Optical Character Recognition（光学字符识别）”的缩写。

必备工具

在开始此示例之前，您需要安装以下工具：

确保安装了以上所有内容后，我们可以继续进行下一步。

要在图像上识别英文文字，可以使用以下代码：

import pytesseract
from PIL import Image

image = Image.open('sample.jpg')
text = pytesseract.image_to_string(image, lang='eng')
print(text)

在执行此代码之前，您需要先准备一张英文文本的图片，并将其命名为sample.jpg。此代码的执行结果应该会在命令行中打印出图片上的文本内容。

在这个示例中，我们使用了Pillow（Python Imaging Library）模块来读取图片，并使用pytesseract模块来识别图片上的文本。

要在图像上识别中文文字，可以使用以下代码：

import pytesseract
from PIL import Image

image = Image.open('sample.jpg')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

相比上一个示例，我们只是在像素后增加了一个参数，该参数指定了语言。在这个示例中，我们指定了中文简体作为语言。

同样请注意，您需要先准备一张中文文本的图片，并将其命名为sample.jpg。执行此代码应将图片上的文本内容输出到命令行中。

使用Python3和tesseract库，实现图片文字识别是非常简单的。在本文中，我们给出了两个示例，一个用于英文图片，另一个用于中文图片。