python 利用百度API识别图片文字（多线程版）

发布时间：2023/12/17

Python利用百度API识别图片文字（多线程版）

什么是百度OCR？

百度OCR是一款提供文字识别服务的API，可以识别各种类型的图片中的文字，并将其转换为计算机可读的文本，包括印刷体文字和手写体文字。使用百度OCR API可以实现高精度的文字识别，并且具有批量处理和多线程处理的能力，能够提高图片识别的效率。

实现步骤

1.注册百度OCR服务并获取API Key和Secret Key

首先，我们需要到百度云的官网注册一个账号，并为我们的应用程序申请百度OCR的API Key和Secret Key。这里需要注意的是，API Key和Secret Key需要保存好，我们后面的Python代码里需要用到。

2.下载Python SDK

接下来我们可以下载Python SDK并安装它，百度OCR Python SDK可以到官方Github库下载。下载并解压后，进入SDK目录，执行以下命令进行安装：

python setup.py install

3.创建Python脚本

接下来我们可以开始编写Python脚本来实现图片文字识别的功能。以下为实现多线程文字识别的Python代码，可以在其中填入你自己的百度OCR API Key和Secret Key：

from aip import AipOcr
import os
import threading

# 定义常量
APP_ID = 'your_APP_ID'
API_KEY = 'your_API_KEY'
SECRET_KEY = 'your_SECRET_KEY'

# 初始化AipOcr对象
aipOcr = AipOcr(APP_ID, API_KEY, SECRET_KEY)

# 图片路径列表
img_dir = "path/to/img/dir/"
img_list = os.listdir(img_dir)

# 定义处理图片的线程类
class ImgThread (threading.Thread):
    def __init__(self, img_path):
        threading.Thread.__init__(self)
        self.img_path = img_path

    def run(self):
        # 读取图片并进行文字识别
        img_path = self.img_path
        with open(img_path, 'rb') as f:
            img = f.read()
        try:
            result = aipOcr.basicGeneral(img)
            words = result['words_result']
            text = ""
            for w in words:
                text += w['words'] + "\n"
            print("识别图片", img_path, "的文字：\n", text)
        except:
            print("识别图片", img_path, "的文字失败。")

# 创建线程列表
threads = []
for img_name in img_list:
    if img_name.endswith(".jpg") or img_name.endswith(".png"):
        img_path = os.path.join(img_dir, img_name)
        t = ImgThread(img_path)
        threads.append(t)

# 启动线程并等待它们完成
for t in threads:
    t.start()
for t in threads:
    t.join()

在代码中，我们通过导入百度OCR的Python SDK，初始化一个AipOcr对象，然后读取图片文件并调用aipOcr.basicGeneral()方法进行文字识别。由于图片文件较多，我们采用了Python的多线程机制来进行并发处理，创建了一个处理图片的线程类，并在主线程中启动多个子线程来处理每个图片文件。

注意，每一个线程都需要独立的AipOcr对象，因为AipOcr对象是线程不安全的。此外，由于百度OCR API调用是有频率限制的，因此在实际应用中，我们需要控制并发线程的数量以避免超过API调用频率限制。

示例1：识别单个图片文字

以下是识别单个图片文字的Python代码示例，需要填入自己的百度OCR API Key和Secret Key：

from aip import AipOcr

# 定义常量
APP_ID = 'your_APP_ID'
API_KEY = 'your_API_KEY'
SECRET_KEY = 'your_SECRET_KEY'

# 初始化AipOcr对象
aipOcr = AipOcr(APP_ID, API_KEY, SECRET_KEY)

# 读取本地图片文件并进行文字识别
with open("path/to/img.jpg", 'rb') as f:
    img = f.read()
    result = aipOcr.basicGeneral(img)
    words = result['words_result']
    text = ""
    for w in words:
        text += w['words'] + "\n"
    print(text)

在代码中，我们读取了本地图片文件，并通过aipOcr.basicGeneral()方法进行文字识别，返回结果中包含了图片中识别出的文字信息。最终我们将识别结果打印出来。

示例2：批量识别多个图片文字

以下是批量识别多个图片文字的Python代码示例，需要填入自己的百度OCR API Key和Secret Key：

from aip import AipOcr
import os

# 定义常量
APP_ID = 'your_APP_ID'
API_KEY = 'your_API_KEY'
SECRET_KEY = 'your_SECRET_KEY'

# 初始化AipOcr对象
aipOcr = AipOcr(APP_ID, API_KEY, SECRET_KEY)

# 图片路径列表
img_dir = "path/to/img/dir/"
img_list = os.listdir(img_dir)

# 读取每个图片文件并进行文字识别
for img_name in img_list:
    if img_name.endswith(".jpg") or img_name.endswith(".png"):
        img_path = os.path.join(img_dir, img_name)
        with open(img_path, 'rb') as f:
            img = f.read()
            result = aipOcr.basicGeneral(img)
            words = result['words_result']
            text = ""
            for w in words:
                text += w['words'] + "\n"
            print("识别图片", img_path, "的文字：\n", text)

在代码中，我们遍历指定目录下的所有图片文件，并通过aipOcr.basicGeneral()方法进行文字识别。最终我们将识别结果打印出来。

python 利用百度API识别图片文字（多线程版）