详解python之多进程和进程池(Processing库)

发布时间：2024/01/23

详解Python之多进程和进程池

一、多进程概念

进程是系统资源分配的最小单位，一个进程可以有多个线程，这些线程共享进程的内存空间和系统资源。在Python中，可以通过multiprocessing模块实现多进程的功能。

二、多进程的好处

充分利用多核CPU，提升程序运行效率；
进程之间独立，一个进程挂掉不会影响其他进程的运行；
可以利用操作系统的进程管理机制，避免出现死锁现象。

三、多进程的实现方式

3.1 普通多进程

使用multiprocessing模块的Process类可以实现简单的多进程，示例代码如下：

from multiprocessing import Process

def func():
    print('子进程执行')

if __name__ == '__main__':
    p = Process(target=func)
    p.start()
    p.join()
    print('主进程执行')

代码解析：

通过multiprocessing模块的Process类创建子进程，并指定执行函数为func()；
子进程通过调用指定的函数进行任务处理；
主进程通过p.join()方法等待子进程执行完毕，再执行后续代码。

3.2 进程池

使用进程池可以避免频繁创建和销毁进程，从而提高程序的执行效率。使用multiprocessing模块的Pool类可以实现进程池，示例代码如下：

from multiprocessing import Pool
import os
import time

def func(n):
    print(f'子进程{os.getpid()}执行{n}')
    time.sleep(1)
    return n

if __name__ == '__main__':
    p = Pool(3)
    results = p.map(func, range(10))
    print(results)

代码解析：

通过multiprocessing模块的Pool类创建进程池，并指定最大进程数为3，即同时运行3个子进程；
子进程通过调用指定的函数进行任务处理，这里模拟了任务处理需要一定时间的情况；
主进程通过p.map()方法向进程池中添加任务，并等待任务执行完毕；
p.map()方法返回一个结果集，结果集的元素按照任务添加的顺序排列。

四、总结

多进程和进程池是Python中实现并行计算的重要方式，能够充分利用多核CPU提高程序运行效率。multiprocessing模块是Python标准库中提供的多进程处理模块，使用简单，功能强大，值得掌握和使用。

五、示例

5.1 利用进程池进行网络爬虫

利用Python的并行计算，可以有效提升网络爬虫的效率。下面是一个简单的示例：

import requests
from bs4 import BeautifulSoup
from multiprocessing import Pool

def get_url(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content)
    title = soup.select_one('title').text
    return title

if __name__ == '__main__':
    urls = ['https://www.baidu.com', 'https://www.google.com', 'https://www.bing.com']
    p = Pool(len(urls))
    results = p.map(get_url, urls)
    print(results)

代码解析：

在get_url()函数中通过requests和BeautifulSoup模块获取网页标题；
在主程序中创建进程池，并向进程池中添加子进程任务；
p.map()方法返回所有子进程处理的结果。

5.2 利用多进程进行图片下载

多进程能够大大提高图片的下载效率，下面是一个简单的示例：

import requests
from multiprocessing import Process

def download(image_url, path):
    response = requests.get(image_url)
    with open(path, 'wb') as f:
        f.write(response.content)

if __name__ == '__main__':
    urls = [
        ('https://www.google.com/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png', 'google.png'),
        ('https://www.baidu.com/img/bd_logo1.png', 'baidu.png')
    ]
    processes = [Process(target=download, args=(url[0], url[1])) for url in urls]
    for process in processes:
        process.start()
    for process in processes:
        process.join()

代码解析：

在download()函数中通过requests模块下载图片，并保存到指定路径；
在主程序中创建多个子进程，并将每个子进程的任务指定为下载指定的图片；
通过循环遍历所有子进程，并对其进行启动和等待。

详解python之多进程和进程池(Processing库)

详解Python之多进程和进程池

一、多进程概念

二、多进程的好处

三、多进程的实现方式

3.1 普通多进程

3.2 进程池

四、总结

五、示例

5.1 利用进程池进行网络爬虫

5.2 利用多进程进行图片下载

相关文章

Python开发最新文章

热门教程