python——人工智能(AI)之网络图片文字识别案例详细讲解

文章目录一、需求分析二、产品选择及准备三、开始编写应用1、获取token2、处理图片3、发送请求，解析数据一、需求分析我们要实现的功能很简单，通过使用百度的API进行图片当中文字的详细识别，进行输出，图片的处理要注意本质上是二进制处理的，所以在图片文件读取的时候一定注意模式问题，我们先需要获得技术文档当中的token值，进行身份验证，在发送post请求的时候，将token一并携带发送，保证识别效果

Z_阳

4090人浏览 · 2020-10-17 11:58:49

Z_阳 · 2020-10-17 11:58:49 发布

文章目录

一、需求分析

我们要实现的功能很简单，通过使用百度的API进行图片当中文字的详细识别，进行输出，图片的处理要注意本质上是二进制处理的，所以在图片文件读取的时候一定注意模式问题，我们先需要获得技术文档当中的token值，进行身份验证，在发送post请求的时候，将token一并携带发送，保证识别效果，在返回的response中进行数据解析，直接调用json()即可，在后面的处理当中可以看到技术文档当中的返回类型为JOSN
在这里插入图片描述
样例效果：
比如我要识别技术文档当中部分截图内容

识别结果：

二、产品选择及准备

登录百度智能云之后在产品这一栏选择人工智能中的通用文字识别，进入技术文档当中先看一看具体的使用方式
在这里插入图片描述
进入文字识别的技术文档当中我们可以看到，要访问的url，发起请求的方法以及要携带的token值

那么首先我们需要考虑先获取token的值，进入‘Access Token获取’一文当中查看获取方式

我们发现在token的获取当中要在url当中带上三个必须参数：grant_type，client_id，client_secret
那么grant_type是有固定的值client_credentials的，那么剩下两个怎么办呢？
登录百度智能云，选择你要进行的项目
在这里插入图片描述

点击创建应用
在这里插入图片描述

创建好之后进行查看，访问所需的API Key和Secret Key就创建好了

按照既定格式将url准备好

'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官网获取的AK】&client_secret=【官网获取的SK】'

三、开始编写应用

1、获取token

# 获取access_token()
def get_token():
	# client_id 为官网获取的AK， client_secret 为官网获取的SK
	host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官网获取的AK】&client_secret=【官网获取的SK】'
	response = requests.get(host)
	content = response.json()
	return content['access_token']
token = get_token()

服务器给我们返回的数据当中携带的参数如下，我们只提取我们需要的即可
在这里插入图片描述
如果请求发生报错，请参考以下提示，做相应的处理

2、处理图片

图片的处理上要符合技术文档当中的要求
在这里插入图片描述
了解了要求之后我们开始处理图片
在处理图片的时候open方法一定要清楚里面的参数含义，不要随意调用

open(file, mode=‘r’, buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
打开 file 并返回对应的 file object。如果该文件不能被打开，则引发 OSError。

file 是一个 path-like object，表示将要打开的文件的路径（绝对路径或者当前工作目录的相对路径），也可以是要被封装的整数类型文件描述符。（如果是文件描述符，它会随着返回的 I/O 对象关闭而关闭，除非 closefd 被设为 False 。）

mode 是一个可选字符串，用于指定打开文件的模式。默认值是 ‘r’ ，这意味着它以文本模式打开并读取。其他常见模式有：写入 ‘w’ （截断已经存在的文件）；排它性创建 ‘x’ ；追加写 ‘a’ （在一些 Unix 系统上，无论当前的文件指针在什么位置，所有写入都会追加到文件末尾）。在文本模式，如果 encoding 没有指定，则根据平台来决定使用的编码：使用 locale.getpreferredencoding(False) 来获取本地编码。（要读取和写入原始字节，请使用二进制模式并不要指定 encoding。）可用的模式有：

字符	意义
`'r'`	读取（默认）
`'w'`	写入，并先截断文件
`'x'`	排它性创建，如果文件已存在则失败
`'a'`	写入，如果文件存在则在末尾追加
`'b'`	二进制模式
`'t'`	文本模式（默认）
`'+'`	打开用于更新（读取与写入）

encoding 是用于解码或编码文件的编码的名称。这应该只在文本模式下使用。
encoding后面的值是字符集:utf-8，ACSII，Unicode，GBK，GB2312，UCS-2等
但要注意在处理图片的时候不能写encoding参数

# 处理图片
with open('图片文件路径','rb') as f:
	msg = f.read()
# base64进行处理,生成image
image = base64.b64encode(msg)

图片处理好之后开始准备发送请求的参数

Body中放置请求参数，参数详情如下：

请求参数

参数	是否必选	类型	可选值范围	说明
image	和url二选一	string	-	图像数据，base64编码后进行urlencode，要求base64编码和urlencode后大小不超过4M，最短边至少15px，最长边最大4096px,支持 jpg/jpeg/png/bmp 格式，当image字段存在时url字段失效
url	和image二选一	string	-	图片完整URL，URL长度不超过1024字节，URL对应的图片base64编码后大小不超过4M，最短边至少15px，最长边最大4096px,支持jpg/jpeg/png/bmp格式，当image字段存在时url字段失效，不支持https的图片链接
language_type	否	string	CHN_ENG ENG JAP KOR FRE SPA POR GER ITA RUS	识别语言类型，默认为CHN_ENG 可选值包括： - CHN_ENG：中英文混合 - ENG：英文 - JAP：日语 - KOR：韩语 - FRE：法语 - SPA：西班牙语 - POR：葡萄牙语 - GER：德语 - ITA：意大利语 - RUS：俄语
detect_direction	否	string	true/false	是否检测图像朝向，默认不检测，即：false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括: - true：检测朝向； - false：不检测朝向。
detect_language	否	string	true/false	是否检测语言，默认不检测。当前支持（中文、英语、日语、韩语）
paragraph	否	string	true/false	是否输出段落信息
probability	否	string	true/false	是否返回识别结果中每一行的置信度

那么必选参数当中我们准备好处理好的Image即可

返回参数

字段	是否必选	类型	说明
direction	否	int32	图像方向，当detect_direction=true时存在。 - -1:未定义， - 0:正向， - 1: 逆时针90度， - 2:逆时针180度， - 3:逆时针270度
log_id	是	uint64	唯一的log id，用于问题定位
words_result	是	array[]	识别结果数组
words_result_num	是	uint32	识别结果数，表示words_result的元素个数
+words	否	string	识别结果字符串
paragraphs_result	否	array[]	段落检测结果，当 paragraph=true 时返回该字段
+words_result_idx	否	array[]	一个段落包含的行序号，当 paragraph=true 时返回该字段
probability	否	float	识别结果中每一行的置信度值，包含average：行置信度平均值，variance：行置信度方差，min：行置信度最小值
language	false	int32	当detect_language=true时存在

发送请求要携带的参数，以及返回的参数我们清楚之后，可以开始发送请求了

3、发送请求，解析数据

在我们所要接收的参数当中我们提取words_result即可，注意其返回类型是数组

data = {
	'image':image
}

# 发送请求
imgResponse = requests.post(imgUrl, params = params, data = data)
content = imgResponse.json()
imgres = content['words_result']
for i in imgres:
	print(i['words'])