春节期间抢火车票是一场大战
程序员在这场战斗中唯一的优势是整个程序取代了人工预订流程。
感谢太极公司,虽然他们显然没有预料到全国人民抢票的热情mac上的好的ocr软件,但他们并没有为我们模拟抢票设置任何障碍。
嗯,除了验证码。 . .
在网上搜索了一下,有一个图像识别领域著名的开源软件-OCR3.0.1。浏览过他的官网,结构还是不错的。支持多种语言包,包括中文。
项目地址:
评价一个开源项目首先是看它是否能帮助我们解决问题,找一个基于-OCR3.0.1的在线工具,看看效果
效果还不错,他已经准确识别了验证码。
总是有一些问题,所以这里是一个流水账。希望对其他人有所帮助
1、第一个下载必需的软件包
OCR工具:-OCR3.0.1 code -ocr-3.01.eng.tar.gz英文足以破解验证码。
图像处理工具:.68
png识别工具:
jpeg识别工具:
tif识别工具:
图像压缩算法包:(macos已经集成了这个包,不需要安装)
2、安装步骤
1- 安装,,,
./configure make sudo make install
2-安装
./configure make sudo make install
制作时发现错误mac上的好的ocr软件,提示
pngio.c:119: 错误:此处为“N”(不在 a 中)
我搜索了wiki,发现pngio.c文件中有一个bug。在 mac 下找不到该包。修改/src/pngio.c,在#"png.h"后面插入代码。可以。
#ifdef HAVE_LIBZ #include "zlib.h" #endif
3-安装-OCR
./autogen.sh ./configure make sudo make install
4- 安装语言包
解压 -ocr-3.01.eng.tar.gz 到 /usr/local/share/。
3、试试ocr
MacBook-Pro:work my$ tesseract pin.jpg out -l eng Tesseract Open Source OCR Engine v3.01 with Leptonica MacBook-Pro:work my$ more out.txt Bvcs
至此,已经可以正常工作了。
我们来写一段代码,通过命令行调用它来实现图像识别。
本人提供的经过训练的语言包不能保证100%识别验证码图片。这可以通过抓取一定数量的验证码来完成
培训,为了更准确的识别,有官方文档和工具怎么做
我以后也会整理一篇博文来解释一下!
发表评论