有用过tesseract OCR字符识别的吗?怎么识别率那么低

2025-04-13 09:57:43
推荐回答(1个)
回答(1):

属于模式识别的。OCR技术是指图文识别技术,简单的说,从一张图片里面分解出文本文件的过程,运用到的多种算法技术。比如,验证码识别就是一个很好的简单例子。很多网页上得验证码图片,可以通过OCR识别技术将其中的数字字符读取出来。
支持处理灰度、彩色、黑白三种色彩的BMP、TIF、JPG、PDF多种格式的图像文件;
可识别简体、繁体和英文三种语言;
具有简单易用的表格识别功能;
具有TXT、RTF、HTM和XLS多种输出格式,并有所见即所得的版面还原功能。
新增打开与识别PDF文件功能,支持文字型PDF的直接转换和图像型PDF的OCR识别,既可以采用OCR的方式将PDF文件转换为可编辑文档,也可以采用格式转换的方式直接转换文字型PDF文件为RTF文件或文本文件。