四联光电智能照明论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2470|回复: 0
打印 上一主题 下一主题

NET 2.0 OCR文字识别技术(Tesseract 引擎)

[复制链接]
  • TA的每日心情
    开心
    2022-6-10 09:59
  • 366

    主题

    741

    帖子

    9649

    积分

    超级版主

    Rank: 8Rank: 8

    积分
    9649
    跳转到指定楼层
    楼主
    发表于 2016-11-3 16:51:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    本帖最后由 gxm771208 于 2016-11-3 16:53 编辑

    一.OCR简介  
    参见: http://baike.baidu.com/view/17761.htm?fr=ala0_1
    大家参照,我第一次也是这么了解的,呵呵。高手见笑
    现在市面上好多OCR 引擎,不过大多是收费的,价格不菲呀。。不适合我们学习研究。而今天我们谈到的Tesseract 是开源的产品,比较适合大家的口味吧。并且Tesseract 也是目前识别率较高的OCR,并不比其他引擎差劲。
    网上介绍Tessnet2也是当时时间排名第三的识别引擎,只是后来慢慢不维护了,目前是Google在维护,大家都知道Google
    在搞电子图书馆,每天都有不同类目的书被扫描成电子版,而下一步工作是什么。。。大家可以联想。

    Tessnet2 是用vc ++ 开发的,最中是生成Tessnet2.dll ,我们可以通过.net 来调用内部具体类库实现识别。
    Tessnet2的使用:
    1.将Tessnet2.dll 添加到vs bin目录,和添加.net程序集一样。
    http://files.cnblogs.com/zhuxiangyu/tessnet2_32.rar 点击链接下载Tessnet2.dll
    2.用Tessnet2进行识别

    1. Bitmap image = newBitmap("eurotext.tif");//识别图像
    2. tessnet2.Tesseract ocr = new tessnet2.Tesseract();//声明一个OCR类
    3. ocr.SetVariable("tessedit_char_whitelist", "0123456789"); //设置识别变量,当前只能识别数字。
    4. ocr.Init(@"c:\temp", "fra", false); //应用当前语言包。注,Tessnet2是支持多国语的。
    5. List<tessnet2.Word> result = ocr.DoOCR(image, Rectangle.Empty);//执行识别操作
    6. foreach (tessnet2.Word word in result) //遍历识别结果。
    7. Console.WriteLine("{0} : {1}", word.Confidence, word.Text);
    复制代码

    语言包下载链接:http://code.google.com/p/tesseract-ocr/downloads/list
    看看 使用很简单吧。给大家个实例http://files.cnblogs.com/zhuxiangyu/Tessnet2example.rar用来测试。
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Silian Lighting+ ( 蜀ICP备14004521号-1 )

    GMT+8, 2024-5-7 11:57 , Processed in 1.062500 second(s), 23 queries .

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表