• 微信号
  • 微信号
您当前的位置:首页 > 学海无涯 > 数据引擎>二、Tesseract_OCR 合并字库

二、Tesseract_OCR 合并字库

孤峰 孤峰家 2023-07-13 139人阅读

1.前期准备工作:

1.需要生成的字符集 .tif文件,位置文件 .box文件

现在有三个需要合并的字典

(1).(zwp1.test.exp0.tif,zwp1.test.exp0.box)

(2).(zwp82.test.exp0.tif,zwp83.test.exp0.box)

(3). (zwp83.test.exp0.tif, zwp83.test.exp0.box)

box和tif文件

2.合并过程:

1、先生成相对应的 .tr 文件(如果你之前训练的.tr 有的话,可以忽略这步)

tesseract zwp1.test.exp0.tif zwp1.test.exp0 nobatch box.train

tesseract zwp82.test.exp0.tif zwp82.test.exp0 nobatch box.train

tesseract zwp83.test.exp0.tif zwp83.test.exp0 nobatch box.train

生成.tr文件

2、从所有文件中提取字符

unicharset_extractor zwp1.test.exp0.box zwp82.test.exp0.box zwp83.test.exp0.box

所有文件中提取字符

3、生成字体特征文件

新建的font.txt文件,在文件中把所有box文件对应的字体特征都加进去(如果不知道,可以去原来考出来的字库文件找font_properties文件查看)

test 0 0 0 0 0

test 0 0 0 0 0

test 0 0 0 0 0

然后执行如下命令:

mftraining -F font.txt -U unicharset zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

生成字体特征文件

4 、聚集所有.tr 文件

cntraining zwp1.test.exp0.tr zwp82.test.exp0.tr zwp83.test.exp0.tr

聚集所有.tr 文件

5 、重命名文件,把unicharset, inttemp, normproto, pfftable,shapetable 这几个文件加了前缀zwpnew. (目的是为了后面的聚**并)

rename normproto zwpnew.normproto

rename inttemp zwpnew.inttemp

rename pffmtable zwpnew.pffmtable

rename shapetable zwpnew.shapetable

rename unicharset zwpnew.unicharset

重命名文件

6、合并所有文件 生成一个大的字库文件

combine_tessdata zwpnew.

合并文件

7、较后文件夹中就可以看到生成的.traineddata训练库

.traineddata训练库

转载:感谢您阅览,转载请注明文章出处“来源从小爱孤峰知识网:一个分享知识和生活随笔记录的知识小站”。

链接:二、Tesseract_OCR 合并字库http://www.gufeng7.com/engines/557.html

联系:如果侵犯了你的权益请来信告知我们删除。邮箱:119882116@qq.com

标签: