布莱恩杰克逊

博伊西州立大学物理学副教授

  • 关于
  • 研究
    • 简历
    • 加入博伊西州行星科学研究小组
    • 超短时期行星数据库
    • 短期行星组— S(u)PerP(i)G
    • 谷歌学者页面
    • 代码
  • 教学
  • 按
  • 课外活动
    • 实地考察
  • 公共外展
    • 博伊西州’S天文天文台

扫描和OCR-IN纸质收据

张贴了 行政 上 2016年1月2日
Posted in: 数据科学.

我花了一个kludging一个python脚本,将杂货收据转换为电子表格作为我的新年之一的一部分’S决议。似乎有 一些选择 在那里进行扫描和录制收据,但它’尚不清楚他们应用了OCR技术来自动将它们转换为电子表格。

这里’我使用的收据:

IMG_3497.这个网站 提供了一些Python源代码,以检测图像中的边缘,然后检测收据的轮廓并转换任何缩短或其他查看失真—

(左)边缘检测,(中心)大纲检测,(右)扫描版本。

(左)边缘检测,(中心)大纲检测,(右)扫描版本。

为了检测边缘,代码将彩色图像转换为灰度,并应用Canny边缘检测方案,该方案涉及应用高斯模糊以抑制噪声,计算图像导数和寻找大值。结果显示在左上方的图像中,以及关于算法的更多细节 这里.

接下来,代码通过使用来查找收据的轮廓 OpenCV.‘s findcontours.,按区域对轮廓进行排序,并找到具有最大区域的轮廓,但具有四个顶点。

然后代码应用四点变换来扭曲收据以使其成为矩形形状,最后阈值灰度为增强对比度。上图中最右侧的面板显示了最终结果。

将图像转换为文本表,我使用过 pytesseract.,提供 OCR. 能力。我安装了包 tesseract. 使用 家用: “Brew安装Tesseract.”.

然后我抓住了代码 这个网站 要将最终结果转换为文本表:

st = pytesseract.image_to_string(Image.open(save_filename), config="-psm 6")

这 “psm=6” option 需要正确返回文本。

不幸的是,OCR分析是缺陷的’完美。例如,
img_3497_scanned_line.被转换为
'* Cresgent R01 1 1800000401 4.82如果

所有线路的价格都罚款,但描述往往扭曲。无论如何,我决定更多地关心价格。幸运的是,Winco收据有“TF” or “TX”在最右边的一面,所以我执行了一个正则表达式搜索,以查找该字符串的开头并抓住左侧的字符。

最后,我将字符串转换为逗号分隔值列表,以加载Excel或Google纸张,留下损坏的描述和价格之间的空间,因此我可以输入我自己的描述,给予
CresgentR0111,4.82

在违法行为上,它对别人有用’ve posted the code 这里。使用我的脚本还需要源代码 pyimagesearch.,这需要提交电子邮件地址。

帖子导航

← 电话面试学术工作
Python中的均匀圆周运动动画 →
  • Twitter:Decaelus.

    Brian Jackson
    • @robertcmahon. 我同意你的看法。这是不尊重的。 大约5小时前 回复RobertcMahon
    • @quellebummer. @Victoriarfarmer. 不能更复仇。温馨的照片。 大约7个小时前 回复QuelleBummer
    • @idahostatesman. 谢谢, @boisemayor.,致周到而谨慎地驾驶这场历史健康危机。 大约7个小时前 回复Idahostatesman
    @decaelus.
  • 最近的帖子

    • 博伊西国家地质研讨会– 2021 Mar 29
    • 第三个星期四虚拟天文馆展 - 2021月18日
    • 第一个星期五天文学 - 通过宇宙镜片看到宇宙的黑暗面 - 2021 4月2日
    • 第三个星期四Planetarium show - 2221 2月18日
    • 第一个星期五天文学–心灵:前往金属世界的旅程– 2021 Mar 5
  • 档案

    • 3月2021年3月
    • 2021年2月
    • 1月2021年
    • 2020年12月
    • 11月2020年11月
    • 10月2020年
    • 9月2020年
    • 2020年8月
    • 7月2020年
    • 2020年6月
    • 5月2020年
    • 4月2020年4月
    • 2020年3月
    • 2020年2月
    • 1月2020年1月
    • 2019年12月
    • 2019年11月
    • 2019年10月
    • 2019年9月
    • 2019年8月
    • 2019年7月
    • 2019年6月
    • 2019年5月
    • 2019年4月
    • 2019年3月
    • 2019年2月
    • 2019年1月
    • 2018年12月
    • 2018年11月
    • 2018年10月
    • 2018年9月
    • 2018年8月
    • 2018年7月
    • 2018年6月
    • 2018年5月
    • 2018年4月
    • 2018年3月
    • 2018年2月
    • 2018年1月
    • 2017年12月
    • 2017年11月
    • 2017年10月
    • 2017年9月
    • 2017年8月
    • 2017年7月
    • 2017年6月
    • 2017年5月
    • 2017年4月
    • 2017年3月
    • 2017年2月
    • 2017年1月
    • 2016年12月
    • 2016年11月
    • 2016年10月
    • 2016年9月
    • 2016年8月
    • 2016年7月
    • 2016年6月
    • 2016年5月
    • 2016年4月
    • 2016年3月
    • 2016年2月
    • 2016年1月
    • 2015年12月
    • 2015年11月
    • 2015年10月
    • 2015年9月
    • 2015年8月
    • 2015年7月
    • 2015年6月
    • 2015年5月
    • 2015年4月
    • 2015年3月
    • 2015年2月
    • 2015年1月
    • 2014年12月
    • 2014年11月
    • 2014年10月
    • 2014年9月
    • 2014年8月
    • 2014年7月
    • 2014年6月
    • 2014年5月
    • 2014年4月
    • 2014年3月
    • 2014年2月
    • 2014年1月
    • 2013年12月
    • 2013年11月
    • 2013年10月
    • 2013年九月
    • 2013年8月
    • 2013年7月
由WordPress自豪地推动 Theme: Parament by 自动化.


  • <sub class="izXQe1B"></sub>

  • <keygen id="yCw4Nj1"><xmp class="G4jCOhC"><canvas class="zCIWilw"></canvas>

      <aside id="AFkdYPl"><frameset class="OyN9U7Z"></frameset></aside>