这个Chrome插件能识别网页图片中文字,未来将支持翻译和P图

该Chrome插件可以识别网页图片中的中文文字,未来将支持翻译和P图。

小茶来自奥飞寺

量子比特报告|公众号QbitAI

有时您会遇到一份古老的文档、PDF文档或扫描版本。或者也许你遇到了网页版的海报,但你根本看不懂上面的文字。

但您无法复制图片中的文字进行进一步处理。是不是很头疼?

虽然市场上有很多OCR软件可以识别图像中的文字,但它们仍然存在各种局限性。例如,它们无法识别文本布局,需要转换为其他文件后再进行处理,因此无法直接操作。

最近,麻省理工学院的学生KevinKwok解决了这些问题。他利用计算机视觉算法编写了一款Chrome插件Naptha,可以直接识别网页图像中的文本,并直接突出显示、复制粘贴、翻译和修改。

这个Chrome插件能识别网页图片中文字,未来将支持翻译和P图

从图片中选取文字

Naptha不需要在您的计算机上安装该应用程序。只需在Chrome应用商店中搜索ProjectNaptha即可看到该插件。一键安装后即可在Chrome浏览器中使用。

Naptha可用于在线漫画、扫描文档,甚至识别照片中的文本

普通网页文字没问题:

这个Chrome插件能识别网页图片中文字,未来将支持翻译和P图

即使是其他人发送给您的扫描文件也没关系。只需将文件拖入Chrome浏览器(Chrome支持打开多种本地文件),Naptha就会识别它。

这个Chrome插件能识别网页图片中文字,未来将支持翻译和P图

Naptha还可以读取照片中的图片。作者凯文拍摄了一本书的封面照片。除了文字和竖排排列不清晰外,封面的标题和简介都能正常识别。

这个Chrome插件能识别网页图片中文字,未来将支持翻译和P图

Naptha还支持读取表格文本并将复制的文本粘贴到Excel中。

这个Chrome插件能识别网页图片中文字,未来将支持翻译和P图

Kevin承诺,Naptha未来将添加翻译、去除文本水印、直接在图片上修改文本等功能。这些功能目前正处于Beta测试阶段,不稳定或不可用。

这个Chrome插件能识别网页图片中文字,未来将支持翻译和P图

这不是OCR,这是文本检测

光学字符识别(OCR)并不是什么新鲜事。Naptha实现的功能虽然看起来像OCR,但其主要功能实际上是文本检测。

一般OCR不包含语言模型,而Naptha可以根据上下文的概率输出一系列字母。例如,一串字符被确定为“hello”而不是“he1|o”。

OCR需要知道图片中的语言才能正确识别文本。Naptha使用一种名为“笔划宽度变换”的算法,该算法由微软研究院于2008年提出。它就像一个人,即使它不知道自己是什么。语言,你也可以猜出单词在那里。

这个Chrome插件能识别网页图片中文字,未来将支持翻译和P图

结合其他算法,如连通成分分析(识别不同字母)、Otsu阈值(确定单词间距)、不相交集森林(识别文本行),Naptha可以非常快速地构建文本区域、单词和字母的模型,并识别哪些图片中出现了特定的字母。

通过一些基本的布局分析和文本指标,Naptha还可以找出文本的对齐参数、字体大小和字体粗细。有了这些信息,它就可以在同一位置以相似的字体重新打印文本,或者将文本更改为相同字体的其他内容。

门户网站

博客地址:

https://projectnaptha.com/

Chrome插件下载地址:

https://chrome.google.com/webstore/detail/project-naptha/molncoemjfmpgdkbdlbjmhlcgniigdnf

-超过-

诚意招聘

Qubit正在招聘编辑/记者到北京中关村工作。我们期待有才华、有热情的学子加入我们!相关详情请在量子比特公众号(QbitAI)对话界面回复“招聘”。

量子比特QbitAI·今日头条签约作者

追踪AI技术和产品新进展

© 版权声明

相关文章