对化学结构式图片进行OCR

原文在 Have your hamburger and eat it - Edit molecules in PDFs。虽然讲的是“编辑PDF中的结构式”,实际上的核心意思是通过OCR的手段,将结构式还原回来。

OCR文字,识别个名片简单,但是恢复带有图型结构的化学结构式图片,看起来就不那么容易了。这篇文章里提供的工具,却偏偏很容易。

核心的软件是BKChem,是基于Python的开源化学信息学软件。很可惜这个网站在国内被盾住了,上传一个在这里

Windows环境下软件配置的步骤是

  1. 安装Python
  2. 按照Python的版本安装 Python Imaging Library
  3. 下载并且安装BKChem-0.12.5.zip。国内下载不了请用这个链接
  4. 下载 convert_clipboard_image.pyconvert_clipboard_image.xml 这两个文件,放在BKChem的plugins文件夹里。这个文件夹一般的路径是这样的 C:\Python25\share\bkchem\plugins
  5. 下载osra-mingw-1-1-0.zip,解压。在系统变量中,设置OSRA变量的值是解压后文件夹中osra.exe的绝对路径。

 

软件使用的方法是

  1. 在C:\Python25\Lib\site-packages\bkchem路径下,双击bkchem.py,运行BKChem。
  2. 在打开的PDF/ Word/ 画图板等软件中拷贝结构式图型。
  3. 在BKChem中点击plugins菜单下的"Paste and Convert Image",就可以开始转换了。

然后呢,当然就是继续编辑这个结构式啦。与其他OCR一样,在准确性是不能达到100%的。往往一些环结构会断掉,特殊的元素、手性键会认错。

不过这已经离可以转换成mol/ SMILES/ InChI格式的结构式不远了。

090218, update

Optical Structure Recognition Software To Recover Chemical Information: OSRA, An Open Source Solution

 

 

No comments yet. Be the first.

Leave a reply

Additional comments powered by BackType

Random posts

  • 上班啦
  • 票贩子是如何炼成的?
  • 贱人的逻辑
  • Mind Map of ITIL v3
  • 国人专用汉字识别码