December 23, 2008
对化学结构式图片进行OCR
原文在 Have your hamburger and eat it - Edit molecules in PDFs。虽然讲的是“编辑PDF中的结构式”,实际上的核心意思是通过OCR的手段,将结构式还原回来。
OCR文字,识别个名片简单,但是恢复带有图型结构的化学结构式图片,看起来就不那么容易了。这篇文章里提供的工具,却偏偏很容易。
核心的软件是BKChem,是基于Python的开源化学信息学软件。很可惜这个网站在国内被盾住了,上传一个在这里。
Windows环境下软件配置的步骤是
- 安装Python
- 按照Python的版本安装 Python Imaging Library
- 下载并且安装BKChem-0.12.5.zip。国内下载不了请用这个链接。
- 下载 convert_clipboard_image.py 和 convert_clipboard_image.xml 这两个文件,放在BKChem的plugins文件夹里。这个文件夹一般的路径是这样的 C:\Python25\share\bkchem\plugins
- 下载osra-mingw-1-1-0.zip,解压。在系统变量中,设置OSRA变量的值是解压后文件夹中osra.exe的绝对路径。
软件使用的方法是
- 在C:\Python25\Lib\site-packages\bkchem路径下,双击bkchem.py,运行BKChem。
- 在打开的PDF/ Word/ 画图板等软件中拷贝结构式图型。
- 在BKChem中点击plugins菜单下的"Paste and Convert Image",就可以开始转换了。
然后呢,当然就是继续编辑这个结构式啦。与其他OCR一样,在准确性是不能达到100%的。往往一些环结构会断掉,特殊的元素、手性键会认错。
不过这已经离可以转换成mol/ SMILES/ InChI格式的结构式不远了。
090218, update
Filed by
charlie
at 5:45 pm under Tools, chemoinformatics
No Comments



