February 11, 2009
SQLMOL, 化合物结构存储检索关系数据库平台
SQLMOL是我的第一个开源软件项目,发布在Google code上。是今年春节假期的空闲时间的成果。
作为一个基于关系数据库的化合物结构存储检索关系数据库平台,不同于之前介绍的各类方案,这个方案不需要Cartridge/CLR/UDF等数据库插件,只需要标准的关系数据库环境,用SQL程序即可实现功能。
目前的测试是在SQL Server 2008 express这个免费版本上进行的,以后的计划是在MySQL, PostgreSQL等主流数据库,尤其是免费的关系数据库平台上进行实现。
这个方案主要的原理是在“Chemical Substructure Search in SQL (Adel Golovin and Kim Henrick)”这篇paper中介绍的。将化合物分子中的原子、键的结构,以生成树(spanning tree)的形式存储在关系数据库中,用普通的SQL进行结构检索。为了实现这个方案,在SQLMOL中实现了以下的关键部件
- 用SQL实现的SMILES parser。
- 利用SMILES parser的结果,实现的Data builder和Query builder。
这样,用SMILES表达的化合物结构式信息,就可以用上面的方案导入到关系数据库中;用SMILES表达的结构检索条件,也可以以相同的规则生成,并执行检索。
到现在为止,这个项目的核心程序,SMILES解析器,还没有实现对SMILES协议100%的支持,对某些情况存在错误。
Filed by
charlie
at 9:13 am under chemoinformatics,DBA,SQLMOL
No Comments

