daylight上面有一篇文章,講解如何提高子結(jié)構(gòu)搜索速度:http://www.daylight.com/meetings/emug00/Sayle/substruct.html
其大概意思就是先通過Fingerprint進(jìn)行篩選,這樣可以快速的篩選掉一部分?jǐn)?shù)據(jù),對(duì)于復(fù)雜結(jié)構(gòu)更有效;另外就是根據(jù)原子個(gè)數(shù)或者特殊原子個(gè)數(shù)進(jìn)行比較,如果查詢結(jié)構(gòu)包含三個(gè)“N”原子,那么所要查詢出的結(jié)構(gòu)所含有“N”的個(gè)數(shù)必須大于等于3,這樣對(duì)于包含一些特殊元素的效果是特別的好;還有就是根據(jù)分子的一些性質(zhì)進(jìn)行篩選過濾,比如芳香性等;最后再進(jìn)行匹配,這樣一來對(duì)于復(fù)雜結(jié)構(gòu)以及含特殊元素的查詢速度會(huì)提高很多。
最后文章中還給出測(cè)試數(shù)據(jù),從中可以看出,速度一般提高了三倍左右:

其大概意思就是先通過Fingerprint進(jìn)行篩選,這樣可以快速的篩選掉一部分?jǐn)?shù)據(jù),對(duì)于復(fù)雜結(jié)構(gòu)更有效;另外就是根據(jù)原子個(gè)數(shù)或者特殊原子個(gè)數(shù)進(jìn)行比較,如果查詢結(jié)構(gòu)包含三個(gè)“N”原子,那么所要查詢出的結(jié)構(gòu)所含有“N”的個(gè)數(shù)必須大于等于3,這樣對(duì)于包含一些特殊元素的效果是特別的好;還有就是根據(jù)分子的一些性質(zhì)進(jìn)行篩選過濾,比如芳香性等;最后再進(jìn)行匹配,這樣一來對(duì)于復(fù)雜結(jié)構(gòu)以及含特殊元素的查詢速度會(huì)提高很多。
最后文章中還給出測(cè)試數(shù)據(jù),從中可以看出,速度一般提高了三倍左右:
Name | SMILES | Correct | FP | Triage | Before | After | Latest |
Propane | CCC | 65337 | 66352 | 42411 | 42.59 | 17.99 | 14.34 |
Selenium | [Se] | 246 | 995 | 225 | 0.80 | 0.83 | 0.52 |
Benzene | c1ccccc1 | 79426 | 79486 | 50893 | 72.69 | 27.56 | 20.29 |
Methane | C | 118519 | 118524 | 118511 | 61.29 | 5.47 | 4.25 |
Amido | NC=O | 25695 | 26975 | 14702 | 18.89 | 9.84 | 8.16 |
Methylbenzene | Cc1ccccc1 | 54529 | 56869 | 20490 | 54.76 | 35.58 | 25.90 |
Carboxy | OC=O | 33009 | 34369 | 17809 | 23.86 | 12.48 | 10.24 |
Chlorine | Cl | 19424 | 23318 | 19424 | 11.23 | 1.38 | 1.12 |
Cyclopropane | C1CC1 | 863 | 4358 | 484 | 8.24 | 7.78 | 5.02 |
Biphenyl | c1ccccc1c2ccccc2 | 2967 | 5142 | 146 | 21.94 | 21.65 | 11.44 |
Dopamine | NCCc1ccc(O)c(O)c1 | 829 | 913 | 23 | 1.85 | 2.09 | 1.47 |
Sulfisoxazole | 7 | 8 | 3 | 0.50 | 0.88 | 0.51 | |
BetaCarotene | 2 | 16 | 1 | 0.48 | 0.68 | 0.58 | |
Nitrofurantoin | 0 | 0 | 0 | 0.42 | 0.58 | 0.52 |