Connected Subgraph Fingerprint (CSFP)는 특정 부분 구조군에 국한하지 않고, 주어진 Heavy Atom 수 범위 내의 모든 구조적 원자 특징들을 열거하는 새로운 Fingerprint 방법입니다.
이 방법은 세 가지 주요 단계로 구성됩니다.
첫째, 열거 단계 (Enumeration Step)에서는 분자의 모든 연결된 부분 구조, 또는 구조적 원자 특징들을 나열합니다. 사용자는 Heavy Atom 수의 하한과 상한을 설정할 수 있으며, 원하는 속성을 달성하기 위해 추가 필터 기준을 적용할 수 있습니다.
그림 2에서는 Heavy Atom의 집합 크기를 하나와 두 개로 설정하여 이소부티르아미드 (isobutyramide)에 열거 단계를 적용했을 때의 결과를 볼 수 있습니다.
모든 하위 구조를 열거하기 위해 CONSENS라는 새로운 알고리즘을 개발하였습니다.
간략히 설명하면, 원자 집합은 Heavy Atom의 번호 매기기 순서에 따라 해당 집합에 인접한 원자를 반복적으로 추가함으로써 얻어집니다. 중복을 방지하기 위해 각 열거형 집합에는 금지된 (forbidden) 원자와 후보 (candidate) 원자의 집합이 있습니다. 이 알고리즘은 하나의 원자만 있는 모든 집합들로 시작합니다. 이러한 단일체 (Singletons) 각각에 대해 차수가 낮은 모든 원자는 금지된 (forbidden) 원자이며, 금지되지 않은 모든 이웃 원자는 후보 (candidates) 집합을 형성합니다. 각 단계에서 하나의 후보 (candidates)가 집합에 추가됩니다. 이제 선택된 원자보다 낮은 순위의 모든 후보 (candidates)들이 금지된 (forbidden) 원자 집합에 추가됩니다. 선택된 후보 (candidate) 원자의 이웃 원자 중 금지된 (forbidden) 원자가 아니거나 원자 집합에 포함되지 않은 모든 원자는 후보 (candidates) 집합에 추가됩니다. 이러한 과정은 화합물의 모든 단일체 (Singletons)에 대해 각 성장 단계마다 후보들(candidates)의 모든 가능한 선택을 적용합니다.
그림 3은 이소부티르아미드 (isobutyramide)에 대한 CONSENS 알고리즘의 두 단계를 보여줍니다. 처음 열거된 원자 집합에는 번호가 2인 탄소 원자만 포함되어 있습니다. 그다음 숫자 3을 가진 후보 (candidate) 탄소 원자가 추가되고 후보 (candidates) 목록이 업데이트됩니다. 다음으로, 숫자 5를 가진 새로운 후보 (candidate) 탄소 원자가 집합에 추가됩니다. 차수가 더 낮은 후보 탄소 원자는 금지된 (forbidden) 원자 집합에 추가됩니다.
둘째, 통합 단계 (Unification Step)에서는 각 부분 구조에 고유한 정수 식별자를 부여합니다. 이 과정은 각 Heavy Atom에 원자 속성을 나타내는 숫자 식별자를 부여하고, CANON 절차에 따라 Heavy Atom의 고유한 순서를 도출하며, 최종적으로 깊이 우선 탐색 (DFS, Depth First Search)을 통해 원자 (Atom) 및 결합 (Bond) 식별자를 병합하여 단일 부분 구조 식별자를 생성합니다.
셋째, 중복 식별자 제거 단계 (Duplicate Identifier Removal Step)에서는 동일한 식별자를 가진 부분 구조를 요약합니다. 이는 이진 Fingerprint 또는 각 식별자의 발생 횟수를 추적하는 카운트 버전으로 나타낼 수 있습니다.
fCSFP (fragment CSFP): 가장 정밀한 비교가 필요할 때 사용합니다. 원소 종류, 원자가 상태, 내부 및 주변 연결성을 모두 기록하므로 전통적인 ECFP와 가장 유사하며, 쿼리 화합물과 매우 닮은 결과를 도출합니다.
tCSFP (topological CSFP): 유연한 검색이 필요할 때 사용합니다. 연결성과 원자가 상태 정보 대신 방향족성(Aromaticity) 정보를 저장합니다. fCSFP나 ECFP로 유사체를 찾지 못했을 때 대안으로 적합합니다.
iCSFP (independent CSFP): 부분 구조(substructure) 검색에 최적화되어 있습니다. 주변 환경에 독립적인 원자 특성을 기술하므로, 특정 부분 구조가 포함된 분자나 구조적 순서가 다른 유사체를 찾는 데 효과적입니다.
ECFP (Extended Connectivity Fingerprints): 표준 비교를 위해 사용합니다. 가장 널리 쓰이는 방식이므로, 다른 도구와의 결과 비교나 전통적인 유사성 검색이 목적일 때 선택합니다.
References
Louis Bellmann, Patrick Penner, and Matthias Rarey. Connected subgraph fingerprints: Representing molecules using exhaustive subgraph enumeration. J. Chem. Inf. Model., 59(11):4625–4635, 2019.
Louis Bellmann, Patrick Penner, and Matthias Rarey. Topological Similarity Search in Large Combinatorial Fragment Spaces. J. Chem. Inf. Model., 61(1):238–251, 2021.
Torsten Hoffmann and Marcus Gastreich. The next level in chemical space navigation: going far beyond enumerable compound libraries. Drug Discovery Today, 24(5):1148–1156, 2019.
David Rogers and Mathew Hahn. Extended-connectivity fingerprints. J. Chem. Inf. Model., 50(5):742–754, 2010.