/home/writings/diary/archive/2016/08/08/molecular_fragments_and_groups
Fragments moléculaires, groupes R et groupes fonctionnels
Pour changer de rythme, je me suis dit que j’allais faire une leçon de chimie de base sur les structures moléculaires, au lieu d’un billet de blog plus orienté vers l’informatique.
Les chimistes pensent souvent qu’une molécule est constituée d’une structure centrale (généralement un système d’aring) et d’un ensemble de groupesR. Chaque groupe R est attaché à un atome de la structure centrale par une liaison. Typiquement, cette liaison est une liaison simple, et souvent » rotative « .
Voici un exemple de ce que je veux dire. La première image ci-dessous montre la structure de la vanilline, qui est le goût principal de la vanille. Dans la deuxième image, j’ai entouré d’ellipses les trois groupes R de la structure.
Structure de la vanilline (le goût primaire de la vanille) |
Vanilline avec trois groupes R identifiés |
Les groupes R dans ce cas sont R1=un groupe carbonyle (*-CH=O2), R2=un groupe améthoxy (*-O-CH3), et R3=un groupe hydroxyle (*-OH), où le « * »inidique l’endroit où le groupe R se fixe à la structure centrale.
Le concept de groupe R est flexible. En réalité, il signifie simplement que vous avez un groupe fixe d’atomes connectés, qui sont connectés le long d’une certaine liaison à un groupe variable d’atomes, et où le groupe variable est notéR. Au lieu de considérer la structure de base et un ensemble de groupes R, je peux inverser le raisonnement et considérer un groupe R, comme le groupe carbonyle, comme « la structure de base », et le reste de la vanilline comme son groupe R.
Avec cela en tête, je vais remplacer le « * » par le « R » pour obtenir les groupes « R-CH=O2 », « R-O-CH3 » et « R-OH ». (Le « * » signifie que le fragment est connecté à un atome à ce stade, mais c’est en fait juste un système de dénomination alternatif pour « R ».)
Ces trois groupes sont également des groupes fonctionnels. En citant Wikipédia, « les groupes fonctionnels sont des groupes spécifiques (moitiés) d’atomes ou de liaisons au sein des molécules qui sont responsables des réactions chimiques caractéristiques de ces molécules. Le même groupe fonctionnel subira la même ou des réactions chimiques similaires, quelle que soit la taille de la molécule dont il fait partie. »
Ces trois groupes fonctionnels correspondants sontR1 = aldéhyde,R2 = éther. et R3 = hydroxyle.
Comme le soulignait la citation de Wikipedia, si vous avez une réaction qui agit sur un aldéhyde, vous pouvez probablement l’utiliser sur le groupe aldéhyde de la vanilline.
Groupe vanillyl et capsaïcine
Un groupe fonctionnel peut également contenir des groupes fonctionnels. J’ai souligné les trois groupes fonctionnels attachés à l’anneau central de l’avanilline, mais la majeure partie de la structure de la vanilline est elle-même un autre groupe fonctionnel, un vanillyn:
Les structures qui contiennent un groupe vanillyl sont appelées vanilloïdes. La vanille est bien sûr un vanilloïde, mais étonnamment, la capsaïcine l’est aussi, car elle est à l’origine de la « chaleur » de nombreux aliments épicés. Voici la structure de la capsaïcine, avec le groupe vanillyl encerclé :
><P>
.
La sensation de chaleur vient du fait que la capsaïcine se lie auTrpV1 (le canal cationique à potentiel transitoire membre de la sous-famille V), également connu sous le nom de « récepteur de la capsaïcine ». Il s’agit d’un récepteur non sélectif, ce qui signifie que de nombreuses choses peuvent provoquer son activation. Je cite la page Wikipédia : « Les activateurs les plus connus du TRPV1 sont : une température supérieure à 43 °C (109 °F) ; les conditions acides ; la capsaïcine, le composé irritant des piments forts ; et l’isothiocyanate d’allyle, le composé piquant de la moutarde et du wasabi. » Le même récepteur détecte la température, la capsaïcine et un composé présent dans la moutarde forte et le wasabi, ce qui explique pourquoi votre corps les interprète tous comme « chauds ».
La capsaïcine est un membre de la famille des capsaïcinoïdes. Tous les capsaicinoïdes sont des vanillyls, tous les vanillyls sont des aldéhydes. Cette sorte de relation is-a familymembership en chimie a conduit à de nombreuses taxonomies etontologies, dont la ChEBI.
Mais ne laissez pas mon exemple ou l’existence d’une nomenclature vous conduire à la conclusion erronée que tous les groupes R sont des groupes fonctionnels ! Un groupe R, du moins avec les personnes avec lesquelles je travaille habituellement, est un terme plusgénérique utilisé pour décrire une façon de penser aux structures moléculaires.
Modélisation QSAR
QSAR(prononcé « QUE-SAR ») est l’abréviation de « quantitative structure-activityrelationship », ce qui n’est pas peu dire. (Je me suis rendu une fois au Royaume-Uni pour une réunion UK-QSAR. L’inspecteur de la frontière m’a demandé où j’allais, et j’ai répondu « la réunion UK-QSAR ; QSAR est … » et j’ai oublié l’expansion de ce terme ! J’ai été autorisé à passer la frontière, donc ça ne pouvait pas être une si grosse erreur.)
QSAR traite du développement de modèles qui relient la structure chimique à son activité dans un système biologique ou chimique. En regardant cela, je me rends compte que j’ai juste un peu déplacé les mots, alors je vais donner un exemple simple.
Considérons une activité, que j’appellerai « poids moléculaire ». (Il s’agit davantage d’une propriété physique que chimique, mais j’essaie de faire simple). Mon modèle de poids moléculaire suppose que chaque atome a son propre poids, et que le poids moléculaire total est la somme des poids des atomes individuels. Je peux créer un ensemble d’apprentissage de molécules, et pour chaque molécule, déterminer sa structure et son poids moléculaire. Avec un peu d’ajustement par la méthode des moindres carrés, je peux déterminer la contribution du poids de chaque atome. Une fois que j’ai ce modèle, je peux l’utiliser pour prédire la masse moléculaire de toute molécule qui contient des atomes que le modèle connaît.
Evidemment, ce modèle sera assez précis. Il ne sera pas parfait, car les rapports isotopiques peuvent varier. (Un produit chimique synthétisé à partir de pétrole fossile est légèrement plus léger et moins radioactif que le même produit chimique dérivé de sources environnementales, car le 14C radioactif plus lourd du pétrole fossile s’est désintégré). Mais pour la plupart des utilisations, ce sera suffisant.
Une propriété plus orientée vers la chimie est le coefficient de partage,mesuré en unités logarithmiques comme « log P », qui est une mesure de la solubilitédans l’eau par rapport à un type d’huile. Cela donne une idée approximative de si la molécule aura tendance à se retrouver dans des régions hydrophobes comme une membrane cellulaire, ou dans des régions aqueuses comme le sang. Une façon de prédire le logPis avec l’approche basée sur les atomes que j’ai esquissée pour le poids moléculaire, où chaque type d’atome a une contribution au logP global mesuré. (Cette approche est parfois appelée AlogP.)
Dans la pratique, les solutions basées sur les atomes ne sont pas aussi précises que les solutions basées sur les fragments. La masse moléculaire peut être centrée sur l’atome, car presque toute la masse se trouve dans le noyau de l’atome, qui est bien localisé à l’atome. Mais la chimie ne concerne pas vraiment les atomes mais la densité électronique autour des atomes, et les électrons sont beaucoup moins localisés que les nucléons. La densité autour d’un atome dépend des atomes voisins et de la configuration des atomes dans l’espace.
Pour améliorer cela, certaines méthodes s’intéressent à l’environnement local étendu (on l’appelle parfois XlogP) ou à des contributions de fragments plus importants (par exemple, ClogP de BioByte). Plus le problème est complexe, plus il faut de composés pour l’apprentissage et plus le modèle est lent. Mais avec un peu de chance, le résultat est plus précis, tant que vous ne surajustez pas le modèle.
Si vous êtes vraiment intéressé par le sujet, Paul Beswick du SussexDrug Discovery Centre a écrit un bon résumé sur les différentes nuances de la prédiction du log P.
Paires moléculaires appariées
Toutes les méthodes majeures du data mining, et la plupart des méthodes mineures,ont été appliquées aux modèles QSAR. L’histoire est également assez longue. Il existe des articles de chimio-informatique remontant aux années 1970 qui examinent l’apprentissage supervisé et non supervisé, en s’appuyant sur des travaux encore plus anciens sur le clustering appliqué aux systèmes biologiques.
Un problème avec la plupart de ces méthodes est la nature de boîte noire. Les données sont bruyantes, et la nature quantique de la chimie ne correspond pas si bien aux outils d’exploration de données, de sorte que ces prédictions sont plus souvent utilisées pour guider un chimiste pharmaceutique que pour faire des prédictions solides. Cela signifie que les conclusions doivent être interprétables par le chimiste. Essayez d’obtenir de votre réseau neuronal une explication chimiquement raisonnable de la raison pour laquelle il a prédit comme il l’a fait !
L’analyse des paires moléculaires appariées (MMP) est une méthode QSAR plus orientée vers les chimistes, avec relativement peu de mathématiques au-delà de simples statistiques. Les chimistes étudient depuis longtemps les activités dans des séries simples, comme le remplacement d’un éthyle (*-CH3) par un améthyle (*-CH2-CH3) ou un propyle (*-CH2-CH2-CH3), ou le remplacement d’un fluor par un halogène plus lourd comme un chlore ou un brome. Cela peut former des tendances cohérentes à travers un large éventail de structures, et les chimistes ont utilisé ces observations pour développer des techniques sur la façon, par exemple, d’améliorer la solubilité d’un candidat médicament.
MMP systématise cette analyse sur tous les fragments considérés,incluant non seulement les groupes R (qui sont reliés au reste de la structure par une seule liaison) mais aussi les structures dites « centrales » avec deux ou trois groupes R qui y sont attachés. Par exemple, si les structures connues peuvent être décrites comme « A-B-C », « A-D-C », « E-B-F » et « E-D-F » avec des activités de 1,2, 1,5, 2,3 et 2,6 respectivement, alors nous pouvons faire l’analyse suivante:
A-B-C transforms to A-D-C with an activity shift of 0.3. E-B-F transforms to E-D-F with an activity shift of 0.3. Both transforms can be described as R1-B-R2 to R1-D-R2. Perhaps R1-B-R2 to R1-D-R2 in general causes a shift of 0.3?
Ce n’est pas aussi simple que cela, car les fragments moléculaires ne sont pas si faciles à identifier. Une molécule pourrait être décrite comme « A-B-C », mais aussi « E-Q-F » et « E-H » et « C-T(-P)-A », où « T » a trois groupes R qui lui sont reliés.
Merci
Merci à l’EPAM LifeSciences pour son Ketchertool, que j’ai utilisé pour les représentations de structures qui n’étaient pas du domaine public sur Wikipédia.
Andrew Dalke est un consultant indépendant qui se concentre sur le développement de logiciels pour la chimie et la biologie computationnelles.Besoin de programmation sous contrat, d’aide ou de formation ? contactez-moi