Molekulare Fragmente, R-Gruppen und funktionelle Gruppen

/home/writings/diary/archive/2016/08/08/molekulare_Fragmente_und_Gruppen

Molekulare Fragmente, R-Gruppen und funktionelle Gruppen

Zur Abwechslung habe ich mir gedacht, dass ich anstelle eines eher computerorientierten Blogposts eine grundlegende Chemie-Lektion über molekulare Strukturen geben könnte.

Chemiker stellen sich ein Molekül oft als eine Kernstruktur (normalerweise ein Ringsystem) und eine Reihe von R-Gruppen vor. Jede R-Gruppe ist über eine Bindung an ein Atom in der Kernstruktur gebunden. Diese Bindung ist in der Regel eine Einfachbindung und oft „drehbar“.

Hier ist ein Beispiel dafür, was ich meine. Das erste Bild unten zeigt die Struktur von Vanillin, dem Hauptgeschmacksträger der Vanille. In der zweiten Abbildung habe ich die drei R-Gruppen in der Struktur eingekreist.

Vanillinstruktur Vanillinstruktur mit drei R-Gruppen identifiziert
Vanillinstruktur
(der Hauptgeschmack der Vanille)
Vanillin mit drei identifizierten R-Gruppen

Die R-Gruppen sind in diesem Fall R1=eine Carbonylgruppe (*-CH=O2), R2=Amethoxygruppe (*-O-CH3), und R3=Hydroxylgruppe (*-OH), wobei das „*“ angibt, wo die R-Gruppe an die Kernstruktur gebunden ist.

Das R-Gruppen-Konzept ist flexibel. Es bedeutet eigentlich nur, dass man eine feste Gruppe verbundener Atome hat, die entlang einer Bindung mit einer variablen Gruppe von Atomen verbunden ist, wobei die variable Gruppe mitR bezeichnet wird. Anstatt die Kernstruktur und eine Reihe von R-Gruppen zu betrachten, kann ich den Gedanken umkehren und eine R-Gruppe, wie die Carbonylgruppe, als „die Kernstruktur“ und den Rest des Vanillins als seine R-Gruppe betrachten.

In diesem Sinne ersetze ich das „*“ durch das „R“, um die Gruppen „R-CH=O2“, „R-O-CH3“ und „R-OH“ zu erhalten. (Das „*“ bedeutet, dass das Fragment an dieser Stelle mit einem Atom verbunden ist, aber es ist eigentlich nur ein alternatives Benennungsschema für „R“.)

Alle drei dieser Gruppen sind auch funktionelle Gruppen. In Wikipedia heißt es dazu: „Funktionelle Gruppen sind spezifische Gruppen von Atomen oder Bindungen in Molekülen, die für die charakteristischen chemischen Reaktionen dieser Moleküle verantwortlich sind. Die gleiche funktionelle Gruppe führt unabhängig von der Größe des Moleküls, zu dem sie gehört, die gleiche oder ähnliche chemische Reaktion durch.“

Diese drei entsprechenden funktionellen Gruppen sindR1 = Aldehyd,R2 = Ether und R3 = Hydroxyl.

Wie das Wikipedia-Zitat zeigt, kann man, wenn man eine Reaktion hat, die auf einen Aldehyd wirkt, diese wahrscheinlich auf die Aldehydgruppe von Vanillin anwenden.

Vanillylgruppe und Capsaicin

Eine funktionelle Gruppe kann auch funktionelle Gruppen enthalten. Ich habe auf die drei funktionellen Gruppen hingewiesen, die an den zentralen Ring des Vanillins gebunden sind, aber der größte Teil der Vanillinstruktur ist selbst eine andere funktionelle Gruppe, eine Vanillylgruppe:
Funktionelle Vanillylgruppe

Strukturen, die eine Vanillylgruppe enthalten, werden Vanilloide genannt. Vanille ist natürlich ein Vanilloid, aber überraschenderweise auch Capsaicin, die Quelle der „Schärfe“ in vielen scharfen Speisen. Hier ist die Struktur von Capsaicin, mit der eingekreisten Vanillin-Gruppe:
Capsaicin mit eingekreister Vanillylgruppe
><P>

Das Hitzegefühl entsteht durch die Bindung von Capsaicin anTrpV1 (Transient-Receptor Potential Cation Channel Subfamily V Member 1), der auch als „Capsaicin-Rezeptor“ bekannt ist. Es handelt sich um einen nicht-selektiven Rezeptor, was bedeutet, dass er durch viele Dinge aktiviert werden kann. Ich zitiere die Wikipediaseite: „Die bekanntesten Aktivatoren von TRPV1 sind: Temperaturen über 43 °C; saure Bedingungen; Capsaicin, die reizende Verbindung in scharfen Chilischoten; und Allylisothiocyanat, die scharfe Verbindung in Senf und Wasabi.“ Der gleiche Rezeptor erkennt die Temperatur, das Capsaicin und eine Verbindung in scharfem Senf und Wasabi, weshalb der Körper sie alle als „scharf“ interpretiert.

Capsaicin gehört zur Familie der Capsaicinoide. Alle Capsaicinoide sind Vanillyle, alle Vanillyle sind Aldehyde. Diese Art von Familienzugehörigkeit in der Chemie hat zu vielen Taxonomien und Nomenklaturen geführt, einschließlich ChEBI.

Aber lassen Sie sich nicht von meinem Beispiel oder der Existenz der Nomenklatur zu dem falschen Schluss verleiten, dass alle R-Gruppen funktionelle Gruppen sind! Eine R-Gruppe ist, zumindest bei den Leuten, mit denen ich normalerweise zusammenarbeite, ein allgemeinerer Begriff, der verwendet wird, um eine Denkweise über molekulare Strukturen zu beschreiben.

QSAR-Modellierung

QSAR (ausgesprochen „QUE-SAR“) ist die Abkürzung für „quantitative Struktur-Aktivitäts-Beziehung“, was ein langer Begriff ist. (Ich reiste einmal ins Vereinigte Königreich zu einer UK-QSAR-Tagung. Der Grenzbeamte fragte mich, wohin ich wolle, und ich sagte: „Das UK-QSAR-Treffen; QSAR ist …“, und ich wusste nicht, wie man diesen Begriff ausdehnt! Ich wurde über die Grenze gelassen, also kann es kein so großer Fehler gewesen sein.)

QSAR befasst sich mit der Entwicklung von Modellen, die die chemische Struktur mit ihrer Aktivität in einem biologischen oder chemischen System in Beziehung setzen. Wenn ich mir das so ansehe, merke ich, dass ich die Worte ein bisschen verwechselt habe, also gebe ich ein einfaches Beispiel.

Betrachten wir eine Aktivität, die ich „Molekulargewicht“ nenne. (Es handelt sich dabei eher um eine physikalische Eigenschaft als um eine chemische, aber ich versuche, es einfach zu machen.) Mein Modell für das Molekulargewicht geht davon aus, dass jedes Atom sein eigenes Gewicht hat und dass das Gesamtmolekulargewicht die Summe der Gewichte der einzelnen Atome ist. Ich kann eine Trainingsmenge von Molekülen erstellen und für jedes Molekül seine Struktur und sein Molekulargewicht bestimmen. Mit einer Art Kleinst-Quadrat-Anpassung kann ich den Beitrag der einzelnen Atome zum Molekulargewicht bestimmen. Sobald ich dieses Modell habe, kann ich damit das Molekulargewicht jedes Moleküls vorhersagen, das Atome enthält, die dem Modell bekannt sind.

Natürlich wird dieses Modell ziemlich genau sein. Es wird nicht perfekt sein, da die Isotopenverhältnisse variieren können. (Eine aus fossilem Öl synthetisierte Chemikalie ist etwas leichter und weniger radioaktiv als die gleiche Chemikalie, die aus Umweltquellen stammt, weil das schwerere radioaktive 14C im fossilen Öl zerfallen ist).

Eine eher chemisch orientierte Eigenschaft ist der Verteilungskoeffizient, der in logarithmischen Einheiten als „log P“ gemessen wird und ein Maß für die Löslichkeit in Wasser im Vergleich zu einer Ölart ist. Dies gibt eine ungefähre Vorstellung davon, ob sich das Molekül eher in hydrophoben Bereichen wie einer Zellmembran oder in wässrigen Bereichen wie Blut ansiedelt. Eine Möglichkeit zur Vorhersage von log Pis ist der atombasierte Ansatz, den ich für das Molekulargewicht skizziert habe, bei dem jeder Atomtyp einen Beitrag zum gemessenen logP-Gesamtwert leistet. (Dies wird manchmal als AlogP bezeichnet.)

In der Praxis sind atombasierte Lösungen nicht so genau wie fragmentbasierte Lösungen. Das Molekulargewicht kann atomzentriert sein, weil sich fast die gesamte Masse im Atomkern befindet, der gut an das Atom gebunden ist. Aber in der Chemie geht es nicht wirklich um Atome, sondern um die Elektronendichte um Atome herum, und Elektronen sind viel weniger lokalisiert als Nukleonen. Die Dichte um ein Atom hängt von den benachbarten Atomen und der Konfiguration der Atome im Raum ab.

Um dies zu verbessern, betrachten einige Methoden die erweiterte lokale Umgebung (dies wird manchmal als XlogP bezeichnet) oder größere Fragmente (zum Beispiel ClogP von BioByte). Je komplexer es ist, desto mehr Verbindungen werden für das Training benötigt und desto langsamer wird das Modell. Aber das Ergebnis ist hoffentlich genauer, solange das Modell nicht überarbeitet wird.

Wenn Sie sich wirklich für das Thema interessieren, hat Paul Beswick vom Sussex Drug Discovery Centre eine schöne Zusammenfassung über die verschiedenen Nuancen bei der log P-Vorhersage verfasst.

Gemeinsame Molekülpaare

Jede wichtige Methode aus dem Data Mining und die meisten der weniger wichtigen Methoden wurden auf QSAR-Modelle angewendet. Die Geschichte ist auch ziemlich lang. Es gibt Arbeiten aus der Chemieinformatik, die bis in die 1970er Jahre zurückreichen und sich mit überwachtem und unüberwachtem Lernen befassen, aufbauend auf noch früheren Arbeiten über die Anwendung von Clustern auf biologische Systeme.

Ein Problem bei den meisten dieser Methoden ist der Black-Box-Charakter. Die Daten sind verrauscht, und die Quantennatur der Chemie eignet sich nicht so gut für Data-Mining-Tools, so dass diese Vorhersagen eher als Orientierungshilfe für pharmazeutische Chemiker denn als solide Vorhersagen dienen. Das bedeutet, dass die Schlussfolgerungen für den Chemiker interpretierbar sein sollten. Versuchen Sie, Ihr neuronales Netz dazu zu bringen, eine chemisch vernünftige Erklärung dafür zu geben, warum es so vorausgesagt hat, wie es vorausgesagt hat!

Die MMP-Analyse (Matched Molecular Pair) ist eine eher chemisch orientierte QSAR-Methode, die über einfache Statistiken hinaus relativ wenig Mathematik erfordert. Chemiker betrachten seit langem Aktivitäten in einfachen Reihen, wie das Ersetzen von Ethyl (*-CH3) durch Amethyl (*-CH2-CH3) oder Propyl (*-CH2-CH2-CH3) oder das Ersetzen eines Fluors durch ein schwereres Halogen wie Chlor oder Brom. Die Chemiker haben diese Beobachtungen genutzt, um Techniken zu entwickeln, mit denen sich beispielsweise die Löslichkeit eines Arzneimittelkandidaten verbessern lässt.

MMP systematisiert diese Analyse für alle betrachteten Fragmente, wobei nicht nur R-Gruppen (die mit dem Rest der Struktur durch eine Bindung verbunden sind), sondern auch so genannte „Kern“-Strukturen mit zwei oder drei daran gebundenen R-Gruppen berücksichtigt werden. Wenn die bekannten Strukturen beispielsweise als „A-B-C“, „A-D-C“, „E-B-F“ und „E-D-F“ mit einer Aktivität von 1,2, 1,5, 2,3 bzw. 2,6 beschrieben werden können, lässt sich folgende Analyse durchführen:

 A-B-C transforms to A-D-C with an activity shift of 0.3. E-B-F transforms to E-D-F with an activity shift of 0.3. Both transforms can be described as R1-B-R2 to R1-D-R2. Perhaps R1-B-R2 to R1-D-R2 in general causes a shift of 0.3?

Es ist nicht ganz so einfach, da die Molekülfragmente nicht so leicht zu identifizieren sind. Ein Molekül kann als „A-B-C“ beschrieben werden, aber auch als „E-Q-F“ und „E-H“ und „C-T(-P)-A“, wobei das „T“ mit drei R-Gruppen verbunden ist.

Dank

Dank an die EPAM LifeSciences für ihr Ketchertool, das ich für die Strukturdarstellungen verwendet habe, die nicht in der Wikipedia zu finden waren.

Andrew Dalke ist ein unabhängiger Berater, der sich auf Softwareentwicklung für computergestützte Chemie und Biologie spezialisiert hat.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.