Molekylära fragment, R-grupper och funktionella grupper

/home/writings/diary/archive/2016/08/08/molecular_fragments_and_groups

Molekylära fragment, R-grupper och funktionella grupper

För att ändra på tempot tänkte jag göra en grundläggande kemilektion om molekylära strukturer, i stället för att göra ett mer datororienterat blogginlägg.

Kemister tänker ofta på en molekyl som en kärnstruktur (vanligtvis ett aring-system) och en uppsättning R-grupper. Varje R-grupp är knuten till en atom i kärnstrukturen genom abond. Vanligtvis är denna bindning en enkelbindning och ofta ”roterbar”.

Här är ett exempel på vad jag menar. Den första bilden nedan visar strukturen hos vanillin, som är den primära smaken bakom vanilj. I den andra bilden har jag med hjälp av elliptiska cirklar markerat de tre R-grupperna i strukturen.

vanillinstruktur vanillinstruktur med tre R-grupper identifierade
Vanillinstruktur
(den primära smaken av vanilj)
Vanillin med tre R-grupper identifierade

R-grupperna i det här fallet är R1=en karbonylgrupp (*-CH=O2), R2=ametoxygrupp (*-O-CH3) och R3=en hydroxylgrupp (*-OH), där ”*”anger var R-gruppen är knuten till kärnstrukturen.

Begreppet R-grupp är flexibelt. Egentligen betyder det bara att man har en fast grupp av sammankopplade atomer som är sammankopplade längs någon bindning till en variabel grupp av atomer, och där den variabla gruppen betecknasR. Istället för att se på kärnstrukturen och en uppsättning R-grupper kan jag vända på resonemanget och se en R-grupp, som karbonylgruppen, som ”kärnstrukturen” och resten av vanillinet som dess R-grupp.

Med detta i åtanke ersätter jag ”*” med ”R” för att få grupperna ”R-CH=O2”, ”R-O-CH3” och ”R-OH”. (”*” betyder att fragmentet är kopplat till en atom vid denna tidpunkt, men det är egentligen bara ett alternativt namngivningsschema för ”R”.)

Alla dessa tre grupper är också funktionella grupper. Wikipedia citerar: ”Funktionella grupper är specifika grupper (grupper) av atomer eller bindningar i molekyler som är ansvariga för de karakteristiska kemiska reaktionerna för dessa molekyler. Samma funktionella grupp kommer att genomgå samma eller liknande kemiska reaktion(er) oavsett storleken på den molekyl som den ingår i.”

Dessa tre motsvarande funktionella grupper ärR1 = aldehyd,R2 = eter och R3 = hydroxyl.

Som Wikipediacitatet påpekade, om du har en reaktion som verkar på en aldehyd, kan du sannolikt använda den på vanillins aldehydgrupp.

Vanillylgrupp och capsaicin

En funktionell grupp kan också innehålla funktionella grupper. Jag pekade på de tre funktionella grupperna som är knutna till avanillins centrala ring, men större delen av vanillinstrukturen är i sig själv en annan funktionell grupp, en vanillyn:
vanillyn funktionell grupp

Strukturer som innehåller en vanillylgrupp kallas vanilloider. Vanilj är naturligtvis en vanilloid, men förvånansvärt nog även capsaicin, källan till ”hettan” i många kryddiga rätter. Här är capsaicins struktur, med vanillylgruppen inringad:
capsaicin med vanillylgruppen inringad
><P>

Känslan av värme beror på att capsaicin binder tillTrpV1 (transientreceptor potential cation channel subfamily V member 1), även känd som ”capsaicinreceptorn”. Det är en icke-selektiv mottagare, vilket innebär att många saker kan få den att aktiveras. Jag citerar Wikipediasidan: ”De mest kända aktivatorerna av TRPV1 är: temperatur över 43 °C (109 °F), sura förhållanden, capsaicin, den bitande föreningen i heta chilipeppar, och allylisotiocyanat, den starka föreningen i senap och wasabi.” Samma receptor upptäcker temperatur, capsaicin och en förening i het senap och wasabi, vilket är anledningen till att din kropp tolkar dem alla som ”heta”.

Capsaicin är en medlem av capsaicinoidfamiljen. Alla capsaicinoider är vanillyls, alla vanillyls är aldehyder. Denna typ av är-en-familj-tillhörighet-förhållande inom kemin har lett till många taxonomier ochontologier, inklusive ChEBI.

Men låt inte mitt exempel eller förekomsten av nomenklaturer leda dig till den felaktiga slutsatsen att alla R-grupper är funktionella grupper! En R-grupp är, åtminstone för de personer som jag vanligtvis arbetar med, en mer allmän term som används för att beskriva ett sätt att tänka på molekylära strukturer.

QSAR-modellering

QSAR (uttalas ”QUE-SAR”) är en förkortning för ”quantitative structure-activityrelationship” (kvantitativt struktur-aktivitetsförhållande), vilket är en ordentlig munsbit. (Jag reste en gång till Storbritannien för att delta i ett UK-QSAR-möte. Gränskontrollanten frågade mig vart jag var på väg och jag sa ”UK-QSAR-mötet; QSAR är …” och jag glömde bort hur jag skulle utvidga den termen! Jag fick passera gränsen, så det kan inte ha varit ett så stort misstag.)

QSAR handlar om utveckling av modeller som relaterar kemisk struktur till dess aktivitet i ett biologiskt eller kemiskt system. När jag tittar på detta inser jag att jag bara flyttade runt orden lite, så jag ska ge ett enkelt exempel.

Vid en aktivitet, som jag kallar ”molekylvikt”. (Detta är mer en fysikalisk egenskap än en kemisk, men jag försöker göra det enkelt). Min modell för molekylvikt utgår från att varje atom har sin egen vikt och att den totala molekylvikten är summan av de enskilda atomvikterna. Jag kan skapa en träningsuppsättning av molekyler och för varje molekyl bestämma dess struktur och molekylvikt. Med hjälp av en liten anpassning av minsta kvadratmetoden kan jag bestämma de enskilda atomernas viktbidrag. När jag väl har denna modell kan jag använda den för att förutsäga molekylvikten för alla molekyler som innehåller atomer som modellen känner till.

Denna modell kommer uppenbarligen att vara ganska exakt. Den kommer inte att vara perfekt, eftersom isotopförhållandena kan variera. (En kemikalie som syntetiseras från fossil olja är något lättare och mindre radioaktiv än samma kemikalie som härrör från miljökällor, eftersom det tyngre radioaktiva 14C i fossil olja har sönderfallit). Men för de flesta användningsområden räcker det.

En mer kemiskt orienterad egenskap är fördelningskoefficienten, mätt i log-enheter som ”log P”, som är ett mått på lösligheten i vatten jämfört med en typ av olja. Detta ger en ungefärlig uppfattning om huruvida molekylen tenderar att hamna i hydrofoba områden som ett cellmembran eller i vattenrika områden som blod. Ett sätt att förutsäga log Pis med det atombaserade tillvägagångssätt som jag skisserade för molekylvikten,där varje atomtyp har ett bidrag till den totala uppmätta logP. (Detta kallas ibland AlogP.)

I praktiken är atombaserade lösningar inte lika exakta somfragmentbaserade lösningar. Molekylvikten kan vara atomcentrerad eftersom nästan all massa finns i atomens kärna, som är väl lokaliserad till atomen. Men kemi handlar egentligen inte om atomer utan om elektrontätheten runt atomerna, och elektroner är mycket mindre lokaliserade än nukleoner. Tätheten runt en atom beror på närliggande atomer och atomernas konfiguration i rummet.

Som ett sätt att förbättra detta tittar vissa metoder på den utvidgade lokala miljön (detta kallas ibland XlogP) eller på större fragmentbidrag (t.ex. BioByte’s ClogP). Ju mer komplicerad den är, desto fler föreningar behövs för träningen och desto långsammare blir modellen. Men förhoppningsvis blir resultatet mer exakt, så länge du inte överanpassar modellen.

Om du verkligen är intresserad av ämnet har Paul Beswick från SussexDrug Discovery Centre skrivit en fin sammanfattning om de olika nyanserna i log P-prediktion.

Matchade molekylära par

Varje större metod från datautvinning och de flesta av de mindre metoderna,har tillämpats på QSAR-modeller. Historien är också ganska lång. Det finns keminformatikdokument från 1970-talet om övervakad och oövervakad inlärning, som bygger på ännu tidigare arbete om klusterbildning tillämpad på biologiska system.

Ett problem med de flesta av dessa metoder är att de är av typen ”black-box”. Data är oroliga, och kemins kvantkaraktär passar inte så bra ihop med datautvinningsverktyg, så dessa förutsägelser används oftare för att vägleda en läkemedelskemist än för att göra solida förutsägelser. Detta innebär att slutsatserna bör kunna tolkas av kemisten. Försök att få ditt neurala nät att ge en kemiskt rimlig förklaring till varför det förutspådde som det gjorde!

Matched molecular pair (MMP)-analys är en mer kemistorienterad QSAR-metod, med relativt lite matematik utöver enkel statistik. Kemister har länge tittat på aktiviteter i enkla serier, som att ersätta etyl (*-CH3) med ametyl (*-CH2-CH3) eller propyl (*-CH2-CH2-CH2-CH3), eller att ersätta fluor med en tyngre halogen, t.ex. klor eller brom. Detta kan bildakonsekventa trender över ett stort antal strukturer, och kemister har använt dessa observationer för att utveckla tekniker för att till exempel förbättra lösligheten hos en läkemedelskandidat.

MMP systematiserar denna analys över alla berörda fragment, inklusive inte bara R-grupper (som är kopplade till resten av strukturen med en bindning) utan även så kallade ”kärnstrukturer” med två eller tre R-grupper kopplade till den. Om de kända strukturerna till exempel kan beskrivas som ”A-B-C”, ”A-D-C”, ”E-B-F” och ”E-D-F” med aktiviteterna 1,2, 1,5, 2,3 respektive 2,6 kan vi göra följande analys:

 A-B-C transforms to A-D-C with an activity shift of 0.3. E-B-F transforms to E-D-F with an activity shift of 0.3. Both transforms can be described as R1-B-R2 to R1-D-R2. Perhaps R1-B-R2 to R1-D-R2 in general causes a shift of 0.3?

Det är inte riktigt så enkelt, eftersom molekylfragmenten inte är så lätta att identifiera. En molekyl kan beskrivas som ”A-B-C”, liksom ”E-Q-F” och ”E-H” och ”C-T(-P)-A”, där ”T” har tre R-grupper kopplade till sig.

Tack

Tack till EPAM LifeSciences för deras Ketchertool, som jag använde för de strukturavbildningar som inte var public domain på Wikipedia.

Andrew Dalke är en oberoende konsult som fokuserar på mjukvaruutveckling för beräkningskemi och biologi.Behöver du kontraktsprogrammering, hjälp eller utbildning?

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *