Moleculaire fragmenten, R-groepen en functionele groepen

/home/writings/diary/archive/2016/08/08/molecular_fragments_and_groups

Moleculaire fragmenten, R-groepen en functionele groepen

Om eens wat anders te doen, dacht ik een basisles scheikunde over moleculaire structuren te doen, in plaats van een meer computergerichte blogpost.

Chemici denken vaak aan een molecuul als een kernstructuur (meestal een aring-systeem) en een verzameling R-groepen. Elke R-groep is met een binding verbonden aan een atoom in de kernstructuur. Doorgaans is die binding een enkelvoudige binding, en vaak “draaibaar”.

Hier volgt een voorbeeld van wat ik bedoel. De eerste afbeelding hieronder toont de structuur van vanilline, de belangrijkste smaakmaker van vanille. In de tweede afbeelding heb ik de drie R-groepen in de structuur ellipsgewijs omcirkeld.

.groepen geïdentificeerd

vanillinestructuur vanillinestructuur met drie R-groepen geïdentificeerd vanillinestructuur met drie R-groepen geïdentificeerd
Vanillinestructuur
(de primaire smaak van vanille)
Vanilline met drie geïdentificeerde R-groepen

De R-groepen zijn in dit geval R1=een carbonylgroep (*-CH=O2), R2=amethoxygroep (*-O-CH3), en R3=een hydroxylgroep (*-OH), waarbij de “*”aangeeft waar de R-groep aan de kernstructuur vastzit.

Het concept R-groep is flexibel. Eigenlijk betekent het gewoon dat je een vaste groep verbonden atomen hebt, die langs een binding verbonden zijn met een variabele groep atomen, en waarbij de variabele groep wordt aangeduid metR. In plaats van te kijken naar de kernstructuur en een verzameling R-groepen, kan ik de denkwijze omkeren en denken aan een R-groep, zoals de carbonylgroep, als “de kernstructuur”, en de rest van de vanilline als zijn R-groep.

Met dat in gedachten, vervang ik de “*” door de “R” om de groepen “R-CH=O2”, “R-O-CH3”, en “R-OH” te krijgen. (De “*” betekent dat het fragment op dit punt aan een atoom is verbonden, maar het is eigenlijk gewoon een alternatieve naamgeving voor “R”.)

Alledrie van deze groepen zijn ook functionele groepen. Wikipedia citeert: “functionele groepen zijn specifieke groepen atomen of bindingen in moleculen die verantwoordelijk zijn voor de karakteristieke chemische reacties van die moleculen. Dezelfde functionele groep zal dezelfde of soortgelijke chemische reactie(s) ondergaan, ongeacht de grootte van het molecuul waar het deel van uitmaakt.”

Deze drie overeenkomstige functionele groepen zijnR1 = aldehyde,R2 = ether. en R3 = hydroxyl.

Zoals het Wikipedia-citaat aangaf, als je een reactie hebt die op een aldehyde inwerkt, kun je die waarschijnlijk gebruiken op de aldehydegroep van vanilline.

Vanillylgroep en capsaïcine

Een functionele groep kan ook functionele groepen bevatten. Ik heb gewezen op de drie functionele groepen aan de centrale ring van vanilline, maar het grootste deel van de vanillinestructuur is zelf een andere functionele groep, een vanillyn:
vanillyn functionele groep

Structuren die een vanillylgroep bevatten, worden vanilloïden genoemd. Vanille is natuurlijk een vanilloïde, maar verrassend genoeg is capsaïcine, de bron van de “hitte” van veel gekruid voedsel, dat ook. Hier zie je de structuur van capsaïcine, met de vanillylgroep omcirkeld:
capsaïcine met vanillylgroep omcirkeld
><P>

Het gevoel van warmte ontstaat doordat capsaïcine zich bindt aanTrpV1 (het transientreceptor potential cation channel subfamily V member 1), ook bekend als de “capsaïcine receptor”. Het is een niet-selectieve receptor, wat betekent dat veel dingen hem kunnen activeren. Als ik die Wikipedia-pagina citeer: “De bekendste activatoren van TRPV1 zijn: temperatuur hoger dan 43 °C; zure omstandigheden; capsaïcine, de irriterende verbinding in hete pepers; en allylisothiocyanaat, de prikkelende verbinding in mosterd en wasabi.” Dezelfde receptor detecteert temperatuur, capsaïcine, en een verbinding in hete mosterd en wasabi, en daarom interpreteert uw lichaam ze allemaal als “heet.”

Capsaïcine is een lid van de capsaïcinoïdenfamilie. Alle capsaïcinoïden zijn vanillylen, alle vanillylen zijn aldehyden. Dit soort is-een-familie-relaties in de chemie heeft geleid tot vele taxonomieën en terminologieën, waaronder ChEBI.

Maar laat mijn voorbeeld of het bestaan van nomenclatuur je niet tot de verkeerde conclusie brengen dat alle R-groepen functionele groepen zijn! Een R-groep is, althans bij de mensen met wie ik gewoonlijk werk, een meer algemene term die wordt gebruikt om een manier van denken over moleculaire structuren te beschrijven.

QSAR-modellering

QSAR (uitgesproken als “QUE-SAR”) is een afkorting van “kwantitatieve structuur-activiteitsrelatie”, en dat is een hele mond vol. (Ik reisde eens naar het Verenigd Koninkrijk voor eenUK-QSAR-bijeenkomst. De grensinspecteur vroeg me waar ik heen ging, en ik zei “de UK-QSAR-bijeenkomst; QSAR is …” en ik wist niet meer hoe ik die term moest uitleggen! Ik mocht de grens over, dus zo’n grote vergissing kan het niet zijn geweest.)

QSAR houdt zich bezig met de ontwikkeling van modellen die een verband leggen tussen de chemische structuur en de activiteit daarvan in een biologisch of chemisch systeem. Nu ik dat zie, realiseer ik me dat ik de woorden een beetje heen en weer heb geschoven, dus ik zal een eenvoudig voorbeeld geven.

Kijk eens naar een activiteit, die ik “molecuulgewicht” zal noemen. (Dit is meer een fysische dan een chemische eigenschap, maar ik probeer het eenvoudig te houden). Mijn model voor molecuulgewicht gaat ervan uit dat elk atoom zijn eigen gewicht heeft, en dat het totale molecuulgewicht de som is van de individuele atoomgewichten. Ik kan een trainingsset van moleculen maken, en voor elk molecuul de structuur en het molecuulgewicht bepalen. Met een beetje aanpassing met de kleinste kwadraten kan ik de individuele atoomgewichtbijdrage bepalen. Als ik dat model eenmaal heb, kan ik het gebruiken om het molecuulgewicht te voorspellen van elk molecuul dat atomen bevat die het model kent.

Het is duidelijk dat dit model vrij accuraat zal zijn. Het zal niet perfect zijn, omdat isotopenverhoudingen kunnen variëren. (Een chemische stof gesynthetiseerd uit fossiele olie is iets lichter en minder radioactief dan dezelfde chemische stof uit milieubronnen, omdat de zwaardere radioactieve 14C in fossiele olie is vergaan). Maar voor de meeste toepassingen zal het goed genoeg zijn.

Een meer chemisch georiënteerde eigenschap is de verdelingscoëfficiënt, gemeten in log-eenheden als “log P”, die een maat is voor de oplosbaarheid in water in vergelijking met een type olie. Dit geeft een ruw idee of het molecuul de neiging zal hebben om terecht te komen in hydrofobe gebieden zoals een celmembraan, of in waterige gebieden zoals bloed. Eén manier om logPis te voorspellen is met de atoom-gebaseerde benadering die ik schetste voor het molecuulgewicht, waarbij elk atoomtype een bijdrage levert aan de totale gemeten logP. (Dit wordt soms AlogP genoemd.)

In de praktijk zijn oplossingen op basis van atomen niet zo nauwkeurig als oplossingen op basis van fragmenten. Het molecuulgewicht kan atoom-gecentreerd zijn, omdat bijna alle massa zich in de atoomkern bevindt, die goed gelokaliseerd is in het atoom. Maar scheikunde gaat niet echt over atomen maar over de elektronendichtheid rond atomen, en elektronen zijn veel minder gelokaliseerd dan kernen. De dichtheid rond een atoom hangt af van naburige atomen en de configuratie van de atomen in de ruimte.

Als een manier om dat te verbeteren, kijken sommige methoden naar de uitgebreide lokale omgeving (dit wordt soms XlogP genoemd) of naar grotere fragmentbijdragen (bijvoorbeeld BioByte’s ClogP). Hoe complexer het is, hoe meer verbindingen je nodig hebt voor de training en hoe trager het model.

Als je echt geïnteresseerd bent in het onderwerp, Paul Beswick van het Sussex Drug Discovery Centre heeft een aardige samenvatting geschreven over de verschillende nuances in log P voorspelling.

Gematchte moleculaire paren

Iedere belangrijke methode uit de datamining, en de meeste van de minder belangrijke methoden, zijn toegepast op QSAR modellen. De geschiedenis is ook vrij lang. Er zijn al cheminformatica-publicaties uit de jaren zeventig waarin wordt gekeken naar leren bij supervisie en leren zonder supervisie, voortbouwend op nog eerder werk over clusteren, toegepast op biologische systemen.

Een probleem met de meeste van deze methodes is het black-box karakter. De gegevens zijn ruisachtig en het kwantumkarakter van de chemie leent zich niet zo goed voor dataminingtools, zodat deze voorspellingen vaker worden gebruikt als leidraad voor een farmaceutisch chemicus dan om solide voorspellingen te doen. Dit betekent dat de conclusies interpreteerbaar moeten zijn voor de chemicus. Probeer maar eens uit je neurale net een chemisch redelijke verklaring te krijgen waarom het voorspelde zoals het deed!

Matched molecular pair (MMP) analyse is een meer chemisch georiënteerde QSAR-methode, met relatief weinig wiskunde buiten de eenvoudige statistiek. Scheikundigen kijken al lang naar activiteiten in eenvoudige reeksen, zoals het vervangen van een ethyl (*-CH3) door amethyl (*-CH2-CH3) of propyl (*-CH2-CH2-CH3), of het vervangen van een fluor door een zwaarder halogeen zoals een chloor of broom. Deze kunnen consistente trends vormen over een breed scala van structuren, en chemici hebben deze waarnemingen gebruikt om technieken te ontwikkelen voor bijvoorbeeld het verbeteren van de oplosbaarheid van een kandidaat-geneesmiddel.

MMP systematiseert deze analyse over alle beschouwde fragmenten, inclusief niet alleen R-groepen (die met de rest van de structuur zijn verbonden door één binding), maar ook zogenaamde “kern”-structuren met twee of drie R-groepen eraan vast. Als de bekende structuren bijvoorbeeld kunnen worden beschreven als “A-B-C”, “A-D-C”, “E-B-F” en “E-D-F” met een activiteit van respectievelijk 1,2, 1,5, 2,3 en 2,6, dan kunnen we de volgende analyse uitvoeren:

 A-B-C transforms to A-D-C with an activity shift of 0.3. E-B-F transforms to E-D-F with an activity shift of 0.3. Both transforms can be described as R1-B-R2 to R1-D-R2. Perhaps R1-B-R2 to R1-D-R2 in general causes a shift of 0.3?

Het is niet zo eenvoudig, omdat de moleculaire fragmenten niet zo gemakkelijk te identificeren zijn. Een molecuul kan worden beschreven als “A-B-C”, maar ook als “E-Q-F” en “E-H” en “C-T(-P)-A”, waarbij “T” drieR-groepen heeft.

Dank

Dank aan EPAM LifeSciences voor hun Ketchertool, die ik heb gebruikt voor de structuurafbeeldingen die niet publiek domein waren op Wikipedia.

Andrew Dalke is een onafhankelijke consultant die zich richt op software-ontwikkeling voor computationele chemie en biologie. Heb je programmeerwerk, hulp of training nodig? Neem contact met me op

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *