Frammenti molecolari, gruppi R e gruppi funzionali

/home/writings/diary/archive/2016/08/08/molecular_fragments_and_groups

Frammenti molecolari, gruppi R e gruppi funzionali

Per cambiare ritmo, ho pensato di fare una lezione di chimica di base sulle strutture molecolari, invece di un blogpost più orientato al computer.

I chimici spesso pensano a una molecola come a una struttura centrale (di solito un sistema di aringhe) e un insieme di gruppi R. Ogni gruppo R è attaccato ad un atomo nella struttura centrale da un legame. Tipicamente quel legame è un legame singolo, e spesso “ruotabile”.

Ecco un esempio di ciò che intendo. La prima immagine qui sotto mostra la struttura della vanillina, che è il gusto principale della vaniglia. Nella seconda immagine, ho cerchiato in ellisse i tre gruppi R della struttura.

struttura della vanillina struttura della vanillina con tre gruppi R-identificati
Struttura della vanillina
(il gusto primario della vaniglia)
Vanillina con tre gruppi R identificati

I gruppi R in questo caso sono R1=un gruppo carbonile (*-CH=O2), R2=gruppo ametossico (*-O-CH3), e R3=gruppo idrossile (*-OH), dove l'”*” indica dove il gruppo R si attacca alla struttura centrale.

Il concetto di gruppo R è flessibile. In realtà significa solo che si ha un gruppo fisso di atomi collegati, che sono collegati lungo qualche legame a un gruppo variabile di atomi, e dove il gruppo variabile è indicato con R. Invece di guardare la struttura centrale e un insieme di gruppi R, posso invertire il pensiero e pensare a un gruppo R, come il gruppo carbonile, come “la struttura centrale”, e il resto della vanillina come il suo gruppo R.

Con questo in mente, sostituirò il “*” con la “R” per ottenere i gruppi “R-CH=O2”, “R-O-CH3” e “R-OH”. (Il “*” significa che il frammento è collegato ad un atomo a questo punto, ma è davvero solo uno schema di denominazione alternativo per “R”.)

Tutti e tre questi gruppi sono anche gruppi funzionali. Citando Wikipedia, “i gruppi funzionali sono gruppi specifici (società) di atomi o legami all’interno delle molecole che sono responsabili delle reazioni chimiche caratteristiche di quelle molecole. Lo stesso gruppo funzionale subirà la stessa o simile reazione chimica indipendentemente dalla dimensione della molecola di cui fa parte.”

Questi tre gruppi funzionali corrispondenti sono R1 = aldeide, R2 = etere e R3 = idrossile.

Come ha sottolineato la citazione di Wikipedia, se avete una reazione che agisce su un’aldeide, potete probabilmente usarla sul gruppo aldeidico della vanillina.

Gruppo vanillyl e capsaicina

Un gruppo funzionale può anche contenere gruppi funzionali. Ho indicato i tre gruppi funzionali attaccati all’anello centrale dell’avanillina, ma la maggior parte della struttura della vanillina è essa stessa un altro gruppo funzionale, un vanillino:
gruppo funzionale vanillino

Le strutture che contengono un gruppo vanillino sono chiamate vanilloidi. La vaniglia è naturalmente un vanilloide, ma sorprendentemente lo è anche la capsaicina, la fonte del “calore” di molti cibi piccanti. Ecco la struttura della capsaicina, con il gruppo vanillilico cerchiato:
capsaicina con il gruppo vanillilico cerchiato
><P>

La sensazione di calore viene perché la capsaicina si lega alTrpV1 (il canale del potenziale di cationi transientreceptor sottofamiglia V membro 1), conosciuto anche come “recettore della capsaicina”. È un recettore non selettivo, il che significa che molte cose possono causare la sua attivazione. Citando la pagina di Wikipedia: “I più noti attivatori di TRPV1 sono: temperatura maggiore di 43 °C (109 °F); condizioni acide; capsaicina, il loro composto irritante nei peperoncini piccanti; e isotiocianato di allile, il composto pungente nella senape e nel wasabi”. Lo stesso recettore rileva la temperatura, la capsaicina e un composto nella senape piccante e nel wasabi, ed è per questo che il tuo corpo li interpreta tutti come “piccanti”. Tutti i capsaicinoidi sono vanillili, tutti i vanillili sono aldeidi. Questa sorta di relazione di appartenenza alla famiglia in chimica ha portato a molte tassonomie eontologie, incluso il ChEBI.

Ma non lasciate che il mio esempio o l’esistenza della nomenclatura vi porti alla conclusione sbagliata che tutti i gruppi R sono gruppi funzionali! Un gruppo R, almeno con le persone con cui lavoro di solito, è un termine più generico usato per descrivere un modo di pensare alle strutture molecolari.

Modellazione QSAR

QSAR (pronunciato “QUE-SAR”) è l’abbreviazione di “quantitative structure-activityrelationship”, che è una parola grossa. (Una volta sono andato nel Regno Unito per una riunione di QSAR. L’ispettore di frontiera mi chiese dove stavo andando, e io dissi “l’incontro UK-QSAR; QSAR è…” e mi sfuggì l’espansione di quel termine! Mi è stato permesso di attraversare il confine, quindi non può essere stato un errore così grande.)

QSAR si occupa dello sviluppo di modelli che mettono in relazione la struttura chimica con la sua attività in un sistema biologico o chimico. Guardando questo, mi rendo conto che ho appena spostato un po’ le parole, quindi farò un semplice esempio.

Considera un’attività, che chiamerò “peso molecolare”. (Questa è più una proprietà fisica che chimica, ma sto cercando di renderla semplice). Il mio modello per il peso molecolare presuppone che ogni atomo abbia il proprio peso, e che il peso molecolare totale sia la somma dei pesi dei singoli atomi. Posso creare un set di allenamento di molecole, e per ogni molecola determinare la sua struttura e il suo peso molecolare. Con un po’ di adattamento ai minimi quadrati, posso determinare il contributo individuale del peso dell’atomo. Una volta che ho questo modello, posso usarlo per predire il peso molecolare di qualsiasi molecola che contiene atomi che il modello conosce.

Ovviamente questo modello sarà abbastanza accurato. Non sarà perfetto, perché i rapporti isotopici possono variare. (Una sostanza chimica sintetizzata dal petrolio fossile è leggermente più leggera e meno radioattiva della stessa sostanza chimica derivata da fonti ambientali, perché il 14C pesantemente radioattivo nel petrolio fossile è decaduto). Ma per la maggior parte degli usi sarà abbastanza buono.

Una proprietà più orientata alla chimica è il coefficiente di partizione, misurato in unità log come “log P”, che è una misura della solubilità in acqua rispetto a un tipo di olio. Questo dà un’idea approssimativa se la molecola tenderà a finire in regioni idrofobiche come una membrana cellulare, o in regioni acquose come il sangue. Un modo per prevedere il logP con l’approccio basato sull’atomo che ho abbozzato per il peso molecolare, dove ogni tipo di atomo ha un contributo al logP complessivo misurato. (Questo è talvolta chiamato AlogP.)

In pratica, le soluzioni basate sugli atomi non sono così accurate come quelle basate sui frammenti. Il peso molecolare può essere atomo-centrico perché quasi tutta la massa è nel nucleo dell’atomo, che è ben localizzato all’atomo. Ma la chimica non riguarda veramente gli atomi, ma la densità degli elettroni intorno agli atomi, e gli elettroni sono molto meno localizzati dei nucleoni. La densità intorno a un atomo dipende dagli atomi vicini e dalla configurazione degli atomi nello spazio.

Come un modo per migliorare questo, alcuni metodi guardano all’ambiente locale esteso (questo è a volte chiamato XlogP) o a contributi di frammenti più grandi (per esempio, ClogP di BioByte). Più è complesso, più composti sono necessari per l’addestramento e più lento è il modello. Ma si spera che il risultato sia più accurato, a patto che il modello non sia sovradimensionato.

Se siete veramente interessati all’argomento, Paul Beswick del SussexDrug Discovery Centre ha scritto un bel riassunto sulle diverse sfumature nella predizione del log P.

Coppie molecolari abbinate

Tutti i metodi principali del data mining, e la maggior parte dei metodi minori, sono stati applicati ai modelli QSAR. La storia è anche abbastanza lunga. Ci sono articoli di cheminformatica che risalgono agli anni ’70 che guardano all’apprendimento supervisionato e non supervisionato, basandosi su un lavoro ancora precedente sul clustering applicato ai sistemi biologici.

Un problema con la maggior parte di questi è la natura black-box. I dati sono rumorosi, e la natura quantistica della chimica non è un buon abbinamento con gli strumenti di data mining, quindi queste previsioni sono usate più spesso per guidare un chimico farmaceutico che per fare previsioni solide. Questo significa che le conclusioni dovrebbero essere interpretabili dal chimico. Provate a far sì che la vostra rete neurale dia una spiegazione chimicamente ragionevole del perché ha predetto come ha fatto!

L’analisi della coppia molecolare abbinata (MMP) è un metodo QSAR più orientato al chimico, con relativamente poca matematica oltre la semplice statistica. I chimici hanno a lungo guardato le attività in serie semplici, come la sostituzione di un etile (*-CH3) con l’ametile (*-CH2-CH3) o il propile (*-CH2-CH2-CH3), o la sostituzione di un fluoro con un alogeno più pesante come un cloro o un bromo. Questi possono formare tendenze coerenti attraverso una vasta gamma di strutture, e i chimici hanno usato queste osservazioni per sviluppare tecniche per come, ad esempio, migliorare la solubilità di un candidato farmaco.

MMP sistematizza questa analisi su tutti i frammenti considerati, includendo non solo i gruppi R (che sono collegati al resto della struttura da un legame) ma anche le cosiddette strutture “core” con due o tre gruppi R collegati ad esso. Per esempio, se le strutture note possono essere descritte come “A-B-C”, “A-D-C”, “E-B-F” ed “E-D-F” con attività di 1,2, 1,5, 2,3 e 2,6 rispettivamente, allora possiamo fare la seguente analisi:

 A-B-C transforms to A-D-C with an activity shift of 0.3. E-B-F transforms to E-D-F with an activity shift of 0.3. Both transforms can be described as R1-B-R2 to R1-D-R2. Perhaps R1-B-R2 to R1-D-R2 in general causes a shift of 0.3?

Non è così facile, perché i frammenti molecolari non sono così facilmente identificabili. Una molecola potrebbe essere descritta come “A-B-C”, così come “E-Q-F” e “E-H” e “C-T(-P)-A”, dove “T” ha tre gruppi R collegati ad essa.

Grazie

Grazie alla EPAM LifeSciences per il loro Ketchertool, che ho usato per le rappresentazioni delle strutture che non erano di pubblico dominio su Wikipedia.

Andrew Dalke è un consulente indipendente che si concentra sullo sviluppo di software per la chimica e la biologia computazionale.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *