/home/writings/diary/archive/2016/08/08/molecular_fragments_and_groups
Molecular fragments, R-groups, and functional groups
Dla zmiany tempa, pomyślałem, że zrobię podstawową lekcję chemiiabout molecular structures, zamiast bardziej komputerowego blogpostu.
Chemicy często myślą o cząsteczce jako strukturze rdzeniowej (zwykle aring system) i zestaw grup R. Każda grupa R jest dołączona do atomu w strukturze rdzenia przez wiązanie. Zazwyczaj to wiązanie jest wiązaniem pojedynczym i często „rotacyjnym”.
Tutaj jest przykład tego, co mam na myśli. Pierwszy obrazek poniżej przedstawia strukturę waniliny, która jest podstawowym składnikiem smaku wanilii. Na drugim obrazku, obrysowałem elipsą trzy grupy R w strukturze.
Struktura waniliny (podstawowy smak wanilii) |
Wanilina z trzema zidentyfikowanymi grupami R |
Grupy R w tym przypadku to R1=grupa karbonylowa (*-CH=O2), R2=grupa ametoksy (*-O-CH3), i R3=grupa hydroksylowa (*-OH), gdzie „*” oznacza miejsce przyłączenia grupy R do struktury rdzenia.
Koncepcja grupy R jest elastyczna. Naprawdę oznacza to po prostu, że masz stałą grupę połączonych atomów, które są połączone wzdłuż jakiegoś wiązania ze zmienną grupą atomów, i gdzie zmienna grupa jest oznaczona jako R. Zamiast patrzeć na strukturę podstawową i zestaw grup R, mogę odwrócić tok myślenia i myśleć o grupie R, takiej jak grupa karbonylowa, jako o „strukturze podstawowej”, a o reszcie waniliny jako o jej grupie R.
Mając to na uwadze, zastąpię „*” przez „R”, aby otrzymać grupy „R-CH=O2”, „R-O-CH3” i „R-OH”. (Znak „*” oznacza, że fragment jest połączony z atomem w tym punkcie, ale tak naprawdę jest to tylko alternatywny schemat nazewnictwa dla „R”.)
Wszystkie trzy z tych grup są również grupami funkcyjnymi. Cytując Wikipedię, „grupy funkcyjne to specyficzne grupy (moieties) atomów lub wiązań w cząsteczkach, które są odpowiedzialne za charakterystyczne reakcje chemiczne tych cząsteczek. Ta sama grupa funkcyjna przejdzie tę samą lub podobną reakcję chemiczną (reakcje chemiczne) niezależnie od wielkości cząsteczki, której jest częścią.”
Te trzy odpowiednie grupy funkcyjne toR1 = aldehyd, R2 = eter i R3 = hydroksyl.
Jak wskazano w cytacie z Wikipedii, jeśli masz reakcję, która działa na aldehyd, możesz prawdopodobnie użyć jej na grupie aldehydowej waniliny.
Grupa wanilinowa i kapsaicyna
Grupa funkcyjna może również zawierać grupy funkcyjne. Wskazałem na trzy grupy funkcyjne dołączone do centralnego pierścienia awaniliny, ale większość struktury waniliny sama jest inną grupą funkcyjną, grupą wanilinową:
Struktury, które zawierają grupę wanilinową nazywane są waniloidami. Wanilia jest oczywiście waniloidem, ale zaskakująco podobnie jest z kapsaicyną, źródłem „ciepła” dla wielu pikantnych potraw. Oto struktura kapsaicyny, z zaznaczoną grupą wanilililową:
><P>
Uczucie gorąca bierze się z tego, że kapsaicyna jest źródłem „gorąca”.
Uczucie gorąca pojawia się, ponieważ kapsaicyna wiąże się zTrpV1 (transientreceptor potential cation channel subfamily V member 1), znanego również jako „receptor kapsaicyny”. Jest to receptor nieselektywny, co oznacza, że wiele rzeczy może spowodować jego aktywację. Cytując tę stronę Wikipedii: „Najbardziej znanymi aktywatorami TRPV1 są: temperatura wyższa niż 43 °C (109 °F); kwaśne warunki; kapsaicyna, ich drażniący związek w ostrych papryczkach chili; i izotiocyjanian allilu, ostry związek w musztardzie i wasabi”. Ten sam receptor wykrywa temperaturę, kapsaicynę i związek w gorącej musztardzie i wasabi, dlatego organizm interpretuje je wszystkie jako „gorące.”
Kapsaicyna jest członkiem rodziny kapsaicynoidów. Wszystkie kapsaicynoidy są vanillylami, wszystkie vanillyle są aldehydami. Ten rodzaj relacji is-a familymembership w chemii doprowadził do powstania wielu taksonomii iontologii, w tym ChEBI.
Ale nie pozwól, aby mój przykład lub istnienie nomenklatury doprowadziło Cię do błędnego wniosku, że wszystkie grupy R są grupami funkcyjnymi! Grupa R, przynajmniej w przypadku ludzi, z którymi zazwyczaj pracuję, jest bardziej ogólnym terminem używanym do opisania sposobu myślenia o strukturach molekularnych.
Modelowanie QSAR
QSAR (wymawiane jako „QUE-SAR”) jest skrótem od „quantitative structure-activityrelationship”, co jest dość skomplikowane. (Kiedyś podróżowałem do Wielkiej Brytanii na spotkanieUK-QSAR. Inspektor graniczny zapytał mnie, dokąd jadę, a ja powiedziałem „spotkanie UK-QSAR; QSAR jest …” i nie pamiętałem rozwinięcia tego terminu! I was allowed across the border, so itcouldn’t have been that big of the mistake.)
QSAR deals with the development of models which relate chemicalstructure to its activity in a biological or chemical system. Patrząc na to, zdaję sobie sprawę, że po prostu przesunąłem trochę słowa, więc podam prosty przykład.
Rozważmy aktywność, którą nazwę „masą cząsteczkową”. (Jest to bardziej właściwość fizyczna niż chemiczna, ale staram się to uprościć). Mój model wagi molekularnej zakłada, że każdy atom ma swoją własną wagę, a całkowita waga molekularna jest sumą wag poszczególnych atomów. Mogę stworzyć zestaw treningowy cząsteczek i dla każdej z nich określić jej strukturę i masę cząsteczkową. Z odrobiną dopasowania najmniejszych kwadratów, mogę określić indywidualny wkład masy atomowej. Gdy już mam ten model, mogę go użyć do przewidywania masy cząsteczkowej dowolnej cząsteczki, która zawiera atomy, o których model wie.
Oczywiście model ten będzie dość dokładny. Nie będzie idealny, ponieważ stosunki izotopowe mogą się różnić. (Substancja chemiczna syntetyzowana z oleju kopalnego jest nieco lżejsza i mniej radioaktywna niż ta sama substancja otrzymana ze źródeł środowiskowych, ponieważ cięższe radioaktywne 14C w oleju kopalnym uległo rozpadowi). Ale dla większości zastosowań będzie on wystarczająco dobry.
Właściwością bardziej zorientowaną chemicznie jest współczynnik podziału, mierzony w jednostkach logarytmicznych jako „log P”, który jest miarą rozpuszczalności w wodzie w porównaniu do danego rodzaju oleju. Daje to przybliżone pojęcie o tym, czy cząsteczka będzie miała tendencję do kończenia się w regionach hydrofobowych, takich jak błona komórkowa, czy w regionach wodnych, takich jak krew. Jednym ze sposobów przewidywania logPis jest podejście oparte na atomie, które naszkicowałem dla masy cząsteczkowej, gdzie każdy typ atomu ma swój udział w ogólnym zmierzonym logP. (To jest czasami nazywane AlogP.)
W praktyce, rozwiązania oparte na atomach nie są tak dokładne jak rozwiązania oparte na fragmentach. Masa cząsteczkowa może być skoncentrowana na atomie, ponieważ prawie cała masa znajduje się w jądrze atomu, które jest dobrze zlokalizowane w atomie. Ale chemia nie jest tak naprawdę o atomach, ale o gęstości elektronów wokół atomów, a elektrony są znacznie mniej zlokalizowane niż nukleony. Gęstość wokół atomu zależy od sąsiednich atomów i konfiguracji atomów w przestrzeni.
Jako sposób na poprawę tego, niektóre metody patrzą na rozszerzone środowisko lokalne (to jest czasami nazywane XlogP) lub na większe fragmenty (na przykład, BioByte’s ClogP). Im bardziej jest to złożone, tym więcej związków potrzeba do treningu i tym wolniejszy jest model. Ale miejmy nadzieję, że wynik jest dokładniejszy, tak długo jak nie przefiltrujesz modelu.
Jeśli naprawdę interesuje Cię ten temat, Paul Beswick z SussexDrug Discovery Centre napisał dobre podsumowanie na temat różnych niuansów w przewidywaniu log P.
Dopasowane pary molekularne
Każda główna metoda z eksploracji danych i większość mniejszych metod została zastosowana w modelach QSAR. Historia tej dziedziny jest również dość długa. Istnieją prace z dziedziny cheminformatyki z lat 70-tych, dotyczące uczenia nadzorowanego i nienadzorowanego, bazujące na jeszcze wcześniejszych pracach dotyczących klastrowania zastosowanych w systemach biologicznych.
Problemem większości z nich jest natura czarnej skrzynki. Dane są zaszumione, a kwantowa natura chemii nie jest tak dobrze dopasowana do narzędzi eksploracji danych, więc te przewidywania są częściej wykorzystywane do kierowania chemikami farmaceutycznymi niż do solidnych prognoz. Oznacza to, że wnioski powinny być możliwe do zinterpretowania przez chemika. Spróbuj getyour sieci neuronowej dać chemicznie uzasadnione wyjaśnienie, dlaczego itpredicted jak to zrobił!
Matched molecular pair analysis (MMP) jest bardziej chemik zorientowanych QSAR metody, z stosunkowo mało matematyki poza proste statystyki. Chemicy od dawna przyglądają się aktywnościom w prostych seriach, takich jak zamiana etylu (*-CH3) na ametyl (*-CH2-CH3) lub propyl (*-CH2-CH2-CH3), lub zamiana fluoru na cięższy halogen, taki jak chlor lub brom. To może tworzyć spójne trendy w szerokim zakresie struktur, a chemicy wykorzystali te obserwacje do opracowania technik, jak, powiedzmy, poprawić rozpuszczalność kandydata na lek.
MMP systematyzuje tę analizę dla wszystkich rozważanych fragmentów, włączając nie tylko grupy R (które są połączone z resztą struktury jednym wiązaniem), ale także tak zwane struktury „rdzeniowe” z dwiema lub trzema grupami R do nich dołączonymi. Na przykład, jeśli znane struktury można opisać jako „A-B-C”, „A-D-C”, „E-B-F” i „E-D-F” o aktywnościach odpowiednio 1.2, 1.5, 2.3 i 2.6, to możemy wykonać następującą analizę:
A-B-C transforms to A-D-C with an activity shift of 0.3. E-B-F transforms to E-D-F with an activity shift of 0.3. Both transforms can be described as R1-B-R2 to R1-D-R2. Perhaps R1-B-R2 to R1-D-R2 in general causes a shift of 0.3?
Nie jest to takie proste, ponieważ fragmenty molekularne nie są tak łatwe do zidentyfikowania. Cząsteczka może być opisana jako „A-B-C”, jak również „E-Q-F” i „E-H” oraz „C-T(-P)-A”, gdzie „T” ma trzy grupy R połączone z nią.
Podziękowania
Dziękuję EPAM LifeSciences za ich Ketchertool, którego użyłem do zobrazowania struktury, która nie była w domenie publicznej Wikipedii.
Andrew Dalke jest niezależnym konsultantem skupiającym się na rozwoju oprogramowania dla chemii obliczeniowej i biologii.Potrzebujesz programowania na zlecenie, pomocy lub szkolenia? Skontaktuj się ze mną