/home/writings/diary/archive/2016/08/08/molecular_fragments_and_groups
Molekulární fragmenty, R-skupiny a funkční skupiny
Pro zpestření jsem si řekl, že místo počítačového blogpostu udělám základní lekci chemie o molekulárních strukturách.
Chemisté často uvažují o molekule jako o jádrové struktuře (obvykle systému aring) a souboru R-skupin. KaždáR-skupina je připojena k atomu v jádrové struktuře pomocí abondu. Obvykle je tato vazba jednoduchá a často „otočná“.
Tady je příklad toho, co mám na mysli. První obrázek níže ukazuje strukturu vanilinu, který je primární chutí vanilky. Na druhém obrázku jsem elipsovitě zakroužkoval tři R-skupiny ve struktuře.
Struktura vanilinu (primární chuť vanilky) |
Vanilin s třemi identifikovanými R-skupinami |
R-skupiny jsou v tomto případě R1=karbonylová skupina (*-CH=O2), R2=ametoxyskupina (*-O-CH3) a R3=hydroxylová skupina (*-OH), kde „*“ označuje místo připojení R-skupiny k jádru struktury.
Koncept R-skupiny je flexibilní. Ve skutečnosti znamená pouze to, že máte fixní skupinu spojených atomů, které jsou spojeny podél nějaké vazby s proměnnou skupinou atomů, a kde je proměnná skupina označenaR. Místo toho, abychom se dívali na jádrovou strukturu a soubor R-skupin, mohu myšlení obrátit a považovat R-skupinu, jako je karbonylskupina, za „jádrovou strukturu“ a zbytek vanilinu za jeho R-skupinu.
S tímto vědomím nahradím „*“ za „R“ a dostanu skupiny „R-CH=O2“, „R-O-CH3“ a „R-OH“. (Písmeno „*“ znamená, že fragment je v tomto bodě připojen k atomu, ale ve skutečnosti je to jen alternativní schéma pojmenování pro „R“)
Všechny tři tyto skupiny jsou také funkčními skupinami. Cituji Wikipedii: „Funkční skupiny jsou specifické skupiny(části) atomů nebo vazeb v molekulách, které jsou zodpovědné za charakteristické chemické reakce těchto molekul. Stejnáfunkční skupina projde stejnou nebo podobnou chemickou reakcí (reakcemi) bez ohledu na velikost molekuly, jejíž je součástí.“
Tyto tři odpovídající funkční skupiny jsouR1 = aldehyd,R2 = éter. a R3 = hydroxyl.
Jak je uvedeno v citátu z Wikipedie, pokud máte reakci, která působí na aldehyd, můžete ji pravděpodobně použít na aldehydovou skupinu vanilinu.
Vanilinová skupina a kapsaicin
Funkční skupina může také obsahovat funkční skupiny. Poukázal jsem na tři funkční skupiny připojené k centrálnímu kruhu avanilinu, ale většina struktury vanilinu je sama o sobě další funkční skupinou, vanilinem:
Struktury, které obsahují vanilinovou skupinu, se nazývají vaniloidy. Vanilkaje samozřejmě vaniloid, ale překvapivě i kapsaicin, zdroj „tepla“ mnoha pálivých jídel. Zde je struktura kapsaicinu se zakroužkovanou vanilovou skupinou:
><P>
Pocit tepla vzniká díky tomu, že se kapsaicin váže naTrpV1 (kationtový kanál s přechodným receptorovým potenciálem, člen podrodiny V 1), známý také jako „kapsaicinový receptor“. Je to neselektivní receptor, což znamená, že jeho aktivaci může způsobit mnoho věcí. Cituji z Wikipedie: „Nejznámějšími aktivátory TRPV1 jsou: teplota vyšší než 43 °C (109 °F), kyselé podmínky, kapsaicin, jeho dráždivá sloučenina v pálivých chilli papričkách, a allylisothiokyanát, ostrá sloučenina v hořčici a wasabi.“ Stejný receptor detekuje teplotu, kapsaicin a sloučeninu v pálivé hořčici a wasabi, a proto je vaše tělo všechny interpretuje jako „pálivé“.
Kapsaicin patří do skupiny kapsaicinoidů. Všechny kapsaicinoidyjsou vaniliny, všechny vaniliny jsou aldehydy. Tento druh vztahů mezi členy rodin v chemii vedl ke vzniku mnoha taxonomií aontologií, včetně ChEBI.
Nenechte se však mým příkladem nebo existencí nomenklatury dovést k mylnému závěru, že všechny skupiny R jsou funkční skupiny! R-skupina, alespoň u lidí, se kterými obvykle pracuji, je obecnější termín používaný k popisu způsobu uvažování o molekulárních strukturách.
QSAR modelování
QSAR (vyslovuje se „QUE-SAR“) je zkratka pro „kvantitativní vztah mezi strukturou a aktivitou“, což je pořádná řeč. (Jednou jsem cestoval do Velké Británie na setkáníUK-QSAR. Hraniční inspektor se mě zeptal, kam jedu, a já jsem řekl „na setkání UK-QSAR; QSAR je ..“ a zapomněl jsem na rozšíření tohoto termínu! Přes hranice mě pustili, takže to nemohla být tak velká chyba.)
QSAR se zabývá vývojem modelů, které dávají do souvislosti chemickou strukturu s její aktivitou v biologickém nebo chemickém systému. Když se na to dívám, uvědomuji si, že jsem jen trochu pohnul se slovy, takže uvedu jednoduchý příklad.
Považujme aktivitu, kterou nazvu „molekulová hmotnost“. (Jedná se spíše o fyzikální než chemickou vlastnost, ale snažím se to zjednodušit). Můj model molekulové hmotnosti předpokládá, že každý atom má svou vlastní hmotnost a celková molekulová hmotnost je součtem hmotností jednotlivých atomů. Mohu vytvořit trénovací soubor molekul a pro každou molekulu určit její strukturu a molekulovou hmotnost. Pomocí metody nejmenších čtverců mohu určit příspěvek jednotlivých atomů k hmotnosti. Jakmile budu mít tento model, mohu ho použít k předpovědi molekulové hmotnosti jakékoli molekuly, která obsahuje atomy, o nichž tento model ví.
Je zřejmé, že tento model bude poměrně přesný. Nebude dokonalý,protože izotopové poměry se mohou lišit. (Chemická látka syntetizovaná z fosilní ropy je o něco lehčí a méně radioaktivní než stejná chemická látka získaná z environmentálních zdrojů, protože těžší radioaktivní 14C ve fosilní ropě se rozpadl). Pro většinu použití to však bude stačit.
Ještě více chemicky orientovanou vlastností je rozdělovací koeficient, který se měří v logaritmických jednotkách jako „log P“, což je míra rozpustnosti ve vodě ve srovnání s typem ropy. To dává přibližnou představu o tom, zda molekula bude mít tendenci končit v hydrofobních oblastech, jako je buněčná membrána, nebo ve vodných oblastech, jako je krev. Jedním ze způsobů, jak předpovědět logP pomocí přístupu založeného na atomech, který jsem nastínil pro molekulovou hmotnost, kde má každý typ atomu příspěvek k celkovému naměřenému logP. (Tento postup se někdy nazývá AlogP.)
V praxi nejsou řešení založená na atomech tak přesná jako řešení založená na fragmentech. Molekulová hmotnost může být zaměřena na atom, protože téměř veškerá hmotnost je v jádře atomu, které je dobře lokalizováno na atom. Chemie však ve skutečnosti není o atomech, ale o elektronové hustotě kolem atomů, a elektrony jsou mnohem méně lokalizované než nukleony. Hustota kolem atomu závisí na sousedních atomech a konfiguraci atomů v prostoru.
Některé metody se zabývají rozšířeným lokálním prostředím (někdy se nazývá XlogP) nebo většími fragmenty (například ClogP společnosti BioByte). Čím je to složitější,tím více sloučenin potřebujete pro trénování a tím pomalejší je model. Ale doufejme, že výsledek bude přesnější, pokud model nepřekonáte.
Pokud vás toto téma opravdu zajímá, Paul Beswick ze SussexDrug Discovery Centre napsal pěkné shrnutí různých nuancí v predikci log P.
Shodné molekulární páry
Každá hlavní metoda z dolování dat a většina menších metod,byla použita pro modely QSAR. Historie je také poměrně dlouhá. Již od 70. let minulého století existují práce z oblasti cheminformatiky, které se zabývají řízeným a neřízeným učením a navazují na ještě dřívější práce o shlukování aplikované na biologické systémy.
Problémem většiny z nich je charakter černé skříňky. Data jsou hlučná a kvantová povaha chemie se s nástroji dolování dat příliš neslučuje, takže tyto predikce se častěji používají jako vodítko pro farmaceutické chemiky než pro solidní předpovědi. To znamená,žezávěry by měly být pro chemika interpretovatelné. Zkuste přimět svou neuronovou síť, aby podala chemicky rozumné vysvětlení, proč předpověděla tak, jak předpověděla!
Analýza srovnávaných molekulových párů (MMP) je více chemicky orientovaná metoda QSAR, s relativně malým množstvím matematiky nad rámec jednoduché statistiky. Chemici již dlouho hledají aktivity v jednoduchých řadách, jako je nahrazení ethylu (*-CH3) amethylem (*-CH2-CH3) nebo propylem (*-CH2-CH2-CH3), nebo nahrazení fluoru těžším halogenem, jako je chlor nebo brom. To může vytvářetkonzistentní trendy napříč širokou škálou struktur a chemici tato pozorování využívají k vývoji technik, jak například zlepšit rozpustnost kandidáta na léčivo.
MMP systematizuje tuto analýzu nad všemi uvažovanými fragmenty, včetně nejen R-skupin (které jsou se zbytkem struktury spojeny jednou vazbou), ale také takzvaných „jádrových“ struktur s dvěma nebo třemi připojenými R-skupinami. Pokud lze například známé struktury popsat jako „A-B-C“, „A-D-C“, „E-B-F“ a „E-D-F“ s aktivitami 1,2, 1,5, 2,3 a 2,6, pak můžeme provést následující analýzu:
A-B-C transforms to A-D-C with an activity shift of 0.3. E-B-F transforms to E-D-F with an activity shift of 0.3. Both transforms can be described as R1-B-R2 to R1-D-R2. Perhaps R1-B-R2 to R1-D-R2 in general causes a shift of 0.3?
Není to tak jednoduché, protože molekulární fragmenty nejsou tak snadno identifikovatelné. Molekula může být popsána jako „A-B-C“, stejně jako „E-Q-F“ a „E-H“ a „C-T(-P)-A“, kde „T“ má připojeny třiR-skupiny.
Díky
Děkuji společnosti EPAM LifeSciences za jejich Ketchertool, který jsem použil pro zobrazení struktur, které nebyly veřejně dostupné na Wikipedii.
Andrew Dalke je nezávislý konzultant, který se zaměřuje na vývoj softwaru pro výpočetní chemii a biologii. potřebujete smluvní programování, pomoc nebo školení? kontaktujte mě