Fragmentos moleculares, grupos-R y grupos funcionales

/home/writings/diary/archive/2016/08/08/molecular_fragments_and_groups

Fragmentos moleculares, grupos-R y grupos funcionales

Para cambiar de ritmo, he pensado en hacer una lección de química básica sobre estructuras moleculares, en lugar de un blogpost más orientado a la informática.

Los químicos suelen pensar en una molécula como una estructura central (normalmente un sistema de aring) y un conjunto de grupos-R. Cada grupo-R está unido a un átomo de la estructura central por un enlace. Normalmente ese enlace es un enlace simple, y a menudo «rotativo».

Aquí hay un ejemplo de lo que quiero decir. La primera imagen muestra la estructura de la vainillina, que es el sabor principal de la vainilla. En la segunda imagen, he rodeado con elipses los tres grupos R de la estructura.

Estructura de la vainillina Estructura de la vainillina con tres grupos R-grupos identificados
Estructura de la vainillina
(el sabor primario de la vainilla)
Vanillina con tres grupos R identificados

Los grupos R en este caso son R1=un grupo carbonilo (*-CH=O2), R2=un grupo ametoxi (*-O-CH3), y R3=un grupo hidroxilo (*-OH), donde el «*»inidica donde el grupo R se une a la estructura del núcleo.

El concepto de grupo R es flexible. En realidad sólo significa que usted tiene un grupo fijo de átomos conectados, que están conectados a lo largo de algún enlace a un grupo variable de átomos, y donde el grupo variable se denota R. En lugar de ver la estructura del núcleo y un conjunto de grupos-R, puedo invertir el pensamiento y pensar en un grupo-R, como el grupo-carbonilo, como «la estructura del núcleo», y el resto de la vainillina como su grupo-R.

Con esto en mente, voy a reemplazar el «*» con el «R» para obtener los grupos «R-CH=O2», «R-O-CH3», y «R-OH». (El «*» significa que el fragmento está conectado a un átomo en este punto, pero en realidad es sólo un esquema de nomenclatura alternativo para «R».)

Todos estos grupos son también grupos funcionales. Citando a la Wikipedia, «los grupos funcionales son grupos específicos (partes) de átomos o enlaces dentro de las moléculas que son responsables de las reacciones químicas características de esas moléculas. El mismo grupo funcional experimentará la misma o similar reacción química independientemente del tamaño de la molécula de la que forma parte».

Estos tres grupos funcionales correspondientes son R1 = aldehído, R2 = éter y R3 = hidroxilo.

Como señalaba la cita de Wikipedia, si tienes una reacción que actúa sobre un aldehído, es probable que puedas utilizarla sobre el grupo aldehído de la vainillina.

Grupo vainillil y capsaicina

Un grupo funcional también puede contener grupos funcionales. He señalado los tres grupos funcionales unidos al anillo central de la avanillina, pero la mayor parte de la estructura de la vainillina es en sí misma otro grupo funcional, un vanillyn:
grupo funcional vanillyn

Las estructuras que contienen un grupo vanillyl se llaman vanilloides. La vainilla es, por supuesto, un vanilloide, pero sorprendentemente también lo es la capsaicina, la fuente del «calor» de muchos alimentos picantes. Esta es la estructura de la capsaicina, con el grupo vaniloil rodeado:
capsaicina con el grupo vanililo rodeado
><P>

La sensación de calor se debe a que la capsaicina se une aTrpV1 (el canal de catión potencial transitorio subfamilia V miembro 1), también conocido como «receptor de capsaicina». Es un receptor no selectivo, lo que significa que muchas cosas pueden hacer que se active. Citando la página de Wikipedia: «Los activadores más conocidos del TRPV1 son: la temperatura superior a 43 °C (109 °F); las condiciones ácidas; la capsaicina, su compuesto irritante en los pimientos picantes; y el isotiocianato de alilo, el compuesto picante de la mostaza y el wasabi». El mismo receptor detecta la temperatura, la capsaicina y un compuesto de la mostaza picante y el wasabi, por lo que el cuerpo los interpreta todos como «picantes».

La capsaicina es un miembro de la familia de los capsaicinoides. Todos los capsaicinoides son vanilos, todos los vanilos son aldehídos. ¡Este tipo de relación es-un-miembro-de-la-familia en la química ha dado lugar a muchas taxonomías y ontologías, incluyendo ChEBI.

Pero no dejes que mi ejemplo o la existencia de la nomenclatura te lleve a la conclusión errónea de que todos los grupos-R son grupos funcionales! Un grupo-R, al menos con la gente con la que suelo trabajar, es un término más genérico que se utiliza para describir una forma de pensar en las estructuras moleculares.

Modelación QSAR

QSAR (pronunciado «QUE-SAR») es la abreviatura de «relación cuantitativa estructura-actividad», que es un bocado. (Una vez viajé al Reino Unido para una reunión sobre QSAR. El inspector de la frontera me preguntó a dónde iba, y le dije «la reunión UK-QSAR; QSAR es…» ¡y me quedé en blanco con la expansión de ese término! Me permitieron cruzar la frontera, así que no pudo ser un error tan grande.)

QSAR se ocupa del desarrollo de modelos que relacionan la estructura química con su actividad en un sistema biológico o químico. Mirando esto, me doy cuenta de que he movido las palabras un poco, así que voy a dar un ejemplo sencillo.

Consideremos una actividad, que llamaré «peso molecular». (Esto es más una propiedad física que química, pero estoy tratando de hacerlo simple). Mi modelo para el peso molecular asume que cada átomo tiene su propio peso, y el peso molecular total es la suma de los pesos de los átomos individuales. Puedo crear un conjunto de moléculas de entrenamiento, y para cada molécula determinar su estructura y peso molecular. Con un poco de ajuste por mínimos cuadrados, puedo determinar la contribución individual del peso de los átomos. Una vez que tengo ese modelo, puedo usarlo para predecir el peso molecular de cualquier molécula que contenga átomos que el modelo conozca.

Obviamente, este modelo será bastante preciso. No será perfecto, porque las proporciones isotópicas pueden variar. (Un producto químico sintetizado a partir de petróleo fósil es ligeramente más ligero y menos radiactivo que el mismo producto químico derivado de fuentes ambientales, porque el 14C pesadamente radiactivo del petróleo fósil ha decaído). Pero para la mayoría de los usos será suficiente.

Una propiedad más orientada a la química es el coeficiente de partición, medido en unidades logarítmicas como «log P», que es una medida de la solubilidad en agua en comparación con un tipo de aceite. Esto da una idea aproximada de si la molécula tenderá a terminar en regiones hidrofóbicas como una membrana celular, o en regiones acuosas como la sangre. Una forma de predecir el logP con el enfoque basado en los átomos que he esbozado para el peso molecular, en el que cada tipo de átomo tiene una contribución al logP general medido. (Esto se llama a veces AlogP.)

En la práctica, las soluciones basadas en los átomos no son tan precisas como las soluciones basadas en los fragmentos. El peso molecular puede estar centrado en el átomo porque casi toda la masa está en el núcleo del átomo, que está bien localizado en el átomo. Pero la química no tiene que ver con los átomos, sino con la densidad de electrones alrededor de los átomos, y los electrones están mucho menos localizados que los nucleones. La densidad alrededor de un átomo depende de los átomos vecinos y de la configuración de los átomos en el espacio.

Como una forma de mejorar esto, algunos métodos miran el entorno local extendido (esto se llama a veces XlogP) o las contribuciones de fragmentos más grandes (por ejemplo, ClogP de BioByte). Cuanto más complejo sea, más compuestos se necesitarán para el entrenamiento y más lento será el modelo. Pero es de esperar que el resultado sea más preciso, siempre y cuando no se sobreajuste el modelo.

Si usted está realmente interesado en el tema, Paul Beswick del SussexDrug Discovery Centre escribió un buen resumen sobre los diferentes matices en la predicción del log P.

Pares moleculares emparejados

Todos los métodos principales de la minería de datos, y la mayoría de los métodos menores, se han aplicado a los modelos QSAR. La historia es también bastante larga. Hay artículos de química-informática que se remontan a la década de los 70 y que tratan sobre el aprendizaje supervisado y no supervisado, basándose en trabajos anteriores sobre la agrupación aplicada a los sistemas biológicos.

Un problema con la mayoría de estos métodos es su naturaleza de caja negra. Los datos son ruidosos, y la naturaleza cuántica de la química no es tan buena para las herramientas de minería de datos, por lo que estas predicciones se utilizan más a menudo para guiar a un químico farmacéutico que para hacer predicciones sólidas. Esto significa que las conclusiones deben ser interpretables por el químico. Intente conseguir que su red neuronal dé una explicación químicamente razonable de por qué predijo lo que hizo. Los químicos llevan mucho tiempo observando las actividades en series simples, como la sustitución de un etilo (*-CH3) por un amilo (*-CH2-CH3) o un propilo (*-CH2-CH2-CH3), o la sustitución de un flúor por un halógeno más pesado, como un cloro o un bromo. Esto puede formar tendencias consistentes a través de una amplia gama de estructuras, y los químicos han utilizado estas observaciones para desarrollar técnicas sobre cómo, por ejemplo, mejorar la solubilidad de un candidato a fármaco.

MMP sistematiza este análisis sobre todos los fragmentos considerados, incluyendo no sólo los grupos-R (que están conectados al resto de la estructura por un enlace), sino también las llamadas estructuras «centrales» con dos o tres grupos-R unidos a ella. Por ejemplo, si las estructuras conocidas pueden describirse como «A-B-C», «A-D-C», «E-B-F» y «E-D-F» con actividades de 1,2, 1,5, 2,3 y 2,6 respectivamente, podemos hacer el siguiente análisis:

 A-B-C transforms to A-D-C with an activity shift of 0.3. E-B-F transforms to E-D-F with an activity shift of 0.3. Both transforms can be described as R1-B-R2 to R1-D-R2. Perhaps R1-B-R2 to R1-D-R2 in general causes a shift of 0.3?

No es tan fácil, porque los fragmentos moleculares no son tan fáciles de identificar. Una molécula puede ser descrita como «A-B-C», así como «E-Q-F» y «E-H» y «C-T(-P)-A», donde la «T» tiene tres grupos-R conectados a ella.

Gracias

Gracias a EPAM LifeSciences por su Ketchertool, que he utilizado para las representaciones de la estructura que no eran de dominio público en Wikipedia.

Andrew Dalke es un consultor independiente centrado en el desarrollo de software para la química y la biología computacional.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *