#!/perl/bioinfo: red neuronal

Mostrando entradas con la etiqueta red neuronal. Mostrar todas las entradas

6 de junio de 2020

Entrenando una red neuronal keras en linux

Hola,

tras la última entrada creo que ha llegado el momento de comenzar a programar redes neuronales profundas con la ayuda del libro Deep Learning Illustrated. En este caso el autor ha programado sus ejemplos en python, uno de los lenguajes más utilizados en este campo, y por tanto deberás crearte un ecosistema adecuado con todas las herramientas y dependencias necesarias, en este caso tensorflow y su interfaz keras. En un sistema CentOS Linux lo hice de la siguiente manera, con pyenv:

sudo curl -L https://raw.githubusercontent.com/yyuu/pyenv-installer/master/bin/pyenv-installer | bash

# agrego pyenv a .bashrc
export PYENV_ROOT="$HOME/.pyenv"
export PATH="$PYENV_ROOT/bin:$PATH"
eval "$(pyenv init -)"
eval "$(pyenv virtualenv-init -)"

# instalo python 3.6 y actualizo pip
pyenv install 3.6.0
pyenv local 3.6.0
pip install --upgrade pip
pip install jupyter

# creo un ecosistema/virtualenv al que llamo DL
pyenv virtualenv 3.6.0 DL
pyenv shell DL

# instalo las dependencias del libro de Jon Krohn
# en mi caso tuve que poner TMPDIR=/particion_grande/ antes de pip
# porque se llenaba la particion /tmp
pip install tensorflow
pip install keras

# otra librería de aprendizaje prodfundo alternativa a keras & tensorflow
pip install mxnet

Y ya está, ahora cuando quiero usar este ecosistema solamente tengo que hacer:

$ pyenv shell DL

Todos los ejemplos de libro están disponibles en https://github.com/the-deep-learners/deep-learning-illustrated, en forma de cuadernos jupyter que puedes explorar directamente desde GitHub o en tu navegador. Si quieres probarlos directamente en el terminal deberás convertirlos a scripts .py y luego ejecutarlos:

jupyter nbconvert --to script deep-learning-illustrated/notebooks/regression_in_keras.ipynb

python deep-learning-illustrated/notebooks/regression_in_keras.py

En este caso obtendremos la siguiente salida, que resume la arquitectura de la red especificada en regression_in_keras.ipynb y su entrenamiento a lo largo de 32 épocas:

Model: "sequential_1"

_________________________________________________________________

Layer (type)                 Output Shape              Param #

=================================================================

dense_1 (Dense)              (None, 32)                448

_________________________________________________________________

batch_normalization_1 (Batch (None, 32)                128

_________________________________________________________________

dense_2 (Dense)              (None, 16)                528

_________________________________________________________________

batch_normalization_2 (Batch (None, 16)                64

_________________________________________________________________

dropout_1 (Dropout)          (None, 16)                0

_________________________________________________________________

dense_3 (Dense)              (None, 1)                 17

=================================================================

Total params: 1,185

Trainable params: 1,089

Non-trainable params: 96

Train on 404 samples, validate on 102 samples

Epoch 1/32


  8/404 [..............................] - ETA: 30s - loss: 865.3292

 80/404 [====>.........................] - ETA: 2s - loss: 720.8563

152/404 [==========>...................] - ETA: 1s - loss: 644.4068

232/404 [================>.............] - ETA: 0s - loss: 602.0502

304/404 [=====================>........] - ETA: 0s - loss: 578.7887

376/404 [==========================>...] - ETA: 0s - loss: 588.8638

404/404 [==============================] - 1s 2ms/step - loss: 583.1135 - val_loss: 786.3666

....


  8/404 [..............................] - ETA: 0s - loss: 18.8216

 88/404 [=====>........................] - ETA: 0s - loss: 34.8777

168/404 [===========>..................] - ETA: 0s - loss: 37.6842

248/404 [=================>............] - ETA: 0s - loss: 48.3836

328/404 [=======================>......] - ETA: 0s - loss: 45.0179

404/404 [==============================] - 0s 761us/step - loss: 43.5160 - val_loss: 133.9931

Hasta pronto,

Bruno

30 de mayo de 2020

Sobreentrenamiento de una red neuronal

Hola,

en la última entrada repasé como aprende una red neuronal y cómo se calcula el coste en un conjunto de entrenamiento. Hoy me detengo en el problema del sobreentrenamiento (overfitting en la literatura), para lo cual necesitamos un conjunto de datos independiente, que llamamos conjunto de validación.

Primero definiré el sobreentrenamiento con las palabras de J Krohn: "es la situación en la que el coste de entrenamiento desciende a la vez que aumenta en el conjunto de validación". El objetivo del entrenamiento debe ser obtener un modelo general, y el sobreentrenamiento es por tanto un obstáculo, porque al sobreentrenar lo que ocurre es que el modelo se particulariza para tu conjunto de entrenamiento.

Figura 9.5 de Krohn J (2019) Deep Learning Illustrated

En la figura se ilustran 4 modelos ajustados a los mismos datos. Arriba a la izquierda un modelo como un solo parámetro, con un ajuste muy pobre. A su derecha un modelo parabólico con con dos parámetros se ajusta bastante bien. Abajo se muestran un modelo multiparamétrico que sobreajustan los datos y que no generaliza bien cuando se agregan nuevos datos (abajo derecho). El sobreentrenamiento es un problema de sobreajuste.

En su libro, J Krohn presenta ideas para limitar el sobreentrenamiento. En primer lugar, habla del número de épocas que debemos entrenar una red:

Si el coste de entrenamiento en un conjunto de datos de validación alcanza el mínimo en la última época es buena idea agregar más épocas al entrenamiento.
Si el coste empieza a aumentar a partir de una época de entrenamiento, es normalmente un indicio de sobreentrenamiento

En segundo lugar, describe la técnica de eliminación neuronas (dropout) al azar en capas ocultas durante el proceso de entrenamiento:

Figura 9.6 de Krohn J (2019) Deep Learning Illustrated

El próximo día programaremos las primeras redes,

Bruno

Siguiente entrada: Entrenando una red neuronal keras en Linux

3 de mayo de 2020

Entrenamiento de una red neuronal

Hola,
hoy voy a hablar sobre el entrenamiento de una red neuronal, que es el proceso por el que presentamos a la red un conjunto de ejemplos de los que sabemos cuál debería ser la respuesta de la red. El ejemplo de la figura es una imagen de 28x28 píxeles en escala de grises que representa el número 3 y pertenece al conjunto MNIST de números manuscritos.

Figura 5.2 de Krohn J (2019) Deep Learning Illustrated

El proceso de entrenamiento consiste en presentar a la red el conjunto de entrenamiento varias veces seguidas (épocas en la jerga) con el fin de que vaya aprendiendo. Al final de cada época podemos calcular el error que comete la red al clasificar las instancias presentadas, que se calcula comparando las salidas obtenidas $y_{i}$ con las esperadas $\hat{y}_{i}$ . El objetivo del entrenamiento es minimizar el error. Por tanto, deberemos definir una función de coste con el objeto de optimizarla frente a un conjunto de entrenamiento lo más grande y realista posible.

La función coste (loss function en la literatura) se calculaba inicialmente como el coste cuadrático promedio. El valor obtenido es siempre positivo y penaliza más las grandes diferencias que las pequeñas. Es el RMSD que se emplea por ejemplo para comparar estructuras de proteínas similares. Sin embargo, tiene el inconveniente de ser poco sensible a cambios en los pesos de las neuronas cerca de sus valores extremos, y por tanto, ralentiza el aprendizaje. Por esa razón se sustituye habitualmente por una función basada en logaritmos de coste entrópico, tomada de la teoría de información:

$C=\frac{-1}{n} \sum_{1}^{n}[y_{i} ln(\hat{y}_{i})+(1-y_{i}) ln(1 -\hat{y}_{i})]$

El último paso de una época de aprendizaje es la retro-propagación, es decir, la optimización de los pesos y umbrales de activación de las neuronas para minimizar el error. Para ello se emplea el algoritmo clásico del gradiente descendiente capa a capa, en sentido contrario a la propagación, empezando por la capa inmediatamente anterior a la capa de salida. El proceso completo se resume en el siguiente diagrama de flujo, donde se observa que los datos de entrenamiento se reparten en lotes (batches):

Figura 8.6 de Krohn J (2019) Deep Learning Illustrated

Dos de los parámetros más importantes durante el aprendizaje son:

1) la tasa de aprendizaje $\eta$ , que es la pendiente que aplica el algoritmo del gradiente descendiente para descender por el gradiente de coste. J Krohn recomienda valores de 0.01 u 0.001 para empezar.

2) El tamaño de los lotes, que nos permitirá entrenar con conjuntos de datos más grandes que la RAM de nuestro sistema de cálculo.

Al comparar los costes entre épocas es posible calcular la velocidad de aprendizaje. La siguiente figura muestra que la velocidad de aprendizaje es diferente para las diferentes capas de una red profunda. En concreto, las capas aprenden más lentamente cuánto más lejos de la capa de salida:

Figura 8.8 de Krohn J (2019) Deep Learning Illustrated

Esta es la razón más importante para restringir el número de capas ocultas de una red profunda. Hasta la próxima,

Bruno

Siguiente entrada: Sobreentrenamiento de una red neuronal

19 de abril de 2020

Propagación en una red neuronal

Hola,
tras la reciente entrada sobre las capas de una red neuronal podemos ya aprender cómo se propaga la computación en la red, lo que la literatura se conoce como forward propagation. Para ello nada mejor que ver la red con salida binaria de la entrada anterior, con las neuronas numeradas:

Figura 7.2 de Krohn J (2019) Deep Learning Illustrated

Supongamos que las neuronas de input toman los siguientes valores reales, por ejemplo medidas físicas en un experimento:

$\begin{matrix} x_{1} = 4.0 \\ x_{2} = 3.0 \end{matrix}$

Recordemos ahora que las neuronas de las capas ocultas son de tipo ReLU, que tienen la siguiente función de activación (alfa):

$\begin{matrix} z = \sum w_{i} x_{i} + b \\ \alpha = max(z, 0) \end{matrix}$

Ahora detallaré cómo calculamos las activaciones capa a capa, y por tanto, cómo se propaga la información en la red.

Empezaré por la neurona a1. Supongamos que sus dos pesos toman valores reales de -0.5 y 1.5 y su umbral de activación es 0.9:
z1 = -0.5 x 4.0 + 1.5 x 3.0 - 0.9 = -2 + 4.5 - 0.9 = 1.6
alfa1 = max(1.6 , 0) = 1.6

Sustituyendo los pesos y umbrales correspondientes, que son los valores que se optimizan en el periodo de entranamiento, podemos calcular de la misma manera la activación de a2 y a3. Así tendríamos ya la primera capa oculta completa y podríamos pasar a la siguiente, formada por las neuronas a4 y a5.

Finalmente llegamos a la neurona de output, que en la entrada anterior quedamos era de tipo sigmoidea. Ésta recibe las activaciones 2.5 y 2.0, con pesos respectivos de 1.0 y 0.5 y un umbral 5.5.

z(output) = 1.0 x 2.5 + 0.5 x 2.0 - 5.5 = -2.0

Ahora usaremos la función sigmoidea para calcular el estado (activación) de la neurona output:
$\alpha_{out} = \sigma(z) = \frac{1}{1 + e^{-z}} \approx 0.1192$

En el contexto de un clasificador binario, para reconocer por ejemplo objetos de una cierta clase, la salida se interpreta como que la probabilidad de que la instancia (4.0, 3.0) sea de esa clase es 0.1192

Hasta pronto,
Bruno

Siguiente entrada: Entrenamiento de una red neuronal

18 de abril de 2020

Capas de una red neuronal

Hola,
ésta es la tercera entrada sobre redes neuronales profundas, donde hablaré de cómo se contruye una red por capas, o layers en inglés. La siguiente figura muestra una red con un total de 4 capas.

Figura 7.1 de Krohn J (2019) Deep Learning Illustrated

La capa 1 es la capa de input o entrada. En este ejemplo tiene solamente 2 neuronas, X1 y X2. Esta capa debe adaptarse a la dimensionalidad y el tipo de los datos que vayamos a utilizar como entrada de la red. En el ejemplo la capa de entrada sería adecuada para datos con dos dimensiones. La capa de input es especial porque no tiene una función de activación, simplemente recibe los datos y los pasa a la siguiente capa.

La capa 2 es la primera capa oculta y recibe la salida de la primera capa. En este ejemplo es una capa densa o completamente conectada, dado que sus tres neuronas (a1, a2 y a3) reciben la salida de todas las neuronas de entrada. Puedes mirar aquí un ejemplo de red no densa. Las capas ocultas normalmente son de neuronas ReLU.

La capa 3 es la segunda capa oculta del ejemplo y de nuevo es una capa densa, en este caso con dos neuronas solamente.

La capa 4 es la capa de salida o output y emite la respuesta final de la red para un determinado input. En este ejemplo solamente hay una neurona de salida, que es lo adecuado para un clasificador binario, donde solo hay dos estados posibles. Para este caso usaríamos una neurona sigmoidea.

Si vuelves a la figura verás que hay una flecha horizontal de izquierda a derecha que simboliza el flujo de información a través de las capas. En las redes neuronales este flujo va de input a output y en la terminología en inglés se llama forward propagation.

Algunos problemas implican clasificar los datos o instancias en más de dos clases. Para ellos usaríamos una capa de salida con varias neuronas de tipo softmax, como las 3 neuronas de salida de la siguiente figura. La capa softmax primero computa la activación de las 3 neuronas de salida y después aplica la función softmax para calcular cuál de los 3 estados o clases representa mejor una instancia, tal como se explica en https://github.com/the-deep-learners/deep-learning-illustrated/blob/master/notebooks/softmax_demo.ipynb :

Figura 7.4 de Krohn J (2019) Deep Learning Illustrated

Finalmente, hay redes neuronales que no clasifican las instancias en categorías discretas. En cambio, producen valores reales a partir del input. Este tipo de redes se llaman redes neuronales de regresión, y las veremos en otras entrada.

Hasta la siguiente,
Bruno

Siguiente entrada: Propagación en una red neuronal

14 de abril de 2020

Tipos de neuronas en redes profundas

Hola,
en esta segunda entrada sobre redes profundas hablaré sobre las neuronas.

En este contexto, una neurona es una función de activación que recibe información (input) de otras neuronas y emite una salida que significa si se activa o no.

El primer modelo de neurona es el perceptrón de Frank Rosenblatt, que agrega sus entradas por medio de una suma ponderada y se activa si el total supera un cierto umbral. El siguiente ejemplo muestra un perceptrón con tres entradas binarias con pesos 3, 2 y 6 y umbral de activación 4:

Figura 6.5 de Krohn J (2019) Deep Learning Illustrated

Esta función de activación z podemos expresarla así, siendo b = -umbral (usando https://www.codecogs.com/latex/eqneditor.php):

$output \left\{\begin{matrix} 1 & si & \sum w_{i}x_{i} + b > 0\\ 0 & caso & contrario \end{matrix}\right.$

Si la representamos gráficamente veremos que la activación de 0 a 1 es abrupta y por tanto parece el margen para cambiar los valores de los pesos (w) es muy pequeño:

Figura 6.8 de Krohn J (2019) Deep Learning Illustrated

Por esta razón se utilizan otros tipos de neuronas donde la función de activación es gradual.

La activación sigmoidea es:
$\sigma (z) = \frac{1}{1 + e^{-z}}$

donde

$z = \sum w_{i}x_{i} + b$

Esta activación tiene como ventajas que pequeños cambios en los parámetros w y b producen cambios graduales de z :

Figura 6.9 de Krohn J (2019) Deep Learning Illustrated

Valores extremos producen valores de z de 0 o de 1, como puedes comprobar en el siguiente cuaderno: https://github.com/the-deep-learners/deep-learning-illustrated/blob/master/notebooks/sigmoid_function.ipynb

Otra función de activación frecuente es la tangente hiperbólica (tanh), que produce valores de activación entre 1 y -1 y centrados en el 0, y se expresar así:

$\sigma (z) = \frac{ e^{z} - e^{-z} } {e^{z} + e^{-z} }$

Finalmente tenemos la neurona ReLU, que representa el mejor compromiso entre tiempo de entrenamiento y capacidad de aprendizaje:

$output(z) \left\{\begin{matrix} z & si & z > 0\\ 0 & caso & contrario \end{matrix}\right.$

Figura 6.11 de Krohn J (2019) Deep Learning Illustrated

La elección del tipo de neurona es importante porque determina la capacidad de aprender de la red. En este contexto aprender equivale a determinar los pesos (w) y los umbrales (b) para obtener un output esperado.

Hasta pronto,
Bruno

Siguiente entrada: Capas de una red neuronal

13 de abril de 2020

Redes neuronales profundas

Hola, escribo esto durante la cuarentena del COVID-19, el lunes que muchos trabajadores vuelven al trabajo en España entre dudas por la seguridad pero acuciados por la economía.

En esta entrada y posiblemente otras posteriores me gustaría visitar el aprendizaje automático por medio de redes neuronales profundas, aquellas que tienen al menos 3 capas ocultas.

Es un tema apasionante y que ha evolucionado sin pausa en los últimos 20 años. Sin embargo, aunque diseñar y entrenar redes es complejo, están de moda y no es difícil leer por ahí que de la mano del aprendizaje profundo (Deep Learning, DL) podremos resolver cualquier problema que nos propongamos. Yo no soy experto, pero llevo leyendo sobre redes neuronales desde que escuché hablar de ellas a mi profesor de la Complutense Rafael Lahoz Beltrá y más tarde en la asignatura de aprendizaje automático de la UNED. Además, he podido verlas en acción por sus aplicaciones en bioinformática estructural.

Utilizaré figuras y contenidos que he ido leyendo estos días en el libro Deep Learning Illustrated (2019), cuyo autor principal es John Krohn:


https://www.deeplearningillustrated.com

En este libro la ilustradora Aglaé Bassens pone cara a los protagonistas de la historia, como este Santiago Ramón y Cajal y sus dibujos de neuronas en cortes de tejidos:


https://www.deeplearningillustrated.com

En realidad las redes neuronales son estructuras de datos hechas a semejanza de las observaciones de Cajal y otros neurocientíficos que estudiaron cómo las neuronas se tocan entre sí y reciben información de múltiples axones. Aunque no sepamos bien cómo la corteza cerebral procesa la información, su organización en capas de neuronas ha servido de base a la creación de redes neuronales artificiales.

La red neuronal que más he utilizado en mi trabajo como biólogo computacional es PSIPRED, que sirve para la predicción de estructura secundaria de proteínas a partir de información evolutiva:


Tomada de Jones DT (1999) J.Mol.Biol., 292(2):195-202

Cómo se ve en la figura, PSIPRED está compuesta por dos redes consecutivas, cada una con 3 capas, la de input, la oculta y la de output. De acuerdo con la definición de Krohn, ninguna de estas redes sería profunda, pues no cumplen el requisito de tener al menos 3 capas ocultas. Éste es el principal desarrollo desde 1999, ahora las redes son mas profundas y eso ha permitido en muchos casos tratar relaciones no lineales y abstractas:

Arquitectura de una red neuronal profunda, figura 4.2 de Krohn J (2019) Deep Learning Illustrated

El próximo día más, cuidáos,
Bruno

Siguiente entrada: Tipos de neuronas en redes profundas