Articles

El método de los multiplicadores de Lagrange

Posted on
Jul 7, 2020 – 11 min read

La optimización, uno de los problemas elementales de la física matemática, la economía, la ingeniería y muchas otras áreas de las matemáticas aplicadas, es el problema de encontrar el valor máximo o mínimo de una función, llamada función objetivo, así como los valores de las variables de entrada donde se produce ese valor óptimo. En el cálculo elemental de una sola variable, este es un problema muy simple que equivale a encontrar los valores de x para los que df/dx es cero.

Los problemas de optimización multivariable son más complicados porque podemos imponer restricciones. Consideramos restricciones que pueden expresarse de la forma g(x,y,z)=c para alguna función g y una constante c. Estas se denominan restricciones de igualdad, y el conjunto de puntos que satisfacen estas restricciones se llama conjunto factible, que denotamos por S. Por ejemplo, si se nos pide que encontremos el valor máximo de f(x,y) en el círculo unitario, entonces g(x,y)=x²+y² ya que el círculo unitario está definido por x²+y²=1.

La técnica estándar para resolver este tipo de problemas es el método de los multiplicadores de Lagrange. En este artículo, derivaré el método y daré algunas demostraciones de su uso.

Motivación y derivación

Una función f tiene un extremo local (máximo o mínimo) en un punto P cuando la derivada parcial de f es cero para cada una de las variables independientes y cuando el punto no es un punto de silla (situación a la que no tendremos que dedicar tiempo aquí). Podemos escribir esto en forma compacta como ∇f=0, donde ∇ denota el operador de gradiente:

En la optimización restringida, sin embargo, sólo porque f tenga un máximo o un mínimo local en un punto del conjunto factible, no se deduce que f tome su valor óptimo en el conjunto factible en ese punto.

Como ejemplo, consideremos el siguiente problema de optimización:

Escribiendo el gradiente, podemos ver que f tiene un mínimo local cuando x=0 e y=1:

Además, f(0,1)=0, pero f(0,-1)=-4 por lo que aunque (0,1) es un mínimo local de f(x,y), no es el mínimo de f(x,y) en el círculo unitario.

Como otro ejemplo, maximicemos f(x,y)=y en el círculo unitario. El gradiente de f(x,y)=y es un vector constante por lo que f(x,y) no tiene máximos ni mínimos locales, pero en el círculo unitario f sí tiene un valor máximo de 1, que se produce en (0,1).

La razón de este fallo es que el gradiente mide la tasa de cambio de f(x,y,z) con respecto a la posición en el espacio tridimensional, pero nosotros queremos medir la tasa de cambio de f(x,y,z) con respecto a la posición en el conjunto factible. Para un problema tridimensional, S será una curva o una superficie, y en general para problemas con n variables, S será una hipersuperficie de dimensión estrictamente menor que n.

El enfoque más natural es considerar curvas en S. Sea P un punto en S para el que f(P) toma un valor localmente óptimo en S pero ∇f(P) no es necesariamente cero, y sea r(t) la parametrización de cualquier curva en S que pase por P, es decir:

Si S es una curva, entonces r(t) es sólo una parametrización de S. Además, dejemos que r(T)=P, r′(T)≠0, y dejemos que h(t) = f(r(t)) para que h′(T)=0. Expandamos h′(t) utilizando la regla de la cadena:

Nota que en la primera línea, he utilizado el hecho de que dh/df=1.

Dado que r(t) está siempre en S, el vector velocidad r′(t) debe ser siempre tangente a la superficie o curva de S ya que si r′(t) tuviera una componente perpendicular a la superficie, es decir, dirigida hacia fuera de la superficie, entonces habría puntos en los que r(t) abandonara S. Como esto es cierto para cualquier curva r(t) que pase por P, se deduce que ∇f(P) es perpendicular a cualquier vector tangente a la superficie en P. Por tanto, si P es un punto en el que f toma un valor máximo o mínimo con respecto a la posición en S, entonces ∇f(P) es perpendicular a S.

La inversa también es cierta: como r′(T) nunca es cero y siempre es paralelo a S, entonces si ∇f(P) es perpendicular a S, entonces h′(T)=∇f(P)∙r′(T)=0.

¿Pero cómo encontramos realmente los puntos en los que ∇f es perpendicular a S? Aquí está la respuesta: El conjunto S es el conjunto de todos los puntos donde g(x,y,z)=c, es decir, S es un conjunto de nivel de g. Esto significa que ∇g es perpendicular a S para todos los puntos de S, por lo que ∇f y ∇g son paralelos en los puntos de S donde f toma valores óptimos. Esto significa que f toma sus valores óptimos en S precisamente cuando ∇f=λ∇g para alguna constante λ. La constante λ se denomina multiplicador indeterminado de Lagrange, y de ahí el nombre del método. El problema de la optimización de f se puede resolver ahora encontrando cuatro incógnitas x, y, z y λ que resuelven estas cuatro ecuaciones:

Por decirlo de otra manera, nuestro objetivo ahora es optimizar la función f-λg con respecto a x, y, y z sin restricciones encontrando donde ∇(f-λg)=0.

¿Y si hay más de una restricción? Supongamos ahora que tenemos que optimizar f(x,y,x) sujeto a g(x,y,z)=c y h(x,y,z)=d. Esto es lo que hacemos. Para optimizar f sujeta a g(x,y,z)=c, optimizamos f-λg sin restricción, por lo que la primera restricción se soluciona sustituyendo f por f-λg, y queda optimizar f-λg sujeta a la restricción h(x,y,z)=d. Este es un problema con una sola restricción, así que simplemente añadimos otro multiplicador de Lagrange μ, y el problema ahora es optimizar f-λg-μh sin restricción.

Veamos ahora algunos ejemplos.

El área máxima de un rectángulo

Para un perímetro dado, ¿cuál es la mayor área posible de un rectángulo con ese perímetro? Podemos formularlo como un problema de multiplicador de Lagrange. Si el ancho y el alto son x e y, entonces deseamos maximizar f(x,y)=xy para g(x,y)=2x+2y=c. El sistema de ecuaciones resultante es:

Las dos primeras ecuaciones nos dicen enseguida que x=y, por lo que el área máxima se produce cuando el rectángulo es un cuadrado. Al introducir esto en la tercera ecuación, vemos que x=y=c/4, por lo que el área máxima de un rectángulo con perímetro c es c²/16.

Un problema de Putnam (modificado)

El concurso matemático de Putnam es una competición con formato de examen que se ofrece cada diciembre a los estudiantes universitarios. Los estudiantes tienen seis horas para resolver 12 problemas extremadamente difíciles. El examen es tan difícil que, sobre una puntuación posible de 120, la nota media en la mayoría de los años es de 0 o 1. Hoy veremos una versión modificada (para simplificar y evitar problemas de copyright) del problema A3 del examen de 2018:

Hay dos problemas. El primero es que la función objetivo tiene una característica muy indeseable: es una suma de cosenos, y las sumas de funciones trigonométricas pueden ser difíciles de tratar. El segundo es que no hay forma de hacer que la función de restricción aparezca de forma clara y explícita en la función objetivo, aunque a primera vista parezca que debería ser posible. Los problemas de Putnam suelen tener «trampas» como ésta, en las que se puede perder el tiempo con un planteamiento que no conducirá a una solución si no nos detenemos a pensar en lo que estamos haciendo. Es una trampa que sería especialmente peligrosa para un concursante con experiencia en concursos de matemáticas de secundaria, donde las identidades trigonométricas suelen tener un fuerte énfasis.

Pero cuando vemos un problema que dice «maximizar f sujeto a g=0», debemos pensar inmediatamente en los multiplicadores de Lagrange. Establezcamos nuestro sistema de ecuaciones:

Ahora podemos usar nuestras identidades trigonométricas para que la restricción aparezca explícitamente. Reescribe el sistema de ecuaciones utilizando la fórmula del doble ángulo:

El resultado es:

Ahora cancela la función seno en cada lado, y suma las ecuaciones:

Y esto significa que λ=0, así que según las ecuaciones del multiplicador de Lagrange esto significa que:

Por lo tanto w, x, y, y z son todos múltiplos enteros de π/2. Para los múltiplos enteros pares de π/2, digamos que m=2k para algún entero k:

Pero si m es un entero impar, entonces cos(mπ/2)=0. Esto significa que tenemos tres opciones de cómo podemos satisfacer la ecuación de restricción. En primer lugar, podemos establecer w, x, y y z todos a múltiplos enteros impares de π/2, digamos k, l, m y n, entonces:

La primera línea está mostrando que la ecuación de la restricción se satisface, y la segunda línea es el resultado de introducir esos valores en la función objetivo, que nos da -4.

La segunda opción es que podemos establecer dos de las variables a múltiplos enteros impares de π/2, digamos k y l, y las otras dos a enteros pares, digamos 2m y 2n donde m es par y n es impar. El resultado de insertar esto en la ecuación de la restricción es:

Así que la ecuación de la restricción se satisface. Aquí está el resultado de enchufar estos en la función objetivo:

La última opción es que podemos poner todas las variables a múltiplos enteros pares de π/2, digamos 2k, 2l, 2m y 2n, donde k y l son pares y m y n son impares. El resultado de enchufar esto en la ecuación de la restricción es:

Así que la restricción se satisface. Ahora enchufamos esto en la función objetivo para obtener:

Así que la respuesta es 4, que casualmente resulta ser el valor máximo global de la función objetivo.

Vea este otro artículo que escribí para una discusión de otro problema de Putnam.

Teorema de Thomson

Ahora, en lugar de optimizar una función, vamos a utilizar el método de los multiplicadores de Lagrange para optimizar un funcional: un objeto que toma una función y devuelve un número. Las integrales definidas son un ejemplo clave. Esta demostración final mostrará cómo se puede utilizar el método de los multiplicadores de Lagrange para encontrar la función que minimiza el valor de una integral definida.

Como demostración, consideramos un hecho fundamental de la electrostática, el estudio de los sistemas sometidos a fuerzas eléctricas en equilibrio mecánico de modo que ninguna de las cargas está en movimiento. Demostraremos que cuando un conductor, un cuerpo en el que la carga eléctrica puede moverse libremente, está en equilibrio con cualquier sistema de fuerzas eléctricas, entonces no hay campo eléctrico dentro del cuerpo del conductor. Este es el Teorema de Thomson. Este teorema se suele enunciar en términos del hecho físico fundamental de que la energía de un sistema en equilibrio mecánico estable es mínima:

Teorema de Thomson: La energía electrostática de un cuerpo conductor de tamaño y forma fijos se minimiza cuando las cargas se distribuyen de forma que el potencial ϕ sea constante en el cuerpo de forma que E=-∇ϕ=0.

Sea ρ(r) la función de distribución de cargas y ϕₑₓₜ el potencial debido a cualquier fuente externa al cuerpo conductor. La energía electrostática total puede expresarse como una funcional U de ρ(r):

Son integrales de volumen sobre el cuerpo del conductor. La primera integral es una doble integral realizada primero sobre las coordenadas cebadas y luego sobre las coordenadas no cebadas. Queremos minimizar U como una funcional de ρ(r) dado que la carga total es independiente de la distribución de carga:

Afortunadamente, el método de los multiplicadores de Lagrange funciona para los funcionales con restricciones. Introduce un multiplicador indeterminado de Lagrange, y entonces en lugar de una optimización con restricciones sobre U, realiza una optimización sin restricciones sobre el siguiente funcional:

Por analogía con las derivadas de funciones, el objetivo aquí es encontrar la distribución de carga ρ tal que cuando ρ es variado por una pequeña variación δρ, el cambio en I, δI, es cero:

Esto no es del todo una derivada porque δρ es una función en lugar de un número por lo que no tiene realmente sentido hablar del límite cuando δρ llega a cero, pero la intuición básica es la misma.

Empecemos por expandir U:

Esto puede parecer malo, pero podemos simplificar esto en gran medida. Primero, como δρ es muy pequeño, (δρ)² es tan pequeño que podemos ignorarlo, así que supongamos que δρ(r)δρ(r′)=0. A continuación, cambiando el orden de integración vemos que:

También podemos ver que U aparece en la expansión. Esto nos da lo suficiente para simplificar U:

Ahora podemos expandir δI:

Ahora podemos factorizar la integral sobre δρ(r):

Para que esto sea cierto para cualquier elección de la variación δρ(r), el término entre corchetes debe ser cero, así que:

Pero esta integral es sólo el potencial en r debido a las cargas dentro del conductor por lo que el lado izquierdo de esta ecuación da el potencial total en cada punto r dentro del conductor, así que ρ(r) es la distribución que hace que el potencial total dentro del conductor sea constante. Esto completa la prueba.

Esto también sería válido si la energía electrostática del conductor se maximiza, en cuyo caso el conductor está en equilibrio inestable. En la práctica uno nunca encuentra conductores en equilibrio inestable porque el movimiento térmico aleatorio de los electrones en el conductor rápidamente, en el orden de 10-¹⁴ segundos para los conductores metálicos, conduce el sistema fuera del equilibrio inestable y en el equilibrio estable.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *