Análisis del Martín Fierro basado en datos

Copiar referencia La Pampa, Argentina

Martín Fierro

 

Esta no es una crítica literaria, es un ejercicio para obtener información relevante sobre un libro utilizando únicamente técnicas de análisis de datos. Algunas de las métricas son tan simples como un recuento de palabras, otras tan complicadas como el análisis de sentimientos. La herramienta elegida para llevar a cabo este análisis es Python y el libro elegido es El gaucho Martín Fierro.

Este libro es la primera parte de la poesía narrativa (Borges la definió como «una novela en verso») escrita por José Hernández que se convirtió en sinónimo del género Gauchesco por antonomasia. Fue escrito en 1872, se lo conoce como «La ida» y cuenta las desventuras de Martín Fierro, un gaucho trabajador de las pampas bonaerenses que es arrancado de su familia (compuesta por su mujer y dos hijos) al ser reclutado forzosamente —o levantado (de leva)— para servir en un fortín e integrar las milicias que luchaban defendiendo la frontera argentina contra los indígenas. No voy a tener en cuenta para este análisis la continuación de este libro, titulada La vuelta de Martín Fierro, conocida simplemente como «La vuelta» y escrita en 1879.

Spoiler alert: Voy a mencionar varias situaciones del libro, personajes y otros detalles de la trama que pueden terminar aguándole el suspenso a los futuros lectores de este clásico.

La composición del texto

Vamos a ver qué números podemos obtener rápidamente, como para empezar a formarnos una idea del libro. En principio, este texto poético está escrito en 2.316 versos que se agrupan en 395 estrofas y 13 cantos. Lo conforman 59.969 caracteres contando espacios, pero sin contar notas al pie, renglones vacíos, números de verso, etc. Estos caracteres dan forma a 11.295 palabras distribuidas en 511 oraciones, a partir de este dato podemos calcular un tiempo de lectura estimado de casi una hora, unos 57 minutos si nos basamos en la regla de 200 palabras por minuto. Por supuesto que este tiempo es una aproximación que no tiene en cuenta las dificultades de leer palabras poco familiares en un texto gauchesco de época.

Riqueza léxica

La cantidad de palabras distintas en el libro es 2.838. Como mencioné anteriormente, el total de palabras es 11.295.  De estos números se desprende que la riqueza del vocabulario tiene un valor de 0,2512 resultado de dividir la cantidad de palabras únicas entre la cantidad total de palabras¹. Este número puede tomar cualquier valor entre 0 y 1, aunque nunca va a ser 0 porque eso significaría que el texto está compuesto en su totalidad por una única palabra y tampoco va a tomar el valor ideal teórico 1, porque eso significaría que ninguna palabra se repite en el libro. Vemos que entonces para nuestro libro el porcentaje de palabras distintas es bastante elevado, representando un 25,12% del total del texto. Esto habla de una gran riqueza léxica.

Riqueza léxica de El gaucho Martín Fierro.
Riqueza léxica de El gaucho Martín Fierro.


Sigamos adelante con otras métricas más complejas.

Lugares comunes

Otro análisis interesante que podemos hacer es el de lugares comunes, buscando secuencias de palabras que se encuentran juntas en el texto con mayor frecuencia que el resto. Este análisis permite dar con algún cliché, frases de uso popular o muletillas del autor. Estos son los lugares comunes encontrados en El gaucho Martín Fierro:

tal vez; áhi más; que que; éste quiero; sangre venas; cada cual; esa ocasión; pegó grito; marran codo; tanto sufrir; vamos juntos; esta tierra; lengüetiando pico; mercedes pico; quedaban largo; estrago yorando; maldita vamos; mescolanza éste; dejarlo resollar; máiz frito

Hápax legómenon

Un hápax o hápax legómenon² es una palabra que ha aparecido registrada solamente una vez en un corpus, en este caso en nuestro libro. Este es otro de esos datos curiosos que podemos extraer fácilmente de una obra literaria utilizando análisis de datos y que, por el contrario, sería muy engorroso o imposible para un lector divisarlo a ojo limpio. En El gaucho Martín Fierro hay un total de 1.814 hápax legómenon. Aquí dejo 50 que extraje al azar:

preguntón, aguardaron, ñublaba, siguridá, ladrar, proyectos, jefes, precaución, tuitas, cosquillas, entiéndalo, cucañas, hacérmelés, movimiento, pudiera, damas, tiritando, enderiezan, entona, quitó, candil, engañar, creyó, patas, revelar, infeliz, sinchones, dándole, asigún, aflojo, llamaban, consolarse, clara, sabrosa, rodiaron, cerdo, atrasadas, enterraron, barricas, roban, levanta, temo, principio, bolea, dejar, pidieron, sombras, mismo, oros, cansarnos

Palabras frecuentes

Opuesto a la lista de hápax legómenon, y para continuar con el análisis de palabras, también podemos hablar de aquellas que aparecen con mayor frecuencia en el libro.


Las diez palabras más utilizadas en El gaucho Martín Fierro.
Las diez palabras más utilizadas en El gaucho Martín Fierro.


En este gráfico dispuse las diez palabras que se repiten en el texto con mayor frecuencia. Para que la lista tuviera mayor relevancia, dejé de lado las palabras de uso común en español, como por ejemplo los artículos. También excluí otras de uso común gauchesco, como «pa» (para). Teniendo en cuenta las mismas consideraciones armé también la nube de palabras. De esta lista se destaca por supuesto la palabra gaucho en primer lugar y la palabra hombre, esta es claramente una historia de hombres.


Nube de palabras de El gaucho Martín Fierro.
Nube de palabras de El gaucho Martín Fierro.

La nube de palabras al incluir más términos aporta también mayor información sobre la historia. Vemos allí que se destacan algunos vocablos que no estaban presentes en la lista como amigo, pobre, indio, campo, tierra, etc. Esto termina de formarnos un buen panorama sobre la historia.

Presencia de los personajes en la trama


Gráfico de dispersión de personajes para El gaucho Martín Fierro.
Dispersión de personajes en El gaucho Martín Fierro.

Se da en este libro la particularidad de que muchísimos personajes secundarios no tiene nombres propios («el negro», «el mayor», «el juez», «la mujer», «los hijos», etc.), eso dificulta un poco para el algoritmo rastrear sus apariciones en el texto sin confundirlos con otras palabras. Así y todo, pude llegar a un resultado satisfactorio con los personajes principales y con los más relevantes dentro de los secundarios.

De este gráfico llama la atención la aparición del protagonista, el mismísimo Fierro, durante toda la historia, pero mencionado en pocas ocasiones. Lo que sucede es que, esta historia está narrada en tercera persona por un narrador omnisciente³, pero parece narrada en primera persona, porque durante buena parte del poema el narrador transcribe la voz de Martín Fierro. En esos tramos el protagonista está presente (en esa especie de primera persona) aunque no sea mencionado.

También destacan las puntuales apariciones del gaucho protegido y del negro, que aparecen brevemente en la historia solo para ser asesinados por Fierro.

Podemos ver que el Sargento Cruz aparece con mucha intensidad en el texto, pero tarde, luego de los asesinatos cometidos por Fierro; justamente porque es uno de los policías que lo va a capturar por sus crímenes. Cuando va al encuentro con Fierro para apresarlo, decide pasarse de bando y pelear junto a él, marcando así al igual que el protagonista, su posición desafiante ante el poder. A partir de aquí Cruz será el mejor amigo de Fierro y el coprotagonista de la historia, por eso la intensidad en las apariciones que se puede ver en el gráfico.

El guitarrero es otro personaje que tiene una presencia muy breve. Vemos su aparición luego de la de Cruz, justamente porque este último es quien lo mata, en una pulpería, por burlarse de la infidelidad de su mujer.

El Juez de Paz es una de las representaciones de la autoridad contra la que Fierro se rebela. Es quien lo envía a pelear en la frontera, supuestamente porque Fierro no había ido a votar en la última elección.

Si bien Dios no es en realidad un personaje de la historia, lo agregué para destacar como está presente durante toda la trama de esta obra que, fiel a los usos y costumbres de la época en el país, tiene una carga importante de cristianismo.

Oscilación de sentimientos

Como parte final del análisis veamos qué podemos sacar en limpio en cuanto a los sentimientos que genera El gaucho Martín Fierro. Voy a empezar por aclarar varios puntos primero y algunas concesiones que tuve que hacer para completar este análisis:

En primer lugar, hace poco tiempo que estoy experimentando con este tipo de tecnologías de detección de sentimientos, así que, esta es una especie de práctica.

En segundo lugar, estos algoritmos no son cien por ciento confiables aún y son bastante más efectivos funcionando en idioma inglés que en español. Algunos de ellos trabajan en modo políglota, pero lo que hacen en realidad es utilizar alguna API de traducción automática para tener en tiempo real una versión del texto en inglés antes de analizarlo. Esa no es una buena opción para una obra literaria, las traducciones automáticas dejan mucho que desear, entonces, para empezar tuve que conseguir una buena traducción al inglés de El gaucho Martín Fierro. El análisis está basado en esa traducción, no en la obra original.

En tercer lugar, la tecnología que utilicé se aplica principalmente al análisis de sentimientos en redes sociales. Estamos hablando de oraciones o tuits, no de libros enteros. Así que, procedí a cortar el libro en oraciones para tener un conjunto de datos viable para trabajar.

Para hacer el análisis, utilicé VADER. Calculé el valor de sentimiento de cada oración en el libro. El algoritmo que usé permite el cálculo de índices de polaridad positiva, negativa y neutra. También entrega un valor llamado puntuación compuesta, que se calcula sumando las puntuaciones de valencia de cada palabra en el léxico, se ajusta de acuerdo con las reglas y luego se normaliza para estar entre -1 y 1 (el valor más extremo negativo y el más extremo positivo, respectivamente). Si ese número es mayor o igual a 0,05, la puntuación compuesta representa un sentimiento positivo, si es menor o igual a -0,05, representa un sentimiento negativo, y si está en el medio de esos dos valores, se trata de un sentimiento neutral.

Sentimiento compuesto medio para El gaucho Martín Fierro.
Sentimiento compuesto medio para El gaucho Martín Fierro.

Hice el análisis para cada oración, porque es equivalente a evaluar cada verso y me parece un buen método para explorar los sentimientos en un libro de poesía. Para otro tipo de textos es posible agrupar varias oraciones para obtener el valor compuesto de párrafos o páginas completas.

En el gráfico se destacan dos puntos rojos que marcan los valores compuestos de sentimiento más extremos, positivo y negativo respectivamente; si vamos al texto a identificarlos nos encontramos con estos versos (al haber hecho el análisis de sentimientos en inglés, tengo que ubicar cada verso en el texto en inglés, luego traducirlos y buscarlos en el texto original en español):

  • Sentimiento compuesto 0,9446

«Si es güena, no lo abandona / cuando lo ve desgraciao, / lo asiste con su cuidao / y con afán cariñoso, / y usté tal vez ni un rebozo / ni una pollera le ha dao».

«If she's a good one, she won't leave him when she sees he's out of luck, she'll help him by caring for him willingly with her love / and maybe you've not given her even a skirt or a shawl».

En este pasaje se habla de cariño, afán y cuidado. En la traducción al inglés se habla directamente de amor (love) y eso seguramente influyó en la puntuación. Sin duda está encaminado el algoritmo.

  • Sentimiento compuesto -0,9269

«No salvan de su juror / ni los pobres angelitos: / viejos, mozos y chiquitos / los mata del mesmo modo; / que el indio lo arregla todo / con la lanza y con los gritos».

 «Even the poor little angels aren't saved from their fury / old men, boys and children, they kill them all in the same way / an indian fixes everything with his spear and a yell».

Eligió como punto más negativo de la historia la matanza de niños y ancianos. Coincido con que es un punto muy negativo de la historia, tal vez el más negativo.

Les dejo los tres pasajes que obtuvieron los siguientes puntajes más altos y los tres con los puntajes más bajos para que juzguen ustedes mismos:

  • Sentimiento compuesto 0.9392

« Aquéllo no era trabajo, / más bien era una junción, / y después de un güen tirón / en que uno se daba maña, / pa darle un trago de caña / solía llamarlo el patrón. / Pues siempre la mamajuana / vivía bajo la carreta, / y aquél que no era chancleta / en cuanto el goyete vía, / sin miedo se le prendía / como güérfano a la teta».

«You couldn't call that work, it was more like a party / and after a good throw when you'd managed it skilfully, the boss used to call you over to give you a swig of liquor, because the great jug of booze / always lived there under the cart, and anyone who wasn't shy, when he saw the open spout would take a hold on it fearlessly as an orphan calf to the teat».

  • Sentimiento compuesto 0.9184

«Dios formó lindas las flores, / delicadas como son, / les dio toda perfeción / y cuanto él era capaz, / pero al hombre le dio más / cuando le dio el corazón».

«God created the flowers, so pretty and delicate as they are, he made them perfect in every way as much as he knew how / but he gave something more to man when he gave him a heart».

  • Sentimiento compuesto 0.9117

«Grandemente lo pasaba / con aquella prenda mía / viviendo con alegría / como la mosca en la miel / ¡Amigo, qué tiempo aquél!»

«It was a grand life I had with that girl of mine, living in happiness like a fly in honey... What a time that was, friend!»

  • Sentimiento compuesto -0.926

«Le alvertiré que en mi pago / ya no va quedando un criollo: / se los ha tragao el hoyo / o juido o muerto en la guerra, / porque, amigo, en esta tierra / nunca se acaba el embrollo».

«I can tell you, in my part of the land there's not a real criollo left: they've been swallowed by the grave, or run off, or been killed in the war / because in this country, friend, there's no end to the bad times».

  • Sentimiento compuesto -0.9118

«¡Ah pobre, si él mismo creiba / que la vida le sobraba! / Ninguno diría que andaba / aguaitándoló la muerte;»

«Poor man / he must have thought to himself that he'd got life and to spare / no one would have said that Death was lying in wait for him».

  • Sentimiento compuesto -0.9062

« Alcé mi poncho y mis prendas / y me largué a padecer / por culpa de una mujer / que quiso engañar a dos. / Al rancho le dije adiós, / para nunca más volver».

«I took my poncho and my gear and I went off to suffer wrong through the fault of a woman who tried to cheat two men at once / I said goodbye to my cabin never to return again».

Conclusión

Me encontré releyendo este clásico después de muchos años (lo leí por primera vez estando en el colegio secundario) y fue muy interesante usar herramientas propias de Ciencia de Datos para hacer un análisis exhaustivo del texto, paralelamente a la lectura. Con Python siempre descubro nuevas posibilidades, detrás de cada tema que investigo parece haber un mundo. Pero no hay que perder de vista algunas limitaciones que tiene, sobre todo en el campo del análisis de sentimientos, como ya mencioné antes. Probablemente también se pueda mejorar el método con el que llevé adelante dicho análisis de sentimientos.

Seguramente usaré estas técnicas para analizar algunos otros libros. También me gustaría ir sumando nuevas métricas al análisis. Si les interesa ver un análisis de datos sobre algún otro libro específico, déjenmelo saber en los comentarios. 

______________________________________________

[1] Esta es una de las medidas más antiguas y más ampliamente utilizada para evaluar la riqueza léxica de un texto. Se llama TTR, que es la abreviación de la expresión inglesa type-token ratio.

[2] Hápax legómenon es una transliteración del griego άπάξ λεγόμενον (άπάξ «una sola vez» y τό λεγόμενον «lo que se dice», «lo dicho»).

[3] El gaucho Martín Fierro está narrado en tercera persona por un narrador omnisciente. Aunque no está dentro del relato, este narrador no identificado también se expresa en el mismo lenguaje gauchesco de los protagonistas de la historia.

  Esta no es una crítica literaria, es un ejercicio para obtener información relevante sobre un libro utilizando únicamente técnicas de anál...

Las letras y el café combinan bien


Si disfrutaste la lectura, te propongo que apoyes a este espacio con una tasa virtual.

5 comentarios: