Don Quijote de la Mancha: los números de una obra inmortal

El siguiente es un análisis de la obra Don Quijote de la Mancha basado únicamente en datos. Existen muchas métricas interesantes que podemos extraer de la obra cumbre de la hispanidad utilizando herramientas diseñadas para realizar analítica de datos. Así que, tal como hicimos en el pasado con el Martín Fierro, vamos a pasar al Quijote por la Picadora de palabras para ver qué números —y qué sentimientos— encontramos.
La Picadora de palabras es el cariñoso nombre que lleva la herramienta basada en Python que desarrollé para analizar libros.
Breve introducción al autor y al libro
Miguel de Cervantes Saavedra, nacido un 29 de septiembre de 1547 y fallecido el 22 de abril de 1616 —no, no fue el mismo día que William Shakespeare—, publicó la primera parte del Quijote en 1605 y la segunda en 1615. Con 500 millones de copias vendidas es el máximo best seller de la historia, si no contamos La Biblia, cuyas ventas se calculan en varios miles de millones de copias. El Quijote ha sido traducido a casi un centenar de idiomas y es considerado como la primera novela moderna.
El protagonista es Alonso Quijano, un empobrecido hidalgo que de tanto leer novelas caballerescas, termina perdiendo la cabeza, creyéndose caballero andante y nombrándose a sí mismo Don Quijote de la Mancha. Sancho Panza se convierte en su compañero de aventuras/locuras. Él es un labrador que se preocupa por el lado práctico de las cosas. Carece de educación, pero es avispado, y cuenta con un gran bagaje de saber popular. Por otro lado es muy inocente, y termina contagiado de la locura de su amo y vecino, Don Quijote.
La materia prima
En un análisis como este, los números pueden variar mucho de una edición a otra. Para este trabajo utilicé el texto electrónico en español publicado por el Proyecto Gutenberg. Esta edición no tiene anotaciones. No sé qué tan fiel a la obra original sea, pero en principio considero que es una fuente confiable.
Otro factor que puede hacer variar mucho los números que arroja el análisis, es la limpieza que hagamos del archivo antes de empezar a trabajar. En ese sentido quiero aclarar que solo estoy utilizando de ambas partes del libro sus títulos, sus prólogos y sus textos propiamente dichos.
Por lo tanto eliminé del archivo todos los paratextos agregados por Proyecto Gutemberg y también prescindí de las siguientes secciones del texto original por no considerarlas relevantes para el análisis:
De El ingenioso hidalgo don Quijote de la Mancha:
- TASA. La valuación del libro hecha por Juan Gallo de Andrada.
- TESTIMONIO DE LAS ERRATAS. Del licenciado Francisco Murcia de la Llana.
- EL REY. De Juan de Amezqueta, «por mandado del Rey nuestro señor».
- AL DUQUE DE BÉJAR. Dedicatoria de Miguel de Cervantes Saavedra.
De Segunda parte del ingenioso caballero don Quijote de la Mancha:
- TASA. De Hernando de Vallejo.
- FEE DE ERRATAS. Del licenciado Francisco Murcia de la Llana.
- APROBACIONES. Una sección muy interesante donde el Doctor Gutierre de Cetina, el maestro Josef de Valdivielso y el licenciado Márquez Torres aseguran que el libro no atenta contra la fe católica, las buenas costumbres ni la moral, y con muchas palabras dejan entrever que la obra solo se trata de entretenimiento ligero e inofensivo (tratá de vender hoy un libro con semejante crítica).
- PRIVILEGIO. De Pedro de Contreras, «por mandado del Rey nuestro señor».
Lo números gruesos
Empecemos con los números que destacan a simple vista: La obra tiene dos partes. La primera, El Ingenioso Hidalgo Don Quijote de la Mancha, está dividida a su vez en 4 partes y la conforman 52 capítulos y un prólogo. La segunda, Segunda parte del ingenioso caballero don Quijote de la Mancha, tiene 74 capítulos y un prólogo, a diferencia de la primera parte, la segunda no está subdivida en partes.
Algunos números finos
Esta obra está conformada por 2.069.454 caracteres, que se reducen a 1.694.284 cuando contamos caracteres sin espacios. Estos caracteres conforman 378.396 palabras, agrupadas en 9.466 oraciones que están distribuidas en 5.024 párrafos. El texto encierra 959 preguntas, 693 exclamaciones y de su puntuación se encargan 8.166 puntos, 39.892 comas, 4.779 puntos y comas y 2.039 dos puntos.
Sobre la cantidad de vocales utilizadas en esta obra por Cervantes, podemos observar las siguientes frecuencias de aparición —incluyendo en el recuento a las que tienen tildes y diéresis—:
![]() |
Uso de vocales en Don Quijote de la Mancha |
A (199.086), E (227.407), I (89.137), O (161.351), U (79.026).
Tiempo de lectura
Hay cierto consenso en reconocer que el tiempo de lectura silenciosa promedio en español se trata de unas 200 palabras por minuto, aunque en realidad depende mucho del estudio que se mire —hay quienes dicen que ese promedio sería superior—. Pero, si nos quedamos con esa regla de 200 PPM, llegamos a la conclusión de que el Quijote puede ser leído en 31 horas y media. Por supuesto que estamos hablando de tiempo teórico de lectura continua (es una larga sentada). Por otra parte, no estamos contemplando las dificultades específicas que encierra este texto para un lector contemporáneo que tendrá que hacer pausas para leer notas al pie, buscar palabras en el diccionario o en la web. Por lo tanto este tiempo teórico de lectura podría ser ajustado hacia arriba.
Riqueza léxica
Del total de 378.396 palabras que mencionamos anteriormente, nos encontramos con que 22.787 son palabras distintas o únicas, el resto se trata de repeticiones de estas mismas palabras. Por lo tanto podemos asegurar que este libro tiene una riqueza léxica de 0,06021 que es el resultado de dividir la cantidad de palabras únicas entre la cantidad total de palabras¹. Este número puede tomar cualquier valor entre 0 y 1, aunque nunca va a ser 0 porque eso significaría que el texto está compuesto en su totalidad por una única palabra y tampoco va a tomar el valor ideal teórico 1, porque eso significaría que ninguna palabra se repite en el libro. Vemos entonces que hablando en porcentajes, la riqueza léxica de Don Quijote de la Mancha es de 6%.
Mientras veo este número, recuerdo que en el análisis previo que hice sobre el Martín Fierro, la riqueza léxica arrojó un número mayor; y pienso en voz alta (o en el teclado, mejor dicho) que simplemente por matemática un libro extenso tenderá a tener menor riqueza léxica, porque es mucho más probable repetir palabras ya utilizadas a medida que el escrito se va extendiendo.
![]() |
Riqueza léxica de Don quijote de la Mancha. |
Lugares comunes
El análisis de lugares comunes nos va a permitir encontrar clichés, frases de uso común de la época o muletillas a las que haya recurrido Cervantes a la hora de escribir. Lo que identificamos son secuencias de palabras que se encuentran juntas en el texto con mayor frecuencia que el resto. Estos son algunos lugares comunes encontrados en Don Quijote de la Mancha:
vuestra merced; sancho panza; vuesa merced; que que; caballeros andantes; respondió sancho; dulcinea toboso; sin duda; otra cosa; respondió quijote; caballero andante; del toboso; todos los; los ojos; dijo quijote; dijo sancho; quijote mancha; muchas veces; señora dulcinea; las manos
Hápax legómenon
Esta es otra métrica muy interesante para observar, en especial es interesante compararlo con los números de total de palabras y el número de riqueza léxica que mencionábamos anteriormente. Un hápax o hápax legómenon² es una palabra que ha aparecido registrada solamente una vez en un corpus, en este caso en nuestro libro. Hay 11.106 palabras que no se repiten en la obra. Esta es una muestra aleatoria de 100 de esas palabras (omitiendo mayúsculas):
avendría, enrique, encubrirte, mientas, dioles, reprocharme, bramido, intonsos, facas, abonasen, atribuyéndolos, sembrad, otorgaba, ligaba, convierta, barbadas, diputado, hétores, llenaban, salvamento, tambor, señalaré, porquero, desvaríos, ahorcarme, merecedores, cardinales, repare, atraillado, ínsulo, aprobará, pío, durado, generosas, encaminé, guiábanle, combatían, escurecerla, aventuraba, adviertan, aspiran, clavadas, abatieres, cubrimos, erraren, roturas, malignidad, guadameciles, imponerse, herirles, interrompiendo, despreciar, asirse, escarba, ayudaros, dudamos, confundir, ornamentos, concluyóse, presona, palillo, afán, tiramira, pagarme, bañará, ingeniosa, enfría, pisaba, presentase, bustamante, desechaba, guías, créeme, tantum, maduras, correrte, repasa, aclara, deshechos, preguntarse, hartazga, sueña, quebrantan, varapalos, quejéis, habello, ficticio, repararon, enmendaré, aljamiado, procuraron, magníficos, confíese, pisacorto, imposibilitó, maravillase, díganos, aborrecida, desembolsado, libertada
Palabras frecuentes
En las antípodas de los hápax legómenon se encuentran las palabras frecuentes. Para este análisis dejé de lado palabras poco significativas del idioma español.
![]() |
Palabras más comunes en Don Quijote de la Mancha. |
De este análisis surgió también la siguiente nube de palabras:
![]() | |
|
Aquí dejo una lista de las 100 palabras más frecuentes en Don Quijote de la Mancha junto a su cantidad de apariciones:
don (2.640), quijote (2.169), sancho (2.149), si (1.962), dijo (1.807), tan (1.240), respondió (1.062), así (1.059), ser (1.055), señor (1.054), bien (1.043), merced (895), pues (860), sino (694), dos (683), caballero (660), decir (576), hacer (531), aunque (529), dios (529), señora (516), aquí (515), aquel (485), mal (459), cosa (442), buen (439), verdad (430), tal (427), allí (421), ver (406), mundo (394), luego (390), sé (388), alguna (378), todas (371), ahora (366), dar (363), buena (362), vida (356), parte (348), dicho (348), cosas (346), lugar (345), menos (344), gran (340), casa (333), aquella (333), panza (330), manera (324), digo (322), tiempo (320), toda (319), cura (313), puesto (307), mano (304), amo (297), dio (294), mejor (291), caballeros (291), puede (285), ojos (284), algún (283), dulcinea (282), visto (278), cómo (274), tierra (273), día (271), quién (270), hecho (269), quiero (261), padre (259), aun (259), hombre (258), cielo (252), haber (251), amigo (249), historia (248), saber (245), vio (245), camino (245), escudero (244), parece (244), tener (241), hizo (241), muchas (240), mas (239), manos (239), días (236), cuanto (234), fin (232), desta (232), tres (231), mujer (226), dice (223), mesmo (218), cabeza (215), cuenta (214), cada (212), punto (211), noche (211)
Presencia de los personajes en la trama
Se trata de encontrar en que parte del texto se menciona a los personajes. Para esta métrica elegí un subconjunto de los personajes principales. La cantidad de personajes en esta obra es súper extensa, así que mucho quedó afuera y queda un espacio importante para ampliar este análisis en el futuro.
![]() |
Distribución de personajes en Don Quijote de la Mancha. |
Algunas observaciones rápidas sobre este gráfico:
Vean como las apariciones de Don Quijote y Sancho Panza prácticamente se superponen; eso nos habla de dos compañeros, dos personajes inseparables que recorren juntos todo el camino narrativo de esta obra.
Dios no es un personaje en este libro, pero igualmente lo agregué en este gráfico para destacar su aparición constante y uniforme en toda la trama. Casi no observamos baches en su línea. No hace falta mencionar la predominancia de la fe católica en la época en que Cervantes escribió el Quijote.
Los otros personajes que incorporé en el gráfico son: Dulcinea del Toboso, mujer perfecta pero inexistente, amor platónico de Don Quijote y fruto de su imaginación, basada en la más terrenal Aldonza Lorenzo. Rocinante, el caballo de Don Quijote. El rucio, asno de Sancho Panza. Cide Hamete Benengeli, historiador arábigo ficticio que escribe la historia de Don Quijote.
Oscilación de sentimientos
Como parte final de esta entrada veamos qué podemos sacar en limpio en cuanto a los sentimientos que genera Don Quijote de la Mancha. Voy a empezar por aclarar varios puntos primero y algunas concesiones que tuve que hacer para completar este análisis:
En primer lugar, estos algoritmos no son cien por ciento confiables aún y son bastante más efectivos funcionando en idioma inglés que en español. Algunos de ellos trabajan en modo políglota, pero lo que hacen en realidad es utilizar alguna API de traducción automática para tener en tiempo real una versión del texto en inglés antes de analizarlo. Esa no es una buena opción para una obra literaria, las traducciones automáticas dejan mucho que desear, entonces, para empezar tuve que conseguir una buena traducción al inglés de Don Quijote de la Mancha. El análisis está basado en esa traducción, no en la obra original.
En segundo lugar, la tecnología que utilicé se aplica principalmente al análisis de sentimientos en redes sociales. Estamos hablando de oraciones o tuits, no de libros enteros. Así que, procedí a cortar el libro en párrafos para tener un conjunto de datos viable para trabajar. Para hacer el análisis, utilicé VADER. Calculé el valor de sentimiento de cada oración en el libro. El algoritmo que usé permite el cálculo de índices de polaridad positiva, negativa y neutra. También entrega un valor llamado puntuación compuesta, que se calcula sumando las puntuaciones de valencia de cada palabra en el léxico, se ajusta de acuerdo con las reglas y luego se normaliza para estar entre -1 y 1 (el valor más extremo negativo y el más extremo positivo, respectivamente). Si ese número es mayor o igual a 0,05, la puntuación compuesta representa un sentimiento positivo, si es menor o igual a -0,05, representa un sentimiento negativo, y si está en el medio de esos dos valores, se trata de un sentimiento neutral.
![]() |
Sentimiento compuesto medio para Don Quijote de la Mancha. |
El léxico utilizado en esta obra es sin duda un reto para cualquier intento de realizar un análisis de sentimiento utilizando herramientas diseñadas para trabajar sobre lenguajes contemporáneos.
Yendo al texto, estos son los dos momentos identificados respectivamente como el más positivo y el más negativo. Presento los párrafos originales y también las traducciones al inglés, que son las que realmente fueron evaluadas por el algoritmo. Cada uno puede sacar sus propias conclusiones:
- Sentimiento compuesto 0,9995
«Preguntóle don Quijote si eran de algún príncipe, que así las ponderaba. — No son —respondió el estudiante— sino de un labrador y una labradora: él, el más rico de toda esta tierra; y ella, la más hermosa que han visto los hombres. El aparato con que se han de hacer es estraordinario y nuevo, porque se han de celebrar en un prado que está junto al pueblo de la novia, a quien por excelencia llaman Quiteria la hermosa, y el desposado se llama Camacho el rico; ella de edad de diez y ocho años, y él de veinte y dos; ambos para en uno, aunque algunos curiosos que tienen de memoria los linajes de todo el mundo quieren decir que el de la hermosa Quiteria se aventaja al de Camacho; pero ya no se mira en esto, que las riquezas son poderosas de soldar muchas quiebras. En efecto, el tal Camacho es liberal y hásele antojado de enramar y cubrir todo el prado por arriba, de tal suerte que el sol se ha de ver en trabajo si quiere entrar a visitar las yerbas verdes de que está cubierto el suelo. Tiene asimesmo maheridas danzas, así de espadas como de cascabel menudo, que hay en su pueblo quien los repique y sacuda por estremo; de zapateadores no digo nada, que es un juicio los que tiene muñidos; pero ninguna de las cosas referidas ni otras muchas que he dejado de referir ha de hacer más memorables estas bodas, sino las que imagino que hará en ellas el despechado Basilio. Es este Basilio un zagal vecino del mesmo lugar de Quiteria, el cual tenía su casa pared y medio de la de los padres de Quiteria, de donde tomó ocasión el amor de renovar al mundo los ya olvidados amores de Píramo y Tisbe, porque Basilio se enamoró de Quiteria desde sus tiernos y primeros años, y ella fue correspondiendo a su deseo con mil honestos favores, tanto, que se contaban por entretenimiento en el pueblo los amores de los dos niños Basilio y Quiteria. Fue creciendo la edad, y acordó el padre de Quiteria de estorbar a Basilio la ordinaria entrada que en su casa tenía; y, por quitarse de andar receloso y lleno de sospechas, ordenó de casar a su hija con el rico Camacho, no pareciéndole ser bien casarla con Basilio, que no tenía tantos bienes de fortuna como de naturaleza; pues si va a decir las verdades sin invidia, él es el más ágil mancebo que conocemos: gran tirador de barra, luchador estremado y gran jugador de pelota; corre como un gamo, salta más que una cabra y birla a los bolos como por encantamento; canta como una calandria, y toca una guitarra, que la hace hablar, y, sobre todo, juega una espada como el más pintado.»
«“No,” responded the student, “not a prince, but the richest farmer in this entire land, and the most beautiful farmgirl men have ever seen. The preparations for the wedding celebration are extraordinary and remarkable, because it will be held in a meadow near the bride’s village; she is always called fair Quiteria, and the groom is called rich Camacho; she is eighteen and he is twenty-two; they are equals, though certain inquisitive people who have the lineages of the entire world memorized claim that fair Quiteria’s is superior to Camacho’s, but nobody thinks about that nowadays: wealth has the power to mend a good many cracks. In fact, Camacho is extremely generous, and he has taken a notion to weave branches into a bower to cover the entire meadow, so that the sun will have great difficulty if it wants to come in to visit the green grass covering the ground. He also has arranged for dances, with swords and with bells, for there are in his village people who are excellent at ringing and shaking them, and I won’t say anything about the heel-tappers, for the general opinion is that he has a good number of them ready; but none of the things I’ve mentioned, or the many others that I’ve omitted, are what will make this wedding memorable, but rather the things I imagine a desperate Basilio will do. This Basilio is a shepherd from the same village as Quiteria, and his house shared a wall with the house of Quiteria’s parents, allowing love the opportunity to renew in the world the long-forgotten loves of Pyramus and Thisbe, because Basilio loved Quiteria from his earliest, tenderest youth, and she responded to his desire with a thousand honest favors, so that in the village the love of the two children, Basilio and Quiteria, was recounted with amusement. As they grew older, Quiteria’s father decided to deny Basilio the access to his house that he once had enjoyed, and to spare himself mistrust and endless suspicions, he arranged for his daughter to marry rich Camacho, for it did not seem a good idea to marry her to Basilio, who was better endowed by nature than by fortune; if the truth be told, without envy, he is the most agile youth we know, a great hurler of the bar, an excellent wrestler, a fine pelota player; he runs like a deer, leaps like a goat, and plays bowls as if he were enchanted; he sings like a lark, plays the guitar so well he makes it speak, and, most of all, he can fence with the best of them.”»
- Sentimiento compuesto -0,9957
«— Así es —respondió don Quijote—, y la causa es que el que no puede ser agraviado no puede agraviar a nadie. Las mujeres, los niños y los eclesiásticos, como no pueden defenderse, aunque sean ofendidos, no pueden ser afrentados; porque entre el agravio y la afrenta hay esta diferencia, como mejor Vuestra Excelencia sabe: la afrenta viene de parte de quien la puede hacer, y la hace y la sustenta; el agravio puede venir de cualquier parte, sin que afrente. Sea ejemplo: está uno en la calle descuidado, llegan diez con mano armada, y, dándole de palos, pone mano a la espada y hace su deber, pero la muchedumbre de los contrarios se le opone, y no le deja salir con su intención, que es de vengarse; este tal queda agraviado, pero no afrentado. Y lo mesmo confirmará otro ejemplo: está uno vuelto de espaldas, llega otro y dale de palos, y en dándoselos huye y no espera, y el otro le sigue y no alcanza; este que recibió los palos, recibió agravio, mas no afrenta, porque la afrenta ha de ser sustentada. Si el que le dio los palos, aunque se los dio a hurtacordel, pusiera mano a su espada y se estuviera quedo, haciendo rostro a su enemigo, quedara el apaleado agraviado y afrentado juntamente: agraviado, porque le dieron a traición; afrentado, porque el que le dio sustentó lo que había hecho, sin volver las espaldas y a pie quedo. Y así, según las leyes del maldito duelo, yo puedo estar agraviado, mas no afrentado; porque los niños no sienten, ni las mujeres, ni pueden huir, ni tienen para qué esperar, y lo mesmo los constituidos en la sacra religión, porque estos tres géneros de gente carecen de armas ofensivas y defensivas; y así, aunque naturalmente estén obligados a defenderse, no lo están para ofender a nadie. Y, aunque poco ha dije que yo podía estar agraviado, agora digo que no, en ninguna manera, porque quien no puede recebir afrenta, menos la puede dar; por las cuales razones yo no debo sentir, ni siento, las que aquel buen hombre me ha dicho; sólo quisiera que esperara algún poco, para darle a entender en el error en que está en pensar y decir que no ha habido, ni los hay, caballeros andantes en el mundo; que si lo tal oyera Amadís, o uno de los infinitos de su linaje, yo sé que no le fuera bien a su merced.»
«“That is true,” responded Don Quixote, “and the reason is that one who cannot be insulted cannot insult anyone else. Women, children, and ecclesiastics, since they cannot defend themselves even if they have been offended, cannot receive an affront. Because the difference between an insult and an affront, as Your Excellency knows better than I, is that an affront comes from one who can commit it, and does so, and sustains it; an insult can come from anywhere, without being an affront. For example: a man is standing idly in the street; ten men arrive with weapons in their hands and strike him, and he draws his sword to perform his duty, but the number of his adversaries hinders this and does not allow him to carry out his intention, which is to take his revenge; this man has been insulted but not affronted. And another example will confirm the same thing: a man’s back is turned, another comes up and strikes him, and having struck him, he flees and does not wait, and the other pursues but cannot overtake him; the one who was struck received an insult but not an affront, because an affront must be sustained. If the one who struck him, even if he did so surreptitiously, had drawn his sword and stood firm, facing his enemy, the man who was struck would be both insulted and affronted: insulted, because he was struck covertly; affronted, because the one who struck him sustained what he had done, not turning his back and standing firm. And so, according to the laws of this accursed dueling, I can be insulted but not affronted, because children are not aware of what they do, and women cannot flee, nor can they be expected to, and the same is true of those who hold positions in holy religion, because these three kinds of people lack both offensive and defensive weapons; consequently, although they naturally may be obliged to defend themselves, they are not capable of offending anyone. And although I said a little while ago that I could be insulted, now I say no, not in any manner, because one who cannot receive an affront is even less capable of committing one; for these reasons I should not be aggrieved, and I am not, by what that good man said to me; I wish only that he had stayed so that I could have convinced him of his error in thinking and saying that there were no knights errant in the world, and that there are none now, for if Amadis or any of his infinite descendants had heard him, I know it would not have gone well for his grace.”»
¿Cuál será la próxima víctima? ¿Querés que tire algún libro en particular a la Picadora de palabras? Mencionalo en los comentarios.
[1] Esta es una de las medidas más antiguas y más ampliamente utilizada para evaluar la riqueza léxica de un texto. Se llama TTR, que es la abreviación de la expresión inglesa type-token ratio.
[2] Hápax legómenon es una transliteración del griego άπάξ λεγόμενον (άπάξ «una sola vez» y τό λεγόμενον «lo que se dice», «lo dicho»).
El siguiente es un análisis de la obra Don Quijote de la Mancha basado únicamente en datos. Existen muchas métricas interesantes que podemos...
Sumamos nuevos recursos para escritores
Lo nuevo: Un procesador de textos en línea capaz de generar archivos en formato Word, un poderoso corrector ortográfico y un contador de palabras y caracteres son las herramientas que sumamos a otros recursos pensados para facilitar la vida de los escritores, como la base de datos colaborativa de concursos literarios que ya lleva un tiempo funcionando en Finales Cerrados.
Nuestro editor de textos en línea siempre está disponible y funciona en cualquier dispositivo. Esto nos permitirá trabajar en un escrito tanto desde la computadora en casa como desde el celular o la tablet en el tren, el colectivo o la calle. Simple, liviano y en línea, siempre disponible. Ideal para tomar notas rápidamente y poder guardarlas. Nos permite descargar los documentos en formato .doc, estándar Microsoft Office Word y compatible con los principales procesadores de texto, de esta forma podemos continuar el trabajo en otra plataforma o en otro editor de texto en cualquier momento. Por otra parte, el formato compatible Word también es el que se suele exigir para enviar obras a los concursos literarios.
El corrector ortográfico resulta útil para salvar los errores básicos que pudimos pasar por alto al escribir un texto. De ninguna manera reemplaza la función del corrector humano, pero es un buen primer paso para salvar los errores más gruesos al empezar a pulir un escrito.
El contador de palabras y caracteres es un recurso básico tanto para editores como para escritores. Una herramienta como esta, en línea y liviana, facilita y hace más práctico el trabajo que de otra forma solo podríamos lograr con otro tipo de software más pesado y solo disponibles en las computadoras de escritorio. Como escritores es importante contar las palabras del texto en el que estamos trabajando, primero que nada para llevar un control del avance que vamos haciendo, también es útil para asegurarnos de que nuestra obra cumpla con las exigencias de extensión de la editorial a la que le tenemos que enviar el escrito o para cerciorarnos de que nuestro texto cumpla con las condiciones especificadas en las bases de un concurso literario en el que queremos participar.
Con todo esto apuntamos a seguir agrandando la sección de recursos en nuestro sitio, para continuar apoyando la labor de muchos de nuestros lectores, que casualmente también son escritores.
Lo nuevo: Un procesador de textos en línea capaz de generar archivos en formato Word, un poderoso corrector ortográfico y un contador de p...
Análisis del Martín Fierro basado en datos

Esta no es una crítica literaria, es un ejercicio para obtener información relevante sobre un libro utilizando únicamente técnicas de análisis de datos. Algunas de las métricas son tan simples como un recuento de palabras, otras tan complicadas como el análisis de sentimientos. La herramienta elegida para llevar a cabo este análisis es Python y el libro elegido es El gaucho Martín Fierro.
Este libro es la primera parte de la poesía narrativa (Borges la definió como «una novela en verso») escrita por José Hernández que se convirtió en sinónimo del género Gauchesco por antonomasia. Fue escrito en 1872, se lo conoce como «La ida» y cuenta las desventuras de Martín Fierro, un gaucho trabajador de las pampas bonaerenses que es arrancado de su familia (compuesta por su mujer y dos hijos) al ser reclutado forzosamente —o levantado (de leva)— para servir en un fortín e integrar las milicias que luchaban defendiendo la frontera argentina contra los indígenas. No voy a tener en cuenta para este análisis la continuación de este libro, titulada La vuelta de Martín Fierro, conocida simplemente como «La vuelta» y escrita en 1879.
Spoiler alert: Voy a mencionar varias situaciones del libro, personajes y otros detalles de la trama que pueden terminar aguándole el suspenso a los futuros lectores de este clásico.
La composición del texto
Vamos a ver qué números podemos obtener rápidamente, como para empezar a formarnos una idea del libro. En principio, este texto poético está escrito en 2.316 versos que se agrupan en 395 estrofas y 13 cantos. Lo conforman 59.969 caracteres contando espacios, pero sin contar notas al pie, renglones vacíos, números de verso, etc. Estos caracteres dan forma a 11.295 palabras distribuidas en 511 oraciones, a partir de este dato podemos calcular un tiempo de lectura estimado de casi una hora, unos 57 minutos si nos basamos en la regla de 200 palabras por minuto. Por supuesto que este tiempo es una aproximación que no tiene en cuenta las dificultades de leer palabras poco familiares en un texto gauchesco de época.
Riqueza léxica
La cantidad de palabras distintas en el libro es 2.838. Como mencioné anteriormente, el total de palabras es 11.295. De estos números se desprende que la riqueza del vocabulario tiene un valor de 0,2512 resultado de dividir la cantidad de palabras únicas entre la cantidad total de palabras¹. Este número puede tomar cualquier valor entre 0 y 1, aunque nunca va a ser 0 porque eso significaría que el texto está compuesto en su totalidad por una única palabra y tampoco va a tomar el valor ideal teórico 1, porque eso significaría que ninguna palabra se repite en el libro. Vemos que entonces para nuestro libro el porcentaje de palabras distintas es bastante elevado, representando un 25,12% del total del texto. Esto habla de una gran riqueza léxica.
![]() | |
|
Lugares comunes
Otro análisis interesante que podemos hacer es el de lugares comunes, buscando secuencias de palabras que se encuentran juntas en el texto con mayor frecuencia que el resto. Este análisis permite dar con algún cliché, frases de uso popular o muletillas del autor. Estos son los lugares comunes encontrados en El gaucho Martín Fierro:
tal vez; áhi más; que que; éste quiero; sangre venas; cada cual; esa ocasión; pegó grito; marran codo; tanto sufrir; vamos juntos; esta tierra; lengüetiando pico; mercedes pico; quedaban largo; estrago yorando; maldita vamos; mescolanza éste; dejarlo resollar; máiz frito
Hápax legómenon
Un hápax o hápax legómenon² es una palabra que ha aparecido registrada solamente una vez en un corpus, en este caso en nuestro libro. Este es otro de esos datos curiosos que podemos extraer fácilmente de una obra literaria utilizando análisis de datos y que, por el contrario, sería muy engorroso o imposible para un lector divisarlo a ojo limpio. En El gaucho Martín Fierro hay un total de 1.814 hápax legómenon. Aquí dejo 50 que extraje al azar:
preguntón, aguardaron, ñublaba, siguridá, ladrar, proyectos, jefes, precaución, tuitas, cosquillas, entiéndalo, cucañas, hacérmelés, movimiento, pudiera, damas, tiritando, enderiezan, entona, quitó, candil, engañar, creyó, patas, revelar, infeliz, sinchones, dándole, asigún, aflojo, llamaban, consolarse, clara, sabrosa, rodiaron, cerdo, atrasadas, enterraron, barricas, roban, levanta, temo, principio, bolea, dejar, pidieron, sombras, mismo, oros, cansarnos
Palabras frecuentes
Opuesto a la lista de hápax legómenon, y para continuar con el análisis de palabras, también podemos hablar de aquellas que aparecen con mayor frecuencia en el libro.
![]() |
Las diez palabras más utilizadas en El gaucho Martín Fierro. |
En este gráfico dispuse las diez palabras que se repiten en el texto con mayor frecuencia. Para que la lista tuviera mayor relevancia, dejé de lado las palabras de uso común en español, como por ejemplo los artículos. También excluí otras de uso común gauchesco, como «pa» (para). Teniendo en cuenta las mismas consideraciones armé también la nube de palabras. De esta lista se destaca por supuesto la palabra gaucho en primer lugar y la palabra hombre, esta es claramente una historia de hombres.
![]() | |
|
La nube de palabras al incluir más términos aporta también mayor información sobre la historia. Vemos allí que se destacan algunos vocablos que no estaban presentes en la lista como amigo, pobre, indio, campo, tierra, etc. Esto termina de formarnos un buen panorama sobre la historia.
Presencia de los personajes en la trama
![]() |
Dispersión de personajes en El gaucho Martín Fierro. |
De este gráfico llama la atención la aparición del protagonista, el mismísimo Fierro, durante toda la historia, pero mencionado en pocas ocasiones. Lo que sucede es que, esta historia está narrada en tercera persona por un narrador omnisciente³, pero parece narrada en primera persona, porque durante buena parte del poema el narrador transcribe la voz de Martín Fierro. En esos tramos el protagonista está presente (en esa especie de primera persona) aunque no sea mencionado.
También destacan las puntuales apariciones del gaucho protegido y del negro, que aparecen brevemente en la historia solo para ser asesinados por Fierro.
Podemos ver que el Sargento Cruz aparece con mucha intensidad en el texto, pero tarde, luego de los asesinatos cometidos por Fierro; justamente porque es uno de los policías que lo va a capturar por sus crímenes. Cuando va al encuentro con Fierro para apresarlo, decide pasarse de bando y pelear junto a él, marcando así al igual que el protagonista, su posición desafiante ante el poder. A partir de aquí Cruz será el mejor amigo de Fierro y el coprotagonista de la historia, por eso la intensidad en las apariciones que se puede ver en el gráfico.
El guitarrero es otro personaje que tiene una presencia muy breve. Vemos su aparición luego de la de Cruz, justamente porque este último es quien lo mata, en una pulpería, por burlarse de la infidelidad de su mujer.
El Juez de Paz es una de las representaciones de la autoridad contra la que Fierro se rebela. Es quien lo envía a pelear en la frontera, supuestamente porque Fierro no había ido a votar en la última elección.
Si bien Dios no es en realidad un personaje de la historia, lo agregué para destacar como está presente durante toda la trama de esta obra que, fiel a los usos y costumbres de la época en el país, tiene una carga importante de cristianismo.
Oscilación de sentimientos
Como parte final del análisis veamos qué podemos sacar en limpio en cuanto a los sentimientos que genera El gaucho Martín Fierro. Voy a empezar por aclarar varios puntos primero y algunas concesiones que tuve que hacer para completar este análisis:
En primer lugar, hace poco tiempo que estoy experimentando con este tipo de tecnologías de detección de sentimientos, así que, esta es una especie de práctica.
En segundo lugar, estos algoritmos no son cien por ciento confiables aún y son bastante más efectivos funcionando en idioma inglés que en español. Algunos de ellos trabajan en modo políglota, pero lo que hacen en realidad es utilizar alguna API de traducción automática para tener en tiempo real una versión del texto en inglés antes de analizarlo. Esa no es una buena opción para una obra literaria, las traducciones automáticas dejan mucho que desear, entonces, para empezar tuve que conseguir una buena traducción al inglés de El gaucho Martín Fierro. El análisis está basado en esa traducción, no en la obra original.
En tercer lugar, la tecnología que utilicé se aplica principalmente al análisis de sentimientos en redes sociales. Estamos hablando de oraciones o tuits, no de libros enteros. Así que, procedí a cortar el libro en oraciones para tener un conjunto de datos viable para trabajar.
Para hacer el análisis, utilicé VADER. Calculé el valor de sentimiento de cada oración en el libro. El algoritmo que usé permite el cálculo de índices de polaridad positiva, negativa y neutra. También entrega un valor llamado puntuación compuesta, que se calcula sumando las puntuaciones de valencia de cada palabra en el léxico, se ajusta de acuerdo con las reglas y luego se normaliza para estar entre -1 y 1 (el valor más extremo negativo y el más extremo positivo, respectivamente). Si ese número es mayor o igual a 0,05, la puntuación compuesta representa un sentimiento positivo, si es menor o igual a -0,05, representa un sentimiento negativo, y si está en el medio de esos dos valores, se trata de un sentimiento neutral.
![]() |
Sentimiento compuesto medio para El gaucho Martín Fierro. |
Hice el análisis para cada oración, porque es equivalente a evaluar cada verso y me parece un buen método para explorar los sentimientos en un libro de poesía. Para otro tipo de textos es posible agrupar varias oraciones para obtener el valor compuesto de párrafos o páginas completas.
En el gráfico se destacan dos puntos rojos que marcan los valores compuestos de sentimiento más extremos, positivo y negativo respectivamente; si vamos al texto a identificarlos nos encontramos con estos versos (al haber hecho el análisis de sentimientos en inglés, tengo que ubicar cada verso en el texto en inglés, luego traducirlos y buscarlos en el texto original en español):
- Sentimiento compuesto 0,9446
«Si es güena, no lo abandona / cuando lo ve desgraciao, / lo asiste con su cuidao / y con afán cariñoso, / y usté tal vez ni un rebozo / ni una pollera le ha dao».
«If she's a good one, she won't leave him when she sees he's out of luck, she'll help him by caring for him willingly with her love / and maybe you've not given her even a skirt or a shawl».
En este pasaje se habla de cariño, afán y cuidado. En la traducción al inglés se habla directamente de amor (love) y eso seguramente influyó en la puntuación. Sin duda está encaminado el algoritmo.
- Sentimiento compuesto -0,9269
«No salvan de su juror / ni los pobres angelitos: / viejos, mozos y chiquitos / los mata del mesmo modo; / que el indio lo arregla todo / con la lanza y con los gritos».
«Even the poor little angels aren't saved from their fury / old men, boys and children, they kill them all in the same way / an indian fixes everything with his spear and a yell».
Eligió como punto más negativo de la historia la matanza de niños y ancianos. Coincido con que es un punto muy negativo de la historia, tal vez el más negativo.
Les dejo los tres pasajes que obtuvieron los siguientes puntajes más altos y los tres con los puntajes más bajos para que juzguen ustedes mismos:
- Sentimiento compuesto 0.9392
« Aquéllo no era trabajo, / más bien era una junción, / y después de un güen tirón / en que uno se daba maña, / pa darle un trago de caña / solía llamarlo el patrón. / Pues siempre la mamajuana / vivía bajo la carreta, / y aquél que no era chancleta / en cuanto el goyete vía, / sin miedo se le prendía / como güérfano a la teta».
«You couldn't call that work, it was more like a party / and after a good throw when you'd managed it skilfully, the boss used to call you over to give you a swig of liquor, because the great jug of booze / always lived there under the cart, and anyone who wasn't shy, when he saw the open spout would take a hold on it fearlessly as an orphan calf to the teat».
- Sentimiento compuesto 0.9184
«Dios formó lindas las flores, / delicadas como son, / les dio toda perfeción / y cuanto él era capaz, / pero al hombre le dio más / cuando le dio el corazón».
«God created the flowers, so pretty and delicate as they are, he made them perfect in every way as much as he knew how / but he gave something more to man when he gave him a heart».
- Sentimiento compuesto 0.9117
«Grandemente lo pasaba / con aquella prenda mía / viviendo con alegría / como la mosca en la miel / ¡Amigo, qué tiempo aquél!»
«It was a grand life I had with that girl of mine, living in happiness like a fly in honey... What a time that was, friend!»
- Sentimiento compuesto -0.926
«Le alvertiré que en mi pago / ya no va quedando un criollo: / se los ha tragao el hoyo / o juido o muerto en la guerra, / porque, amigo, en esta tierra / nunca se acaba el embrollo».
«I can tell you, in my part of the land there's not a real criollo left: they've been swallowed by the grave, or run off, or been killed in the war / because in this country, friend, there's no end to the bad times».
- Sentimiento compuesto -0.9118
«¡Ah pobre, si él mismo creiba / que la vida le sobraba! / Ninguno diría que andaba / aguaitándoló la muerte;»
«Poor man / he must have thought to himself that he'd got life and to spare / no one would have said that Death was lying in wait for him».
- Sentimiento compuesto -0.9062
« Alcé mi poncho y mis prendas / y me largué a padecer / por culpa de una mujer / que quiso engañar a dos. / Al rancho le dije adiós, / para nunca más volver».
«I took my poncho and my gear and I went off to suffer wrong through the fault of a woman who tried to cheat two men at once / I said goodbye to my cabin never to return again».
Conclusión
Me encontré releyendo este clásico después de muchos años (lo leí por primera vez estando en el colegio secundario) y fue muy interesante usar herramientas propias de Ciencia de Datos para hacer un análisis exhaustivo del texto, paralelamente a la lectura. Con Python siempre descubro nuevas posibilidades, detrás de cada tema que investigo parece haber un mundo. Pero no hay que perder de vista algunas limitaciones que tiene, sobre todo en el campo del análisis de sentimientos, como ya mencioné antes. Probablemente también se pueda mejorar el método con el que llevé adelante dicho análisis de sentimientos.
Seguramente usaré estas técnicas para analizar algunos otros libros. También me gustaría ir sumando nuevas métricas al análisis. Si les interesa ver un análisis de datos sobre algún otro libro específico, déjenmelo saber en los comentarios.
[1] Esta es una de las medidas más antiguas y más ampliamente utilizada para evaluar la riqueza léxica de un texto. Se llama TTR, que es la abreviación de la expresión inglesa type-token ratio.
[2] Hápax legómenon es una transliteración del griego άπάξ λεγόμενον (άπάξ «una sola vez» y τό λεγόμενον «lo que se dice», «lo dicho»).
[3] El gaucho Martín Fierro está narrado en tercera persona por un narrador omnisciente. Aunque no está dentro del relato, este narrador no identificado también se expresa en el mismo lenguaje gauchesco de los protagonistas de la historia.
Esta no es una crítica literaria, es un ejercicio para obtener información relevante sobre un libro utilizando únicamente técnicas de anál...
Recursos para escritores en Finales Cerrados

🏆 TODOS los concursos literarios en español están primero en finalescerrados.com
🤖 ¿Cómo es posible? Gracias a bots programados para monitorear en tiempo real todo tipo de noticias literarias en medios de habla hispana.
🔍 El trabajo ya está hecho por vos para que no tengas que volver a perder tiempo buscando certámenes en la web. Usa tu tiempo para lo que más te gusta hacer: escribir.
💡 La idea surgió de la necesidad. Escribo y me gusta concursar cada vez que puedo. Encontrar concursos me parecía una tarea interminable y engorrosa, por eso apliqué mis conocimientos de programación y extracción de datos para facilitarla. Hace mucho tiempo que vengo armando este listado de certámenes literarios para uso privado, luego empecé a enviarlo por correo electrónico a otros autores que me lo solicitaban. La cantidad de interesados fue creciendo al punto que el siguiente paso lógico fue convertir ese correo electrónico en una publicación web.
Acá podés ver los últimos concursos agregados al listado finalescerrados.com/p/concursos-literarios-agregados-esta.html
También podés buscar por género o país en el menú Recursos Concursos Literarios.
Vía Javier E.G. Andújar (@finalescerrados) • Fotos y vídeos de Instagram
🏆 TODOS los concursos literarios en español están primero en finalescerrados.com 🤖 ¿Cómo es posible? Gracias a bots programados para moni...
Luces que se apagan
A la lista de pésimas noticias que nos deja el 2020 ahora hay que sumarle también el cierre de la Librería de las Luces, una de las más reconocidas de la Ciudad de Buenos Aires, ubicada en Avenida de Mayo y Bernardo de Irigoyen.
No tengo mayor detalle para aportar sobre las circunstancias de este cierre. La noticia está en todos los medios desde el viernes pasado y en principio es un dato más de la crisis económica que nos está castigando.
Solo quiero contar que allá por el 2012 dediqué mucho tiempo a patear la calle llevando bajo el brazo mi libro recién salido de la imprenta. Como buen autor independiente, iba de librería en librería ofreciendo los ejemplares a quien se animara a venderlos. Los resultados fueron dispares. Como regla general, obtuve aceptación y buenas ventas en las pequeñas librerías de barrio y rechazos en las grandes cadenas. Yo trabajaba en Microcentro y la Librería de las Luces quedaba dentro de mi circuito cotidiano, así que también pasé por allí ofreciendo mi libro.
De aquellas librerías que me abrieron sus puertas, la de las Luces fue la de mayor renombre. Además, le dieron a mi libro un lugar destacado en su vidriera —algo que no me esperaba— y consiguieron vender todas las copias en tiempo récord.
Son esos pequeños gestos de generosidad hacia escritores ignotos los que le aseguran a una librería un buen lugar en el recuerdo. Se va a extrañar su presencia en este paisaje cada vez más despojado de libros y libreros.
A la lista de pésimas noticias que nos deja el 2020 ahora hay que sumarle también el cierre de la Librería de las Luces, una de las más reco...
Sobre robots asesinos 🤖
Inteligencia artificial en el presente y futuro de la escritura. Una historia de ciencia (no) ficción.

Clásico
Todos conocemos la idea detrás del robot asesino, no tiene nada de original: un androide cobra conciencia y de yapa descubre su vocación por aniquilar a los humanos. Es —por suerte— una distopía que solo sirve para vender libros o entradas de cine. Pero existe una vuelta de tuerca más a la clásica historia del robot asesino. Es mucho más sutil que las andanzas de un psicópata de metal y silicio sin sentimientos, y también es mucho más real y potencialmente más peligrosa: una máquina que carece de conciencia, pero tiene la capacidad suficiente como para hacer tu trabajo.
A decir verdad, el miedo a perder el empleo por una máquina tampoco es demasiado novedoso. Es tan antiguo como la tecnología y el progreso. Por poner un ejemplo, a principios del siglo XIX Ned Ludd se dedicó a incendiar máquinas textiles en un intento fútil por detener la revolución industrial. Sus acciones fueron replicadas por otros obreros que recibieron el nombre de luditas en su honor. También en el origen de la palabra sabotaje (sabotage es el término francés) está la idea de trabajadores en rebeldía destruyendo maquinaria, con la particular metodología de arrojar un sabot (zueco, calzado de madera) a los engranajes para trancar un mecanismo. A pesar de esos esfuerzos anodinos, el progreso continuó su curso a través de la historia. Se perdieron empleos y oficios enteros desaparecieron mientras que otros nuevos surgían. Uno puede sospechar que el problema del progreso está en el punto de inflexión, en ese período de adaptación o de cambio de oficios.
Contemporáneo
Volviendo al presente, allí donde hay una computadora faltan varios archivistas, calculistas y empleados de correo, allí donde hay una máquina expendedora de golosinas falta un quiosquero, allí donde hay un cajero automático falta un bancario, etc. La lista de ejemplos es interminable. Así que, ¿cuál es la novedad, o bajo qué nueva forma se puede presentar en el siglo XXI el robot asesino? La respuesta es que ahora es inteligente. Inteligente pero no consciente, a no confundir. Ese pero es fundamental. El robot asesino de hoy está dotado de una limitada inteligencia artificial (I.A.) que potencialmente le permite o le permitirá dentro de no tanto tiempo realizar tareas que amenazaran ya no solo a trabajadores con bajo nivel de instrucción, sino a un importante número de profesionales bien preparados. Estas tareas pueden ser tan disimiles como conducir y volar autónomamente, dispensar consejos legales, realizar diagnósticos clínicos, escribir código de computadoras, generar material gráfico y audiovisual y un gran etcétera que parece llegar tan lejos como la imaginación. Esto está conectado con la idea de la próxima revolución industrial, conocida como Industria 4.0 o Cuarta revolución industrial.
¿A qué otra tarea se están animando los robots actuales?: A la escritura.
El mecanismo
«Cualquier tecnología suficientemente avanzada es indistinguible de la magia».
Arthur C. Clarke.
A la célebre frase de Arthur C. Clarke yo le agregaría que debe ser una tecnología inentendible además de avanzada. Si entendemos cómo funciona, deja de ser magia. Intentemos entonces entender cómo trabaja la I.A.
A grandes rasgos su funcionamiento se basa en técnicas de aprendizaje automático (Machine Learning). Particularmente utilizan redes neuronales artificiales. En ciencias de datos aprendemos que las redes neuronales han tenido un crecimiento muy grande en cuanto a su capacidad en los últimos años, pero no son ninguna novedad. El algoritmo del Perceptrón fue concebido en 1957 por el psicólogo Frank Rosenblatt, es un modelo matemático simple sobre el funcionamiento de una neurona biológica. Al igual que la neurona biológica puede tener un gran número de parámetros de entrada (dendritas) y una única salida (axón). Las neuronas artificiales también funcionan en red como sus contrapartes biológicas.
![]() |
Perceptrón. De Alejandro Cartas - CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=41534843 |
La neurona es la unidad de proceso de una red neuronal artificial y se distribuyen por capas. Los elementos de una capa tienen en común que sus entradas provienen del mismo origen y sus salidas se dirigen a un mismo destino. Las capas pueden ser de entrada, ocultas o de salida. La capa de entrada recibe información o parámetros desde el entorno, las capas ocultas son aquellas que tienen sus entradas y salidas dentro de la red y la capa de salida es la que envía información hacía afuera.
En una red neuronal artificial la salida de un conjunto de neuronas conforma las entradas de otras. Las entradas se ven modificadas por pesos sinápticos y en el proceso de aprendizaje que suele ser iterativo, esos pesos se ajustan hasta obtener la salida esperada. A las entradas multiplicadas por los pesos se le aplica una sumatoria (regla de propagación) antes de pasar a la función de activación (una función matemática) que entregará el valor de salida. Funciones típicas de activación son la Identidad, Escalón, Lineal a tramos, Sigmoidea, Gaussiana y Sinusoidal.
En cuanto a topologías, la red neuronal artificial más sencilla es la monocapa que solo consta de las entradas y una capa de salida. Luego está la red multicapa que consta de un número n de capas intermedias u ocultas entre la capa de entrada y la de salida. Por último, la red recurrente que tiene lazos de realimentación entre las neuronas.
La finalidad de todo esto es que una red que ha sido entrenada pueda al recibir ciertas entradas devolver ciertas salidas esperadas. Entonces, por ejemplo, se esperará que al entregarle a una red entrenada en reconocimiento de imágenes la foto de un pájaro (desmenuzada pixel a pixel) pueda devolver la palabra «pájaro».
El auge que ha cobrado la I.A. en los últimos años se debe a la aparición y constante mejora de una tecnología fundamental para su funcionamiento: el Big Data, que posibilita el almacenamiento de cantidades ingentes de datos y lo que es igual de importante, posibilita su procesamiento. Este cúmulo de datos se convierte en entrenamiento para las I.A., es algo así como la experiencia de la cual se nutren.
Si entrenamos a nuestra red de reconocimiento de imágenes con diez fotos de pájaros, seguramente tendrá un desempeño pobre. En cambio, si la entrenamos con diez millones de fotos, podemos esperar que sus errores sean marginales.
Máquinas de escribir
Como mencioné antes: dentro del cúmulo de tareas a las que se están animando las I.A., está también la escritura. Esa es la actividad que nos interesa y en eso quiero centrarme hoy. Entonces, ¿cómo funcionan las inteligencias artificiales capaces de escribir y qué tan capaces son?
La mayoría o al menos las más conocidas I.A. que escriben son entrenadas con grandes cantidades de texto disponible en internet (probablemente usen este artículo también en algún momento). Al igual que en el ejemplo de las imágenes de pájaros, cuanto más texto de entrenamiento tengan, mejor funcionará la red. Con todo ese texto de entrenamiento, aprenden cómo nosotros confeccionamos escritos. Lo que hacen es intentar predecir la palabra que sigue a una secuencia de palabras. De esta manera se construyen textos enteros.
Hoy en día múltiples empresas comercializan sus servicios de I.A. dedicada a la escritura, presentando dispares resultados y por lo general funcionando todas ellas mejor en idioma inglés que en español. Talk to Transformer es una API que permite probar en línea el servicio que ofrece InferKit, basado en el algoritmo GPT-2 de la empresa OpenAI, fundada por Elon Musk y Sam Altman.
Hice un pequeño experimento con Talk to Transformer, le propuse un disparador para una historia de terror, primero en español y luego en inglés. Estos fueron los resultados:
- Disparador en español: “Le advierto, tenga cuidado. Fantasmas del pasado habitan entre estas paredes”:
Le advierto, tenga cuidado. Fantasmas del pasado habitan entre estas paredes, y siempre es bueno preguntarse, ¿por qué? ¿por qué los únicos poderosos hicieron esto en este lugar? ¿por qué no nos tienen enunciadas las razones? ¿por qué no nos sancionan? ¿por qué la educación es un poco nula? Las escuelas públicas y privadas, de nacimiento y desaparecido, parecen mantener una relación estrecha con esas espacios construidos y escuchados por la vida de nuestros tíos, madres y abuelos. Tanto en el sur como en el norte de Santo Domingo, en la Paz y en las playas de Juana Díaz
- Disparador en inglés: “I warn you, be careful. Ghosts of the past dwell within these walls”:
I warn you, be careful. Ghosts of the past dwell within these walls, and it is said they still speak to the living in dreams, and make the dead walk the earth. Who will stand against a girl with a gun and a supernatural ability to shoot shadows? Oh, and your sister thinks you're stalking her. For over five years, Summer Satterfield has lived a life she didn't choose. She's hidden in the closet and refused to come out. When she finally decides to venture out, she finds a world she doesn't understand. A world where nothing makes sense and no one wants to
Como podrán observar, el texto en español no tiene sentido, pero el párrafo en inglés al menos mantiene el tópico del disparador y tal vez contenga el germen de una historia de terror. Al menos es algo con lo que se puede empezar a trabajar o de lo que se puede tomar una idea. Por ejemplo, esta frase me gustó mucho: «Who will stand against a girl with a gun and a supernatural ability to shoot shadows?». Veo en esto el valor de un generador aleatorio de frases más que un escritor autómata, puede ser muy útil para romper el circulo vicioso de las ideas propias que se forma a veces en la cabeza de un escritor. Aunque para eso mismo también sirve leer a otros autores.
Este año la empresa OpenAI presentó la siguiente generación de este algoritmo, el GPT-3, pero solo está disponible la versión beta para un número limitado de usuarios que quieran probarla inscribiéndose previamente. Muchas noticias han salido al respecto de esta herramienta. Me llamó la atención la historia de un bloguero que la utilizó para crear artículos que, según afirma, han resultado muy exitosos, habiendo sido leídos por veintiséis mil personas en apenas dos semanas.
Tal vez todavía esté demasiado lejos la I.A. de llegar a revolucionar la literatura. Pero si estas herramientas pueden generar entradas de blog creíbles e interesantes, tal vez estén destinadas a causar una revolución en el sector de la generación de contenido web en un futuro cercano, poniendo patas arriba el mundo de los blogueros y redactores de contenido. Al menos plantea algunos interrogantes interesantes: ¿Qué significa que una herramienta pueda generar un artículo de dos mil palabras apretando un botón? ¿Se va a saturar todavía más el ya saturado mercado de contenido? ¿Cómo afectará a los trabajadores de este sector?
Otro punto muy interesante de estos algoritmos es que no pueden ser usados sin la supervisión de un adulto. Aprenden de los textos disponibles en internet, y ya sabemos cómo escribe la gente en internet. Así que se pueden despachar con cualquier tipo de improperios, bajezas, expresiones racistas, sexistas o cualquier idea políticamente incorrecta.
También hay que pensar sobre cuál es la capacidad de innovar de un sistema que solo replica o arma en concordancia con lo que lee. Y a futuro, cuando estos textos automáticos tengan una presencia importante en internet ¿las I.A. estarán aprendiendo de lo que otras I.A. escribieron? Suena a regurgitar lo mismo una y otra vez.
La supremacía
Volviendo a la clásica historia del robot asesino, en algún punto del relato su inteligencia supera a la humana o al menos la iguala. Pero, ¿existe la posibilidad de que eso suceda algún día en el mundo real?
Sobre este punto no existe una opinión unánime. Es una pregunta que exige un ejercicio de futurología y solo deja espacio para una respuesta abierta.
Creo que la I.A. solo es la mímica de uno de los tantos mecanismos de la inteligencia humana, no se parece a la inteligencia real y está lejos de parecerse. Pero si es cierto que la I.A. avanza, incrementa su capacidad constantemente, y como dice el dicho italiano: «piano piano si va lontano». Mientras tanto la inteligencia humana no avanza. Entonces podemos pensarlo como una carrera entre una tortuga y una piedra en la que la piedra arranca con mucha ventaja. ¿Tiene alguna importancia esa ventaja si no puede moverse?
Inteligencia artificial en el presente y futuro de la escritura. Una historia de ciencia (no) ficción. Clásico Todos conocemos la idea det...
Suscribite para poder volver
Más leídos hoy
Javier E.G. Andújar
Recorte de prensa
Mis premios
Premio Platero
Club del Libro en Español de la ONU

Premio Ciudad de Buenos Aires
Fundación El Libro - Gobierno de la Cdad. de Bs.As.


Premio Caños Dorados
Asoc. Cultural Los Caños Dorados - Excma. Diputación Provincial de Córdoba - Ayto. de Fernán Núñez

Premio Miguel Hernández
Soc. de Fomento Cdad. de San Martín

Premio Stonberg
Stonberg Editorial

+ VER MÁS