Representación gráfica de la Ley de Zipf

Ley de Zipf, la fórmula secreta del lenguaje

La ley de Zipf sue­na téc­ni­ca, pero en reali­dad des­cri­be algo muy coti­diano: cómo usa­mos las pala­bras sin dar­nos cuen­ta. Esta idea dice, más o menos, que si orde­nas las pala­bras de un tex­to por fre­cuen­cia, la segun­da se repi­te la mitad que la pri­me­ra, la ter­ce­ra un ter­cio, la cuar­ta un cuar­to, y así suce­si­va­men­te. Es decir, unas pocas pala­bras están en todas par­tes, como “de”, “la”, “que”, mien­tras miles ape­nas aso­man una vez, tími­das, en un rin­cón del dis­cur­so. Aunque se lla­me “ley”, no es una nor­ma escri­ta, sino un patrón esta­dís­ti­co que apa­re­ce una y otra vez cuan­do con­ta­mos pala­bras con pacien­cia casi obse­si­va.

Lo fas­ci­nan­te es que este com­por­ta­mien­to no depen­de de un solo idio­ma ni de un solo autor, se repi­te en nove­las, noti­cias, chats y has­ta en letras de can­cio­nes elec­tró­ni­cas lle­nas de fra­ses cor­tas y repe­ti­ti­vas. El lin­güis­ta George Zipf, allá por media­dos del siglo pasa­do, se dedi­có a con­tar pala­bras en gran­des cor­pus y encon­tró esa rela­ción sim­ple entre ran­go y fre­cuen­cia. Después lle­ga­ron mate­má­ti­cos, físi­cos y fri­kis de los datos para notar que la mis­ma estruc­tu­ra apa­re­cía en otras par­tes del mun­do real, como si el uni­ver­so tuvie­ra debi­li­dad por las lis­tas orde­na­das. Y sí, tu cere­bro pare­ce cómo­do vivien­do den­tro de esa dis­tri­bu­ción extra­ña, casi como si hubie­ra pac­ta­do con la pere­za.

Del sofá al diccionario, por qué usamos siempre las mismas palabras

Si lo pien­sas un momen­to, la ley de Zipf enca­ja con cómo habla­mos cuan­do esta­mos can­sa­dos en el sofá o cami­nan­do dis­traí­dos por la ciu­dad. Usamos un puña­do de pala­bras como­dín para casi todo, y reser­va­mos los tér­mi­nos raros cuan­do nece­si­ta­mos afi­nar el sig­ni­fi­ca­do, por ejem­plo al hablar de cien­cia fic­ción dura o de sín­te­sis gra­nu­lar. Nuestro len­gua­je se mue­ve en un equi­li­brio curio­so entre la eco­no­mía del esfuer­zo y la nece­si­dad de pre­ci­sión, y Zipf pare­ce cap­tu­rar ese com­pro­mi­so incó­mo­do. Cuanto más gene­ral y útil es una pala­bra, más se repi­te, mien­tras que los con­cep­tos muy espe­cí­fi­cos se escon­den en la lar­ga cola de lo poco fre­cuen­te.

Ese patrón no solo apa­re­ce en el dic­cio­na­rio; si miras tu his­to­rial de chats, verás que repi­tes expre­sio­nes, mule­ti­llas, chis­tes inter­nos, como si tu voca­bu­la­rio coti­diano fue­ra un peque­ño top ven­tas. Algunas pala­bras son autén­ti­cos éxi­tos de lis­tas, siem­pre arri­ba del todo, mien­tras otras son lan­za­mien­tos limi­ta­dos que usas una sola vez y des­apa­re­cen. Esa jerar­quía implí­ci­ta hace que el len­gua­je resul­te pre­de­ci­ble, y jus­to esa pre­vi­si­bi­li­dad per­mi­te a los mode­los de len­gua­je, y has­ta a tus ami­gos, anti­ci­par lo que vas a decir antes de ter­mi­nar la fra­se. Quizá no seas tan impre­vi­si­ble como pen­sa­bas, aun­que tu ego lin­güís­ti­co pro­tes­te un poco.

Más allá del lenguaje, ciudades, apellidos y descargas

La gra­cia de la ley de Zipf es que se esca­pó del dic­cio­na­rio y empe­zó a apa­re­cer en sitios insos­pe­cha­dos, casi como un cameo mate­má­ti­co. Si orde­nas ciu­da­des por pobla­ción, verás que la segun­da sue­le ser apro­xi­ma­da­men­te la mitad de la pri­me­ra, la ter­ce­ra algo menos, y así se dibu­ja una cur­va pare­ci­da, con pocas urbes gigan­tes y una legión de pue­blos peque­ños. Pasa algo simi­lar con los ape­lli­dos en muchos paí­ses, algu­nos se repi­ten por todas par­tes, mien­tras otros son casi cria­tu­ras mito­ló­gi­cas que apa­re­cen una vez cada muchas gene­ra­cio­nes. Da la sen­sa­ción de que la reali­dad ado­ra orga­ni­zar­se en estruc­tu­ras con unas pocas estre­llas y un fon­do inmen­so de figu­ran­tes dis­cre­tos.

Cuando miras des­car­gas de apps, repro­duc­cio­nes de can­cio­nes o visi­tas a webs, el patrón vuel­ve a aso­mar, tozu­do. Unas pocas apli­ca­cio­nes lo aca­pa­ran todo, mien­tras un mun­do infi­ni­to de pro­yec­tos mino­ri­ta­rios sobre­vi­ve con cifras anec­dó­ti­cas. Zipf se con­vier­te enton­ces en una espe­cie de len­te para mirar la des­igual­dad en la aten­ción, no solo en las pala­bras. Aunque no expli­ca por sí mis­ma las cau­sas pro­fun­das, sí nos recuer­da que nues­tras elec­cio­nes colec­ti­vas tien­den a con­cen­trar­se, dejan­do una lar­ga cola de opcio­nes ape­nas visi­ta­das. Y, de paso, nos invi­ta a mirar con cari­ño esas rare­zas que casi nun­ca salen ele­gi­das, por­que dan color al con­jun­to.

Zipf e inteligencia artificial

Los mode­los de len­gua­je actua­les, esos que gene­ran tex­to a toda velo­ci­dad, se ali­men­tan jus­ta­men­te de estas regu­la­ri­da­des que Zipf des­cri­bió. Cuando una máqui­na apren­de pro­ba­bi­li­da­des de pala­bras, en reali­dad está nave­gan­do por una dis­tri­bu­ción don­de unas pocas apa­re­cen has­ta en la sopa y otras son casi exó­ti­cas. Eso le per­mi­te pre­de­cir la siguien­te pala­bra con bas­tan­te acier­to, inclu­so sin enten­der del todo el sig­ni­fi­ca­do pro­fun­do detrás de cada fra­se. Cuanto más se pare­ce tu tex­to a ese pai­sa­je zip­fiano, más fácil resul­ta que la IA lo emu­le sin que sal­te nin­gu­na alar­ma de rare­za esta­dís­ti­ca. Aunque a veces meta la pata, cla­ro, por­que no es infa­li­ble.

Infografia con una explicación gráfica de la Ley de Zipf