domingo, 13 de marzo de 2011

La norma lingüística y la “modernidad musical.


 

 


   Toso los pueblos tenemos cultura. Veamos un concepto general de esta palabra: "conjunto de modos de vida y costumbres, conocimientos y grado de desarrollo artístico, científico, industrial, en una época, grupo social, etc". Según esta idea, no hay ninguna sociedad que carezca de cultura; sin embargo, hay formas más fuertes que otras y son las que imperan. Esto conlleva variables que determinan si una forma de vida, una filosofía o un lineamieto social se impondrá o no en una colectividad.


Los españoles destruyeron (con un castellano incipiente) una gran cantidad de lenguas en América, tiraron por la borda los esquemas religiosos y artísticos de nuestros aborígenes. Todos sabemos que los peninsulares emplearon la persuasión y la fuerza para acomodar sus ideas a los conquistados. Éste sólo es un ejemplo de aculturación avasalladora.


Casi todas casi todas nuestras formas de vida son una herencia de la "madre patria"; somos en la mayor parte católicos, por ejemplo. Es una realidad que aunque tengamos similares actitudes sociales, cada país marca diferencias idiomáticas; es decir, toda comunidad tiene su propia norma lingüística, algo que nada tiene que ver con el conjunto de rasgos o reglas gramaticales que coinciden con el buen uso de la lengua. Eugenio Coseriu considera la norma en el plano de abstracción lingüística situado entre el sistema y el habla. Esa norma serían las realizaciones prototípicas en el caso de los alófonos o las construcciones gramaticales estándares.


      Si nos fijamos bien notaremos los diferentes alófonos de los hondureños con los hablantes hispanos de otros países. Los mexicanos pronuncian fuerte la "j" dicen "kaja", nosotros, "k""aj..a"; los argentinos dicen "kabasho", nosotros "kabaio" (es común observar que muchos hondureños jugadores de fútbol cuando se quedan un par de meses en Sudamérica vienen hablando con esa norma). Los dominicanos del sur confunden la "r" final por "i" y dicen comei,caminai. El puertorriqueño pronucia la "rr" múltiple como "j": "pejo por perro", también cambian la r por l al final: cantal por cantar (éste último alófono es compartido con muchos sectores poblacionales cubanos).


    Todas las comunidades hablantes tenemos una norma lingüísta establecida. Pero también están los regionalismos; de los cuales no nos podemos abstraer; los dominicanos nombran habichuelas a lo que nosotros conocemos como frijoles maduros - que en otras partes se llaman fréjoles, frijoles, judías, alubias-. María trabaja en una pollera aquí en San Pedro Sula, vende pollo frito; pero para algunos sudamericanos una pollera es una falda externa de vestido femenino.


    Tanto los alófonos como los regionalismos conforman una relidad cultural de la lengua y son signos de identidad cultural de cada grupo de hablantes. Pero qué raro sería que de pronto saliéramos hablando como argentinos o como puertorriueños, nos miraríamos "graciosos"; habríamos perdido la auntenticidad. Y peor si no supiéramos decodificar sus términos, quedaríamos en el ridículo. Lo hermoso de este asunto es que seamos capaces de comprender y darnos a comprender con cualquier hablante independientemente de donde sea. Se preguntarán cómo, facil: siempre hay un español estándar, ese que se adquiere con la buena lectura y formación de calidad y que en cualquier parte del mundo hispano se comprende.


    ¿Qué es lo malo? Que nuestros modernos "cantantes" locales son tan indigentes de erudición que les pasa lo de la India María: ni de aquí ni de alláporque cuando entonan una "pieza musical" no se sabe si son boricuas, cubanos, dominicanos u hondureños por la esperpenta mezcla de alófonos y regionalismos ajenos al castellano catracho. Claro, esta zafiedad verbal no es sólo de los nuestros, también se da en los pueblos que están muy dominados por las culturas de exportación económica. Pero esto no nos inhibe de ser sui géneris como -por ejemplo- nuestros vecinos colombianos que en cualquier parte del mundo se les conoce por su ballenato y la cumbia; a los mexicanos por sus mariachis. Aquí también hay suficientes valores del arte que pueden hacer que esto no se convierta en una de mis quijoterías.



Anyela Molina

EES

CI 19597827




  

 ¿Qué es la Lingüística Computacional o PLN?


    La Lingüística Computacional (Computational Linguistics) puede considerarse una disciplina de la linguística aplicada y la Intelingencia Artificial, y tiene como objetivo la realización de aplicaciones informáticas que imiten la capacidad humana de hablar y entender. A la Lingüística Computacional se le llama a veces Procesamiento del Lenguaje Natural (PLN), o Natural Language Processing (NLP). Ejemplos de aplicaciones de PLN son, por ejemplo, los programas que reconocen el habla, los traductores automáticos, ...

Todavía se sabe relativamente poco sobre el lenguaje humano. Los linguistas llevan décadas intentando descifrar cómo funciona esta capacidad única de la especie humana. Muchos animales tienen formas complejas de comunicación pero, que se sepa, ninguno de estos "lenguajes" cumple la característica más significativa del lenguaje humano natural: la infinitud discreta.

El lenguaje humano natural es discreto en cuanto a sus unidades, pero infinito en cuanto a las combinaciones que pueden hacerse con estas unidades.

Por ejemplo, las palabras son unidades discretas y finitas de la lengua. Sin embargo, combinando un número limitado de palabras podemos construir infinitas frases.

Y esa es la razón por la que un niño o un adulto construye contínuamente frases que no ha escuchado jamás a partir de palabras que sí ha tenido que escuchar y memorizar con anterioridad. Así, hablar es inventar continuamente nuevas combinaciones.


Lenguaje natural vs lenguaje artificial




      Tanto el lenguaje natural como el lenguaje artificial son humanos. El primero es natural porque se aprende (o adquiere) inconsciente e involuntariamente. Ningún bebé decide aprender o no la lengua que hablan sus padres, y ningún padre sienta a su hijo y le enseña las reglas sintácticas de su lengua, entre otras razones porque ni él mismo las sabría describir. Las personas hablan y se entienden, pero no se cuestionan las reglas que utilizan al hablar. Los linguistas sí lo hacen, y a veces llegan a conclusiones interesantes.

    Los lenguajes artificiales sí que se aprenden voluntária y conscientemente. Aunque algunos tienen la característica de la infinitud discreta, son muy diferentes a los lenguajes naturales. Un ejemplo de lenguaje artificial son los lenguajes de programación utilizados para desarrollar programas informáticos. Un ejemplo de lenguaje artificial finito sería el menú de los cajeros automáticos, el sistema operativo MS Windows,...




¿Podremos hacer que una máquina hable algún día?


   Bien, es hora de ponerse futurista.La máxima aspiración de la PLN sería conseguir que la computadora nos hablara y nos entendiera (en el sentido estrictamente lingüístico, claro).


    Es decir que fuera capaz de generar infinitas frases como las nuestras. Pero no solo infinitas, sino también aceptables. Una oración es aceptable cuando los hablantes nativos de esa lengua la reconocen como oración bien formada. Así, aunque cualquier hablante de español entienda 'perro comer hueso', ninguno la consideraría aceptable.

    Se supone que en el lenguaje intervienen múltiples factores cognitivos y psicológicos, pero no hace falta representar toda la estructura mental y cognitiva humana para empezar a trabajar. Cada programa informático, según sea su función, se ocupará de unos aspectos u otros del lenguaje y sus estrechas relaciones con los demás  componentes cognitivos. Se trabaja, pues, modularmente.

Por ejemplo, imaginemos que queremos crear un programa que genere infinitas oraciones bien formadas sintácticamente sin tener en cuenta el significado de éstas. Para hacerlo, solo haría falta un lexicón y un conjunto de reglas combinatorias. El lexicón es algo así como una lista de palabras que están almacenadas en nuestro cerebro. Estas palabras se relacionan de manera compleja con sus respectivos significados,  pero eso no nos interesaría para crear el programa . Al conjunto de reglas que nos permite combinar las palabras que hay en el lexicón se le llama sintaxis. Gracias a estas reglas el cerebro es capaz de crear infinitas oraciones.

Pues bien, la reglas sintácticas y el lexicón es lo que habría que hacer explícito en nuestro programa.  Formalizando ambas cosas, y precindiendo del resto, muchos lingüistas piensan que es suficiente para hacer que la computadora genere infinitas oraciones sintácticamente correctas.

Hoy día se están realizando muchas investigaciones para conseguir "explicar" a una computadora la manera que tenemos de comunicarnos los humanos, pero todavía queda mucho camino. Una de las mayores dificultades es el hecho de que todavía no hemos conseguido descifrar y explicitar totalmente las reglas inconscientes que rigen nuestra capacidad lingüística. De esto se encarga la linguistica teórica, que junto a la informática, son las dos herramientas con las que trabaja el PLN.




Anyela  Molina Rosales CI :19597827

 sección 2


PROBLEMAS ACTUALES DE LINGÜÍSTICA COMPUTACIONAL

GRIGORY SIDOROV

 

   El artículo describe en términos muy generales los problemas que enfrenta la lingüística computacional. El enfoque del artículo es mostrar qué tipo de problemas existen en diferentes niveles del lenguaje natural (fonética/fonología, morfología, sintaxis, semántica y pragmática) y en procesamiento automático de textos, así como dar algunos ejemplos de aplicaciones en que se usa el conocimiento lingüyístico. Aquí describimos brevemente un sistema de clasificación de textos, un buscador inteligente y un sistema de análisis sintáctico (parser).

Artículo

1. INTRODUCCIÓN

Los seres humanos tenemos características que nos hacen ser lo que somos. Una de estas características más importantes, es el dominio del lenguaje natural. Es difícil imaginar algunas actividades intelectuales que no involucren frases en algún idioma.

La humanidad posee una gran cantidad de conocimientos. La mayor parte de ellos tiene una forma simbólica, es decir, la representación de textos. En la época moderna, la humanidad ha obtenido un instrumento muy importante: la computadora, la cual ha transformado totalmente nuestro mundo en sólo los últimos diez años. Tal vez este cambio no es tan obvio para nosotros, porque las conversiones pasan día tras día, pero si comparamos la vida de hoy con la de hace 10 años, tenemos que la intervención revolucionaria de las computadoras es obvia.

Aunque son ayudantes valiosos, las computadoras no pueden ser usadas todavía como una herramienta que sustituya a los seres humanos en áreas que requieren la aplicación de conocimientos. Si fuera posible dar a las computadoras la posibilidad de entender de alguna forma los textos, que es equivalente a darles el acceso a todo el conocimiento de la humanidad, se estaría dando un paso nuevo en el desarrollo de nuestra civilización.

La ciencia que se ocupa de la forma como usamos el lenguaje natural, es decir, entender las frases de otras personas, así como formular nuestros pensamientos y transmitirlos, se llama lingüística. Si hablamos de la ciencia que trata de los modelos computacionales del lenguaje natural y cómo hacer entender a las computadoras los idiomas humanos, nos referimos a la lingüística computacional. También el término Procesamiento del Lenguaje Natural (NLP en inglés, Natural Language Processing) es usado frecuentemente.

En este artículo hablamos sobre los problemas que, en general, ahora son actuales en las áreas distintas a la lingüística computacional, los cuales corresponden a los tradicionales niveles del lenguaje. También hablamos de los problemas más específicos y presentamos unas soluciones para ellos.



2. NIVELES DE LENGUAJE


Tradicionalmente, el lenguaje natural está constituido en cinco niveles:

Fonética/fonología

Morfología

Sintaxis

Semántica

Pragmática


Las diferencias entre los niveles se basan en las distintas entidades Lingüísticass, de acuerdo al enfoque de análisis en cada nivel.

2.1. Fonética/fonología

La fonética es la parte de la Lingüística que se ocupa de la exploración de las características del sonido, factor esencial del lenguaje. Por esta razón los métodos de la fonéticaca son físicos en su mayoría. Gracias a esto, su posición en la lingüísticaa es bastante aislada.

Los problemas en fonética computacional están conectados al desarrollo de sistemas de análisis y síntesiss del habla. Aun cuando hay sistemas de reconocimiento de voz (la computadora puede reconocer palabras dichas en el micrófono), el porcentaje de palabras identificadas correctamente es todavía bastante bajo. Entre sistemas de generación de voz hay mucho más progreso: existen algunos que hablan bastante bien, sin "acento de robot", basados en síntesis compilativas, aunque su área de aplicación es bastante restringida.

A la fonología le interesa la posición del sonido en el sistema de sonidos del idioma, es decir, las relaciones con otros sonidos y sus implicaciones. Por ejemplo, los japoneses no pueden distinguir entre [l] y [r]; los extranjeros hablan el español con un acento fuerte al decir [rr] en lugar de [r]), y los españoles, usualmente, tienen un acento al hablar ciertos idiomas, pues no pueden pronunciar [l duro]. La respuesta es la misma: en sus idiomas nativos no existen oposiciones entre estos fonemas. Las diferencias que parecen muy grandes para quienes hablan otros idiomas, en realidad son insignificantes para ellos. En japonés no existe el fonema [l]. En la mayoría de los idiomas existe sólo un fonema para [r]-[rr] y, por lo tanto, no importa su duraciónn (en el español, al contrario). En español no existe el fonema [l duro], sólo [l suave].

2.2. Morfología

La morfología se ocupa de la estructura interna de las palabras (sufijos, prefijos, raíces y flexiones) y el sistema de categorías gramaticales de los idiomas (género, número, etcétera). Hay lenguajes que tienen bastantes diferencias con el español. Por ejemplo, enárabe, la raíz contiene tres consonantes. Asimismo, las variantes de una palabra se construyen con la inserción de vocales entre las consonantes (KiTaB - el libro, KaTiB - leyendo). En suahili hay una categoría de sustantivos, llamada "tipo de concordancia", en la que todas las palabras dependientes del sustantivo tienen el prefijo de éste. Los prefijos dependen del "tipo" de sustantivo. Aunque hay un parecido al género en español, hay más valores en esta categoría y la mayoría de sustantivos tiene su semántica correspondiente.

Los problemas de morfología computacional estánn relacionados con el desarrollo de los sistemas de análisis y síntesis automático morfológico. Aun el desarrollo de tales m´dulos es bastante difícil, porque hay que hacer grandes diccionarios de raíces (alrededor de 100 000). En general existe la metodología para tal desarrollo. Existen sistemas funcionando para muchos idiomas. Lo que falta aquí es un estándar. Por eso, frecuentemente, los investigadores crean de nuevo tales módulos, "reinventando la bicicleta".

2.3. Sintaxis

La sintaxis se ocupa de estudiar las relaciones entre las palabras de la frase. Existen dos modelos para representar tales relaciones: dependencias, en que las relaciones se marcan con las flechas (ver por ejemplo, Melchuk, 1988) y constituyentes, en que las relaciones existen en forma de árboll. El personaje principal, fundador de la "lingüística generativa", es N. Chomsky (ver por ejemplo, en españoll, Morales, 1974).

La sintaxis computacional debe tener métodos automáticos para análisis y síntesis, es decir, para construir la estructura de la frase por la frase, o generar la frase con base en su estructura. El desarrollo de los generadores es una tarea mucho más fácil, y está más o menos claro qué algoritmos son necesarios en estos sistemas. Al contrario, en el desarrollo de los analizadores sintácticos (se llama parser), todavía es un problema, especialmente para los idiomas que no tienen un orden de palabras fijo, como en el español (en ingléss, el orden de las palabras es fijo. Por eso las teorías basadas en inglés no son fáciles de adoptar al español). Vamos a ver un ejemplo de parser en las secciones siguientes.

2.4. Semántica

El propósitoo de la semántica es "entender" la frase: ¿Pero qué significa "entender"? Es obvio que hay que saber el sentido de todas las palabras y dar las interpretaciones a las relaciones sintácticas. Ahora los investigadores están más o menos de acuerdo en que los resultados del análisis semántico, deben ser las redes semánticas, donde se representan todos los conceptos y relaciones entre ellos. Entonces es necesario saber transformar el árbol sintáctico en la red semántica. Ese problema todavía no tiene una solución general.

Definir los sentidos de las palabras en sí ya es muy difícil, porque existe polisemia. Por ejemplo, "gato" es un felino y tambiénn un instrumento. Entonces, el problema es encontrar todos los sentidos y hacer separaciones entre ellos. A eso se dedica una parte de la semántica, que se llama lexicografía. Los resultados en este tipo de investigaciones, se encuentran en forma de diccionarios.

As, los problemas de semántica computacional son muy interesantes, pero todavía no tienen soluciones para la definiciónn de palabras y la construcción de redes semánticas. Mucho menos éxito hay si hablamos de representación de conocimientos en general.

2.5. Pragmática

Usualmente dicen que la pragmática trata de las relaciones entre la oración y el mundo externo. El ejemplo famoso es: si estamos comiendo juntos y yo le pregunto si usted puede pasarme la sal, usted contesta que sí y sigue comiendo. Seguramente la respuesta es formalmente correcta, porque usted de verdad puede pasarme la sal y esa fue la pregunta, pero la intención fue pedir la sal y no preguntar sobre la posibilidad de eso.

Otro ejemplo lo tenemos en una clase de oraciones que tienen una característica muy interesante. Ellas son las acciones por sí mismas (se llaman performativos). Por ejemplo, decir "prometo" es igual a prometer.

Como ya tenemos muchos problemas en la semántica, no podemos continuar el análisis en el nivel siguiente. Así que aún hay que tomar esto en cuenta.



3. PROCESAMIENTO DE TEXTOS

Suponemos que podemos hacer un procesamiento parcial de los cinco niveles de lenguaje. ¿Qué aplicaciones pueden tener los resultados en el procesamiento de textos? Los siguientes parecen ser los más importantes (aquí no hablamos de cosas que ya son una rutina, como correctores ortográficos, etcétera):

Generación automática de resúmenes

Clasificación automática de los documentos

Búsqueda inteligente en bases de datos (incluyendo Internet)

Traducción automática

Es obvio que para hacer todo esto, el sistema debe entender el texto. En la época moderna existen sistemas que hacen ese tipo de funciones, pero usualmente usan unas heurísticas y no implementan toda la cadena de análisis.

En el procesamiento de textos hay un problema muy importante: la resoluciónn de correferencia. A veces las relaciones de correferencia se llaman anafóricas (ver Gelbukh and Sidorov, 1999; Mitkov, 1997 y Hirst, 1981).

Hay dos casos principales de relaciones de correferencia:

(1) la correferencia directa, como en el discurso: "he visto una nueva casa ayer. Su cocina era excepcionalmente grande" (su = de la casa), y

(2) la correferencia llamada indirecta, como en el discurso: "he visto una nueva casa ayer. La cocina era excepcionalmente grande" (la cocina = de la casa) (ver ejemplo de Chafe, 1974).

En el último caso, la relación de correferencia se sostiene conceptualmente entre las dos palabras diferentes, cocina y casa. Nótese que no hay ninguna correferencia explícita entre estas dos palabras. La correferencia se sostiene entre la palabra cocina en el texto y la palabra cocina, que está introducida implícitamente en el discurso por la palabra casa.



4. UN CLASIFICADOR DE TEXTOS

Vamos a describir brevemente un sistema desarrollado en el Centro de Investigacin en Computación del IPN.

En la Ilustración 1 se presenta el resultado del funcionamiento del sistema Classifier. El sistema determina los temas principales del documento y los muestra como una histograma. Se nota que para el texto de que se trata, de Rabin y Arafat, el tema principal es "soldados y vida militar". Para detectar esto se hace un análisis de frecuencias de palabras, con el uso del diccionario jerárquico de conceptos, que se puede ver en la Ilustración 2. Las palabras "votan" por algún tema. La estructura del diccionario, en forma del árboll, permite hacer propagaciones de temas para los nodos no-terminales. En la parte derecha de la Ilustración 2, están presentes las palabras que se asocian con el nodo terminal. En este caso están en inglés, pero el sistema por el momento soporta también el español y el francés. La descripción detallada se encuentra en Gelbukh, et. al., 1999). 



5. UN BUSCADOR "INTELIGENTE"

Vamos a hablar sobre un sistema desarrollado en el Centro de Investigaciónn en Computación del IPN, para el Senado de la República Mexicana. El sistema permite enriquecer la petición del usuario, dependiendo del modo que el mismo elija. Entonces, la búsqueda con este sistema da la posibilidad de encontrar palabras, que son pertinentes, lo que con el buscador normal no seria posible. Entonces, cierto nivel de inteligencia del sistema se asegura con el uso de los diccionarios bastante grandes (de 10-20 megabytes cada uno). Por ejemplo, el diccionario de los sinónimos más lejanos contiene 65 378 entradas y 1 927 976 palabras en total. A cada modo (opción) del sistema le corresponde el uso de un diccionario.Vamos a hablar sobre un sistema desarrollado en el Centro de Investigación en Computación del IPN, para el Senado de la República Mexicana. El sistema permite enriquecer la petición del usuario, dependiendo del modo que el mismo elija. Entonces, la búsqueda con este sistema da la posibilidad de encontrar palabras, que son pertinentes, lo que con el buscador normal no seria posible. Entonces, cierto nivel de inteligencia del sistema se asegura con el uso de los diccionarios bastante grandes (de 10-20 megabytes cada uno). Por ejemplo, el diccionario de los sinónimos más lejanos contiene 65 378 entradas y 1 927 976 palabras en total. A cada modo (opción) del sistema le corresponde el uso de un diccionario.(Figura 2.)

Si se elige la opción Formas de palabras, se enriquecerá la petición con las formas morfológicas de las palabras. Por ejemplo, si se busca por la petición "pequeño", se encontrarán los documentos que contienen las formas pequeño, pequeña, pequños pequeñas.

Si se elige la opción Sinónimos, se enriquecerá la orden con los sinónimos de las palabras de la petición. Por ejemplo, si se busca por la petición "pequeño", se encontrarán los documentos que contienen las formas pequeño, chico.

Si se elige la opción Sinónimos más lejanos, se enriquecerá la solicitud con los sinónimos cercanos y lejanos de las palabras de la petición. Por ejemplo, si se busca por la petición "pequeño", se encontrarán los documentos que contienen las formas pequeño, chico, reducido.

Si se elige la opción Sinónimos y antónimos, se enriquecerá la petición con los sinónimos cercanos y lejanos de las palabras de la solicitud, así como sus antónimos. Por ejemplo, si se busca por la petición "pequeño", se encontrarán los documentos que contienen las formas pequeño, chico, reducido, grande.

Si se elige la opción Sinónimos y antónimos más lejanos, se verá enriquecida la petición con los sinónimos cercanos y lejanos de las palabras de la solicitud, así como sus antónimos cercanos y lejanos. Por ejemplo, si se busca por la petición "pequeño", se encontrarán los documentos que contienen las formas pequeño, chico, reducido, grande, amplio y sus formas morfológicas.

En la Ilustración 3 se muestran los resultados de la búsqueda para la palabra "coche". También fue encontrada la palabra "automóvil", porque el modo de sistema fue "búsqueda con sinónimos".

(Figura 3.)

En un fragmento del diccionario de sinónimos más cercanos, con todas las formas morfológicas, tenemos:

zurruscarse zurruscábamos zurruscáis zurruscáramos zurruscáremos zurruscásemos zurruscó zurrusca zurruscaba zurruscabais zurruscaban zurruscabas zurruscad zurruscada zurruscadas zurruscado zurruscados zurruscamos zurruscan zurruscando zurruscará zurruscarán zurruscarás zurruscaré zurruscaréis zurruscaría zurruscaríais zurruscaríamos zurruscarían zurruscarías zurruscara zurruscarais zurruscaran zurruscaras zurruscare zurruscareis zurruscaremos zurruscaren zurruscares zurruscaron zurruscas zurruscase zurruscaseis zurruscasen zurruscases zurruscaste zurruscasteis zurrusco zurrusqué zurrusquéis zurrusque zurrusquemos zurrusquen zurrusques

zutano citano cualquiera desconocida desconocidas desconocido desconocidos fulqo mengano perengano


6. UN PARSER

Damos un ejemplo de un sistema que permite hacer un análisis sintáctico de español desarrollado del CIC-IPN. El parser es el programa, que, en general, no depende del idioma de la frase de entrada. Lo que depende del idioma es la gramática, un conjunto de reglas en la forma especial.

Los resultados del árbol sintáctico se muestra en la Ilustración 4. El programa hace un análisis morfológico, y despuéss trata de aplicar las reglas gramaticales para cubrir toda la frase. Si no está cubierta toda la frase, entonces no se puede construir el árbol.(Figura 4.)

Las reglas tienen la siguiente forma:

VP(nmb,pers,mean)

-> VP_DOBJ(nmb,pers,mean)

-> VP_OBJS(nmb,pers,mean)


Esta regla significa que la frase verbal puede ser frase verbal con objeto directo o indirecto.

VP_DOBJ(nmb,pers,mean)

     -> @:VP_OBJS(nmb,pers,mean) dobj_suj:SUJ_DOBJ [dobj_suj:SUJ_DOBJ]

#                            clavaban sus dardos

     -> @:VP_DOBJ(nmb,pers,mean) obj:LIS_PP

#                             trasladó su fábrica a la frontera

     -> @:VP_DOBJ(nmb,pers,mean) &mod:VP_MODS

#                            ordenó una fila moviendo las sillas

Esta regla dice qué formas puede tener el objeto directo. Las reglas automáticamente están compiladas en forma entendible para el parser.


Conclusiones

Nosotros hemos discutido algunos problemas a los que se enfrenta la lingüística computacional, en relación con los niveles de lenguaje natural y con las tareas prácticas de procesamiento de textos. Como ejemplo, hemos visto un clasificador de textos, un sistema de búsqueda "inteligente" (por contenido) y un parser. En general, la lingüística computacional es una ciencia que tiene por el momento más problemas que soluciones, pero es un campo de investigación muy interesante y prospectivo.



http://www.revista.unam.mx/vol.2/num1/art1/


Anyela  Molina Rosales CI :19597827

 sección 2



ALGUNAS PROPIEDADES MATEMATICAS DE
LOS SISTEMAS LINGÜÍSTICOS

 

Fernando Galindo Soria
Septiembre de 1992
UPIICSA-IPN
Calle de Te # 950
Col. Granjas México
México, D.f.
08400 MÉXICO
Tel 6-49-03-66 ext 301


I) DESARROLLO HISTORICO.


I.1 De la Lingüística matemática a los Sistemas Dirigidos      por Sintáxis.


A pesar de que el área de la Lingüistica Matemática es relativamente joven, ya que, empezó a consolidarse a mediados de los 50's, su campo de aplicación en la Informática ha ido creciendo rápidamente.

Uno de sus primeros logros se presentó cuando se usó para decribir la gramática del Lenguaje Algol durante los años 60's propiciando que ya para finales de esa décadas empezaran a surgir libros donde se mostraba como construir un compilador a partir de la gramática de un lenguaje dado, y que durante los 70's se volviera cotidiana la construcción de compiladores e intérpretes bajo este enfoque.

Lo anterior ocasionó que en prácticamente todos los cursos de compiladores y de Programación de Sistemas se enseñaran una gran cantidad de métodos para analizar tanto léxica como sintácticamente las oraciones de algún lenguaje de programación

En particular en el caso del Análisis Sintáctico se desarrolló una gran variedad de métodos que permiten detectar si una oración es sintácticamente correcta, verificando si cumple o no con las reglas gramaticales del Lenguaje de Programación.


Conforme fue madurando el área, se detectó que existían muchos problemas en los cuales el usuario se comunicaba mediante algún lenguaje con la computadora, desde los problemas más complejos de reconocimiento de lenguaje natural hasta la comunicación en algún lenguaje de control con el Sistema Operativo o algún lenguaje de Descripción de Datos con un Manejador de Base de Datos

En particular se detectó que algunos de estos problemas se volvían un caso específico de la construcción de intérpretes, ya que es relativamente fácil, usando las técnicas de compiladores que se reconozca por ejemplo las instrucciones de un lenguaje de control, y se ejecuten.  A todo este universo de problemas se les agrupó con el nombre genérico  de Sistemas Dirigidos por Sintaxis, y es así que en la actualidad es común encontrar por ejemplo editores dirigidos por sintáxis.


I.2) Inferencia Gramatical y Programación Dirigida por      Sintáxis.

Ya para mediados de los 70's era común tratar de construir interpretes de múltiples tipos de lenguajes, sin embargo, casi desde el principio se encontró un problema que luego se volvió cotidiano, ya que, según la técnica desarrollada en la contrucción  de compiladores, para poder construir el compilador o intérprete de un lenguaje dado, se requiere contar con su gramatica y en ningún libro de Compiladores decía como encontrar la gramática de un lenguaje.

En el caso específico de los lenguajes de programación y algunos otros, la gramática la daba el diseñador del lenguaje y reflejaba las características y restricciones que se querían imponer al sistema, sin embargo, en muchos otros casos no se contaba con la gramática, sino con múltiples ejemplos de oraciones del lenguaje y con criterios y reglas empíricas, por lo que encontrar la gramática de un lenguaje dado a partir de un conjunto de oraciones se volvió un gran reto.

En paralelo con lo anterior y también desde  mediados de los 60's se empezó a aplicar la Lingüística Matemática al Reconocimiento de Patrones y en particular al Reconocimiento de Imágenes y ya desde esa época se empezo a desarrollar el Reconocimiento Sintáctico de Patrones,  en el cual se aplica la Lingüistica Matemática para reconocer imagenes o patrones específicos viéndolos como  'oraciones' de algún 'Lenguaje de Patrones o Imágenes'.

Ahora bien, en el caso del Reconocimiento de Patrones es común contar con un gran número de oraciones que representar imágenes o patrones particulares, si embargo, por lo común no se cuenta con la gramática del lenguaje, por lo que, desde mediados de los 60's se comenzaron a desarrollar un conjunto de métodos y técnicas orientados a la obtención de la gramática de un lenguaje a partir de ejemplos de oraciones de este lenguaje. A todo este conjunto de herramientas se les englobó con el nombre genérico de Inferencia Gramatical.

A principios de los 80's se empezaron a combinar la Inferencia Gramatical y la construcción de Compiladores con el fin de resolver problemas de tratamiento de diferentes tipos de lenguajes y gracias a esa interrelación ya se contaba con un conjunto de herramientas con las cuales:

a) a partir de un conjunto de ejemplos de un lenguaje se puede encontrar la gramática que describe el lenguaje.

b) a partir de la gramática se puede construir un compilador o intérprete capaz de reconocer las oraciones del lenguaje.

Ya para 1983 se tenían integradas estas herramientas en un método conocido como Programación Dirigida por Sintaxis, en el cual, se muestra un proceso para desarrollar sistemas a partir de ejemplos del lenguaje con el que se quieren dar órdenes al sistema.


I.3) Enfoque Lingüístico.

En un principio estas herramientas se aplicaban para encontrar la gramática y construir el compilador de lenguajes muy concretos, tipo PASCAL, FORTRAN, lenguajes de consultas y por otro lado se siguieron aplicando al Reconocimiento de Patrones.

Sin embargo, conforme avanzó el área se detectó que existían muchos otros problemas donde se podía aplicar este método, únicamente con la condición de que los problemas a atacar fueran susceptibles de representarse mediante oraciones de algún lenguaje.

Pero por otro lado, el mismo concepto de lenguaje se fue ampliando, ya que, si en un principio se utilizaron estas herramientas para manejar lenguajes como FORTRAN y PASCAL, al mismo tiempo se utilizaban para representar imágenes y patrones en general.

Actualmente el campo de aplicación de estas herramientas ha crecido enormemente y se postula que cualquier problema susceptible de ser atacado por medios automatizados es susceptible de representarse mediante oraciones de algún Lenguaje, llegándose a plantear así el Enfoque Lingüístico, en el cual se considera que cualquier 'objeto' se puede ver como una oración de algún lenguaje X.

 

Ahora bien, si se tuviera que tener la lista de todas las oraciones de un lenguaje no terminaríamos, por lo que, comúnmente en lugar de la lista se utiliza una Gramática o conjunto de reglas que representan la estructura del lenguaje.

Por lo que, el principal problema cuando se tiene que manejar objetos de los cuales no se tiene la gramática es precisamente encontrar ésta.


I.4) Operaciones Lingüísticas,

En la actualidad ya existen una gran cantidad de herramientas de Inferencia Gramatical orientadas a encontrar la gramática de múltiples tipos de lenguaje (visuales, auditivos, de trayectorias, etc.).

Sin embargo, los primeros métodos presentados, tendían a ser complejos, particulares y difíciles de programar, por lo que, se empezaron a desarrollar nuevos métodos, para diferentes tipos de problemas.

A través de esta búsqueda de métodos y herramientas, ya para principios de los 80's se empezó a detectar que muchos métodos eran parecidos y solo eran un caso particular de métodos más generales.

En la actualidad se ha llegado a que existe  un grupo de operaciones lingüísticas que al combinarse entre sí cubren la gran mayoría de los problemas de Inferencia Gramatical y por otro lado se ha detectado que estas operaciones son similares a ciertos procesos algebráicos y analíticos.

En particular se cuenta con una gran cantidad de herramientas basadas en las operaciones linguísticas de:

 .Factorización
 .Conmutatividad
 .Distribución
 .Recursividad

La Factorización y Distribución Linguísticas son equivalentes a las algebráicas con la diferencia de que en este caso se factorizan o distribuyen componentes de una oración.

La Recursividad es, tal vez, la herramienta linguística más poderosa ya que permite encontrar reglas generales o patrones a partir de casos particulares.

Estas herramientas de la Inferencia Gramatical se utilizan cotidianamente desde hace varios años, tanto para desarrollo de sistemas en forma manual mediante la Programación Dirigida por Sintáxis, como en la construcción de Sistemas Evolutivos.

Es precisamente durante el desarrollo de estas aplicaciones que se ha detectado un conjunto de propiedades de tipo matemático, presentes en la Factorización, Distribución y Recursividad Linguística.

 

2) FACTORIZACION LINGUISTICA.


2.1) Introducción.

Las herramientas de la Inferencia Gramatical trabajan con la estructura de las oraciones buscando encontrar una estructura general (o regla sintáctica) a partir de estructuras particulares (u oración canónica).

Así, si por ejemplo, se tienen las siguientes oraciones:

 Juan es hermano de Pedro y
 Juan estudia en UPIICSA

se puede detectar que en las dos oraciones se encuentra presente la palabra Juan y que un párrafo equivalente sería:

 Juan es hermano de Pedro y estudia en UPIICSA.

Si se observa lo que se ha hecho es detectar que la palabra Juan era común a las dos oraciones por lo que se factorizó (o sea que se sacó como factor común) y se obtuvo un párrafo donde sólo aparece una sóla vez.

Para que se pueda visualizar el proceso sustituiremos fragmentos de la oración por etiquetas de acuerdo a la siguiente tabla:

Fragmento    Etiqueta
 Juan      o1
es hermano de    r1
 Pedro     o2
   y       +
estudia en     r2
 UPIICSA     o3


Con lo que el párrafo Juan es hermano de Pedro y
        Juan estudia en UPIICSA


quedarían como:

o1 r1 o2 +
o1 r2 o3

Donde se observa que o1 es común a las 2 oraciones.

A las oraciones

o1 r1 o1  y
o1 r2 o3

se les conoce como oraciones canónicas y en general cuando se sustituyen los elementos de una oración por una representación que permita visualizar la estructura de la oración se obtiene una oración canónica.

Recordemos que la factorización algebráica consiste en encontrar los factores comunes en una expresión algebráica y sacarlos de la expresión, como se ve a continuación:
. ab + ac = a(b+c)

.3x + 3y = 3(x + y)

.a(b * c) + a(e/f) = a(b*c+e/f)

Aplicando lo anterior a las oraciones canónicas entonces tenemos que:

o1r1o2+o1r2o3 = o1(r1o2+r2o3)

o sea que el párrafo

o1r1o2 + o1r2o3

es equivalente al párrafo

o1(r1o2+r2o3)

si sustituimos las etiquetas por los fragmentos que representan tenemos entonces que:

Juan es hermano de Pedro y  estudia en UPIICSA
 o1        r1        o2  +     r2        o3

 

2.2) Generación de Gramáticas.


La factorización Lingüística es una herramienta muy poderosa ya que permite encontrar los factores comunes dentro de un conjunto de oraciones, por lo que, si por ejemplo tengo un conjunto de ejemplos de algún lenguaje, aplicando la factorización se pueden encontrar algunos de los factores comunes o reglas generales del lenguaje.

Lo anterior se puede aplicar para encontrar entonces una Gramática de un lenguaje a partir de ejemplos de las oraciones del lenguaje, ya que si por ejemplo, se tienen las siguientes oraciones canónicas (que se obtuvieron sustituyendo los elementos de las oraciones del lenguaje por etiquetas)

a b c d e
a b m e x y z
a b m g

lo primero que se hace es que como esas oraciones canónicas representan la estructura de las oraciones del lenguaje, entonces las integramos para formar una primera gramática del lenguaje

 

S --> a b c d e |
    a b m e x y z |
    a b m g

conocida como Gramática Canónica donde 'S -->' se puede ver como el nombre de una rutina y el símbolo '|' como un separador entre los diferentes casos de un programa.

Por lo que, la Gramática Canónica se puede leer como:

La Rutina S genera tres posibles tipos de oraciones:

Oraciones del tipo    abcde
    del tipo    abmexyz
  y del tipo    abmg

Lo cual es congruente con el hecho de que cada uno de los tipos anteriores corresponde a cada una de las oraciones canónicas que se dieron como ejemplo, por lo que podemos afirmar que la Gramática Canónica genera al menos las oraciones que se tenían como ejemplo originalmente.

Como siguiente paso se toman las oraciones de la gramática canónica y se les aplica la factorización lingüística, para lo que se considera al símbolo '|' equivalente al '+' del Algebra tradicional

S --> abcde |
    abmexyz|
    abmg


    factorizando ab queda:

S --> ab( cde |
          mexyz |
          mg )

    Factorizando m queda:

s --> ab( cde |
          m( exyz|
             g ) )

Dado que no es común el uso de paréntesis dentro de una Gramática se introducen una serie de variables auxiliares (conocidas como Variables no Terminales) en lugar de los parténtesis, quedando
      Introduciendo la variable no terminal X

S -->  abX

X -->  cde|
       m( exyz|
          g )

       Introduciendo la variable no terminal Y

S --> abX
X --> cde|
      mY
Y --> exyz|
      g

Que se lee:

El programa S genera ab y llama a la rutina X

La rutina X genera las cadenas
cde  o
my

La rutina Y genera las cadenas
exyz  o
g

si analizamos este programa podemos ver que:

 

    abcde
S ==> abX ==> abmY==> abmexyz
       abmg

Donde '==>' significa 'se sustituye por' de donde S se sustituye por abX y así sucesivamente de donde llegamos que al final

S genera abcde
   abmexyz
   abmg

que es la lista de oraciones originales
De donde se tiene que la gramática canónica

S --> abcde
    abmexyz
    abmg

y la gramática

S --> abX
X --> cde|
      mY
Y --> exyz|
      g

obtenida a partir de la primera mediante la Factorización  Lingüística generan las mismas oraciones.

Sin embargo, estructuralmente estas dos gramáticas no son iguales ya que en el primer caso se tiene sólo un nivel y en el segundo la gramática incluye tres niveles.

Cuando dos gramáticas general el mismo lenguaje pero con diferente estructura se dice que son débilmente equivalentes
2.3) De la Gramática al Programa.

Ahora bien si analizamos un poco a fondo las dos gramáticas y las vemos como dos programas podemos observar que la gramática canónica se comporta como un programa con tres opciones en la primera opción el programa ejecuta las instrucciones:

abc ...

en la segunda opción ejecuta

abme ...
y en la tercera
abmg

Por lo que existe una repetición de instrucciones comunes y lo más lógico es que el programa ejecute al principio

ab
y después las opciones
c...
me...
mg...

que si observamos es precisamente la idea de la segunda gramática.

Por lo que la primera gramática se comporta como el programa:

Program S
1) a b c d e
2) a b m e x y z
3) a b m g

fin programa

y la segunda gramática se comporta como:

Program S
ab
 1)cde
 2)m
  1)exyz
  2)g

fin programa

O sea que las instrucciones repetitivas sólo se ejecutan una sóla vez.


2.4) Aplicaciones.

Una de las aplicaciones de la factorización lingüística se encuentra precisamente en la depuración de programas con el fin de quitar código redundante.

Sin embargo no es la única ya que una gran cantidad de métodos de inferencia gramatical se reducen a la aplicación de la factorización.

Una aplicación que se desarrolló en 1988 en colaboración con Javier Ortiz (en esa época Coordinador de la Maestría en Computación del CENIDET en Cuernavaca, Mor.) consistió en la aplicación de la factorización a la construcción de un Sistema Evolutivo generador de Sistemas Expertos, en el cual, la idea consistió básicamente en tomar una gran cantidad de oraciones en las cuales un experto explica como resuelve un problema y transformar cada oración en una oración canónica incluyendo por ejemplo síntomas (s), diagnósticos (d) y tratamientos (t) e ignorando todo lo demás.

A partir de ahi integrar todas las oraciones canónicas en una Gramática Canónica, mediante factorización agrupar los síntomas comunes y proponerlos como reglas generales hasta construir una cascada de reglas de las más generales a las más específicas que caracterizan un problema o diagnóstico particular.

Por ejemplo si se tiene la oración:

Paciente femenino de 15 años con 38 grados de temperatura y
    S1         S2          S3
dolor en el pecho, se le diagnosticó faringitis y se le
      S4                                d1
recetó antibióticos, antistamínicos y reposo
           t1              t2           t3

la oración canónica equivalente sería:

S1S2S3S4d1dt1t2t3

Por otro lado si en lugar de tener una sola oración se tiene la información de todos los pacientes del hospital entonces se pueden obtener cientos o miles de reglas canónicas, las cuales mediante factorización pueden proporcionar las reglas generales de un problema y su tratamiento.

 

Por ejemplo si se tienen las reglas.

S --- S1S2S3S4d1t1t2t3
    S1S2S5d2t1t4
    S1S4S6S7d3t5


   Factorizando S1

S --> S1X
X --> S2S3S4D1T1T2T3
      S2S5D2T1T4
      S4S6S7D3T5


   Factorizando S2

S --> S1X
X --> S2Y
      S4S6S7D3T5
Y --> S3S4D1T1T2T3
      S5D2T1T4
Analizando la última gramática se observa que S1 es la característica general de los pacientes y después se tiene a los pacientes con S2 o con S4.

Obtener un sistema experto a partir de las reglas es directo.

3) CONMUTATIVIDAD LINGUISTICA.


En el anterior ejemplo los síntomas, tratamientos y diagnósticos no necesariamente están ordenados o aparecen en el mismo orden en todas las oraciones, por lo que, ya que se encontraron las oraciones canónicas el siguiente paso consiste en ordenar los elementos de la oración, Por ejemplo, si se tiene:

S5S1d2t1S2t4

al ordenarla queda:

S1S2S5d2t1t4

Lo anterior no necesariamente es aplicable a cualquier oración ya que es mucho más común que se trabaje con oraciones en las cuales no se permite la conmutatividad con lo que tenemos dos tipos de oraciones

Las oraciones conmutables como en el caso de los sistemas expertos y de las oraciones donde los diferentes elementos son del mismo tipo (por ejemplo una lista de atributos como: alto, fuerte, estudioso)

Y las oraciones no conmutables como en el caso general de cualquier expresión en Español. Por ejemplo:

El perro mordió al gato

no es lo mismo que:

mordió el al gato perro.

Por lo que la propiedad de la Conmutatividad Lingüística se puede aprovechar por ejemplo en los sistemas expertos pero no es de aplicación generalizada, ya que sólo se puede aplicar en general a elementos del mismo tipo y que se encuentren contiguos.

Por ejemplo la expresión algebráica

a+b+c

es conmutable y equivalente a

b+a+c   
a+c+b   etc.

Por otro lado  a+b*c es  conmutable bajo +
 b*c+a 

o bajo *

 a+c*b

Pero no es conmutable en forma mezclada
a*c+b

Por otro lado la expresión   a-b/c
no es conmutable bajo ningún caso ya que se obtendrían cosas como:

b/c-a
a/b-c

En el caso de la expresión lingüística se presenta exactamente el mismo problema con la diferencia de que en este caso la cantidad de tipos de elementos y de operadores es mucho mayor y puede cambiar de un lenguaje a otro por lo que requiere de un análisis específico para cada caso.

 

4) DISTRIBUCION LINGUISTICA.


4.1) Antecedentes.

En 1990 durante la construcción de un Sistema Evolutivo para representación de conocimiento desarrollado por Jesús Olivares, se presentó un problema relacionado con la generación de redes semánticas a partir de oraciones declarativas en lenguaje natural, ya que cuando las oraciones eran por ejemplo:

a) Juan es hermano de Pedro
b) Juan estudia en UPIICSA
es relativamente fácil construir la red semántica 

 

 

 

 

 

 

Ya que en general los elementos de una red semántica son objetos relacionados entre sí, por lo que si tengo una oración de la forma  o1r1o2
la red semántica es directa

 

En general si se tiene un conjunto de oraciones

o1r1o2
o3r2o4
o1r3o5
o2r4o5
o3r5o6

la red semántica es directa ya que simplemente cada objeto se asocia con un nodo (bolita) y cada relación con un flecha, quedándo la red:

 


Sin embargo, cuando se recibe una oración declarativa en lenguaje natural, difícilmente es una lista del tipo objeto relación objeto ((oro)  sino que es más común oraciones como:


a) Juan es hermano de Pedro y estudia en UPIICSA

o sea de la forma

o1(r1o2+r2o3)

b) Juan es inteligente, estudioso, trabajador y alegre.
o sea de la forma

o1r1(a1+a2+a3+a4)

donde a1, ... a4 son los atributos de Juan.

 

4.2) Distribución Lingüística.

Ahora bien, a partir de oraciones como las anteriores no es factible general directamente la red semántica, por lo que, es necesario transformarlas en oraciones del tipo ORO.

Para lograr lo anterior se desarrolló y aplicó una técnica conocida como Distribución Lingüística.

La distribución lingüística es la operación inversa de la factorización lingüística, por lo que:

o1(r1o2+r2o3) = o1r1o2+o1r2222o3

o1r1(a1+a2+a3+a4 = o1r1a1+o1r1a2+o1r1a3+o1r1a4

De donde, si se tiene la oración:

Juan es inteligente, estudioso, trabajador y alegre su oración canónica es:

o1r1(a1+a2+a3+a4)
al aplicar la distribución lingüística, queda:

o1r1a1+
o1r1a2+
o1r1a3+
o1r1o4

de donde se tienen las oraciones:
Juan es inteligente,
Juan es estudioso,
Juan es trabajador,
Juan es alegre

y a partir de ahí la red semántica es directa

 

 

 

 

 

 

La distribución lingüística se puede aplicar a la descomposición de oraciones relativamente complejas, por ejemplo:

Juan  y Pedro estudian en UPIICSA  y trabajan en el
 o1   +  o2       r1        o3     +       r2
Metro
  o4

se puede ver como

(o1+o2) (r1o3+r2o4) =

=o1(r1o3+r2o4)+o2(r1o3+r2o4) =

= o1r1o3 + o1r2o4 +
  o2r1o3 + o2r2o4

Que son equivalentes a las oraciones:

Juan estudia en UPIICSA y
Juan trabaja en el metro y
Pedro estudia en UPIICSA y
Pedro trabaja en el Metro.

De donde la red semántica sale directa.


5) PROPIEDADES ALGEBRAICAS DE LOS SISTEMAS LINGUISTICOS.


La operaciones de factorización, conmutatividad y distribución Lingüística son operaciones netamente algebráicas, por lo que, en este apartado se comentarán algunas características generales de este sistema algebráico.

En primer lugar, es necesario comentar que dentro de una Gramática se encuentran involucrados al menos dos operadores.

El primer operador es el operador de Concatenación que permite construir cadenas de caracteres (u oraciones) a partir de elementos simples.


Por ejemplo si se tiene el siguiente conjunto de elementos


VT =( a,  b,  c, d )

 

La operación de concatenación permite formar cadenas como:

abc
baba
bcdabc
ac

La operación de concatenación se podría ver como el '*' de algunos otros sistemas algebráicos.

El segundo operador presente en una gramática es el operador '|' que se lee 'o' y se presenta cuando en una gramática se tiene más de una opción.

Por ejemplo la gramática

S ---  abcd |
       abd |
       bca

Nos dice que S se puede sustituir por:

abcd ó abd ó bca

El operador '|' se puede ver como el '+' de algún otro sistema algebráico, de donde por ejemplo la factorización lingüística se puede visualizar como:

abcb+abd+bca=ab(cb+d) bca.

La concatenación y el operador '|' no son los únicos elementos algebráicos presentes en un sistema lingüístico ya que también se cuenta con un elemento que funciona como neutro multiplicador conocido como cadena vacía o

La cadena vacía es una cadena de caracteres sin caracteres (se dice que |  |=0) y tiene las siguientes propiedades:


Dada una cadena de caracteres m   =  m=m
o sea que se comporta como la unidad bajo la multiplicación.

Si integramos los operadores de concatenación, '|' y la cadena vacía   , entonces resulta que la Gramática se comporta como un Anillo Algebráico y como tal es susceptible de ser estudiado desde el punto de vista de la Teoría algebráica.-

 

 

 

 

 


6) RECURSIVIDAD LINGUISTICA.


6.1) Introducción a la Recursividad.

La Recursividad es tan importante que ameritaría un trabajo por si sola, por lo que en este documento solo presentaremos una breve introducción a su interrelación con la Lingüistica Matemática y  el Análisis Matemático con el fin de visualizar su fuerza.

En general se considera que un sistema es recursivo cuando se llama a si mismo, por ejemplo la rutina que grafica arboles:

Rutina Arbol (xo, yo, t, a)

  x1 = xo + t * cos (a)
  y1 = yo + t * sen (a)
  dibuja tronco (xo, yo, x1, y1)
  Arbol (x1, y1, t/2, a - 30)
  Arbol (x1, y1, t/2, a + 30)
fin rutina

es una rutina recursiva porque se llama a si misma.


6.2) Lingüística Matemática y Recursividad.

Dentro de la Lingüistica Matemática se han encontrado una gran cantidad de casos en los que la mejor representación de un lenguaje es en términos de una gramática recursiva y aun mas, en algun momento se ha postulado que el mecanismo "natural" de adquisición del lenguaje en los seres vivos es un mecanismos que genera estructuras recursivas, ya que por ejemplo, si se tiene el siguiente conjunto de oraciones:

Estudia y triunfaras
  a  b

  Estudia y trabaja y triunfaras
  a  a  b

  Estudia y trabaja y ahorra y triunfaras
  a  a    a   b

 

 Al representarlas mediante su gramática canónica

 ab
 aab
 aaab
se observa que entramos en un ciclo de repetición en el cual se pueden poner tantos elementos como se quiera, y podemos proponer que una oración del tipo

 aaa...ab

es sintácticamente válida dentro del lenguaje.

 Cuando se tiene un conjunto de oraciones donde un elemento se puede repetir en forma indefinida es conveniente sustituir todo el conjunto de oraciones por una gramática recursiva, ya que la representación es mucho más compacta y general.

 Por ejemplo si tiene

 S--> ab
  aab
  aaab

  aaa....ab

 Una gramática recursiva asociada es:

 S--> aS|b

 Ya que sustituyendo S por aS o por b se pueden tener cadenas como las siguientes:

 S==> aS==> aaS==> aab
 S==> aS==> aaS==> aaaS==> aaab

y en general cualquier número de a seguidos por b.

 Entonces la gramática recursiva genera todas las cadenas originales y muchas mas.


6.3) Gramática Recursiva y Generalización.

 Por lo común la gramática recursiva es una generalización de la gramática canónica, es decir, que si yo tengo un conjunto de oraciones donde se detecta una estructura recursiva, ésta no solo genera todo el conjunto de oraciones, sino que además, es capaz de generar muchas otras que no estaban contempladas.

 Esta propiedad de generalización de las gramáticas recursivas las hace estremadamente poderosas ya que permite encontrar a partir de unos cuantos ejemplos la estructura de un lenguaje.

 Sin embargo al generalizar se puede llegar a proponer una gramática que genere estructuras oracionales que no sean válidas en el lenguaje, o sea que la gramática puede ser  tan general que produsca cosas sin sentido o contradictorias.

 A pesar de lo anterior la fuerza de la Recursividad es tan enorme que se utiliza cotidianamente para atacar una gran cantidad de problemas de lingüistica y únicamente se debe dee ser conciente de sus peligros y no usarla a ciegas.


6.4) Método de Generación de Gramáticas Recursivas.

 En muchos casos la recursividad se ha introducido en forma intuitiva a los sistemas, sin embargo, ya existen métodos que permiten obtener una gramática recursiva a partir de un conjunto de oraciones del lenguaje.

 Por ejemplo si se tiene la gramática:

 S--> ab
  aab
  aaab

la gramática recursiva que la generaliza es:

 S--> aS |B

 Ahora bien, si se observa el ejemplo se puede notar  que LA RECURSIVIDAD SE INTRODUCE  CUANDO SE DETECTA QUE UNA CADENA a SE REPITE EN FORMA MONOTONA  aaa ALREDEDOR O TENDIENDO A UN PUNTO b.

 Por ejemplo en la oración

 abcabcabcabcd

la cadena abc presenta un comportamiento monótono que termina en d.

 Dada una oración repetitiva para generar la gramática recursiva se siguen los siguientes pasos:

 a) Se detecta un comportamiento monónono.
 b) Se busca el elemento repetitivo.
 c) Se detecta a que punto tiende
 d) Se genera la gramática recursiva

 Por ejemplo, en la cadena:

 3838383838X

 El elemento repetitivo es 38 el sistema tiende a X  la gramática es:
 S--> 38 s|x

o sea que toda la cadena repetitiva se sustituye por el elemento repetitivo 38 seguido de un llamado recursivo S, por otro lado el núcleo del sistema X se pone como otra opción de la gramática.

 Por ejemplo la cadena:

 mnopmnopmnopq

tiene como cadena repetitiva a mnop y tiende a q

 Por lo que la gramática queda:

 S--> mnop S|q

 Un caso interesante se presenta cuando el comportamiento monótomo es alrededor de un punto, como por ejemplo en la oración:

 ((((a))))

donde el número de parentesis izquierdos es el mismo que derechos y giran alrededor de a

 La letra a funciona como Núcleo del proceso recursivo.

 Para generar la producción recursiva se sustituye el núcleo por la variable recursiva, de donde la gramática queda:

 S--> (S)|a
 

7) ENFOQUE ANALITICO DE LOS SISTEMAS LINGUISTICOS.


 Como se podrá observar según este enfoque el concepto de recursividad es similar al concepto de límite en el Análisis Matemático ya que en los dos casos se tiene un conjunto de elementos que tienden a o giran alrededor de un núcleo o límite.

 Las similaridades no se quedan en ese punto, ya que, el proceso recursivo es un proceso que se puede continuar indefinidamente y requiere de un atractor o límite o núcleo o criterio de terminación para detenerse, de donde, tal vez, el Límite del Análisis Matemático y la Recursividad son dos componentes de un fenómeno mas general.

 Aparentemente lo anterior es muy factible, ya que se tienen ejemplos de procesos recursivos que "tienden a un límite" como es el caso de algunos fractales que en el límite tienden a ocupar el espacio delimitado por otros fractales.


C O N C L U S I O N

 En este documento se presentó una breve introducción a la Lingüistica Matemática y a sus propiedades Matemáticas. En particular se presentaron las operaciones de Factorización, Conmutatividad y Distribución Lingüistica y se vio su contraparte algebraica, llegandose a proponer  la construcción de un Algebra Lingüistica soportada por las operaciones de concatenación y "|" y por el neutro multiplicativo o cadena vacia  , por lo que, específicamente se planteó que estamos ante la presencia de un Anillo Algebráico, y es factible ver al Algebra Lingüistica, como un nuevo campo de acción y en particular empesar a aplicarle todos los resultados encontrados durante el desarrollo de la Escuela Algebráica.

 Por otro lado, se dio una introducción a la operación de Recursividad Lingüistica y se vio su similitud con el concepto de Límite del Análisis Matemático, por lo que, nuevamente se presentó una interrelación entre dos campos aparentemente disimbolos, y se plantea que de esta interrelación se puede enriqueser tanto el Análisis como la Lingüistica.

 Las operaciones algebráicas y analíticas de la Lingüistica Matemática no estan separadas ya que en la mayoría de los problemas de Inferencia Gramatical se aplican conjuntamente, por lo que, otro campo de estudio se encuentra en la interrelación del Algebra y el Análisis en el estudio de problemas que involucran por ejemplo la Factorización y la Recursividad Lingüistica.

 Finalmente no quiero perder la oportunidad de mencionar que he oido comentarios acerca de que los pueblos prehispanicos menejaban los conceptos de Límite y Recursividad dentro de un mismo campo, por lo que, tal vez, estemos en el umbral de una puerta que ha permanecido cerrada por 500 años.

 

http://www.google.com/#sclient=psy&hl=es&q=propiedades+de+la+linguistica&aq=f&aqi=&aql=&oq=&psj=1&fp=58224059d5707b91

 


Anyela  Molina Rosales CI :19597827

 sección 2