<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: árboles</title>
	<atom:link href="http://www.iquilezles.org/blog/?feed=rss2&#038;p=1061" rel="self" type="application/rss+xml" />
	<link>http://www.iquilezles.org/blog/?p=1061</link>
	<description>de Iñigo Quilez</description>
	<lastBuildDate>Fri, 15 Oct 2010 19:05:02 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.5.1</generator>
	<item>
		<title>By: slack</title>
		<link>http://www.iquilezles.org/blog/?p=1061#comment-369</link>
		<dc:creator>slack</dc:creator>
		<pubDate>Sun, 24 Jan 2010 15:58:26 +0000</pubDate>
		<guid isPermaLink="false">http://iquilezles.org/blog/?p=1061#comment-369</guid>
		<description><![CDATA[Cuando se usan para reconocimiento (que es de lo que más te puedo hablar), una situación como esa de los reyes magos te lo resuelve el trigrama, porque lo que haces es buscar el camino que maximiza la probabilidad para toda la frase, si después de &quot;los tres&quot; pones &quot;cerditos&quot; te sale una probabilidad alta, pero luego te las tienes que ver con &quot;tres cerditos magos&quot; multiplicando. Por el contrario &quot;los tres reyes&quot; y &quot;tres reyes magos&quot; tendrían mayor probabilidad conjunta.

El problema de usar modelos más complejos es que son más difíciles de entrenar (hacen falta algoritmos más complejos, y cuanto más parámetros tienes que estimar estadísticamente más corpus de entrenamiento necesitas, la &quot;maldición de la dimensionalidad&quot;), así que de momento lo que usa todo el mundo es la tontería esta, con mil hacks para intentar que tu modelo de lenguaje vaya un poco mejor que el del vecino, pero sin intentar abordar el problema real de la comprensión... pero claro, hay que publicar, y si ese hack lo metes en un artículo y cuela, pues una línea más para el currículum investigador.

Por ejemplo, para la situación que comentas sobre los elfos magos hay gente que ha propuesto un sistema de &quot;triggers&quot;: se buscan pares de palabras a distancias grandes tales que la aparición de una aumente la probabilidad de que en el futuro aparezca la otra.

En fin, el mundo de la investigación es apasionante... por cierto, dentro de unos meses me pongo a buscar trabajo (guiño, guiño XD)]]></description>
		<content:encoded><![CDATA[<p>Cuando se usan para reconocimiento (que es de lo que más te puedo hablar), una situación como esa de los reyes magos te lo resuelve el trigrama, porque lo que haces es buscar el camino que maximiza la probabilidad para toda la frase, si después de &#8220;los tres&#8221; pones &#8220;cerditos&#8221; te sale una probabilidad alta, pero luego te las tienes que ver con &#8220;tres cerditos magos&#8221; multiplicando. Por el contrario &#8220;los tres reyes&#8221; y &#8220;tres reyes magos&#8221; tendrían mayor probabilidad conjunta.</p>
<p>El problema de usar modelos más complejos es que son más difíciles de entrenar (hacen falta algoritmos más complejos, y cuanto más parámetros tienes que estimar estadísticamente más corpus de entrenamiento necesitas, la &#8220;maldición de la dimensionalidad&#8221;), así que de momento lo que usa todo el mundo es la tontería esta, con mil hacks para intentar que tu modelo de lenguaje vaya un poco mejor que el del vecino, pero sin intentar abordar el problema real de la comprensión&#8230; pero claro, hay que publicar, y si ese hack lo metes en un artículo y cuela, pues una línea más para el currículum investigador.</p>
<p>Por ejemplo, para la situación que comentas sobre los elfos magos hay gente que ha propuesto un sistema de &#8220;triggers&#8221;: se buscan pares de palabras a distancias grandes tales que la aparición de una aumente la probabilidad de que en el futuro aparezca la otra.</p>
<p>En fin, el mundo de la investigación es apasionante&#8230; por cierto, dentro de unos meses me pongo a buscar trabajo (guiño, guiño XD)</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: admin</title>
		<link>http://www.iquilezles.org/blog/?p=1061#comment-368</link>
		<dc:creator>admin</dc:creator>
		<pubDate>Tue, 19 Jan 2010 07:07:18 +0000</pubDate>
		<guid isPermaLink="false">http://iquilezles.org/blog/?p=1061#comment-368</guid>
		<description><![CDATA[Supongo que además de estimadores que miran las últimas N palabras habrá también otros que miren las siguientes M, ¿no? Así se podrían atacar problemas como el de &quot;los tres ???&quot;. Mirando sólo el pasado la probabilidad máxima sería posiblmente para &quot;cerditos&quot;, pero que en verdad teniendo que en verdad la frase dice &quot;los tres ??? magos&quot; entonces lo que buscamos es tal vez &quot;reyes&quot;. De todos modos estaba pensando el lío que tenéis que tener, pobres, porque si en el resto del texto no aparecen las palabras &quot;navidad&quot;, &quot;nacimiento&quot; ni &quot;villancico&quot; sino &quot;orco&quot;, &quot;dragon&quot; y &quot;comarca&quot;, igual lo que buscamos no es &quot;reyes&quot; sino &quot;los tres elfos magos&quot;. Vamos, que una vista tan local del texto como N+M palabras no tiene por que ayudar, hace falta un contexto más global. Usáis varias pasadas para extraer información global primero antes de dar la pasada de análisis local, ¿o algo así? Todo esto suponiendo que tengais el texto de antemano y no lo queráis hacer sobre la marcha según el usuario escribe, claro.

Buah, ánimo, menudas camisas de once varas en la que os metéis.]]></description>
		<content:encoded><![CDATA[<p>Supongo que además de estimadores que miran las últimas N palabras habrá también otros que miren las siguientes M, ¿no? Así se podrían atacar problemas como el de &#8220;los tres ???&#8221;. Mirando sólo el pasado la probabilidad máxima sería posiblmente para &#8220;cerditos&#8221;, pero que en verdad teniendo que en verdad la frase dice &#8220;los tres ??? magos&#8221; entonces lo que buscamos es tal vez &#8220;reyes&#8221;. De todos modos estaba pensando el lío que tenéis que tener, pobres, porque si en el resto del texto no aparecen las palabras &#8220;navidad&#8221;, &#8220;nacimiento&#8221; ni &#8220;villancico&#8221; sino &#8220;orco&#8221;, &#8220;dragon&#8221; y &#8220;comarca&#8221;, igual lo que buscamos no es &#8220;reyes&#8221; sino &#8220;los tres elfos magos&#8221;. Vamos, que una vista tan local del texto como N+M palabras no tiene por que ayudar, hace falta un contexto más global. Usáis varias pasadas para extraer información global primero antes de dar la pasada de análisis local, ¿o algo así? Todo esto suponiendo que tengais el texto de antemano y no lo queráis hacer sobre la marcha según el usuario escribe, claro.</p>
<p>Buah, ánimo, menudas camisas de once varas en la que os metéis.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: sole</title>
		<link>http://www.iquilezles.org/blog/?p=1061#comment-367</link>
		<dc:creator>sole</dc:creator>
		<pubDate>Thu, 14 Jan 2010 20:28:23 +0000</pubDate>
		<guid isPermaLink="false">http://iquilezles.org/blog/?p=1061#comment-367</guid>
		<description><![CDATA[¡Un trastero-post-generator! Qué idea tan estupenda. Bueno, ya hay gente auto generando contenidos para tener siempre algo &quot;nuevo&quot; en twitter y similares.]]></description>
		<content:encoded><![CDATA[<p>¡Un trastero-post-generator! Qué idea tan estupenda. Bueno, ya hay gente auto generando contenidos para tener siempre algo &#8220;nuevo&#8221; en twitter y similares.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: slack</title>
		<link>http://www.iquilezles.org/blog/?p=1061#comment-366</link>
		<dc:creator>slack</dc:creator>
		<pubDate>Tue, 12 Jan 2010 12:45:53 +0000</pubDate>
		<guid isPermaLink="false">http://iquilezles.org/blog/?p=1061#comment-366</guid>
		<description><![CDATA[¡Bienvenido al mundo del modelado de lenguaje! X-)

Ese tipo de cosas se hacen de toda la vida en campos como el reconocimiento de voz, traducción automática, information retrieval... A veces es completamente imposible distinguir si en una grabación concreta se ha dicho una palabra u otra, y sin embargo para un humano no resulta un problema dado el conocimiento del lenguaje y del contexto de la conversación.

La parte &quot;terrorífica&quot; es que como los sistemas basados en reglas son tan poco flexibles, la gente suele tirar de modelos estadísticos, y como estimar un modelo bueno requiere cuantos más datos mejor se acaban usando en casi todas partes modelos de n-gramas: a grandes rasgos, se toma un corpus de texto de entrenamiento y se cuentan las veces que aparece cada secuencia de n palabras, y al final de este conteo se normaliza y tienes una estimación de la probabilidad de cada palabra en función de las n-1 anteriores, por ejemplo, en un 4-grama la probabilidad de &quot;velas&quot; despues de &quot;estar a dos&quot; sería elevadísima, y luego se hacen guarrerías para repartir la probabilidad de alguna forma que tenga en cuenta secuencias no vistas en el entrenamiento. A pesar de lo simple que parece, un n-grama bien estimado funciona sorprendentemente bien. (Existe algún corpus de texto etiquetado sintácticamente en forma de árboles, como el &lt;a href=&quot;http://www.cis.upenn.edu/~treebank/&quot; rel=&quot;nofollow&quot;&gt;Penn Treebank&lt;/a&gt;, pero es un trabajo de chinos y me imagino que se dejarían un pastón en lingüistas analizando frases :P)

Si te aburres mucho puedes generar un modelo de n-gramas a partir de tus posts y luego generar texto aleatoriamente a partir de ahi XD.]]></description>
		<content:encoded><![CDATA[<p>¡Bienvenido al mundo del modelado de lenguaje! X-)</p>
<p>Ese tipo de cosas se hacen de toda la vida en campos como el reconocimiento de voz, traducción automática, information retrieval&#8230; A veces es completamente imposible distinguir si en una grabación concreta se ha dicho una palabra u otra, y sin embargo para un humano no resulta un problema dado el conocimiento del lenguaje y del contexto de la conversación.</p>
<p>La parte &#8220;terrorífica&#8221; es que como los sistemas basados en reglas son tan poco flexibles, la gente suele tirar de modelos estadísticos, y como estimar un modelo bueno requiere cuantos más datos mejor se acaban usando en casi todas partes modelos de n-gramas: a grandes rasgos, se toma un corpus de texto de entrenamiento y se cuentan las veces que aparece cada secuencia de n palabras, y al final de este conteo se normaliza y tienes una estimación de la probabilidad de cada palabra en función de las n-1 anteriores, por ejemplo, en un 4-grama la probabilidad de &#8220;velas&#8221; despues de &#8220;estar a dos&#8221; sería elevadísima, y luego se hacen guarrerías para repartir la probabilidad de alguna forma que tenga en cuenta secuencias no vistas en el entrenamiento. A pesar de lo simple que parece, un n-grama bien estimado funciona sorprendentemente bien. (Existe algún corpus de texto etiquetado sintácticamente en forma de árboles, como el <a href="http://www.cis.upenn.edu/~treebank/" rel="nofollow">Penn Treebank</a>, pero es un trabajo de chinos y me imagino que se dejarían un pastón en lingüistas analizando frases <img src='http://www.iquilezles.org/blog/wp-includes/images/smilies/icon_razz.gif' alt=':P' class='wp-smiley' /> )</p>
<p>Si te aburres mucho puedes generar un modelo de n-gramas a partir de tus posts y luego generar texto aleatoriamente a partir de ahi XD.</p>
]]></content:encoded>
	</item>
</channel>
</rss>
