Hogar Desarrollo ¿Qué es la tokenización? - definición de techopedia

¿Qué es la tokenización? - definición de techopedia

Tabla de contenido:

Anonim

Definición - ¿Qué significa Tokenización?

La tokenización es el acto de dividir una secuencia de cadenas en partes como palabras, palabras clave, frases, símbolos y otros elementos llamados tokens. Los tokens pueden ser palabras individuales, frases o incluso oraciones completas. En el proceso de tokenización, algunos caracteres como los signos de puntuación se descartan. Los tokens se convierten en la entrada para otro proceso como el análisis y la minería de texto.

La tokenización se utiliza en informática, donde juega un papel importante en el proceso de análisis léxico.

Techopedia explica la tokenización

La tokenización se basa principalmente en heurísticas simples para separar tokens siguiendo algunos pasos:

  • Las fichas o palabras están separadas por espacios en blanco, signos de puntuación o saltos de línea
  • Los espacios en blanco o los signos de puntuación se pueden incluir o no según la necesidad
  • Todos los caracteres dentro de cadenas contiguas son parte del token. Los tokens pueden estar formados por todos los caracteres alfabéticos, alfanuméricos o numéricos únicamente.

Las fichas en sí mismas también pueden ser separadores. Por ejemplo, en la mayoría de los lenguajes de programación, los identificadores se pueden colocar junto con operadores aritméticos sin espacios en blanco. Aunque parece que esto aparecería como una sola palabra o token, la gramática del lenguaje en realidad considera al operador matemático (un token) como un separador, por lo que incluso cuando se agrupan múltiples tokens, aún se pueden separar a través de la matemática operador.

¿Qué es la tokenización? - definición de techopedia