/ Hex Artifact Content
Login

Artifact bbfa4e3b2a26ef17d4edc6d98cd4a3f5396d998a:


0000: 2f 2a 0a 2a 2a 20 54 68 65 20 61 75 74 68 6f 72  /*.** The author
0010: 20 64 69 73 63 6c 61 69 6d 73 20 63 6f 70 79 72   disclaims copyr
0020: 69 67 68 74 20 74 6f 20 74 68 69 73 20 73 6f 75  ight to this sou
0030: 72 63 65 20 63 6f 64 65 2e 0a 2a 2a 0a 2a 2a 2a  rce code..**.***
0040: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0050: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0060: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0070: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0080: 2a 2a 2a 2a 2a 2a 0a 2a 2a 20 49 6d 70 6c 65 6d  ******.** Implem
0090: 65 6e 74 61 74 69 6f 6e 20 6f 66 20 74 68 65 20  entation of the 
00a0: 22 73 69 6d 70 6c 65 22 20 66 75 6c 6c 2d 74 65  "simple" full-te
00b0: 78 74 2d 73 65 61 72 63 68 20 74 6f 6b 65 6e 69  xt-search tokeni
00c0: 7a 65 72 2e 0a 2a 2f 0a 0a 23 69 6e 63 6c 75 64  zer..*/..#includ
00d0: 65 20 3c 61 73 73 65 72 74 2e 68 3e 0a 23 69 66  e <assert.h>.#if
00e0: 20 21 64 65 66 69 6e 65 64 28 5f 5f 41 50 50 4c   !defined(__APPL
00f0: 45 5f 5f 29 0a 23 69 6e 63 6c 75 64 65 20 3c 6d  E__).#include <m
0100: 61 6c 6c 6f 63 2e 68 3e 0a 23 65 6c 73 65 0a 23  alloc.h>.#else.#
0110: 69 6e 63 6c 75 64 65 20 3c 73 74 64 6c 69 62 2e  include <stdlib.
0120: 68 3e 0a 23 65 6e 64 69 66 0a 23 69 6e 63 6c 75  h>.#endif.#inclu
0130: 64 65 20 3c 73 74 64 69 6f 2e 68 3e 0a 23 69 6e  de <stdio.h>.#in
0140: 63 6c 75 64 65 20 3c 73 74 72 69 6e 67 2e 68 3e  clude <string.h>
0150: 0a 23 69 6e 63 6c 75 64 65 20 3c 63 74 79 70 65  .#include <ctype
0160: 2e 68 3e 0a 0a 23 69 6e 63 6c 75 64 65 20 22 74  .h>..#include "t
0170: 6f 6b 65 6e 69 7a 65 72 2e 68 22 0a 0a 2f 2a 20  okenizer.h"../* 
0180: 44 75 70 6c 69 63 61 74 65 20 61 20 73 74 72 69  Duplicate a stri
0190: 6e 67 3b 20 74 68 65 20 63 61 6c 6c 65 72 20 6d  ng; the caller m
01a0: 75 73 74 20 66 72 65 65 28 29 20 74 68 65 20 72  ust free() the r
01b0: 65 74 75 72 6e 65 64 20 73 74 72 69 6e 67 2e 0a  eturned string..
01c0: 20 2a 20 28 57 65 20 64 6f 6e 27 74 20 75 73 65   * (We don't use
01d0: 20 73 74 72 64 75 70 28 29 20 73 69 6e 63 65 20   strdup() since 
01e0: 69 74 27 73 20 6e 6f 74 20 70 61 72 74 20 6f 66  it's not part of
01f0: 20 74 68 65 20 73 74 61 6e 64 61 72 64 20 43 20   the standard C 
0200: 6c 69 62 72 61 72 79 20 61 6e 64 0a 20 2a 20 6d  library and. * m
0210: 61 79 20 6e 6f 74 20 62 65 20 61 76 61 69 6c 61  ay not be availa
0220: 62 6c 65 20 65 76 65 72 79 77 68 65 72 65 2e 29  ble everywhere.)
0230: 20 2a 2f 0a 2f 2a 20 54 4f 44 4f 28 73 68 65 73   */./* TODO(shes
0240: 73 29 20 43 6f 70 69 65 64 20 66 72 6f 6d 20 66  s) Copied from f
0250: 75 6c 6c 74 65 78 74 2e 63 2c 20 63 6f 6e 73 69  ulltext.c, consi
0260: 64 65 72 20 75 74 69 6c 2e 63 20 66 6f 72 20 73  der util.c for s
0270: 75 63 68 0a 2a 2a 20 74 68 69 6e 67 73 2e 20 2a  uch.** things. *
0280: 2f 0a 73 74 61 74 69 63 20 63 68 61 72 20 2a 73  /.static char *s
0290: 74 72 69 6e 67 5f 64 75 70 28 63 6f 6e 73 74 20  tring_dup(const 
02a0: 63 68 61 72 20 2a 73 29 7b 0a 20 20 63 68 61 72  char *s){.  char
02b0: 20 2a 73 74 72 20 3d 20 6d 61 6c 6c 6f 63 28 73   *str = malloc(s
02c0: 74 72 6c 65 6e 28 73 29 20 2b 20 31 29 3b 0a 20  trlen(s) + 1);. 
02d0: 20 73 74 72 63 70 79 28 73 74 72 2c 20 73 29 3b   strcpy(str, s);
02e0: 0a 20 20 72 65 74 75 72 6e 20 73 74 72 3b 0a 7d  .  return str;.}
02f0: 0a 0a 74 79 70 65 64 65 66 20 73 74 72 75 63 74  ..typedef struct
0300: 20 73 69 6d 70 6c 65 5f 74 6f 6b 65 6e 69 7a 65   simple_tokenize
0310: 72 20 7b 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f  r {.  sqlite3_to
0320: 6b 65 6e 69 7a 65 72 20 62 61 73 65 3b 0a 20 20  kenizer base;.  
0330: 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 44 65 6c  const char *zDel
0340: 69 6d 3b 20 20 20 20 20 20 20 20 20 20 2f 2a 20  im;          /* 
0350: 74 6f 6b 65 6e 20 64 65 6c 69 6d 69 74 65 72 73  token delimiters
0360: 20 2a 2f 0a 7d 20 73 69 6d 70 6c 65 5f 74 6f 6b   */.} simple_tok
0370: 65 6e 69 7a 65 72 3b 0a 0a 74 79 70 65 64 65 66  enizer;..typedef
0380: 20 73 74 72 75 63 74 20 73 69 6d 70 6c 65 5f 74   struct simple_t
0390: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20  okenizer_cursor 
03a0: 7b 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65  {.  sqlite3_toke
03b0: 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 62 61 73  nizer_cursor bas
03c0: 65 3b 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20  e;.  const char 
03d0: 2a 70 49 6e 70 75 74 3b 20 20 20 20 20 20 20 20  *pInput;        
03e0: 20 20 2f 2a 20 69 6e 70 75 74 20 77 65 20 61 72    /* input we ar
03f0: 65 20 74 6f 6b 65 6e 69 7a 69 6e 67 20 2a 2f 0a  e tokenizing */.
0400: 20 20 69 6e 74 20 6e 42 79 74 65 73 3b 20 20 20    int nBytes;   
0410: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f                 /
0420: 2a 20 73 69 7a 65 20 6f 66 20 74 68 65 20 69 6e  * size of the in
0430: 70 75 74 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63  put */.  const c
0440: 68 61 72 20 2a 70 43 75 72 72 65 6e 74 3b 20 20  har *pCurrent;  
0450: 20 20 20 20 20 20 2f 2a 20 63 75 72 72 65 6e 74        /* current
0460: 20 70 6f 73 69 74 69 6f 6e 20 69 6e 20 70 49 6e   position in pIn
0470: 70 75 74 20 2a 2f 0a 20 20 69 6e 74 20 69 54 6f  put */.  int iTo
0480: 6b 65 6e 3b 20 20 20 20 20 20 20 20 20 20 20 20  ken;            
0490: 20 20 20 20 20 20 2f 2a 20 69 6e 64 65 78 20 6f        /* index o
04a0: 66 20 6e 65 78 74 20 74 6f 6b 65 6e 20 74 6f 20  f next token to 
04b0: 62 65 20 72 65 74 75 72 6e 65 64 20 2a 2f 0a 20  be returned */. 
04c0: 20 63 68 61 72 20 2a 7a 54 6f 6b 65 6e 3b 20 20   char *zToken;  
04d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
04e0: 20 73 74 6f 72 61 67 65 20 66 6f 72 20 63 75 72   storage for cur
04f0: 72 65 6e 74 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20  rent token */.  
0500: 69 6e 74 20 6e 54 6f 6b 65 6e 42 79 74 65 73 3b  int nTokenBytes;
0510: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
0520: 61 63 74 75 61 6c 20 73 69 7a 65 20 6f 66 20 63  actual size of c
0530: 75 72 72 65 6e 74 20 74 6f 6b 65 6e 20 2a 2f 0a  urrent token */.
0540: 20 20 69 6e 74 20 6e 54 6f 6b 65 6e 41 6c 6c 6f    int nTokenAllo
0550: 63 61 74 65 64 3b 20 20 20 20 20 20 20 20 20 2f  cated;         /
0560: 2a 20 73 70 61 63 65 20 61 6c 6c 6f 63 61 74 65  * space allocate
0570: 64 20 74 6f 20 7a 54 6f 6b 65 6e 20 62 75 66 66  d to zToken buff
0580: 65 72 20 2a 2f 0a 7d 20 73 69 6d 70 6c 65 5f 74  er */.} simple_t
0590: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 3b  okenizer_cursor;
05a0: 0a 0a 73 74 61 74 69 63 20 73 71 6c 69 74 65 33  ..static sqlite3
05b0: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c  _tokenizer_modul
05c0: 65 20 73 69 6d 70 6c 65 54 6f 6b 65 6e 69 7a 65  e simpleTokenize
05d0: 72 4d 6f 64 75 6c 65 3b 2f 2a 20 66 6f 72 77 61  rModule;/* forwa
05e0: 72 64 20 64 65 63 6c 61 72 61 74 69 6f 6e 20 2a  rd declaration *
05f0: 2f 0a 0a 73 74 61 74 69 63 20 69 6e 74 20 73 69  /..static int si
0600: 6d 70 6c 65 43 72 65 61 74 65 28 0a 20 20 69 6e  mpleCreate(.  in
0610: 74 20 61 72 67 63 2c 20 63 6f 6e 73 74 20 63 68  t argc, const ch
0620: 61 72 20 2a 2a 61 72 67 76 2c 0a 20 20 73 71 6c  ar **argv,.  sql
0630: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a  ite3_tokenizer *
0640: 2a 70 70 54 6f 6b 65 6e 69 7a 65 72 0a 29 7b 0a  *ppTokenizer.){.
0650: 20 20 73 69 6d 70 6c 65 5f 74 6f 6b 65 6e 69 7a    simple_tokeniz
0660: 65 72 20 2a 74 3b 0a 0a 20 20 74 20 3d 20 28 73  er *t;..  t = (s
0670: 69 6d 70 6c 65 5f 74 6f 6b 65 6e 69 7a 65 72 20  imple_tokenizer 
0680: 2a 29 20 6d 61 6c 6c 6f 63 28 73 69 7a 65 6f 66  *) malloc(sizeof
0690: 28 73 69 6d 70 6c 65 5f 74 6f 6b 65 6e 69 7a 65  (simple_tokenize
06a0: 72 29 29 3b 0a 20 20 2f 2a 20 54 4f 44 4f 28 73  r));.  /* TODO(s
06b0: 68 65 73 73 29 20 44 65 6c 69 6d 69 74 65 72 73  hess) Delimiters
06c0: 20 6e 65 65 64 20 74 6f 20 72 65 6d 61 69 6e 20   need to remain 
06d0: 74 68 65 20 73 61 6d 65 20 66 72 6f 6d 20 72 75  the same from ru
06e0: 6e 20 74 6f 20 72 75 6e 2c 0a 20 20 2a 2a 20 65  n to run,.  ** e
06f0: 6c 73 65 20 77 65 20 6e 65 65 64 20 74 6f 20 72  lse we need to r
0700: 65 69 6e 64 65 78 2e 20 20 4f 6e 65 20 73 6f 6c  eindex.  One sol
0710: 75 74 69 6f 6e 20 77 6f 75 6c 64 20 62 65 20 61  ution would be a
0720: 20 6d 65 74 61 2d 74 61 62 6c 65 20 74 6f 0a 20   meta-table to. 
0730: 20 2a 2a 20 74 72 61 63 6b 20 73 75 63 68 20 69   ** track such i
0740: 6e 66 6f 72 6d 61 74 69 6f 6e 20 69 6e 20 74 68  nformation in th
0750: 65 20 64 61 74 61 62 61 73 65 2c 20 74 68 65 6e  e database, then
0760: 20 77 65 27 64 20 6f 6e 6c 79 20 77 61 6e 74 20   we'd only want 
0770: 74 68 69 73 0a 20 20 2a 2a 20 69 6e 66 6f 72 6d  this.  ** inform
0780: 61 74 69 6f 6e 20 6f 6e 20 74 68 65 20 69 6e 69  ation on the ini
0790: 74 69 61 6c 20 63 72 65 61 74 65 2e 0a 20 20 2a  tial create..  *
07a0: 2f 0a 20 20 69 66 28 20 61 72 67 63 3e 31 20 29  /.  if( argc>1 )
07b0: 7b 0a 20 20 20 20 74 2d 3e 7a 44 65 6c 69 6d 20  {.    t->zDelim 
07c0: 3d 20 73 74 72 69 6e 67 5f 64 75 70 28 61 72 67  = string_dup(arg
07d0: 76 5b 31 5d 29 3b 0a 20 20 7d 20 65 6c 73 65 20  v[1]);.  } else 
07e0: 7b 0a 20 20 20 20 2f 2a 20 42 75 69 6c 64 20 61  {.    /* Build a
07f0: 20 73 74 72 69 6e 67 20 65 78 63 6c 75 64 69 6e   string excludin
0800: 67 20 61 6c 70 68 61 6e 75 6d 65 72 69 63 20 41  g alphanumeric A
0810: 53 43 49 49 20 63 68 61 72 61 63 74 65 72 73 20  SCII characters 
0820: 2a 2f 0a 20 20 20 20 63 68 61 72 20 7a 44 65 6c  */.    char zDel
0830: 69 6d 5b 30 78 38 30 5d 3b 20 20 20 20 20 20 20  im[0x80];       
0840: 20 20 20 20 20 20 20 20 2f 2a 20 6e 75 6c 2d 74          /* nul-t
0850: 65 72 6d 69 6e 61 74 65 64 2c 20 73 6f 20 6e 75  erminated, so nu
0860: 6c 20 6e 6f 74 20 61 20 6d 65 6d 62 65 72 20 2a  l not a member *
0870: 2f 0a 20 20 20 20 69 6e 74 20 69 2c 20 6a 3b 0a  /.    int i, j;.
0880: 20 20 20 20 66 6f 72 28 69 3d 31 2c 20 6a 3d 30      for(i=1, j=0
0890: 3b 20 69 3c 30 78 38 30 3b 20 69 2b 2b 29 7b 0a  ; i<0x80; i++){.
08a0: 20 20 20 20 20 20 69 66 28 20 21 69 73 61 6c 6e        if( !isaln
08b0: 75 6d 28 69 29 20 29 7b 0a 20 20 20 20 20 20 20  um(i) ){.       
08c0: 20 7a 44 65 6c 69 6d 5b 6a 2b 2b 5d 20 3d 20 69   zDelim[j++] = i
08d0: 3b 0a 20 20 20 20 20 20 7d 0a 20 20 20 20 7d 0a  ;.      }.    }.
08e0: 20 20 20 20 7a 44 65 6c 69 6d 5b 6a 2b 2b 5d 20      zDelim[j++] 
08f0: 3d 20 27 5c 30 27 3b 0a 20 20 20 20 61 73 73 65  = '\0';.    asse
0900: 72 74 28 20 6a 3c 3d 73 69 7a 65 6f 66 28 7a 44  rt( j<=sizeof(zD
0910: 65 6c 69 6d 29 20 29 3b 0a 20 20 20 20 74 2d 3e  elim) );.    t->
0920: 7a 44 65 6c 69 6d 20 3d 20 73 74 72 69 6e 67 5f  zDelim = string_
0930: 64 75 70 28 7a 44 65 6c 69 6d 29 3b 0a 20 20 7d  dup(zDelim);.  }
0940: 0a 0a 20 20 2a 70 70 54 6f 6b 65 6e 69 7a 65 72  ..  *ppTokenizer
0950: 20 3d 20 26 74 2d 3e 62 61 73 65 3b 0a 20 20 72   = &t->base;.  r
0960: 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b  eturn SQLITE_OK;
0970: 0a 7d 0a 0a 73 74 61 74 69 63 20 69 6e 74 20 73  .}..static int s
0980: 69 6d 70 6c 65 44 65 73 74 72 6f 79 28 73 71 6c  impleDestroy(sql
0990: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a  ite3_tokenizer *
09a0: 70 54 6f 6b 65 6e 69 7a 65 72 29 7b 0a 20 20 73  pTokenizer){.  s
09b0: 69 6d 70 6c 65 5f 74 6f 6b 65 6e 69 7a 65 72 20  imple_tokenizer 
09c0: 2a 74 20 3d 20 28 73 69 6d 70 6c 65 5f 74 6f 6b  *t = (simple_tok
09d0: 65 6e 69 7a 65 72 20 2a 29 20 70 54 6f 6b 65 6e  enizer *) pToken
09e0: 69 7a 65 72 3b 0a 0a 20 20 66 72 65 65 28 28 76  izer;..  free((v
09f0: 6f 69 64 20 2a 29 20 74 2d 3e 7a 44 65 6c 69 6d  oid *) t->zDelim
0a00: 29 3b 0a 20 20 66 72 65 65 28 74 29 3b 0a 0a 20  );.  free(t);.. 
0a10: 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f   return SQLITE_O
0a20: 4b 3b 0a 7d 0a 0a 73 74 61 74 69 63 20 69 6e 74  K;.}..static int
0a30: 20 73 69 6d 70 6c 65 4f 70 65 6e 28 0a 20 20 73   simpleOpen(.  s
0a40: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
0a50: 20 2a 70 54 6f 6b 65 6e 69 7a 65 72 2c 0a 20 20   *pTokenizer,.  
0a60: 63 6f 6e 73 74 20 63 68 61 72 20 2a 70 49 6e 70  const char *pInp
0a70: 75 74 2c 20 69 6e 74 20 6e 42 79 74 65 73 2c 0a  ut, int nBytes,.
0a80: 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69    sqlite3_tokeni
0a90: 7a 65 72 5f 63 75 72 73 6f 72 20 2a 2a 70 70 43  zer_cursor **ppC
0aa0: 75 72 73 6f 72 0a 29 7b 0a 20 20 73 69 6d 70 6c  ursor.){.  simpl
0ab0: 65 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  e_tokenizer_curs
0ac0: 6f 72 20 2a 63 3b 0a 0a 20 20 63 20 3d 20 28 73  or *c;..  c = (s
0ad0: 69 6d 70 6c 65 5f 74 6f 6b 65 6e 69 7a 65 72 5f  imple_tokenizer_
0ae0: 63 75 72 73 6f 72 20 2a 29 20 6d 61 6c 6c 6f 63  cursor *) malloc
0af0: 28 73 69 7a 65 6f 66 28 73 69 6d 70 6c 65 5f 74  (sizeof(simple_t
0b00: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 29  okenizer_cursor)
0b10: 29 3b 0a 20 20 63 2d 3e 70 49 6e 70 75 74 20 3d  );.  c->pInput =
0b20: 20 70 49 6e 70 75 74 3b 0a 20 20 63 2d 3e 6e 42   pInput;.  c->nB
0b30: 79 74 65 73 20 3d 20 6e 42 79 74 65 73 3c 30 20  ytes = nBytes<0 
0b40: 3f 20 28 69 6e 74 29 20 73 74 72 6c 65 6e 28 70  ? (int) strlen(p
0b50: 49 6e 70 75 74 29 20 3a 20 6e 42 79 74 65 73 3b  Input) : nBytes;
0b60: 0a 20 20 63 2d 3e 70 43 75 72 72 65 6e 74 20 3d  .  c->pCurrent =
0b70: 20 63 2d 3e 70 49 6e 70 75 74 3b 20 20 20 20 20   c->pInput;     
0b80: 20 20 20 2f 2a 20 73 74 61 72 74 20 74 6f 6b 65     /* start toke
0b90: 6e 69 7a 69 6e 67 20 61 74 20 74 68 65 20 62 65  nizing at the be
0ba0: 67 69 6e 6e 69 6e 67 20 2a 2f 0a 20 20 63 2d 3e  ginning */.  c->
0bb0: 69 54 6f 6b 65 6e 20 3d 20 30 3b 0a 20 20 63 2d  iToken = 0;.  c-
0bc0: 3e 7a 54 6f 6b 65 6e 20 3d 20 4e 55 4c 4c 3b 20  >zToken = NULL; 
0bd0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
0be0: 20 6e 6f 20 73 70 61 63 65 20 61 6c 6c 6f 63 61   no space alloca
0bf0: 74 65 64 2c 20 79 65 74 2e 20 2a 2f 0a 20 20 63  ted, yet. */.  c
0c00: 2d 3e 6e 54 6f 6b 65 6e 42 79 74 65 73 20 3d 20  ->nTokenBytes = 
0c10: 30 3b 0a 20 20 63 2d 3e 6e 54 6f 6b 65 6e 41 6c  0;.  c->nTokenAl
0c20: 6c 6f 63 61 74 65 64 20 3d 20 30 3b 0a 0a 20 20  located = 0;..  
0c30: 2a 70 70 43 75 72 73 6f 72 20 3d 20 26 63 2d 3e  *ppCursor = &c->
0c40: 62 61 73 65 3b 0a 20 20 72 65 74 75 72 6e 20 53  base;.  return S
0c50: 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a 0a 73 74 61  QLITE_OK;.}..sta
0c60: 74 69 63 20 69 6e 74 20 73 69 6d 70 6c 65 43 6c  tic int simpleCl
0c70: 6f 73 65 28 73 71 6c 69 74 65 33 5f 74 6f 6b 65  ose(sqlite3_toke
0c80: 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a 70 43  nizer_cursor *pC
0c90: 75 72 73 6f 72 29 7b 0a 20 20 73 69 6d 70 6c 65  ursor){.  simple
0ca0: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f  _tokenizer_curso
0cb0: 72 20 2a 63 20 3d 20 28 73 69 6d 70 6c 65 5f 74  r *c = (simple_t
0cc0: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20  okenizer_cursor 
0cd0: 2a 29 20 70 43 75 72 73 6f 72 3b 0a 0a 20 20 69  *) pCursor;..  i
0ce0: 66 28 20 4e 55 4c 4c 21 3d 63 2d 3e 7a 54 6f 6b  f( NULL!=c->zTok
0cf0: 65 6e 20 29 7b 0a 20 20 20 20 66 72 65 65 28 63  en ){.    free(c
0d00: 2d 3e 7a 54 6f 6b 65 6e 29 3b 0a 20 20 7d 0a 20  ->zToken);.  }. 
0d10: 20 66 72 65 65 28 63 29 3b 0a 0a 20 20 72 65 74   free(c);..  ret
0d20: 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d  urn SQLITE_OK;.}
0d30: 0a 0a 73 74 61 74 69 63 20 69 6e 74 20 73 69 6d  ..static int sim
0d40: 70 6c 65 4e 65 78 74 28 0a 20 20 73 71 6c 69 74  pleNext(.  sqlit
0d50: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72  e3_tokenizer_cur
0d60: 73 6f 72 20 2a 70 43 75 72 73 6f 72 2c 0a 20 20  sor *pCursor,.  
0d70: 63 6f 6e 73 74 20 63 68 61 72 20 2a 2a 70 70 54  const char **ppT
0d80: 6f 6b 65 6e 2c 20 69 6e 74 20 2a 70 6e 42 79 74  oken, int *pnByt
0d90: 65 73 2c 0a 20 20 69 6e 74 20 2a 70 69 53 74 61  es,.  int *piSta
0da0: 72 74 4f 66 66 73 65 74 2c 20 69 6e 74 20 2a 70  rtOffset, int *p
0db0: 69 45 6e 64 4f 66 66 73 65 74 2c 20 69 6e 74 20  iEndOffset, int 
0dc0: 2a 70 69 50 6f 73 69 74 69 6f 6e 0a 29 7b 0a 20  *piPosition.){. 
0dd0: 20 73 69 6d 70 6c 65 5f 74 6f 6b 65 6e 69 7a 65   simple_tokenize
0de0: 72 5f 63 75 72 73 6f 72 20 2a 63 20 3d 20 28 73  r_cursor *c = (s
0df0: 69 6d 70 6c 65 5f 74 6f 6b 65 6e 69 7a 65 72 5f  imple_tokenizer_
0e00: 63 75 72 73 6f 72 20 2a 29 20 70 43 75 72 73 6f  cursor *) pCurso
0e10: 72 3b 0a 20 20 73 69 6d 70 6c 65 5f 74 6f 6b 65  r;.  simple_toke
0e20: 6e 69 7a 65 72 20 2a 74 20 3d 20 28 73 69 6d 70  nizer *t = (simp
0e30: 6c 65 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 29 20  le_tokenizer *) 
0e40: 70 43 75 72 73 6f 72 2d 3e 70 54 6f 6b 65 6e 69  pCursor->pTokeni
0e50: 7a 65 72 3b 0a 20 20 69 6e 74 20 69 69 3b 0a 0a  zer;.  int ii;..
0e60: 20 20 77 68 69 6c 65 28 20 63 2d 3e 70 43 75 72    while( c->pCur
0e70: 72 65 6e 74 2d 63 2d 3e 70 49 6e 70 75 74 3c 63  rent-c->pInput<c
0e80: 2d 3e 6e 42 79 74 65 73 20 29 7b 0a 20 20 20 20  ->nBytes ){.    
0e90: 69 6e 74 20 6e 20 3d 20 28 69 6e 74 29 20 73 74  int n = (int) st
0ea0: 72 63 73 70 6e 28 63 2d 3e 70 43 75 72 72 65 6e  rcspn(c->pCurren
0eb0: 74 2c 20 74 2d 3e 7a 44 65 6c 69 6d 29 3b 0a 20  t, t->zDelim);. 
0ec0: 20 20 20 69 66 28 20 6e 3e 30 20 29 7b 0a 20 20     if( n>0 ){.  
0ed0: 20 20 20 20 69 66 28 20 6e 2b 31 3e 63 2d 3e 6e      if( n+1>c->n
0ee0: 54 6f 6b 65 6e 41 6c 6c 6f 63 61 74 65 64 20 29  TokenAllocated )
0ef0: 7b 0a 20 20 20 20 20 20 20 20 63 2d 3e 7a 54 6f  {.        c->zTo
0f00: 6b 65 6e 20 3d 20 72 65 61 6c 6c 6f 63 28 63 2d  ken = realloc(c-
0f10: 3e 7a 54 6f 6b 65 6e 2c 20 6e 2b 31 29 3b 0a 20  >zToken, n+1);. 
0f20: 20 20 20 20 20 7d 0a 20 20 20 20 20 20 66 6f 72       }.      for
0f30: 28 69 69 3d 30 3b 20 69 69 3c 6e 3b 20 69 69 2b  (ii=0; ii<n; ii+
0f40: 2b 29 7b 0a 20 20 20 20 20 20 20 20 2f 2a 20 54  +){.        /* T
0f50: 4f 44 4f 28 73 68 65 73 73 29 20 54 68 69 73 20  ODO(shess) This 
0f60: 6e 65 65 64 73 20 65 78 70 61 6e 73 69 6f 6e 20  needs expansion 
0f70: 74 6f 20 68 61 6e 64 6c 65 20 55 54 46 2d 38 0a  to handle UTF-8.
0f80: 20 20 20 20 20 20 20 20 2a 2a 20 63 61 73 65 2d          ** case-
0f90: 69 6e 73 65 6e 73 69 74 69 76 69 74 79 2e 0a 20  insensitivity.. 
0fa0: 20 20 20 20 20 20 20 2a 2f 0a 20 20 20 20 20 20         */.      
0fb0: 20 20 63 68 61 72 20 63 68 20 3d 20 63 2d 3e 70    char ch = c->p
0fc0: 43 75 72 72 65 6e 74 5b 69 69 5d 3b 0a 20 20 20  Current[ii];.   
0fd0: 20 20 20 20 20 63 2d 3e 7a 54 6f 6b 65 6e 5b 69       c->zToken[i
0fe0: 69 5d 20 3d 20 28 75 6e 73 69 67 6e 65 64 20 63  i] = (unsigned c
0ff0: 68 61 72 29 63 68 3c 30 78 38 30 20 3f 20 74 6f  har)ch<0x80 ? to
1000: 6c 6f 77 65 72 28 28 75 6e 73 69 67 6e 65 64 20  lower((unsigned 
1010: 63 68 61 72 29 63 68 29 3a 63 68 3b 0a 20 20 20  char)ch):ch;.   
1020: 20 20 20 7d 0a 20 20 20 20 20 20 63 2d 3e 7a 54     }.      c->zT
1030: 6f 6b 65 6e 5b 6e 5d 20 3d 20 27 5c 30 27 3b 0a  oken[n] = '\0';.
1040: 20 20 20 20 20 20 2a 70 70 54 6f 6b 65 6e 20 3d        *ppToken =
1050: 20 63 2d 3e 7a 54 6f 6b 65 6e 3b 0a 20 20 20 20   c->zToken;.    
1060: 20 20 2a 70 6e 42 79 74 65 73 20 3d 20 6e 3b 0a    *pnBytes = n;.
1070: 20 20 20 20 20 20 2a 70 69 53 74 61 72 74 4f 66        *piStartOf
1080: 66 73 65 74 20 3d 20 28 69 6e 74 29 20 28 63 2d  fset = (int) (c-
1090: 3e 70 43 75 72 72 65 6e 74 2d 63 2d 3e 70 49 6e  >pCurrent-c->pIn
10a0: 70 75 74 29 3b 0a 20 20 20 20 20 20 2a 70 69 45  put);.      *piE
10b0: 6e 64 4f 66 66 73 65 74 20 3d 20 2a 70 69 53 74  ndOffset = *piSt
10c0: 61 72 74 4f 66 66 73 65 74 2b 6e 3b 0a 20 20 20  artOffset+n;.   
10d0: 20 20 20 2a 70 69 50 6f 73 69 74 69 6f 6e 20 3d     *piPosition =
10e0: 20 63 2d 3e 69 54 6f 6b 65 6e 2b 2b 3b 0a 20 20   c->iToken++;.  
10f0: 20 20 20 20 63 2d 3e 70 43 75 72 72 65 6e 74 20      c->pCurrent 
1100: 2b 3d 20 6e 20 2b 20 31 3b 0a 0a 20 20 20 20 20  += n + 1;..     
1110: 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f   return SQLITE_O
1120: 4b 3b 0a 20 20 20 20 7d 0a 20 20 20 20 63 2d 3e  K;.    }.    c->
1130: 70 43 75 72 72 65 6e 74 20 2b 3d 20 6e 20 2b 20  pCurrent += n + 
1140: 31 3b 0a 20 20 20 20 2f 2a 20 54 4f 44 4f 28 73  1;.    /* TODO(s
1150: 68 65 73 73 29 20 63 6f 75 6c 64 20 73 74 72 73  hess) could strs
1160: 70 6e 28 29 20 74 6f 20 73 6b 69 70 20 64 65 6c  pn() to skip del
1170: 69 6d 69 74 65 72 73 20 65 6e 20 6d 61 73 73 65  imiters en masse
1180: 2e 20 20 4e 65 65 64 73 0a 20 20 20 20 2a 2a 20  .  Needs.    ** 
1190: 74 6f 20 68 61 70 70 65 6e 20 69 6e 20 74 77 6f  to happen in two
11a0: 20 70 6c 61 63 65 73 2c 20 74 68 6f 75 67 68 2c   places, though,
11b0: 20 77 68 69 63 68 20 69 73 20 61 6e 6e 6f 79 69   which is annoyi
11c0: 6e 67 2e 0a 20 20 20 20 2a 2f 0a 20 20 7d 0a 20  ng..    */.  }. 
11d0: 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 44   return SQLITE_D
11e0: 4f 4e 45 3b 0a 7d 0a 0a 73 74 61 74 69 63 20 73  ONE;.}..static s
11f0: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
1200: 5f 6d 6f 64 75 6c 65 20 73 69 6d 70 6c 65 54 6f  _module simpleTo
1210: 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 20 3d 20  kenizerModule = 
1220: 7b 0a 20 20 30 2c 0a 20 20 73 69 6d 70 6c 65 43  {.  0,.  simpleC
1230: 72 65 61 74 65 2c 0a 20 20 73 69 6d 70 6c 65 44  reate,.  simpleD
1240: 65 73 74 72 6f 79 2c 0a 20 20 73 69 6d 70 6c 65  estroy,.  simple
1250: 4f 70 65 6e 2c 0a 20 20 73 69 6d 70 6c 65 43 6c  Open,.  simpleCl
1260: 6f 73 65 2c 0a 20 20 73 69 6d 70 6c 65 4e 65 78  ose,.  simpleNex
1270: 74 2c 0a 7d 3b 0a 0a 76 6f 69 64 20 67 65 74 5f  t,.};..void get_
1280: 73 69 6d 70 6c 65 5f 74 6f 6b 65 6e 69 7a 65 72  simple_tokenizer
1290: 5f 6d 6f 64 75 6c 65 28 0a 20 20 73 71 6c 69 74  _module(.  sqlit
12a0: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64  e3_tokenizer_mod
12b0: 75 6c 65 20 2a 2a 70 70 4d 6f 64 75 6c 65 0a 29  ule **ppModule.)
12c0: 7b 0a 20 20 2a 70 70 4d 6f 64 75 6c 65 20 3d 20  {.  *ppModule = 
12d0: 26 73 69 6d 70 6c 65 54 6f 6b 65 6e 69 7a 65 72  &simpleTokenizer
12e0: 4d 6f 64 75 6c 65 3b 0a 7d 0a                    Module;.}.