/ Hex Artifact Content
Login

Artifact b85eca4a52e5ec11b94392de5167974c11906d4a:


0000: 2f 2a 0a 2a 2a 20 32 30 30 37 20 4a 75 6e 65 20  /*.** 2007 June 
0010: 32 32 0a 2a 2a 0a 2a 2a 20 54 68 65 20 61 75 74  22.**.** The aut
0020: 68 6f 72 20 64 69 73 63 6c 61 69 6d 73 20 63 6f  hor disclaims co
0030: 70 79 72 69 67 68 74 20 74 6f 20 74 68 69 73 20  pyright to this 
0040: 73 6f 75 72 63 65 20 63 6f 64 65 2e 20 20 49 6e  source code.  In
0050: 20 70 6c 61 63 65 20 6f 66 0a 2a 2a 20 61 20 6c   place of.** a l
0060: 65 67 61 6c 20 6e 6f 74 69 63 65 2c 20 68 65 72  egal notice, her
0070: 65 20 69 73 20 61 20 62 6c 65 73 73 69 6e 67 3a  e is a blessing:
0080: 0a 2a 2a 0a 2a 2a 20 20 20 20 4d 61 79 20 79 6f  .**.**    May yo
0090: 75 20 64 6f 20 67 6f 6f 64 20 61 6e 64 20 6e 6f  u do good and no
00a0: 74 20 65 76 69 6c 2e 0a 2a 2a 20 20 20 20 4d 61  t evil..**    Ma
00b0: 79 20 79 6f 75 20 66 69 6e 64 20 66 6f 72 67 69  y you find forgi
00c0: 76 65 6e 65 73 73 20 66 6f 72 20 79 6f 75 72 73  veness for yours
00d0: 65 6c 66 20 61 6e 64 20 66 6f 72 67 69 76 65 20  elf and forgive 
00e0: 6f 74 68 65 72 73 2e 0a 2a 2a 20 20 20 20 4d 61  others..**    Ma
00f0: 79 20 79 6f 75 20 73 68 61 72 65 20 66 72 65 65  y you share free
0100: 6c 79 2c 20 6e 65 76 65 72 20 74 61 6b 69 6e 67  ly, never taking
0110: 20 6d 6f 72 65 20 74 68 61 6e 20 79 6f 75 20 67   more than you g
0120: 69 76 65 2e 0a 2a 2a 0a 2a 2a 2a 2a 2a 2a 2a 2a  ive..**.********
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 0a 2a 2a 20 54 68 69 73 20 66 69 6c 65 20 69  *.** This file i
0180: 6d 70 6c 65 6d 65 6e 74 73 20 61 20 74 6f 6b 65  mplements a toke
0190: 6e 69 7a 65 72 20 66 6f 72 20 66 74 73 33 20 62  nizer for fts3 b
01a0: 61 73 65 64 20 6f 6e 20 74 68 65 20 49 43 55 20  ased on the ICU 
01b0: 6c 69 62 72 61 72 79 2e 0a 2a 2f 0a 23 69 6e 63  library..*/.#inc
01c0: 6c 75 64 65 20 22 66 74 73 33 49 6e 74 2e 68 22  lude "fts3Int.h"
01d0: 0a 23 69 66 20 21 64 65 66 69 6e 65 64 28 53 51  .#if !defined(SQ
01e0: 4c 49 54 45 5f 43 4f 52 45 29 20 7c 7c 20 64 65  LITE_CORE) || de
01f0: 66 69 6e 65 64 28 53 51 4c 49 54 45 5f 45 4e 41  fined(SQLITE_ENA
0200: 42 4c 45 5f 46 54 53 33 29 0a 23 69 66 64 65 66  BLE_FTS3).#ifdef
0210: 20 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45 5f 49   SQLITE_ENABLE_I
0220: 43 55 0a 0a 23 69 6e 63 6c 75 64 65 20 3c 61 73  CU..#include <as
0230: 73 65 72 74 2e 68 3e 0a 23 69 6e 63 6c 75 64 65  sert.h>.#include
0240: 20 3c 73 74 72 69 6e 67 2e 68 3e 0a 23 69 6e 63   <string.h>.#inc
0250: 6c 75 64 65 20 22 66 74 73 33 5f 74 6f 6b 65 6e  lude "fts3_token
0260: 69 7a 65 72 2e 68 22 0a 0a 23 69 6e 63 6c 75 64  izer.h"..#includ
0270: 65 20 3c 75 6e 69 63 6f 64 65 2f 75 62 72 6b 2e  e <unicode/ubrk.
0280: 68 3e 0a 23 69 6e 63 6c 75 64 65 20 3c 75 6e 69  h>.#include <uni
0290: 63 6f 64 65 2f 75 63 6f 6c 2e 68 3e 0a 23 69 6e  code/ucol.h>.#in
02a0: 63 6c 75 64 65 20 3c 75 6e 69 63 6f 64 65 2f 75  clude <unicode/u
02b0: 73 74 72 69 6e 67 2e 68 3e 0a 23 69 6e 63 6c 75  string.h>.#inclu
02c0: 64 65 20 3c 75 6e 69 63 6f 64 65 2f 75 74 66 31  de <unicode/utf1
02d0: 36 2e 68 3e 0a 0a 74 79 70 65 64 65 66 20 73 74  6.h>..typedef st
02e0: 72 75 63 74 20 49 63 75 54 6f 6b 65 6e 69 7a 65  ruct IcuTokenize
02f0: 72 20 49 63 75 54 6f 6b 65 6e 69 7a 65 72 3b 0a  r IcuTokenizer;.
0300: 74 79 70 65 64 65 66 20 73 74 72 75 63 74 20 49  typedef struct I
0310: 63 75 43 75 72 73 6f 72 20 49 63 75 43 75 72 73  cuCursor IcuCurs
0320: 6f 72 3b 0a 0a 73 74 72 75 63 74 20 49 63 75 54  or;..struct IcuT
0330: 6f 6b 65 6e 69 7a 65 72 20 7b 0a 20 20 73 71 6c  okenizer {.  sql
0340: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 62  ite3_tokenizer b
0350: 61 73 65 3b 0a 20 20 63 68 61 72 20 2a 7a 4c 6f  ase;.  char *zLo
0360: 63 61 6c 65 3b 0a 7d 3b 0a 0a 73 74 72 75 63 74  cale;.};..struct
0370: 20 49 63 75 43 75 72 73 6f 72 20 7b 0a 20 20 73   IcuCursor {.  s
0380: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
0390: 5f 63 75 72 73 6f 72 20 62 61 73 65 3b 0a 0a 20  _cursor base;.. 
03a0: 20 55 42 72 65 61 6b 49 74 65 72 61 74 6f 72 20   UBreakIterator 
03b0: 2a 70 49 74 65 72 3b 20 20 20 20 20 20 2f 2a 20  *pIter;      /* 
03c0: 49 43 55 20 62 72 65 61 6b 2d 69 74 65 72 61 74  ICU break-iterat
03d0: 6f 72 20 6f 62 6a 65 63 74 20 2a 2f 0a 20 20 69  or object */.  i
03e0: 6e 74 20 6e 43 68 61 72 3b 20 20 20 20 20 20 20  nt nChar;       
03f0: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4e 75             /* Nu
0400: 6d 62 65 72 20 6f 66 20 55 43 68 61 72 20 65 6c  mber of UChar el
0410: 65 6d 65 6e 74 73 20 69 6e 20 70 49 6e 70 75 74  ements in pInput
0420: 20 2a 2f 0a 20 20 55 43 68 61 72 20 2a 61 43 68   */.  UChar *aCh
0430: 61 72 3b 20 20 20 20 20 20 20 20 20 20 20 20 20  ar;             
0440: 20 20 2f 2a 20 43 6f 70 79 20 6f 66 20 69 6e 70    /* Copy of inp
0450: 75 74 20 75 73 69 6e 67 20 75 74 66 2d 31 36 20  ut using utf-16 
0460: 65 6e 63 6f 64 69 6e 67 20 2a 2f 0a 20 20 69 6e  encoding */.  in
0470: 74 20 2a 61 4f 66 66 73 65 74 3b 20 20 20 20 20  t *aOffset;     
0480: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 66 66            /* Off
0490: 73 65 74 73 20 6f 66 20 65 61 63 68 20 63 68 61  sets of each cha
04a0: 72 61 63 74 65 72 20 69 6e 20 75 74 66 2d 38 20  racter in utf-8 
04b0: 69 6e 70 75 74 20 2a 2f 0a 0a 20 20 69 6e 74 20  input */..  int 
04c0: 6e 42 75 66 66 65 72 3b 0a 20 20 63 68 61 72 20  nBuffer;.  char 
04d0: 2a 7a 42 75 66 66 65 72 3b 0a 0a 20 20 69 6e 74  *zBuffer;..  int
04e0: 20 69 54 6f 6b 65 6e 3b 0a 7d 3b 0a 0a 2f 2a 0a   iToken;.};../*.
04f0: 2a 2a 20 43 72 65 61 74 65 20 61 20 6e 65 77 20  ** Create a new 
0500: 74 6f 6b 65 6e 69 7a 65 72 20 69 6e 73 74 61 6e  tokenizer instan
0510: 63 65 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  ce..*/.static in
0520: 74 20 69 63 75 43 72 65 61 74 65 28 0a 20 20 69  t icuCreate(.  i
0530: 6e 74 20 61 72 67 63 2c 20 20 20 20 20 20 20 20  nt argc,        
0540: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0550: 20 20 20 20 2f 2a 20 4e 75 6d 62 65 72 20 6f 66      /* Number of
0560: 20 65 6e 74 72 69 65 73 20 69 6e 20 61 72 67 76   entries in argv
0570: 5b 5d 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68  [] */.  const ch
0580: 61 72 20 2a 20 63 6f 6e 73 74 20 2a 61 72 67 76  ar * const *argv
0590: 2c 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20  ,            /* 
05a0: 54 6f 6b 65 6e 69 7a 65 72 20 63 72 65 61 74 69  Tokenizer creati
05b0: 6f 6e 20 61 72 67 75 6d 65 6e 74 73 20 2a 2f 0a  on arguments */.
05c0: 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69    sqlite3_tokeni
05d0: 7a 65 72 20 2a 2a 70 70 54 6f 6b 65 6e 69 7a 65  zer **ppTokenize
05e0: 72 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 43  r      /* OUT: C
05f0: 72 65 61 74 65 64 20 74 6f 6b 65 6e 69 7a 65 72  reated tokenizer
0600: 20 2a 2f 0a 29 7b 0a 20 20 49 63 75 54 6f 6b 65   */.){.  IcuToke
0610: 6e 69 7a 65 72 20 2a 70 3b 0a 20 20 69 6e 74 20  nizer *p;.  int 
0620: 6e 20 3d 20 30 3b 0a 0a 20 20 69 66 28 20 61 72  n = 0;..  if( ar
0630: 67 63 3e 30 20 29 7b 0a 20 20 20 20 6e 20 3d 20  gc>0 ){.    n = 
0640: 73 74 72 6c 65 6e 28 61 72 67 76 5b 30 5d 29 2b  strlen(argv[0])+
0650: 31 3b 0a 20 20 7d 0a 20 20 70 20 3d 20 28 49 63  1;.  }.  p = (Ic
0660: 75 54 6f 6b 65 6e 69 7a 65 72 20 2a 29 73 71 6c  uTokenizer *)sql
0670: 69 74 65 33 5f 6d 61 6c 6c 6f 63 28 73 69 7a 65  ite3_malloc(size
0680: 6f 66 28 49 63 75 54 6f 6b 65 6e 69 7a 65 72 29  of(IcuTokenizer)
0690: 2b 6e 29 3b 0a 20 20 69 66 28 20 21 70 20 29 7b  +n);.  if( !p ){
06a0: 0a 20 20 20 20 72 65 74 75 72 6e 20 53 51 4c 49  .    return SQLI
06b0: 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 7d 0a 20 20  TE_NOMEM;.  }.  
06c0: 6d 65 6d 73 65 74 28 70 2c 20 30 2c 20 73 69 7a  memset(p, 0, siz
06d0: 65 6f 66 28 49 63 75 54 6f 6b 65 6e 69 7a 65 72  eof(IcuTokenizer
06e0: 29 29 3b 0a 0a 20 20 69 66 28 20 6e 20 29 7b 0a  ));..  if( n ){.
06f0: 20 20 20 20 70 2d 3e 7a 4c 6f 63 61 6c 65 20 3d      p->zLocale =
0700: 20 28 63 68 61 72 20 2a 29 26 70 5b 31 5d 3b 0a   (char *)&p[1];.
0710: 20 20 20 20 6d 65 6d 63 70 79 28 70 2d 3e 7a 4c      memcpy(p->zL
0720: 6f 63 61 6c 65 2c 20 61 72 67 76 5b 30 5d 2c 20  ocale, argv[0], 
0730: 6e 29 3b 0a 20 20 7d 0a 0a 20 20 2a 70 70 54 6f  n);.  }..  *ppTo
0740: 6b 65 6e 69 7a 65 72 20 3d 20 28 73 71 6c 69 74  kenizer = (sqlit
0750: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 29 70  e3_tokenizer *)p
0760: 3b 0a 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49  ;..  return SQLI
0770: 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20  TE_OK;.}../*.** 
0780: 44 65 73 74 72 6f 79 20 61 20 74 6f 6b 65 6e 69  Destroy a tokeni
0790: 7a 65 72 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  zer.*/.static in
07a0: 74 20 69 63 75 44 65 73 74 72 6f 79 28 73 71 6c  t icuDestroy(sql
07b0: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a  ite3_tokenizer *
07c0: 70 54 6f 6b 65 6e 69 7a 65 72 29 7b 0a 20 20 49  pTokenizer){.  I
07d0: 63 75 54 6f 6b 65 6e 69 7a 65 72 20 2a 70 20 3d  cuTokenizer *p =
07e0: 20 28 49 63 75 54 6f 6b 65 6e 69 7a 65 72 20 2a   (IcuTokenizer *
07f0: 29 70 54 6f 6b 65 6e 69 7a 65 72 3b 0a 20 20 73  )pTokenizer;.  s
0800: 71 6c 69 74 65 33 5f 66 72 65 65 28 70 29 3b 0a  qlite3_free(p);.
0810: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
0820: 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 50 72 65  OK;.}../*.** Pre
0830: 70 61 72 65 20 74 6f 20 62 65 67 69 6e 20 74 6f  pare to begin to
0840: 6b 65 6e 69 7a 69 6e 67 20 61 20 70 61 72 74 69  kenizing a parti
0850: 63 75 6c 61 72 20 73 74 72 69 6e 67 2e 20 20 54  cular string.  T
0860: 68 65 20 69 6e 70 75 74 0a 2a 2a 20 73 74 72 69  he input.** stri
0870: 6e 67 20 74 6f 20 62 65 20 74 6f 6b 65 6e 69 7a  ng to be tokeniz
0880: 65 64 20 69 73 20 70 49 6e 70 75 74 5b 30 2e 2e  ed is pInput[0..
0890: 6e 42 79 74 65 73 2d 31 5d 2e 20 20 41 20 63 75  nBytes-1].  A cu
08a0: 72 73 6f 72 0a 2a 2a 20 75 73 65 64 20 74 6f 20  rsor.** used to 
08b0: 69 6e 63 72 65 6d 65 6e 74 61 6c 6c 79 20 74 6f  incrementally to
08c0: 6b 65 6e 69 7a 65 20 74 68 69 73 20 73 74 72 69  kenize this stri
08d0: 6e 67 20 69 73 20 72 65 74 75 72 6e 65 64 20 69  ng is returned i
08e0: 6e 20 0a 2a 2a 20 2a 70 70 43 75 72 73 6f 72 2e  n .** *ppCursor.
08f0: 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 69  .*/.static int i
0900: 63 75 4f 70 65 6e 28 0a 20 20 73 71 6c 69 74 65  cuOpen(.  sqlite
0910: 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 54 6f  3_tokenizer *pTo
0920: 6b 65 6e 69 7a 65 72 2c 20 20 20 20 20 20 20 20  kenizer,        
0930: 20 2f 2a 20 54 68 65 20 74 6f 6b 65 6e 69 7a 65   /* The tokenize
0940: 72 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61  r */.  const cha
0950: 72 20 2a 7a 49 6e 70 75 74 2c 20 20 20 20 20 20  r *zInput,      
0960: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
0970: 20 49 6e 70 75 74 20 73 74 72 69 6e 67 20 2a 2f   Input string */
0980: 0a 20 20 69 6e 74 20 6e 49 6e 70 75 74 2c 20 20  .  int nInput,  
0990: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
09a0: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4c 65 6e            /* Len
09b0: 67 74 68 20 6f 66 20 7a 49 6e 70 75 74 20 69 6e  gth of zInput in
09c0: 20 62 79 74 65 73 20 2a 2f 0a 20 20 73 71 6c 69   bytes */.  sqli
09d0: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  te3_tokenizer_cu
09e0: 72 73 6f 72 20 2a 2a 70 70 43 75 72 73 6f 72 20  rsor **ppCursor 
09f0: 20 20 20 2f 2a 20 4f 55 54 3a 20 54 6f 6b 65 6e     /* OUT: Token
0a00: 69 7a 61 74 69 6f 6e 20 63 75 72 73 6f 72 20 2a  ization cursor *
0a10: 2f 0a 29 7b 0a 20 20 49 63 75 54 6f 6b 65 6e 69  /.){.  IcuTokeni
0a20: 7a 65 72 20 2a 70 20 3d 20 28 49 63 75 54 6f 6b  zer *p = (IcuTok
0a30: 65 6e 69 7a 65 72 20 2a 29 70 54 6f 6b 65 6e 69  enizer *)pTokeni
0a40: 7a 65 72 3b 0a 20 20 49 63 75 43 75 72 73 6f 72  zer;.  IcuCursor
0a50: 20 2a 70 43 73 72 3b 0a 0a 20 20 63 6f 6e 73 74   *pCsr;..  const
0a60: 20 69 6e 74 33 32 5f 74 20 6f 70 74 20 3d 20 55   int32_t opt = U
0a70: 5f 46 4f 4c 44 5f 43 41 53 45 5f 44 45 46 41 55  _FOLD_CASE_DEFAU
0a80: 4c 54 3b 0a 20 20 55 45 72 72 6f 72 43 6f 64 65  LT;.  UErrorCode
0a90: 20 73 74 61 74 75 73 20 3d 20 55 5f 5a 45 52 4f   status = U_ZERO
0aa0: 5f 45 52 52 4f 52 3b 0a 20 20 69 6e 74 20 6e 43  _ERROR;.  int nC
0ab0: 68 61 72 3b 0a 0a 20 20 55 43 68 61 72 33 32 20  har;..  UChar32 
0ac0: 63 3b 0a 20 20 69 6e 74 20 69 49 6e 70 75 74 20  c;.  int iInput 
0ad0: 3d 20 30 3b 0a 20 20 69 6e 74 20 69 4f 75 74 20  = 0;.  int iOut 
0ae0: 3d 20 30 3b 0a 0a 20 20 2a 70 70 43 75 72 73 6f  = 0;..  *ppCurso
0af0: 72 20 3d 20 30 3b 0a 0a 20 20 69 66 28 20 7a 49  r = 0;..  if( zI
0b00: 6e 70 75 74 3d 3d 30 20 29 7b 0a 20 20 20 20 6e  nput==0 ){.    n
0b10: 49 6e 70 75 74 20 3d 20 30 3b 0a 20 20 20 20 7a  Input = 0;.    z
0b20: 49 6e 70 75 74 20 3d 20 22 22 3b 0a 20 20 7d 65  Input = "";.  }e
0b30: 6c 73 65 20 69 66 28 20 6e 49 6e 70 75 74 3c 30  lse if( nInput<0
0b40: 20 29 7b 0a 20 20 20 20 6e 49 6e 70 75 74 20 3d   ){.    nInput =
0b50: 20 73 74 72 6c 65 6e 28 7a 49 6e 70 75 74 29 3b   strlen(zInput);
0b60: 0a 20 20 7d 0a 20 20 6e 43 68 61 72 20 3d 20 6e  .  }.  nChar = n
0b70: 49 6e 70 75 74 2b 31 3b 0a 20 20 70 43 73 72 20  Input+1;.  pCsr 
0b80: 3d 20 28 49 63 75 43 75 72 73 6f 72 20 2a 29 73  = (IcuCursor *)s
0b90: 71 6c 69 74 65 33 5f 6d 61 6c 6c 6f 63 28 0a 20  qlite3_malloc(. 
0ba0: 20 20 20 20 20 73 69 7a 65 6f 66 28 49 63 75 43       sizeof(IcuC
0bb0: 75 72 73 6f 72 29 20 2b 20 20 20 20 20 20 20 20  ursor) +        
0bc0: 20 20 20 20 20 20 20 20 2f 2a 20 49 63 75 43 75          /* IcuCu
0bd0: 72 73 6f 72 20 2a 2f 0a 20 20 20 20 20 20 6e 43  rsor */.      nC
0be0: 68 61 72 20 2a 20 73 69 7a 65 6f 66 28 55 43 68  har * sizeof(UCh
0bf0: 61 72 29 20 2b 20 20 20 20 20 20 20 20 20 20 20  ar) +           
0c00: 20 2f 2a 20 49 63 75 43 75 72 73 6f 72 2e 61 43   /* IcuCursor.aC
0c10: 68 61 72 5b 5d 20 2a 2f 0a 20 20 20 20 20 20 28  har[] */.      (
0c20: 6e 43 68 61 72 2b 31 29 20 2a 20 73 69 7a 65 6f  nChar+1) * sizeo
0c30: 66 28 69 6e 74 29 20 20 20 20 20 20 20 20 20 20  f(int)          
0c40: 20 20 2f 2a 20 49 63 75 43 75 72 73 6f 72 2e 61    /* IcuCursor.a
0c50: 4f 66 66 73 65 74 5b 5d 20 2a 2f 0a 20 20 29 3b  Offset[] */.  );
0c60: 0a 20 20 69 66 28 20 21 70 43 73 72 20 29 7b 0a  .  if( !pCsr ){.
0c70: 20 20 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54      return SQLIT
0c80: 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 7d 0a 20 20 6d  E_NOMEM;.  }.  m
0c90: 65 6d 73 65 74 28 70 43 73 72 2c 20 30 2c 20 73  emset(pCsr, 0, s
0ca0: 69 7a 65 6f 66 28 49 63 75 43 75 72 73 6f 72 29  izeof(IcuCursor)
0cb0: 29 3b 0a 20 20 70 43 73 72 2d 3e 61 43 68 61 72  );.  pCsr->aChar
0cc0: 20 3d 20 28 55 43 68 61 72 20 2a 29 26 70 43 73   = (UChar *)&pCs
0cd0: 72 5b 31 5d 3b 0a 20 20 70 43 73 72 2d 3e 61 4f  r[1];.  pCsr->aO
0ce0: 66 66 73 65 74 20 3d 20 28 69 6e 74 20 2a 29 26  ffset = (int *)&
0cf0: 70 43 73 72 2d 3e 61 43 68 61 72 5b 6e 43 68 61  pCsr->aChar[nCha
0d00: 72 5d 3b 0a 0a 20 20 70 43 73 72 2d 3e 61 4f 66  r];..  pCsr->aOf
0d10: 66 73 65 74 5b 69 4f 75 74 5d 20 3d 20 69 49 6e  fset[iOut] = iIn
0d20: 70 75 74 3b 0a 20 20 55 38 5f 4e 45 58 54 28 7a  put;.  U8_NEXT(z
0d30: 49 6e 70 75 74 2c 20 69 49 6e 70 75 74 2c 20 6e  Input, iInput, n
0d40: 49 6e 70 75 74 2c 20 63 29 3b 20 0a 20 20 77 68  Input, c); .  wh
0d50: 69 6c 65 28 20 63 3e 30 20 29 7b 0a 20 20 20 20  ile( c>0 ){.    
0d60: 69 6e 74 20 69 73 45 72 72 6f 72 20 3d 20 30 3b  int isError = 0;
0d70: 0a 20 20 20 20 63 20 3d 20 75 5f 66 6f 6c 64 43  .    c = u_foldC
0d80: 61 73 65 28 63 2c 20 6f 70 74 29 3b 0a 20 20 20  ase(c, opt);.   
0d90: 20 55 31 36 5f 41 50 50 45 4e 44 28 70 43 73 72   U16_APPEND(pCsr
0da0: 2d 3e 61 43 68 61 72 2c 20 69 4f 75 74 2c 20 6e  ->aChar, iOut, n
0db0: 43 68 61 72 2c 20 63 2c 20 69 73 45 72 72 6f 72  Char, c, isError
0dc0: 29 3b 0a 20 20 20 20 69 66 28 20 69 73 45 72 72  );.    if( isErr
0dd0: 6f 72 20 29 7b 0a 20 20 20 20 20 20 73 71 6c 69  or ){.      sqli
0de0: 74 65 33 5f 66 72 65 65 28 70 43 73 72 29 3b 0a  te3_free(pCsr);.
0df0: 20 20 20 20 20 20 72 65 74 75 72 6e 20 53 51 4c        return SQL
0e00: 49 54 45 5f 45 52 52 4f 52 3b 0a 20 20 20 20 7d  ITE_ERROR;.    }
0e10: 0a 20 20 20 20 70 43 73 72 2d 3e 61 4f 66 66 73  .    pCsr->aOffs
0e20: 65 74 5b 69 4f 75 74 5d 20 3d 20 69 49 6e 70 75  et[iOut] = iInpu
0e30: 74 3b 0a 0a 20 20 20 20 69 66 28 20 69 49 6e 70  t;..    if( iInp
0e40: 75 74 3c 6e 49 6e 70 75 74 20 29 7b 0a 20 20 20  ut<nInput ){.   
0e50: 20 20 20 55 38 5f 4e 45 58 54 28 7a 49 6e 70 75     U8_NEXT(zInpu
0e60: 74 2c 20 69 49 6e 70 75 74 2c 20 6e 49 6e 70 75  t, iInput, nInpu
0e70: 74 2c 20 63 29 3b 0a 20 20 20 20 7d 65 6c 73 65  t, c);.    }else
0e80: 7b 0a 20 20 20 20 20 20 63 20 3d 20 30 3b 0a 20  {.      c = 0;. 
0e90: 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 70 43 73 72     }.  }..  pCsr
0ea0: 2d 3e 70 49 74 65 72 20 3d 20 75 62 72 6b 5f 6f  ->pIter = ubrk_o
0eb0: 70 65 6e 28 55 42 52 4b 5f 57 4f 52 44 2c 20 70  pen(UBRK_WORD, p
0ec0: 2d 3e 7a 4c 6f 63 61 6c 65 2c 20 70 43 73 72 2d  ->zLocale, pCsr-
0ed0: 3e 61 43 68 61 72 2c 20 69 4f 75 74 2c 20 26 73  >aChar, iOut, &s
0ee0: 74 61 74 75 73 29 3b 0a 20 20 69 66 28 20 21 55  tatus);.  if( !U
0ef0: 5f 53 55 43 43 45 53 53 28 73 74 61 74 75 73 29  _SUCCESS(status)
0f00: 20 29 7b 0a 20 20 20 20 73 71 6c 69 74 65 33 5f   ){.    sqlite3_
0f10: 66 72 65 65 28 70 43 73 72 29 3b 0a 20 20 20 20  free(pCsr);.    
0f20: 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 45 52  return SQLITE_ER
0f30: 52 4f 52 3b 0a 20 20 7d 0a 20 20 70 43 73 72 2d  ROR;.  }.  pCsr-
0f40: 3e 6e 43 68 61 72 20 3d 20 69 4f 75 74 3b 0a 0a  >nChar = iOut;..
0f50: 20 20 75 62 72 6b 5f 66 69 72 73 74 28 70 43 73    ubrk_first(pCs
0f60: 72 2d 3e 70 49 74 65 72 29 3b 0a 20 20 2a 70 70  r->pIter);.  *pp
0f70: 43 75 72 73 6f 72 20 3d 20 28 73 71 6c 69 74 65  Cursor = (sqlite
0f80: 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  3_tokenizer_curs
0f90: 6f 72 20 2a 29 70 43 73 72 3b 0a 20 20 72 65 74  or *)pCsr;.  ret
0fa0: 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d  urn SQLITE_OK;.}
0fb0: 0a 0a 2f 2a 0a 2a 2a 20 43 6c 6f 73 65 20 61 20  ../*.** Close a 
0fc0: 74 6f 6b 65 6e 69 7a 61 74 69 6f 6e 20 63 75 72  tokenization cur
0fd0: 73 6f 72 20 70 72 65 76 69 6f 75 73 6c 79 20 6f  sor previously o
0fe0: 70 65 6e 65 64 20 62 79 20 61 20 63 61 6c 6c 20  pened by a call 
0ff0: 74 6f 20 69 63 75 4f 70 65 6e 28 29 2e 0a 2a 2f  to icuOpen()..*/
1000: 0a 73 74 61 74 69 63 20 69 6e 74 20 69 63 75 43  .static int icuC
1010: 6c 6f 73 65 28 73 71 6c 69 74 65 33 5f 74 6f 6b  lose(sqlite3_tok
1020: 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a 70  enizer_cursor *p
1030: 43 75 72 73 6f 72 29 7b 0a 20 20 49 63 75 43 75  Cursor){.  IcuCu
1040: 72 73 6f 72 20 2a 70 43 73 72 20 3d 20 28 49 63  rsor *pCsr = (Ic
1050: 75 43 75 72 73 6f 72 20 2a 29 70 43 75 72 73 6f  uCursor *)pCurso
1060: 72 3b 0a 20 20 75 62 72 6b 5f 63 6c 6f 73 65 28  r;.  ubrk_close(
1070: 70 43 73 72 2d 3e 70 49 74 65 72 29 3b 0a 20 20  pCsr->pIter);.  
1080: 73 71 6c 69 74 65 33 5f 66 72 65 65 28 70 43 73  sqlite3_free(pCs
1090: 72 2d 3e 7a 42 75 66 66 65 72 29 3b 0a 20 20 73  r->zBuffer);.  s
10a0: 71 6c 69 74 65 33 5f 66 72 65 65 28 70 43 73 72  qlite3_free(pCsr
10b0: 29 3b 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49  );.  return SQLI
10c0: 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20  TE_OK;.}../*.** 
10d0: 45 78 74 72 61 63 74 20 74 68 65 20 6e 65 78 74  Extract the next
10e0: 20 74 6f 6b 65 6e 20 66 72 6f 6d 20 61 20 74 6f   token from a to
10f0: 6b 65 6e 69 7a 61 74 69 6f 6e 20 63 75 72 73 6f  kenization curso
1100: 72 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74  r..*/.static int
1110: 20 69 63 75 4e 65 78 74 28 0a 20 20 73 71 6c 69   icuNext(.  sqli
1120: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  te3_tokenizer_cu
1130: 72 73 6f 72 20 2a 70 43 75 72 73 6f 72 2c 20 20  rsor *pCursor,  
1140: 2f 2a 20 43 75 72 73 6f 72 20 72 65 74 75 72 6e  /* Cursor return
1150: 65 64 20 62 79 20 73 69 6d 70 6c 65 4f 70 65 6e  ed by simpleOpen
1160: 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61 72   */.  const char
1170: 20 2a 2a 70 70 54 6f 6b 65 6e 2c 20 20 20 20 20   **ppToken,     
1180: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 54            /* OUT
1190: 3a 20 2a 70 70 54 6f 6b 65 6e 20 69 73 20 74 68  : *ppToken is th
11a0: 65 20 74 6f 6b 65 6e 20 74 65 78 74 20 2a 2f 0a  e token text */.
11b0: 20 20 69 6e 74 20 2a 70 6e 42 79 74 65 73 2c 20    int *pnBytes, 
11c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
11d0: 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 4e 75        /* OUT: Nu
11e0: 6d 62 65 72 20 6f 66 20 62 79 74 65 73 20 69 6e  mber of bytes in
11f0: 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20   token */.  int 
1200: 2a 70 69 53 74 61 72 74 4f 66 66 73 65 74 2c 20  *piStartOffset, 
1210: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1220: 2f 2a 20 4f 55 54 3a 20 53 74 61 72 74 69 6e 67  /* OUT: Starting
1230: 20 6f 66 66 73 65 74 20 6f 66 20 74 6f 6b 65 6e   offset of token
1240: 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 69 45 6e 64   */.  int *piEnd
1250: 4f 66 66 73 65 74 2c 20 20 20 20 20 20 20 20 20  Offset,         
1260: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 54            /* OUT
1270: 3a 20 45 6e 64 69 6e 67 20 6f 66 66 73 65 74 20  : Ending offset 
1280: 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e  of token */.  in
1290: 74 20 2a 70 69 50 6f 73 69 74 69 6f 6e 20 20 20  t *piPosition   
12a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
12b0: 20 20 2f 2a 20 4f 55 54 3a 20 50 6f 73 69 74 69    /* OUT: Positi
12c0: 6f 6e 20 69 6e 74 65 67 65 72 20 6f 66 20 74 6f  on integer of to
12d0: 6b 65 6e 20 2a 2f 0a 29 7b 0a 20 20 49 63 75 43  ken */.){.  IcuC
12e0: 75 72 73 6f 72 20 2a 70 43 73 72 20 3d 20 28 49  ursor *pCsr = (I
12f0: 63 75 43 75 72 73 6f 72 20 2a 29 70 43 75 72 73  cuCursor *)pCurs
1300: 6f 72 3b 0a 0a 20 20 69 6e 74 20 69 53 74 61 72  or;..  int iStar
1310: 74 20 3d 20 30 3b 0a 20 20 69 6e 74 20 69 45 6e  t = 0;.  int iEn
1320: 64 20 3d 20 30 3b 0a 20 20 69 6e 74 20 6e 42 79  d = 0;.  int nBy
1330: 74 65 20 3d 20 30 3b 0a 0a 20 20 77 68 69 6c 65  te = 0;..  while
1340: 28 20 69 53 74 61 72 74 3d 3d 69 45 6e 64 20 29  ( iStart==iEnd )
1350: 7b 0a 20 20 20 20 55 43 68 61 72 33 32 20 63 3b  {.    UChar32 c;
1360: 0a 0a 20 20 20 20 69 53 74 61 72 74 20 3d 20 75  ..    iStart = u
1370: 62 72 6b 5f 63 75 72 72 65 6e 74 28 70 43 73 72  brk_current(pCsr
1380: 2d 3e 70 49 74 65 72 29 3b 0a 20 20 20 20 69 45  ->pIter);.    iE
1390: 6e 64 20 3d 20 75 62 72 6b 5f 6e 65 78 74 28 70  nd = ubrk_next(p
13a0: 43 73 72 2d 3e 70 49 74 65 72 29 3b 0a 20 20 20  Csr->pIter);.   
13b0: 20 69 66 28 20 69 45 6e 64 3d 3d 55 42 52 4b 5f   if( iEnd==UBRK_
13c0: 44 4f 4e 45 20 29 7b 0a 20 20 20 20 20 20 72 65  DONE ){.      re
13d0: 74 75 72 6e 20 53 51 4c 49 54 45 5f 44 4f 4e 45  turn SQLITE_DONE
13e0: 3b 0a 20 20 20 20 7d 0a 0a 20 20 20 20 77 68 69  ;.    }..    whi
13f0: 6c 65 28 20 69 53 74 61 72 74 3c 69 45 6e 64 20  le( iStart<iEnd 
1400: 29 7b 0a 20 20 20 20 20 20 69 6e 74 20 69 57 68  ){.      int iWh
1410: 69 74 65 20 3d 20 69 53 74 61 72 74 3b 0a 20 20  ite = iStart;.  
1420: 20 20 20 20 55 31 36 5f 4e 45 58 54 28 70 43 73      U16_NEXT(pCs
1430: 72 2d 3e 61 43 68 61 72 2c 20 69 57 68 69 74 65  r->aChar, iWhite
1440: 2c 20 70 43 73 72 2d 3e 6e 43 68 61 72 2c 20 63  , pCsr->nChar, c
1450: 29 3b 0a 20 20 20 20 20 20 69 66 28 20 75 5f 69  );.      if( u_i
1460: 73 73 70 61 63 65 28 63 29 20 29 7b 0a 20 20 20  sspace(c) ){.   
1470: 20 20 20 20 20 69 53 74 61 72 74 20 3d 20 69 57       iStart = iW
1480: 68 69 74 65 3b 0a 20 20 20 20 20 20 7d 65 6c 73  hite;.      }els
1490: 65 7b 0a 20 20 20 20 20 20 20 20 62 72 65 61 6b  e{.        break
14a0: 3b 0a 20 20 20 20 20 20 7d 0a 20 20 20 20 7d 0a  ;.      }.    }.
14b0: 20 20 20 20 61 73 73 65 72 74 28 69 53 74 61 72      assert(iStar
14c0: 74 3c 3d 69 45 6e 64 29 3b 0a 20 20 7d 0a 0a 20  t<=iEnd);.  }.. 
14d0: 20 64 6f 20 7b 0a 20 20 20 20 55 45 72 72 6f 72   do {.    UError
14e0: 43 6f 64 65 20 73 74 61 74 75 73 20 3d 20 55 5f  Code status = U_
14f0: 5a 45 52 4f 5f 45 52 52 4f 52 3b 0a 20 20 20 20  ZERO_ERROR;.    
1500: 69 66 28 20 6e 42 79 74 65 20 29 7b 0a 20 20 20  if( nByte ){.   
1510: 20 20 20 63 68 61 72 20 2a 7a 4e 65 77 20 3d 20     char *zNew = 
1520: 73 71 6c 69 74 65 33 5f 72 65 61 6c 6c 6f 63 28  sqlite3_realloc(
1530: 70 43 73 72 2d 3e 7a 42 75 66 66 65 72 2c 20 6e  pCsr->zBuffer, n
1540: 42 79 74 65 29 3b 0a 20 20 20 20 20 20 69 66 28  Byte);.      if(
1550: 20 21 7a 4e 65 77 20 29 7b 0a 20 20 20 20 20 20   !zNew ){.      
1560: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
1570: 4e 4f 4d 45 4d 3b 0a 20 20 20 20 20 20 7d 0a 20  NOMEM;.      }. 
1580: 20 20 20 20 20 70 43 73 72 2d 3e 7a 42 75 66 66       pCsr->zBuff
1590: 65 72 20 3d 20 7a 4e 65 77 3b 0a 20 20 20 20 20  er = zNew;.     
15a0: 20 70 43 73 72 2d 3e 6e 42 75 66 66 65 72 20 3d   pCsr->nBuffer =
15b0: 20 6e 42 79 74 65 3b 0a 20 20 20 20 7d 0a 0a 20   nByte;.    }.. 
15c0: 20 20 20 75 5f 73 74 72 54 6f 55 54 46 38 28 0a     u_strToUTF8(.
15d0: 20 20 20 20 20 20 20 20 70 43 73 72 2d 3e 7a 42          pCsr->zB
15e0: 75 66 66 65 72 2c 20 70 43 73 72 2d 3e 6e 42 75  uffer, pCsr->nBu
15f0: 66 66 65 72 2c 20 26 6e 42 79 74 65 2c 20 20 20  ffer, &nByte,   
1600: 20 2f 2a 20 4f 75 74 70 75 74 20 76 61 72 73 20   /* Output vars 
1610: 2a 2f 0a 20 20 20 20 20 20 20 20 26 70 43 73 72  */.        &pCsr
1620: 2d 3e 61 43 68 61 72 5b 69 53 74 61 72 74 5d 2c  ->aChar[iStart],
1630: 20 69 45 6e 64 2d 69 53 74 61 72 74 2c 20 20 20   iEnd-iStart,   
1640: 20 20 20 20 2f 2a 20 49 6e 70 75 74 20 76 61 72      /* Input var
1650: 73 20 2a 2f 0a 20 20 20 20 20 20 20 20 26 73 74  s */.        &st
1660: 61 74 75 73 20 20 20 20 20 20 20 20 20 20 20 20  atus            
1670: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1680: 20 20 20 20 20 20 2f 2a 20 4f 75 74 70 75 74 20        /* Output 
1690: 73 75 63 63 65 73 73 2f 66 61 69 6c 75 72 65 20  success/failure 
16a0: 2a 2f 0a 20 20 20 20 29 3b 0a 20 20 7d 20 77 68  */.    );.  } wh
16b0: 69 6c 65 28 20 6e 42 79 74 65 3e 70 43 73 72 2d  ile( nByte>pCsr-
16c0: 3e 6e 42 75 66 66 65 72 20 29 3b 0a 0a 20 20 2a  >nBuffer );..  *
16d0: 70 70 54 6f 6b 65 6e 20 3d 20 70 43 73 72 2d 3e  ppToken = pCsr->
16e0: 7a 42 75 66 66 65 72 3b 0a 20 20 2a 70 6e 42 79  zBuffer;.  *pnBy
16f0: 74 65 73 20 3d 20 6e 42 79 74 65 3b 0a 20 20 2a  tes = nByte;.  *
1700: 70 69 53 74 61 72 74 4f 66 66 73 65 74 20 3d 20  piStartOffset = 
1710: 70 43 73 72 2d 3e 61 4f 66 66 73 65 74 5b 69 53  pCsr->aOffset[iS
1720: 74 61 72 74 5d 3b 0a 20 20 2a 70 69 45 6e 64 4f  tart];.  *piEndO
1730: 66 66 73 65 74 20 3d 20 70 43 73 72 2d 3e 61 4f  ffset = pCsr->aO
1740: 66 66 73 65 74 5b 69 45 6e 64 5d 3b 0a 20 20 2a  ffset[iEnd];.  *
1750: 70 69 50 6f 73 69 74 69 6f 6e 20 3d 20 70 43 73  piPosition = pCs
1760: 72 2d 3e 69 54 6f 6b 65 6e 2b 2b 3b 0a 0a 20 20  r->iToken++;..  
1770: 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b  return SQLITE_OK
1780: 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 54 68 65 20 73  ;.}../*.** The s
1790: 65 74 20 6f 66 20 72 6f 75 74 69 6e 65 73 20 74  et of routines t
17a0: 68 61 74 20 69 6d 70 6c 65 6d 65 6e 74 20 74 68  hat implement th
17b0: 65 20 73 69 6d 70 6c 65 20 74 6f 6b 65 6e 69 7a  e simple tokeniz
17c0: 65 72 0a 2a 2f 0a 73 74 61 74 69 63 20 63 6f 6e  er.*/.static con
17d0: 73 74 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  st sqlite3_token
17e0: 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 69 63 75 54  izer_module icuT
17f0: 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 20 3d  okenizerModule =
1800: 20 7b 0a 20 20 30 2c 20 20 20 20 20 20 20 20 20   {.  0,         
1810: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1820: 20 20 2f 2a 20 69 56 65 72 73 69 6f 6e 20 2a 2f    /* iVersion */
1830: 0a 20 20 69 63 75 43 72 65 61 74 65 2c 20 20 20  .  icuCreate,   
1840: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1850: 2f 2a 20 78 43 72 65 61 74 65 20 20 2a 2f 0a 20  /* xCreate  */. 
1860: 20 69 63 75 44 65 73 74 72 6f 79 2c 20 20 20 20   icuDestroy,    
1870: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
1880: 20 78 43 72 65 61 74 65 20 20 2a 2f 0a 20 20 69   xCreate  */.  i
1890: 63 75 4f 70 65 6e 2c 20 20 20 20 20 20 20 20 20  cuOpen,         
18a0: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 78              /* x
18b0: 4f 70 65 6e 20 20 20 20 2a 2f 0a 20 20 69 63 75  Open    */.  icu
18c0: 43 6c 6f 73 65 2c 20 20 20 20 20 20 20 20 20 20  Close,          
18d0: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 78 43 6c            /* xCl
18e0: 6f 73 65 20 20 20 2a 2f 0a 20 20 69 63 75 4e 65  ose   */.  icuNe
18f0: 78 74 2c 20 20 20 20 20 20 20 20 20 20 20 20 20  xt,             
1900: 20 20 20 20 20 20 20 20 2f 2a 20 78 4e 65 78 74          /* xNext
1910: 20 20 20 20 2a 2f 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a      */.};../*.**
1920: 20 53 65 74 20 2a 70 70 4d 6f 64 75 6c 65 20 74   Set *ppModule t
1930: 6f 20 70 6f 69 6e 74 20 61 74 20 74 68 65 20 69  o point at the i
1940: 6d 70 6c 65 6d 65 6e 74 61 74 69 6f 6e 20 6f 66  mplementation of
1950: 20 74 68 65 20 49 43 55 20 74 6f 6b 65 6e 69 7a   the ICU tokeniz
1960: 65 72 2e 0a 2a 2f 0a 76 6f 69 64 20 73 71 6c 69  er..*/.void sqli
1970: 74 65 33 46 74 73 33 49 63 75 54 6f 6b 65 6e 69  te3Fts3IcuTokeni
1980: 7a 65 72 4d 6f 64 75 6c 65 28 0a 20 20 73 71 6c  zerModule(.  sql
1990: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d  ite3_tokenizer_m
19a0: 6f 64 75 6c 65 20 63 6f 6e 73 74 2a 2a 70 70 4d  odule const**ppM
19b0: 6f 64 75 6c 65 0a 29 7b 0a 20 20 2a 70 70 4d 6f  odule.){.  *ppMo
19c0: 64 75 6c 65 20 3d 20 26 69 63 75 54 6f 6b 65 6e  dule = &icuToken
19d0: 69 7a 65 72 4d 6f 64 75 6c 65 3b 0a 7d 0a 0a 23  izerModule;.}..#
19e0: 65 6e 64 69 66 20 2f 2a 20 64 65 66 69 6e 65 64  endif /* defined
19f0: 28 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45 5f 49  (SQLITE_ENABLE_I
1a00: 43 55 29 20 2a 2f 0a 23 65 6e 64 69 66 20 2f 2a  CU) */.#endif /*
1a10: 20 21 64 65 66 69 6e 65 64 28 53 51 4c 49 54 45   !defined(SQLITE
1a20: 5f 43 4f 52 45 29 20 7c 7c 20 64 65 66 69 6e 65  _CORE) || define
1a30: 64 28 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45 5f  d(SQLITE_ENABLE_
1a40: 46 54 53 33 29 20 2a 2f 0a                       FTS3) */.