/ Hex Artifact Content
Login

Artifact b1902e9ad47a6569fbb8ecb5ce52f20fe59b590d5c5e3bbdd56b10b03bdf632b:


0000: 2f 2a 0a 2a 2a 20 32 30 31 32 20 4d 61 79 20 32  /*.** 2012 May 2
0010: 34 0a 2a 2a 0a 2a 2a 20 54 68 65 20 61 75 74 68  4.**.** The auth
0020: 6f 72 20 64 69 73 63 6c 61 69 6d 73 20 63 6f 70  or disclaims cop
0030: 79 72 69 67 68 74 20 74 6f 20 74 68 69 73 20 73  yright to this s
0040: 6f 75 72 63 65 20 63 6f 64 65 2e 20 20 49 6e 20  ource code.  In 
0050: 70 6c 61 63 65 20 6f 66 0a 2a 2a 20 61 20 6c 65  place of.** a le
0060: 67 61 6c 20 6e 6f 74 69 63 65 2c 20 68 65 72 65  gal notice, here
0070: 20 69 73 20 61 20 62 6c 65 73 73 69 6e 67 3a 0a   is a blessing:.
0080: 2a 2a 0a 2a 2a 20 20 20 20 4d 61 79 20 79 6f 75  **.**    May you
0090: 20 64 6f 20 67 6f 6f 64 20 61 6e 64 20 6e 6f 74   do good and not
00a0: 20 65 76 69 6c 2e 0a 2a 2a 20 20 20 20 4d 61 79   evil..**    May
00b0: 20 79 6f 75 20 66 69 6e 64 20 66 6f 72 67 69 76   you find forgiv
00c0: 65 6e 65 73 73 20 66 6f 72 20 79 6f 75 72 73 65  eness for yourse
00d0: 6c 66 20 61 6e 64 20 66 6f 72 67 69 76 65 20 6f  lf and forgive o
00e0: 74 68 65 72 73 2e 0a 2a 2a 20 20 20 20 4d 61 79  thers..**    May
00f0: 20 79 6f 75 20 73 68 61 72 65 20 66 72 65 65 6c   you share freel
0100: 79 2c 20 6e 65 76 65 72 20 74 61 6b 69 6e 67 20  y, never taking 
0110: 6d 6f 72 65 20 74 68 61 6e 20 79 6f 75 20 67 69  more than you gi
0120: 76 65 2e 0a 2a 2a 0a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ve..**.*********
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 2a 2a 2a 2a 0a 2a 2a 0a 2a 2a 20 49 6d 70 6c  *****.**.** Impl
0180: 65 6d 65 6e 74 61 74 69 6f 6e 20 6f 66 20 74 68  ementation of th
0190: 65 20 22 75 6e 69 63 6f 64 65 22 20 66 75 6c 6c  e "unicode" full
01a0: 2d 74 65 78 74 2d 73 65 61 72 63 68 20 74 6f 6b  -text-search tok
01b0: 65 6e 69 7a 65 72 2e 0a 2a 2f 0a 0a 23 69 66 6e  enizer..*/..#ifn
01c0: 64 65 66 20 53 51 4c 49 54 45 5f 44 49 53 41 42  def SQLITE_DISAB
01d0: 4c 45 5f 46 54 53 33 5f 55 4e 49 43 4f 44 45 0a  LE_FTS3_UNICODE.
01e0: 0a 23 69 6e 63 6c 75 64 65 20 22 66 74 73 33 49  .#include "fts3I
01f0: 6e 74 2e 68 22 0a 23 69 66 20 21 64 65 66 69 6e  nt.h".#if !defin
0200: 65 64 28 53 51 4c 49 54 45 5f 43 4f 52 45 29 20  ed(SQLITE_CORE) 
0210: 7c 7c 20 64 65 66 69 6e 65 64 28 53 51 4c 49 54  || defined(SQLIT
0220: 45 5f 45 4e 41 42 4c 45 5f 46 54 53 33 29 0a 0a  E_ENABLE_FTS3)..
0230: 23 69 6e 63 6c 75 64 65 20 3c 61 73 73 65 72 74  #include <assert
0240: 2e 68 3e 0a 23 69 6e 63 6c 75 64 65 20 3c 73 74  .h>.#include <st
0250: 64 6c 69 62 2e 68 3e 0a 23 69 6e 63 6c 75 64 65  dlib.h>.#include
0260: 20 3c 73 74 64 69 6f 2e 68 3e 0a 23 69 6e 63 6c   <stdio.h>.#incl
0270: 75 64 65 20 3c 73 74 72 69 6e 67 2e 68 3e 0a 0a  ude <string.h>..
0280: 23 69 6e 63 6c 75 64 65 20 22 66 74 73 33 5f 74  #include "fts3_t
0290: 6f 6b 65 6e 69 7a 65 72 2e 68 22 0a 0a 2f 2a 0a  okenizer.h"../*.
02a0: 2a 2a 20 54 68 65 20 66 6f 6c 6c 6f 77 69 6e 67  ** The following
02b0: 20 74 77 6f 20 6d 61 63 72 6f 73 20 2d 20 52 45   two macros - RE
02c0: 41 44 5f 55 54 46 38 20 61 6e 64 20 57 52 49 54  AD_UTF8 and WRIT
02d0: 45 5f 55 54 46 38 20 2d 20 68 61 76 65 20 62 65  E_UTF8 - have be
02e0: 65 6e 20 63 6f 70 69 65 64 0a 2a 2a 20 66 72 6f  en copied.** fro
02f0: 6d 20 74 68 65 20 73 71 6c 69 74 65 33 20 73 6f  m the sqlite3 so
0300: 75 72 63 65 20 66 69 6c 65 20 75 74 66 2e 63 2e  urce file utf.c.
0310: 20 49 66 20 74 68 69 73 20 66 69 6c 65 20 69 73   If this file is
0320: 20 63 6f 6d 70 69 6c 65 64 20 61 73 20 70 61 72   compiled as par
0330: 74 0a 2a 2a 20 6f 66 20 74 68 65 20 61 6d 61 6c  t.** of the amal
0340: 67 61 6d 61 74 69 6f 6e 2c 20 74 68 65 79 20 61  gamation, they a
0350: 72 65 20 6e 6f 74 20 72 65 71 75 69 72 65 64 2e  re not required.
0360: 0a 2a 2f 0a 23 69 66 6e 64 65 66 20 53 51 4c 49  .*/.#ifndef SQLI
0370: 54 45 5f 41 4d 41 4c 47 41 4d 41 54 49 4f 4e 0a  TE_AMALGAMATION.
0380: 0a 73 74 61 74 69 63 20 63 6f 6e 73 74 20 75 6e  .static const un
0390: 73 69 67 6e 65 64 20 63 68 61 72 20 73 71 6c 69  signed char sqli
03a0: 74 65 33 55 74 66 38 54 72 61 6e 73 31 5b 5d 20  te3Utf8Trans1[] 
03b0: 3d 20 7b 0a 20 20 30 78 30 30 2c 20 30 78 30 31  = {.  0x00, 0x01
03c0: 2c 20 30 78 30 32 2c 20 30 78 30 33 2c 20 30 78  , 0x02, 0x03, 0x
03d0: 30 34 2c 20 30 78 30 35 2c 20 30 78 30 36 2c 20  04, 0x05, 0x06, 
03e0: 30 78 30 37 2c 0a 20 20 30 78 30 38 2c 20 30 78  0x07,.  0x08, 0x
03f0: 30 39 2c 20 30 78 30 61 2c 20 30 78 30 62 2c 20  09, 0x0a, 0x0b, 
0400: 30 78 30 63 2c 20 30 78 30 64 2c 20 30 78 30 65  0x0c, 0x0d, 0x0e
0410: 2c 20 30 78 30 66 2c 0a 20 20 30 78 31 30 2c 20  , 0x0f,.  0x10, 
0420: 30 78 31 31 2c 20 30 78 31 32 2c 20 30 78 31 33  0x11, 0x12, 0x13
0430: 2c 20 30 78 31 34 2c 20 30 78 31 35 2c 20 30 78  , 0x14, 0x15, 0x
0440: 31 36 2c 20 30 78 31 37 2c 0a 20 20 30 78 31 38  16, 0x17,.  0x18
0450: 2c 20 30 78 31 39 2c 20 30 78 31 61 2c 20 30 78  , 0x19, 0x1a, 0x
0460: 31 62 2c 20 30 78 31 63 2c 20 30 78 31 64 2c 20  1b, 0x1c, 0x1d, 
0470: 30 78 31 65 2c 20 30 78 31 66 2c 0a 20 20 30 78  0x1e, 0x1f,.  0x
0480: 30 30 2c 20 30 78 30 31 2c 20 30 78 30 32 2c 20  00, 0x01, 0x02, 
0490: 30 78 30 33 2c 20 30 78 30 34 2c 20 30 78 30 35  0x03, 0x04, 0x05
04a0: 2c 20 30 78 30 36 2c 20 30 78 30 37 2c 0a 20 20  , 0x06, 0x07,.  
04b0: 30 78 30 38 2c 20 30 78 30 39 2c 20 30 78 30 61  0x08, 0x09, 0x0a
04c0: 2c 20 30 78 30 62 2c 20 30 78 30 63 2c 20 30 78  , 0x0b, 0x0c, 0x
04d0: 30 64 2c 20 30 78 30 65 2c 20 30 78 30 66 2c 0a  0d, 0x0e, 0x0f,.
04e0: 20 20 30 78 30 30 2c 20 30 78 30 31 2c 20 30 78    0x00, 0x01, 0x
04f0: 30 32 2c 20 30 78 30 33 2c 20 30 78 30 34 2c 20  02, 0x03, 0x04, 
0500: 30 78 30 35 2c 20 30 78 30 36 2c 20 30 78 30 37  0x05, 0x06, 0x07
0510: 2c 0a 20 20 30 78 30 30 2c 20 30 78 30 31 2c 20  ,.  0x00, 0x01, 
0520: 30 78 30 32 2c 20 30 78 30 33 2c 20 30 78 30 30  0x02, 0x03, 0x00
0530: 2c 20 30 78 30 31 2c 20 30 78 30 30 2c 20 30 78  , 0x01, 0x00, 0x
0540: 30 30 2c 0a 7d 3b 0a 0a 23 64 65 66 69 6e 65 20  00,.};..#define 
0550: 52 45 41 44 5f 55 54 46 38 28 7a 49 6e 2c 20 7a  READ_UTF8(zIn, z
0560: 54 65 72 6d 2c 20 63 29 20 20 20 20 20 20 20 20  Term, c)        
0570: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0580: 20 20 20 5c 0a 20 20 63 20 3d 20 2a 28 7a 49 6e     \.  c = *(zIn
0590: 2b 2b 29 3b 20 20 20 20 20 20 20 20 20 20 20 20  ++);            
05a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
05b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
05c0: 5c 0a 20 20 69 66 28 20 63 3e 3d 30 78 63 30 20  \.  if( c>=0xc0 
05d0: 29 7b 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ){              
05e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
05f0: 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20               \. 
0600: 20 20 20 63 20 3d 20 73 71 6c 69 74 65 33 55 74     c = sqlite3Ut
0610: 66 38 54 72 61 6e 73 31 5b 63 2d 30 78 63 30 5d  f8Trans1[c-0xc0]
0620: 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ;               
0630: 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20 20            \.    
0640: 77 68 69 6c 65 28 20 7a 49 6e 21 3d 7a 54 65 72  while( zIn!=zTer
0650: 6d 20 26 26 20 28 2a 7a 49 6e 20 26 20 30 78 63  m && (*zIn & 0xc
0660: 30 29 3d 3d 30 78 38 30 20 29 7b 20 20 20 20 20  0)==0x80 ){     
0670: 20 20 20 20 20 20 20 5c 0a 20 20 20 20 20 20 63         \.      c
0680: 20 3d 20 28 63 3c 3c 36 29 20 2b 20 28 30 78 33   = (c<<6) + (0x3
0690: 66 20 26 20 2a 28 7a 49 6e 2b 2b 29 29 3b 20 20  f & *(zIn++));  
06a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
06b0: 20 20 20 20 5c 0a 20 20 20 20 7d 20 20 20 20 20      \.    }     
06c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
06d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
06e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
06f0: 20 5c 0a 20 20 20 20 69 66 28 20 63 3c 30 78 38   \.    if( c<0x8
0700: 30 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  0               
0710: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0720: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a                \.
0730: 20 20 20 20 20 20 20 20 7c 7c 20 28 63 26 30 78          || (c&0x
0740: 46 46 46 46 46 38 30 30 29 3d 3d 30 78 44 38 30  FFFFF800)==0xD80
0750: 30 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  0               
0760: 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20             \.   
0770: 20 20 20 20 20 7c 7c 20 28 63 26 30 78 46 46 46       || (c&0xFFF
0780: 46 46 46 46 45 29 3d 3d 30 78 46 46 46 45 20 29  FFFFE)==0xFFFE )
0790: 7b 20 20 63 20 3d 20 30 78 46 46 46 44 3b 20 7d  {  c = 0xFFFD; }
07a0: 20 20 20 20 20 20 20 20 5c 0a 20 20 7d 0a 0a 23          \.  }..#
07b0: 64 65 66 69 6e 65 20 57 52 49 54 45 5f 55 54 46  define WRITE_UTF
07c0: 38 28 7a 4f 75 74 2c 20 63 29 20 7b 20 20 20 20  8(zOut, c) {    
07d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
07e0: 20 20 20 20 20 20 5c 0a 20 20 69 66 28 20 63 3c        \.  if( c<
07f0: 30 78 30 30 30 38 30 20 29 7b 20 20 20 20 20 20  0x00080 ){      
0800: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0810: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c                 \
0820: 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d 20 28  .    *zOut++ = (
0830: 75 38 29 28 63 26 30 78 46 46 29 3b 20 20 20 20  u8)(c&0xFF);    
0840: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0850: 20 20 20 20 20 20 20 20 5c 0a 20 20 7d 20 20 20          \.  }   
0860: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0870: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0880: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0890: 20 5c 0a 20 20 65 6c 73 65 20 69 66 28 20 63 3c   \.  else if( c<
08a0: 30 78 30 30 38 30 30 20 29 7b 20 20 20 20 20 20  0x00800 ){      
08b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
08c0: 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20 20            \.    
08d0: 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78 43 30 20 2b  *zOut++ = 0xC0 +
08e0: 20 28 75 38 29 28 28 63 3e 3e 36 29 26 30 78 31   (u8)((c>>6)&0x1
08f0: 46 29 3b 20 20 20 20 20 20 20 20 20 20 20 20 20  F);             
0900: 20 20 20 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b     \.    *zOut++
0910: 20 3d 20 30 78 38 30 20 2b 20 28 75 38 29 28 63   = 0x80 + (u8)(c
0920: 20 26 20 30 78 33 46 29 3b 20 20 20 20 20 20 20   & 0x3F);       
0930: 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20              \.  
0940: 7d 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  }               
0950: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0960: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0970: 20 20 20 20 20 5c 0a 20 20 65 6c 73 65 20 69 66       \.  else if
0980: 28 20 63 3c 30 78 31 30 30 30 30 20 29 7b 20 20  ( c<0x10000 ){  
0990: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
09a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a                \.
09b0: 20 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78      *zOut++ = 0x
09c0: 45 30 20 2b 20 28 75 38 29 28 28 63 3e 3e 31 32  E0 + (u8)((c>>12
09d0: 29 26 30 78 30 46 29 3b 20 20 20 20 20 20 20 20  )&0x0F);        
09e0: 20 20 20 20 20 20 20 5c 0a 20 20 20 20 2a 7a 4f         \.    *zO
09f0: 75 74 2b 2b 20 3d 20 30 78 38 30 20 2b 20 28 75  ut++ = 0x80 + (u
0a00: 38 29 28 28 63 3e 3e 36 29 20 26 20 30 78 33 46  8)((c>>6) & 0x3F
0a10: 29 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20  );              
0a20: 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d 20  \.    *zOut++ = 
0a30: 30 78 38 30 20 2b 20 28 75 38 29 28 63 20 26 20  0x80 + (u8)(c & 
0a40: 30 78 33 46 29 3b 20 20 20 20 20 20 20 20 20 20  0x3F);          
0a50: 20 20 20 20 20 20 20 20 20 5c 0a 20 20 7d 65 6c           \.  }el
0a60: 73 65 7b 20 20 20 20 20 20 20 20 20 20 20 20 20  se{             
0a70: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0a80: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0a90: 20 20 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b 2b 20    \.    *zOut++ 
0aa0: 3d 20 30 78 46 30 20 2b 20 28 75 38 29 28 28 63  = 0xF0 + (u8)((c
0ab0: 3e 3e 31 38 29 20 26 20 30 78 30 37 29 3b 20 20  >>18) & 0x07);  
0ac0: 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20             \.   
0ad0: 20 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78 38 30 20   *zOut++ = 0x80 
0ae0: 2b 20 28 75 38 29 28 28 63 3e 3e 31 32 29 20 26  + (u8)((c>>12) &
0af0: 20 30 78 33 46 29 3b 20 20 20 20 20 20 20 20 20   0x3F);         
0b00: 20 20 20 20 5c 0a 20 20 20 20 2a 7a 4f 75 74 2b      \.    *zOut+
0b10: 2b 20 3d 20 30 78 38 30 20 2b 20 28 75 38 29 28  + = 0x80 + (u8)(
0b20: 28 63 3e 3e 36 29 20 26 20 30 78 33 46 29 3b 20  (c>>6) & 0x3F); 
0b30: 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20               \. 
0b40: 20 20 20 2a 7a 4f 75 74 2b 2b 20 3d 20 30 78 38     *zOut++ = 0x8
0b50: 30 20 2b 20 28 75 38 29 28 63 20 26 20 30 78 33  0 + (u8)(c & 0x3
0b60: 46 29 3b 20 20 20 20 20 20 20 20 20 20 20 20 20  F);             
0b70: 20 20 20 20 20 20 5c 0a 20 20 7d 20 20 20 20 20        \.  }     
0b80: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0b90: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0ba0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c                 \
0bb0: 0a 7d 0a 0a 23 65 6e 64 69 66 20 2f 2a 20 69 66  .}..#endif /* if
0bc0: 6e 64 65 66 20 53 51 4c 49 54 45 5f 41 4d 41 4c  ndef SQLITE_AMAL
0bd0: 47 41 4d 41 54 49 4f 4e 20 2a 2f 0a 0a 74 79 70  GAMATION */..typ
0be0: 65 64 65 66 20 73 74 72 75 63 74 20 75 6e 69 63  edef struct unic
0bf0: 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 20 75 6e  ode_tokenizer un
0c00: 69 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 3b  icode_tokenizer;
0c10: 0a 74 79 70 65 64 65 66 20 73 74 72 75 63 74 20  .typedef struct 
0c20: 75 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72 20 75  unicode_cursor u
0c30: 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72 3b 0a 0a  nicode_cursor;..
0c40: 73 74 72 75 63 74 20 75 6e 69 63 6f 64 65 5f 74  struct unicode_t
0c50: 6f 6b 65 6e 69 7a 65 72 20 7b 0a 20 20 73 71 6c  okenizer {.  sql
0c60: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 62  ite3_tokenizer b
0c70: 61 73 65 3b 0a 20 20 69 6e 74 20 65 52 65 6d 6f  ase;.  int eRemo
0c80: 76 65 44 69 61 63 72 69 74 69 63 3b 0a 20 20 69  veDiacritic;.  i
0c90: 6e 74 20 6e 45 78 63 65 70 74 69 6f 6e 3b 0a 20  nt nException;. 
0ca0: 20 69 6e 74 20 2a 61 69 45 78 63 65 70 74 69 6f   int *aiExceptio
0cb0: 6e 3b 0a 7d 3b 0a 0a 73 74 72 75 63 74 20 75 6e  n;.};..struct un
0cc0: 69 63 6f 64 65 5f 63 75 72 73 6f 72 20 7b 0a 20  icode_cursor {. 
0cd0: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a   sqlite3_tokeniz
0ce0: 65 72 5f 63 75 72 73 6f 72 20 62 61 73 65 3b 0a  er_cursor base;.
0cf0: 20 20 63 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64    const unsigned
0d00: 20 63 68 61 72 20 2a 61 49 6e 70 75 74 3b 20 20   char *aInput;  
0d10: 20 20 2f 2a 20 49 6e 70 75 74 20 74 65 78 74 20    /* Input text 
0d20: 62 65 69 6e 67 20 74 6f 6b 65 6e 69 7a 65 64 20  being tokenized 
0d30: 2a 2f 0a 20 20 69 6e 74 20 6e 49 6e 70 75 74 3b  */.  int nInput;
0d40: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0d50: 20 20 20 20 20 2f 2a 20 53 69 7a 65 20 6f 66 20       /* Size of 
0d60: 61 49 6e 70 75 74 5b 5d 20 69 6e 20 62 79 74 65  aInput[] in byte
0d70: 73 20 2a 2f 0a 20 20 69 6e 74 20 69 4f 66 66 3b  s */.  int iOff;
0d80: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0d90: 20 20 20 20 20 20 20 2f 2a 20 43 75 72 72 65 6e         /* Curren
0da0: 74 20 6f 66 66 73 65 74 20 77 69 74 68 69 6e 20  t offset within 
0db0: 61 49 6e 70 75 74 5b 5d 20 2a 2f 0a 20 20 69 6e  aInput[] */.  in
0dc0: 74 20 69 54 6f 6b 65 6e 3b 20 20 20 20 20 20 20  t iToken;       
0dd0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
0de0: 20 49 6e 64 65 78 20 6f 66 20 6e 65 78 74 20 74   Index of next t
0df0: 6f 6b 65 6e 20 74 6f 20 62 65 20 72 65 74 75 72  oken to be retur
0e00: 6e 65 64 20 2a 2f 0a 20 20 63 68 61 72 20 2a 7a  ned */.  char *z
0e10: 54 6f 6b 65 6e 3b 20 20 20 20 20 20 20 20 20 20  Token;          
0e20: 20 20 20 20 20 20 20 20 20 2f 2a 20 73 74 6f 72           /* stor
0e30: 61 67 65 20 66 6f 72 20 63 75 72 72 65 6e 74 20  age for current 
0e40: 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20 6e  token */.  int n
0e50: 41 6c 6c 6f 63 3b 20 20 20 20 20 20 20 20 20 20  Alloc;          
0e60: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 73 70             /* sp
0e70: 61 63 65 20 61 6c 6c 6f 63 61 74 65 64 20 61 74  ace allocated at
0e80: 20 7a 54 6f 6b 65 6e 20 2a 2f 0a 7d 3b 0a 0a 0a   zToken */.};...
0e90: 2f 2a 0a 2a 2a 20 44 65 73 74 72 6f 79 20 61 20  /*.** Destroy a 
0ea0: 74 6f 6b 65 6e 69 7a 65 72 20 61 6c 6c 6f 63 61  tokenizer alloca
0eb0: 74 65 64 20 62 79 20 75 6e 69 63 6f 64 65 43 72  ted by unicodeCr
0ec0: 65 61 74 65 28 29 2e 0a 2a 2f 0a 73 74 61 74 69  eate()..*/.stati
0ed0: 63 20 69 6e 74 20 75 6e 69 63 6f 64 65 44 65 73  c int unicodeDes
0ee0: 74 72 6f 79 28 73 71 6c 69 74 65 33 5f 74 6f 6b  troy(sqlite3_tok
0ef0: 65 6e 69 7a 65 72 20 2a 70 54 6f 6b 65 6e 69 7a  enizer *pTokeniz
0f00: 65 72 29 7b 0a 20 20 69 66 28 20 70 54 6f 6b 65  er){.  if( pToke
0f10: 6e 69 7a 65 72 20 29 7b 0a 20 20 20 20 75 6e 69  nizer ){.    uni
0f20: 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a  code_tokenizer *
0f30: 70 20 3d 20 28 75 6e 69 63 6f 64 65 5f 74 6f 6b  p = (unicode_tok
0f40: 65 6e 69 7a 65 72 20 2a 29 70 54 6f 6b 65 6e 69  enizer *)pTokeni
0f50: 7a 65 72 3b 0a 20 20 20 20 73 71 6c 69 74 65 33  zer;.    sqlite3
0f60: 5f 66 72 65 65 28 70 2d 3e 61 69 45 78 63 65 70  _free(p->aiExcep
0f70: 74 69 6f 6e 29 3b 0a 20 20 20 20 73 71 6c 69 74  tion);.    sqlit
0f80: 65 33 5f 66 72 65 65 28 70 29 3b 0a 20 20 7d 0a  e3_free(p);.  }.
0f90: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
0fa0: 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 41 73 20  OK;.}../*.** As 
0fb0: 70 61 72 74 20 6f 66 20 61 20 74 6f 6b 65 6e 63  part of a tokenc
0fc0: 68 61 72 73 3d 20 6f 72 20 73 65 70 61 72 61 74  hars= or separat
0fd0: 6f 72 73 3d 20 6f 70 74 69 6f 6e 2c 20 74 68 65  ors= option, the
0fe0: 20 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20   CREATE VIRTUAL 
0ff0: 54 41 42 4c 45 0a 2a 2a 20 73 74 61 74 65 6d 65  TABLE.** stateme
1000: 6e 74 20 68 61 73 20 73 70 65 63 69 66 69 65 64  nt has specified
1010: 20 74 68 61 74 20 74 68 65 20 74 6f 6b 65 6e 69   that the tokeni
1020: 7a 65 72 20 66 6f 72 20 74 68 69 73 20 74 61 62  zer for this tab
1030: 6c 65 20 73 68 61 6c 6c 20 63 6f 6e 73 69 64 65  le shall conside
1040: 72 0a 2a 2a 20 61 6c 6c 20 63 68 61 72 61 63 74  r.** all charact
1050: 65 72 73 20 69 6e 20 73 74 72 69 6e 67 20 7a 49  ers in string zI
1060: 6e 2f 6e 49 6e 20 74 6f 20 62 65 20 73 65 70 61  n/nIn to be sepa
1070: 72 61 74 6f 72 73 20 28 69 66 20 62 41 6c 6e 75  rators (if bAlnu
1080: 6d 3d 3d 30 29 20 6f 72 0a 2a 2a 20 74 6f 6b 65  m==0) or.** toke
1090: 6e 20 63 68 61 72 61 63 74 65 72 73 20 28 69 66  n characters (if
10a0: 20 62 41 6c 6e 75 6d 3d 3d 31 29 2e 0a 2a 2a 0a   bAlnum==1)..**.
10b0: 2a 2a 20 46 6f 72 20 65 61 63 68 20 63 6f 64 65  ** For each code
10c0: 70 6f 69 6e 74 20 69 6e 20 74 68 65 20 7a 49 6e  point in the zIn
10d0: 2f 6e 49 6e 20 73 74 72 69 6e 67 2c 20 74 68 69  /nIn string, thi
10e0: 73 20 66 75 6e 63 74 69 6f 6e 20 63 68 65 63 6b  s function check
10f0: 73 20 69 66 20 74 68 65 0a 2a 2a 20 73 71 6c 69  s if the.** sqli
1100: 74 65 33 46 74 73 55 6e 69 63 6f 64 65 49 73 61  te3FtsUnicodeIsa
1110: 6c 6e 75 6d 28 29 20 66 75 6e 63 74 69 6f 6e 20  lnum() function 
1120: 61 6c 72 65 61 64 79 20 72 65 74 75 72 6e 73 20  already returns 
1130: 74 68 65 20 64 65 73 69 72 65 64 20 72 65 73 75  the desired resu
1140: 6c 74 2e 0a 2a 2a 20 49 66 20 73 6f 2c 20 6e 6f  lt..** If so, no
1150: 20 61 63 74 69 6f 6e 20 69 73 20 74 61 6b 65 6e   action is taken
1160: 2e 20 4f 74 68 65 72 77 69 73 65 2c 20 74 68 65  . Otherwise, the
1170: 20 63 6f 64 65 70 6f 69 6e 74 20 69 73 20 61 64   codepoint is ad
1180: 64 65 64 20 74 6f 20 74 68 65 20 0a 2a 2a 20 75  ded to the .** u
1190: 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65 72  nicode_tokenizer
11a0: 2e 61 69 45 78 63 65 70 74 69 6f 6e 5b 5d 20 61  .aiException[] a
11b0: 72 72 61 79 2e 20 46 6f 72 20 74 68 65 20 70 75  rray. For the pu
11c0: 72 70 6f 73 65 73 20 6f 66 20 74 6f 6b 65 6e 69  rposes of tokeni
11d0: 7a 61 74 69 6f 6e 2c 0a 2a 2a 20 74 68 65 20 72  zation,.** the r
11e0: 65 74 75 72 6e 20 76 61 6c 75 65 20 6f 66 20 73  eturn value of s
11f0: 71 6c 69 74 65 33 46 74 73 55 6e 69 63 6f 64 65  qlite3FtsUnicode
1200: 49 73 61 6c 6e 75 6d 28 29 20 69 73 20 69 6e 76  Isalnum() is inv
1210: 65 72 74 65 64 20 66 6f 72 20 61 6c 6c 0a 2a 2a  erted for all.**
1220: 20 63 6f 64 65 70 6f 69 6e 74 73 20 69 6e 20 74   codepoints in t
1230: 68 65 20 61 69 45 78 63 65 70 74 69 6f 6e 5b 5d  he aiException[]
1240: 20 61 72 72 61 79 2e 0a 2a 2a 0a 2a 2a 20 49 66   array..**.** If
1250: 20 61 20 73 74 61 6e 64 61 6c 6f 6e 65 20 64 69   a standalone di
1260: 61 63 72 69 74 69 63 20 6d 61 72 6b 20 28 6f 6e  acritic mark (on
1270: 65 20 74 68 61 74 20 73 71 6c 69 74 65 33 46 74  e that sqlite3Ft
1280: 73 55 6e 69 63 6f 64 65 49 73 64 69 61 63 72 69  sUnicodeIsdiacri
1290: 74 69 63 28 29 0a 2a 2a 20 69 64 65 6e 74 69 66  tic().** identif
12a0: 69 65 73 20 61 73 20 61 20 64 69 61 63 72 69 74  ies as a diacrit
12b0: 69 63 29 20 6f 63 63 75 72 73 20 69 6e 20 74 68  ic) occurs in th
12c0: 65 20 7a 49 6e 2f 6e 49 6e 20 73 74 72 69 6e 67  e zIn/nIn string
12d0: 20 69 74 20 69 73 20 69 67 6e 6f 72 65 64 2e 0a   it is ignored..
12e0: 2a 2a 20 49 74 20 69 73 20 6e 6f 74 20 70 6f 73  ** It is not pos
12f0: 73 69 62 6c 65 20 74 6f 20 63 68 61 6e 67 65 20  sible to change 
1300: 74 68 65 20 62 65 68 61 76 69 6f 72 20 6f 66 20  the behavior of 
1310: 74 68 65 20 74 6f 6b 65 6e 69 7a 65 72 20 77 69  the tokenizer wi
1320: 74 68 20 72 65 73 70 65 63 74 0a 2a 2a 20 74 6f  th respect.** to
1330: 20 74 68 65 73 65 20 63 6f 64 65 70 6f 69 6e 74   these codepoint
1340: 73 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74  s..*/.static int
1350: 20 75 6e 69 63 6f 64 65 41 64 64 45 78 63 65 70   unicodeAddExcep
1360: 74 69 6f 6e 73 28 0a 20 20 75 6e 69 63 6f 64 65  tions(.  unicode
1370: 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 2c 20 20  _tokenizer *p,  
1380: 20 20 20 20 20 20 20 20 20 2f 2a 20 54 6f 6b 65           /* Toke
1390: 6e 69 7a 65 72 20 74 6f 20 61 64 64 20 65 78 63  nizer to add exc
13a0: 65 70 74 69 6f 6e 73 20 74 6f 20 2a 2f 0a 20 20  eptions to */.  
13b0: 69 6e 74 20 62 41 6c 6e 75 6d 2c 20 20 20 20 20  int bAlnum,     
13c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
13d0: 2f 2a 20 52 65 70 6c 61 63 65 20 49 73 61 6c 6e  /* Replace Isaln
13e0: 75 6d 28 29 20 72 65 74 75 72 6e 20 76 61 6c 75  um() return valu
13f0: 65 20 77 69 74 68 20 74 68 69 73 20 2a 2f 0a 20  e with this */. 
1400: 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 49 6e   const char *zIn
1410: 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ,               
1420: 20 2f 2a 20 41 72 72 61 79 20 6f 66 20 63 68 61   /* Array of cha
1430: 72 61 63 74 65 72 73 20 74 6f 20 6d 61 6b 65 20  racters to make 
1440: 65 78 63 65 70 74 69 6f 6e 73 20 2a 2f 0a 20 20  exceptions */.  
1450: 69 6e 74 20 6e 49 6e 20 20 20 20 20 20 20 20 20  int nIn         
1460: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1470: 2f 2a 20 4c 65 6e 67 74 68 20 6f 66 20 7a 20 69  /* Length of z i
1480: 6e 20 62 79 74 65 73 20 2a 2f 0a 29 7b 0a 20 20  n bytes */.){.  
1490: 63 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 63  const unsigned c
14a0: 68 61 72 20 2a 7a 20 3d 20 28 63 6f 6e 73 74 20  har *z = (const 
14b0: 75 6e 73 69 67 6e 65 64 20 63 68 61 72 20 2a 29  unsigned char *)
14c0: 7a 49 6e 3b 0a 20 20 63 6f 6e 73 74 20 75 6e 73  zIn;.  const uns
14d0: 69 67 6e 65 64 20 63 68 61 72 20 2a 7a 54 65 72  igned char *zTer
14e0: 6d 20 3d 20 26 7a 5b 6e 49 6e 5d 3b 0a 20 20 75  m = &z[nIn];.  u
14f0: 6e 73 69 67 6e 65 64 20 69 6e 74 20 69 43 6f 64  nsigned int iCod
1500: 65 3b 0a 20 20 69 6e 74 20 6e 45 6e 74 72 79 20  e;.  int nEntry 
1510: 3d 20 30 3b 0a 0a 20 20 61 73 73 65 72 74 28 20  = 0;..  assert( 
1520: 62 41 6c 6e 75 6d 3d 3d 30 20 7c 7c 20 62 41 6c  bAlnum==0 || bAl
1530: 6e 75 6d 3d 3d 31 20 29 3b 0a 0a 20 20 77 68 69  num==1 );..  whi
1540: 6c 65 28 20 7a 3c 7a 54 65 72 6d 20 29 7b 0a 20  le( z<zTerm ){. 
1550: 20 20 20 52 45 41 44 5f 55 54 46 38 28 7a 2c 20     READ_UTF8(z, 
1560: 7a 54 65 72 6d 2c 20 69 43 6f 64 65 29 3b 0a 20  zTerm, iCode);. 
1570: 20 20 20 61 73 73 65 72 74 28 20 28 73 71 6c 69     assert( (sqli
1580: 74 65 33 46 74 73 55 6e 69 63 6f 64 65 49 73 61  te3FtsUnicodeIsa
1590: 6c 6e 75 6d 28 28 69 6e 74 29 69 43 6f 64 65 29  lnum((int)iCode)
15a0: 20 26 20 30 78 46 46 46 46 46 46 46 45 29 3d 3d   & 0xFFFFFFFE)==
15b0: 30 20 29 3b 0a 20 20 20 20 69 66 28 20 73 71 6c  0 );.    if( sql
15c0: 69 74 65 33 46 74 73 55 6e 69 63 6f 64 65 49 73  ite3FtsUnicodeIs
15d0: 61 6c 6e 75 6d 28 28 69 6e 74 29 69 43 6f 64 65  alnum((int)iCode
15e0: 29 21 3d 62 41 6c 6e 75 6d 20 0a 20 20 20 20 20  )!=bAlnum .     
15f0: 26 26 20 73 71 6c 69 74 65 33 46 74 73 55 6e 69  && sqlite3FtsUni
1600: 63 6f 64 65 49 73 64 69 61 63 72 69 74 69 63 28  codeIsdiacritic(
1610: 28 69 6e 74 29 69 43 6f 64 65 29 3d 3d 30 20 0a  (int)iCode)==0 .
1620: 20 20 20 20 29 7b 0a 20 20 20 20 20 20 6e 45 6e      ){.      nEn
1630: 74 72 79 2b 2b 3b 0a 20 20 20 20 7d 0a 20 20 7d  try++;.    }.  }
1640: 0a 0a 20 20 69 66 28 20 6e 45 6e 74 72 79 20 29  ..  if( nEntry )
1650: 7b 0a 20 20 20 20 69 6e 74 20 2a 61 4e 65 77 3b  {.    int *aNew;
1660: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
1670: 20 20 20 20 2f 2a 20 4e 65 77 20 61 69 45 78 63      /* New aiExc
1680: 65 70 74 69 6f 6e 5b 5d 20 61 72 72 61 79 20 2a  eption[] array *
1690: 2f 0a 20 20 20 20 69 6e 74 20 6e 4e 65 77 3b 20  /.    int nNew; 
16a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
16b0: 20 20 20 20 2f 2a 20 4e 75 6d 62 65 72 20 6f 66      /* Number of
16c0: 20 76 61 6c 69 64 20 65 6e 74 72 69 65 73 20 69   valid entries i
16d0: 6e 20 61 72 72 61 79 20 61 4e 65 77 5b 5d 20 2a  n array aNew[] *
16e0: 2f 0a 0a 20 20 20 20 61 4e 65 77 20 3d 20 73 71  /..    aNew = sq
16f0: 6c 69 74 65 33 5f 72 65 61 6c 6c 6f 63 28 70 2d  lite3_realloc(p-
1700: 3e 61 69 45 78 63 65 70 74 69 6f 6e 2c 20 28 70  >aiException, (p
1710: 2d 3e 6e 45 78 63 65 70 74 69 6f 6e 2b 6e 45 6e  ->nException+nEn
1720: 74 72 79 29 2a 73 69 7a 65 6f 66 28 69 6e 74 29  try)*sizeof(int)
1730: 29 3b 0a 20 20 20 20 69 66 28 20 61 4e 65 77 3d  );.    if( aNew=
1740: 3d 30 20 29 20 72 65 74 75 72 6e 20 53 51 4c 49  =0 ) return SQLI
1750: 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 20 20 6e 4e  TE_NOMEM;.    nN
1760: 65 77 20 3d 20 70 2d 3e 6e 45 78 63 65 70 74 69  ew = p->nExcepti
1770: 6f 6e 3b 0a 0a 20 20 20 20 7a 20 3d 20 28 63 6f  on;..    z = (co
1780: 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 63 68 61  nst unsigned cha
1790: 72 20 2a 29 7a 49 6e 3b 0a 20 20 20 20 77 68 69  r *)zIn;.    whi
17a0: 6c 65 28 20 7a 3c 7a 54 65 72 6d 20 29 7b 0a 20  le( z<zTerm ){. 
17b0: 20 20 20 20 20 52 45 41 44 5f 55 54 46 38 28 7a       READ_UTF8(z
17c0: 2c 20 7a 54 65 72 6d 2c 20 69 43 6f 64 65 29 3b  , zTerm, iCode);
17d0: 0a 20 20 20 20 20 20 69 66 28 20 73 71 6c 69 74  .      if( sqlit
17e0: 65 33 46 74 73 55 6e 69 63 6f 64 65 49 73 61 6c  e3FtsUnicodeIsal
17f0: 6e 75 6d 28 28 69 6e 74 29 69 43 6f 64 65 29 21  num((int)iCode)!
1800: 3d 62 41 6c 6e 75 6d 20 0a 20 20 20 20 20 20 20  =bAlnum .       
1810: 26 26 20 73 71 6c 69 74 65 33 46 74 73 55 6e 69  && sqlite3FtsUni
1820: 63 6f 64 65 49 73 64 69 61 63 72 69 74 69 63 28  codeIsdiacritic(
1830: 28 69 6e 74 29 69 43 6f 64 65 29 3d 3d 30 0a 20  (int)iCode)==0. 
1840: 20 20 20 20 20 29 7b 0a 20 20 20 20 20 20 20 20       ){.        
1850: 69 6e 74 20 69 2c 20 6a 3b 0a 20 20 20 20 20 20  int i, j;.      
1860: 20 20 66 6f 72 28 69 3d 30 3b 20 69 3c 6e 4e 65    for(i=0; i<nNe
1870: 77 20 26 26 20 61 4e 65 77 5b 69 5d 3c 28 69 6e  w && aNew[i]<(in
1880: 74 29 69 43 6f 64 65 3b 20 69 2b 2b 29 3b 0a 20  t)iCode; i++);. 
1890: 20 20 20 20 20 20 20 66 6f 72 28 6a 3d 6e 4e 65         for(j=nNe
18a0: 77 3b 20 6a 3e 69 3b 20 6a 2d 2d 29 20 61 4e 65  w; j>i; j--) aNe
18b0: 77 5b 6a 5d 20 3d 20 61 4e 65 77 5b 6a 2d 31 5d  w[j] = aNew[j-1]
18c0: 3b 0a 20 20 20 20 20 20 20 20 61 4e 65 77 5b 69  ;.        aNew[i
18d0: 5d 20 3d 20 28 69 6e 74 29 69 43 6f 64 65 3b 0a  ] = (int)iCode;.
18e0: 20 20 20 20 20 20 20 20 6e 4e 65 77 2b 2b 3b 0a          nNew++;.
18f0: 20 20 20 20 20 20 7d 0a 20 20 20 20 7d 0a 20 20        }.    }.  
1900: 20 20 70 2d 3e 61 69 45 78 63 65 70 74 69 6f 6e    p->aiException
1910: 20 3d 20 61 4e 65 77 3b 0a 20 20 20 20 70 2d 3e   = aNew;.    p->
1920: 6e 45 78 63 65 70 74 69 6f 6e 20 3d 20 6e 4e 65  nException = nNe
1930: 77 3b 0a 20 20 7d 0a 0a 20 20 72 65 74 75 72 6e  w;.  }..  return
1940: 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f   SQLITE_OK;.}../
1950: 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 74 72 75 65  *.** Return true
1960: 20 69 66 20 74 68 65 20 70 2d 3e 61 69 45 78 63   if the p->aiExc
1970: 65 70 74 69 6f 6e 5b 5d 20 61 72 72 61 79 20 63  eption[] array c
1980: 6f 6e 74 61 69 6e 73 20 74 68 65 20 76 61 6c 75  ontains the valu
1990: 65 20 69 43 6f 64 65 2e 0a 2a 2f 0a 73 74 61 74  e iCode..*/.stat
19a0: 69 63 20 69 6e 74 20 75 6e 69 63 6f 64 65 49 73  ic int unicodeIs
19b0: 45 78 63 65 70 74 69 6f 6e 28 75 6e 69 63 6f 64  Exception(unicod
19c0: 65 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 2c 20  e_tokenizer *p, 
19d0: 69 6e 74 20 69 43 6f 64 65 29 7b 0a 20 20 69 66  int iCode){.  if
19e0: 28 20 70 2d 3e 6e 45 78 63 65 70 74 69 6f 6e 3e  ( p->nException>
19f0: 30 20 29 7b 0a 20 20 20 20 69 6e 74 20 2a 61 20  0 ){.    int *a 
1a00: 3d 20 70 2d 3e 61 69 45 78 63 65 70 74 69 6f 6e  = p->aiException
1a10: 3b 0a 20 20 20 20 69 6e 74 20 69 4c 6f 20 3d 20  ;.    int iLo = 
1a20: 30 3b 0a 20 20 20 20 69 6e 74 20 69 48 69 20 3d  0;.    int iHi =
1a30: 20 70 2d 3e 6e 45 78 63 65 70 74 69 6f 6e 2d 31   p->nException-1
1a40: 3b 0a 0a 20 20 20 20 77 68 69 6c 65 28 20 69 48  ;..    while( iH
1a50: 69 3e 3d 69 4c 6f 20 29 7b 0a 20 20 20 20 20 20  i>=iLo ){.      
1a60: 69 6e 74 20 69 54 65 73 74 20 3d 20 28 69 48 69  int iTest = (iHi
1a70: 20 2b 20 69 4c 6f 29 20 2f 20 32 3b 0a 20 20 20   + iLo) / 2;.   
1a80: 20 20 20 69 66 28 20 69 43 6f 64 65 3d 3d 61 5b     if( iCode==a[
1a90: 69 54 65 73 74 5d 20 29 7b 0a 20 20 20 20 20 20  iTest] ){.      
1aa0: 20 20 72 65 74 75 72 6e 20 31 3b 0a 20 20 20 20    return 1;.    
1ab0: 20 20 7d 65 6c 73 65 20 69 66 28 20 69 43 6f 64    }else if( iCod
1ac0: 65 3e 61 5b 69 54 65 73 74 5d 20 29 7b 0a 20 20  e>a[iTest] ){.  
1ad0: 20 20 20 20 20 20 69 4c 6f 20 3d 20 69 54 65 73        iLo = iTes
1ae0: 74 2b 31 3b 0a 20 20 20 20 20 20 7d 65 6c 73 65  t+1;.      }else
1af0: 7b 0a 20 20 20 20 20 20 20 20 69 48 69 20 3d 20  {.        iHi = 
1b00: 69 54 65 73 74 2d 31 3b 0a 20 20 20 20 20 20 7d  iTest-1;.      }
1b10: 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 72 65  .    }.  }..  re
1b20: 74 75 72 6e 20 30 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a  turn 0;.}../*.**
1b30: 20 52 65 74 75 72 6e 20 74 72 75 65 20 69 66 2c   Return true if,
1b40: 20 66 6f 72 20 74 68 65 20 70 75 72 70 6f 73 65   for the purpose
1b50: 73 20 6f 66 20 74 6f 6b 65 6e 69 7a 61 74 69 6f  s of tokenizatio
1b60: 6e 2c 20 63 6f 64 65 70 6f 69 6e 74 20 69 43 6f  n, codepoint iCo
1b70: 64 65 20 69 73 0a 2a 2a 20 63 6f 6e 73 69 64 65  de is.** conside
1b80: 72 65 64 20 61 20 74 6f 6b 65 6e 20 63 68 61 72  red a token char
1b90: 61 63 74 65 72 20 28 6e 6f 74 20 61 20 73 65 70  acter (not a sep
1ba0: 61 72 61 74 6f 72 29 2e 0a 2a 2f 0a 73 74 61 74  arator)..*/.stat
1bb0: 69 63 20 69 6e 74 20 75 6e 69 63 6f 64 65 49 73  ic int unicodeIs
1bc0: 41 6c 6e 75 6d 28 75 6e 69 63 6f 64 65 5f 74 6f  Alnum(unicode_to
1bd0: 6b 65 6e 69 7a 65 72 20 2a 70 2c 20 69 6e 74 20  kenizer *p, int 
1be0: 69 43 6f 64 65 29 7b 0a 20 20 61 73 73 65 72 74  iCode){.  assert
1bf0: 28 20 28 73 71 6c 69 74 65 33 46 74 73 55 6e 69  ( (sqlite3FtsUni
1c00: 63 6f 64 65 49 73 61 6c 6e 75 6d 28 69 43 6f 64  codeIsalnum(iCod
1c10: 65 29 20 26 20 30 78 46 46 46 46 46 46 46 45 29  e) & 0xFFFFFFFE)
1c20: 3d 3d 30 20 29 3b 0a 20 20 72 65 74 75 72 6e 20  ==0 );.  return 
1c30: 73 71 6c 69 74 65 33 46 74 73 55 6e 69 63 6f 64  sqlite3FtsUnicod
1c40: 65 49 73 61 6c 6e 75 6d 28 69 43 6f 64 65 29 20  eIsalnum(iCode) 
1c50: 5e 20 75 6e 69 63 6f 64 65 49 73 45 78 63 65 70  ^ unicodeIsExcep
1c60: 74 69 6f 6e 28 70 2c 20 69 43 6f 64 65 29 3b 0a  tion(p, iCode);.
1c70: 7d 0a 0a 2f 2a 0a 2a 2a 20 43 72 65 61 74 65 20  }../*.** Create 
1c80: 61 20 6e 65 77 20 74 6f 6b 65 6e 69 7a 65 72 20  a new tokenizer 
1c90: 69 6e 73 74 61 6e 63 65 2e 0a 2a 2f 0a 73 74 61  instance..*/.sta
1ca0: 74 69 63 20 69 6e 74 20 75 6e 69 63 6f 64 65 43  tic int unicodeC
1cb0: 72 65 61 74 65 28 0a 20 20 69 6e 74 20 6e 41 72  reate(.  int nAr
1cc0: 67 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20  g,              
1cd0: 20 20 20 20 20 20 20 20 20 2f 2a 20 53 69 7a 65           /* Size
1ce0: 20 6f 66 20 61 72 72 61 79 20 61 72 67 76 5b 5d   of array argv[]
1cf0: 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61 72   */.  const char
1d00: 20 2a 20 63 6f 6e 73 74 20 2a 61 7a 41 72 67 2c   * const *azArg,
1d10: 20 20 20 20 20 20 2f 2a 20 54 6f 6b 65 6e 69 7a        /* Tokeniz
1d20: 65 72 20 63 72 65 61 74 69 6f 6e 20 61 72 67 75  er creation argu
1d30: 6d 65 6e 74 73 20 2a 2f 0a 20 20 73 71 6c 69 74  ments */.  sqlit
1d40: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 2a 70  e3_tokenizer **p
1d50: 70 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55  p          /* OU
1d60: 54 3a 20 4e 65 77 20 74 6f 6b 65 6e 69 7a 65 72  T: New tokenizer
1d70: 20 68 61 6e 64 6c 65 20 2a 2f 0a 29 7b 0a 20 20   handle */.){.  
1d80: 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65  unicode_tokenize
1d90: 72 20 2a 70 4e 65 77 3b 20 20 20 20 20 20 20 20  r *pNew;        
1da0: 2f 2a 20 4e 65 77 20 74 6f 6b 65 6e 69 7a 65 72  /* New tokenizer
1db0: 20 6f 62 6a 65 63 74 20 2a 2f 0a 20 20 69 6e 74   object */.  int
1dc0: 20 69 3b 0a 20 20 69 6e 74 20 72 63 20 3d 20 53   i;.  int rc = S
1dd0: 51 4c 49 54 45 5f 4f 4b 3b 0a 0a 20 20 70 4e 65  QLITE_OK;..  pNe
1de0: 77 20 3d 20 28 75 6e 69 63 6f 64 65 5f 74 6f 6b  w = (unicode_tok
1df0: 65 6e 69 7a 65 72 20 2a 29 20 73 71 6c 69 74 65  enizer *) sqlite
1e00: 33 5f 6d 61 6c 6c 6f 63 28 73 69 7a 65 6f 66 28  3_malloc(sizeof(
1e10: 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65  unicode_tokenize
1e20: 72 29 29 3b 0a 20 20 69 66 28 20 70 4e 65 77 3d  r));.  if( pNew=
1e30: 3d 4e 55 4c 4c 20 29 20 72 65 74 75 72 6e 20 53  =NULL ) return S
1e40: 51 4c 49 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 6d  QLITE_NOMEM;.  m
1e50: 65 6d 73 65 74 28 70 4e 65 77 2c 20 30 2c 20 73  emset(pNew, 0, s
1e60: 69 7a 65 6f 66 28 75 6e 69 63 6f 64 65 5f 74 6f  izeof(unicode_to
1e70: 6b 65 6e 69 7a 65 72 29 29 3b 0a 20 20 70 4e 65  kenizer));.  pNe
1e80: 77 2d 3e 65 52 65 6d 6f 76 65 44 69 61 63 72 69  w->eRemoveDiacri
1e90: 74 69 63 20 3d 20 31 3b 0a 0a 20 20 66 6f 72 28  tic = 1;..  for(
1ea0: 69 3d 30 3b 20 72 63 3d 3d 53 51 4c 49 54 45 5f  i=0; rc==SQLITE_
1eb0: 4f 4b 20 26 26 20 69 3c 6e 41 72 67 3b 20 69 2b  OK && i<nArg; i+
1ec0: 2b 29 7b 0a 20 20 20 20 63 6f 6e 73 74 20 63 68  +){.    const ch
1ed0: 61 72 20 2a 7a 20 3d 20 61 7a 41 72 67 5b 69 5d  ar *z = azArg[i]
1ee0: 3b 0a 20 20 20 20 69 6e 74 20 6e 20 3d 20 28 69  ;.    int n = (i
1ef0: 6e 74 29 73 74 72 6c 65 6e 28 7a 29 3b 0a 0a 20  nt)strlen(z);.. 
1f00: 20 20 20 69 66 28 20 6e 3d 3d 31 39 20 26 26 20     if( n==19 && 
1f10: 6d 65 6d 63 6d 70 28 22 72 65 6d 6f 76 65 5f 64  memcmp("remove_d
1f20: 69 61 63 72 69 74 69 63 73 3d 31 22 2c 20 7a 2c  iacritics=1", z,
1f30: 20 31 39 29 3d 3d 30 20 29 7b 0a 20 20 20 20 20   19)==0 ){.     
1f40: 20 70 4e 65 77 2d 3e 65 52 65 6d 6f 76 65 44 69   pNew->eRemoveDi
1f50: 61 63 72 69 74 69 63 20 3d 20 31 3b 0a 20 20 20  acritic = 1;.   
1f60: 20 7d 0a 20 20 20 20 65 6c 73 65 20 69 66 28 20   }.    else if( 
1f70: 6e 3d 3d 31 39 20 26 26 20 6d 65 6d 63 6d 70 28  n==19 && memcmp(
1f80: 22 72 65 6d 6f 76 65 5f 64 69 61 63 72 69 74 69  "remove_diacriti
1f90: 63 73 3d 30 22 2c 20 7a 2c 20 31 39 29 3d 3d 30  cs=0", z, 19)==0
1fa0: 20 29 7b 0a 20 20 20 20 20 20 70 4e 65 77 2d 3e   ){.      pNew->
1fb0: 65 52 65 6d 6f 76 65 44 69 61 63 72 69 74 69 63  eRemoveDiacritic
1fc0: 20 3d 20 30 3b 0a 20 20 20 20 7d 0a 20 20 20 20   = 0;.    }.    
1fd0: 65 6c 73 65 20 69 66 28 20 6e 3d 3d 31 39 20 26  else if( n==19 &
1fe0: 26 20 6d 65 6d 63 6d 70 28 22 72 65 6d 6f 76 65  & memcmp("remove
1ff0: 5f 64 69 61 63 72 69 74 69 63 73 3d 32 22 2c 20  _diacritics=2", 
2000: 7a 2c 20 31 39 29 3d 3d 30 20 29 7b 0a 20 20 20  z, 19)==0 ){.   
2010: 20 20 20 70 4e 65 77 2d 3e 65 52 65 6d 6f 76 65     pNew->eRemove
2020: 44 69 61 63 72 69 74 69 63 20 3d 20 32 3b 0a 20  Diacritic = 2;. 
2030: 20 20 20 7d 0a 20 20 20 20 65 6c 73 65 20 69 66     }.    else if
2040: 28 20 6e 3e 3d 31 31 20 26 26 20 6d 65 6d 63 6d  ( n>=11 && memcm
2050: 70 28 22 74 6f 6b 65 6e 63 68 61 72 73 3d 22 2c  p("tokenchars=",
2060: 20 7a 2c 20 31 31 29 3d 3d 30 20 29 7b 0a 20 20   z, 11)==0 ){.  
2070: 20 20 20 20 72 63 20 3d 20 75 6e 69 63 6f 64 65      rc = unicode
2080: 41 64 64 45 78 63 65 70 74 69 6f 6e 73 28 70 4e  AddExceptions(pN
2090: 65 77 2c 20 31 2c 20 26 7a 5b 31 31 5d 2c 20 6e  ew, 1, &z[11], n
20a0: 2d 31 31 29 3b 0a 20 20 20 20 7d 0a 20 20 20 20  -11);.    }.    
20b0: 65 6c 73 65 20 69 66 28 20 6e 3e 3d 31 31 20 26  else if( n>=11 &
20c0: 26 20 6d 65 6d 63 6d 70 28 22 73 65 70 61 72 61  & memcmp("separa
20d0: 74 6f 72 73 3d 22 2c 20 7a 2c 20 31 31 29 3d 3d  tors=", z, 11)==
20e0: 30 20 29 7b 0a 20 20 20 20 20 20 72 63 20 3d 20  0 ){.      rc = 
20f0: 75 6e 69 63 6f 64 65 41 64 64 45 78 63 65 70 74  unicodeAddExcept
2100: 69 6f 6e 73 28 70 4e 65 77 2c 20 30 2c 20 26 7a  ions(pNew, 0, &z
2110: 5b 31 31 5d 2c 20 6e 2d 31 31 29 3b 0a 20 20 20  [11], n-11);.   
2120: 20 7d 0a 20 20 20 20 65 6c 73 65 7b 0a 20 20 20   }.    else{.   
2130: 20 20 20 2f 2a 20 55 6e 72 65 63 6f 67 6e 69 7a     /* Unrecogniz
2140: 65 64 20 61 72 67 75 6d 65 6e 74 20 2a 2f 0a 20  ed argument */. 
2150: 20 20 20 20 20 72 63 20 20 3d 20 53 51 4c 49 54       rc  = SQLIT
2160: 45 5f 45 52 52 4f 52 3b 0a 20 20 20 20 7d 0a 20  E_ERROR;.    }. 
2170: 20 7d 0a 0a 20 20 69 66 28 20 72 63 21 3d 53 51   }..  if( rc!=SQ
2180: 4c 49 54 45 5f 4f 4b 20 29 7b 0a 20 20 20 20 75  LITE_OK ){.    u
2190: 6e 69 63 6f 64 65 44 65 73 74 72 6f 79 28 28 73  nicodeDestroy((s
21a0: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
21b0: 20 2a 29 70 4e 65 77 29 3b 0a 20 20 20 20 70 4e   *)pNew);.    pN
21c0: 65 77 20 3d 20 30 3b 0a 20 20 7d 0a 20 20 2a 70  ew = 0;.  }.  *p
21d0: 70 20 3d 20 28 73 71 6c 69 74 65 33 5f 74 6f 6b  p = (sqlite3_tok
21e0: 65 6e 69 7a 65 72 20 2a 29 70 4e 65 77 3b 0a 20  enizer *)pNew;. 
21f0: 20 72 65 74 75 72 6e 20 72 63 3b 0a 7d 0a 0a 2f   return rc;.}../
2200: 2a 0a 2a 2a 20 50 72 65 70 61 72 65 20 74 6f 20  *.** Prepare to 
2210: 62 65 67 69 6e 20 74 6f 6b 65 6e 69 7a 69 6e 67  begin tokenizing
2220: 20 61 20 70 61 72 74 69 63 75 6c 61 72 20 73 74   a particular st
2230: 72 69 6e 67 2e 20 20 54 68 65 20 69 6e 70 75 74  ring.  The input
2240: 0a 2a 2a 20 73 74 72 69 6e 67 20 74 6f 20 62 65  .** string to be
2250: 20 74 6f 6b 65 6e 69 7a 65 64 20 69 73 20 70 49   tokenized is pI
2260: 6e 70 75 74 5b 30 2e 2e 6e 42 79 74 65 73 2d 31  nput[0..nBytes-1
2270: 5d 2e 20 20 41 20 63 75 72 73 6f 72 0a 2a 2a 20  ].  A cursor.** 
2280: 75 73 65 64 20 74 6f 20 69 6e 63 72 65 6d 65 6e  used to incremen
2290: 74 61 6c 6c 79 20 74 6f 6b 65 6e 69 7a 65 20 74  tally tokenize t
22a0: 68 69 73 20 73 74 72 69 6e 67 20 69 73 20 72 65  his string is re
22b0: 74 75 72 6e 65 64 20 69 6e 20 0a 2a 2a 20 2a 70  turned in .** *p
22c0: 70 43 75 72 73 6f 72 2e 0a 2a 2f 0a 73 74 61 74  pCursor..*/.stat
22d0: 69 63 20 69 6e 74 20 75 6e 69 63 6f 64 65 4f 70  ic int unicodeOp
22e0: 65 6e 28 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f  en(.  sqlite3_to
22f0: 6b 65 6e 69 7a 65 72 20 2a 70 2c 20 20 20 20 20  kenizer *p,     
2300: 20 20 20 20 20 20 2f 2a 20 54 68 65 20 74 6f 6b        /* The tok
2310: 65 6e 69 7a 65 72 20 2a 2f 0a 20 20 63 6f 6e 73  enizer */.  cons
2320: 74 20 63 68 61 72 20 2a 61 49 6e 70 75 74 2c 20  t char *aInput, 
2330: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 49              /* I
2340: 6e 70 75 74 20 73 74 72 69 6e 67 20 2a 2f 0a 20  nput string */. 
2350: 20 69 6e 74 20 6e 49 6e 70 75 74 2c 20 20 20 20   int nInput,    
2360: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2370: 20 2f 2a 20 53 69 7a 65 20 6f 66 20 73 74 72 69   /* Size of stri
2380: 6e 67 20 61 49 6e 70 75 74 20 69 6e 20 62 79 74  ng aInput in byt
2390: 65 73 20 2a 2f 0a 20 20 73 71 6c 69 74 65 33 5f  es */.  sqlite3_
23a0: 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72  tokenizer_cursor
23b0: 20 2a 2a 70 70 20 20 20 2f 2a 20 4f 55 54 3a 20   **pp   /* OUT: 
23c0: 4e 65 77 20 63 75 72 73 6f 72 20 6f 62 6a 65 63  New cursor objec
23d0: 74 20 2a 2f 0a 29 7b 0a 20 20 75 6e 69 63 6f 64  t */.){.  unicod
23e0: 65 5f 63 75 72 73 6f 72 20 2a 70 43 73 72 3b 0a  e_cursor *pCsr;.
23f0: 0a 20 20 70 43 73 72 20 3d 20 28 75 6e 69 63 6f  .  pCsr = (unico
2400: 64 65 5f 63 75 72 73 6f 72 20 2a 29 73 71 6c 69  de_cursor *)sqli
2410: 74 65 33 5f 6d 61 6c 6c 6f 63 28 73 69 7a 65 6f  te3_malloc(sizeo
2420: 66 28 75 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72  f(unicode_cursor
2430: 29 29 3b 0a 20 20 69 66 28 20 70 43 73 72 3d 3d  ));.  if( pCsr==
2440: 30 20 29 7b 0a 20 20 20 20 72 65 74 75 72 6e 20  0 ){.    return 
2450: 53 51 4c 49 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20  SQLITE_NOMEM;.  
2460: 7d 0a 20 20 6d 65 6d 73 65 74 28 70 43 73 72 2c  }.  memset(pCsr,
2470: 20 30 2c 20 73 69 7a 65 6f 66 28 75 6e 69 63 6f   0, sizeof(unico
2480: 64 65 5f 63 75 72 73 6f 72 29 29 3b 0a 0a 20 20  de_cursor));..  
2490: 70 43 73 72 2d 3e 61 49 6e 70 75 74 20 3d 20 28  pCsr->aInput = (
24a0: 63 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 63  const unsigned c
24b0: 68 61 72 20 2a 29 61 49 6e 70 75 74 3b 0a 20 20  har *)aInput;.  
24c0: 69 66 28 20 61 49 6e 70 75 74 3d 3d 30 20 29 7b  if( aInput==0 ){
24d0: 0a 20 20 20 20 70 43 73 72 2d 3e 6e 49 6e 70 75  .    pCsr->nInpu
24e0: 74 20 3d 20 30 3b 0a 20 20 7d 65 6c 73 65 20 69  t = 0;.  }else i
24f0: 66 28 20 6e 49 6e 70 75 74 3c 30 20 29 7b 0a 20  f( nInput<0 ){. 
2500: 20 20 20 70 43 73 72 2d 3e 6e 49 6e 70 75 74 20     pCsr->nInput 
2510: 3d 20 28 69 6e 74 29 73 74 72 6c 65 6e 28 61 49  = (int)strlen(aI
2520: 6e 70 75 74 29 3b 0a 20 20 7d 65 6c 73 65 7b 0a  nput);.  }else{.
2530: 20 20 20 20 70 43 73 72 2d 3e 6e 49 6e 70 75 74      pCsr->nInput
2540: 20 3d 20 6e 49 6e 70 75 74 3b 0a 20 20 7d 0a 0a   = nInput;.  }..
2550: 20 20 2a 70 70 20 3d 20 26 70 43 73 72 2d 3e 62    *pp = &pCsr->b
2560: 61 73 65 3b 0a 20 20 55 4e 55 53 45 44 5f 50 41  ase;.  UNUSED_PA
2570: 52 41 4d 45 54 45 52 28 70 29 3b 0a 20 20 72 65  RAMETER(p);.  re
2580: 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a  turn SQLITE_OK;.
2590: 7d 0a 0a 2f 2a 0a 2a 2a 20 43 6c 6f 73 65 20 61  }../*.** Close a
25a0: 20 74 6f 6b 65 6e 69 7a 61 74 69 6f 6e 20 63 75   tokenization cu
25b0: 72 73 6f 72 20 70 72 65 76 69 6f 75 73 6c 79 20  rsor previously 
25c0: 6f 70 65 6e 65 64 20 62 79 20 61 20 63 61 6c 6c  opened by a call
25d0: 20 74 6f 0a 2a 2a 20 73 69 6d 70 6c 65 4f 70 65   to.** simpleOpe
25e0: 6e 28 29 20 61 62 6f 76 65 2e 0a 2a 2f 0a 73 74  n() above..*/.st
25f0: 61 74 69 63 20 69 6e 74 20 75 6e 69 63 6f 64 65  atic int unicode
2600: 43 6c 6f 73 65 28 73 71 6c 69 74 65 33 5f 74 6f  Close(sqlite3_to
2610: 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a  kenizer_cursor *
2620: 70 43 75 72 73 6f 72 29 7b 0a 20 20 75 6e 69 63  pCursor){.  unic
2630: 6f 64 65 5f 63 75 72 73 6f 72 20 2a 70 43 73 72  ode_cursor *pCsr
2640: 20 3d 20 28 75 6e 69 63 6f 64 65 5f 63 75 72 73   = (unicode_curs
2650: 6f 72 20 2a 29 20 70 43 75 72 73 6f 72 3b 0a 20  or *) pCursor;. 
2660: 20 73 71 6c 69 74 65 33 5f 66 72 65 65 28 70 43   sqlite3_free(pC
2670: 73 72 2d 3e 7a 54 6f 6b 65 6e 29 3b 0a 20 20 73  sr->zToken);.  s
2680: 71 6c 69 74 65 33 5f 66 72 65 65 28 70 43 73 72  qlite3_free(pCsr
2690: 29 3b 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49  );.  return SQLI
26a0: 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20  TE_OK;.}../*.** 
26b0: 45 78 74 72 61 63 74 20 74 68 65 20 6e 65 78 74  Extract the next
26c0: 20 74 6f 6b 65 6e 20 66 72 6f 6d 20 61 20 74 6f   token from a to
26d0: 6b 65 6e 69 7a 61 74 69 6f 6e 20 63 75 72 73 6f  kenization curso
26e0: 72 2e 20 20 54 68 65 20 63 75 72 73 6f 72 20 6d  r.  The cursor m
26f0: 75 73 74 0a 2a 2a 20 68 61 76 65 20 62 65 65 6e  ust.** have been
2700: 20 6f 70 65 6e 65 64 20 62 79 20 61 20 70 72 69   opened by a pri
2710: 6f 72 20 63 61 6c 6c 20 74 6f 20 73 69 6d 70 6c  or call to simpl
2720: 65 4f 70 65 6e 28 29 2e 0a 2a 2f 0a 73 74 61 74  eOpen()..*/.stat
2730: 69 63 20 69 6e 74 20 75 6e 69 63 6f 64 65 4e 65  ic int unicodeNe
2740: 78 74 28 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f  xt(.  sqlite3_to
2750: 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a  kenizer_cursor *
2760: 70 43 2c 20 20 20 2f 2a 20 43 75 72 73 6f 72 20  pC,   /* Cursor 
2770: 72 65 74 75 72 6e 65 64 20 62 79 20 73 69 6d 70  returned by simp
2780: 6c 65 4f 70 65 6e 20 2a 2f 0a 20 20 63 6f 6e 73  leOpen */.  cons
2790: 74 20 63 68 61 72 20 2a 2a 70 61 54 6f 6b 65 6e  t char **paToken
27a0: 2c 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f  ,           /* O
27b0: 55 54 3a 20 54 6f 6b 65 6e 20 74 65 78 74 20 2a  UT: Token text *
27c0: 2f 0a 20 20 69 6e 74 20 2a 70 6e 54 6f 6b 65 6e  /.  int *pnToken
27d0: 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ,               
27e0: 20 20 20 20 2f 2a 20 4f 55 54 3a 20 4e 75 6d 62      /* OUT: Numb
27f0: 65 72 20 6f 66 20 62 79 74 65 73 20 61 74 20 2a  er of bytes at *
2800: 70 61 54 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74  paToken */.  int
2810: 20 2a 70 69 53 74 61 72 74 2c 20 20 20 20 20 20   *piStart,      
2820: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
2830: 4f 55 54 3a 20 53 74 61 72 74 69 6e 67 20 6f 66  OUT: Starting of
2840: 66 73 65 74 20 6f 66 20 74 6f 6b 65 6e 20 2a 2f  fset of token */
2850: 0a 20 20 69 6e 74 20 2a 70 69 45 6e 64 2c 20 20  .  int *piEnd,  
2860: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2870: 20 20 20 2f 2a 20 4f 55 54 3a 20 45 6e 64 69 6e     /* OUT: Endin
2880: 67 20 6f 66 66 73 65 74 20 6f 66 20 74 6f 6b 65  g offset of toke
2890: 6e 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 69 50 6f  n */.  int *piPo
28a0: 73 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  s               
28b0: 20 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 50         /* OUT: P
28c0: 6f 73 69 74 69 6f 6e 20 69 6e 74 65 67 65 72 20  osition integer 
28d0: 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a 29 7b 0a 20  of token */.){. 
28e0: 20 75 6e 69 63 6f 64 65 5f 63 75 72 73 6f 72 20   unicode_cursor 
28f0: 2a 70 43 73 72 20 3d 20 28 75 6e 69 63 6f 64 65  *pCsr = (unicode
2900: 5f 63 75 72 73 6f 72 20 2a 29 70 43 3b 0a 20 20  _cursor *)pC;.  
2910: 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 69 7a 65  unicode_tokenize
2920: 72 20 2a 70 20 3d 20 28 28 75 6e 69 63 6f 64 65  r *p = ((unicode
2930: 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 29 70 43 73  _tokenizer *)pCs
2940: 72 2d 3e 62 61 73 65 2e 70 54 6f 6b 65 6e 69 7a  r->base.pTokeniz
2950: 65 72 29 3b 0a 20 20 75 6e 73 69 67 6e 65 64 20  er);.  unsigned 
2960: 69 6e 74 20 69 43 6f 64 65 20 3d 20 30 3b 0a 20  int iCode = 0;. 
2970: 20 63 68 61 72 20 2a 7a 4f 75 74 3b 0a 20 20 63   char *zOut;.  c
2980: 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 63 68  onst unsigned ch
2990: 61 72 20 2a 7a 20 3d 20 26 70 43 73 72 2d 3e 61  ar *z = &pCsr->a
29a0: 49 6e 70 75 74 5b 70 43 73 72 2d 3e 69 4f 66 66  Input[pCsr->iOff
29b0: 5d 3b 0a 20 20 63 6f 6e 73 74 20 75 6e 73 69 67  ];.  const unsig
29c0: 6e 65 64 20 63 68 61 72 20 2a 7a 53 74 61 72 74  ned char *zStart
29d0: 20 3d 20 7a 3b 0a 20 20 63 6f 6e 73 74 20 75 6e   = z;.  const un
29e0: 73 69 67 6e 65 64 20 63 68 61 72 20 2a 7a 45 6e  signed char *zEn
29f0: 64 3b 0a 20 20 63 6f 6e 73 74 20 75 6e 73 69 67  d;.  const unsig
2a00: 6e 65 64 20 63 68 61 72 20 2a 7a 54 65 72 6d 20  ned char *zTerm 
2a10: 3d 20 26 70 43 73 72 2d 3e 61 49 6e 70 75 74 5b  = &pCsr->aInput[
2a20: 70 43 73 72 2d 3e 6e 49 6e 70 75 74 5d 3b 0a 0a  pCsr->nInput];..
2a30: 20 20 2f 2a 20 53 63 61 6e 20 70 61 73 74 20 61    /* Scan past a
2a40: 6e 79 20 64 65 6c 69 6d 69 74 65 72 20 63 68 61  ny delimiter cha
2a50: 72 61 63 74 65 72 73 20 62 65 66 6f 72 65 20 74  racters before t
2a60: 68 65 20 73 74 61 72 74 20 6f 66 20 74 68 65 20  he start of the 
2a70: 6e 65 78 74 20 74 6f 6b 65 6e 2e 0a 20 20 2a 2a  next token..  **
2a80: 20 52 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 44   Return SQLITE_D
2a90: 4f 4e 45 20 65 61 72 6c 79 20 69 66 20 74 68 69  ONE early if thi
2aa0: 73 20 74 61 6b 65 73 20 75 73 20 61 6c 6c 20 74  s takes us all t
2ab0: 68 65 20 77 61 79 20 74 6f 20 74 68 65 20 65 6e  he way to the en
2ac0: 64 20 6f 66 20 0a 20 20 2a 2a 20 74 68 65 20 69  d of .  ** the i
2ad0: 6e 70 75 74 2e 20 20 2a 2f 0a 20 20 77 68 69 6c  nput.  */.  whil
2ae0: 65 28 20 7a 3c 7a 54 65 72 6d 20 29 7b 0a 20 20  e( z<zTerm ){.  
2af0: 20 20 52 45 41 44 5f 55 54 46 38 28 7a 2c 20 7a    READ_UTF8(z, z
2b00: 54 65 72 6d 2c 20 69 43 6f 64 65 29 3b 0a 20 20  Term, iCode);.  
2b10: 20 20 69 66 28 20 75 6e 69 63 6f 64 65 49 73 41    if( unicodeIsA
2b20: 6c 6e 75 6d 28 70 2c 20 28 69 6e 74 29 69 43 6f  lnum(p, (int)iCo
2b30: 64 65 29 20 29 20 62 72 65 61 6b 3b 0a 20 20 20  de) ) break;.   
2b40: 20 7a 53 74 61 72 74 20 3d 20 7a 3b 0a 20 20 7d   zStart = z;.  }
2b50: 0a 20 20 69 66 28 20 7a 53 74 61 72 74 3e 3d 7a  .  if( zStart>=z
2b60: 54 65 72 6d 20 29 20 72 65 74 75 72 6e 20 53 51  Term ) return SQ
2b70: 4c 49 54 45 5f 44 4f 4e 45 3b 0a 0a 20 20 7a 4f  LITE_DONE;..  zO
2b80: 75 74 20 3d 20 70 43 73 72 2d 3e 7a 54 6f 6b 65  ut = pCsr->zToke
2b90: 6e 3b 0a 20 20 64 6f 20 7b 0a 20 20 20 20 69 6e  n;.  do {.    in
2ba0: 74 20 69 4f 75 74 3b 0a 0a 20 20 20 20 2f 2a 20  t iOut;..    /* 
2bb0: 47 72 6f 77 20 74 68 65 20 6f 75 74 70 75 74 20  Grow the output 
2bc0: 62 75 66 66 65 72 20 69 66 20 72 65 71 75 69 72  buffer if requir
2bd0: 65 64 2e 20 2a 2f 0a 20 20 20 20 69 66 28 20 28  ed. */.    if( (
2be0: 7a 4f 75 74 2d 70 43 73 72 2d 3e 7a 54 6f 6b 65  zOut-pCsr->zToke
2bf0: 6e 29 3e 3d 28 70 43 73 72 2d 3e 6e 41 6c 6c 6f  n)>=(pCsr->nAllo
2c00: 63 2d 34 29 20 29 7b 0a 20 20 20 20 20 20 63 68  c-4) ){.      ch
2c10: 61 72 20 2a 7a 4e 65 77 20 3d 20 73 71 6c 69 74  ar *zNew = sqlit
2c20: 65 33 5f 72 65 61 6c 6c 6f 63 28 70 43 73 72 2d  e3_realloc(pCsr-
2c30: 3e 7a 54 6f 6b 65 6e 2c 20 70 43 73 72 2d 3e 6e  >zToken, pCsr->n
2c40: 41 6c 6c 6f 63 2b 36 34 29 3b 0a 20 20 20 20 20  Alloc+64);.     
2c50: 20 69 66 28 20 21 7a 4e 65 77 20 29 20 72 65 74   if( !zNew ) ret
2c60: 75 72 6e 20 53 51 4c 49 54 45 5f 4e 4f 4d 45 4d  urn SQLITE_NOMEM
2c70: 3b 0a 20 20 20 20 20 20 7a 4f 75 74 20 3d 20 26  ;.      zOut = &
2c80: 7a 4e 65 77 5b 7a 4f 75 74 20 2d 20 70 43 73 72  zNew[zOut - pCsr
2c90: 2d 3e 7a 54 6f 6b 65 6e 5d 3b 0a 20 20 20 20 20  ->zToken];.     
2ca0: 20 70 43 73 72 2d 3e 7a 54 6f 6b 65 6e 20 3d 20   pCsr->zToken = 
2cb0: 7a 4e 65 77 3b 0a 20 20 20 20 20 20 70 43 73 72  zNew;.      pCsr
2cc0: 2d 3e 6e 41 6c 6c 6f 63 20 2b 3d 20 36 34 3b 0a  ->nAlloc += 64;.
2cd0: 20 20 20 20 7d 0a 0a 20 20 20 20 2f 2a 20 57 72      }..    /* Wr
2ce0: 69 74 65 20 74 68 65 20 66 6f 6c 64 65 64 20 63  ite the folded c
2cf0: 61 73 65 20 6f 66 20 74 68 65 20 6c 61 73 74 20  ase of the last 
2d00: 63 68 61 72 61 63 74 65 72 20 72 65 61 64 20 74  character read t
2d10: 6f 20 74 68 65 20 6f 75 74 70 75 74 20 2a 2f 0a  o the output */.
2d20: 20 20 20 20 7a 45 6e 64 20 3d 20 7a 3b 0a 20 20      zEnd = z;.  
2d30: 20 20 69 4f 75 74 20 3d 20 73 71 6c 69 74 65 33    iOut = sqlite3
2d40: 46 74 73 55 6e 69 63 6f 64 65 46 6f 6c 64 28 28  FtsUnicodeFold((
2d50: 69 6e 74 29 69 43 6f 64 65 2c 20 70 2d 3e 65 52  int)iCode, p->eR
2d60: 65 6d 6f 76 65 44 69 61 63 72 69 74 69 63 29 3b  emoveDiacritic);
2d70: 0a 20 20 20 20 69 66 28 20 69 4f 75 74 20 29 7b  .    if( iOut ){
2d80: 0a 20 20 20 20 20 20 57 52 49 54 45 5f 55 54 46  .      WRITE_UTF
2d90: 38 28 7a 4f 75 74 2c 20 69 4f 75 74 29 3b 0a 20  8(zOut, iOut);. 
2da0: 20 20 20 7d 0a 0a 20 20 20 20 2f 2a 20 49 66 20     }..    /* If 
2db0: 74 68 65 20 63 75 72 73 6f 72 20 69 73 20 6e 6f  the cursor is no
2dc0: 74 20 61 74 20 45 4f 46 2c 20 72 65 61 64 20 74  t at EOF, read t
2dd0: 68 65 20 6e 65 78 74 20 63 68 61 72 61 63 74 65  he next characte
2de0: 72 20 2a 2f 0a 20 20 20 20 69 66 28 20 7a 3e 3d  r */.    if( z>=
2df0: 7a 54 65 72 6d 20 29 20 62 72 65 61 6b 3b 0a 20  zTerm ) break;. 
2e00: 20 20 20 52 45 41 44 5f 55 54 46 38 28 7a 2c 20     READ_UTF8(z, 
2e10: 7a 54 65 72 6d 2c 20 69 43 6f 64 65 29 3b 0a 20  zTerm, iCode);. 
2e20: 20 7d 77 68 69 6c 65 28 20 75 6e 69 63 6f 64 65   }while( unicode
2e30: 49 73 41 6c 6e 75 6d 28 70 2c 20 28 69 6e 74 29  IsAlnum(p, (int)
2e40: 69 43 6f 64 65 29 20 0a 20 20 20 20 20 20 20 7c  iCode) .       |
2e50: 7c 20 73 71 6c 69 74 65 33 46 74 73 55 6e 69 63  | sqlite3FtsUnic
2e60: 6f 64 65 49 73 64 69 61 63 72 69 74 69 63 28 28  odeIsdiacritic((
2e70: 69 6e 74 29 69 43 6f 64 65 29 0a 20 20 29 3b 0a  int)iCode).  );.
2e80: 0a 20 20 2f 2a 20 53 65 74 20 74 68 65 20 6f 75  .  /* Set the ou
2e90: 74 70 75 74 20 76 61 72 69 61 62 6c 65 73 20 61  tput variables a
2ea0: 6e 64 20 72 65 74 75 72 6e 2e 20 2a 2f 0a 20 20  nd return. */.  
2eb0: 70 43 73 72 2d 3e 69 4f 66 66 20 3d 20 28 69 6e  pCsr->iOff = (in
2ec0: 74 29 28 7a 20 2d 20 70 43 73 72 2d 3e 61 49 6e  t)(z - pCsr->aIn
2ed0: 70 75 74 29 3b 0a 20 20 2a 70 61 54 6f 6b 65 6e  put);.  *paToken
2ee0: 20 3d 20 70 43 73 72 2d 3e 7a 54 6f 6b 65 6e 3b   = pCsr->zToken;
2ef0: 0a 20 20 2a 70 6e 54 6f 6b 65 6e 20 3d 20 28 69  .  *pnToken = (i
2f00: 6e 74 29 28 7a 4f 75 74 20 2d 20 70 43 73 72 2d  nt)(zOut - pCsr-
2f10: 3e 7a 54 6f 6b 65 6e 29 3b 0a 20 20 2a 70 69 53  >zToken);.  *piS
2f20: 74 61 72 74 20 3d 20 28 69 6e 74 29 28 7a 53 74  tart = (int)(zSt
2f30: 61 72 74 20 2d 20 70 43 73 72 2d 3e 61 49 6e 70  art - pCsr->aInp
2f40: 75 74 29 3b 0a 20 20 2a 70 69 45 6e 64 20 3d 20  ut);.  *piEnd = 
2f50: 28 69 6e 74 29 28 7a 45 6e 64 20 2d 20 70 43 73  (int)(zEnd - pCs
2f60: 72 2d 3e 61 49 6e 70 75 74 29 3b 0a 20 20 2a 70  r->aInput);.  *p
2f70: 69 50 6f 73 20 3d 20 70 43 73 72 2d 3e 69 54 6f  iPos = pCsr->iTo
2f80: 6b 65 6e 2b 2b 3b 0a 20 20 72 65 74 75 72 6e 20  ken++;.  return 
2f90: 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a  SQLITE_OK;.}../*
2fa0: 0a 2a 2a 20 53 65 74 20 2a 70 70 4d 6f 64 75 6c  .** Set *ppModul
2fb0: 65 20 74 6f 20 61 20 70 6f 69 6e 74 65 72 20 74  e to a pointer t
2fc0: 6f 20 74 68 65 20 73 71 6c 69 74 65 33 5f 74 6f  o the sqlite3_to
2fd0: 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 0a  kenizer_module .
2fe0: 2a 2a 20 73 74 72 75 63 74 75 72 65 20 66 6f 72  ** structure for
2ff0: 20 74 68 65 20 75 6e 69 63 6f 64 65 20 74 6f 6b   the unicode tok
3000: 65 6e 69 7a 65 72 2e 0a 2a 2f 0a 76 6f 69 64 20  enizer..*/.void 
3010: 73 71 6c 69 74 65 33 46 74 73 33 55 6e 69 63 6f  sqlite3Fts3Unico
3020: 64 65 54 6f 6b 65 6e 69 7a 65 72 28 73 71 6c 69  deTokenizer(sqli
3030: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d 6f  te3_tokenizer_mo
3040: 64 75 6c 65 20 63 6f 6e 73 74 20 2a 2a 70 70 4d  dule const **ppM
3050: 6f 64 75 6c 65 29 7b 0a 20 20 73 74 61 74 69 63  odule){.  static
3060: 20 63 6f 6e 73 74 20 73 71 6c 69 74 65 33 5f 74   const sqlite3_t
3070: 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20  okenizer_module 
3080: 6d 6f 64 75 6c 65 20 3d 20 7b 0a 20 20 20 20 30  module = {.    0
3090: 2c 0a 20 20 20 20 75 6e 69 63 6f 64 65 43 72 65  ,.    unicodeCre
30a0: 61 74 65 2c 0a 20 20 20 20 75 6e 69 63 6f 64 65  ate,.    unicode
30b0: 44 65 73 74 72 6f 79 2c 0a 20 20 20 20 75 6e 69  Destroy,.    uni
30c0: 63 6f 64 65 4f 70 65 6e 2c 0a 20 20 20 20 75 6e  codeOpen,.    un
30d0: 69 63 6f 64 65 43 6c 6f 73 65 2c 0a 20 20 20 20  icodeClose,.    
30e0: 75 6e 69 63 6f 64 65 4e 65 78 74 2c 0a 20 20 20  unicodeNext,.   
30f0: 20 30 2c 0a 20 20 7d 3b 0a 20 20 2a 70 70 4d 6f   0,.  };.  *ppMo
3100: 64 75 6c 65 20 3d 20 26 6d 6f 64 75 6c 65 3b 0a  dule = &module;.
3110: 7d 0a 0a 23 65 6e 64 69 66 20 2f 2a 20 21 64 65  }..#endif /* !de
3120: 66 69 6e 65 64 28 53 51 4c 49 54 45 5f 43 4f 52  fined(SQLITE_COR
3130: 45 29 20 7c 7c 20 64 65 66 69 6e 65 64 28 53 51  E) || defined(SQ
3140: 4c 49 54 45 5f 45 4e 41 42 4c 45 5f 46 54 53 33  LITE_ENABLE_FTS3
3150: 29 20 2a 2f 0a 23 65 6e 64 69 66 20 2f 2a 20 69  ) */.#endif /* i
3160: 66 6e 64 65 66 20 53 51 4c 49 54 45 5f 44 49 53  fndef SQLITE_DIS
3170: 41 42 4c 45 5f 46 54 53 33 5f 55 4e 49 43 4f 44  ABLE_FTS3_UNICOD
3180: 45 20 2a 2f 0a                                   E */.