/ Hex Artifact Content
Login

Artifact 6b7cc68aef4efb084e1449f7d20c4b20d3bdf6b4:


0000: 2f 2a 0a 2a 2a 20 32 30 31 31 20 4a 75 6e 20 31  /*.** 2011 Jun 1
0010: 33 0a 2a 2a 0a 2a 2a 20 54 68 65 20 61 75 74 68  3.**.** The auth
0020: 6f 72 20 64 69 73 63 6c 61 69 6d 73 20 63 6f 70  or disclaims cop
0030: 79 72 69 67 68 74 20 74 6f 20 74 68 69 73 20 73  yright to this s
0040: 6f 75 72 63 65 20 63 6f 64 65 2e 20 20 49 6e 20  ource code.  In 
0050: 70 6c 61 63 65 20 6f 66 0a 2a 2a 20 61 20 6c 65  place of.** a le
0060: 67 61 6c 20 6e 6f 74 69 63 65 2c 20 68 65 72 65  gal notice, here
0070: 20 69 73 20 61 20 62 6c 65 73 73 69 6e 67 3a 0a   is a blessing:.
0080: 2a 2a 0a 2a 2a 20 20 20 20 4d 61 79 20 79 6f 75  **.**    May you
0090: 20 64 6f 20 67 6f 6f 64 20 61 6e 64 20 6e 6f 74   do good and not
00a0: 20 65 76 69 6c 2e 0a 2a 2a 20 20 20 20 4d 61 79   evil..**    May
00b0: 20 79 6f 75 20 66 69 6e 64 20 66 6f 72 67 69 76   you find forgiv
00c0: 65 6e 65 73 73 20 66 6f 72 20 79 6f 75 72 73 65  eness for yourse
00d0: 6c 66 20 61 6e 64 20 66 6f 72 67 69 76 65 20 6f  lf and forgive o
00e0: 74 68 65 72 73 2e 0a 2a 2a 20 20 20 20 4d 61 79  thers..**    May
00f0: 20 79 6f 75 20 73 68 61 72 65 20 66 72 65 65 6c   you share freel
0100: 79 2c 20 6e 65 76 65 72 20 74 61 6b 69 6e 67 20  y, never taking 
0110: 6d 6f 72 65 20 74 68 61 6e 20 79 6f 75 20 67 69  more than you gi
0120: 76 65 2e 0a 2a 2a 0a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ve..**.*********
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 2a 2a 2a 2a 0a 2a 2a 0a 2a 2a 20 54 68 69 73  *****.**.** This
0180: 20 66 69 6c 65 20 69 73 20 6e 6f 74 20 70 61 72   file is not par
0190: 74 20 6f 66 20 74 68 65 20 70 72 6f 64 75 63 74  t of the product
01a0: 69 6f 6e 20 46 54 53 20 63 6f 64 65 2e 20 49 74  ion FTS code. It
01b0: 20 69 73 20 6f 6e 6c 79 20 75 73 65 64 20 66 6f   is only used fo
01c0: 72 0a 2a 2a 20 74 65 73 74 69 6e 67 2e 20 49 74  r.** testing. It
01d0: 20 63 6f 6e 74 61 69 6e 73 20 61 20 54 63 6c 20   contains a Tcl 
01e0: 63 6f 6d 6d 61 6e 64 20 74 68 61 74 20 63 61 6e  command that can
01f0: 20 62 65 20 75 73 65 64 20 74 6f 20 74 65 73 74   be used to test
0200: 20 69 66 20 61 20 64 6f 63 75 6d 65 6e 74 0a 2a   if a document.*
0210: 2a 20 6d 61 74 63 68 65 73 20 61 6e 20 46 54 53  * matches an FTS
0220: 20 4e 45 41 52 20 65 78 70 72 65 73 73 69 6f 6e   NEAR expression
0230: 2e 0a 2a 2a 0a 2a 2a 20 41 73 20 6f 66 20 4d 61  ..**.** As of Ma
0240: 72 63 68 20 32 30 31 32 2c 20 69 74 20 61 6c 73  rch 2012, it als
0250: 6f 20 63 6f 6e 74 61 69 6e 73 20 61 20 76 65 72  o contains a ver
0260: 73 69 6f 6e 20 31 20 74 6f 6b 65 6e 69 7a 65 72  sion 1 tokenizer
0270: 20 75 73 65 64 20 66 6f 72 20 74 65 73 74 69 6e   used for testin
0280: 67 0a 2a 2a 20 74 68 61 74 20 74 68 65 20 73 71  g.** that the sq
0290: 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f  lite3_tokenizer_
02a0: 6d 6f 64 75 6c 65 2e 78 4c 61 6e 67 75 61 67 65  module.xLanguage
02b0: 28 29 20 6d 65 74 68 6f 64 20 69 73 20 69 6e 76  () method is inv
02c0: 6f 6b 65 64 20 63 6f 72 72 65 63 74 6c 79 2e 0a  oked correctly..
02d0: 2a 2f 0a 0a 23 69 6e 63 6c 75 64 65 20 3c 74 63  */..#include <tc
02e0: 6c 2e 68 3e 0a 23 69 6e 63 6c 75 64 65 20 3c 73  l.h>.#include <s
02f0: 74 72 69 6e 67 2e 68 3e 0a 23 69 6e 63 6c 75 64  tring.h>.#includ
0300: 65 20 3c 61 73 73 65 72 74 2e 68 3e 0a 0a 23 69  e <assert.h>..#i
0310: 66 64 65 66 20 53 51 4c 49 54 45 5f 54 45 53 54  fdef SQLITE_TEST
0320: 0a 0a 2f 2a 20 52 65 71 75 69 72 65 64 20 73 6f  ../* Required so
0330: 20 74 68 61 74 20 74 68 65 20 22 69 66 64 65 66   that the "ifdef
0340: 20 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45 5f 46   SQLITE_ENABLE_F
0350: 54 53 33 22 20 62 65 6c 6f 77 20 77 6f 72 6b 73  TS3" below works
0360: 20 2a 2f 0a 23 69 6e 63 6c 75 64 65 20 22 66 74   */.#include "ft
0370: 73 33 49 6e 74 2e 68 22 0a 0a 23 64 65 66 69 6e  s3Int.h"..#defin
0380: 65 20 4e 4d 5f 4d 41 58 5f 54 4f 4b 45 4e 20 31  e NM_MAX_TOKEN 1
0390: 32 0a 0a 74 79 70 65 64 65 66 20 73 74 72 75 63  2..typedef struc
03a0: 74 20 4e 65 61 72 50 68 72 61 73 65 20 4e 65 61  t NearPhrase Nea
03b0: 72 50 68 72 61 73 65 3b 0a 74 79 70 65 64 65 66  rPhrase;.typedef
03c0: 20 73 74 72 75 63 74 20 4e 65 61 72 44 6f 63 75   struct NearDocu
03d0: 6d 65 6e 74 20 4e 65 61 72 44 6f 63 75 6d 65 6e  ment NearDocumen
03e0: 74 3b 0a 74 79 70 65 64 65 66 20 73 74 72 75 63  t;.typedef struc
03f0: 74 20 4e 65 61 72 54 6f 6b 65 6e 20 4e 65 61 72  t NearToken Near
0400: 54 6f 6b 65 6e 3b 0a 0a 73 74 72 75 63 74 20 4e  Token;..struct N
0410: 65 61 72 44 6f 63 75 6d 65 6e 74 20 7b 0a 20 20  earDocument {.  
0420: 69 6e 74 20 6e 54 6f 6b 65 6e 3b 20 20 20 20 20  int nToken;     
0430: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0440: 2f 2a 20 4c 65 6e 67 74 68 20 6f 66 20 74 6f 6b  /* Length of tok
0450: 65 6e 20 69 6e 20 62 79 74 65 73 20 2a 2f 0a 20  en in bytes */. 
0460: 20 4e 65 61 72 54 6f 6b 65 6e 20 2a 61 54 6f 6b   NearToken *aTok
0470: 65 6e 3b 20 20 20 20 20 20 20 20 20 20 20 20 20  en;             
0480: 20 2f 2a 20 54 6f 6b 65 6e 20 61 72 72 61 79 20   /* Token array 
0490: 2a 2f 0a 7d 3b 0a 0a 73 74 72 75 63 74 20 4e 65  */.};..struct Ne
04a0: 61 72 54 6f 6b 65 6e 20 7b 0a 20 20 69 6e 74 20  arToken {.  int 
04b0: 6e 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20  n;              
04c0: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4c              /* L
04d0: 65 6e 67 74 68 20 6f 66 20 74 6f 6b 65 6e 20 69  ength of token i
04e0: 6e 20 62 79 74 65 73 20 2a 2f 0a 20 20 63 6f 6e  n bytes */.  con
04f0: 73 74 20 63 68 61 72 20 2a 7a 3b 20 20 20 20 20  st char *z;     
0500: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
0510: 50 6f 69 6e 74 65 72 20 74 6f 20 74 6f 6b 65 6e  Pointer to token
0520: 20 73 74 72 69 6e 67 20 2a 2f 0a 7d 3b 0a 0a 73   string */.};..s
0530: 74 72 75 63 74 20 4e 65 61 72 50 68 72 61 73 65  truct NearPhrase
0540: 20 7b 0a 20 20 69 6e 74 20 6e 4e 65 61 72 3b 20   {.  int nNear; 
0550: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0560: 20 20 20 20 20 2f 2a 20 50 72 65 63 65 64 69 6e       /* Precedin
0570: 67 20 4e 45 41 52 20 76 61 6c 75 65 20 2a 2f 0a  g NEAR value */.
0580: 20 20 69 6e 74 20 6e 54 6f 6b 65 6e 3b 20 20 20    int nToken;   
0590: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
05a0: 20 20 2f 2a 20 4e 75 6d 62 65 72 20 6f 66 20 74    /* Number of t
05b0: 6f 6b 65 6e 73 20 69 6e 20 74 68 69 73 20 70 68  okens in this ph
05c0: 72 61 73 65 20 2a 2f 0a 20 20 4e 65 61 72 54 6f  rase */.  NearTo
05d0: 6b 65 6e 20 61 54 6f 6b 65 6e 5b 4e 4d 5f 4d 41  ken aToken[NM_MA
05e0: 58 5f 54 4f 4b 45 4e 5d 3b 20 2f 2a 20 41 72 72  X_TOKEN]; /* Arr
05f0: 61 79 20 6f 66 20 74 6f 6b 65 6e 73 20 69 6e 20  ay of tokens in 
0600: 74 68 69 73 20 70 68 72 61 73 65 20 2a 2f 0a 7d  this phrase */.}
0610: 3b 0a 0a 73 74 61 74 69 63 20 69 6e 74 20 6e 6d  ;..static int nm
0620: 5f 70 68 72 61 73 65 5f 6d 61 74 63 68 28 0a 20  _phrase_match(. 
0630: 20 4e 65 61 72 50 68 72 61 73 65 20 2a 70 2c 0a   NearPhrase *p,.
0640: 20 20 4e 65 61 72 54 6f 6b 65 6e 20 2a 61 54 6f    NearToken *aTo
0650: 6b 65 6e 0a 29 7b 0a 20 20 69 6e 74 20 69 69 3b  ken.){.  int ii;
0660: 0a 0a 20 20 66 6f 72 28 69 69 3d 30 3b 20 69 69  ..  for(ii=0; ii
0670: 3c 70 2d 3e 6e 54 6f 6b 65 6e 3b 20 69 69 2b 2b  <p->nToken; ii++
0680: 29 7b 0a 20 20 20 20 4e 65 61 72 54 6f 6b 65 6e  ){.    NearToken
0690: 20 2a 70 54 6f 6b 65 6e 20 3d 20 26 70 2d 3e 61   *pToken = &p->a
06a0: 54 6f 6b 65 6e 5b 69 69 5d 3b 0a 20 20 20 20 69  Token[ii];.    i
06b0: 66 28 20 70 54 6f 6b 65 6e 2d 3e 6e 3e 30 20 26  f( pToken->n>0 &
06c0: 26 20 70 54 6f 6b 65 6e 2d 3e 7a 5b 70 54 6f 6b  & pToken->z[pTok
06d0: 65 6e 2d 3e 6e 2d 31 5d 3d 3d 27 2a 27 20 29 7b  en->n-1]=='*' ){
06e0: 0a 20 20 20 20 20 20 69 66 28 20 61 54 6f 6b 65  .      if( aToke
06f0: 6e 5b 69 69 5d 2e 6e 3c 28 70 54 6f 6b 65 6e 2d  n[ii].n<(pToken-
0700: 3e 6e 2d 31 29 20 29 20 72 65 74 75 72 6e 20 30  >n-1) ) return 0
0710: 3b 0a 20 20 20 20 20 20 69 66 28 20 6d 65 6d 63  ;.      if( memc
0720: 6d 70 28 61 54 6f 6b 65 6e 5b 69 69 5d 2e 7a 2c  mp(aToken[ii].z,
0730: 20 70 54 6f 6b 65 6e 2d 3e 7a 2c 20 70 54 6f 6b   pToken->z, pTok
0740: 65 6e 2d 3e 6e 2d 31 29 20 29 20 72 65 74 75 72  en->n-1) ) retur
0750: 6e 20 30 3b 0a 20 20 20 20 7d 65 6c 73 65 7b 0a  n 0;.    }else{.
0760: 20 20 20 20 20 20 69 66 28 20 61 54 6f 6b 65 6e        if( aToken
0770: 5b 69 69 5d 2e 6e 21 3d 70 54 6f 6b 65 6e 2d 3e  [ii].n!=pToken->
0780: 6e 20 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20  n ) return 0;.  
0790: 20 20 20 20 69 66 28 20 6d 65 6d 63 6d 70 28 61      if( memcmp(a
07a0: 54 6f 6b 65 6e 5b 69 69 5d 2e 7a 2c 20 70 54 6f  Token[ii].z, pTo
07b0: 6b 65 6e 2d 3e 7a 2c 20 70 54 6f 6b 65 6e 2d 3e  ken->z, pToken->
07c0: 6e 29 20 29 20 72 65 74 75 72 6e 20 30 3b 0a 20  n) ) return 0;. 
07d0: 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 72 65 74 75     }.  }..  retu
07e0: 72 6e 20 31 3b 0a 7d 0a 0a 73 74 61 74 69 63 20  rn 1;.}..static 
07f0: 69 6e 74 20 6e 6d 5f 6e 65 61 72 5f 63 68 61 69  int nm_near_chai
0800: 6e 28 0a 20 20 69 6e 74 20 69 44 69 72 2c 20 20  n(.  int iDir,  
0810: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0820: 20 20 20 20 20 2f 2a 20 44 69 72 65 63 74 69 6f       /* Directio
0830: 6e 20 74 6f 20 69 74 65 72 61 74 65 20 74 68 72  n to iterate thr
0840: 6f 75 67 68 20 61 50 68 72 61 73 65 5b 5d 20 2a  ough aPhrase[] *
0850: 2f 0a 20 20 4e 65 61 72 44 6f 63 75 6d 65 6e 74  /.  NearDocument
0860: 20 2a 70 44 6f 63 2c 20 20 20 20 20 20 20 20 20   *pDoc,         
0870: 20 20 20 20 2f 2a 20 44 6f 63 75 6d 65 6e 74 20      /* Document 
0880: 74 6f 20 6d 61 74 63 68 20 61 67 61 69 6e 73 74  to match against
0890: 20 2a 2f 0a 20 20 69 6e 74 20 69 50 6f 73 2c 20   */.  int iPos, 
08a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
08b0: 20 20 20 20 20 20 2f 2a 20 50 6f 73 69 74 69 6f        /* Positio
08c0: 6e 20 61 74 20 77 68 69 63 68 20 69 50 68 72 61  n at which iPhra
08d0: 73 65 20 77 61 73 20 66 6f 75 6e 64 20 2a 2f 0a  se was found */.
08e0: 20 20 69 6e 74 20 6e 50 68 72 61 73 65 2c 20 20    int nPhrase,  
08f0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0900: 20 20 2f 2a 20 53 69 7a 65 20 6f 66 20 70 68 72    /* Size of phr
0910: 61 73 65 20 61 72 72 61 79 20 2a 2f 0a 20 20 4e  ase array */.  N
0920: 65 61 72 50 68 72 61 73 65 20 2a 61 50 68 72 61  earPhrase *aPhra
0930: 73 65 2c 20 20 20 20 20 20 20 20 20 20 20 20 2f  se,            /
0940: 2a 20 50 68 72 61 73 65 20 61 72 72 61 79 20 2a  * Phrase array *
0950: 2f 0a 20 20 69 6e 74 20 69 50 68 72 61 73 65 20  /.  int iPhrase 
0960: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0970: 20 20 20 20 2f 2a 20 49 6e 64 65 78 20 6f 66 20      /* Index of 
0980: 70 68 72 61 73 65 20 66 6f 75 6e 64 20 2a 2f 0a  phrase found */.
0990: 29 7b 0a 20 20 69 6e 74 20 69 53 74 61 72 74 3b  ){.  int iStart;
09a0: 0a 20 20 69 6e 74 20 69 53 74 6f 70 3b 0a 20 20  .  int iStop;.  
09b0: 69 6e 74 20 69 69 3b 0a 20 20 69 6e 74 20 6e 4e  int ii;.  int nN
09c0: 65 61 72 3b 0a 20 20 69 6e 74 20 69 50 68 72 61  ear;.  int iPhra
09d0: 73 65 32 3b 0a 20 20 4e 65 61 72 50 68 72 61 73  se2;.  NearPhras
09e0: 65 20 2a 70 3b 0a 20 20 4e 65 61 72 50 68 72 61  e *p;.  NearPhra
09f0: 73 65 20 2a 70 50 72 65 76 3b 0a 0a 20 20 61 73  se *pPrev;..  as
0a00: 73 65 72 74 28 20 69 44 69 72 3d 3d 31 20 7c 7c  sert( iDir==1 ||
0a10: 20 69 44 69 72 3d 3d 2d 31 20 29 3b 0a 0a 20 20   iDir==-1 );..  
0a20: 69 66 28 20 69 44 69 72 3d 3d 31 20 29 7b 0a 20  if( iDir==1 ){. 
0a30: 20 20 20 69 66 28 20 28 69 50 68 72 61 73 65 2b     if( (iPhrase+
0a40: 31 29 3d 3d 6e 50 68 72 61 73 65 20 29 20 72 65  1)==nPhrase ) re
0a50: 74 75 72 6e 20 31 3b 0a 20 20 20 20 6e 4e 65 61  turn 1;.    nNea
0a60: 72 20 3d 20 61 50 68 72 61 73 65 5b 69 50 68 72  r = aPhrase[iPhr
0a70: 61 73 65 2b 31 5d 2e 6e 4e 65 61 72 3b 0a 20 20  ase+1].nNear;.  
0a80: 7d 65 6c 73 65 7b 0a 20 20 20 20 69 66 28 20 69  }else{.    if( i
0a90: 50 68 72 61 73 65 3d 3d 30 20 29 20 72 65 74 75  Phrase==0 ) retu
0aa0: 72 6e 20 31 3b 0a 20 20 20 20 6e 4e 65 61 72 20  rn 1;.    nNear 
0ab0: 3d 20 61 50 68 72 61 73 65 5b 69 50 68 72 61 73  = aPhrase[iPhras
0ac0: 65 5d 2e 6e 4e 65 61 72 3b 0a 20 20 7d 0a 20 20  e].nNear;.  }.  
0ad0: 70 50 72 65 76 20 3d 20 26 61 50 68 72 61 73 65  pPrev = &aPhrase
0ae0: 5b 69 50 68 72 61 73 65 5d 3b 0a 20 20 69 50 68  [iPhrase];.  iPh
0af0: 72 61 73 65 32 20 3d 20 69 50 68 72 61 73 65 2b  rase2 = iPhrase+
0b00: 69 44 69 72 3b 0a 20 20 70 20 3d 20 26 61 50 68  iDir;.  p = &aPh
0b10: 72 61 73 65 5b 69 50 68 72 61 73 65 32 5d 3b 0a  rase[iPhrase2];.
0b20: 0a 20 20 69 53 74 61 72 74 20 3d 20 69 50 6f 73  .  iStart = iPos
0b30: 20 2d 20 6e 4e 65 61 72 20 2d 20 70 2d 3e 6e 54   - nNear - p->nT
0b40: 6f 6b 65 6e 3b 0a 20 20 69 53 74 6f 70 20 3d 20  oken;.  iStop = 
0b50: 69 50 6f 73 20 2b 20 6e 4e 65 61 72 20 2b 20 70  iPos + nNear + p
0b60: 50 72 65 76 2d 3e 6e 54 6f 6b 65 6e 3b 0a 0a 20  Prev->nToken;.. 
0b70: 20 69 66 28 20 69 53 74 61 72 74 3c 30 20 29 20   if( iStart<0 ) 
0b80: 69 53 74 61 72 74 20 3d 20 30 3b 0a 20 20 69 66  iStart = 0;.  if
0b90: 28 20 69 53 74 6f 70 20 3e 20 70 44 6f 63 2d 3e  ( iStop > pDoc->
0ba0: 6e 54 6f 6b 65 6e 20 2d 20 70 2d 3e 6e 54 6f 6b  nToken - p->nTok
0bb0: 65 6e 20 29 20 69 53 74 6f 70 20 3d 20 70 44 6f  en ) iStop = pDo
0bc0: 63 2d 3e 6e 54 6f 6b 65 6e 20 2d 20 70 2d 3e 6e  c->nToken - p->n
0bd0: 54 6f 6b 65 6e 3b 0a 0a 20 20 66 6f 72 28 69 69  Token;..  for(ii
0be0: 3d 69 53 74 61 72 74 3b 20 69 69 3c 3d 69 53 74  =iStart; ii<=iSt
0bf0: 6f 70 3b 20 69 69 2b 2b 29 7b 0a 20 20 20 20 69  op; ii++){.    i
0c00: 66 28 20 6e 6d 5f 70 68 72 61 73 65 5f 6d 61 74  f( nm_phrase_mat
0c10: 63 68 28 70 2c 20 26 70 44 6f 63 2d 3e 61 54 6f  ch(p, &pDoc->aTo
0c20: 6b 65 6e 5b 69 69 5d 29 20 29 7b 0a 20 20 20 20  ken[ii]) ){.    
0c30: 20 20 69 66 28 20 6e 6d 5f 6e 65 61 72 5f 63 68    if( nm_near_ch
0c40: 61 69 6e 28 69 44 69 72 2c 20 70 44 6f 63 2c 20  ain(iDir, pDoc, 
0c50: 69 69 2c 20 6e 50 68 72 61 73 65 2c 20 61 50 68  ii, nPhrase, aPh
0c60: 72 61 73 65 2c 20 69 50 68 72 61 73 65 32 29 20  rase, iPhrase2) 
0c70: 29 20 72 65 74 75 72 6e 20 31 3b 0a 20 20 20 20  ) return 1;.    
0c80: 7d 0a 20 20 7d 0a 0a 20 20 72 65 74 75 72 6e 20  }.  }..  return 
0c90: 30 3b 0a 7d 0a 0a 73 74 61 74 69 63 20 69 6e 74  0;.}..static int
0ca0: 20 6e 6d 5f 6d 61 74 63 68 5f 63 6f 75 6e 74 28   nm_match_count(
0cb0: 0a 20 20 4e 65 61 72 44 6f 63 75 6d 65 6e 74 20  .  NearDocument 
0cc0: 2a 70 44 6f 63 2c 20 20 20 20 20 20 20 20 20 20  *pDoc,          
0cd0: 20 20 20 2f 2a 20 44 6f 63 75 6d 65 6e 74 20 74     /* Document t
0ce0: 6f 20 6d 61 74 63 68 20 61 67 61 69 6e 73 74 20  o match against 
0cf0: 2a 2f 0a 20 20 69 6e 74 20 6e 50 68 72 61 73 65  */.  int nPhrase
0d00: 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ,               
0d10: 20 20 20 20 20 2f 2a 20 53 69 7a 65 20 6f 66 20       /* Size of 
0d20: 70 68 72 61 73 65 20 61 72 72 61 79 20 2a 2f 0a  phrase array */.
0d30: 20 20 4e 65 61 72 50 68 72 61 73 65 20 2a 61 50    NearPhrase *aP
0d40: 68 72 61 73 65 2c 20 20 20 20 20 20 20 20 20 20  hrase,          
0d50: 20 20 2f 2a 20 50 68 72 61 73 65 20 61 72 72 61    /* Phrase arra
0d60: 79 20 2a 2f 0a 20 20 69 6e 74 20 69 50 68 72 61  y */.  int iPhra
0d70: 73 65 20 20 20 20 20 20 20 20 20 20 20 20 20 20  se              
0d80: 20 20 20 20 20 20 20 2f 2a 20 49 6e 64 65 78 20         /* Index 
0d90: 6f 66 20 70 68 72 61 73 65 20 74 6f 20 63 6f 75  of phrase to cou
0da0: 6e 74 20 6d 61 74 63 68 65 73 20 66 6f 72 20 2a  nt matches for *
0db0: 2f 0a 29 7b 0a 20 20 69 6e 74 20 6e 4f 63 63 20  /.){.  int nOcc 
0dc0: 3d 20 30 3b 0a 20 20 69 6e 74 20 69 69 3b 0a 20  = 0;.  int ii;. 
0dd0: 20 4e 65 61 72 50 68 72 61 73 65 20 2a 70 20 3d   NearPhrase *p =
0de0: 20 26 61 50 68 72 61 73 65 5b 69 50 68 72 61 73   &aPhrase[iPhras
0df0: 65 5d 3b 0a 0a 20 20 66 6f 72 28 69 69 3d 30 3b  e];..  for(ii=0;
0e00: 20 69 69 3c 28 70 44 6f 63 2d 3e 6e 54 6f 6b 65   ii<(pDoc->nToke
0e10: 6e 20 2b 20 31 20 2d 20 70 2d 3e 6e 54 6f 6b 65  n + 1 - p->nToke
0e20: 6e 29 3b 20 69 69 2b 2b 29 7b 0a 20 20 20 20 69  n); ii++){.    i
0e30: 66 28 20 6e 6d 5f 70 68 72 61 73 65 5f 6d 61 74  f( nm_phrase_mat
0e40: 63 68 28 70 2c 20 26 70 44 6f 63 2d 3e 61 54 6f  ch(p, &pDoc->aTo
0e50: 6b 65 6e 5b 69 69 5d 29 20 29 7b 0a 20 20 20 20  ken[ii]) ){.    
0e60: 20 20 2f 2a 20 54 65 73 74 20 66 6f 72 77 61 72    /* Test forwar
0e70: 64 20 4e 45 41 52 20 63 68 61 69 6e 20 28 69 3e  d NEAR chain (i>
0e80: 69 50 68 72 61 73 65 29 20 2a 2f 0a 20 20 20 20  iPhrase) */.    
0e90: 20 20 69 66 28 20 30 3d 3d 6e 6d 5f 6e 65 61 72    if( 0==nm_near
0ea0: 5f 63 68 61 69 6e 28 31 2c 20 70 44 6f 63 2c 20  _chain(1, pDoc, 
0eb0: 69 69 2c 20 6e 50 68 72 61 73 65 2c 20 61 50 68  ii, nPhrase, aPh
0ec0: 72 61 73 65 2c 20 69 50 68 72 61 73 65 29 20 29  rase, iPhrase) )
0ed0: 20 63 6f 6e 74 69 6e 75 65 3b 0a 0a 20 20 20 20   continue;..    
0ee0: 20 20 2f 2a 20 54 65 73 74 20 72 65 76 65 72 73    /* Test revers
0ef0: 65 20 4e 45 41 52 20 63 68 61 69 6e 20 28 69 3c  e NEAR chain (i<
0f00: 69 50 68 72 61 73 65 29 20 2a 2f 0a 20 20 20 20  iPhrase) */.    
0f10: 20 20 69 66 28 20 30 3d 3d 6e 6d 5f 6e 65 61 72    if( 0==nm_near
0f20: 5f 63 68 61 69 6e 28 2d 31 2c 20 70 44 6f 63 2c  _chain(-1, pDoc,
0f30: 20 69 69 2c 20 6e 50 68 72 61 73 65 2c 20 61 50   ii, nPhrase, aP
0f40: 68 72 61 73 65 2c 20 69 50 68 72 61 73 65 29 20  hrase, iPhrase) 
0f50: 29 20 63 6f 6e 74 69 6e 75 65 3b 0a 0a 20 20 20  ) continue;..   
0f60: 20 20 20 2f 2a 20 54 68 69 73 20 69 73 20 61 20     /* This is a 
0f70: 72 65 61 6c 20 6d 61 74 63 68 2e 20 49 6e 63 72  real match. Incr
0f80: 65 6d 65 6e 74 20 74 68 65 20 63 6f 75 6e 74 65  ement the counte
0f90: 72 2e 20 2a 2f 0a 20 20 20 20 20 20 6e 4f 63 63  r. */.      nOcc
0fa0: 2b 2b 3b 0a 20 20 20 20 7d 0a 20 20 7d 20 0a 0a  ++;.    }.  } ..
0fb0: 20 20 72 65 74 75 72 6e 20 6e 4f 63 63 3b 0a 7d    return nOcc;.}
0fc0: 0a 0a 2f 2a 0a 2a 2a 20 54 63 6c 63 6d 64 3a 20  ../*.** Tclcmd: 
0fd0: 66 74 73 33 5f 6e 65 61 72 5f 6d 61 74 63 68 20  fts3_near_match 
0fe0: 44 4f 43 55 4d 45 4e 54 20 45 58 50 52 20 3f 4f  DOCUMENT EXPR ?O
0ff0: 50 54 49 4f 4e 53 3f 0a 2a 2f 0a 73 74 61 74 69  PTIONS?.*/.stati
1000: 63 20 69 6e 74 20 66 74 73 33 5f 6e 65 61 72 5f  c int fts3_near_
1010: 6d 61 74 63 68 5f 63 6d 64 28 0a 20 20 43 6c 69  match_cmd(.  Cli
1020: 65 6e 74 44 61 74 61 20 63 6c 69 65 6e 74 44 61  entData clientDa
1030: 74 61 2c 0a 20 20 54 63 6c 5f 49 6e 74 65 72 70  ta,.  Tcl_Interp
1040: 20 2a 69 6e 74 65 72 70 2c 0a 20 20 69 6e 74 20   *interp,.  int 
1050: 6f 62 6a 63 2c 0a 20 20 54 63 6c 5f 4f 62 6a 20  objc,.  Tcl_Obj 
1060: 2a 43 4f 4e 53 54 20 6f 62 6a 76 5b 5d 0a 29 7b  *CONST objv[].){
1070: 0a 20 20 69 6e 74 20 6e 54 6f 74 61 6c 20 3d 20  .  int nTotal = 
1080: 30 3b 0a 20 20 69 6e 74 20 72 63 3b 0a 20 20 69  0;.  int rc;.  i
1090: 6e 74 20 69 69 3b 0a 20 20 69 6e 74 20 6e 50 68  nt ii;.  int nPh
10a0: 72 61 73 65 3b 0a 20 20 4e 65 61 72 50 68 72 61  rase;.  NearPhra
10b0: 73 65 20 2a 61 50 68 72 61 73 65 20 3d 20 30 3b  se *aPhrase = 0;
10c0: 0a 20 20 4e 65 61 72 44 6f 63 75 6d 65 6e 74 20  .  NearDocument 
10d0: 64 6f 63 20 3d 20 7b 30 2c 20 30 7d 3b 0a 20 20  doc = {0, 0};.  
10e0: 54 63 6c 5f 4f 62 6a 20 2a 2a 61 70 44 6f 63 54  Tcl_Obj **apDocT
10f0: 6f 6b 65 6e 3b 0a 20 20 54 63 6c 5f 4f 62 6a 20  oken;.  Tcl_Obj 
1100: 2a 70 52 65 74 3b 0a 20 20 54 63 6c 5f 4f 62 6a  *pRet;.  Tcl_Obj
1110: 20 2a 70 50 68 72 61 73 65 63 6f 75 6e 74 20 3d   *pPhrasecount =
1120: 20 30 3b 0a 20 20 0a 20 20 54 63 6c 5f 4f 62 6a   0;.  .  Tcl_Obj
1130: 20 2a 2a 61 70 45 78 70 72 54 6f 6b 65 6e 3b 0a   **apExprToken;.
1140: 20 20 69 6e 74 20 6e 45 78 70 72 54 6f 6b 65 6e    int nExprToken
1150: 3b 0a 0a 20 20 2f 2a 20 4d 75 73 74 20 68 61 76  ;..  /* Must hav
1160: 65 20 33 20 6f 72 20 6d 6f 72 65 20 61 72 67 75  e 3 or more argu
1170: 6d 65 6e 74 73 2e 20 2a 2f 0a 20 20 69 66 28 20  ments. */.  if( 
1180: 6f 62 6a 63 3c 33 20 7c 7c 20 28 6f 62 6a 63 25  objc<3 || (objc%
1190: 32 29 3d 3d 30 20 29 7b 0a 20 20 20 20 54 63 6c  2)==0 ){.    Tcl
11a0: 5f 57 72 6f 6e 67 4e 75 6d 41 72 67 73 28 69 6e  _WrongNumArgs(in
11b0: 74 65 72 70 2c 20 31 2c 20 6f 62 6a 76 2c 20 22  terp, 1, objv, "
11c0: 44 4f 43 55 4d 45 4e 54 20 45 58 50 52 20 3f 4f  DOCUMENT EXPR ?O
11d0: 50 54 49 4f 4e 20 56 41 4c 55 45 3f 2e 2e 2e 22  PTION VALUE?..."
11e0: 29 3b 0a 20 20 20 20 72 63 20 3d 20 54 43 4c 5f  );.    rc = TCL_
11f0: 45 52 52 4f 52 3b 0a 20 20 20 20 67 6f 74 6f 20  ERROR;.    goto 
1200: 6e 65 61 72 5f 6d 61 74 63 68 5f 6f 75 74 3b 0a  near_match_out;.
1210: 20 20 7d 0a 0a 20 20 66 6f 72 28 69 69 3d 33 3b    }..  for(ii=3;
1220: 20 69 69 3c 6f 62 6a 63 3b 20 69 69 2b 3d 32 29   ii<objc; ii+=2)
1230: 7b 0a 20 20 20 20 65 6e 75 6d 20 4e 4d 5f 65 6e  {.    enum NM_en
1240: 75 6d 20 7b 20 4e 4d 5f 50 48 52 41 53 45 43 4f  um { NM_PHRASECO
1250: 55 4e 54 53 20 7d 3b 0a 20 20 20 20 73 74 72 75  UNTS };.    stru
1260: 63 74 20 54 65 73 74 6e 6d 53 75 62 63 6d 64 20  ct TestnmSubcmd 
1270: 7b 0a 20 20 20 20 20 20 63 68 61 72 20 2a 7a 4e  {.      char *zN
1280: 61 6d 65 3b 0a 20 20 20 20 20 20 65 6e 75 6d 20  ame;.      enum 
1290: 4e 4d 5f 65 6e 75 6d 20 65 4f 70 74 3b 0a 20 20  NM_enum eOpt;.  
12a0: 20 20 7d 20 61 4f 70 74 5b 5d 20 3d 20 7b 0a 20    } aOpt[] = {. 
12b0: 20 20 20 20 20 7b 20 22 2d 70 68 72 61 73 65 63       { "-phrasec
12c0: 6f 75 6e 74 76 61 72 22 2c 20 4e 4d 5f 50 48 52  ountvar", NM_PHR
12d0: 41 53 45 43 4f 55 4e 54 53 20 7d 2c 0a 20 20 20  ASECOUNTS },.   
12e0: 20 20 20 7b 20 30 2c 20 30 20 7d 0a 20 20 20 20     { 0, 0 }.    
12f0: 7d 3b 0a 20 20 20 20 69 6e 74 20 69 4f 70 74 3b  };.    int iOpt;
1300: 0a 20 20 20 20 69 66 28 20 54 63 6c 5f 47 65 74  .    if( Tcl_Get
1310: 49 6e 64 65 78 46 72 6f 6d 4f 62 6a 53 74 72 75  IndexFromObjStru
1320: 63 74 28 0a 20 20 20 20 20 20 20 20 69 6e 74 65  ct(.        inte
1330: 72 70 2c 20 6f 62 6a 76 5b 69 69 5d 2c 20 61 4f  rp, objv[ii], aO
1340: 70 74 2c 20 73 69 7a 65 6f 66 28 61 4f 70 74 5b  pt, sizeof(aOpt[
1350: 30 5d 29 2c 20 22 6f 70 74 69 6f 6e 22 2c 20 30  0]), "option", 0
1360: 2c 20 26 69 4f 70 74 29 20 0a 20 20 20 20 29 7b  , &iOpt) .    ){
1370: 0a 20 20 20 20 20 20 72 65 74 75 72 6e 20 54 43  .      return TC
1380: 4c 5f 45 52 52 4f 52 3b 0a 20 20 20 20 7d 0a 0a  L_ERROR;.    }..
1390: 20 20 20 20 73 77 69 74 63 68 28 20 61 4f 70 74      switch( aOpt
13a0: 5b 69 4f 70 74 5d 2e 65 4f 70 74 20 29 7b 0a 20  [iOpt].eOpt ){. 
13b0: 20 20 20 20 20 63 61 73 65 20 4e 4d 5f 50 48 52       case NM_PHR
13c0: 41 53 45 43 4f 55 4e 54 53 3a 0a 20 20 20 20 20  ASECOUNTS:.     
13d0: 20 20 20 70 50 68 72 61 73 65 63 6f 75 6e 74 20     pPhrasecount 
13e0: 3d 20 6f 62 6a 76 5b 69 69 2b 31 5d 3b 0a 20 20  = objv[ii+1];.  
13f0: 20 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20        break;.   
1400: 20 7d 0a 20 20 7d 0a 0a 20 20 72 63 20 3d 20 54   }.  }..  rc = T
1410: 63 6c 5f 4c 69 73 74 4f 62 6a 47 65 74 45 6c 65  cl_ListObjGetEle
1420: 6d 65 6e 74 73 28 69 6e 74 65 72 70 2c 20 6f 62  ments(interp, ob
1430: 6a 76 5b 31 5d 2c 20 26 64 6f 63 2e 6e 54 6f 6b  jv[1], &doc.nTok
1440: 65 6e 2c 20 26 61 70 44 6f 63 54 6f 6b 65 6e 29  en, &apDocToken)
1450: 3b 0a 20 20 69 66 28 20 72 63 21 3d 54 43 4c 5f  ;.  if( rc!=TCL_
1460: 4f 4b 20 29 20 67 6f 74 6f 20 6e 65 61 72 5f 6d  OK ) goto near_m
1470: 61 74 63 68 5f 6f 75 74 3b 0a 20 20 64 6f 63 2e  atch_out;.  doc.
1480: 61 54 6f 6b 65 6e 20 3d 20 28 4e 65 61 72 54 6f  aToken = (NearTo
1490: 6b 65 6e 20 2a 29 63 6b 61 6c 6c 6f 63 28 64 6f  ken *)ckalloc(do
14a0: 63 2e 6e 54 6f 6b 65 6e 2a 73 69 7a 65 6f 66 28  c.nToken*sizeof(
14b0: 4e 65 61 72 54 6f 6b 65 6e 29 29 3b 0a 20 20 66  NearToken));.  f
14c0: 6f 72 28 69 69 3d 30 3b 20 69 69 3c 64 6f 63 2e  or(ii=0; ii<doc.
14d0: 6e 54 6f 6b 65 6e 3b 20 69 69 2b 2b 29 7b 0a 20  nToken; ii++){. 
14e0: 20 20 20 64 6f 63 2e 61 54 6f 6b 65 6e 5b 69 69     doc.aToken[ii
14f0: 5d 2e 7a 20 3d 20 54 63 6c 5f 47 65 74 53 74 72  ].z = Tcl_GetStr
1500: 69 6e 67 46 72 6f 6d 4f 62 6a 28 61 70 44 6f 63  ingFromObj(apDoc
1510: 54 6f 6b 65 6e 5b 69 69 5d 2c 20 26 64 6f 63 2e  Token[ii], &doc.
1520: 61 54 6f 6b 65 6e 5b 69 69 5d 2e 6e 29 3b 0a 20  aToken[ii].n);. 
1530: 20 7d 0a 0a 20 20 72 63 20 3d 20 54 63 6c 5f 4c   }..  rc = Tcl_L
1540: 69 73 74 4f 62 6a 47 65 74 45 6c 65 6d 65 6e 74  istObjGetElement
1550: 73 28 69 6e 74 65 72 70 2c 20 6f 62 6a 76 5b 32  s(interp, objv[2
1560: 5d 2c 20 26 6e 45 78 70 72 54 6f 6b 65 6e 2c 20  ], &nExprToken, 
1570: 26 61 70 45 78 70 72 54 6f 6b 65 6e 29 3b 0a 20  &apExprToken);. 
1580: 20 69 66 28 20 72 63 21 3d 54 43 4c 5f 4f 4b 20   if( rc!=TCL_OK 
1590: 29 20 67 6f 74 6f 20 6e 65 61 72 5f 6d 61 74 63  ) goto near_matc
15a0: 68 5f 6f 75 74 3b 0a 0a 20 20 6e 50 68 72 61 73  h_out;..  nPhras
15b0: 65 20 3d 20 28 6e 45 78 70 72 54 6f 6b 65 6e 20  e = (nExprToken 
15c0: 2b 20 31 29 20 2f 20 32 3b 0a 20 20 61 50 68 72  + 1) / 2;.  aPhr
15d0: 61 73 65 20 3d 20 28 4e 65 61 72 50 68 72 61 73  ase = (NearPhras
15e0: 65 20 2a 29 63 6b 61 6c 6c 6f 63 28 6e 50 68 72  e *)ckalloc(nPhr
15f0: 61 73 65 20 2a 20 73 69 7a 65 6f 66 28 4e 65 61  ase * sizeof(Nea
1600: 72 50 68 72 61 73 65 29 29 3b 0a 20 20 6d 65 6d  rPhrase));.  mem
1610: 73 65 74 28 61 50 68 72 61 73 65 2c 20 30 2c 20  set(aPhrase, 0, 
1620: 6e 50 68 72 61 73 65 20 2a 20 73 69 7a 65 6f 66  nPhrase * sizeof
1630: 28 4e 65 61 72 50 68 72 61 73 65 29 29 3b 0a 20  (NearPhrase));. 
1640: 20 66 6f 72 28 69 69 3d 30 3b 20 69 69 3c 6e 50   for(ii=0; ii<nP
1650: 68 72 61 73 65 3b 20 69 69 2b 2b 29 7b 0a 20 20  hrase; ii++){.  
1660: 20 20 54 63 6c 5f 4f 62 6a 20 2a 70 50 68 72 61    Tcl_Obj *pPhra
1670: 73 65 20 3d 20 61 70 45 78 70 72 54 6f 6b 65 6e  se = apExprToken
1680: 5b 69 69 2a 32 5d 3b 0a 20 20 20 20 54 63 6c 5f  [ii*2];.    Tcl_
1690: 4f 62 6a 20 2a 2a 61 70 54 6f 6b 65 6e 3b 0a 20  Obj **apToken;. 
16a0: 20 20 20 69 6e 74 20 6e 54 6f 6b 65 6e 3b 0a 20     int nToken;. 
16b0: 20 20 20 69 6e 74 20 6a 6a 3b 0a 0a 20 20 20 20     int jj;..    
16c0: 72 63 20 3d 20 54 63 6c 5f 4c 69 73 74 4f 62 6a  rc = Tcl_ListObj
16d0: 47 65 74 45 6c 65 6d 65 6e 74 73 28 69 6e 74 65  GetElements(inte
16e0: 72 70 2c 20 70 50 68 72 61 73 65 2c 20 26 6e 54  rp, pPhrase, &nT
16f0: 6f 6b 65 6e 2c 20 26 61 70 54 6f 6b 65 6e 29 3b  oken, &apToken);
1700: 0a 20 20 20 20 69 66 28 20 72 63 21 3d 54 43 4c  .    if( rc!=TCL
1710: 5f 4f 4b 20 29 20 67 6f 74 6f 20 6e 65 61 72 5f  _OK ) goto near_
1720: 6d 61 74 63 68 5f 6f 75 74 3b 0a 20 20 20 20 69  match_out;.    i
1730: 66 28 20 6e 54 6f 6b 65 6e 3e 4e 4d 5f 4d 41 58  f( nToken>NM_MAX
1740: 5f 54 4f 4b 45 4e 20 29 7b 0a 20 20 20 20 20 20  _TOKEN ){.      
1750: 54 63 6c 5f 41 70 70 65 6e 64 52 65 73 75 6c 74  Tcl_AppendResult
1760: 28 69 6e 74 65 72 70 2c 20 22 54 6f 6f 20 6d 61  (interp, "Too ma
1770: 6e 79 20 74 6f 6b 65 6e 73 20 69 6e 20 70 68 72  ny tokens in phr
1780: 61 73 65 22 2c 20 30 29 3b 0a 20 20 20 20 20 20  ase", 0);.      
1790: 72 63 20 3d 20 54 43 4c 5f 45 52 52 4f 52 3b 0a  rc = TCL_ERROR;.
17a0: 20 20 20 20 20 20 67 6f 74 6f 20 6e 65 61 72 5f        goto near_
17b0: 6d 61 74 63 68 5f 6f 75 74 3b 0a 20 20 20 20 7d  match_out;.    }
17c0: 0a 20 20 20 20 66 6f 72 28 6a 6a 3d 30 3b 20 6a  .    for(jj=0; j
17d0: 6a 3c 6e 54 6f 6b 65 6e 3b 20 6a 6a 2b 2b 29 7b  j<nToken; jj++){
17e0: 0a 20 20 20 20 20 20 4e 65 61 72 54 6f 6b 65 6e  .      NearToken
17f0: 20 2a 70 54 20 3d 20 26 61 50 68 72 61 73 65 5b   *pT = &aPhrase[
1800: 69 69 5d 2e 61 54 6f 6b 65 6e 5b 6a 6a 5d 3b 0a  ii].aToken[jj];.
1810: 20 20 20 20 20 20 70 54 2d 3e 7a 20 3d 20 54 63        pT->z = Tc
1820: 6c 5f 47 65 74 53 74 72 69 6e 67 46 72 6f 6d 4f  l_GetStringFromO
1830: 62 6a 28 61 70 54 6f 6b 65 6e 5b 6a 6a 5d 2c 20  bj(apToken[jj], 
1840: 26 70 54 2d 3e 6e 29 3b 0a 20 20 20 20 7d 0a 20  &pT->n);.    }. 
1850: 20 20 20 61 50 68 72 61 73 65 5b 69 69 5d 2e 6e     aPhrase[ii].n
1860: 54 6f 6b 65 6e 20 3d 20 6e 54 6f 6b 65 6e 3b 0a  Token = nToken;.
1870: 20 20 7d 0a 20 20 66 6f 72 28 69 69 3d 31 3b 20    }.  for(ii=1; 
1880: 69 69 3c 6e 50 68 72 61 73 65 3b 20 69 69 2b 2b  ii<nPhrase; ii++
1890: 29 7b 0a 20 20 20 20 54 63 6c 5f 4f 62 6a 20 2a  ){.    Tcl_Obj *
18a0: 70 4e 65 61 72 20 3d 20 61 70 45 78 70 72 54 6f  pNear = apExprTo
18b0: 6b 65 6e 5b 32 2a 69 69 2d 31 5d 3b 0a 20 20 20  ken[2*ii-1];.   
18c0: 20 69 6e 74 20 6e 4e 65 61 72 3b 0a 20 20 20 20   int nNear;.    
18d0: 72 63 20 3d 20 54 63 6c 5f 47 65 74 49 6e 74 46  rc = Tcl_GetIntF
18e0: 72 6f 6d 4f 62 6a 28 69 6e 74 65 72 70 2c 20 70  romObj(interp, p
18f0: 4e 65 61 72 2c 20 26 6e 4e 65 61 72 29 3b 0a 20  Near, &nNear);. 
1900: 20 20 20 69 66 28 20 72 63 21 3d 54 43 4c 5f 4f     if( rc!=TCL_O
1910: 4b 20 29 20 67 6f 74 6f 20 6e 65 61 72 5f 6d 61  K ) goto near_ma
1920: 74 63 68 5f 6f 75 74 3b 0a 20 20 20 20 61 50 68  tch_out;.    aPh
1930: 72 61 73 65 5b 69 69 5d 2e 6e 4e 65 61 72 20 3d  rase[ii].nNear =
1940: 20 6e 4e 65 61 72 3b 0a 20 20 7d 0a 0a 20 20 70   nNear;.  }..  p
1950: 52 65 74 20 3d 20 54 63 6c 5f 4e 65 77 4f 62 6a  Ret = Tcl_NewObj
1960: 28 29 3b 0a 20 20 54 63 6c 5f 49 6e 63 72 52 65  ();.  Tcl_IncrRe
1970: 66 43 6f 75 6e 74 28 70 52 65 74 29 3b 0a 20 20  fCount(pRet);.  
1980: 66 6f 72 28 69 69 3d 30 3b 20 69 69 3c 6e 50 68  for(ii=0; ii<nPh
1990: 72 61 73 65 3b 20 69 69 2b 2b 29 7b 0a 20 20 20  rase; ii++){.   
19a0: 20 69 6e 74 20 6e 4f 63 63 20 3d 20 6e 6d 5f 6d   int nOcc = nm_m
19b0: 61 74 63 68 5f 63 6f 75 6e 74 28 26 64 6f 63 2c  atch_count(&doc,
19c0: 20 6e 50 68 72 61 73 65 2c 20 61 50 68 72 61 73   nPhrase, aPhras
19d0: 65 2c 20 69 69 29 3b 0a 20 20 20 20 54 63 6c 5f  e, ii);.    Tcl_
19e0: 4c 69 73 74 4f 62 6a 41 70 70 65 6e 64 45 6c 65  ListObjAppendEle
19f0: 6d 65 6e 74 28 69 6e 74 65 72 70 2c 20 70 52 65  ment(interp, pRe
1a00: 74 2c 20 54 63 6c 5f 4e 65 77 49 6e 74 4f 62 6a  t, Tcl_NewIntObj
1a10: 28 6e 4f 63 63 29 29 3b 0a 20 20 20 20 6e 54 6f  (nOcc));.    nTo
1a20: 74 61 6c 20 2b 3d 20 6e 4f 63 63 3b 0a 20 20 7d  tal += nOcc;.  }
1a30: 0a 20 20 69 66 28 20 70 50 68 72 61 73 65 63 6f  .  if( pPhraseco
1a40: 75 6e 74 20 29 7b 0a 20 20 20 20 54 63 6c 5f 4f  unt ){.    Tcl_O
1a50: 62 6a 53 65 74 56 61 72 32 28 69 6e 74 65 72 70  bjSetVar2(interp
1a60: 2c 20 70 50 68 72 61 73 65 63 6f 75 6e 74 2c 20  , pPhrasecount, 
1a70: 30 2c 20 70 52 65 74 2c 20 30 29 3b 0a 20 20 7d  0, pRet, 0);.  }
1a80: 0a 20 20 54 63 6c 5f 44 65 63 72 52 65 66 43 6f  .  Tcl_DecrRefCo
1a90: 75 6e 74 28 70 52 65 74 29 3b 0a 20 20 54 63 6c  unt(pRet);.  Tcl
1aa0: 5f 53 65 74 4f 62 6a 52 65 73 75 6c 74 28 69 6e  _SetObjResult(in
1ab0: 74 65 72 70 2c 20 54 63 6c 5f 4e 65 77 42 6f 6f  terp, Tcl_NewBoo
1ac0: 6c 65 61 6e 4f 62 6a 28 6e 54 6f 74 61 6c 3e 30  leanObj(nTotal>0
1ad0: 29 29 3b 0a 0a 20 6e 65 61 72 5f 6d 61 74 63 68  ));.. near_match
1ae0: 5f 6f 75 74 3a 20 0a 20 20 63 6b 66 72 65 65 28  _out: .  ckfree(
1af0: 28 63 68 61 72 20 2a 29 61 50 68 72 61 73 65 29  (char *)aPhrase)
1b00: 3b 0a 20 20 63 6b 66 72 65 65 28 28 63 68 61 72  ;.  ckfree((char
1b10: 20 2a 29 64 6f 63 2e 61 54 6f 6b 65 6e 29 3b 0a   *)doc.aToken);.
1b20: 20 20 72 65 74 75 72 6e 20 72 63 3b 0a 7d 0a 0a    return rc;.}..
1b30: 2f 2a 0a 2a 2a 20 20 20 54 63 6c 63 6d 64 3a 20  /*.**   Tclcmd: 
1b40: 66 74 73 33 5f 63 6f 6e 66 69 67 75 72 65 5f 69  fts3_configure_i
1b50: 6e 63 72 5f 6c 6f 61 64 20 3f 43 48 55 4e 4b 53  ncr_load ?CHUNKS
1b60: 49 5a 45 20 54 48 52 45 53 48 4f 4c 44 3f 0a 2a  IZE THRESHOLD?.*
1b70: 2a 0a 2a 2a 20 4e 6f 72 6d 61 6c 6c 79 2c 20 46  *.** Normally, F
1b80: 54 53 20 75 73 65 73 20 68 61 72 64 2d 63 6f 64  TS uses hard-cod
1b90: 65 64 20 76 61 6c 75 65 73 20 74 6f 20 64 65 74  ed values to det
1ba0: 65 72 6d 69 6e 65 20 74 68 65 20 6d 69 6e 69 6d  ermine the minim
1bb0: 75 6d 20 64 6f 63 6c 69 73 74 0a 2a 2a 20 73 69  um doclist.** si
1bc0: 7a 65 20 65 6c 69 67 69 62 6c 65 20 66 6f 72 20  ze eligible for 
1bd0: 69 6e 63 72 65 6d 65 6e 74 61 6c 20 6c 6f 61 64  incremental load
1be0: 69 6e 67 2c 20 61 6e 64 20 74 68 65 20 73 69 7a  ing, and the siz
1bf0: 65 20 6f 66 20 74 68 65 20 63 68 75 6e 6b 73 20  e of the chunks 
1c00: 6c 6f 61 64 65 64 0a 2a 2a 20 77 68 65 6e 20 61  loaded.** when a
1c10: 20 64 6f 63 6c 69 73 74 20 69 73 20 69 6e 63 72   doclist is incr
1c20: 65 6d 65 6e 74 61 6c 6c 79 20 6c 6f 61 64 65 64  ementally loaded
1c30: 2e 20 54 68 69 73 20 63 6f 6d 6d 61 6e 64 20 61  . This command a
1c40: 6c 6c 6f 77 73 20 74 68 65 20 62 75 69 6c 74 2d  llows the built-
1c50: 69 6e 0a 2a 2a 20 76 61 6c 75 65 73 20 74 6f 20  in.** values to 
1c60: 62 65 20 6f 76 65 72 72 69 64 64 65 6e 20 66 6f  be overridden fo
1c70: 72 20 74 65 73 74 69 6e 67 20 70 75 72 70 6f 73  r testing purpos
1c80: 65 73 2e 0a 2a 2a 0a 2a 2a 20 49 66 20 70 72 65  es..**.** If pre
1c90: 73 65 6e 74 2c 20 74 68 65 20 66 69 72 73 74 20  sent, the first 
1ca0: 61 72 67 75 6d 65 6e 74 20 69 73 20 74 68 65 20  argument is the 
1cb0: 63 68 75 6e 6b 73 69 7a 65 20 69 6e 20 62 79 74  chunksize in byt
1cc0: 65 73 20 74 6f 20 6c 6f 61 64 20 64 6f 63 6c 69  es to load docli
1cd0: 73 74 73 0a 2a 2a 20 69 6e 2e 20 54 68 65 20 73  sts.** in. The s
1ce0: 65 63 6f 6e 64 20 61 72 67 75 6d 65 6e 74 20 69  econd argument i
1cf0: 73 20 74 68 65 20 6d 69 6e 69 6d 75 6d 20 64 6f  s the minimum do
1d00: 63 6c 69 73 74 20 73 69 7a 65 20 69 6e 20 62 79  clist size in by
1d10: 74 65 73 20 74 6f 20 75 73 65 0a 2a 2a 20 69 6e  tes to use.** in
1d20: 63 72 65 6d 65 6e 74 61 6c 20 6c 6f 61 64 69 6e  cremental loadin
1d30: 67 20 77 69 74 68 2e 0a 2a 2a 0a 2a 2a 20 57 68  g with..**.** Wh
1d40: 65 74 68 65 72 20 6f 72 20 6e 6f 74 20 74 68 65  ether or not the
1d50: 20 61 72 67 75 6d 65 6e 74 73 20 61 72 65 20 70   arguments are p
1d60: 72 65 73 65 6e 74 2c 20 74 68 69 73 20 63 6f 6d  resent, this com
1d70: 6d 61 6e 64 20 72 65 74 75 72 6e 73 20 61 20 6c  mand returns a l
1d80: 69 73 74 20 6f 66 0a 2a 2a 20 74 77 6f 20 69 6e  ist of.** two in
1d90: 74 65 67 65 72 73 20 2d 20 74 68 65 20 69 6e 69  tegers - the ini
1da0: 74 69 61 6c 20 63 68 75 6e 6b 73 69 7a 65 20 61  tial chunksize a
1db0: 6e 64 20 74 68 72 65 73 68 6f 6c 64 20 77 68 65  nd threshold whe
1dc0: 6e 20 74 68 65 20 63 6f 6d 6d 61 6e 64 20 69 73  n the command is
1dd0: 0a 2a 2a 20 69 6e 76 6f 6b 65 64 2e 20 54 68 69  .** invoked. Thi
1de0: 73 20 63 61 6e 20 62 65 20 75 73 65 64 20 74 6f  s can be used to
1df0: 20 72 65 73 74 6f 72 65 20 74 68 65 20 64 65 66   restore the def
1e00: 61 75 6c 74 20 62 65 68 61 76 69 6f 75 72 20 61  ault behaviour a
1e10: 66 74 65 72 20 72 75 6e 6e 69 6e 67 0a 2a 2a 20  fter running.** 
1e20: 74 65 73 74 73 2e 20 46 6f 72 20 65 78 61 6d 70  tests. For examp
1e30: 6c 65 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 23 20 4f  le:.**.**    # O
1e40: 76 65 72 72 69 64 65 20 69 6e 63 72 2d 6c 6f 61  verride incr-loa
1e50: 64 20 73 65 74 74 69 6e 67 73 20 66 6f 72 20 74  d settings for t
1e60: 65 73 74 69 6e 67 3a 0a 2a 2a 20 20 20 20 73 65  esting:.**    se
1e70: 74 20 63 66 67 20 5b 66 74 73 33 5f 63 6f 6e 66  t cfg [fts3_conf
1e80: 69 67 75 72 65 5f 69 6e 63 72 5f 6c 6f 61 64 20  igure_incr_load 
1e90: 24 6e 65 77 5f 63 68 75 6e 6b 73 69 7a 65 20 24  $new_chunksize $
1ea0: 6e 65 77 5f 74 68 72 65 73 68 6f 6c 64 5d 0a 2a  new_threshold].*
1eb0: 2a 0a 2a 2a 20 20 20 20 2e 2e 2e 2e 20 72 75 6e  *.**    .... run
1ec0: 20 74 65 73 74 73 20 2e 2e 2e 2e 0a 2a 2a 0a 2a   tests .....**.*
1ed0: 2a 20 20 20 20 23 20 52 65 73 74 6f 72 65 20 69  *    # Restore i
1ee0: 6e 69 74 69 61 6c 20 69 6e 63 72 2d 6c 6f 61 64  nitial incr-load
1ef0: 20 73 65 74 74 69 6e 67 73 3a 0a 2a 2a 20 20 20   settings:.**   
1f00: 20 65 76 61 6c 20 66 74 73 33 5f 63 6f 6e 66 69   eval fts3_confi
1f10: 67 75 72 65 5f 69 6e 63 72 5f 6c 6f 61 64 20 24  gure_incr_load $
1f20: 63 66 67 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  cfg.*/.static in
1f30: 74 20 66 74 73 33 5f 63 6f 6e 66 69 67 75 72 65  t fts3_configure
1f40: 5f 69 6e 63 72 5f 6c 6f 61 64 5f 63 6d 64 28 0a  _incr_load_cmd(.
1f50: 20 20 43 6c 69 65 6e 74 44 61 74 61 20 63 6c 69    ClientData cli
1f60: 65 6e 74 44 61 74 61 2c 0a 20 20 54 63 6c 5f 49  entData,.  Tcl_I
1f70: 6e 74 65 72 70 20 2a 69 6e 74 65 72 70 2c 0a 20  nterp *interp,. 
1f80: 20 69 6e 74 20 6f 62 6a 63 2c 0a 20 20 54 63 6c   int objc,.  Tcl
1f90: 5f 4f 62 6a 20 2a 43 4f 4e 53 54 20 6f 62 6a 76  _Obj *CONST objv
1fa0: 5b 5d 0a 29 7b 0a 23 69 66 64 65 66 20 53 51 4c  [].){.#ifdef SQL
1fb0: 49 54 45 5f 45 4e 41 42 4c 45 5f 46 54 53 33 0a  ITE_ENABLE_FTS3.
1fc0: 20 20 65 78 74 65 72 6e 20 69 6e 74 20 74 65 73    extern int tes
1fd0: 74 5f 66 74 73 33 5f 6e 6f 64 65 5f 63 68 75 6e  t_fts3_node_chun
1fe0: 6b 73 69 7a 65 3b 0a 20 20 65 78 74 65 72 6e 20  ksize;.  extern 
1ff0: 69 6e 74 20 74 65 73 74 5f 66 74 73 33 5f 6e 6f  int test_fts3_no
2000: 64 65 5f 63 68 75 6e 6b 5f 74 68 72 65 73 68 6f  de_chunk_thresho
2010: 6c 64 3b 0a 20 20 54 63 6c 5f 4f 62 6a 20 2a 70  ld;.  Tcl_Obj *p
2020: 52 65 74 3b 0a 0a 20 20 69 66 28 20 6f 62 6a 63  Ret;..  if( objc
2030: 21 3d 31 20 26 26 20 6f 62 6a 63 21 3d 33 20 29  !=1 && objc!=3 )
2040: 7b 0a 20 20 20 20 54 63 6c 5f 57 72 6f 6e 67 4e  {.    Tcl_WrongN
2050: 75 6d 41 72 67 73 28 69 6e 74 65 72 70 2c 20 31  umArgs(interp, 1
2060: 2c 20 6f 62 6a 76 2c 20 22 3f 43 48 55 4e 4b 53  , objv, "?CHUNKS
2070: 49 5a 45 20 54 48 52 45 53 48 4f 4c 44 3f 22 29  IZE THRESHOLD?")
2080: 3b 0a 20 20 20 20 72 65 74 75 72 6e 20 54 43 4c  ;.    return TCL
2090: 5f 45 52 52 4f 52 3b 0a 20 20 7d 0a 0a 20 20 70  _ERROR;.  }..  p
20a0: 52 65 74 20 3d 20 54 63 6c 5f 4e 65 77 4f 62 6a  Ret = Tcl_NewObj
20b0: 28 29 3b 0a 20 20 54 63 6c 5f 49 6e 63 72 52 65  ();.  Tcl_IncrRe
20c0: 66 43 6f 75 6e 74 28 70 52 65 74 29 3b 0a 20 20  fCount(pRet);.  
20d0: 54 63 6c 5f 4c 69 73 74 4f 62 6a 41 70 70 65 6e  Tcl_ListObjAppen
20e0: 64 45 6c 65 6d 65 6e 74 28 0a 20 20 20 20 20 20  dElement(.      
20f0: 69 6e 74 65 72 70 2c 20 70 52 65 74 2c 20 54 63  interp, pRet, Tc
2100: 6c 5f 4e 65 77 49 6e 74 4f 62 6a 28 74 65 73 74  l_NewIntObj(test
2110: 5f 66 74 73 33 5f 6e 6f 64 65 5f 63 68 75 6e 6b  _fts3_node_chunk
2120: 73 69 7a 65 29 29 3b 0a 20 20 54 63 6c 5f 4c 69  size));.  Tcl_Li
2130: 73 74 4f 62 6a 41 70 70 65 6e 64 45 6c 65 6d 65  stObjAppendEleme
2140: 6e 74 28 0a 20 20 20 20 20 20 69 6e 74 65 72 70  nt(.      interp
2150: 2c 20 70 52 65 74 2c 20 54 63 6c 5f 4e 65 77 49  , pRet, Tcl_NewI
2160: 6e 74 4f 62 6a 28 74 65 73 74 5f 66 74 73 33 5f  ntObj(test_fts3_
2170: 6e 6f 64 65 5f 63 68 75 6e 6b 5f 74 68 72 65 73  node_chunk_thres
2180: 68 6f 6c 64 29 29 3b 0a 0a 20 20 69 66 28 20 6f  hold));..  if( o
2190: 62 6a 63 3d 3d 33 20 29 7b 0a 20 20 20 20 69 6e  bjc==3 ){.    in
21a0: 74 20 69 41 72 67 31 3b 0a 20 20 20 20 69 6e 74  t iArg1;.    int
21b0: 20 69 41 72 67 32 3b 0a 20 20 20 20 69 66 28 20   iArg2;.    if( 
21c0: 54 63 6c 5f 47 65 74 49 6e 74 46 72 6f 6d 4f 62  Tcl_GetIntFromOb
21d0: 6a 28 69 6e 74 65 72 70 2c 20 6f 62 6a 76 5b 31  j(interp, objv[1
21e0: 5d 2c 20 26 69 41 72 67 31 29 0a 20 20 20 20 20  ], &iArg1).     
21f0: 7c 7c 20 54 63 6c 5f 47 65 74 49 6e 74 46 72 6f  || Tcl_GetIntFro
2200: 6d 4f 62 6a 28 69 6e 74 65 72 70 2c 20 6f 62 6a  mObj(interp, obj
2210: 76 5b 32 5d 2c 20 26 69 41 72 67 32 29 0a 20 20  v[2], &iArg2).  
2220: 20 20 29 7b 0a 20 20 20 20 20 20 54 63 6c 5f 44    ){.      Tcl_D
2230: 65 63 72 52 65 66 43 6f 75 6e 74 28 70 52 65 74  ecrRefCount(pRet
2240: 29 3b 0a 20 20 20 20 20 20 72 65 74 75 72 6e 20  );.      return 
2250: 54 43 4c 5f 45 52 52 4f 52 3b 0a 20 20 20 20 7d  TCL_ERROR;.    }
2260: 0a 20 20 20 20 74 65 73 74 5f 66 74 73 33 5f 6e  .    test_fts3_n
2270: 6f 64 65 5f 63 68 75 6e 6b 73 69 7a 65 20 3d 20  ode_chunksize = 
2280: 69 41 72 67 31 3b 0a 20 20 20 20 74 65 73 74 5f  iArg1;.    test_
2290: 66 74 73 33 5f 6e 6f 64 65 5f 63 68 75 6e 6b 5f  fts3_node_chunk_
22a0: 74 68 72 65 73 68 6f 6c 64 20 3d 20 69 41 72 67  threshold = iArg
22b0: 32 3b 0a 20 20 7d 0a 0a 20 20 54 63 6c 5f 53 65  2;.  }..  Tcl_Se
22c0: 74 4f 62 6a 52 65 73 75 6c 74 28 69 6e 74 65 72  tObjResult(inter
22d0: 70 2c 20 70 52 65 74 29 3b 0a 20 20 54 63 6c 5f  p, pRet);.  Tcl_
22e0: 44 65 63 72 52 65 66 43 6f 75 6e 74 28 70 52 65  DecrRefCount(pRe
22f0: 74 29 3b 0a 23 65 6e 64 69 66 0a 20 20 72 65 74  t);.#endif.  ret
2300: 75 72 6e 20 54 43 4c 5f 4f 4b 3b 0a 7d 0a 0a 23  urn TCL_OK;.}..#
2310: 69 66 64 65 66 20 53 51 4c 49 54 45 5f 45 4e 41  ifdef SQLITE_ENA
2320: 42 4c 45 5f 46 54 53 33 0a 2f 2a 2a 2a 2a 2a 2a  BLE_FTS3./******
2330: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
2340: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
2350: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
2360: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
2370: 2a 2a 2a 2a 0a 2a 2a 20 42 65 67 69 6e 6e 69 6e  ****.** Beginnin
2380: 67 20 6f 66 20 74 65 73 74 20 74 6f 6b 65 6e 69  g of test tokeni
2390: 7a 65 72 20 63 6f 64 65 2e 0a 2a 2a 0a 2a 2a 20  zer code..**.** 
23a0: 46 6f 72 20 6c 61 6e 67 75 61 67 65 20 30 2c 20  For language 0, 
23b0: 74 68 69 73 20 74 6f 6b 65 6e 69 7a 65 72 20 69  this tokenizer i
23c0: 73 20 73 69 6d 69 6c 61 72 20 74 6f 20 74 68 65  s similar to the
23d0: 20 64 65 66 61 75 6c 74 20 27 73 69 6d 70 6c 65   default 'simple
23e0: 27 20 0a 2a 2a 20 74 6f 6b 65 6e 69 7a 65 72 2e  ' .** tokenizer.
23f0: 20 46 6f 72 20 6f 74 68 65 72 20 6c 61 6e 67 75   For other langu
2400: 61 67 65 73 20 4c 2c 20 74 68 65 20 66 6f 6c 6c  ages L, the foll
2410: 6f 77 69 6e 67 3a 0a 2a 2a 0a 2a 2a 20 20 20 2a  owing:.**.**   *
2420: 20 4f 64 64 20 6e 75 6d 62 65 72 65 64 20 6c 61   Odd numbered la
2430: 6e 67 75 61 67 65 73 20 61 72 65 20 63 61 73 65  nguages are case
2440: 2d 73 65 6e 73 69 74 69 76 65 2e 20 45 76 65 6e  -sensitive. Even
2450: 20 6e 75 6d 62 65 72 65 64 20 0a 2a 2a 20 20 20   numbered .**   
2460: 20 20 6c 61 6e 67 75 61 67 65 73 20 61 72 65 20    languages are 
2470: 6e 6f 74 2e 0a 2a 2a 0a 2a 2a 20 20 20 2a 20 4c  not..**.**   * L
2480: 61 6e 67 75 61 67 65 20 69 64 73 20 31 30 30 20  anguage ids 100 
2490: 6f 72 20 67 72 65 61 74 65 72 20 61 72 65 20 63  or greater are c
24a0: 6f 6e 73 69 64 65 72 65 64 20 61 6e 20 65 72 72  onsidered an err
24b0: 6f 72 2e 0a 2a 2a 0a 2a 2a 20 54 68 65 20 69 6d  or..**.** The im
24c0: 70 6c 65 6d 65 6e 74 61 74 69 6f 6e 20 61 73 73  plementation ass
24d0: 75 6d 65 73 20 74 68 61 74 20 74 68 65 20 69 6e  umes that the in
24e0: 70 75 74 20 63 6f 6e 74 61 69 6e 73 20 6f 6e 6c  put contains onl
24f0: 79 20 41 53 43 49 49 20 63 68 61 72 61 63 74 65  y ASCII characte
2500: 72 73 0a 2a 2a 20 28 69 2e 65 2e 20 74 68 6f 73  rs.** (i.e. thos
2510: 65 20 74 68 61 74 20 6d 61 79 20 62 65 20 65 6e  e that may be en
2520: 63 6f 64 65 64 20 69 6e 20 55 54 46 2d 38 20 75  coded in UTF-8 u
2530: 73 69 6e 67 20 61 20 73 69 6e 67 6c 65 20 62 79  sing a single by
2540: 74 65 29 2e 0a 2a 2f 0a 74 79 70 65 64 65 66 20  te)..*/.typedef 
2550: 73 74 72 75 63 74 20 74 65 73 74 5f 74 6f 6b 65  struct test_toke
2560: 6e 69 7a 65 72 20 7b 0a 20 20 73 71 6c 69 74 65  nizer {.  sqlite
2570: 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 62 61 73 65  3_tokenizer base
2580: 3b 0a 7d 20 74 65 73 74 5f 74 6f 6b 65 6e 69 7a  ;.} test_tokeniz
2590: 65 72 3b 0a 0a 74 79 70 65 64 65 66 20 73 74 72  er;..typedef str
25a0: 75 63 74 20 74 65 73 74 5f 74 6f 6b 65 6e 69 7a  uct test_tokeniz
25b0: 65 72 5f 63 75 72 73 6f 72 20 7b 0a 20 20 73 71  er_cursor {.  sq
25c0: 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f  lite3_tokenizer_
25d0: 63 75 72 73 6f 72 20 62 61 73 65 3b 0a 20 20 63  cursor base;.  c
25e0: 6f 6e 73 74 20 63 68 61 72 20 2a 61 49 6e 70 75  onst char *aInpu
25f0: 74 3b 20 20 20 20 20 20 20 20 20 20 2f 2a 20 49  t;          /* I
2600: 6e 70 75 74 20 62 65 69 6e 67 20 74 6f 6b 65 6e  nput being token
2610: 69 7a 65 64 20 2a 2f 0a 20 20 69 6e 74 20 6e 49  ized */.  int nI
2620: 6e 70 75 74 3b 20 20 20 20 20 20 20 20 20 20 20  nput;           
2630: 20 20 20 20 20 20 20 2f 2a 20 53 69 7a 65 20 6f         /* Size o
2640: 66 20 74 68 65 20 69 6e 70 75 74 20 69 6e 20 62  f the input in b
2650: 79 74 65 73 20 2a 2f 0a 20 20 69 6e 74 20 69 49  ytes */.  int iI
2660: 6e 70 75 74 3b 20 20 20 20 20 20 20 20 20 20 20  nput;           
2670: 20 20 20 20 20 20 20 2f 2a 20 43 75 72 72 65 6e         /* Curren
2680: 74 20 6f 66 66 73 65 74 20 69 6e 20 61 49 6e 70  t offset in aInp
2690: 75 74 20 2a 2f 0a 20 20 69 6e 74 20 69 54 6f 6b  ut */.  int iTok
26a0: 65 6e 3b 20 20 20 20 20 20 20 20 20 20 20 20 20  en;             
26b0: 20 20 20 20 20 2f 2a 20 49 6e 64 65 78 20 6f 66       /* Index of
26c0: 20 6e 65 78 74 20 74 6f 6b 65 6e 20 74 6f 20 62   next token to b
26d0: 65 20 72 65 74 75 72 6e 65 64 20 2a 2f 0a 20 20  e returned */.  
26e0: 63 68 61 72 20 2a 61 42 75 66 66 65 72 3b 20 20  char *aBuffer;  
26f0: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
2700: 42 75 66 66 65 72 20 63 6f 6e 74 61 69 6e 69 6e  Buffer containin
2710: 67 20 63 75 72 72 65 6e 74 20 74 6f 6b 65 6e 20  g current token 
2720: 2a 2f 0a 20 20 69 6e 74 20 6e 42 75 66 66 65 72  */.  int nBuffer
2730: 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ;               
2740: 20 20 2f 2a 20 4e 75 6d 62 65 72 20 6f 66 20 62    /* Number of b
2750: 79 74 65 73 20 61 6c 6c 6f 63 61 74 65 64 20 61  ytes allocated a
2760: 74 20 70 54 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e  t pToken */.  in
2770: 74 20 69 4c 61 6e 67 69 64 3b 20 20 20 20 20 20  t iLangid;      
2780: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 43 6f             /* Co
2790: 6e 66 69 67 75 72 65 64 20 6c 61 6e 67 75 61 67  nfigured languag
27a0: 65 20 69 64 20 2a 2f 0a 7d 20 74 65 73 74 5f 74  e id */.} test_t
27b0: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 3b  okenizer_cursor;
27c0: 0a 0a 73 74 61 74 69 63 20 69 6e 74 20 74 65 73  ..static int tes
27d0: 74 54 6f 6b 65 6e 69 7a 65 72 43 72 65 61 74 65  tTokenizerCreate
27e0: 28 0a 20 20 69 6e 74 20 61 72 67 63 2c 20 63 6f  (.  int argc, co
27f0: 6e 73 74 20 63 68 61 72 20 2a 20 63 6f 6e 73 74  nst char * const
2800: 20 2a 61 72 67 76 2c 0a 20 20 73 71 6c 69 74 65   *argv,.  sqlite
2810: 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 2a 70 70  3_tokenizer **pp
2820: 54 6f 6b 65 6e 69 7a 65 72 0a 29 7b 0a 20 20 74  Tokenizer.){.  t
2830: 65 73 74 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70  est_tokenizer *p
2840: 4e 65 77 3b 0a 0a 20 20 70 4e 65 77 20 3d 20 73  New;..  pNew = s
2850: 71 6c 69 74 65 33 5f 6d 61 6c 6c 6f 63 28 73 69  qlite3_malloc(si
2860: 7a 65 6f 66 28 74 65 73 74 5f 74 6f 6b 65 6e 69  zeof(test_tokeni
2870: 7a 65 72 29 29 3b 0a 20 20 69 66 28 20 21 70 4e  zer));.  if( !pN
2880: 65 77 20 29 20 72 65 74 75 72 6e 20 53 51 4c 49  ew ) return SQLI
2890: 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 6d 65 6d 73  TE_NOMEM;.  mems
28a0: 65 74 28 70 4e 65 77 2c 20 30 2c 20 73 69 7a 65  et(pNew, 0, size
28b0: 6f 66 28 74 65 73 74 5f 74 6f 6b 65 6e 69 7a 65  of(test_tokenize
28c0: 72 29 29 3b 0a 0a 20 20 2a 70 70 54 6f 6b 65 6e  r));..  *ppToken
28d0: 69 7a 65 72 20 3d 20 28 73 71 6c 69 74 65 33 5f  izer = (sqlite3_
28e0: 74 6f 6b 65 6e 69 7a 65 72 20 2a 29 70 4e 65 77  tokenizer *)pNew
28f0: 3b 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54  ;.  return SQLIT
2900: 45 5f 4f 4b 3b 0a 7d 0a 0a 73 74 61 74 69 63 20  E_OK;.}..static 
2910: 69 6e 74 20 74 65 73 74 54 6f 6b 65 6e 69 7a 65  int testTokenize
2920: 72 44 65 73 74 72 6f 79 28 73 71 6c 69 74 65 33  rDestroy(sqlite3
2930: 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 54 6f 6b  _tokenizer *pTok
2940: 65 6e 69 7a 65 72 29 7b 0a 20 20 74 65 73 74 5f  enizer){.  test_
2950: 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 20 3d 20 28  tokenizer *p = (
2960: 74 65 73 74 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a  test_tokenizer *
2970: 29 70 54 6f 6b 65 6e 69 7a 65 72 3b 0a 20 20 73  )pTokenizer;.  s
2980: 71 6c 69 74 65 33 5f 66 72 65 65 28 70 29 3b 0a  qlite3_free(p);.
2990: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
29a0: 4f 4b 3b 0a 7d 0a 0a 73 74 61 74 69 63 20 69 6e  OK;.}..static in
29b0: 74 20 74 65 73 74 54 6f 6b 65 6e 69 7a 65 72 4f  t testTokenizerO
29c0: 70 65 6e 28 0a 20 20 73 71 6c 69 74 65 33 5f 74  pen(.  sqlite3_t
29d0: 6f 6b 65 6e 69 7a 65 72 20 2a 70 54 6f 6b 65 6e  okenizer *pToken
29e0: 69 7a 65 72 2c 20 20 20 20 20 20 20 20 20 2f 2a  izer,         /*
29f0: 20 54 68 65 20 74 6f 6b 65 6e 69 7a 65 72 20 2a   The tokenizer *
2a00: 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a  /.  const char *
2a10: 70 49 6e 70 75 74 2c 20 69 6e 74 20 6e 42 79 74  pInput, int nByt
2a20: 65 73 2c 20 20 20 20 20 20 20 20 2f 2a 20 53 74  es,        /* St
2a30: 72 69 6e 67 20 74 6f 20 62 65 20 74 6f 6b 65 6e  ring to be token
2a40: 69 7a 65 64 20 2a 2f 0a 20 20 73 71 6c 69 74 65  ized */.  sqlite
2a50: 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  3_tokenizer_curs
2a60: 6f 72 20 2a 2a 70 70 43 75 72 73 6f 72 20 20 20  or **ppCursor   
2a70: 20 2f 2a 20 4f 55 54 3a 20 54 6f 6b 65 6e 69 7a   /* OUT: Tokeniz
2a80: 61 74 69 6f 6e 20 63 75 72 73 6f 72 20 2a 2f 0a  ation cursor */.
2a90: 29 7b 0a 20 20 69 6e 74 20 72 63 20 3d 20 53 51  ){.  int rc = SQ
2aa0: 4c 49 54 45 5f 4f 4b 3b 20 20 20 20 20 20 20 20  LITE_OK;        
2ab0: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 52              /* R
2ac0: 65 74 75 72 6e 20 63 6f 64 65 20 2a 2f 0a 20 20  eturn code */.  
2ad0: 74 65 73 74 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63  test_tokenizer_c
2ae0: 75 72 73 6f 72 20 2a 70 43 73 72 3b 20 20 20 20  ursor *pCsr;    
2af0: 20 20 20 20 20 20 20 2f 2a 20 4e 65 77 20 63 75         /* New cu
2b00: 72 73 6f 72 20 6f 62 6a 65 63 74 20 2a 2f 0a 0a  rsor object */..
2b10: 20 20 55 4e 55 53 45 44 5f 50 41 52 41 4d 45 54    UNUSED_PARAMET
2b20: 45 52 28 70 54 6f 6b 65 6e 69 7a 65 72 29 3b 0a  ER(pTokenizer);.
2b30: 0a 20 20 70 43 73 72 20 3d 20 28 74 65 73 74 5f  .  pCsr = (test_
2b40: 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72  tokenizer_cursor
2b50: 20 2a 29 73 71 6c 69 74 65 33 5f 6d 61 6c 6c 6f   *)sqlite3_mallo
2b60: 63 28 73 69 7a 65 6f 66 28 74 65 73 74 5f 74 6f  c(sizeof(test_to
2b70: 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 29 29  kenizer_cursor))
2b80: 3b 0a 20 20 69 66 28 20 70 43 73 72 3d 3d 30 20  ;.  if( pCsr==0 
2b90: 29 7b 0a 20 20 20 20 72 63 20 3d 20 53 51 4c 49  ){.    rc = SQLI
2ba0: 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 7d 65 6c 73  TE_NOMEM;.  }els
2bb0: 65 7b 0a 20 20 20 20 6d 65 6d 73 65 74 28 70 43  e{.    memset(pC
2bc0: 73 72 2c 20 30 2c 20 73 69 7a 65 6f 66 28 74 65  sr, 0, sizeof(te
2bd0: 73 74 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72  st_tokenizer_cur
2be0: 73 6f 72 29 29 3b 0a 20 20 20 20 70 43 73 72 2d  sor));.    pCsr-
2bf0: 3e 61 49 6e 70 75 74 20 3d 20 70 49 6e 70 75 74  >aInput = pInput
2c00: 3b 0a 20 20 20 20 69 66 28 20 6e 42 79 74 65 73  ;.    if( nBytes
2c10: 3c 30 20 29 7b 0a 20 20 20 20 20 20 70 43 73 72  <0 ){.      pCsr
2c20: 2d 3e 6e 49 6e 70 75 74 20 3d 20 73 74 72 6c 65  ->nInput = strle
2c30: 6e 28 70 49 6e 70 75 74 29 3b 0a 20 20 20 20 7d  n(pInput);.    }
2c40: 65 6c 73 65 7b 0a 20 20 20 20 20 20 70 43 73 72  else{.      pCsr
2c50: 2d 3e 6e 49 6e 70 75 74 20 3d 20 6e 42 79 74 65  ->nInput = nByte
2c60: 73 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20  s;.    }.  }..  
2c70: 2a 70 70 43 75 72 73 6f 72 20 3d 20 28 73 71 6c  *ppCursor = (sql
2c80: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63  ite3_tokenizer_c
2c90: 75 72 73 6f 72 20 2a 29 70 43 73 72 3b 0a 20 20  ursor *)pCsr;.  
2ca0: 72 65 74 75 72 6e 20 72 63 3b 0a 7d 0a 0a 73 74  return rc;.}..st
2cb0: 61 74 69 63 20 69 6e 74 20 74 65 73 74 54 6f 6b  atic int testTok
2cc0: 65 6e 69 7a 65 72 43 6c 6f 73 65 28 73 71 6c 69  enizerClose(sqli
2cd0: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  te3_tokenizer_cu
2ce0: 72 73 6f 72 20 2a 70 43 75 72 73 6f 72 29 7b 0a  rsor *pCursor){.
2cf0: 20 20 74 65 73 74 5f 74 6f 6b 65 6e 69 7a 65 72    test_tokenizer
2d00: 5f 63 75 72 73 6f 72 20 2a 70 43 73 72 20 3d 20  _cursor *pCsr = 
2d10: 28 74 65 73 74 5f 74 6f 6b 65 6e 69 7a 65 72 5f  (test_tokenizer_
2d20: 63 75 72 73 6f 72 20 2a 29 70 43 75 72 73 6f 72  cursor *)pCursor
2d30: 3b 0a 20 20 73 71 6c 69 74 65 33 5f 66 72 65 65  ;.  sqlite3_free
2d40: 28 70 43 73 72 2d 3e 61 42 75 66 66 65 72 29 3b  (pCsr->aBuffer);
2d50: 0a 20 20 73 71 6c 69 74 65 33 5f 66 72 65 65 28  .  sqlite3_free(
2d60: 70 43 73 72 29 3b 0a 20 20 72 65 74 75 72 6e 20  pCsr);.  return 
2d70: 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a 0a 73 74  SQLITE_OK;.}..st
2d80: 61 74 69 63 20 69 6e 74 20 74 65 73 74 49 73 54  atic int testIsT
2d90: 6f 6b 65 6e 43 68 61 72 28 63 68 61 72 20 63 29  okenChar(char c)
2da0: 7b 0a 20 20 72 65 74 75 72 6e 20 28 63 3e 3d 27  {.  return (c>='
2db0: 61 27 20 26 26 20 63 3c 3d 27 7a 27 29 20 7c 7c  a' && c<='z') ||
2dc0: 20 28 63 3e 3d 27 41 27 20 26 26 20 63 3c 3d 27   (c>='A' && c<='
2dd0: 5a 27 29 3b 0a 7d 0a 73 74 61 74 69 63 20 69 6e  Z');.}.static in
2de0: 74 20 74 65 73 74 54 6f 6c 6f 77 65 72 28 63 68  t testTolower(ch
2df0: 61 72 20 63 29 7b 0a 20 20 63 68 61 72 20 72 65  ar c){.  char re
2e00: 74 20 3d 20 63 3b 0a 20 20 69 66 28 20 72 65 74  t = c;.  if( ret
2e10: 3e 3d 27 41 27 20 26 26 20 72 65 74 3c 3d 27 5a  >='A' && ret<='Z
2e20: 27 29 20 72 65 74 20 3d 20 72 65 74 20 2d 20 28  ') ret = ret - (
2e30: 27 41 27 2d 27 61 27 29 3b 0a 20 20 72 65 74 75  'A'-'a');.  retu
2e40: 72 6e 20 72 65 74 3b 0a 7d 0a 0a 73 74 61 74 69  rn ret;.}..stati
2e50: 63 20 69 6e 74 20 74 65 73 74 54 6f 6b 65 6e 69  c int testTokeni
2e60: 7a 65 72 4e 65 78 74 28 0a 20 20 73 71 6c 69 74  zerNext(.  sqlit
2e70: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72  e3_tokenizer_cur
2e80: 73 6f 72 20 2a 70 43 75 72 73 6f 72 2c 20 20 2f  sor *pCursor,  /
2e90: 2a 20 43 75 72 73 6f 72 20 72 65 74 75 72 6e 65  * Cursor returne
2ea0: 64 20 62 79 20 74 65 73 74 54 6f 6b 65 6e 69 7a  d by testTokeniz
2eb0: 65 72 4f 70 65 6e 20 2a 2f 0a 20 20 63 6f 6e 73  erOpen */.  cons
2ec0: 74 20 63 68 61 72 20 2a 2a 70 70 54 6f 6b 65 6e  t char **ppToken
2ed0: 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ,               
2ee0: 2f 2a 20 4f 55 54 3a 20 2a 70 70 54 6f 6b 65 6e  /* OUT: *ppToken
2ef0: 20 69 73 20 74 68 65 20 74 6f 6b 65 6e 20 74 65   is the token te
2f00: 78 74 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 6e 42  xt */.  int *pnB
2f10: 79 74 65 73 2c 20 20 20 20 20 20 20 20 20 20 20  ytes,           
2f20: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f              /* O
2f30: 55 54 3a 20 4e 75 6d 62 65 72 20 6f 66 20 62 79  UT: Number of by
2f40: 74 65 73 20 69 6e 20 74 6f 6b 65 6e 20 2a 2f 0a  tes in token */.
2f50: 20 20 69 6e 74 20 2a 70 69 53 74 61 72 74 4f 66    int *piStartOf
2f60: 66 73 65 74 2c 20 20 20 20 20 20 20 20 20 20 20  fset,           
2f70: 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 53 74        /* OUT: St
2f80: 61 72 74 69 6e 67 20 6f 66 66 73 65 74 20 6f 66  arting offset of
2f90: 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20   token */.  int 
2fa0: 2a 70 69 45 6e 64 4f 66 66 73 65 74 2c 20 20 20  *piEndOffset,   
2fb0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2fc0: 2f 2a 20 4f 55 54 3a 20 45 6e 64 69 6e 67 20 6f  /* OUT: Ending o
2fd0: 66 66 73 65 74 20 6f 66 20 74 6f 6b 65 6e 20 2a  ffset of token *
2fe0: 2f 0a 20 20 69 6e 74 20 2a 70 69 50 6f 73 69 74  /.  int *piPosit
2ff0: 69 6f 6e 20 20 20 20 20 20 20 20 20 20 20 20 20  ion             
3000: 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20          /* OUT: 
3010: 50 6f 73 69 74 69 6f 6e 20 69 6e 74 65 67 65 72  Position integer
3020: 20 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a 29 7b 0a   of token */.){.
3030: 20 20 74 65 73 74 5f 74 6f 6b 65 6e 69 7a 65 72    test_tokenizer
3040: 5f 63 75 72 73 6f 72 20 2a 70 43 73 72 20 3d 20  _cursor *pCsr = 
3050: 28 74 65 73 74 5f 74 6f 6b 65 6e 69 7a 65 72 5f  (test_tokenizer_
3060: 63 75 72 73 6f 72 20 2a 29 70 43 75 72 73 6f 72  cursor *)pCursor
3070: 3b 0a 20 20 69 6e 74 20 72 63 20 3d 20 53 51 4c  ;.  int rc = SQL
3080: 49 54 45 5f 4f 4b 3b 0a 20 20 63 6f 6e 73 74 20  ITE_OK;.  const 
3090: 63 68 61 72 20 2a 70 3b 0a 20 20 63 6f 6e 73 74  char *p;.  const
30a0: 20 63 68 61 72 20 2a 70 45 6e 64 3b 0a 0a 20 20   char *pEnd;..  
30b0: 70 20 3d 20 26 70 43 73 72 2d 3e 61 49 6e 70 75  p = &pCsr->aInpu
30c0: 74 5b 70 43 73 72 2d 3e 69 49 6e 70 75 74 5d 3b  t[pCsr->iInput];
30d0: 0a 20 20 70 45 6e 64 20 3d 20 26 70 43 73 72 2d  .  pEnd = &pCsr-
30e0: 3e 61 49 6e 70 75 74 5b 70 43 73 72 2d 3e 6e 49  >aInput[pCsr->nI
30f0: 6e 70 75 74 5d 3b 0a 0a 20 20 2f 2a 20 53 6b 69  nput];..  /* Ski
3100: 70 20 70 61 73 74 20 61 6e 79 20 77 68 69 74 65  p past any white
3110: 2d 73 70 61 63 65 20 2a 2f 0a 20 20 61 73 73 65  -space */.  asse
3120: 72 74 28 20 70 3c 3d 70 45 6e 64 20 29 3b 0a 20  rt( p<=pEnd );. 
3130: 20 77 68 69 6c 65 28 20 70 3c 70 45 6e 64 20 26   while( p<pEnd &
3140: 26 20 74 65 73 74 49 73 54 6f 6b 65 6e 43 68 61  & testIsTokenCha
3150: 72 28 2a 70 29 3d 3d 30 20 29 20 70 2b 2b 3b 0a  r(*p)==0 ) p++;.
3160: 0a 20 20 69 66 28 20 70 3d 3d 70 45 6e 64 20 29  .  if( p==pEnd )
3170: 7b 0a 20 20 20 20 72 63 20 3d 20 53 51 4c 49 54  {.    rc = SQLIT
3180: 45 5f 44 4f 4e 45 3b 0a 20 20 7d 65 6c 73 65 7b  E_DONE;.  }else{
3190: 0a 20 20 20 20 2f 2a 20 41 64 76 61 6e 63 65 20  .    /* Advance 
31a0: 74 6f 20 74 68 65 20 65 6e 64 20 6f 66 20 74 68  to the end of th
31b0: 65 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 20 20 63  e token */.    c
31c0: 6f 6e 73 74 20 63 68 61 72 20 2a 70 54 6f 6b 65  onst char *pToke
31d0: 6e 20 3d 20 70 3b 0a 20 20 20 20 69 6e 74 20 6e  n = p;.    int n
31e0: 54 6f 6b 65 6e 3b 0a 20 20 20 20 77 68 69 6c 65  Token;.    while
31f0: 28 20 70 3c 70 45 6e 64 20 26 26 20 74 65 73 74  ( p<pEnd && test
3200: 49 73 54 6f 6b 65 6e 43 68 61 72 28 2a 70 29 20  IsTokenChar(*p) 
3210: 29 20 70 2b 2b 3b 0a 20 20 20 20 6e 54 6f 6b 65  ) p++;.    nToke
3220: 6e 20 3d 20 70 2d 70 54 6f 6b 65 6e 3b 0a 0a 20  n = p-pToken;.. 
3230: 20 20 20 2f 2a 20 43 6f 70 79 20 74 68 65 20 74     /* Copy the t
3240: 6f 6b 65 6e 20 69 6e 74 6f 20 74 68 65 20 62 75  oken into the bu
3250: 66 66 65 72 20 2a 2f 0a 20 20 20 20 69 66 28 20  ffer */.    if( 
3260: 6e 54 6f 6b 65 6e 3e 70 43 73 72 2d 3e 6e 42 75  nToken>pCsr->nBu
3270: 66 66 65 72 20 29 7b 0a 20 20 20 20 20 20 73 71  ffer ){.      sq
3280: 6c 69 74 65 33 5f 66 72 65 65 28 70 43 73 72 2d  lite3_free(pCsr-
3290: 3e 61 42 75 66 66 65 72 29 3b 0a 20 20 20 20 20  >aBuffer);.     
32a0: 20 70 43 73 72 2d 3e 61 42 75 66 66 65 72 20 3d   pCsr->aBuffer =
32b0: 20 73 71 6c 69 74 65 33 5f 6d 61 6c 6c 6f 63 28   sqlite3_malloc(
32c0: 6e 54 6f 6b 65 6e 29 3b 0a 20 20 20 20 7d 0a 20  nToken);.    }. 
32d0: 20 20 20 69 66 28 20 70 43 73 72 2d 3e 61 42 75     if( pCsr->aBu
32e0: 66 66 65 72 3d 3d 30 20 29 7b 0a 20 20 20 20 20  ffer==0 ){.     
32f0: 20 72 63 20 3d 20 53 51 4c 49 54 45 5f 4e 4f 4d   rc = SQLITE_NOM
3300: 45 4d 3b 0a 20 20 20 20 7d 65 6c 73 65 7b 0a 20  EM;.    }else{. 
3310: 20 20 20 20 20 69 6e 74 20 69 3b 0a 0a 20 20 20       int i;..   
3320: 20 20 20 69 66 28 20 70 43 73 72 2d 3e 69 4c 61     if( pCsr->iLa
3330: 6e 67 69 64 20 26 20 30 78 30 30 30 30 30 30 30  ngid & 0x0000000
3340: 31 20 29 7b 0a 20 20 20 20 20 20 20 20 66 6f 72  1 ){.        for
3350: 28 69 3d 30 3b 20 69 3c 6e 54 6f 6b 65 6e 3b 20  (i=0; i<nToken; 
3360: 69 2b 2b 29 20 70 43 73 72 2d 3e 61 42 75 66 66  i++) pCsr->aBuff
3370: 65 72 5b 69 5d 20 3d 20 70 54 6f 6b 65 6e 5b 69  er[i] = pToken[i
3380: 5d 3b 0a 20 20 20 20 20 20 7d 65 6c 73 65 7b 0a  ];.      }else{.
3390: 20 20 20 20 20 20 20 20 66 6f 72 28 69 3d 30 3b          for(i=0;
33a0: 20 69 3c 6e 54 6f 6b 65 6e 3b 20 69 2b 2b 29 20   i<nToken; i++) 
33b0: 70 43 73 72 2d 3e 61 42 75 66 66 65 72 5b 69 5d  pCsr->aBuffer[i]
33c0: 20 3d 20 74 65 73 74 54 6f 6c 6f 77 65 72 28 70   = testTolower(p
33d0: 54 6f 6b 65 6e 5b 69 5d 29 3b 0a 20 20 20 20 20  Token[i]);.     
33e0: 20 7d 0a 20 20 20 20 20 20 70 43 73 72 2d 3e 69   }.      pCsr->i
33f0: 54 6f 6b 65 6e 2b 2b 3b 0a 20 20 20 20 20 20 70  Token++;.      p
3400: 43 73 72 2d 3e 69 49 6e 70 75 74 20 3d 20 70 20  Csr->iInput = p 
3410: 2d 20 70 43 73 72 2d 3e 61 49 6e 70 75 74 3b 0a  - pCsr->aInput;.
3420: 0a 20 20 20 20 20 20 2a 70 70 54 6f 6b 65 6e 20  .      *ppToken 
3430: 3d 20 70 43 73 72 2d 3e 61 42 75 66 66 65 72 3b  = pCsr->aBuffer;
3440: 0a 20 20 20 20 20 20 2a 70 6e 42 79 74 65 73 20  .      *pnBytes 
3450: 3d 20 6e 54 6f 6b 65 6e 3b 0a 20 20 20 20 20 20  = nToken;.      
3460: 2a 70 69 53 74 61 72 74 4f 66 66 73 65 74 20 3d  *piStartOffset =
3470: 20 70 54 6f 6b 65 6e 20 2d 20 70 43 73 72 2d 3e   pToken - pCsr->
3480: 61 49 6e 70 75 74 3b 0a 20 20 20 20 20 20 2a 70  aInput;.      *p
3490: 69 45 6e 64 4f 66 66 73 65 74 20 3d 20 70 20 2d  iEndOffset = p -
34a0: 20 70 43 73 72 2d 3e 61 49 6e 70 75 74 3b 0a 20   pCsr->aInput;. 
34b0: 20 20 20 20 20 2a 70 69 50 6f 73 69 74 69 6f 6e       *piPosition
34c0: 20 3d 20 70 43 73 72 2d 3e 69 54 6f 6b 65 6e 3b   = pCsr->iToken;
34d0: 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 72 65  .    }.  }..  re
34e0: 74 75 72 6e 20 72 63 3b 0a 7d 0a 0a 73 74 61 74  turn rc;.}..stat
34f0: 69 63 20 69 6e 74 20 74 65 73 74 54 6f 6b 65 6e  ic int testToken
3500: 69 7a 65 72 4c 61 6e 67 75 61 67 65 28 0a 20 20  izerLanguage(.  
3510: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
3520: 72 5f 63 75 72 73 6f 72 20 2a 70 43 75 72 73 6f  r_cursor *pCurso
3530: 72 2c 0a 20 20 69 6e 74 20 69 4c 61 6e 67 69 64  r,.  int iLangid
3540: 0a 29 7b 0a 20 20 69 6e 74 20 72 63 20 3d 20 53  .){.  int rc = S
3550: 51 4c 49 54 45 5f 4f 4b 3b 0a 20 20 74 65 73 74  QLITE_OK;.  test
3560: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f  _tokenizer_curso
3570: 72 20 2a 70 43 73 72 20 3d 20 28 74 65 73 74 5f  r *pCsr = (test_
3580: 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72  tokenizer_cursor
3590: 20 2a 29 70 43 75 72 73 6f 72 3b 0a 20 20 70 43   *)pCursor;.  pC
35a0: 73 72 2d 3e 69 4c 61 6e 67 69 64 20 3d 20 69 4c  sr->iLangid = iL
35b0: 61 6e 67 69 64 3b 0a 20 20 69 66 28 20 70 43 73  angid;.  if( pCs
35c0: 72 2d 3e 69 4c 61 6e 67 69 64 3e 3d 31 30 30 20  r->iLangid>=100 
35d0: 29 7b 0a 20 20 20 20 72 63 20 3d 20 53 51 4c 49  ){.    rc = SQLI
35e0: 54 45 5f 45 52 52 4f 52 3b 0a 20 20 7d 0a 20 20  TE_ERROR;.  }.  
35f0: 72 65 74 75 72 6e 20 72 63 3b 0a 7d 0a 23 65 6e  return rc;.}.#en
3600: 64 69 66 0a 0a 73 74 61 74 69 63 20 69 6e 74 20  dif..static int 
3610: 66 74 73 33 5f 74 65 73 74 5f 74 6f 6b 65 6e 69  fts3_test_tokeni
3620: 7a 65 72 5f 63 6d 64 28 0a 20 20 43 6c 69 65 6e  zer_cmd(.  Clien
3630: 74 44 61 74 61 20 63 6c 69 65 6e 74 44 61 74 61  tData clientData
3640: 2c 0a 20 20 54 63 6c 5f 49 6e 74 65 72 70 20 2a  ,.  Tcl_Interp *
3650: 69 6e 74 65 72 70 2c 0a 20 20 69 6e 74 20 6f 62  interp,.  int ob
3660: 6a 63 2c 0a 20 20 54 63 6c 5f 4f 62 6a 20 2a 43  jc,.  Tcl_Obj *C
3670: 4f 4e 53 54 20 6f 62 6a 76 5b 5d 0a 29 7b 0a 23  ONST objv[].){.#
3680: 69 66 64 65 66 20 53 51 4c 49 54 45 5f 45 4e 41  ifdef SQLITE_ENA
3690: 42 4c 45 5f 46 54 53 33 0a 20 20 73 74 61 74 69  BLE_FTS3.  stati
36a0: 63 20 63 6f 6e 73 74 20 73 71 6c 69 74 65 33 5f  c const sqlite3_
36b0: 74 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65  tokenizer_module
36c0: 20 74 65 73 74 54 6f 6b 65 6e 69 7a 65 72 4d 6f   testTokenizerMo
36d0: 64 75 6c 65 20 3d 20 7b 0a 20 20 20 20 31 2c 0a  dule = {.    1,.
36e0: 20 20 20 20 74 65 73 74 54 6f 6b 65 6e 69 7a 65      testTokenize
36f0: 72 43 72 65 61 74 65 2c 0a 20 20 20 20 74 65 73  rCreate,.    tes
3700: 74 54 6f 6b 65 6e 69 7a 65 72 44 65 73 74 72 6f  tTokenizerDestro
3710: 79 2c 0a 20 20 20 20 74 65 73 74 54 6f 6b 65 6e  y,.    testToken
3720: 69 7a 65 72 4f 70 65 6e 2c 0a 20 20 20 20 74 65  izerOpen,.    te
3730: 73 74 54 6f 6b 65 6e 69 7a 65 72 43 6c 6f 73 65  stTokenizerClose
3740: 2c 0a 20 20 20 20 74 65 73 74 54 6f 6b 65 6e 69  ,.    testTokeni
3750: 7a 65 72 4e 65 78 74 2c 0a 20 20 20 20 74 65 73  zerNext,.    tes
3760: 74 54 6f 6b 65 6e 69 7a 65 72 4c 61 6e 67 75 61  tTokenizerLangua
3770: 67 65 0a 20 20 7d 3b 0a 20 20 63 6f 6e 73 74 20  ge.  };.  const 
3780: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
3790: 72 5f 6d 6f 64 75 6c 65 20 2a 70 50 74 72 20 3d  r_module *pPtr =
37a0: 20 26 74 65 73 74 54 6f 6b 65 6e 69 7a 65 72 4d   &testTokenizerM
37b0: 6f 64 75 6c 65 3b 0a 20 20 69 66 28 20 6f 62 6a  odule;.  if( obj
37c0: 63 21 3d 31 20 29 7b 0a 20 20 20 20 54 63 6c 5f  c!=1 ){.    Tcl_
37d0: 57 72 6f 6e 67 4e 75 6d 41 72 67 73 28 69 6e 74  WrongNumArgs(int
37e0: 65 72 70 2c 20 31 2c 20 6f 62 6a 76 2c 20 22 22  erp, 1, objv, ""
37f0: 29 3b 0a 20 20 20 20 72 65 74 75 72 6e 20 54 43  );.    return TC
3800: 4c 5f 45 52 52 4f 52 3b 0a 20 20 7d 0a 20 20 54  L_ERROR;.  }.  T
3810: 63 6c 5f 53 65 74 4f 62 6a 52 65 73 75 6c 74 28  cl_SetObjResult(
3820: 69 6e 74 65 72 70 2c 20 54 63 6c 5f 4e 65 77 42  interp, Tcl_NewB
3830: 79 74 65 41 72 72 61 79 4f 62 6a 28 0a 20 20 20  yteArrayObj(.   
3840: 20 28 63 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64   (const unsigned
3850: 20 63 68 61 72 20 2a 29 26 70 50 74 72 2c 20 73   char *)&pPtr, s
3860: 69 7a 65 6f 66 28 73 71 6c 69 74 65 33 5f 74 6f  izeof(sqlite3_to
3870: 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 2a  kenizer_module *
3880: 29 0a 20 20 29 29 3b 0a 23 65 6e 64 69 66 0a 20  ).  ));.#endif. 
3890: 20 72 65 74 75 72 6e 20 54 43 4c 5f 4f 4b 3b 0a   return TCL_OK;.
38a0: 7d 0a 0a 2f 2a 20 0a 2a 2a 20 45 6e 64 20 6f 66  }../* .** End of
38b0: 20 74 6f 6b 65 6e 69 7a 65 72 20 63 6f 64 65 2e   tokenizer code.
38c0: 0a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  .***************
38d0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
38e0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
38f0: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
3900: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2f 20 0a 0a 69  ***********/ ..i
3910: 6e 74 20 53 71 6c 69 74 65 74 65 73 74 66 74 73  nt Sqlitetestfts
3920: 33 5f 49 6e 69 74 28 54 63 6c 5f 49 6e 74 65 72  3_Init(Tcl_Inter
3930: 70 20 2a 69 6e 74 65 72 70 29 7b 0a 20 20 54 63  p *interp){.  Tc
3940: 6c 5f 43 72 65 61 74 65 4f 62 6a 43 6f 6d 6d 61  l_CreateObjComma
3950: 6e 64 28 69 6e 74 65 72 70 2c 20 22 66 74 73 33  nd(interp, "fts3
3960: 5f 6e 65 61 72 5f 6d 61 74 63 68 22 2c 20 66 74  _near_match", ft
3970: 73 33 5f 6e 65 61 72 5f 6d 61 74 63 68 5f 63 6d  s3_near_match_cm
3980: 64 2c 20 30 2c 20 30 29 3b 0a 20 20 54 63 6c 5f  d, 0, 0);.  Tcl_
3990: 43 72 65 61 74 65 4f 62 6a 43 6f 6d 6d 61 6e 64  CreateObjCommand
39a0: 28 69 6e 74 65 72 70 2c 20 0a 20 20 20 20 20 20  (interp, .      
39b0: 22 66 74 73 33 5f 63 6f 6e 66 69 67 75 72 65 5f  "fts3_configure_
39c0: 69 6e 63 72 5f 6c 6f 61 64 22 2c 20 66 74 73 33  incr_load", fts3
39d0: 5f 63 6f 6e 66 69 67 75 72 65 5f 69 6e 63 72 5f  _configure_incr_
39e0: 6c 6f 61 64 5f 63 6d 64 2c 20 30 2c 20 30 0a 20  load_cmd, 0, 0. 
39f0: 20 29 3b 0a 20 20 54 63 6c 5f 43 72 65 61 74 65   );.  Tcl_Create
3a00: 4f 62 6a 43 6f 6d 6d 61 6e 64 28 0a 20 20 20 20  ObjCommand(.    
3a10: 20 20 69 6e 74 65 72 70 2c 20 22 66 74 73 33 5f    interp, "fts3_
3a20: 74 65 73 74 5f 74 6f 6b 65 6e 69 7a 65 72 22 2c  test_tokenizer",
3a30: 20 66 74 73 33 5f 74 65 73 74 5f 74 6f 6b 65 6e   fts3_test_token
3a40: 69 7a 65 72 5f 63 6d 64 2c 20 30 2c 20 30 0a 20  izer_cmd, 0, 0. 
3a50: 20 29 3b 0a 20 20 72 65 74 75 72 6e 20 54 43 4c   );.  return TCL
3a60: 5f 4f 4b 3b 0a 7d 0a 23 65 6e 64 69 66 20 20 20  _OK;.}.#endif   
3a70: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f                 /
3a80: 2a 20 69 66 64 65 66 20 53 51 4c 49 54 45 5f 54  * ifdef SQLITE_T
3a90: 45 53 54 20 2a 2f 0a                             EST */.