/ Hex Artifact Content
Login

Artifact 8a6369b0fae98c04db95e4fa95fac7c03d7182ec:


0000: 2f 2a 0a 2a 2a 20 32 30 30 36 20 53 65 70 74 65  /*.** 2006 Septe
0010: 6d 62 65 72 20 33 30 0a 2a 2a 0a 2a 2a 20 54 68  mber 30.**.** Th
0020: 65 20 61 75 74 68 6f 72 20 64 69 73 63 6c 61 69  e author disclai
0030: 6d 73 20 63 6f 70 79 72 69 67 68 74 20 74 6f 20  ms copyright to 
0040: 74 68 69 73 20 73 6f 75 72 63 65 20 63 6f 64 65  this source code
0050: 2e 20 20 49 6e 20 70 6c 61 63 65 20 6f 66 0a 2a  .  In place of.*
0060: 2a 20 61 20 6c 65 67 61 6c 20 6e 6f 74 69 63 65  * a legal notice
0070: 2c 20 68 65 72 65 20 69 73 20 61 20 62 6c 65 73  , here is a bles
0080: 73 69 6e 67 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 4d  sing:.**.**    M
0090: 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64 20 61  ay you do good a
00a0: 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 2a 2a 20  nd not evil..** 
00b0: 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64 20     May you find 
00c0: 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72 20  forgiveness for 
00d0: 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f 72  yourself and for
00e0: 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 2a 2a 20  give others..** 
00f0: 20 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65     May you share
0100: 20 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74   freely, never t
0110: 61 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20  aking more than 
0120: 79 6f 75 20 67 69 76 65 2e 0a 2a 2a 0a 2a 2a 2a  you give..**.***
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 2a 2a 2a 2a 2a 0a 2a 2a 20 49 6d 70 6c 65 6d  ******.** Implem
0180: 65 6e 74 61 74 69 6f 6e 20 6f 66 20 74 68 65 20  entation of the 
0190: 66 75 6c 6c 2d 74 65 78 74 2d 73 65 61 72 63 68  full-text-search
01a0: 20 74 6f 6b 65 6e 69 7a 65 72 20 74 68 61 74 20   tokenizer that 
01b0: 69 6d 70 6c 65 6d 65 6e 74 73 0a 2a 2a 20 61 20  implements.** a 
01c0: 50 6f 72 74 65 72 20 73 74 65 6d 6d 65 72 2e 0a  Porter stemmer..
01d0: 2a 2f 0a 0a 2f 2a 0a 2a 2a 20 54 68 65 20 63 6f  */../*.** The co
01e0: 64 65 20 69 6e 20 74 68 69 73 20 66 69 6c 65 20  de in this file 
01f0: 69 73 20 6f 6e 6c 79 20 63 6f 6d 70 69 6c 65 64  is only compiled
0200: 20 69 66 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 20 2a   if:.**.**     *
0210: 20 54 68 65 20 46 54 53 32 20 6d 6f 64 75 6c 65   The FTS2 module
0220: 20 69 73 20 62 65 69 6e 67 20 62 75 69 6c 74 20   is being built 
0230: 61 73 20 61 6e 20 65 78 74 65 6e 73 69 6f 6e 0a  as an extension.
0240: 2a 2a 20 20 20 20 20 20 20 28 69 6e 20 77 68 69  **       (in whi
0250: 63 68 20 63 61 73 65 20 53 51 4c 49 54 45 5f 43  ch case SQLITE_C
0260: 4f 52 45 20 69 73 20 6e 6f 74 20 64 65 66 69 6e  ORE is not defin
0270: 65 64 29 2c 20 6f 72 0a 2a 2a 0a 2a 2a 20 20 20  ed), or.**.**   
0280: 20 20 2a 20 54 68 65 20 46 54 53 32 20 6d 6f 64    * The FTS2 mod
0290: 75 6c 65 20 69 73 20 62 65 69 6e 67 20 62 75 69  ule is being bui
02a0: 6c 74 20 69 6e 74 6f 20 74 68 65 20 63 6f 72 65  lt into the core
02b0: 20 6f 66 0a 2a 2a 20 20 20 20 20 20 20 53 51 4c   of.**       SQL
02c0: 69 74 65 20 28 69 6e 20 77 68 69 63 68 20 63 61  ite (in which ca
02d0: 73 65 20 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45  se SQLITE_ENABLE
02e0: 5f 46 54 53 32 20 69 73 20 64 65 66 69 6e 65 64  _FTS2 is defined
02f0: 29 2e 0a 2a 2f 0a 23 69 66 20 21 64 65 66 69 6e  )..*/.#if !defin
0300: 65 64 28 53 51 4c 49 54 45 5f 43 4f 52 45 29 20  ed(SQLITE_CORE) 
0310: 7c 7c 20 64 65 66 69 6e 65 64 28 53 51 4c 49 54  || defined(SQLIT
0320: 45 5f 45 4e 41 42 4c 45 5f 46 54 53 32 29 0a 0a  E_ENABLE_FTS2)..
0330: 0a 23 69 6e 63 6c 75 64 65 20 3c 61 73 73 65 72  .#include <asser
0340: 74 2e 68 3e 0a 23 69 6e 63 6c 75 64 65 20 3c 73  t.h>.#include <s
0350: 74 64 6c 69 62 2e 68 3e 0a 23 69 6e 63 6c 75 64  tdlib.h>.#includ
0360: 65 20 3c 73 74 64 69 6f 2e 68 3e 0a 23 69 6e 63  e <stdio.h>.#inc
0370: 6c 75 64 65 20 3c 73 74 72 69 6e 67 2e 68 3e 0a  lude <string.h>.
0380: 23 69 6e 63 6c 75 64 65 20 3c 63 74 79 70 65 2e  #include <ctype.
0390: 68 3e 0a 0a 23 69 6e 63 6c 75 64 65 20 22 66 74  h>..#include "ft
03a0: 73 32 5f 74 6f 6b 65 6e 69 7a 65 72 2e 68 22 0a  s2_tokenizer.h".
03b0: 0a 2f 2a 0a 2a 2a 20 43 6c 61 73 73 20 64 65 72  ./*.** Class der
03c0: 69 76 65 64 20 66 72 6f 6d 20 73 71 6c 69 74 65  ived from sqlite
03d0: 33 5f 74 6f 6b 65 6e 69 7a 65 72 0a 2a 2f 0a 74  3_tokenizer.*/.t
03e0: 79 70 65 64 65 66 20 73 74 72 75 63 74 20 70 6f  ypedef struct po
03f0: 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 20 7b  rter_tokenizer {
0400: 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  .  sqlite3_token
0410: 69 7a 65 72 20 62 61 73 65 3b 20 20 20 20 20 20  izer base;      
0420: 2f 2a 20 42 61 73 65 20 63 6c 61 73 73 20 2a 2f  /* Base class */
0430: 0a 7d 20 70 6f 72 74 65 72 5f 74 6f 6b 65 6e 69  .} porter_tokeni
0440: 7a 65 72 3b 0a 0a 2f 2a 0a 2a 2a 20 43 6c 61 73  zer;../*.** Clas
0450: 73 20 64 65 72 69 76 65 64 20 66 72 6f 6d 20 73  s derived from s
0460: 71 6c 69 74 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f  qlit3_tokenizer_
0470: 63 75 72 73 6f 72 0a 2a 2f 0a 74 79 70 65 64 65  cursor.*/.typede
0480: 66 20 73 74 72 75 63 74 20 70 6f 72 74 65 72 5f  f struct porter_
0490: 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72  tokenizer_cursor
04a0: 20 7b 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b   {.  sqlite3_tok
04b0: 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 62 61  enizer_cursor ba
04c0: 73 65 3b 0a 20 20 63 6f 6e 73 74 20 63 68 61 72  se;.  const char
04d0: 20 2a 7a 49 6e 70 75 74 3b 20 20 20 20 20 20 20   *zInput;       
04e0: 20 20 20 2f 2a 20 69 6e 70 75 74 20 77 65 20 61     /* input we a
04f0: 72 65 20 74 6f 6b 65 6e 69 7a 69 6e 67 20 2a 2f  re tokenizing */
0500: 0a 20 20 69 6e 74 20 6e 49 6e 70 75 74 3b 20 20  .  int nInput;  
0510: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0520: 2f 2a 20 73 69 7a 65 20 6f 66 20 74 68 65 20 69  /* size of the i
0530: 6e 70 75 74 20 2a 2f 0a 20 20 69 6e 74 20 69 4f  nput */.  int iO
0540: 66 66 73 65 74 3b 20 20 20 20 20 20 20 20 20 20  ffset;          
0550: 20 20 20 20 20 20 20 2f 2a 20 63 75 72 72 65 6e         /* curren
0560: 74 20 70 6f 73 69 74 69 6f 6e 20 69 6e 20 7a 49  t position in zI
0570: 6e 70 75 74 20 2a 2f 0a 20 20 69 6e 74 20 69 54  nput */.  int iT
0580: 6f 6b 65 6e 3b 20 20 20 20 20 20 20 20 20 20 20  oken;           
0590: 20 20 20 20 20 20 20 2f 2a 20 69 6e 64 65 78 20         /* index 
05a0: 6f 66 20 6e 65 78 74 20 74 6f 6b 65 6e 20 74 6f  of next token to
05b0: 20 62 65 20 72 65 74 75 72 6e 65 64 20 2a 2f 0a   be returned */.
05c0: 20 20 63 68 61 72 20 2a 7a 54 6f 6b 65 6e 3b 20    char *zToken; 
05d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f                 /
05e0: 2a 20 73 74 6f 72 61 67 65 20 66 6f 72 20 63 75  * storage for cu
05f0: 72 72 65 6e 74 20 74 6f 6b 65 6e 20 2a 2f 0a 20  rrent token */. 
0600: 20 69 6e 74 20 6e 41 6c 6c 6f 63 61 74 65 64 3b   int nAllocated;
0610: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
0620: 20 73 70 61 63 65 20 61 6c 6c 6f 63 61 74 65 64   space allocated
0630: 20 74 6f 20 7a 54 6f 6b 65 6e 20 62 75 66 66 65   to zToken buffe
0640: 72 20 2a 2f 0a 7d 20 70 6f 72 74 65 72 5f 74 6f  r */.} porter_to
0650: 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 3b 0a  kenizer_cursor;.
0660: 0a 0a 2f 2a 20 46 6f 72 77 61 72 64 20 64 65 63  ../* Forward dec
0670: 6c 61 72 61 74 69 6f 6e 20 2a 2f 0a 73 74 61 74  laration */.stat
0680: 69 63 20 63 6f 6e 73 74 20 73 71 6c 69 74 65 33  ic const sqlite3
0690: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c  _tokenizer_modul
06a0: 65 20 70 6f 72 74 65 72 54 6f 6b 65 6e 69 7a 65  e porterTokenize
06b0: 72 4d 6f 64 75 6c 65 3b 0a 0a 0a 2f 2a 0a 2a 2a  rModule;.../*.**
06c0: 20 43 72 65 61 74 65 20 61 20 6e 65 77 20 74 6f   Create a new to
06d0: 6b 65 6e 69 7a 65 72 20 69 6e 73 74 61 6e 63 65  kenizer instance
06e0: 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20  ..*/.static int 
06f0: 70 6f 72 74 65 72 43 72 65 61 74 65 28 0a 20 20  porterCreate(.  
0700: 69 6e 74 20 61 72 67 63 2c 20 63 6f 6e 73 74 20  int argc, const 
0710: 63 68 61 72 20 2a 20 63 6f 6e 73 74 20 2a 61 72  char * const *ar
0720: 67 76 2c 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f  gv,.  sqlite3_to
0730: 6b 65 6e 69 7a 65 72 20 2a 2a 70 70 54 6f 6b 65  kenizer **ppToke
0740: 6e 69 7a 65 72 0a 29 7b 0a 20 20 70 6f 72 74 65  nizer.){.  porte
0750: 72 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 74 3b 0a  r_tokenizer *t;.
0760: 20 20 74 20 3d 20 28 70 6f 72 74 65 72 5f 74 6f    t = (porter_to
0770: 6b 65 6e 69 7a 65 72 20 2a 29 20 73 71 6c 69 74  kenizer *) sqlit
0780: 65 33 5f 6d 61 6c 6c 6f 63 28 73 69 7a 65 6f 66  e3_malloc(sizeof
0790: 28 2a 74 29 29 3b 0a 20 20 69 66 28 20 74 3d 3d  (*t));.  if( t==
07a0: 4e 55 4c 4c 20 29 20 72 65 74 75 72 6e 20 53 51  NULL ) return SQ
07b0: 4c 49 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 6d 65  LITE_NOMEM;.  me
07c0: 6d 73 65 74 28 74 2c 20 30 2c 20 73 69 7a 65 6f  mset(t, 0, sizeo
07d0: 66 28 2a 74 29 29 3b 0a 20 20 2a 70 70 54 6f 6b  f(*t));.  *ppTok
07e0: 65 6e 69 7a 65 72 20 3d 20 26 74 2d 3e 62 61 73  enizer = &t->bas
07f0: 65 3b 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49  e;.  return SQLI
0800: 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20  TE_OK;.}../*.** 
0810: 44 65 73 74 72 6f 79 20 61 20 74 6f 6b 65 6e 69  Destroy a tokeni
0820: 7a 65 72 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  zer.*/.static in
0830: 74 20 70 6f 72 74 65 72 44 65 73 74 72 6f 79 28  t porterDestroy(
0840: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
0850: 72 20 2a 70 54 6f 6b 65 6e 69 7a 65 72 29 7b 0a  r *pTokenizer){.
0860: 20 20 73 71 6c 69 74 65 33 5f 66 72 65 65 28 70    sqlite3_free(p
0870: 54 6f 6b 65 6e 69 7a 65 72 29 3b 0a 20 20 72 65  Tokenizer);.  re
0880: 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a  turn SQLITE_OK;.
0890: 7d 0a 0a 2f 2a 0a 2a 2a 20 50 72 65 70 61 72 65  }../*.** Prepare
08a0: 20 74 6f 20 62 65 67 69 6e 20 74 6f 6b 65 6e 69   to begin tokeni
08b0: 7a 69 6e 67 20 61 20 70 61 72 74 69 63 75 6c 61  zing a particula
08c0: 72 20 73 74 72 69 6e 67 2e 20 20 54 68 65 20 69  r string.  The i
08d0: 6e 70 75 74 0a 2a 2a 20 73 74 72 69 6e 67 20 74  nput.** string t
08e0: 6f 20 62 65 20 74 6f 6b 65 6e 69 7a 65 64 20 69  o be tokenized i
08f0: 73 20 7a 49 6e 70 75 74 5b 30 2e 2e 6e 49 6e 70  s zInput[0..nInp
0900: 75 74 2d 31 5d 2e 20 20 41 20 63 75 72 73 6f 72  ut-1].  A cursor
0910: 0a 2a 2a 20 75 73 65 64 20 74 6f 20 69 6e 63 72  .** used to incr
0920: 65 6d 65 6e 74 61 6c 6c 79 20 74 6f 6b 65 6e 69  ementally tokeni
0930: 7a 65 20 74 68 69 73 20 73 74 72 69 6e 67 20 69  ze this string i
0940: 73 20 72 65 74 75 72 6e 65 64 20 69 6e 20 0a 2a  s returned in .*
0950: 2a 20 2a 70 70 43 75 72 73 6f 72 2e 0a 2a 2f 0a  * *ppCursor..*/.
0960: 73 74 61 74 69 63 20 69 6e 74 20 70 6f 72 74 65  static int porte
0970: 72 4f 70 65 6e 28 0a 20 20 73 71 6c 69 74 65 33  rOpen(.  sqlite3
0980: 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 54 6f 6b  _tokenizer *pTok
0990: 65 6e 69 7a 65 72 2c 20 20 20 20 20 20 20 20 20  enizer,         
09a0: 2f 2a 20 54 68 65 20 74 6f 6b 65 6e 69 7a 65 72  /* The tokenizer
09b0: 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61 72   */.  const char
09c0: 20 2a 7a 49 6e 70 75 74 2c 20 69 6e 74 20 6e 49   *zInput, int nI
09d0: 6e 70 75 74 2c 20 20 20 20 20 20 20 20 2f 2a 20  nput,        /* 
09e0: 53 74 72 69 6e 67 20 74 6f 20 62 65 20 74 6f 6b  String to be tok
09f0: 65 6e 69 7a 65 64 20 2a 2f 0a 20 20 73 71 6c 69  enized */.  sqli
0a00: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  te3_tokenizer_cu
0a10: 72 73 6f 72 20 2a 2a 70 70 43 75 72 73 6f 72 20  rsor **ppCursor 
0a20: 20 20 20 2f 2a 20 4f 55 54 3a 20 54 6f 6b 65 6e     /* OUT: Token
0a30: 69 7a 61 74 69 6f 6e 20 63 75 72 73 6f 72 20 2a  ization cursor *
0a40: 2f 0a 29 7b 0a 20 20 70 6f 72 74 65 72 5f 74 6f  /.){.  porter_to
0a50: 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a  kenizer_cursor *
0a60: 63 3b 0a 0a 20 20 63 20 3d 20 28 70 6f 72 74 65  c;..  c = (porte
0a70: 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  r_tokenizer_curs
0a80: 6f 72 20 2a 29 20 73 71 6c 69 74 65 33 5f 6d 61  or *) sqlite3_ma
0a90: 6c 6c 6f 63 28 73 69 7a 65 6f 66 28 2a 63 29 29  lloc(sizeof(*c))
0aa0: 3b 0a 20 20 69 66 28 20 63 3d 3d 4e 55 4c 4c 20  ;.  if( c==NULL 
0ab0: 29 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f  ) return SQLITE_
0ac0: 4e 4f 4d 45 4d 3b 0a 0a 20 20 63 2d 3e 7a 49 6e  NOMEM;..  c->zIn
0ad0: 70 75 74 20 3d 20 7a 49 6e 70 75 74 3b 0a 20 20  put = zInput;.  
0ae0: 69 66 28 20 7a 49 6e 70 75 74 3d 3d 30 20 29 7b  if( zInput==0 ){
0af0: 0a 20 20 20 20 63 2d 3e 6e 49 6e 70 75 74 20 3d  .    c->nInput =
0b00: 20 30 3b 0a 20 20 7d 65 6c 73 65 20 69 66 28 20   0;.  }else if( 
0b10: 6e 49 6e 70 75 74 3c 30 20 29 7b 0a 20 20 20 20  nInput<0 ){.    
0b20: 63 2d 3e 6e 49 6e 70 75 74 20 3d 20 28 69 6e 74  c->nInput = (int
0b30: 29 73 74 72 6c 65 6e 28 7a 49 6e 70 75 74 29 3b  )strlen(zInput);
0b40: 0a 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20 63 2d  .  }else{.    c-
0b50: 3e 6e 49 6e 70 75 74 20 3d 20 6e 49 6e 70 75 74  >nInput = nInput
0b60: 3b 0a 20 20 7d 0a 20 20 63 2d 3e 69 4f 66 66 73  ;.  }.  c->iOffs
0b70: 65 74 20 3d 20 30 3b 20 20 20 20 20 20 20 20 20  et = 0;         
0b80: 20 20 20 20 20 20 20 20 2f 2a 20 73 74 61 72 74          /* start
0b90: 20 74 6f 6b 65 6e 69 7a 69 6e 67 20 61 74 20 74   tokenizing at t
0ba0: 68 65 20 62 65 67 69 6e 6e 69 6e 67 20 2a 2f 0a  he beginning */.
0bb0: 20 20 63 2d 3e 69 54 6f 6b 65 6e 20 3d 20 30 3b    c->iToken = 0;
0bc0: 0a 20 20 63 2d 3e 7a 54 6f 6b 65 6e 20 3d 20 4e  .  c->zToken = N
0bd0: 55 4c 4c 3b 20 20 20 20 20 20 20 20 20 20 20 20  ULL;            
0be0: 20 20 20 2f 2a 20 6e 6f 20 73 70 61 63 65 20 61     /* no space a
0bf0: 6c 6c 6f 63 61 74 65 64 2c 20 79 65 74 2e 20 2a  llocated, yet. *
0c00: 2f 0a 20 20 63 2d 3e 6e 41 6c 6c 6f 63 61 74 65  /.  c->nAllocate
0c10: 64 20 3d 20 30 3b 0a 0a 20 20 2a 70 70 43 75 72  d = 0;..  *ppCur
0c20: 73 6f 72 20 3d 20 26 63 2d 3e 62 61 73 65 3b 0a  sor = &c->base;.
0c30: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
0c40: 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43 6c 6f  OK;.}../*.** Clo
0c50: 73 65 20 61 20 74 6f 6b 65 6e 69 7a 61 74 69 6f  se a tokenizatio
0c60: 6e 20 63 75 72 73 6f 72 20 70 72 65 76 69 6f 75  n cursor previou
0c70: 73 6c 79 20 6f 70 65 6e 65 64 20 62 79 20 61 20  sly opened by a 
0c80: 63 61 6c 6c 20 74 6f 0a 2a 2a 20 70 6f 72 74 65  call to.** porte
0c90: 72 4f 70 65 6e 28 29 20 61 62 6f 76 65 2e 0a 2a  rOpen() above..*
0ca0: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 70 6f 72  /.static int por
0cb0: 74 65 72 43 6c 6f 73 65 28 73 71 6c 69 74 65 33  terClose(sqlite3
0cc0: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f  _tokenizer_curso
0cd0: 72 20 2a 70 43 75 72 73 6f 72 29 7b 0a 20 20 70  r *pCursor){.  p
0ce0: 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f  orter_tokenizer_
0cf0: 63 75 72 73 6f 72 20 2a 63 20 3d 20 28 70 6f 72  cursor *c = (por
0d00: 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  ter_tokenizer_cu
0d10: 72 73 6f 72 20 2a 29 20 70 43 75 72 73 6f 72 3b  rsor *) pCursor;
0d20: 0a 20 20 73 71 6c 69 74 65 33 5f 66 72 65 65 28  .  sqlite3_free(
0d30: 63 2d 3e 7a 54 6f 6b 65 6e 29 3b 0a 20 20 73 71  c->zToken);.  sq
0d40: 6c 69 74 65 33 5f 66 72 65 65 28 63 29 3b 0a 20  lite3_free(c);. 
0d50: 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f   return SQLITE_O
0d60: 4b 3b 0a 7d 0a 2f 2a 0a 2a 2a 20 56 6f 77 65 6c  K;.}./*.** Vowel
0d70: 20 6f 72 20 63 6f 6e 73 6f 6e 61 6e 74 0a 2a 2f   or consonant.*/
0d80: 0a 73 74 61 74 69 63 20 63 6f 6e 73 74 20 63 68  .static const ch
0d90: 61 72 20 63 54 79 70 65 5b 5d 20 3d 20 7b 0a 20  ar cType[] = {. 
0da0: 20 20 30 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c    0, 1, 1, 1, 0,
0db0: 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 31 2c 20   1, 1, 1, 0, 1, 
0dc0: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 31  1, 1, 1, 1, 0, 1
0dd0: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c  , 1, 1, 1, 1, 0,
0de0: 0a 20 20 20 31 2c 20 31 2c 20 31 2c 20 32 2c 20  .   1, 1, 1, 2, 
0df0: 31 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a 20 69 73 43 6f  1.};../*.** isCo
0e00: 6e 73 6f 6e 61 6e 74 28 29 20 61 6e 64 20 69 73  nsonant() and is
0e10: 56 6f 77 65 6c 28 29 20 64 65 74 65 72 6d 69 6e  Vowel() determin
0e20: 65 20 69 66 20 74 68 65 69 72 20 66 69 72 73 74  e if their first
0e30: 20 63 68 61 72 61 63 74 65 72 20 69 6e 0a 2a 2a   character in.**
0e40: 20 74 68 65 20 73 74 72 69 6e 67 20 74 68 65 79   the string they
0e50: 20 70 6f 69 6e 74 20 74 6f 20 69 73 20 61 20 63   point to is a c
0e60: 6f 6e 73 6f 6e 61 6e 74 20 6f 72 20 61 20 76 6f  onsonant or a vo
0e70: 77 65 6c 2c 20 61 63 63 6f 72 64 69 6e 67 0a 2a  wel, according.*
0e80: 2a 20 74 6f 20 50 6f 72 74 65 72 20 72 75 6c 73  * to Porter ruls
0e90: 2e 20 20 0a 2a 2a 0a 2a 2a 20 41 20 63 6f 6e 73  .  .**.** A cons
0ea0: 6f 6e 61 74 65 20 69 73 20 61 6e 79 20 6c 65 74  onate is any let
0eb0: 74 65 72 20 6f 74 68 65 72 20 74 68 61 6e 20 27  ter other than '
0ec0: 61 27 2c 20 27 65 27 2c 20 27 69 27 2c 20 27 6f  a', 'e', 'i', 'o
0ed0: 27 2c 20 6f 72 20 27 75 27 2e 0a 2a 2a 20 27 59  ', or 'u'..** 'Y
0ee0: 27 20 69 73 20 61 20 63 6f 6e 73 6f 6e 61 6e 74  ' is a consonant
0ef0: 20 75 6e 6c 65 73 73 20 69 74 20 66 6f 6c 6c 6f   unless it follo
0f00: 77 73 20 61 6e 6f 74 68 65 72 20 63 6f 6e 73 6f  ws another conso
0f10: 6e 61 6e 74 2c 0a 2a 2a 20 69 6e 20 77 68 69 63  nant,.** in whic
0f20: 68 20 63 61 73 65 20 69 74 20 69 73 20 61 20 76  h case it is a v
0f30: 6f 77 65 6c 2e 0a 2a 2a 0a 2a 2a 20 49 6e 20 74  owel..**.** In t
0f40: 68 65 73 65 20 72 6f 75 74 69 6e 65 2c 20 74 68  hese routine, th
0f50: 65 20 6c 65 74 74 65 72 73 20 61 72 65 20 69 6e  e letters are in
0f60: 20 72 65 76 65 72 73 65 20 6f 72 64 65 72 2e 20   reverse order. 
0f70: 20 53 6f 20 74 68 65 20 27 79 27 20 72 75 6c 65   So the 'y' rule
0f80: 0a 2a 2a 20 69 73 20 74 68 61 74 20 27 79 27 20  .** is that 'y' 
0f90: 69 73 20 61 20 63 6f 6e 73 6f 6e 61 6e 74 20 75  is a consonant u
0fa0: 6e 6c 65 73 73 20 69 74 20 69 73 20 66 6f 6c 6c  nless it is foll
0fb0: 6f 77 65 64 20 62 79 20 61 6e 6f 74 68 65 72 0a  owed by another.
0fc0: 2a 2a 20 63 6f 6e 73 6f 6e 65 6e 74 2e 0a 2a 2f  ** consonent..*/
0fd0: 0a 73 74 61 74 69 63 20 69 6e 74 20 69 73 56 6f  .static int isVo
0fe0: 77 65 6c 28 63 6f 6e 73 74 20 63 68 61 72 2a 29  wel(const char*)
0ff0: 3b 0a 73 74 61 74 69 63 20 69 6e 74 20 69 73 43  ;.static int isC
1000: 6f 6e 73 6f 6e 61 6e 74 28 63 6f 6e 73 74 20 63  onsonant(const c
1010: 68 61 72 20 2a 7a 29 7b 0a 20 20 69 6e 74 20 6a  har *z){.  int j
1020: 3b 0a 20 20 63 68 61 72 20 78 20 3d 20 2a 7a 3b  ;.  char x = *z;
1030: 0a 20 20 69 66 28 20 78 3d 3d 30 20 29 20 72 65  .  if( x==0 ) re
1040: 74 75 72 6e 20 30 3b 0a 20 20 61 73 73 65 72 74  turn 0;.  assert
1050: 28 20 78 3e 3d 27 61 27 20 26 26 20 78 3c 3d 27  ( x>='a' && x<='
1060: 7a 27 20 29 3b 0a 20 20 6a 20 3d 20 63 54 79 70  z' );.  j = cTyp
1070: 65 5b 78 2d 27 61 27 5d 3b 0a 20 20 69 66 28 20  e[x-'a'];.  if( 
1080: 6a 3c 32 20 29 20 72 65 74 75 72 6e 20 6a 3b 0a  j<2 ) return j;.
1090: 20 20 72 65 74 75 72 6e 20 7a 5b 31 5d 3d 3d 30    return z[1]==0
10a0: 20 7c 7c 20 69 73 56 6f 77 65 6c 28 7a 20 2b 20   || isVowel(z + 
10b0: 31 29 3b 0a 7d 0a 73 74 61 74 69 63 20 69 6e 74  1);.}.static int
10c0: 20 69 73 56 6f 77 65 6c 28 63 6f 6e 73 74 20 63   isVowel(const c
10d0: 68 61 72 20 2a 7a 29 7b 0a 20 20 69 6e 74 20 6a  har *z){.  int j
10e0: 3b 0a 20 20 63 68 61 72 20 78 20 3d 20 2a 7a 3b  ;.  char x = *z;
10f0: 0a 20 20 69 66 28 20 78 3d 3d 30 20 29 20 72 65  .  if( x==0 ) re
1100: 74 75 72 6e 20 30 3b 0a 20 20 61 73 73 65 72 74  turn 0;.  assert
1110: 28 20 78 3e 3d 27 61 27 20 26 26 20 78 3c 3d 27  ( x>='a' && x<='
1120: 7a 27 20 29 3b 0a 20 20 6a 20 3d 20 63 54 79 70  z' );.  j = cTyp
1130: 65 5b 78 2d 27 61 27 5d 3b 0a 20 20 69 66 28 20  e[x-'a'];.  if( 
1140: 6a 3c 32 20 29 20 72 65 74 75 72 6e 20 31 2d 6a  j<2 ) return 1-j
1150: 3b 0a 20 20 72 65 74 75 72 6e 20 69 73 43 6f 6e  ;.  return isCon
1160: 73 6f 6e 61 6e 74 28 7a 20 2b 20 31 29 3b 0a 7d  sonant(z + 1);.}
1170: 0a 0a 2f 2a 0a 2a 2a 20 4c 65 74 20 61 6e 79 20  ../*.** Let any 
1180: 73 65 71 75 65 6e 63 65 20 6f 66 20 6f 6e 65 20  sequence of one 
1190: 6f 72 20 6d 6f 72 65 20 76 6f 77 65 6c 73 20 62  or more vowels b
11a0: 65 20 72 65 70 72 65 73 65 6e 74 65 64 20 62 79  e represented by
11b0: 20 56 20 61 6e 64 20 6c 65 74 0a 2a 2a 20 43 20   V and let.** C 
11c0: 62 65 20 73 65 71 75 65 6e 63 65 20 6f 66 20 6f  be sequence of o
11d0: 6e 65 20 6f 72 20 6d 6f 72 65 20 63 6f 6e 73 6f  ne or more conso
11e0: 6e 61 6e 74 73 2e 20 20 54 68 65 6e 20 65 76 65  nants.  Then eve
11f0: 72 79 20 77 6f 72 64 20 63 61 6e 20 62 65 0a 2a  ry word can be.*
1200: 2a 20 72 65 70 72 65 73 65 6e 74 65 64 20 61 73  * represented as
1210: 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 20 20 20 20 20  :.**.**         
1220: 20 20 5b 43 5d 20 28 56 43 29 7b 6d 7d 20 5b 56    [C] (VC){m} [V
1230: 5d 0a 2a 2a 0a 2a 2a 20 49 6e 20 70 72 6f 73 65  ].**.** In prose
1240: 3a 20 20 41 20 77 6f 72 64 20 69 73 20 61 6e 20  :  A word is an 
1250: 6f 70 74 69 6f 6e 61 6c 20 63 6f 6e 73 6f 6e 61  optional consona
1260: 6e 74 20 66 6f 6c 6c 6f 77 65 64 20 62 79 20 7a  nt followed by z
1270: 65 72 6f 20 6f 72 0a 2a 2a 20 76 6f 77 65 6c 2d  ero or.** vowel-
1280: 63 6f 6e 73 6f 6e 61 6e 74 20 70 61 69 72 73 20  consonant pairs 
1290: 66 6f 6c 6c 6f 77 65 64 20 62 79 20 61 6e 20 6f  followed by an o
12a0: 70 74 69 6f 6e 61 6c 20 76 6f 77 65 6c 2e 20 20  ptional vowel.  
12b0: 22 6d 22 20 69 73 20 74 68 65 0a 2a 2a 20 6e 75  "m" is the.** nu
12c0: 6d 62 65 72 20 6f 66 20 76 6f 77 65 6c 20 63 6f  mber of vowel co
12d0: 6e 73 6f 6e 61 6e 74 20 70 61 69 72 73 2e 20 20  nsonant pairs.  
12e0: 54 68 69 73 20 72 6f 75 74 69 6e 65 20 63 6f 6d  This routine com
12f0: 70 75 74 65 73 20 74 68 65 20 76 61 6c 75 65 0a  putes the value.
1300: 2a 2a 20 6f 66 20 6d 20 66 6f 72 20 74 68 65 20  ** of m for the 
1310: 66 69 72 73 74 20 69 20 62 79 74 65 73 20 6f 66  first i bytes of
1320: 20 61 20 77 6f 72 64 2e 0a 2a 2a 0a 2a 2a 20 52   a word..**.** R
1330: 65 74 75 72 6e 20 74 72 75 65 20 69 66 20 74 68  eturn true if th
1340: 65 20 6d 2d 76 61 6c 75 65 20 66 6f 72 20 7a 20  e m-value for z 
1350: 69 73 20 31 20 6f 72 20 6d 6f 72 65 2e 20 20 49  is 1 or more.  I
1360: 6e 20 6f 74 68 65 72 20 77 6f 72 64 73 2c 0a 2a  n other words,.*
1370: 2a 20 72 65 74 75 72 6e 20 74 72 75 65 20 69 66  * return true if
1380: 20 7a 20 63 6f 6e 74 61 69 6e 73 20 61 74 20 6c   z contains at l
1390: 65 61 73 74 20 6f 6e 65 20 76 6f 77 65 6c 20 74  east one vowel t
13a0: 68 61 74 20 69 73 20 66 6f 6c 6c 6f 77 65 64 0a  hat is followed.
13b0: 2a 2a 20 62 79 20 61 20 63 6f 6e 73 6f 6e 61 6e  ** by a consonan
13c0: 74 2e 0a 2a 2a 0a 2a 2a 20 49 6e 20 74 68 69 73  t..**.** In this
13d0: 20 72 6f 75 74 69 6e 65 20 7a 5b 5d 20 69 73 20   routine z[] is 
13e0: 69 6e 20 72 65 76 65 72 73 65 20 6f 72 64 65 72  in reverse order
13f0: 2e 20 20 53 6f 20 77 65 20 61 72 65 20 72 65 61  .  So we are rea
1400: 6c 6c 79 20 6c 6f 6f 6b 69 6e 67 0a 2a 2a 20 66  lly looking.** f
1410: 6f 72 20 61 6e 20 69 6e 73 74 61 6e 63 65 20 6f  or an instance o
1420: 66 20 6f 66 20 61 20 63 6f 6e 73 6f 6e 61 6e 74  f of a consonant
1430: 20 66 6f 6c 6c 6f 77 65 64 20 62 79 20 61 20 76   followed by a v
1440: 6f 77 65 6c 2e 0a 2a 2f 0a 73 74 61 74 69 63 20  owel..*/.static 
1450: 69 6e 74 20 6d 5f 67 74 5f 30 28 63 6f 6e 73 74  int m_gt_0(const
1460: 20 63 68 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69   char *z){.  whi
1470: 6c 65 28 20 69 73 56 6f 77 65 6c 28 7a 29 20 29  le( isVowel(z) )
1480: 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a  { z++; }.  if( *
1490: 7a 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 30 3b  z==0 ) return 0;
14a0: 0a 20 20 77 68 69 6c 65 28 20 69 73 43 6f 6e 73  .  while( isCons
14b0: 6f 6e 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b  onant(z) ){ z++;
14c0: 20 7d 0a 20 20 72 65 74 75 72 6e 20 2a 7a 21 3d   }.  return *z!=
14d0: 30 3b 0a 7d 0a 0a 2f 2a 20 4c 69 6b 65 20 6d 67  0;.}../* Like mg
14e0: 74 30 20 61 62 6f 76 65 20 65 78 63 65 70 74 20  t0 above except 
14f0: 77 65 20 61 72 65 20 6c 6f 6f 6b 69 6e 67 20 66  we are looking f
1500: 6f 72 20 61 20 76 61 6c 75 65 20 6f 66 20 6d 20  or a value of m 
1510: 77 68 69 63 68 20 69 73 0a 2a 2a 20 65 78 61 63  which is.** exac
1520: 74 6c 79 20 31 0a 2a 2f 0a 73 74 61 74 69 63 20  tly 1.*/.static 
1530: 69 6e 74 20 6d 5f 65 71 5f 31 28 63 6f 6e 73 74  int m_eq_1(const
1540: 20 63 68 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69   char *z){.  whi
1550: 6c 65 28 20 69 73 56 6f 77 65 6c 28 7a 29 20 29  le( isVowel(z) )
1560: 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a  { z++; }.  if( *
1570: 7a 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 30 3b  z==0 ) return 0;
1580: 0a 20 20 77 68 69 6c 65 28 20 69 73 43 6f 6e 73  .  while( isCons
1590: 6f 6e 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b  onant(z) ){ z++;
15a0: 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29   }.  if( *z==0 )
15b0: 20 72 65 74 75 72 6e 20 30 3b 0a 20 20 77 68 69   return 0;.  whi
15c0: 6c 65 28 20 69 73 56 6f 77 65 6c 28 7a 29 20 29  le( isVowel(z) )
15d0: 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a  { z++; }.  if( *
15e0: 7a 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 31 3b  z==0 ) return 1;
15f0: 0a 20 20 77 68 69 6c 65 28 20 69 73 43 6f 6e 73  .  while( isCons
1600: 6f 6e 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b  onant(z) ){ z++;
1610: 20 7d 0a 20 20 72 65 74 75 72 6e 20 2a 7a 3d 3d   }.  return *z==
1620: 30 3b 0a 7d 0a 0a 2f 2a 20 4c 69 6b 65 20 6d 67  0;.}../* Like mg
1630: 74 30 20 61 62 6f 76 65 20 65 78 63 65 70 74 20  t0 above except 
1640: 77 65 20 61 72 65 20 6c 6f 6f 6b 69 6e 67 20 66  we are looking f
1650: 6f 72 20 61 20 76 61 6c 75 65 20 6f 66 20 6d 3e  or a value of m>
1660: 31 20 69 6e 73 74 65 61 64 0a 2a 2a 20 6f 72 20  1 instead.** or 
1670: 6d 3e 30 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  m>0.*/.static in
1680: 74 20 6d 5f 67 74 5f 31 28 63 6f 6e 73 74 20 63  t m_gt_1(const c
1690: 68 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69 6c 65  har *z){.  while
16a0: 28 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20  ( isVowel(z) ){ 
16b0: 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d  z++; }.  if( *z=
16c0: 3d 30 20 29 20 72 65 74 75 72 6e 20 30 3b 0a 20  =0 ) return 0;. 
16d0: 20 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e   while( isConson
16e0: 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d  ant(z) ){ z++; }
16f0: 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29 20 72  .  if( *z==0 ) r
1700: 65 74 75 72 6e 20 30 3b 0a 20 20 77 68 69 6c 65  eturn 0;.  while
1710: 28 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20  ( isVowel(z) ){ 
1720: 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d  z++; }.  if( *z=
1730: 3d 30 20 29 20 72 65 74 75 72 6e 20 30 3b 0a 20  =0 ) return 0;. 
1740: 20 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e   while( isConson
1750: 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d  ant(z) ){ z++; }
1760: 0a 20 20 72 65 74 75 72 6e 20 2a 7a 21 3d 30 3b  .  return *z!=0;
1770: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e  .}../*.** Return
1780: 20 54 52 55 45 20 69 66 20 74 68 65 72 65 20 69   TRUE if there i
1790: 73 20 61 20 76 6f 77 65 6c 20 61 6e 79 77 68 65  s a vowel anywhe
17a0: 72 65 20 77 69 74 68 69 6e 20 7a 5b 30 2e 2e 6e  re within z[0..n
17b0: 2d 31 5d 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  -1].*/.static in
17c0: 74 20 68 61 73 56 6f 77 65 6c 28 63 6f 6e 73 74  t hasVowel(const
17d0: 20 63 68 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69   char *z){.  whi
17e0: 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28  le( isConsonant(
17f0: 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 72  z) ){ z++; }.  r
1800: 65 74 75 72 6e 20 2a 7a 21 3d 30 3b 0a 7d 0a 0a  eturn *z!=0;.}..
1810: 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 54 52 55  /*.** Return TRU
1820: 45 20 69 66 20 74 68 65 20 77 6f 72 64 20 65 6e  E if the word en
1830: 64 73 20 69 6e 20 61 20 64 6f 75 62 6c 65 20 63  ds in a double c
1840: 6f 6e 73 6f 6e 61 6e 74 2e 0a 2a 2a 0a 2a 2a 20  onsonant..**.** 
1850: 54 68 65 20 74 65 78 74 20 69 73 20 72 65 76 65  The text is reve
1860: 72 73 65 64 20 68 65 72 65 2e 20 53 6f 20 77 65  rsed here. So we
1870: 20 61 72 65 20 72 65 61 6c 6c 79 20 6c 6f 6f 6b   are really look
1880: 69 6e 67 20 61 74 0a 2a 2a 20 74 68 65 20 66 69  ing at.** the fi
1890: 72 73 74 20 74 77 6f 20 63 68 61 72 61 63 74 65  rst two characte
18a0: 72 73 20 6f 66 20 7a 5b 5d 2e 0a 2a 2f 0a 73 74  rs of z[]..*/.st
18b0: 61 74 69 63 20 69 6e 74 20 64 6f 75 62 6c 65 43  atic int doubleC
18c0: 6f 6e 73 6f 6e 61 6e 74 28 63 6f 6e 73 74 20 63  onsonant(const c
18d0: 68 61 72 20 2a 7a 29 7b 0a 20 20 72 65 74 75 72  har *z){.  retur
18e0: 6e 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29  n isConsonant(z)
18f0: 20 26 26 20 7a 5b 30 5d 3d 3d 7a 5b 31 5d 20 26   && z[0]==z[1] &
1900: 26 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 2b  & isConsonant(z+
1910: 31 29 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 52 65 74  1);.}../*.** Ret
1920: 75 72 6e 20 54 52 55 45 20 69 66 20 74 68 65 20  urn TRUE if the 
1930: 77 6f 72 64 20 65 6e 64 73 20 77 69 74 68 20 74  word ends with t
1940: 68 72 65 65 20 6c 65 74 74 65 72 73 20 77 68 69  hree letters whi
1950: 63 68 0a 2a 2a 20 61 72 65 20 63 6f 6e 73 6f 6e  ch.** are conson
1960: 61 6e 74 2d 76 6f 77 65 6c 2d 63 6f 6e 73 6f 6e  ant-vowel-conson
1970: 65 6e 74 20 61 6e 64 20 77 68 65 72 65 20 74 68  ent and where th
1980: 65 20 66 69 6e 61 6c 20 63 6f 6e 73 6f 6e 61 6e  e final consonan
1990: 74 0a 2a 2a 20 69 73 20 6e 6f 74 20 27 77 27 2c  t.** is not 'w',
19a0: 20 27 78 27 2c 20 6f 72 20 27 79 27 2e 0a 2a 2a   'x', or 'y'..**
19b0: 0a 2a 2a 20 54 68 65 20 77 6f 72 64 20 69 73 20  .** The word is 
19c0: 72 65 76 65 72 73 65 64 20 68 65 72 65 2e 20 20  reversed here.  
19d0: 53 6f 20 77 65 20 61 72 65 20 72 65 61 6c 6c 79  So we are really
19e0: 20 63 68 65 63 6b 69 6e 67 20 74 68 65 0a 2a 2a   checking the.**
19f0: 20 66 69 72 73 74 20 74 68 72 65 65 20 6c 65 74   first three let
1a00: 74 65 72 73 20 61 6e 64 20 74 68 65 20 66 69 72  ters and the fir
1a10: 73 74 20 6f 6e 65 20 63 61 6e 6e 6f 74 20 62 65  st one cannot be
1a20: 20 69 6e 20 5b 77 78 79 5d 2e 0a 2a 2f 0a 73 74   in [wxy]..*/.st
1a30: 61 74 69 63 20 69 6e 74 20 73 74 61 72 5f 6f 68  atic int star_oh
1a40: 28 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 29 7b  (const char *z){
1a50: 0a 20 20 72 65 74 75 72 6e 0a 20 20 20 20 7a 5b  .  return.    z[
1a60: 30 5d 21 3d 30 20 26 26 20 69 73 43 6f 6e 73 6f  0]!=0 && isConso
1a70: 6e 61 6e 74 28 7a 29 20 26 26 0a 20 20 20 20 7a  nant(z) &&.    z
1a80: 5b 30 5d 21 3d 27 77 27 20 26 26 20 7a 5b 30 5d  [0]!='w' && z[0]
1a90: 21 3d 27 78 27 20 26 26 20 7a 5b 30 5d 21 3d 27  !='x' && z[0]!='
1aa0: 79 27 20 26 26 0a 20 20 20 20 7a 5b 31 5d 21 3d  y' &&.    z[1]!=
1ab0: 30 20 26 26 20 69 73 56 6f 77 65 6c 28 7a 2b 31  0 && isVowel(z+1
1ac0: 29 20 26 26 0a 20 20 20 20 7a 5b 32 5d 21 3d 30  ) &&.    z[2]!=0
1ad0: 20 26 26 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28   && isConsonant(
1ae0: 7a 2b 32 29 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 49  z+2);.}../*.** I
1af0: 66 20 74 68 65 20 77 6f 72 64 20 65 6e 64 73 20  f the word ends 
1b00: 77 69 74 68 20 7a 46 72 6f 6d 20 61 6e 64 20 78  with zFrom and x
1b10: 43 6f 6e 64 28 29 20 69 73 20 74 72 75 65 20 66  Cond() is true f
1b20: 6f 72 20 74 68 65 20 73 74 65 6d 0a 2a 2a 20 6f  or the stem.** o
1b30: 66 20 74 68 65 20 77 6f 72 64 20 74 68 61 74 20  f the word that 
1b40: 70 72 65 63 65 65 64 73 20 74 68 65 20 7a 46 72  preceeds the zFr
1b50: 6f 6d 20 65 6e 64 69 6e 67 2c 20 74 68 65 6e 20  om ending, then 
1b60: 63 68 61 6e 67 65 20 74 68 65 20 0a 2a 2a 20 65  change the .** e
1b70: 6e 64 69 6e 67 20 74 6f 20 7a 54 6f 2e 0a 2a 2a  nding to zTo..**
1b80: 0a 2a 2a 20 54 68 65 20 69 6e 70 75 74 20 77 6f  .** The input wo
1b90: 72 64 20 2a 70 7a 20 61 6e 64 20 7a 46 72 6f 6d  rd *pz and zFrom
1ba0: 20 61 72 65 20 62 6f 74 68 20 69 6e 20 72 65 76   are both in rev
1bb0: 65 72 73 65 20 6f 72 64 65 72 2e 20 20 7a 54 6f  erse order.  zTo
1bc0: 0a 2a 2a 20 69 73 20 69 6e 20 6e 6f 72 6d 61 6c  .** is in normal
1bd0: 20 6f 72 64 65 72 2e 20 0a 2a 2a 0a 2a 2a 20 52   order. .**.** R
1be0: 65 74 75 72 6e 20 54 52 55 45 20 69 66 20 7a 46  eturn TRUE if zF
1bf0: 72 6f 6d 20 6d 61 74 63 68 65 73 2e 20 20 52 65  rom matches.  Re
1c00: 74 75 72 6e 20 46 41 4c 53 45 20 69 66 20 7a 46  turn FALSE if zF
1c10: 72 6f 6d 20 64 6f 65 73 20 6e 6f 74 0a 2a 2a 20  rom does not.** 
1c20: 6d 61 74 63 68 2e 20 20 4e 6f 74 20 74 68 61 74  match.  Not that
1c30: 20 54 52 55 45 20 69 73 20 72 65 74 75 72 6e 65   TRUE is returne
1c40: 64 20 65 76 65 6e 20 69 66 20 78 43 6f 6e 64 28  d even if xCond(
1c50: 29 20 66 61 69 6c 73 20 61 6e 64 0a 2a 2a 20 6e  ) fails and.** n
1c60: 6f 20 73 75 62 73 74 69 74 75 74 69 6f 6e 20 6f  o substitution o
1c70: 63 63 75 72 73 2e 0a 2a 2f 0a 73 74 61 74 69 63  ccurs..*/.static
1c80: 20 69 6e 74 20 73 74 65 6d 28 0a 20 20 63 68 61   int stem(.  cha
1c90: 72 20 2a 2a 70 7a 2c 20 20 20 20 20 20 20 20 20  r **pz,         
1ca0: 20 20 20 20 2f 2a 20 54 68 65 20 77 6f 72 64 20      /* The word 
1cb0: 62 65 69 6e 67 20 73 74 65 6d 6d 65 64 20 28 52  being stemmed (R
1cc0: 65 76 65 72 73 65 64 29 20 2a 2f 0a 20 20 63 6f  eversed) */.  co
1cd0: 6e 73 74 20 63 68 61 72 20 2a 7a 46 72 6f 6d 2c  nst char *zFrom,
1ce0: 20 20 20 20 20 2f 2a 20 49 66 20 74 68 65 20 65       /* If the e
1cf0: 6e 64 69 6e 67 20 6d 61 74 63 68 65 73 20 74 68  nding matches th
1d00: 69 73 2e 2e 2e 20 28 52 65 76 65 72 73 65 64 29  is... (Reversed)
1d10: 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61 72   */.  const char
1d20: 20 2a 7a 54 6f 2c 20 20 20 20 20 20 20 2f 2a 20   *zTo,       /* 
1d30: 2e 2e 2e 20 63 68 61 6e 67 65 20 74 68 65 20 65  ... change the e
1d40: 6e 64 69 6e 67 20 74 6f 20 74 68 69 73 20 28 6e  nding to this (n
1d50: 6f 74 20 72 65 76 65 72 73 65 64 29 20 2a 2f 0a  ot reversed) */.
1d60: 20 20 69 6e 74 20 28 2a 78 43 6f 6e 64 29 28 63    int (*xCond)(c
1d70: 6f 6e 73 74 20 63 68 61 72 2a 29 20 20 20 2f 2a  onst char*)   /*
1d80: 20 43 6f 6e 64 69 74 69 6f 6e 20 74 68 61 74 20   Condition that 
1d90: 6d 75 73 74 20 62 65 20 74 72 75 65 20 2a 2f 0a  must be true */.
1da0: 29 7b 0a 20 20 63 68 61 72 20 2a 7a 20 3d 20 2a  ){.  char *z = *
1db0: 70 7a 3b 0a 20 20 77 68 69 6c 65 28 20 2a 7a 46  pz;.  while( *zF
1dc0: 72 6f 6d 20 26 26 20 2a 7a 46 72 6f 6d 3d 3d 2a  rom && *zFrom==*
1dd0: 7a 20 29 7b 20 7a 2b 2b 3b 20 7a 46 72 6f 6d 2b  z ){ z++; zFrom+
1de0: 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 46 72 6f  +; }.  if( *zFro
1df0: 6d 21 3d 30 20 29 20 72 65 74 75 72 6e 20 30 3b  m!=0 ) return 0;
1e00: 0a 20 20 69 66 28 20 78 43 6f 6e 64 20 26 26 20  .  if( xCond && 
1e10: 21 78 43 6f 6e 64 28 7a 29 20 29 20 72 65 74 75  !xCond(z) ) retu
1e20: 72 6e 20 31 3b 0a 20 20 77 68 69 6c 65 28 20 2a  rn 1;.  while( *
1e30: 7a 54 6f 20 29 7b 0a 20 20 20 20 2a 28 2d 2d 7a  zTo ){.    *(--z
1e40: 29 20 3d 20 2a 28 7a 54 6f 2b 2b 29 3b 0a 20 20  ) = *(zTo++);.  
1e50: 7d 0a 20 20 2a 70 7a 20 3d 20 7a 3b 0a 20 20 72  }.  *pz = z;.  r
1e60: 65 74 75 72 6e 20 31 3b 0a 7d 0a 0a 2f 2a 0a 2a  eturn 1;.}../*.*
1e70: 2a 20 54 68 69 73 20 69 73 20 74 68 65 20 66 61  * This is the fa
1e80: 6c 6c 62 61 63 6b 20 73 74 65 6d 6d 65 72 20 75  llback stemmer u
1e90: 73 65 64 20 77 68 65 6e 20 74 68 65 20 70 6f 72  sed when the por
1ea0: 74 65 72 20 73 74 65 6d 6d 65 72 20 69 73 0a 2a  ter stemmer is.*
1eb0: 2a 20 69 6e 61 70 70 72 6f 70 72 69 61 74 65 2e  * inappropriate.
1ec0: 20 20 54 68 65 20 69 6e 70 75 74 20 77 6f 72 64    The input word
1ed0: 20 69 73 20 63 6f 70 69 65 64 20 69 6e 74 6f 20   is copied into 
1ee0: 74 68 65 20 6f 75 74 70 75 74 20 77 69 74 68 0a  the output with.
1ef0: 2a 2a 20 55 53 2d 41 53 43 49 49 20 63 61 73 65  ** US-ASCII case
1f00: 20 66 6f 6c 64 69 6e 67 2e 20 20 49 66 20 74 68   folding.  If th
1f10: 65 20 69 6e 70 75 74 20 77 6f 72 64 20 69 73 20  e input word is 
1f20: 74 6f 6f 20 6c 6f 6e 67 20 28 6d 6f 72 65 0a 2a  too long (more.*
1f30: 2a 20 74 68 61 6e 20 32 30 20 62 79 74 65 73 20  * than 20 bytes 
1f40: 69 66 20 69 74 20 63 6f 6e 74 61 69 6e 73 20 6e  if it contains n
1f50: 6f 20 64 69 67 69 74 73 20 6f 72 20 6d 6f 72 65  o digits or more
1f60: 20 74 68 61 6e 20 36 20 62 79 74 65 73 20 69 66   than 6 bytes if
1f70: 0a 2a 2a 20 69 74 20 63 6f 6e 74 61 69 6e 73 20  .** it contains 
1f80: 64 69 67 69 74 73 29 20 74 68 65 6e 20 77 6f 72  digits) then wor
1f90: 64 20 69 73 20 74 72 75 6e 63 61 74 65 64 20 74  d is truncated t
1fa0: 6f 20 32 30 20 6f 72 20 36 20 62 79 74 65 73 0a  o 20 or 6 bytes.
1fb0: 2a 2a 20 62 79 20 74 61 6b 69 6e 67 20 31 30 20  ** by taking 10 
1fc0: 6f 72 20 33 20 62 79 74 65 73 20 66 72 6f 6d 20  or 3 bytes from 
1fd0: 74 68 65 20 62 65 67 69 6e 6e 69 6e 67 20 61 6e  the beginning an
1fe0: 64 20 65 6e 64 2e 0a 2a 2f 0a 73 74 61 74 69 63  d end..*/.static
1ff0: 20 76 6f 69 64 20 63 6f 70 79 5f 73 74 65 6d 6d   void copy_stemm
2000: 65 72 28 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a  er(const char *z
2010: 49 6e 2c 20 69 6e 74 20 6e 49 6e 2c 20 63 68 61  In, int nIn, cha
2020: 72 20 2a 7a 4f 75 74 2c 20 69 6e 74 20 2a 70 6e  r *zOut, int *pn
2030: 4f 75 74 29 7b 0a 20 20 69 6e 74 20 69 2c 20 6d  Out){.  int i, m
2040: 78 2c 20 6a 3b 0a 20 20 69 6e 74 20 68 61 73 44  x, j;.  int hasD
2050: 69 67 69 74 20 3d 20 30 3b 0a 20 20 66 6f 72 28  igit = 0;.  for(
2060: 69 3d 30 3b 20 69 3c 6e 49 6e 3b 20 69 2b 2b 29  i=0; i<nIn; i++)
2070: 7b 0a 20 20 20 20 69 6e 74 20 63 20 3d 20 7a 49  {.    int c = zI
2080: 6e 5b 69 5d 3b 0a 20 20 20 20 69 66 28 20 63 3e  n[i];.    if( c>
2090: 3d 27 41 27 20 26 26 20 63 3c 3d 27 5a 27 20 29  ='A' && c<='Z' )
20a0: 7b 0a 20 20 20 20 20 20 7a 4f 75 74 5b 69 5d 20  {.      zOut[i] 
20b0: 3d 20 63 20 2d 20 27 41 27 20 2b 20 27 61 27 3b  = c - 'A' + 'a';
20c0: 0a 20 20 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20  .    }else{.    
20d0: 20 20 69 66 28 20 63 3e 3d 27 30 27 20 26 26 20    if( c>='0' && 
20e0: 63 3c 3d 27 39 27 20 29 20 68 61 73 44 69 67 69  c<='9' ) hasDigi
20f0: 74 20 3d 20 31 3b 0a 20 20 20 20 20 20 7a 4f 75  t = 1;.      zOu
2100: 74 5b 69 5d 20 3d 20 63 3b 0a 20 20 20 20 7d 0a  t[i] = c;.    }.
2110: 20 20 7d 0a 20 20 6d 78 20 3d 20 68 61 73 44 69    }.  mx = hasDi
2120: 67 69 74 20 3f 20 33 20 3a 20 31 30 3b 0a 20 20  git ? 3 : 10;.  
2130: 69 66 28 20 6e 49 6e 3e 6d 78 2a 32 20 29 7b 0a  if( nIn>mx*2 ){.
2140: 20 20 20 20 66 6f 72 28 6a 3d 6d 78 2c 20 69 3d      for(j=mx, i=
2150: 6e 49 6e 2d 6d 78 3b 20 69 3c 6e 49 6e 3b 20 69  nIn-mx; i<nIn; i
2160: 2b 2b 2c 20 6a 2b 2b 29 7b 0a 20 20 20 20 20 20  ++, j++){.      
2170: 7a 4f 75 74 5b 6a 5d 20 3d 20 7a 4f 75 74 5b 69  zOut[j] = zOut[i
2180: 5d 3b 0a 20 20 20 20 7d 0a 20 20 20 20 69 20 3d  ];.    }.    i =
2190: 20 6a 3b 0a 20 20 7d 0a 20 20 7a 4f 75 74 5b 69   j;.  }.  zOut[i
21a0: 5d 20 3d 20 30 3b 0a 20 20 2a 70 6e 4f 75 74 20  ] = 0;.  *pnOut 
21b0: 3d 20 69 3b 0a 7d 0a 0a 0a 2f 2a 0a 2a 2a 20 53  = i;.}.../*.** S
21c0: 74 65 6d 20 74 68 65 20 69 6e 70 75 74 20 77 6f  tem the input wo
21d0: 72 64 20 7a 49 6e 5b 30 2e 2e 6e 49 6e 2d 31 5d  rd zIn[0..nIn-1]
21e0: 2e 20 20 53 74 6f 72 65 20 74 68 65 20 6f 75 74  .  Store the out
21f0: 70 75 74 20 69 6e 20 7a 4f 75 74 2e 0a 2a 2a 20  put in zOut..** 
2200: 7a 4f 75 74 20 69 73 20 61 74 20 6c 65 61 73 74  zOut is at least
2210: 20 62 69 67 20 65 6e 6f 75 67 68 20 74 6f 20 68   big enough to h
2220: 6f 6c 64 20 6e 49 6e 20 62 79 74 65 73 2e 20 20  old nIn bytes.  
2230: 57 72 69 74 65 20 74 68 65 20 61 63 74 75 61 6c  Write the actual
2240: 0a 2a 2a 20 73 69 7a 65 20 6f 66 20 74 68 65 20  .** size of the 
2250: 6f 75 74 70 75 74 20 77 6f 72 64 20 28 65 78 63  output word (exc
2260: 6c 75 73 69 76 65 20 6f 66 20 74 68 65 20 27 5c  lusive of the '\
2270: 30 27 20 74 65 72 6d 69 6e 61 74 6f 72 29 20 69  0' terminator) i
2280: 6e 74 6f 20 2a 70 6e 4f 75 74 2e 0a 2a 2a 0a 2a  nto *pnOut..**.*
2290: 2a 20 41 6e 79 20 75 70 70 65 72 2d 63 61 73 65  * Any upper-case
22a0: 20 63 68 61 72 61 63 74 65 72 73 20 69 6e 20 74   characters in t
22b0: 68 65 20 55 53 2d 41 53 43 49 49 20 63 68 61 72  he US-ASCII char
22c0: 61 63 74 65 72 20 73 65 74 20 28 5b 41 2d 5a 5d  acter set ([A-Z]
22d0: 29 0a 2a 2a 20 61 72 65 20 63 6f 6e 76 65 72 74  ).** are convert
22e0: 65 64 20 74 6f 20 6c 6f 77 65 72 20 63 61 73 65  ed to lower case
22f0: 2e 20 20 55 70 70 65 72 2d 63 61 73 65 20 55 54  .  Upper-case UT
2300: 46 20 63 68 61 72 61 63 74 65 72 73 20 61 72 65  F characters are
2310: 0a 2a 2a 20 75 6e 63 68 61 6e 67 65 64 2e 0a 2a  .** unchanged..*
2320: 2a 0a 2a 2a 20 57 6f 72 64 73 20 74 68 61 74 20  *.** Words that 
2330: 61 72 65 20 6c 6f 6e 67 65 72 20 74 68 61 6e 20  are longer than 
2340: 61 62 6f 75 74 20 32 30 20 62 79 74 65 73 20 61  about 20 bytes a
2350: 72 65 20 73 74 65 6d 6d 65 64 20 62 79 20 72 65  re stemmed by re
2360: 74 61 69 6e 69 6e 67 0a 2a 2a 20 61 20 66 65 77  taining.** a few
2370: 20 62 79 74 65 73 20 66 72 6f 6d 20 74 68 65 20   bytes from the 
2380: 62 65 67 69 6e 6e 69 6e 67 20 61 6e 64 20 74 68  beginning and th
2390: 65 20 65 6e 64 20 6f 66 20 74 68 65 20 77 6f 72  e end of the wor
23a0: 64 2e 20 20 49 66 20 74 68 65 0a 2a 2a 20 77 6f  d.  If the.** wo
23b0: 72 64 20 63 6f 6e 74 61 69 6e 73 20 64 69 67 69  rd contains digi
23c0: 74 73 2c 20 33 20 62 79 74 65 73 20 61 72 65 20  ts, 3 bytes are 
23d0: 74 61 6b 65 6e 20 66 72 6f 6d 20 74 68 65 20 62  taken from the b
23e0: 65 67 69 6e 6e 69 6e 67 20 61 6e 64 0a 2a 2a 20  eginning and.** 
23f0: 33 20 62 79 74 65 73 20 66 72 6f 6d 20 74 68 65  3 bytes from the
2400: 20 65 6e 64 2e 20 20 46 6f 72 20 6c 6f 6e 67 20   end.  For long 
2410: 77 6f 72 64 73 20 77 69 74 68 6f 75 74 20 64 69  words without di
2420: 67 69 74 73 2c 20 31 30 20 62 79 74 65 73 0a 2a  gits, 10 bytes.*
2430: 2a 20 61 72 65 20 74 61 6b 65 6e 20 66 72 6f 6d  * are taken from
2440: 20 65 61 63 68 20 65 6e 64 2e 20 20 55 53 2d 41   each end.  US-A
2450: 53 43 49 49 20 63 61 73 65 20 66 6f 6c 64 69 6e  SCII case foldin
2460: 67 20 73 74 69 6c 6c 20 61 70 70 6c 69 65 73 2e  g still applies.
2470: 0a 2a 2a 20 0a 2a 2a 20 49 66 20 74 68 65 20 69  .** .** If the i
2480: 6e 70 75 74 20 77 6f 72 64 20 63 6f 6e 74 61 69  nput word contai
2490: 6e 73 20 6e 6f 74 20 64 69 67 69 74 73 20 62 75  ns not digits bu
24a0: 74 20 64 6f 65 73 20 63 68 61 72 61 63 74 65 72  t does character
24b0: 73 20 6e 6f 74 20 0a 2a 2a 20 69 6e 20 5b 61 2d  s not .** in [a-
24c0: 7a 41 2d 5a 5d 20 74 68 65 6e 20 6e 6f 20 73 74  zA-Z] then no st
24d0: 65 6d 6d 69 6e 67 20 69 73 20 61 74 74 65 6d 70  emming is attemp
24e0: 74 65 64 20 61 6e 64 20 74 68 69 73 20 72 6f 75  ted and this rou
24f0: 74 69 6e 65 20 6a 75 73 74 20 0a 2a 2a 20 63 6f  tine just .** co
2500: 70 69 65 73 20 74 68 65 20 69 6e 70 75 74 20 69  pies the input i
2510: 6e 74 6f 20 74 68 65 20 69 6e 70 75 74 20 69 6e  nto the input in
2520: 74 6f 20 74 68 65 20 6f 75 74 70 75 74 20 77 69  to the output wi
2530: 74 68 20 55 53 2d 41 53 43 49 49 0a 2a 2a 20 63  th US-ASCII.** c
2540: 61 73 65 20 66 6f 6c 64 69 6e 67 2e 0a 2a 2a 0a  ase folding..**.
2550: 2a 2a 20 53 74 65 6d 6d 69 6e 67 20 6e 65 76 65  ** Stemming neve
2560: 72 20 69 6e 63 72 65 61 73 65 73 20 74 68 65 20  r increases the 
2570: 6c 65 6e 67 74 68 20 6f 66 20 74 68 65 20 77 6f  length of the wo
2580: 72 64 2e 20 20 53 6f 20 74 68 65 72 65 20 69 73  rd.  So there is
2590: 0a 2a 2a 20 6e 6f 20 63 68 61 6e 63 65 20 6f 66  .** no chance of
25a0: 20 6f 76 65 72 66 6c 6f 77 69 6e 67 20 74 68 65   overflowing the
25b0: 20 7a 4f 75 74 20 62 75 66 66 65 72 2e 0a 2a 2f   zOut buffer..*/
25c0: 0a 73 74 61 74 69 63 20 76 6f 69 64 20 70 6f 72  .static void por
25d0: 74 65 72 5f 73 74 65 6d 6d 65 72 28 63 6f 6e 73  ter_stemmer(cons
25e0: 74 20 63 68 61 72 20 2a 7a 49 6e 2c 20 69 6e 74  t char *zIn, int
25f0: 20 6e 49 6e 2c 20 63 68 61 72 20 2a 7a 4f 75 74   nIn, char *zOut
2600: 2c 20 69 6e 74 20 2a 70 6e 4f 75 74 29 7b 0a 20  , int *pnOut){. 
2610: 20 69 6e 74 20 69 2c 20 6a 2c 20 63 3b 0a 20 20   int i, j, c;.  
2620: 63 68 61 72 20 7a 52 65 76 65 72 73 65 5b 32 38  char zReverse[28
2630: 5d 3b 0a 20 20 63 68 61 72 20 2a 7a 2c 20 2a 7a  ];.  char *z, *z
2640: 32 3b 0a 20 20 69 66 28 20 6e 49 6e 3c 33 20 7c  2;.  if( nIn<3 |
2650: 7c 20 6e 49 6e 3e 3d 73 69 7a 65 6f 66 28 7a 52  | nIn>=sizeof(zR
2660: 65 76 65 72 73 65 29 2d 37 20 29 7b 0a 20 20 20  everse)-7 ){.   
2670: 20 2f 2a 20 54 68 65 20 77 6f 72 64 20 69 73 20   /* The word is 
2680: 74 6f 6f 20 62 69 67 20 6f 72 20 74 6f 6f 20 73  too big or too s
2690: 6d 61 6c 6c 20 66 6f 72 20 74 68 65 20 70 6f 72  mall for the por
26a0: 74 65 72 20 73 74 65 6d 6d 65 72 2e 0a 20 20 20  ter stemmer..   
26b0: 20 2a 2a 20 46 61 6c 6c 62 61 63 6b 20 74 6f 20   ** Fallback to 
26c0: 74 68 65 20 63 6f 70 79 20 73 74 65 6d 6d 65 72  the copy stemmer
26d0: 20 2a 2f 0a 20 20 20 20 63 6f 70 79 5f 73 74 65   */.    copy_ste
26e0: 6d 6d 65 72 28 7a 49 6e 2c 20 6e 49 6e 2c 20 7a  mmer(zIn, nIn, z
26f0: 4f 75 74 2c 20 70 6e 4f 75 74 29 3b 0a 20 20 20  Out, pnOut);.   
2700: 20 72 65 74 75 72 6e 3b 0a 20 20 7d 0a 20 20 66   return;.  }.  f
2710: 6f 72 28 69 3d 30 2c 20 6a 3d 73 69 7a 65 6f 66  or(i=0, j=sizeof
2720: 28 7a 52 65 76 65 72 73 65 29 2d 36 3b 20 69 3c  (zReverse)-6; i<
2730: 6e 49 6e 3b 20 69 2b 2b 2c 20 6a 2d 2d 29 7b 0a  nIn; i++, j--){.
2740: 20 20 20 20 63 20 3d 20 7a 49 6e 5b 69 5d 3b 0a      c = zIn[i];.
2750: 20 20 20 20 69 66 28 20 63 3e 3d 27 41 27 20 26      if( c>='A' &
2760: 26 20 63 3c 3d 27 5a 27 20 29 7b 0a 20 20 20 20  & c<='Z' ){.    
2770: 20 20 7a 52 65 76 65 72 73 65 5b 6a 5d 20 3d 20    zReverse[j] = 
2780: 63 20 2b 20 27 61 27 20 2d 20 27 41 27 3b 0a 20  c + 'a' - 'A';. 
2790: 20 20 20 7d 65 6c 73 65 20 69 66 28 20 63 3e 3d     }else if( c>=
27a0: 27 61 27 20 26 26 20 63 3c 3d 27 7a 27 20 29 7b  'a' && c<='z' ){
27b0: 0a 20 20 20 20 20 20 7a 52 65 76 65 72 73 65 5b  .      zReverse[
27c0: 6a 5d 20 3d 20 63 3b 0a 20 20 20 20 7d 65 6c 73  j] = c;.    }els
27d0: 65 7b 0a 20 20 20 20 20 20 2f 2a 20 54 68 65 20  e{.      /* The 
27e0: 75 73 65 20 6f 66 20 61 20 63 68 61 72 61 63 74  use of a charact
27f0: 65 72 20 6e 6f 74 20 69 6e 20 5b 61 2d 7a 41 2d  er not in [a-zA-
2800: 5a 5d 20 6d 65 61 6e 73 20 74 68 61 74 20 77 65  Z] means that we
2810: 20 66 61 6c 6c 62 61 63 6b 0a 20 20 20 20 20 20   fallback.      
2820: 2a 2a 20 74 6f 20 74 68 65 20 63 6f 70 79 20 73  ** to the copy s
2830: 74 65 6d 6d 65 72 20 2a 2f 0a 20 20 20 20 20 20  temmer */.      
2840: 63 6f 70 79 5f 73 74 65 6d 6d 65 72 28 7a 49 6e  copy_stemmer(zIn
2850: 2c 20 6e 49 6e 2c 20 7a 4f 75 74 2c 20 70 6e 4f  , nIn, zOut, pnO
2860: 75 74 29 3b 0a 20 20 20 20 20 20 72 65 74 75 72  ut);.      retur
2870: 6e 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 20 20 6d  n;.    }.  }.  m
2880: 65 6d 73 65 74 28 26 7a 52 65 76 65 72 73 65 5b  emset(&zReverse[
2890: 73 69 7a 65 6f 66 28 7a 52 65 76 65 72 73 65 29  sizeof(zReverse)
28a0: 2d 35 5d 2c 20 30 2c 20 35 29 3b 0a 20 20 7a 20  -5], 0, 5);.  z 
28b0: 3d 20 26 7a 52 65 76 65 72 73 65 5b 6a 2b 31 5d  = &zReverse[j+1]
28c0: 3b 0a 0a 0a 20 20 2f 2a 20 53 74 65 70 20 31 61  ;...  /* Step 1a
28d0: 20 2a 2f 0a 20 20 69 66 28 20 7a 5b 30 5d 3d 3d   */.  if( z[0]==
28e0: 27 73 27 20 29 7b 0a 20 20 20 20 69 66 28 0a 20  's' ){.    if(. 
28f0: 20 20 20 20 21 73 74 65 6d 28 26 7a 2c 20 22 73      !stem(&z, "s
2900: 65 73 73 22 2c 20 22 73 73 22 2c 20 30 29 20 26  ess", "ss", 0) &
2910: 26 0a 20 20 20 20 20 21 73 74 65 6d 28 26 7a 2c  &.     !stem(&z,
2920: 20 22 73 65 69 22 2c 20 22 69 22 2c 20 30 29 20   "sei", "i", 0) 
2930: 20 26 26 0a 20 20 20 20 20 21 73 74 65 6d 28 26   &&.     !stem(&
2940: 7a 2c 20 22 73 73 22 2c 20 22 73 73 22 2c 20 30  z, "ss", "ss", 0
2950: 29 0a 20 20 20 20 29 7b 0a 20 20 20 20 20 20 7a  ).    ){.      z
2960: 2b 2b 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20  ++;.    }.  }.. 
2970: 20 2f 2a 20 53 74 65 70 20 31 62 20 2a 2f 20 20   /* Step 1b */  
2980: 0a 20 20 7a 32 20 3d 20 7a 3b 0a 20 20 69 66 28  .  z2 = z;.  if(
2990: 20 73 74 65 6d 28 26 7a 2c 20 22 64 65 65 22 2c   stem(&z, "dee",
29a0: 20 22 65 65 22 2c 20 6d 5f 67 74 5f 30 29 20 29   "ee", m_gt_0) )
29b0: 7b 0a 20 20 20 20 2f 2a 20 44 6f 20 6e 6f 74 68  {.    /* Do noth
29c0: 69 6e 67 2e 20 20 54 68 65 20 77 6f 72 6b 20 77  ing.  The work w
29d0: 61 73 20 61 6c 6c 20 69 6e 20 74 68 65 20 74 65  as all in the te
29e0: 73 74 20 2a 2f 0a 20 20 7d 65 6c 73 65 20 69 66  st */.  }else if
29f0: 28 20 0a 20 20 20 20 20 28 73 74 65 6d 28 26 7a  ( .     (stem(&z
2a00: 2c 20 22 67 6e 69 22 2c 20 22 22 2c 20 68 61 73  , "gni", "", has
2a10: 56 6f 77 65 6c 29 20 7c 7c 20 73 74 65 6d 28 26  Vowel) || stem(&
2a20: 7a 2c 20 22 64 65 22 2c 20 22 22 2c 20 68 61 73  z, "de", "", has
2a30: 56 6f 77 65 6c 29 29 0a 20 20 20 20 20 20 26 26  Vowel)).      &&
2a40: 20 7a 21 3d 7a 32 0a 20 20 29 7b 0a 20 20 20 20   z!=z2.  ){.    
2a50: 20 69 66 28 20 73 74 65 6d 28 26 7a 2c 20 22 74   if( stem(&z, "t
2a60: 61 22 2c 20 22 61 74 65 22 2c 20 30 29 20 7c 7c  a", "ate", 0) ||
2a70: 0a 20 20 20 20 20 20 20 20 20 73 74 65 6d 28 26  .         stem(&
2a80: 7a 2c 20 22 6c 62 22 2c 20 22 62 6c 65 22 2c 20  z, "lb", "ble", 
2a90: 30 29 20 7c 7c 0a 20 20 20 20 20 20 20 20 20 73  0) ||.         s
2aa0: 74 65 6d 28 26 7a 2c 20 22 7a 69 22 2c 20 22 69  tem(&z, "zi", "i
2ab0: 7a 65 22 2c 20 30 29 20 29 7b 0a 20 20 20 20 20  ze", 0) ){.     
2ac0: 20 20 2f 2a 20 44 6f 20 6e 6f 74 68 69 6e 67 2e    /* Do nothing.
2ad0: 20 20 54 68 65 20 77 6f 72 6b 20 77 61 73 20 61    The work was a
2ae0: 6c 6c 20 69 6e 20 74 68 65 20 74 65 73 74 20 2a  ll in the test *
2af0: 2f 0a 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28  /.     }else if(
2b00: 20 64 6f 75 62 6c 65 43 6f 6e 73 6f 6e 61 6e 74   doubleConsonant
2b10: 28 7a 29 20 26 26 20 28 2a 7a 21 3d 27 6c 27 20  (z) && (*z!='l' 
2b20: 26 26 20 2a 7a 21 3d 27 73 27 20 26 26 20 2a 7a  && *z!='s' && *z
2b30: 21 3d 27 7a 27 29 20 29 7b 0a 20 20 20 20 20 20  !='z') ){.      
2b40: 20 7a 2b 2b 3b 0a 20 20 20 20 20 7d 65 6c 73 65   z++;.     }else
2b50: 20 69 66 28 20 6d 5f 65 71 5f 31 28 7a 29 20 26   if( m_eq_1(z) &
2b60: 26 20 73 74 61 72 5f 6f 68 28 7a 29 20 29 7b 0a  & star_oh(z) ){.
2b70: 20 20 20 20 20 20 20 2a 28 2d 2d 7a 29 20 3d 20         *(--z) = 
2b80: 27 65 27 3b 0a 20 20 20 20 20 7d 0a 20 20 7d 0a  'e';.     }.  }.
2b90: 0a 20 20 2f 2a 20 53 74 65 70 20 31 63 20 2a 2f  .  /* Step 1c */
2ba0: 0a 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 79 27  .  if( z[0]=='y'
2bb0: 20 26 26 20 68 61 73 56 6f 77 65 6c 28 7a 2b 31   && hasVowel(z+1
2bc0: 29 20 29 7b 0a 20 20 20 20 7a 5b 30 5d 20 3d 20  ) ){.    z[0] = 
2bd0: 27 69 27 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53  'i';.  }..  /* S
2be0: 74 65 70 20 32 20 2a 2f 0a 20 20 73 77 69 74 63  tep 2 */.  switc
2bf0: 68 28 20 7a 5b 31 5d 20 29 7b 0a 20 20 20 63 61  h( z[1] ){.   ca
2c00: 73 65 20 27 61 27 3a 0a 20 20 20 20 20 73 74 65  se 'a':.     ste
2c10: 6d 28 26 7a 2c 20 22 6c 61 6e 6f 69 74 61 22 2c  m(&z, "lanoita",
2c20: 20 22 61 74 65 22 2c 20 6d 5f 67 74 5f 30 29 20   "ate", m_gt_0) 
2c30: 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ||.     stem(&z,
2c40: 20 22 6c 61 6e 6f 69 74 22 2c 20 22 74 69 6f 6e   "lanoit", "tion
2c50: 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20  ", m_gt_0);.    
2c60: 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20   break;.   case 
2c70: 27 63 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26  'c':.     stem(&
2c80: 7a 2c 20 22 69 63 6e 65 22 2c 20 22 65 6e 63 65  z, "icne", "ence
2c90: 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20  ", m_gt_0) ||.  
2ca0: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 63 6e     stem(&z, "icn
2cb0: 61 22 2c 20 22 61 6e 63 65 22 2c 20 6d 5f 67 74  a", "ance", m_gt
2cc0: 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b  _0);.     break;
2cd0: 0a 20 20 20 63 61 73 65 20 27 65 27 3a 0a 20 20  .   case 'e':.  
2ce0: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 72 65 7a     stem(&z, "rez
2cf0: 69 22 2c 20 22 69 7a 65 22 2c 20 6d 5f 67 74 5f  i", "ize", m_gt_
2d00: 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a  0);.     break;.
2d10: 20 20 20 63 61 73 65 20 27 67 27 3a 0a 20 20 20     case 'g':.   
2d20: 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 67 6f 6c    stem(&z, "igol
2d30: 22 2c 20 22 6c 6f 67 22 2c 20 6d 5f 67 74 5f 30  ", "log", m_gt_0
2d40: 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20  );.     break;. 
2d50: 20 20 63 61 73 65 20 27 6c 27 3a 0a 20 20 20 20    case 'l':.    
2d60: 20 73 74 65 6d 28 26 7a 2c 20 22 69 6c 62 22 2c   stem(&z, "ilb",
2d70: 20 22 62 6c 65 22 2c 20 6d 5f 67 74 5f 30 29 20   "ble", m_gt_0) 
2d80: 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ||.     stem(&z,
2d90: 20 22 69 6c 6c 61 22 2c 20 22 61 6c 22 2c 20 6d   "illa", "al", m
2da0: 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73  _gt_0) ||.     s
2db0: 74 65 6d 28 26 7a 2c 20 22 69 6c 74 6e 65 22 2c  tem(&z, "iltne",
2dc0: 20 22 65 6e 74 22 2c 20 6d 5f 67 74 5f 30 29 20   "ent", m_gt_0) 
2dd0: 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ||.     stem(&z,
2de0: 20 22 69 6c 65 22 2c 20 22 65 22 2c 20 6d 5f 67   "ile", "e", m_g
2df0: 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74 65  t_0) ||.     ste
2e00: 6d 28 26 7a 2c 20 22 69 6c 73 75 6f 22 2c 20 22  m(&z, "ilsuo", "
2e10: 6f 75 73 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20  ous", m_gt_0);. 
2e20: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61      break;.   ca
2e30: 73 65 20 27 6f 27 3a 0a 20 20 20 20 20 73 74 65  se 'o':.     ste
2e40: 6d 28 26 7a 2c 20 22 6e 6f 69 74 61 7a 69 22 2c  m(&z, "noitazi",
2e50: 20 22 69 7a 65 22 2c 20 6d 5f 67 74 5f 30 29 20   "ize", m_gt_0) 
2e60: 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ||.     stem(&z,
2e70: 20 22 6e 6f 69 74 61 22 2c 20 22 61 74 65 22 2c   "noita", "ate",
2e80: 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20   m_gt_0) ||.    
2e90: 20 73 74 65 6d 28 26 7a 2c 20 22 72 6f 74 61 22   stem(&z, "rota"
2ea0: 2c 20 22 61 74 65 22 2c 20 6d 5f 67 74 5f 30 29  , "ate", m_gt_0)
2eb0: 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20  ;.     break;.  
2ec0: 20 63 61 73 65 20 27 73 27 3a 0a 20 20 20 20 20   case 's':.     
2ed0: 73 74 65 6d 28 26 7a 2c 20 22 6d 73 69 6c 61 22  stem(&z, "msila"
2ee0: 2c 20 22 61 6c 22 2c 20 6d 5f 67 74 5f 30 29 20  , "al", m_gt_0) 
2ef0: 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ||.     stem(&z,
2f00: 20 22 73 73 65 6e 65 76 69 22 2c 20 22 69 76 65   "ssenevi", "ive
2f10: 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20  ", m_gt_0) ||.  
2f20: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 73 73 65     stem(&z, "sse
2f30: 6e 6c 75 66 22 2c 20 22 66 75 6c 22 2c 20 6d 5f  nluf", "ful", m_
2f40: 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74  gt_0) ||.     st
2f50: 65 6d 28 26 7a 2c 20 22 73 73 65 6e 73 75 6f 22  em(&z, "ssensuo"
2f60: 2c 20 22 6f 75 73 22 2c 20 6d 5f 67 74 5f 30 29  , "ous", m_gt_0)
2f70: 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20  ;.     break;.  
2f80: 20 63 61 73 65 20 27 74 27 3a 0a 20 20 20 20 20   case 't':.     
2f90: 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 6c 61 22  stem(&z, "itila"
2fa0: 2c 20 22 61 6c 22 2c 20 6d 5f 67 74 5f 30 29 20  , "al", m_gt_0) 
2fb0: 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ||.     stem(&z,
2fc0: 20 22 69 74 69 76 69 22 2c 20 22 69 76 65 22 2c   "itivi", "ive",
2fd0: 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20   m_gt_0) ||.    
2fe0: 20 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 6c 69   stem(&z, "itili
2ff0: 62 22 2c 20 22 62 6c 65 22 2c 20 6d 5f 67 74 5f  b", "ble", m_gt_
3000: 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a  0);.     break;.
3010: 20 20 7d 0a 0a 20 20 2f 2a 20 53 74 65 70 20 33    }..  /* Step 3
3020: 20 2a 2f 0a 20 20 73 77 69 74 63 68 28 20 7a 5b   */.  switch( z[
3030: 30 5d 20 29 7b 0a 20 20 20 63 61 73 65 20 27 65  0] ){.   case 'e
3040: 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ':.     stem(&z,
3050: 20 22 65 74 61 63 69 22 2c 20 22 69 63 22 2c 20   "etaci", "ic", 
3060: 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20  m_gt_0) ||.     
3070: 73 74 65 6d 28 26 7a 2c 20 22 65 76 69 74 61 22  stem(&z, "evita"
3080: 2c 20 22 22 2c 20 6d 5f 67 74 5f 30 29 20 20 20  , "", m_gt_0)   
3090: 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ||.     stem(&z,
30a0: 20 22 65 7a 69 6c 61 22 2c 20 22 61 6c 22 2c 20   "ezila", "al", 
30b0: 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20 62 72  m_gt_0);.     br
30c0: 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 69 27  eak;.   case 'i'
30d0: 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20  :.     stem(&z, 
30e0: 22 69 74 69 63 69 22 2c 20 22 69 63 22 2c 20 6d  "itici", "ic", m
30f0: 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20 62 72 65  _gt_0);.     bre
3100: 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 6c 27 3a  ak;.   case 'l':
3110: 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22  .     stem(&z, "
3120: 6c 61 63 69 22 2c 20 22 69 63 22 2c 20 6d 5f 67  laci", "ic", m_g
3130: 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74 65  t_0) ||.     ste
3140: 6d 28 26 7a 2c 20 22 6c 75 66 22 2c 20 22 22 2c  m(&z, "luf", "",
3150: 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20 62   m_gt_0);.     b
3160: 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 73  reak;.   case 's
3170: 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ':.     stem(&z,
3180: 20 22 73 73 65 6e 22 2c 20 22 22 2c 20 6d 5f 67   "ssen", "", m_g
3190: 74 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b  t_0);.     break
31a0: 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53 74 65 70  ;.  }..  /* Step
31b0: 20 34 20 2a 2f 0a 20 20 73 77 69 74 63 68 28 20   4 */.  switch( 
31c0: 7a 5b 31 5d 20 29 7b 0a 20 20 20 63 61 73 65 20  z[1] ){.   case 
31d0: 27 61 27 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b  'a':.     if( z[
31e0: 30 5d 3d 3d 27 6c 27 20 26 26 20 6d 5f 67 74 5f  0]=='l' && m_gt_
31f0: 31 28 7a 2b 32 29 20 29 7b 0a 20 20 20 20 20 20  1(z+2) ){.      
3200: 20 7a 20 2b 3d 20 32 3b 0a 20 20 20 20 20 7d 0a   z += 2;.     }.
3210: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63       break;.   c
3220: 61 73 65 20 27 63 27 3a 0a 20 20 20 20 20 69 66  ase 'c':.     if
3230: 28 20 7a 5b 30 5d 3d 3d 27 65 27 20 26 26 20 7a  ( z[0]=='e' && z
3240: 5b 32 5d 3d 3d 27 6e 27 20 26 26 20 28 7a 5b 33  [2]=='n' && (z[3
3250: 5d 3d 3d 27 61 27 20 7c 7c 20 7a 5b 33 5d 3d 3d  ]=='a' || z[3]==
3260: 27 65 27 29 20 20 26 26 20 6d 5f 67 74 5f 31 28  'e')  && m_gt_1(
3270: 7a 2b 34 29 20 20 29 7b 0a 20 20 20 20 20 20 20  z+4)  ){.       
3280: 7a 20 2b 3d 20 34 3b 0a 20 20 20 20 20 7d 0a 20  z += 4;.     }. 
3290: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61      break;.   ca
32a0: 73 65 20 27 65 27 3a 0a 20 20 20 20 20 69 66 28  se 'e':.     if(
32b0: 20 7a 5b 30 5d 3d 3d 27 72 27 20 26 26 20 6d 5f   z[0]=='r' && m_
32c0: 67 74 5f 31 28 7a 2b 32 29 20 29 7b 0a 20 20 20  gt_1(z+2) ){.   
32d0: 20 20 20 20 7a 20 2b 3d 20 32 3b 0a 20 20 20 20      z += 2;.    
32e0: 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20   }.     break;. 
32f0: 20 20 63 61 73 65 20 27 69 27 3a 0a 20 20 20 20    case 'i':.    
3300: 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 63 27 20 26   if( z[0]=='c' &
3310: 26 20 6d 5f 67 74 5f 31 28 7a 2b 32 29 20 29 7b  & m_gt_1(z+2) ){
3320: 0a 20 20 20 20 20 20 20 7a 20 2b 3d 20 32 3b 0a  .       z += 2;.
3330: 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61       }.     brea
3340: 6b 3b 0a 20 20 20 63 61 73 65 20 27 6c 27 3a 0a  k;.   case 'l':.
3350: 20 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27       if( z[0]=='
3360: 65 27 20 26 26 20 7a 5b 32 5d 3d 3d 27 62 27 20  e' && z[2]=='b' 
3370: 26 26 20 28 7a 5b 33 5d 3d 3d 27 61 27 20 7c 7c  && (z[3]=='a' ||
3380: 20 7a 5b 33 5d 3d 3d 27 69 27 29 20 26 26 20 6d   z[3]=='i') && m
3390: 5f 67 74 5f 31 28 7a 2b 34 29 20 29 7b 0a 20 20  _gt_1(z+4) ){.  
33a0: 20 20 20 20 20 7a 20 2b 3d 20 34 3b 0a 20 20 20       z += 4;.   
33b0: 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a    }.     break;.
33c0: 20 20 20 63 61 73 65 20 27 6e 27 3a 0a 20 20 20     case 'n':.   
33d0: 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 74 27 20    if( z[0]=='t' 
33e0: 29 7b 0a 20 20 20 20 20 20 20 69 66 28 20 7a 5b  ){.       if( z[
33f0: 32 5d 3d 3d 27 61 27 20 29 7b 0a 20 20 20 20 20  2]=='a' ){.     
3400: 20 20 20 20 69 66 28 20 6d 5f 67 74 5f 31 28 7a      if( m_gt_1(z
3410: 2b 33 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20  +3) ){.         
3420: 20 20 7a 20 2b 3d 20 33 3b 0a 20 20 20 20 20 20    z += 3;.      
3430: 20 20 20 7d 0a 20 20 20 20 20 20 20 7d 65 6c 73     }.       }els
3440: 65 20 69 66 28 20 7a 5b 32 5d 3d 3d 27 65 27 20  e if( z[2]=='e' 
3450: 29 7b 0a 20 20 20 20 20 20 20 20 20 73 74 65 6d  ){.         stem
3460: 28 26 7a 2c 20 22 74 6e 65 6d 65 22 2c 20 22 22  (&z, "tneme", ""
3470: 2c 20 6d 5f 67 74 5f 31 29 20 7c 7c 0a 20 20 20  , m_gt_1) ||.   
3480: 20 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22        stem(&z, "
3490: 74 6e 65 6d 22 2c 20 22 22 2c 20 6d 5f 67 74 5f  tnem", "", m_gt_
34a0: 31 29 20 7c 7c 0a 20 20 20 20 20 20 20 20 20 73  1) ||.         s
34b0: 74 65 6d 28 26 7a 2c 20 22 74 6e 65 22 2c 20 22  tem(&z, "tne", "
34c0: 22 2c 20 6d 5f 67 74 5f 31 29 3b 0a 20 20 20 20  ", m_gt_1);.    
34d0: 20 20 20 7d 0a 20 20 20 20 20 7d 0a 20 20 20 20     }.     }.    
34e0: 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20   break;.   case 
34f0: 27 6f 27 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b  'o':.     if( z[
3500: 30 5d 3d 3d 27 75 27 20 29 7b 0a 20 20 20 20 20  0]=='u' ){.     
3510: 20 20 69 66 28 20 6d 5f 67 74 5f 31 28 7a 2b 32    if( m_gt_1(z+2
3520: 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 7a 20  ) ){.         z 
3530: 2b 3d 20 32 3b 0a 20 20 20 20 20 20 20 7d 0a 20  += 2;.       }. 
3540: 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 7a 5b      }else if( z[
3550: 33 5d 3d 3d 27 73 27 20 7c 7c 20 7a 5b 33 5d 3d  3]=='s' || z[3]=
3560: 3d 27 74 27 20 29 7b 0a 20 20 20 20 20 20 20 73  ='t' ){.       s
3570: 74 65 6d 28 26 7a 2c 20 22 6e 6f 69 22 2c 20 22  tem(&z, "noi", "
3580: 22 2c 20 6d 5f 67 74 5f 31 29 3b 0a 20 20 20 20  ", m_gt_1);.    
3590: 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20   }.     break;. 
35a0: 20 20 63 61 73 65 20 27 73 27 3a 0a 20 20 20 20    case 's':.    
35b0: 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 6d 27 20 26   if( z[0]=='m' &
35c0: 26 20 7a 5b 32 5d 3d 3d 27 69 27 20 26 26 20 6d  & z[2]=='i' && m
35d0: 5f 67 74 5f 31 28 7a 2b 33 29 20 29 7b 0a 20 20  _gt_1(z+3) ){.  
35e0: 20 20 20 20 20 7a 20 2b 3d 20 33 3b 0a 20 20 20       z += 3;.   
35f0: 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a    }.     break;.
3600: 20 20 20 63 61 73 65 20 27 74 27 3a 0a 20 20 20     case 't':.   
3610: 20 20 73 74 65 6d 28 26 7a 2c 20 22 65 74 61 22    stem(&z, "eta"
3620: 2c 20 22 22 2c 20 6d 5f 67 74 5f 31 29 20 7c 7c  , "", m_gt_1) ||
3630: 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22  .     stem(&z, "
3640: 69 74 69 22 2c 20 22 22 2c 20 6d 5f 67 74 5f 31  iti", "", m_gt_1
3650: 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20  );.     break;. 
3660: 20 20 63 61 73 65 20 27 75 27 3a 0a 20 20 20 20    case 'u':.    
3670: 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 73 27 20 26   if( z[0]=='s' &
3680: 26 20 7a 5b 32 5d 3d 3d 27 6f 27 20 26 26 20 6d  & z[2]=='o' && m
3690: 5f 67 74 5f 31 28 7a 2b 33 29 20 29 7b 0a 20 20  _gt_1(z+3) ){.  
36a0: 20 20 20 20 20 7a 20 2b 3d 20 33 3b 0a 20 20 20       z += 3;.   
36b0: 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a    }.     break;.
36c0: 20 20 20 63 61 73 65 20 27 76 27 3a 0a 20 20 20     case 'v':.   
36d0: 63 61 73 65 20 27 7a 27 3a 0a 20 20 20 20 20 69  case 'z':.     i
36e0: 66 28 20 7a 5b 30 5d 3d 3d 27 65 27 20 26 26 20  f( z[0]=='e' && 
36f0: 7a 5b 32 5d 3d 3d 27 69 27 20 26 26 20 6d 5f 67  z[2]=='i' && m_g
3700: 74 5f 31 28 7a 2b 33 29 20 29 7b 0a 20 20 20 20  t_1(z+3) ){.    
3710: 20 20 20 7a 20 2b 3d 20 33 3b 0a 20 20 20 20 20     z += 3;.     
3720: 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20  }.     break;.  
3730: 7d 0a 0a 20 20 2f 2a 20 53 74 65 70 20 35 61 20  }..  /* Step 5a 
3740: 2a 2f 0a 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27  */.  if( z[0]=='
3750: 65 27 20 29 7b 0a 20 20 20 20 69 66 28 20 6d 5f  e' ){.    if( m_
3760: 67 74 5f 31 28 7a 2b 31 29 20 29 7b 0a 20 20 20  gt_1(z+1) ){.   
3770: 20 20 20 7a 2b 2b 3b 0a 20 20 20 20 7d 65 6c 73     z++;.    }els
3780: 65 20 69 66 28 20 6d 5f 65 71 5f 31 28 7a 2b 31  e if( m_eq_1(z+1
3790: 29 20 26 26 20 21 73 74 61 72 5f 6f 68 28 7a 2b  ) && !star_oh(z+
37a0: 31 29 20 29 7b 0a 20 20 20 20 20 20 7a 2b 2b 3b  1) ){.      z++;
37b0: 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 2f 2a  .    }.  }..  /*
37c0: 20 53 74 65 70 20 35 62 20 2a 2f 0a 20 20 69 66   Step 5b */.  if
37d0: 28 20 6d 5f 67 74 5f 31 28 7a 29 20 26 26 20 7a  ( m_gt_1(z) && z
37e0: 5b 30 5d 3d 3d 27 6c 27 20 26 26 20 7a 5b 31 5d  [0]=='l' && z[1]
37f0: 3d 3d 27 6c 27 20 29 7b 0a 20 20 20 20 7a 2b 2b  =='l' ){.    z++
3800: 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 7a 5b 5d 20  ;.  }..  /* z[] 
3810: 69 73 20 6e 6f 77 20 74 68 65 20 73 74 65 6d 6d  is now the stemm
3820: 65 64 20 77 6f 72 64 20 69 6e 20 72 65 76 65 72  ed word in rever
3830: 73 65 20 6f 72 64 65 72 2e 20 20 46 6c 69 70 20  se order.  Flip 
3840: 69 74 20 62 61 63 6b 0a 20 20 2a 2a 20 61 72 6f  it back.  ** aro
3850: 75 6e 64 20 69 6e 74 6f 20 66 6f 72 77 61 72 64  und into forward
3860: 20 6f 72 64 65 72 20 61 6e 64 20 72 65 74 75 72   order and retur
3870: 6e 2e 0a 20 20 2a 2f 0a 20 20 2a 70 6e 4f 75 74  n..  */.  *pnOut
3880: 20 3d 20 69 20 3d 20 73 74 72 6c 65 6e 28 7a 29   = i = strlen(z)
3890: 3b 0a 20 20 7a 4f 75 74 5b 69 5d 20 3d 20 30 3b  ;.  zOut[i] = 0;
38a0: 0a 20 20 77 68 69 6c 65 28 20 2a 7a 20 29 7b 0a  .  while( *z ){.
38b0: 20 20 20 20 7a 4f 75 74 5b 2d 2d 69 5d 20 3d 20      zOut[--i] = 
38c0: 2a 28 7a 2b 2b 29 3b 0a 20 20 7d 0a 7d 0a 0a 2f  *(z++);.  }.}../
38d0: 2a 0a 2a 2a 20 43 68 61 72 61 63 74 65 72 73 20  *.** Characters 
38e0: 74 68 61 74 20 63 61 6e 20 62 65 20 70 61 72 74  that can be part
38f0: 20 6f 66 20 61 20 74 6f 6b 65 6e 2e 20 20 57 65   of a token.  We
3900: 20 61 73 73 75 6d 65 20 61 6e 79 20 63 68 61 72   assume any char
3910: 61 63 74 65 72 0a 2a 2a 20 77 68 6f 73 65 20 76  acter.** whose v
3920: 61 6c 75 65 20 69 73 20 67 72 65 61 74 65 72 20  alue is greater 
3930: 74 68 61 6e 20 30 78 38 30 20 28 61 6e 79 20 55  than 0x80 (any U
3940: 54 46 20 63 68 61 72 61 63 74 65 72 29 20 63 61  TF character) ca
3950: 6e 20 62 65 0a 2a 2a 20 70 61 72 74 20 6f 66 20  n be.** part of 
3960: 61 20 74 6f 6b 65 6e 2e 20 20 49 6e 20 6f 74 68  a token.  In oth
3970: 65 72 20 77 6f 72 64 73 2c 20 64 65 6c 69 6d 69  er words, delimi
3980: 74 65 72 73 20 61 6c 6c 20 6d 75 73 74 20 68 61  ters all must ha
3990: 76 65 0a 2a 2a 20 76 61 6c 75 65 73 20 6f 66 20  ve.** values of 
39a0: 30 78 37 66 20 6f 72 20 6c 6f 77 65 72 2e 0a 2a  0x7f or lower..*
39b0: 2f 0a 73 74 61 74 69 63 20 63 6f 6e 73 74 20 63  /.static const c
39c0: 68 61 72 20 70 6f 72 74 65 72 49 64 43 68 61 72  har porterIdChar
39d0: 5b 5d 20 3d 20 7b 0a 2f 2a 20 78 30 20 78 31 20  [] = {./* x0 x1 
39e0: 78 32 20 78 33 20 78 34 20 78 35 20 78 36 20 78  x2 x3 x4 x5 x6 x
39f0: 37 20 78 38 20 78 39 20 78 41 20 78 42 20 78 43  7 x8 x9 xA xB xC
3a00: 20 78 44 20 78 45 20 78 46 20 2a 2f 0a 20 20 20   xD xE xF */.   
3a10: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3a20: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30  1, 1, 1, 1, 1, 0
3a30: 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c  , 0, 0, 0, 0, 0,
3a40: 20 20 2f 2a 20 33 78 20 2a 2f 0a 20 20 20 20 30    /* 3x */.    0
3a50: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3a60: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3a70: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 20  1, 1, 1, 1, 1,  
3a80: 2f 2a 20 34 78 20 2a 2f 0a 20 20 20 20 31 2c 20  /* 4x */.    1, 
3a90: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 1, 1, 1, 1, 1
3aa0: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c  , 1, 1, 1, 1, 0,
3ab0: 20 30 2c 20 30 2c 20 30 2c 20 31 2c 20 20 2f 2a   0, 0, 0, 1,  /*
3ac0: 20 35 78 20 2a 2f 0a 20 20 20 20 30 2c 20 31 2c   5x */.    0, 1,
3ad0: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3ae0: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 1, 1, 1, 1, 1
3af0: 2c 20 31 2c 20 31 2c 20 31 2c 20 20 2f 2a 20 36  , 1, 1, 1,  /* 6
3b00: 78 20 2a 2f 0a 20 20 20 20 31 2c 20 31 2c 20 31  x */.    1, 1, 1
3b10: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3b20: 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 30 2c 20   1, 1, 1, 0, 0, 
3b30: 30 2c 20 30 2c 20 30 2c 20 20 2f 2a 20 37 78 20  0, 0, 0,  /* 7x 
3b40: 2a 2f 0a 7d 3b 0a 23 64 65 66 69 6e 65 20 69 73  */.};.#define is
3b50: 44 65 6c 69 6d 28 43 29 20 28 28 28 63 68 3d 43  Delim(C) (((ch=C
3b60: 29 26 30 78 38 30 29 3d 3d 30 20 26 26 20 28 63  )&0x80)==0 && (c
3b70: 68 3c 30 78 33 30 20 7c 7c 20 21 70 6f 72 74 65  h<0x30 || !porte
3b80: 72 49 64 43 68 61 72 5b 63 68 2d 30 78 33 30 5d  rIdChar[ch-0x30]
3b90: 29 29 0a 0a 2f 2a 0a 2a 2a 20 45 78 74 72 61 63  ))../*.** Extrac
3ba0: 74 20 74 68 65 20 6e 65 78 74 20 74 6f 6b 65 6e  t the next token
3bb0: 20 66 72 6f 6d 20 61 20 74 6f 6b 65 6e 69 7a 61   from a tokeniza
3bc0: 74 69 6f 6e 20 63 75 72 73 6f 72 2e 20 20 54 68  tion cursor.  Th
3bd0: 65 20 63 75 72 73 6f 72 20 6d 75 73 74 0a 2a 2a  e cursor must.**
3be0: 20 68 61 76 65 20 62 65 65 6e 20 6f 70 65 6e 65   have been opene
3bf0: 64 20 62 79 20 61 20 70 72 69 6f 72 20 63 61 6c  d by a prior cal
3c00: 6c 20 74 6f 20 70 6f 72 74 65 72 4f 70 65 6e 28  l to porterOpen(
3c10: 29 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74  )..*/.static int
3c20: 20 70 6f 72 74 65 72 4e 65 78 74 28 0a 20 20 73   porterNext(.  s
3c30: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
3c40: 5f 63 75 72 73 6f 72 20 2a 70 43 75 72 73 6f 72  _cursor *pCursor
3c50: 2c 20 20 2f 2a 20 43 75 72 73 6f 72 20 72 65 74  ,  /* Cursor ret
3c60: 75 72 6e 65 64 20 62 79 20 70 6f 72 74 65 72 4f  urned by porterO
3c70: 70 65 6e 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63  pen */.  const c
3c80: 68 61 72 20 2a 2a 70 7a 54 6f 6b 65 6e 2c 20 20  har **pzToken,  
3c90: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
3ca0: 4f 55 54 3a 20 2a 70 7a 54 6f 6b 65 6e 20 69 73  OUT: *pzToken is
3cb0: 20 74 68 65 20 74 6f 6b 65 6e 20 74 65 78 74 20   the token text 
3cc0: 2a 2f 0a 20 20 69 6e 74 20 2a 70 6e 42 79 74 65  */.  int *pnByte
3cd0: 73 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20  s,              
3ce0: 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a           /* OUT:
3cf0: 20 4e 75 6d 62 65 72 20 6f 66 20 62 79 74 65 73   Number of bytes
3d00: 20 69 6e 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69   in token */.  i
3d10: 6e 74 20 2a 70 69 53 74 61 72 74 4f 66 66 73 65  nt *piStartOffse
3d20: 74 2c 20 20 20 20 20 20 20 20 20 20 20 20 20 20  t,              
3d30: 20 20 20 2f 2a 20 4f 55 54 3a 20 53 74 61 72 74     /* OUT: Start
3d40: 69 6e 67 20 6f 66 66 73 65 74 20 6f 66 20 74 6f  ing offset of to
3d50: 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 69  ken */.  int *pi
3d60: 45 6e 64 4f 66 66 73 65 74 2c 20 20 20 20 20 20  EndOffset,      
3d70: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
3d80: 4f 55 54 3a 20 45 6e 64 69 6e 67 20 6f 66 66 73  OUT: Ending offs
3d90: 65 74 20 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a 20  et of token */. 
3da0: 20 69 6e 74 20 2a 70 69 50 6f 73 69 74 69 6f 6e   int *piPosition
3db0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3dc0: 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 50 6f 73       /* OUT: Pos
3dd0: 69 74 69 6f 6e 20 69 6e 74 65 67 65 72 20 6f 66  ition integer of
3de0: 20 74 6f 6b 65 6e 20 2a 2f 0a 29 7b 0a 20 20 70   token */.){.  p
3df0: 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f  orter_tokenizer_
3e00: 63 75 72 73 6f 72 20 2a 63 20 3d 20 28 70 6f 72  cursor *c = (por
3e10: 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  ter_tokenizer_cu
3e20: 72 73 6f 72 20 2a 29 20 70 43 75 72 73 6f 72 3b  rsor *) pCursor;
3e30: 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a  .  const char *z
3e40: 20 3d 20 63 2d 3e 7a 49 6e 70 75 74 3b 0a 0a 20   = c->zInput;.. 
3e50: 20 77 68 69 6c 65 28 20 63 2d 3e 69 4f 66 66 73   while( c->iOffs
3e60: 65 74 3c 63 2d 3e 6e 49 6e 70 75 74 20 29 7b 0a  et<c->nInput ){.
3e70: 20 20 20 20 69 6e 74 20 69 53 74 61 72 74 4f 66      int iStartOf
3e80: 66 73 65 74 2c 20 63 68 3b 0a 0a 20 20 20 20 2f  fset, ch;..    /
3e90: 2a 20 53 63 61 6e 20 70 61 73 74 20 64 65 6c 69  * Scan past deli
3ea0: 6d 69 74 65 72 20 63 68 61 72 61 63 74 65 72 73  miter characters
3eb0: 20 2a 2f 0a 20 20 20 20 77 68 69 6c 65 28 20 63   */.    while( c
3ec0: 2d 3e 69 4f 66 66 73 65 74 3c 63 2d 3e 6e 49 6e  ->iOffset<c->nIn
3ed0: 70 75 74 20 26 26 20 69 73 44 65 6c 69 6d 28 7a  put && isDelim(z
3ee0: 5b 63 2d 3e 69 4f 66 66 73 65 74 5d 29 20 29 7b  [c->iOffset]) ){
3ef0: 0a 20 20 20 20 20 20 63 2d 3e 69 4f 66 66 73 65  .      c->iOffse
3f00: 74 2b 2b 3b 0a 20 20 20 20 7d 0a 0a 20 20 20 20  t++;.    }..    
3f10: 2f 2a 20 43 6f 75 6e 74 20 6e 6f 6e 2d 64 65 6c  /* Count non-del
3f20: 69 6d 69 74 65 72 20 63 68 61 72 61 63 74 65 72  imiter character
3f30: 73 2e 20 2a 2f 0a 20 20 20 20 69 53 74 61 72 74  s. */.    iStart
3f40: 4f 66 66 73 65 74 20 3d 20 63 2d 3e 69 4f 66 66  Offset = c->iOff
3f50: 73 65 74 3b 0a 20 20 20 20 77 68 69 6c 65 28 20  set;.    while( 
3f60: 63 2d 3e 69 4f 66 66 73 65 74 3c 63 2d 3e 6e 49  c->iOffset<c->nI
3f70: 6e 70 75 74 20 26 26 20 21 69 73 44 65 6c 69 6d  nput && !isDelim
3f80: 28 7a 5b 63 2d 3e 69 4f 66 66 73 65 74 5d 29 20  (z[c->iOffset]) 
3f90: 29 7b 0a 20 20 20 20 20 20 63 2d 3e 69 4f 66 66  ){.      c->iOff
3fa0: 73 65 74 2b 2b 3b 0a 20 20 20 20 7d 0a 0a 20 20  set++;.    }..  
3fb0: 20 20 69 66 28 20 63 2d 3e 69 4f 66 66 73 65 74    if( c->iOffset
3fc0: 3e 69 53 74 61 72 74 4f 66 66 73 65 74 20 29 7b  >iStartOffset ){
3fd0: 0a 20 20 20 20 20 20 69 6e 74 20 6e 20 3d 20 63  .      int n = c
3fe0: 2d 3e 69 4f 66 66 73 65 74 2d 69 53 74 61 72 74  ->iOffset-iStart
3ff0: 4f 66 66 73 65 74 3b 0a 20 20 20 20 20 20 69 66  Offset;.      if
4000: 28 20 6e 3e 63 2d 3e 6e 41 6c 6c 6f 63 61 74 65  ( n>c->nAllocate
4010: 64 20 29 7b 0a 20 20 20 20 20 20 20 20 63 2d 3e  d ){.        c->
4020: 6e 41 6c 6c 6f 63 61 74 65 64 20 3d 20 6e 2b 32  nAllocated = n+2
4030: 30 3b 0a 20 20 20 20 20 20 20 20 63 2d 3e 7a 54  0;.        c->zT
4040: 6f 6b 65 6e 20 3d 20 73 71 6c 69 74 65 33 5f 72  oken = sqlite3_r
4050: 65 61 6c 6c 6f 63 28 63 2d 3e 7a 54 6f 6b 65 6e  ealloc(c->zToken
4060: 2c 20 63 2d 3e 6e 41 6c 6c 6f 63 61 74 65 64 29  , c->nAllocated)
4070: 3b 0a 20 20 20 20 20 20 20 20 69 66 28 20 63 2d  ;.        if( c-
4080: 3e 7a 54 6f 6b 65 6e 3d 3d 4e 55 4c 4c 20 29 20  >zToken==NULL ) 
4090: 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4e 4f  return SQLITE_NO
40a0: 4d 45 4d 3b 0a 20 20 20 20 20 20 7d 0a 20 20 20  MEM;.      }.   
40b0: 20 20 20 70 6f 72 74 65 72 5f 73 74 65 6d 6d 65     porter_stemme
40c0: 72 28 26 7a 5b 69 53 74 61 72 74 4f 66 66 73 65  r(&z[iStartOffse
40d0: 74 5d 2c 20 6e 2c 20 63 2d 3e 7a 54 6f 6b 65 6e  t], n, c->zToken
40e0: 2c 20 70 6e 42 79 74 65 73 29 3b 0a 20 20 20 20  , pnBytes);.    
40f0: 20 20 2a 70 7a 54 6f 6b 65 6e 20 3d 20 63 2d 3e    *pzToken = c->
4100: 7a 54 6f 6b 65 6e 3b 0a 20 20 20 20 20 20 2a 70  zToken;.      *p
4110: 69 53 74 61 72 74 4f 66 66 73 65 74 20 3d 20 69  iStartOffset = i
4120: 53 74 61 72 74 4f 66 66 73 65 74 3b 0a 20 20 20  StartOffset;.   
4130: 20 20 20 2a 70 69 45 6e 64 4f 66 66 73 65 74 20     *piEndOffset 
4140: 3d 20 63 2d 3e 69 4f 66 66 73 65 74 3b 0a 20 20  = c->iOffset;.  
4150: 20 20 20 20 2a 70 69 50 6f 73 69 74 69 6f 6e 20      *piPosition 
4160: 3d 20 63 2d 3e 69 54 6f 6b 65 6e 2b 2b 3b 0a 20  = c->iToken++;. 
4170: 20 20 20 20 20 72 65 74 75 72 6e 20 53 51 4c 49       return SQLI
4180: 54 45 5f 4f 4b 3b 0a 20 20 20 20 7d 0a 20 20 7d  TE_OK;.    }.  }
4190: 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45  .  return SQLITE
41a0: 5f 44 4f 4e 45 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20  _DONE;.}../*.** 
41b0: 54 68 65 20 73 65 74 20 6f 66 20 72 6f 75 74 69  The set of routi
41c0: 6e 65 73 20 74 68 61 74 20 69 6d 70 6c 65 6d 65  nes that impleme
41d0: 6e 74 20 74 68 65 20 70 6f 72 74 65 72 2d 73 74  nt the porter-st
41e0: 65 6d 6d 65 72 20 74 6f 6b 65 6e 69 7a 65 72 0a  emmer tokenizer.
41f0: 2a 2f 0a 73 74 61 74 69 63 20 63 6f 6e 73 74 20  */.static const 
4200: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
4210: 72 5f 6d 6f 64 75 6c 65 20 70 6f 72 74 65 72 54  r_module porterT
4220: 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 20 3d  okenizerModule =
4230: 20 7b 0a 20 20 30 2c 0a 20 20 70 6f 72 74 65 72   {.  0,.  porter
4240: 43 72 65 61 74 65 2c 0a 20 20 70 6f 72 74 65 72  Create,.  porter
4250: 44 65 73 74 72 6f 79 2c 0a 20 20 70 6f 72 74 65  Destroy,.  porte
4260: 72 4f 70 65 6e 2c 0a 20 20 70 6f 72 74 65 72 43  rOpen,.  porterC
4270: 6c 6f 73 65 2c 0a 20 20 70 6f 72 74 65 72 4e 65  lose,.  porterNe
4280: 78 74 2c 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a 20 41 6c  xt,.};../*.** Al
4290: 6c 6f 63 61 74 65 20 61 20 6e 65 77 20 70 6f 72  locate a new por
42a0: 74 65 72 20 74 6f 6b 65 6e 69 7a 65 72 2e 20 20  ter tokenizer.  
42b0: 52 65 74 75 72 6e 20 61 20 70 6f 69 6e 74 65 72  Return a pointer
42c0: 20 74 6f 20 74 68 65 20 6e 65 77 0a 2a 2a 20 74   to the new.** t
42d0: 6f 6b 65 6e 69 7a 65 72 20 69 6e 20 2a 70 70 4d  okenizer in *ppM
42e0: 6f 64 75 6c 65 0a 2a 2f 0a 76 6f 69 64 20 73 71  odule.*/.void sq
42f0: 6c 69 74 65 33 46 74 73 32 50 6f 72 74 65 72 54  lite3Fts2PorterT
4300: 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 28 0a  okenizerModule(.
4310: 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69    sqlite3_tokeni
4320: 7a 65 72 5f 6d 6f 64 75 6c 65 20 63 6f 6e 73 74  zer_module const
4330: 2a 2a 70 70 4d 6f 64 75 6c 65 0a 29 7b 0a 20 20  **ppModule.){.  
4340: 2a 70 70 4d 6f 64 75 6c 65 20 3d 20 26 70 6f 72  *ppModule = &por
4350: 74 65 72 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75  terTokenizerModu
4360: 6c 65 3b 0a 7d 0a 0a 23 65 6e 64 69 66 20 2f 2a  le;.}..#endif /*
4370: 20 21 64 65 66 69 6e 65 64 28 53 51 4c 49 54 45   !defined(SQLITE
4380: 5f 43 4f 52 45 29 20 7c 7c 20 64 65 66 69 6e 65  _CORE) || define
4390: 64 28 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45 5f  d(SQLITE_ENABLE_
43a0: 46 54 53 32 29 20 2a 2f 0a                       FTS2) */.