/ Hex Artifact Content
Login

Artifact 2cd4a507bf3c3085fe66f59b0f2a325f65aaacf5:


0000: 2f 2a 0a 2a 2a 20 32 30 30 36 20 53 65 70 74 65  /*.** 2006 Septe
0010: 6d 62 65 72 20 33 30 0a 2a 2a 0a 2a 2a 20 54 68  mber 30.**.** Th
0020: 65 20 61 75 74 68 6f 72 20 64 69 73 63 6c 61 69  e author disclai
0030: 6d 73 20 63 6f 70 79 72 69 67 68 74 20 74 6f 20  ms copyright to 
0040: 74 68 69 73 20 73 6f 75 72 63 65 20 63 6f 64 65  this source code
0050: 2e 20 20 49 6e 20 70 6c 61 63 65 20 6f 66 0a 2a  .  In place of.*
0060: 2a 20 61 20 6c 65 67 61 6c 20 6e 6f 74 69 63 65  * a legal notice
0070: 2c 20 68 65 72 65 20 69 73 20 61 20 62 6c 65 73  , here is a bles
0080: 73 69 6e 67 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 4d  sing:.**.**    M
0090: 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64 20 61  ay you do good a
00a0: 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 2a 2a 20  nd not evil..** 
00b0: 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64 20     May you find 
00c0: 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72 20  forgiveness for 
00d0: 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f 72  yourself and for
00e0: 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 2a 2a 20  give others..** 
00f0: 20 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65     May you share
0100: 20 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74   freely, never t
0110: 61 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20  aking more than 
0120: 79 6f 75 20 67 69 76 65 2e 0a 2a 2a 0a 2a 2a 2a  you give..**.***
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 2a 2a 2a 2a 2a 0a 2a 2a 20 49 6d 70 6c 65 6d  ******.** Implem
0180: 65 6e 74 61 74 69 6f 6e 20 6f 66 20 74 68 65 20  entation of the 
0190: 66 75 6c 6c 2d 74 65 78 74 2d 73 65 61 72 63 68  full-text-search
01a0: 20 74 6f 6b 65 6e 69 7a 65 72 20 74 68 61 74 20   tokenizer that 
01b0: 69 6d 70 6c 65 6d 65 6e 74 73 0a 2a 2a 20 61 20  implements.** a 
01c0: 50 6f 72 74 65 72 20 73 74 65 6d 6d 65 72 2e 0a  Porter stemmer..
01d0: 2a 2f 0a 0a 2f 2a 0a 2a 2a 20 54 68 65 20 63 6f  */../*.** The co
01e0: 64 65 20 69 6e 20 74 68 69 73 20 66 69 6c 65 20  de in this file 
01f0: 69 73 20 6f 6e 6c 79 20 63 6f 6d 70 69 6c 65 64  is only compiled
0200: 20 69 66 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 20 2a   if:.**.**     *
0210: 20 54 68 65 20 46 54 53 32 20 6d 6f 64 75 6c 65   The FTS2 module
0220: 20 69 73 20 62 65 69 6e 67 20 62 75 69 6c 74 20   is being built 
0230: 61 73 20 61 6e 20 65 78 74 65 6e 73 69 6f 6e 0a  as an extension.
0240: 2a 2a 20 20 20 20 20 20 20 28 69 6e 20 77 68 69  **       (in whi
0250: 63 68 20 63 61 73 65 20 53 51 4c 49 54 45 5f 43  ch case SQLITE_C
0260: 4f 52 45 20 69 73 20 6e 6f 74 20 64 65 66 69 6e  ORE is not defin
0270: 65 64 29 2c 20 6f 72 0a 2a 2a 0a 2a 2a 20 20 20  ed), or.**.**   
0280: 20 20 2a 20 54 68 65 20 46 54 53 32 20 6d 6f 64    * The FTS2 mod
0290: 75 6c 65 20 69 73 20 62 65 69 6e 67 20 62 75 69  ule is being bui
02a0: 6c 74 20 69 6e 74 6f 20 74 68 65 20 63 6f 72 65  lt into the core
02b0: 20 6f 66 0a 2a 2a 20 20 20 20 20 20 20 53 51 4c   of.**       SQL
02c0: 69 74 65 20 28 69 6e 20 77 68 69 63 68 20 63 61  ite (in which ca
02d0: 73 65 20 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45  se SQLITE_ENABLE
02e0: 5f 46 54 53 32 20 69 73 20 64 65 66 69 6e 65 64  _FTS2 is defined
02f0: 29 2e 0a 2a 2f 0a 23 69 66 20 21 64 65 66 69 6e  )..*/.#if !defin
0300: 65 64 28 53 51 4c 49 54 45 5f 43 4f 52 45 29 20  ed(SQLITE_CORE) 
0310: 7c 7c 20 64 65 66 69 6e 65 64 28 53 51 4c 49 54  || defined(SQLIT
0320: 45 5f 45 4e 41 42 4c 45 5f 46 54 53 32 29 0a 0a  E_ENABLE_FTS2)..
0330: 0a 23 69 6e 63 6c 75 64 65 20 3c 61 73 73 65 72  .#include <asser
0340: 74 2e 68 3e 0a 23 69 6e 63 6c 75 64 65 20 3c 73  t.h>.#include <s
0350: 74 64 6c 69 62 2e 68 3e 0a 23 69 6e 63 6c 75 64  tdlib.h>.#includ
0360: 65 20 3c 73 74 64 69 6f 2e 68 3e 0a 23 69 6e 63  e <stdio.h>.#inc
0370: 6c 75 64 65 20 3c 73 74 72 69 6e 67 2e 68 3e 0a  lude <string.h>.
0380: 0a 23 69 6e 63 6c 75 64 65 20 22 73 71 6c 69 74  .#include "sqlit
0390: 65 33 2e 68 22 0a 23 69 6e 63 6c 75 64 65 20 22  e3.h".#include "
03a0: 73 71 6c 69 74 65 33 65 78 74 2e 68 22 0a 53 51  sqlite3ext.h".SQ
03b0: 4c 49 54 45 5f 45 58 54 45 4e 53 49 4f 4e 5f 49  LITE_EXTENSION_I
03c0: 4e 49 54 33 0a 23 69 6e 63 6c 75 64 65 20 22 66  NIT3.#include "f
03d0: 74 73 32 5f 74 6f 6b 65 6e 69 7a 65 72 2e 68 22  ts2_tokenizer.h"
03e0: 0a 0a 2f 2a 0a 2a 2a 20 43 6c 61 73 73 20 64 65  ../*.** Class de
03f0: 72 69 76 65 64 20 66 72 6f 6d 20 73 71 6c 69 74  rived from sqlit
0400: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 0a 2a 2f 0a  e3_tokenizer.*/.
0410: 74 79 70 65 64 65 66 20 73 74 72 75 63 74 20 70  typedef struct p
0420: 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 20  orter_tokenizer 
0430: 7b 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65  {.  sqlite3_toke
0440: 6e 69 7a 65 72 20 62 61 73 65 3b 20 20 20 20 20  nizer base;     
0450: 20 2f 2a 20 42 61 73 65 20 63 6c 61 73 73 20 2a   /* Base class *
0460: 2f 0a 7d 20 70 6f 72 74 65 72 5f 74 6f 6b 65 6e  /.} porter_token
0470: 69 7a 65 72 3b 0a 0a 2f 2a 0a 2a 2a 20 43 6c 61  izer;../*.** Cla
0480: 73 73 20 64 65 72 69 76 65 64 20 66 72 6f 6d 20  ss derived from 
0490: 73 71 6c 69 74 33 5f 74 6f 6b 65 6e 69 7a 65 72  sqlit3_tokenizer
04a0: 5f 63 75 72 73 6f 72 0a 2a 2f 0a 74 79 70 65 64  _cursor.*/.typed
04b0: 65 66 20 73 74 72 75 63 74 20 70 6f 72 74 65 72  ef struct porter
04c0: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f  _tokenizer_curso
04d0: 72 20 7b 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f  r {.  sqlite3_to
04e0: 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 62  kenizer_cursor b
04f0: 61 73 65 3b 0a 20 20 63 6f 6e 73 74 20 63 68 61  ase;.  const cha
0500: 72 20 2a 7a 49 6e 70 75 74 3b 20 20 20 20 20 20  r *zInput;      
0510: 20 20 20 20 2f 2a 20 69 6e 70 75 74 20 77 65 20      /* input we 
0520: 61 72 65 20 74 6f 6b 65 6e 69 7a 69 6e 67 20 2a  are tokenizing *
0530: 2f 0a 20 20 69 6e 74 20 6e 49 6e 70 75 74 3b 20  /.  int nInput; 
0540: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0550: 20 2f 2a 20 73 69 7a 65 20 6f 66 20 74 68 65 20   /* size of the 
0560: 69 6e 70 75 74 20 2a 2f 0a 20 20 69 6e 74 20 69  input */.  int i
0570: 4f 66 66 73 65 74 3b 20 20 20 20 20 20 20 20 20  Offset;         
0580: 20 20 20 20 20 20 20 20 2f 2a 20 63 75 72 72 65          /* curre
0590: 6e 74 20 70 6f 73 69 74 69 6f 6e 20 69 6e 20 7a  nt position in z
05a0: 49 6e 70 75 74 20 2a 2f 0a 20 20 69 6e 74 20 69  Input */.  int i
05b0: 54 6f 6b 65 6e 3b 20 20 20 20 20 20 20 20 20 20  Token;          
05c0: 20 20 20 20 20 20 20 20 2f 2a 20 69 6e 64 65 78          /* index
05d0: 20 6f 66 20 6e 65 78 74 20 74 6f 6b 65 6e 20 74   of next token t
05e0: 6f 20 62 65 20 72 65 74 75 72 6e 65 64 20 2a 2f  o be returned */
05f0: 0a 20 20 63 68 61 72 20 2a 7a 54 6f 6b 65 6e 3b  .  char *zToken;
0600: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0610: 2f 2a 20 73 74 6f 72 61 67 65 20 66 6f 72 20 63  /* storage for c
0620: 75 72 72 65 6e 74 20 74 6f 6b 65 6e 20 2a 2f 0a  urrent token */.
0630: 20 20 69 6e 74 20 6e 41 6c 6c 6f 63 61 74 65 64    int nAllocated
0640: 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f  ;              /
0650: 2a 20 73 70 61 63 65 20 61 6c 6c 6f 63 61 74 65  * space allocate
0660: 64 20 74 6f 20 7a 54 6f 6b 65 6e 20 62 75 66 66  d to zToken buff
0670: 65 72 20 2a 2f 0a 7d 20 70 6f 72 74 65 72 5f 74  er */.} porter_t
0680: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 3b  okenizer_cursor;
0690: 0a 0a 0a 2f 2a 20 46 6f 72 77 61 72 64 20 64 65  .../* Forward de
06a0: 63 6c 61 72 61 74 69 6f 6e 20 2a 2f 0a 73 74 61  claration */.sta
06b0: 74 69 63 20 63 6f 6e 73 74 20 73 71 6c 69 74 65  tic const sqlite
06c0: 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75  3_tokenizer_modu
06d0: 6c 65 20 70 6f 72 74 65 72 54 6f 6b 65 6e 69 7a  le porterTokeniz
06e0: 65 72 4d 6f 64 75 6c 65 3b 0a 0a 0a 2f 2a 0a 2a  erModule;.../*.*
06f0: 2a 20 43 72 65 61 74 65 20 61 20 6e 65 77 20 74  * Create a new t
0700: 6f 6b 65 6e 69 7a 65 72 20 69 6e 73 74 61 6e 63  okenizer instanc
0710: 65 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74  e..*/.static int
0720: 20 70 6f 72 74 65 72 43 72 65 61 74 65 28 0a 20   porterCreate(. 
0730: 20 69 6e 74 20 61 72 67 63 2c 20 63 6f 6e 73 74   int argc, const
0740: 20 63 68 61 72 20 2a 20 63 6f 6e 73 74 20 2a 61   char * const *a
0750: 72 67 76 2c 0a 20 20 73 71 6c 69 74 65 33 5f 74  rgv,.  sqlite3_t
0760: 6f 6b 65 6e 69 7a 65 72 20 2a 2a 70 70 54 6f 6b  okenizer **ppTok
0770: 65 6e 69 7a 65 72 0a 29 7b 0a 20 20 70 6f 72 74  enizer.){.  port
0780: 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 74 3b  er_tokenizer *t;
0790: 0a 20 20 74 20 3d 20 28 70 6f 72 74 65 72 5f 74  .  t = (porter_t
07a0: 6f 6b 65 6e 69 7a 65 72 20 2a 29 20 73 71 6c 69  okenizer *) sqli
07b0: 74 65 33 5f 6d 61 6c 6c 6f 63 28 73 69 7a 65 6f  te3_malloc(sizeo
07c0: 66 28 2a 74 29 29 3b 0a 20 20 69 66 28 20 74 3d  f(*t));.  if( t=
07d0: 3d 4e 55 4c 4c 20 29 20 72 65 74 75 72 6e 20 53  =NULL ) return S
07e0: 51 4c 49 54 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 6d  QLITE_NOMEM;.  m
07f0: 65 6d 73 65 74 28 74 2c 20 30 2c 20 73 69 7a 65  emset(t, 0, size
0800: 6f 66 28 2a 74 29 29 3b 0a 20 20 2a 70 70 54 6f  of(*t));.  *ppTo
0810: 6b 65 6e 69 7a 65 72 20 3d 20 26 74 2d 3e 62 61  kenizer = &t->ba
0820: 73 65 3b 0a 20 20 72 65 74 75 72 6e 20 53 51 4c  se;.  return SQL
0830: 49 54 45 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a  ITE_OK;.}../*.**
0840: 20 44 65 73 74 72 6f 79 20 61 20 74 6f 6b 65 6e   Destroy a token
0850: 69 7a 65 72 0a 2a 2f 0a 73 74 61 74 69 63 20 69  izer.*/.static i
0860: 6e 74 20 70 6f 72 74 65 72 44 65 73 74 72 6f 79  nt porterDestroy
0870: 28 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a  (sqlite3_tokeniz
0880: 65 72 20 2a 70 54 6f 6b 65 6e 69 7a 65 72 29 7b  er *pTokenizer){
0890: 0a 20 20 73 71 6c 69 74 65 33 5f 66 72 65 65 28  .  sqlite3_free(
08a0: 70 54 6f 6b 65 6e 69 7a 65 72 29 3b 0a 20 20 72  pTokenizer);.  r
08b0: 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b  eturn SQLITE_OK;
08c0: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 50 72 65 70 61 72  .}../*.** Prepar
08d0: 65 20 74 6f 20 62 65 67 69 6e 20 74 6f 6b 65 6e  e to begin token
08e0: 69 7a 69 6e 67 20 61 20 70 61 72 74 69 63 75 6c  izing a particul
08f0: 61 72 20 73 74 72 69 6e 67 2e 20 20 54 68 65 20  ar string.  The 
0900: 69 6e 70 75 74 0a 2a 2a 20 73 74 72 69 6e 67 20  input.** string 
0910: 74 6f 20 62 65 20 74 6f 6b 65 6e 69 7a 65 64 20  to be tokenized 
0920: 69 73 20 7a 49 6e 70 75 74 5b 30 2e 2e 6e 49 6e  is zInput[0..nIn
0930: 70 75 74 2d 31 5d 2e 20 20 41 20 63 75 72 73 6f  put-1].  A curso
0940: 72 0a 2a 2a 20 75 73 65 64 20 74 6f 20 69 6e 63  r.** used to inc
0950: 72 65 6d 65 6e 74 61 6c 6c 79 20 74 6f 6b 65 6e  rementally token
0960: 69 7a 65 20 74 68 69 73 20 73 74 72 69 6e 67 20  ize this string 
0970: 69 73 20 72 65 74 75 72 6e 65 64 20 69 6e 20 0a  is returned in .
0980: 2a 2a 20 2a 70 70 43 75 72 73 6f 72 2e 0a 2a 2f  ** *ppCursor..*/
0990: 0a 73 74 61 74 69 63 20 69 6e 74 20 70 6f 72 74  .static int port
09a0: 65 72 4f 70 65 6e 28 0a 20 20 73 71 6c 69 74 65  erOpen(.  sqlite
09b0: 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 70 54 6f  3_tokenizer *pTo
09c0: 6b 65 6e 69 7a 65 72 2c 20 20 20 20 20 20 20 20  kenizer,        
09d0: 20 2f 2a 20 54 68 65 20 74 6f 6b 65 6e 69 7a 65   /* The tokenize
09e0: 72 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61  r */.  const cha
09f0: 72 20 2a 7a 49 6e 70 75 74 2c 20 69 6e 74 20 6e  r *zInput, int n
0a00: 49 6e 70 75 74 2c 20 20 20 20 20 20 20 20 2f 2a  Input,        /*
0a10: 20 53 74 72 69 6e 67 20 74 6f 20 62 65 20 74 6f   String to be to
0a20: 6b 65 6e 69 7a 65 64 20 2a 2f 0a 20 20 73 71 6c  kenized */.  sql
0a30: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63  ite3_tokenizer_c
0a40: 75 72 73 6f 72 20 2a 2a 70 70 43 75 72 73 6f 72  ursor **ppCursor
0a50: 20 20 20 20 2f 2a 20 4f 55 54 3a 20 54 6f 6b 65      /* OUT: Toke
0a60: 6e 69 7a 61 74 69 6f 6e 20 63 75 72 73 6f 72 20  nization cursor 
0a70: 2a 2f 0a 29 7b 0a 20 20 70 6f 72 74 65 72 5f 74  */.){.  porter_t
0a80: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20  okenizer_cursor 
0a90: 2a 63 3b 0a 0a 20 20 63 20 3d 20 28 70 6f 72 74  *c;..  c = (port
0aa0: 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72  er_tokenizer_cur
0ab0: 73 6f 72 20 2a 29 20 73 71 6c 69 74 65 33 5f 6d  sor *) sqlite3_m
0ac0: 61 6c 6c 6f 63 28 73 69 7a 65 6f 66 28 2a 63 29  alloc(sizeof(*c)
0ad0: 29 3b 0a 20 20 69 66 28 20 63 3d 3d 4e 55 4c 4c  );.  if( c==NULL
0ae0: 20 29 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45   ) return SQLITE
0af0: 5f 4e 4f 4d 45 4d 3b 0a 0a 20 20 63 2d 3e 7a 49  _NOMEM;..  c->zI
0b00: 6e 70 75 74 20 3d 20 7a 49 6e 70 75 74 3b 0a 20  nput = zInput;. 
0b10: 20 69 66 28 20 7a 49 6e 70 75 74 3d 3d 30 20 29   if( zInput==0 )
0b20: 7b 0a 20 20 20 20 63 2d 3e 6e 49 6e 70 75 74 20  {.    c->nInput 
0b30: 3d 20 30 3b 0a 20 20 7d 65 6c 73 65 20 69 66 28  = 0;.  }else if(
0b40: 20 6e 49 6e 70 75 74 3c 30 20 29 7b 0a 20 20 20   nInput<0 ){.   
0b50: 20 63 2d 3e 6e 49 6e 70 75 74 20 3d 20 28 69 6e   c->nInput = (in
0b60: 74 29 73 74 72 6c 65 6e 28 7a 49 6e 70 75 74 29  t)strlen(zInput)
0b70: 3b 0a 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20 63  ;.  }else{.    c
0b80: 2d 3e 6e 49 6e 70 75 74 20 3d 20 6e 49 6e 70 75  ->nInput = nInpu
0b90: 74 3b 0a 20 20 7d 0a 20 20 63 2d 3e 69 4f 66 66  t;.  }.  c->iOff
0ba0: 73 65 74 20 3d 20 30 3b 20 20 20 20 20 20 20 20  set = 0;        
0bb0: 20 20 20 20 20 20 20 20 20 2f 2a 20 73 74 61 72           /* star
0bc0: 74 20 74 6f 6b 65 6e 69 7a 69 6e 67 20 61 74 20  t tokenizing at 
0bd0: 74 68 65 20 62 65 67 69 6e 6e 69 6e 67 20 2a 2f  the beginning */
0be0: 0a 20 20 63 2d 3e 69 54 6f 6b 65 6e 20 3d 20 30  .  c->iToken = 0
0bf0: 3b 0a 20 20 63 2d 3e 7a 54 6f 6b 65 6e 20 3d 20  ;.  c->zToken = 
0c00: 4e 55 4c 4c 3b 20 20 20 20 20 20 20 20 20 20 20  NULL;           
0c10: 20 20 20 20 2f 2a 20 6e 6f 20 73 70 61 63 65 20      /* no space 
0c20: 61 6c 6c 6f 63 61 74 65 64 2c 20 79 65 74 2e 20  allocated, yet. 
0c30: 2a 2f 0a 20 20 63 2d 3e 6e 41 6c 6c 6f 63 61 74  */.  c->nAllocat
0c40: 65 64 20 3d 20 30 3b 0a 0a 20 20 2a 70 70 43 75  ed = 0;..  *ppCu
0c50: 72 73 6f 72 20 3d 20 26 63 2d 3e 62 61 73 65 3b  rsor = &c->base;
0c60: 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45  .  return SQLITE
0c70: 5f 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43 6c  _OK;.}../*.** Cl
0c80: 6f 73 65 20 61 20 74 6f 6b 65 6e 69 7a 61 74 69  ose a tokenizati
0c90: 6f 6e 20 63 75 72 73 6f 72 20 70 72 65 76 69 6f  on cursor previo
0ca0: 75 73 6c 79 20 6f 70 65 6e 65 64 20 62 79 20 61  usly opened by a
0cb0: 20 63 61 6c 6c 20 74 6f 0a 2a 2a 20 70 6f 72 74   call to.** port
0cc0: 65 72 4f 70 65 6e 28 29 20 61 62 6f 76 65 2e 0a  erOpen() above..
0cd0: 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 70 6f  */.static int po
0ce0: 72 74 65 72 43 6c 6f 73 65 28 73 71 6c 69 74 65  rterClose(sqlite
0cf0: 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  3_tokenizer_curs
0d00: 6f 72 20 2a 70 43 75 72 73 6f 72 29 7b 0a 20 20  or *pCursor){.  
0d10: 70 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72  porter_tokenizer
0d20: 5f 63 75 72 73 6f 72 20 2a 63 20 3d 20 28 70 6f  _cursor *c = (po
0d30: 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63  rter_tokenizer_c
0d40: 75 72 73 6f 72 20 2a 29 20 70 43 75 72 73 6f 72  ursor *) pCursor
0d50: 3b 0a 20 20 73 71 6c 69 74 65 33 5f 66 72 65 65  ;.  sqlite3_free
0d60: 28 63 2d 3e 7a 54 6f 6b 65 6e 29 3b 0a 20 20 73  (c->zToken);.  s
0d70: 71 6c 69 74 65 33 5f 66 72 65 65 28 63 29 3b 0a  qlite3_free(c);.
0d80: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
0d90: 4f 4b 3b 0a 7d 0a 2f 2a 0a 2a 2a 20 56 6f 77 65  OK;.}./*.** Vowe
0da0: 6c 20 6f 72 20 63 6f 6e 73 6f 6e 61 6e 74 0a 2a  l or consonant.*
0db0: 2f 0a 73 74 61 74 69 63 20 63 6f 6e 73 74 20 63  /.static const c
0dc0: 68 61 72 20 63 54 79 70 65 5b 5d 20 3d 20 7b 0a  har cType[] = {.
0dd0: 20 20 20 30 2c 20 31 2c 20 31 2c 20 31 2c 20 30     0, 1, 1, 1, 0
0de0: 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 31 2c  , 1, 1, 1, 0, 1,
0df0: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20   1, 1, 1, 1, 0, 
0e00: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30  1, 1, 1, 1, 1, 0
0e10: 2c 0a 20 20 20 31 2c 20 31 2c 20 31 2c 20 32 2c  ,.   1, 1, 1, 2,
0e20: 20 31 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a 20 69 73 43   1.};../*.** isC
0e30: 6f 6e 73 6f 6e 61 6e 74 28 29 20 61 6e 64 20 69  onsonant() and i
0e40: 73 56 6f 77 65 6c 28 29 20 64 65 74 65 72 6d 69  sVowel() determi
0e50: 6e 65 20 69 66 20 74 68 65 69 72 20 66 69 72 73  ne if their firs
0e60: 74 20 63 68 61 72 61 63 74 65 72 20 69 6e 0a 2a  t character in.*
0e70: 2a 20 74 68 65 20 73 74 72 69 6e 67 20 74 68 65  * the string the
0e80: 79 20 70 6f 69 6e 74 20 74 6f 20 69 73 20 61 20  y point to is a 
0e90: 63 6f 6e 73 6f 6e 61 6e 74 20 6f 72 20 61 20 76  consonant or a v
0ea0: 6f 77 65 6c 2c 20 61 63 63 6f 72 64 69 6e 67 0a  owel, according.
0eb0: 2a 2a 20 74 6f 20 50 6f 72 74 65 72 20 72 75 6c  ** to Porter rul
0ec0: 73 2e 20 20 0a 2a 2a 0a 2a 2a 20 41 20 63 6f 6e  s.  .**.** A con
0ed0: 73 6f 6e 61 74 65 20 69 73 20 61 6e 79 20 6c 65  sonate is any le
0ee0: 74 74 65 72 20 6f 74 68 65 72 20 74 68 61 6e 20  tter other than 
0ef0: 27 61 27 2c 20 27 65 27 2c 20 27 69 27 2c 20 27  'a', 'e', 'i', '
0f00: 6f 27 2c 20 6f 72 20 27 75 27 2e 0a 2a 2a 20 27  o', or 'u'..** '
0f10: 59 27 20 69 73 20 61 20 63 6f 6e 73 6f 6e 61 6e  Y' is a consonan
0f20: 74 20 75 6e 6c 65 73 73 20 69 74 20 66 6f 6c 6c  t unless it foll
0f30: 6f 77 73 20 61 6e 6f 74 68 65 72 20 63 6f 6e 73  ows another cons
0f40: 6f 6e 61 6e 74 2c 0a 2a 2a 20 69 6e 20 77 68 69  onant,.** in whi
0f50: 63 68 20 63 61 73 65 20 69 74 20 69 73 20 61 20  ch case it is a 
0f60: 76 6f 77 65 6c 2e 0a 2a 2a 0a 2a 2a 20 49 6e 20  vowel..**.** In 
0f70: 74 68 65 73 65 20 72 6f 75 74 69 6e 65 2c 20 74  these routine, t
0f80: 68 65 20 6c 65 74 74 65 72 73 20 61 72 65 20 69  he letters are i
0f90: 6e 20 72 65 76 65 72 73 65 20 6f 72 64 65 72 2e  n reverse order.
0fa0: 20 20 53 6f 20 74 68 65 20 27 79 27 20 72 75 6c    So the 'y' rul
0fb0: 65 0a 2a 2a 20 69 73 20 74 68 61 74 20 27 79 27  e.** is that 'y'
0fc0: 20 69 73 20 61 20 63 6f 6e 73 6f 6e 61 6e 74 20   is a consonant 
0fd0: 75 6e 6c 65 73 73 20 69 74 20 69 73 20 66 6f 6c  unless it is fol
0fe0: 6c 6f 77 65 64 20 62 79 20 61 6e 6f 74 68 65 72  lowed by another
0ff0: 0a 2a 2a 20 63 6f 6e 73 6f 6e 65 6e 74 2e 0a 2a  .** consonent..*
1000: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 69 73 56  /.static int isV
1010: 6f 77 65 6c 28 63 6f 6e 73 74 20 63 68 61 72 2a  owel(const char*
1020: 29 3b 0a 73 74 61 74 69 63 20 69 6e 74 20 69 73  );.static int is
1030: 43 6f 6e 73 6f 6e 61 6e 74 28 63 6f 6e 73 74 20  Consonant(const 
1040: 63 68 61 72 20 2a 7a 29 7b 0a 20 20 69 6e 74 20  char *z){.  int 
1050: 6a 3b 0a 20 20 63 68 61 72 20 78 20 3d 20 2a 7a  j;.  char x = *z
1060: 3b 0a 20 20 69 66 28 20 78 3d 3d 30 20 29 20 72  ;.  if( x==0 ) r
1070: 65 74 75 72 6e 20 30 3b 0a 20 20 61 73 73 65 72  eturn 0;.  asser
1080: 74 28 20 78 3e 3d 27 61 27 20 26 26 20 78 3c 3d  t( x>='a' && x<=
1090: 27 7a 27 20 29 3b 0a 20 20 6a 20 3d 20 63 54 79  'z' );.  j = cTy
10a0: 70 65 5b 78 2d 27 61 27 5d 3b 0a 20 20 69 66 28  pe[x-'a'];.  if(
10b0: 20 6a 3c 32 20 29 20 72 65 74 75 72 6e 20 6a 3b   j<2 ) return j;
10c0: 0a 20 20 72 65 74 75 72 6e 20 7a 5b 31 5d 3d 3d  .  return z[1]==
10d0: 30 20 7c 7c 20 69 73 56 6f 77 65 6c 28 7a 20 2b  0 || isVowel(z +
10e0: 20 31 29 3b 0a 7d 0a 73 74 61 74 69 63 20 69 6e   1);.}.static in
10f0: 74 20 69 73 56 6f 77 65 6c 28 63 6f 6e 73 74 20  t isVowel(const 
1100: 63 68 61 72 20 2a 7a 29 7b 0a 20 20 69 6e 74 20  char *z){.  int 
1110: 6a 3b 0a 20 20 63 68 61 72 20 78 20 3d 20 2a 7a  j;.  char x = *z
1120: 3b 0a 20 20 69 66 28 20 78 3d 3d 30 20 29 20 72  ;.  if( x==0 ) r
1130: 65 74 75 72 6e 20 30 3b 0a 20 20 61 73 73 65 72  eturn 0;.  asser
1140: 74 28 20 78 3e 3d 27 61 27 20 26 26 20 78 3c 3d  t( x>='a' && x<=
1150: 27 7a 27 20 29 3b 0a 20 20 6a 20 3d 20 63 54 79  'z' );.  j = cTy
1160: 70 65 5b 78 2d 27 61 27 5d 3b 0a 20 20 69 66 28  pe[x-'a'];.  if(
1170: 20 6a 3c 32 20 29 20 72 65 74 75 72 6e 20 31 2d   j<2 ) return 1-
1180: 6a 3b 0a 20 20 72 65 74 75 72 6e 20 69 73 43 6f  j;.  return isCo
1190: 6e 73 6f 6e 61 6e 74 28 7a 20 2b 20 31 29 3b 0a  nsonant(z + 1);.
11a0: 7d 0a 0a 2f 2a 0a 2a 2a 20 4c 65 74 20 61 6e 79  }../*.** Let any
11b0: 20 73 65 71 75 65 6e 63 65 20 6f 66 20 6f 6e 65   sequence of one
11c0: 20 6f 72 20 6d 6f 72 65 20 76 6f 77 65 6c 73 20   or more vowels 
11d0: 62 65 20 72 65 70 72 65 73 65 6e 74 65 64 20 62  be represented b
11e0: 79 20 56 20 61 6e 64 20 6c 65 74 0a 2a 2a 20 43  y V and let.** C
11f0: 20 62 65 20 73 65 71 75 65 6e 63 65 20 6f 66 20   be sequence of 
1200: 6f 6e 65 20 6f 72 20 6d 6f 72 65 20 63 6f 6e 73  one or more cons
1210: 6f 6e 61 6e 74 73 2e 20 20 54 68 65 6e 20 65 76  onants.  Then ev
1220: 65 72 79 20 77 6f 72 64 20 63 61 6e 20 62 65 0a  ery word can be.
1230: 2a 2a 20 72 65 70 72 65 73 65 6e 74 65 64 20 61  ** represented a
1240: 73 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 20 20 20 20  s:.**.**        
1250: 20 20 20 5b 43 5d 20 28 56 43 29 7b 6d 7d 20 5b     [C] (VC){m} [
1260: 56 5d 0a 2a 2a 0a 2a 2a 20 49 6e 20 70 72 6f 73  V].**.** In pros
1270: 65 3a 20 20 41 20 77 6f 72 64 20 69 73 20 61 6e  e:  A word is an
1280: 20 6f 70 74 69 6f 6e 61 6c 20 63 6f 6e 73 6f 6e   optional conson
1290: 61 6e 74 20 66 6f 6c 6c 6f 77 65 64 20 62 79 20  ant followed by 
12a0: 7a 65 72 6f 20 6f 72 0a 2a 2a 20 76 6f 77 65 6c  zero or.** vowel
12b0: 2d 63 6f 6e 73 6f 6e 61 6e 74 20 70 61 69 72 73  -consonant pairs
12c0: 20 66 6f 6c 6c 6f 77 65 64 20 62 79 20 61 6e 20   followed by an 
12d0: 6f 70 74 69 6f 6e 61 6c 20 76 6f 77 65 6c 2e 20  optional vowel. 
12e0: 20 22 6d 22 20 69 73 20 74 68 65 0a 2a 2a 20 6e   "m" is the.** n
12f0: 75 6d 62 65 72 20 6f 66 20 76 6f 77 65 6c 20 63  umber of vowel c
1300: 6f 6e 73 6f 6e 61 6e 74 20 70 61 69 72 73 2e 20  onsonant pairs. 
1310: 20 54 68 69 73 20 72 6f 75 74 69 6e 65 20 63 6f   This routine co
1320: 6d 70 75 74 65 73 20 74 68 65 20 76 61 6c 75 65  mputes the value
1330: 0a 2a 2a 20 6f 66 20 6d 20 66 6f 72 20 74 68 65  .** of m for the
1340: 20 66 69 72 73 74 20 69 20 62 79 74 65 73 20 6f   first i bytes o
1350: 66 20 61 20 77 6f 72 64 2e 0a 2a 2a 0a 2a 2a 20  f a word..**.** 
1360: 52 65 74 75 72 6e 20 74 72 75 65 20 69 66 20 74  Return true if t
1370: 68 65 20 6d 2d 76 61 6c 75 65 20 66 6f 72 20 7a  he m-value for z
1380: 20 69 73 20 31 20 6f 72 20 6d 6f 72 65 2e 20 20   is 1 or more.  
1390: 49 6e 20 6f 74 68 65 72 20 77 6f 72 64 73 2c 0a  In other words,.
13a0: 2a 2a 20 72 65 74 75 72 6e 20 74 72 75 65 20 69  ** return true i
13b0: 66 20 7a 20 63 6f 6e 74 61 69 6e 73 20 61 74 20  f z contains at 
13c0: 6c 65 61 73 74 20 6f 6e 65 20 76 6f 77 65 6c 20  least one vowel 
13d0: 74 68 61 74 20 69 73 20 66 6f 6c 6c 6f 77 65 64  that is followed
13e0: 0a 2a 2a 20 62 79 20 61 20 63 6f 6e 73 6f 6e 61  .** by a consona
13f0: 6e 74 2e 0a 2a 2a 0a 2a 2a 20 49 6e 20 74 68 69  nt..**.** In thi
1400: 73 20 72 6f 75 74 69 6e 65 20 7a 5b 5d 20 69 73  s routine z[] is
1410: 20 69 6e 20 72 65 76 65 72 73 65 20 6f 72 64 65   in reverse orde
1420: 72 2e 20 20 53 6f 20 77 65 20 61 72 65 20 72 65  r.  So we are re
1430: 61 6c 6c 79 20 6c 6f 6f 6b 69 6e 67 0a 2a 2a 20  ally looking.** 
1440: 66 6f 72 20 61 6e 20 69 6e 73 74 61 6e 63 65 20  for an instance 
1450: 6f 66 20 6f 66 20 61 20 63 6f 6e 73 6f 6e 61 6e  of of a consonan
1460: 74 20 66 6f 6c 6c 6f 77 65 64 20 62 79 20 61 20  t followed by a 
1470: 76 6f 77 65 6c 2e 0a 2a 2f 0a 73 74 61 74 69 63  vowel..*/.static
1480: 20 69 6e 74 20 6d 5f 67 74 5f 30 28 63 6f 6e 73   int m_gt_0(cons
1490: 74 20 63 68 61 72 20 2a 7a 29 7b 0a 20 20 77 68  t char *z){.  wh
14a0: 69 6c 65 28 20 69 73 56 6f 77 65 6c 28 7a 29 20  ile( isVowel(z) 
14b0: 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20  ){ z++; }.  if( 
14c0: 2a 7a 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 30  *z==0 ) return 0
14d0: 3b 0a 20 20 77 68 69 6c 65 28 20 69 73 43 6f 6e  ;.  while( isCon
14e0: 73 6f 6e 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b  sonant(z) ){ z++
14f0: 3b 20 7d 0a 20 20 72 65 74 75 72 6e 20 2a 7a 21  ; }.  return *z!
1500: 3d 30 3b 0a 7d 0a 0a 2f 2a 20 4c 69 6b 65 20 6d  =0;.}../* Like m
1510: 67 74 30 20 61 62 6f 76 65 20 65 78 63 65 70 74  gt0 above except
1520: 20 77 65 20 61 72 65 20 6c 6f 6f 6b 69 6e 67 20   we are looking 
1530: 66 6f 72 20 61 20 76 61 6c 75 65 20 6f 66 20 6d  for a value of m
1540: 20 77 68 69 63 68 20 69 73 0a 2a 2a 20 65 78 61   which is.** exa
1550: 63 74 6c 79 20 31 0a 2a 2f 0a 73 74 61 74 69 63  ctly 1.*/.static
1560: 20 69 6e 74 20 6d 5f 65 71 5f 31 28 63 6f 6e 73   int m_eq_1(cons
1570: 74 20 63 68 61 72 20 2a 7a 29 7b 0a 20 20 77 68  t char *z){.  wh
1580: 69 6c 65 28 20 69 73 56 6f 77 65 6c 28 7a 29 20  ile( isVowel(z) 
1590: 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20  ){ z++; }.  if( 
15a0: 2a 7a 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 30  *z==0 ) return 0
15b0: 3b 0a 20 20 77 68 69 6c 65 28 20 69 73 43 6f 6e  ;.  while( isCon
15c0: 73 6f 6e 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b  sonant(z) ){ z++
15d0: 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20  ; }.  if( *z==0 
15e0: 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20 77 68  ) return 0;.  wh
15f0: 69 6c 65 28 20 69 73 56 6f 77 65 6c 28 7a 29 20  ile( isVowel(z) 
1600: 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20  ){ z++; }.  if( 
1610: 2a 7a 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 31  *z==0 ) return 1
1620: 3b 0a 20 20 77 68 69 6c 65 28 20 69 73 43 6f 6e  ;.  while( isCon
1630: 73 6f 6e 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b  sonant(z) ){ z++
1640: 3b 20 7d 0a 20 20 72 65 74 75 72 6e 20 2a 7a 3d  ; }.  return *z=
1650: 3d 30 3b 0a 7d 0a 0a 2f 2a 20 4c 69 6b 65 20 6d  =0;.}../* Like m
1660: 67 74 30 20 61 62 6f 76 65 20 65 78 63 65 70 74  gt0 above except
1670: 20 77 65 20 61 72 65 20 6c 6f 6f 6b 69 6e 67 20   we are looking 
1680: 66 6f 72 20 61 20 76 61 6c 75 65 20 6f 66 20 6d  for a value of m
1690: 3e 31 20 69 6e 73 74 65 61 64 0a 2a 2a 20 6f 72  >1 instead.** or
16a0: 20 6d 3e 30 0a 2a 2f 0a 73 74 61 74 69 63 20 69   m>0.*/.static i
16b0: 6e 74 20 6d 5f 67 74 5f 31 28 63 6f 6e 73 74 20  nt m_gt_1(const 
16c0: 63 68 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69 6c  char *z){.  whil
16d0: 65 28 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b  e( isVowel(z) ){
16e0: 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a   z++; }.  if( *z
16f0: 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 30 3b 0a  ==0 ) return 0;.
1700: 20 20 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f    while( isConso
1710: 6e 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20  nant(z) ){ z++; 
1720: 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29 20  }.  if( *z==0 ) 
1730: 72 65 74 75 72 6e 20 30 3b 0a 20 20 77 68 69 6c  return 0;.  whil
1740: 65 28 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b  e( isVowel(z) ){
1750: 20 7a 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a   z++; }.  if( *z
1760: 3d 3d 30 20 29 20 72 65 74 75 72 6e 20 30 3b 0a  ==0 ) return 0;.
1770: 20 20 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f    while( isConso
1780: 6e 61 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20  nant(z) ){ z++; 
1790: 7d 0a 20 20 72 65 74 75 72 6e 20 2a 7a 21 3d 30  }.  return *z!=0
17a0: 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 52 65 74 75 72  ;.}../*.** Retur
17b0: 6e 20 54 52 55 45 20 69 66 20 74 68 65 72 65 20  n TRUE if there 
17c0: 69 73 20 61 20 76 6f 77 65 6c 20 61 6e 79 77 68  is a vowel anywh
17d0: 65 72 65 20 77 69 74 68 69 6e 20 7a 5b 30 2e 2e  ere within z[0..
17e0: 6e 2d 31 5d 0a 2a 2f 0a 73 74 61 74 69 63 20 69  n-1].*/.static i
17f0: 6e 74 20 68 61 73 56 6f 77 65 6c 28 63 6f 6e 73  nt hasVowel(cons
1800: 74 20 63 68 61 72 20 2a 7a 29 7b 0a 20 20 77 68  t char *z){.  wh
1810: 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61 6e 74  ile( isConsonant
1820: 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20  (z) ){ z++; }.  
1830: 72 65 74 75 72 6e 20 2a 7a 21 3d 30 3b 0a 7d 0a  return *z!=0;.}.
1840: 0a 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 54 52  ./*.** Return TR
1850: 55 45 20 69 66 20 74 68 65 20 77 6f 72 64 20 65  UE if the word e
1860: 6e 64 73 20 69 6e 20 61 20 64 6f 75 62 6c 65 20  nds in a double 
1870: 63 6f 6e 73 6f 6e 61 6e 74 2e 0a 2a 2a 0a 2a 2a  consonant..**.**
1880: 20 54 68 65 20 74 65 78 74 20 69 73 20 72 65 76   The text is rev
1890: 65 72 73 65 64 20 68 65 72 65 2e 20 53 6f 20 77  ersed here. So w
18a0: 65 20 61 72 65 20 72 65 61 6c 6c 79 20 6c 6f 6f  e are really loo
18b0: 6b 69 6e 67 20 61 74 0a 2a 2a 20 74 68 65 20 66  king at.** the f
18c0: 69 72 73 74 20 74 77 6f 20 63 68 61 72 61 63 74  irst two charact
18d0: 65 72 73 20 6f 66 20 7a 5b 5d 2e 0a 2a 2f 0a 73  ers of z[]..*/.s
18e0: 74 61 74 69 63 20 69 6e 74 20 64 6f 75 62 6c 65  tatic int double
18f0: 43 6f 6e 73 6f 6e 61 6e 74 28 63 6f 6e 73 74 20  Consonant(const 
1900: 63 68 61 72 20 2a 7a 29 7b 0a 20 20 72 65 74 75  char *z){.  retu
1910: 72 6e 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a  rn isConsonant(z
1920: 29 20 26 26 20 7a 5b 30 5d 3d 3d 7a 5b 31 5d 20  ) && z[0]==z[1] 
1930: 26 26 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a  && isConsonant(z
1940: 2b 31 29 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 52 65  +1);.}../*.** Re
1950: 74 75 72 6e 20 54 52 55 45 20 69 66 20 74 68 65  turn TRUE if the
1960: 20 77 6f 72 64 20 65 6e 64 73 20 77 69 74 68 20   word ends with 
1970: 74 68 72 65 65 20 6c 65 74 74 65 72 73 20 77 68  three letters wh
1980: 69 63 68 0a 2a 2a 20 61 72 65 20 63 6f 6e 73 6f  ich.** are conso
1990: 6e 61 6e 74 2d 76 6f 77 65 6c 2d 63 6f 6e 73 6f  nant-vowel-conso
19a0: 6e 65 6e 74 20 61 6e 64 20 77 68 65 72 65 20 74  nent and where t
19b0: 68 65 20 66 69 6e 61 6c 20 63 6f 6e 73 6f 6e 61  he final consona
19c0: 6e 74 0a 2a 2a 20 69 73 20 6e 6f 74 20 27 77 27  nt.** is not 'w'
19d0: 2c 20 27 78 27 2c 20 6f 72 20 27 79 27 2e 0a 2a  , 'x', or 'y'..*
19e0: 2a 0a 2a 2a 20 54 68 65 20 77 6f 72 64 20 69 73  *.** The word is
19f0: 20 72 65 76 65 72 73 65 64 20 68 65 72 65 2e 20   reversed here. 
1a00: 20 53 6f 20 77 65 20 61 72 65 20 72 65 61 6c 6c   So we are reall
1a10: 79 20 63 68 65 63 6b 69 6e 67 20 74 68 65 0a 2a  y checking the.*
1a20: 2a 20 66 69 72 73 74 20 74 68 72 65 65 20 6c 65  * first three le
1a30: 74 74 65 72 73 20 61 6e 64 20 74 68 65 20 66 69  tters and the fi
1a40: 72 73 74 20 6f 6e 65 20 63 61 6e 6e 6f 74 20 62  rst one cannot b
1a50: 65 20 69 6e 20 5b 77 78 79 5d 2e 0a 2a 2f 0a 73  e in [wxy]..*/.s
1a60: 74 61 74 69 63 20 69 6e 74 20 73 74 61 72 5f 6f  tatic int star_o
1a70: 68 28 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 29  h(const char *z)
1a80: 7b 0a 20 20 72 65 74 75 72 6e 0a 20 20 20 20 7a  {.  return.    z
1a90: 5b 30 5d 21 3d 30 20 26 26 20 69 73 43 6f 6e 73  [0]!=0 && isCons
1aa0: 6f 6e 61 6e 74 28 7a 29 20 26 26 0a 20 20 20 20  onant(z) &&.    
1ab0: 7a 5b 30 5d 21 3d 27 77 27 20 26 26 20 7a 5b 30  z[0]!='w' && z[0
1ac0: 5d 21 3d 27 78 27 20 26 26 20 7a 5b 30 5d 21 3d  ]!='x' && z[0]!=
1ad0: 27 79 27 20 26 26 0a 20 20 20 20 7a 5b 31 5d 21  'y' &&.    z[1]!
1ae0: 3d 30 20 26 26 20 69 73 56 6f 77 65 6c 28 7a 2b  =0 && isVowel(z+
1af0: 31 29 20 26 26 0a 20 20 20 20 7a 5b 32 5d 21 3d  1) &&.    z[2]!=
1b00: 30 20 26 26 20 69 73 43 6f 6e 73 6f 6e 61 6e 74  0 && isConsonant
1b10: 28 7a 2b 32 29 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20  (z+2);.}../*.** 
1b20: 49 66 20 74 68 65 20 77 6f 72 64 20 65 6e 64 73  If the word ends
1b30: 20 77 69 74 68 20 7a 46 72 6f 6d 20 61 6e 64 20   with zFrom and 
1b40: 78 43 6f 6e 64 28 29 20 69 73 20 74 72 75 65 20  xCond() is true 
1b50: 66 6f 72 20 74 68 65 20 73 74 65 6d 0a 2a 2a 20  for the stem.** 
1b60: 6f 66 20 74 68 65 20 77 6f 72 64 20 74 68 61 74  of the word that
1b70: 20 70 72 65 63 65 65 64 73 20 74 68 65 20 7a 46   preceeds the zF
1b80: 72 6f 6d 20 65 6e 64 69 6e 67 2c 20 74 68 65 6e  rom ending, then
1b90: 20 63 68 61 6e 67 65 20 74 68 65 20 0a 2a 2a 20   change the .** 
1ba0: 65 6e 64 69 6e 67 20 74 6f 20 7a 54 6f 2e 0a 2a  ending to zTo..*
1bb0: 2a 0a 2a 2a 20 54 68 65 20 69 6e 70 75 74 20 77  *.** The input w
1bc0: 6f 72 64 20 2a 70 7a 20 61 6e 64 20 7a 46 72 6f  ord *pz and zFro
1bd0: 6d 20 61 72 65 20 62 6f 74 68 20 69 6e 20 72 65  m are both in re
1be0: 76 65 72 73 65 20 6f 72 64 65 72 2e 20 20 7a 54  verse order.  zT
1bf0: 6f 0a 2a 2a 20 69 73 20 69 6e 20 6e 6f 72 6d 61  o.** is in norma
1c00: 6c 20 6f 72 64 65 72 2e 20 0a 2a 2a 0a 2a 2a 20  l order. .**.** 
1c10: 52 65 74 75 72 6e 20 54 52 55 45 20 69 66 20 7a  Return TRUE if z
1c20: 46 72 6f 6d 20 6d 61 74 63 68 65 73 2e 20 20 52  From matches.  R
1c30: 65 74 75 72 6e 20 46 41 4c 53 45 20 69 66 20 7a  eturn FALSE if z
1c40: 46 72 6f 6d 20 64 6f 65 73 20 6e 6f 74 0a 2a 2a  From does not.**
1c50: 20 6d 61 74 63 68 2e 20 20 4e 6f 74 20 74 68 61   match.  Not tha
1c60: 74 20 54 52 55 45 20 69 73 20 72 65 74 75 72 6e  t TRUE is return
1c70: 65 64 20 65 76 65 6e 20 69 66 20 78 43 6f 6e 64  ed even if xCond
1c80: 28 29 20 66 61 69 6c 73 20 61 6e 64 0a 2a 2a 20  () fails and.** 
1c90: 6e 6f 20 73 75 62 73 74 69 74 75 74 69 6f 6e 20  no substitution 
1ca0: 6f 63 63 75 72 73 2e 0a 2a 2f 0a 73 74 61 74 69  occurs..*/.stati
1cb0: 63 20 69 6e 74 20 73 74 65 6d 28 0a 20 20 63 68  c int stem(.  ch
1cc0: 61 72 20 2a 2a 70 7a 2c 20 20 20 20 20 20 20 20  ar **pz,        
1cd0: 20 20 20 20 20 2f 2a 20 54 68 65 20 77 6f 72 64       /* The word
1ce0: 20 62 65 69 6e 67 20 73 74 65 6d 6d 65 64 20 28   being stemmed (
1cf0: 52 65 76 65 72 73 65 64 29 20 2a 2f 0a 20 20 63  Reversed) */.  c
1d00: 6f 6e 73 74 20 63 68 61 72 20 2a 7a 46 72 6f 6d  onst char *zFrom
1d10: 2c 20 20 20 20 20 2f 2a 20 49 66 20 74 68 65 20  ,     /* If the 
1d20: 65 6e 64 69 6e 67 20 6d 61 74 63 68 65 73 20 74  ending matches t
1d30: 68 69 73 2e 2e 2e 20 28 52 65 76 65 72 73 65 64  his... (Reversed
1d40: 29 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61  ) */.  const cha
1d50: 72 20 2a 7a 54 6f 2c 20 20 20 20 20 20 20 2f 2a  r *zTo,       /*
1d60: 20 2e 2e 2e 20 63 68 61 6e 67 65 20 74 68 65 20   ... change the 
1d70: 65 6e 64 69 6e 67 20 74 6f 20 74 68 69 73 20 28  ending to this (
1d80: 6e 6f 74 20 72 65 76 65 72 73 65 64 29 20 2a 2f  not reversed) */
1d90: 0a 20 20 69 6e 74 20 28 2a 78 43 6f 6e 64 29 28  .  int (*xCond)(
1da0: 63 6f 6e 73 74 20 63 68 61 72 2a 29 20 20 20 2f  const char*)   /
1db0: 2a 20 43 6f 6e 64 69 74 69 6f 6e 20 74 68 61 74  * Condition that
1dc0: 20 6d 75 73 74 20 62 65 20 74 72 75 65 20 2a 2f   must be true */
1dd0: 0a 29 7b 0a 20 20 63 68 61 72 20 2a 7a 20 3d 20  .){.  char *z = 
1de0: 2a 70 7a 3b 0a 20 20 77 68 69 6c 65 28 20 2a 7a  *pz;.  while( *z
1df0: 46 72 6f 6d 20 26 26 20 2a 7a 46 72 6f 6d 3d 3d  From && *zFrom==
1e00: 2a 7a 20 29 7b 20 7a 2b 2b 3b 20 7a 46 72 6f 6d  *z ){ z++; zFrom
1e10: 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 46 72  ++; }.  if( *zFr
1e20: 6f 6d 21 3d 30 20 29 20 72 65 74 75 72 6e 20 30  om!=0 ) return 0
1e30: 3b 0a 20 20 69 66 28 20 78 43 6f 6e 64 20 26 26  ;.  if( xCond &&
1e40: 20 21 78 43 6f 6e 64 28 7a 29 20 29 20 72 65 74   !xCond(z) ) ret
1e50: 75 72 6e 20 31 3b 0a 20 20 77 68 69 6c 65 28 20  urn 1;.  while( 
1e60: 2a 7a 54 6f 20 29 7b 0a 20 20 20 20 2a 28 2d 2d  *zTo ){.    *(--
1e70: 7a 29 20 3d 20 2a 28 7a 54 6f 2b 2b 29 3b 0a 20  z) = *(zTo++);. 
1e80: 20 7d 0a 20 20 2a 70 7a 20 3d 20 7a 3b 0a 20 20   }.  *pz = z;.  
1e90: 72 65 74 75 72 6e 20 31 3b 0a 7d 0a 0a 2f 2a 0a  return 1;.}../*.
1ea0: 2a 2a 20 54 68 69 73 20 69 73 20 74 68 65 20 66  ** This is the f
1eb0: 61 6c 6c 62 61 63 6b 20 73 74 65 6d 6d 65 72 20  allback stemmer 
1ec0: 75 73 65 64 20 77 68 65 6e 20 74 68 65 20 70 6f  used when the po
1ed0: 72 74 65 72 20 73 74 65 6d 6d 65 72 20 69 73 0a  rter stemmer is.
1ee0: 2a 2a 20 69 6e 61 70 70 72 6f 70 72 69 61 74 65  ** inappropriate
1ef0: 2e 20 20 54 68 65 20 69 6e 70 75 74 20 77 6f 72  .  The input wor
1f00: 64 20 69 73 20 63 6f 70 69 65 64 20 69 6e 74 6f  d is copied into
1f10: 20 74 68 65 20 6f 75 74 70 75 74 20 77 69 74 68   the output with
1f20: 0a 2a 2a 20 55 53 2d 41 53 43 49 49 20 63 61 73  .** US-ASCII cas
1f30: 65 20 66 6f 6c 64 69 6e 67 2e 20 20 49 66 20 74  e folding.  If t
1f40: 68 65 20 69 6e 70 75 74 20 77 6f 72 64 20 69 73  he input word is
1f50: 20 74 6f 6f 20 6c 6f 6e 67 20 28 6d 6f 72 65 0a   too long (more.
1f60: 2a 2a 20 74 68 61 6e 20 32 30 20 62 79 74 65 73  ** than 20 bytes
1f70: 20 69 66 20 69 74 20 63 6f 6e 74 61 69 6e 73 20   if it contains 
1f80: 6e 6f 20 64 69 67 69 74 73 20 6f 72 20 6d 6f 72  no digits or mor
1f90: 65 20 74 68 61 6e 20 36 20 62 79 74 65 73 20 69  e than 6 bytes i
1fa0: 66 0a 2a 2a 20 69 74 20 63 6f 6e 74 61 69 6e 73  f.** it contains
1fb0: 20 64 69 67 69 74 73 29 20 74 68 65 6e 20 77 6f   digits) then wo
1fc0: 72 64 20 69 73 20 74 72 75 6e 63 61 74 65 64 20  rd is truncated 
1fd0: 74 6f 20 32 30 20 6f 72 20 36 20 62 79 74 65 73  to 20 or 6 bytes
1fe0: 0a 2a 2a 20 62 79 20 74 61 6b 69 6e 67 20 31 30  .** by taking 10
1ff0: 20 6f 72 20 33 20 62 79 74 65 73 20 66 72 6f 6d   or 3 bytes from
2000: 20 74 68 65 20 62 65 67 69 6e 6e 69 6e 67 20 61   the beginning a
2010: 6e 64 20 65 6e 64 2e 0a 2a 2f 0a 73 74 61 74 69  nd end..*/.stati
2020: 63 20 76 6f 69 64 20 63 6f 70 79 5f 73 74 65 6d  c void copy_stem
2030: 6d 65 72 28 63 6f 6e 73 74 20 63 68 61 72 20 2a  mer(const char *
2040: 7a 49 6e 2c 20 69 6e 74 20 6e 49 6e 2c 20 63 68  zIn, int nIn, ch
2050: 61 72 20 2a 7a 4f 75 74 2c 20 69 6e 74 20 2a 70  ar *zOut, int *p
2060: 6e 4f 75 74 29 7b 0a 20 20 69 6e 74 20 69 2c 20  nOut){.  int i, 
2070: 6d 78 2c 20 6a 3b 0a 20 20 69 6e 74 20 68 61 73  mx, j;.  int has
2080: 44 69 67 69 74 20 3d 20 30 3b 0a 20 20 66 6f 72  Digit = 0;.  for
2090: 28 69 3d 30 3b 20 69 3c 6e 49 6e 3b 20 69 2b 2b  (i=0; i<nIn; i++
20a0: 29 7b 0a 20 20 20 20 69 6e 74 20 63 20 3d 20 7a  ){.    int c = z
20b0: 49 6e 5b 69 5d 3b 0a 20 20 20 20 69 66 28 20 63  In[i];.    if( c
20c0: 3e 3d 27 41 27 20 26 26 20 63 3c 3d 27 5a 27 20  >='A' && c<='Z' 
20d0: 29 7b 0a 20 20 20 20 20 20 7a 4f 75 74 5b 69 5d  ){.      zOut[i]
20e0: 20 3d 20 63 20 2d 20 27 41 27 20 2b 20 27 61 27   = c - 'A' + 'a'
20f0: 3b 0a 20 20 20 20 7d 65 6c 73 65 7b 0a 20 20 20  ;.    }else{.   
2100: 20 20 20 69 66 28 20 63 3e 3d 27 30 27 20 26 26     if( c>='0' &&
2110: 20 63 3c 3d 27 39 27 20 29 20 68 61 73 44 69 67   c<='9' ) hasDig
2120: 69 74 20 3d 20 31 3b 0a 20 20 20 20 20 20 7a 4f  it = 1;.      zO
2130: 75 74 5b 69 5d 20 3d 20 63 3b 0a 20 20 20 20 7d  ut[i] = c;.    }
2140: 0a 20 20 7d 0a 20 20 6d 78 20 3d 20 68 61 73 44  .  }.  mx = hasD
2150: 69 67 69 74 20 3f 20 33 20 3a 20 31 30 3b 0a 20  igit ? 3 : 10;. 
2160: 20 69 66 28 20 6e 49 6e 3e 6d 78 2a 32 20 29 7b   if( nIn>mx*2 ){
2170: 0a 20 20 20 20 66 6f 72 28 6a 3d 6d 78 2c 20 69  .    for(j=mx, i
2180: 3d 6e 49 6e 2d 6d 78 3b 20 69 3c 6e 49 6e 3b 20  =nIn-mx; i<nIn; 
2190: 69 2b 2b 2c 20 6a 2b 2b 29 7b 0a 20 20 20 20 20  i++, j++){.     
21a0: 20 7a 4f 75 74 5b 6a 5d 20 3d 20 7a 4f 75 74 5b   zOut[j] = zOut[
21b0: 69 5d 3b 0a 20 20 20 20 7d 0a 20 20 20 20 69 20  i];.    }.    i 
21c0: 3d 20 6a 3b 0a 20 20 7d 0a 20 20 7a 4f 75 74 5b  = j;.  }.  zOut[
21d0: 69 5d 20 3d 20 30 3b 0a 20 20 2a 70 6e 4f 75 74  i] = 0;.  *pnOut
21e0: 20 3d 20 69 3b 0a 7d 0a 0a 0a 2f 2a 0a 2a 2a 20   = i;.}.../*.** 
21f0: 53 74 65 6d 20 74 68 65 20 69 6e 70 75 74 20 77  Stem the input w
2200: 6f 72 64 20 7a 49 6e 5b 30 2e 2e 6e 49 6e 2d 31  ord zIn[0..nIn-1
2210: 5d 2e 20 20 53 74 6f 72 65 20 74 68 65 20 6f 75  ].  Store the ou
2220: 74 70 75 74 20 69 6e 20 7a 4f 75 74 2e 0a 2a 2a  tput in zOut..**
2230: 20 7a 4f 75 74 20 69 73 20 61 74 20 6c 65 61 73   zOut is at leas
2240: 74 20 62 69 67 20 65 6e 6f 75 67 68 20 74 6f 20  t big enough to 
2250: 68 6f 6c 64 20 6e 49 6e 20 62 79 74 65 73 2e 20  hold nIn bytes. 
2260: 20 57 72 69 74 65 20 74 68 65 20 61 63 74 75 61   Write the actua
2270: 6c 0a 2a 2a 20 73 69 7a 65 20 6f 66 20 74 68 65  l.** size of the
2280: 20 6f 75 74 70 75 74 20 77 6f 72 64 20 28 65 78   output word (ex
2290: 63 6c 75 73 69 76 65 20 6f 66 20 74 68 65 20 27  clusive of the '
22a0: 5c 30 27 20 74 65 72 6d 69 6e 61 74 6f 72 29 20  \0' terminator) 
22b0: 69 6e 74 6f 20 2a 70 6e 4f 75 74 2e 0a 2a 2a 0a  into *pnOut..**.
22c0: 2a 2a 20 41 6e 79 20 75 70 70 65 72 2d 63 61 73  ** Any upper-cas
22d0: 65 20 63 68 61 72 61 63 74 65 72 73 20 69 6e 20  e characters in 
22e0: 74 68 65 20 55 53 2d 41 53 43 49 49 20 63 68 61  the US-ASCII cha
22f0: 72 61 63 74 65 72 20 73 65 74 20 28 5b 41 2d 5a  racter set ([A-Z
2300: 5d 29 0a 2a 2a 20 61 72 65 20 63 6f 6e 76 65 72  ]).** are conver
2310: 74 65 64 20 74 6f 20 6c 6f 77 65 72 20 63 61 73  ted to lower cas
2320: 65 2e 20 20 55 70 70 65 72 2d 63 61 73 65 20 55  e.  Upper-case U
2330: 54 46 20 63 68 61 72 61 63 74 65 72 73 20 61 72  TF characters ar
2340: 65 0a 2a 2a 20 75 6e 63 68 61 6e 67 65 64 2e 0a  e.** unchanged..
2350: 2a 2a 0a 2a 2a 20 57 6f 72 64 73 20 74 68 61 74  **.** Words that
2360: 20 61 72 65 20 6c 6f 6e 67 65 72 20 74 68 61 6e   are longer than
2370: 20 61 62 6f 75 74 20 32 30 20 62 79 74 65 73 20   about 20 bytes 
2380: 61 72 65 20 73 74 65 6d 6d 65 64 20 62 79 20 72  are stemmed by r
2390: 65 74 61 69 6e 69 6e 67 0a 2a 2a 20 61 20 66 65  etaining.** a fe
23a0: 77 20 62 79 74 65 73 20 66 72 6f 6d 20 74 68 65  w bytes from the
23b0: 20 62 65 67 69 6e 6e 69 6e 67 20 61 6e 64 20 74   beginning and t
23c0: 68 65 20 65 6e 64 20 6f 66 20 74 68 65 20 77 6f  he end of the wo
23d0: 72 64 2e 20 20 49 66 20 74 68 65 0a 2a 2a 20 77  rd.  If the.** w
23e0: 6f 72 64 20 63 6f 6e 74 61 69 6e 73 20 64 69 67  ord contains dig
23f0: 69 74 73 2c 20 33 20 62 79 74 65 73 20 61 72 65  its, 3 bytes are
2400: 20 74 61 6b 65 6e 20 66 72 6f 6d 20 74 68 65 20   taken from the 
2410: 62 65 67 69 6e 6e 69 6e 67 20 61 6e 64 0a 2a 2a  beginning and.**
2420: 20 33 20 62 79 74 65 73 20 66 72 6f 6d 20 74 68   3 bytes from th
2430: 65 20 65 6e 64 2e 20 20 46 6f 72 20 6c 6f 6e 67  e end.  For long
2440: 20 77 6f 72 64 73 20 77 69 74 68 6f 75 74 20 64   words without d
2450: 69 67 69 74 73 2c 20 31 30 20 62 79 74 65 73 0a  igits, 10 bytes.
2460: 2a 2a 20 61 72 65 20 74 61 6b 65 6e 20 66 72 6f  ** are taken fro
2470: 6d 20 65 61 63 68 20 65 6e 64 2e 20 20 55 53 2d  m each end.  US-
2480: 41 53 43 49 49 20 63 61 73 65 20 66 6f 6c 64 69  ASCII case foldi
2490: 6e 67 20 73 74 69 6c 6c 20 61 70 70 6c 69 65 73  ng still applies
24a0: 2e 0a 2a 2a 20 0a 2a 2a 20 49 66 20 74 68 65 20  ..** .** If the 
24b0: 69 6e 70 75 74 20 77 6f 72 64 20 63 6f 6e 74 61  input word conta
24c0: 69 6e 73 20 6e 6f 74 20 64 69 67 69 74 73 20 62  ins not digits b
24d0: 75 74 20 64 6f 65 73 20 63 68 61 72 61 63 74 65  ut does characte
24e0: 72 73 20 6e 6f 74 20 0a 2a 2a 20 69 6e 20 5b 61  rs not .** in [a
24f0: 2d 7a 41 2d 5a 5d 20 74 68 65 6e 20 6e 6f 20 73  -zA-Z] then no s
2500: 74 65 6d 6d 69 6e 67 20 69 73 20 61 74 74 65 6d  temming is attem
2510: 70 74 65 64 20 61 6e 64 20 74 68 69 73 20 72 6f  pted and this ro
2520: 75 74 69 6e 65 20 6a 75 73 74 20 0a 2a 2a 20 63  utine just .** c
2530: 6f 70 69 65 73 20 74 68 65 20 69 6e 70 75 74 20  opies the input 
2540: 69 6e 74 6f 20 74 68 65 20 69 6e 70 75 74 20 69  into the input i
2550: 6e 74 6f 20 74 68 65 20 6f 75 74 70 75 74 20 77  nto the output w
2560: 69 74 68 20 55 53 2d 41 53 43 49 49 0a 2a 2a 20  ith US-ASCII.** 
2570: 63 61 73 65 20 66 6f 6c 64 69 6e 67 2e 0a 2a 2a  case folding..**
2580: 0a 2a 2a 20 53 74 65 6d 6d 69 6e 67 20 6e 65 76  .** Stemming nev
2590: 65 72 20 69 6e 63 72 65 61 73 65 73 20 74 68 65  er increases the
25a0: 20 6c 65 6e 67 74 68 20 6f 66 20 74 68 65 20 77   length of the w
25b0: 6f 72 64 2e 20 20 53 6f 20 74 68 65 72 65 20 69  ord.  So there i
25c0: 73 0a 2a 2a 20 6e 6f 20 63 68 61 6e 63 65 20 6f  s.** no chance o
25d0: 66 20 6f 76 65 72 66 6c 6f 77 69 6e 67 20 74 68  f overflowing th
25e0: 65 20 7a 4f 75 74 20 62 75 66 66 65 72 2e 0a 2a  e zOut buffer..*
25f0: 2f 0a 73 74 61 74 69 63 20 76 6f 69 64 20 70 6f  /.static void po
2600: 72 74 65 72 5f 73 74 65 6d 6d 65 72 28 63 6f 6e  rter_stemmer(con
2610: 73 74 20 63 68 61 72 20 2a 7a 49 6e 2c 20 69 6e  st char *zIn, in
2620: 74 20 6e 49 6e 2c 20 63 68 61 72 20 2a 7a 4f 75  t nIn, char *zOu
2630: 74 2c 20 69 6e 74 20 2a 70 6e 4f 75 74 29 7b 0a  t, int *pnOut){.
2640: 20 20 69 6e 74 20 69 2c 20 6a 2c 20 63 3b 0a 20    int i, j, c;. 
2650: 20 63 68 61 72 20 7a 52 65 76 65 72 73 65 5b 32   char zReverse[2
2660: 38 5d 3b 0a 20 20 63 68 61 72 20 2a 7a 2c 20 2a  8];.  char *z, *
2670: 7a 32 3b 0a 20 20 69 66 28 20 6e 49 6e 3c 33 20  z2;.  if( nIn<3 
2680: 7c 7c 20 6e 49 6e 3e 3d 73 69 7a 65 6f 66 28 7a  || nIn>=sizeof(z
2690: 52 65 76 65 72 73 65 29 2d 37 20 29 7b 0a 20 20  Reverse)-7 ){.  
26a0: 20 20 2f 2a 20 54 68 65 20 77 6f 72 64 20 69 73    /* The word is
26b0: 20 74 6f 6f 20 62 69 67 20 6f 72 20 74 6f 6f 20   too big or too 
26c0: 73 6d 61 6c 6c 20 66 6f 72 20 74 68 65 20 70 6f  small for the po
26d0: 72 74 65 72 20 73 74 65 6d 6d 65 72 2e 0a 20 20  rter stemmer..  
26e0: 20 20 2a 2a 20 46 61 6c 6c 62 61 63 6b 20 74 6f    ** Fallback to
26f0: 20 74 68 65 20 63 6f 70 79 20 73 74 65 6d 6d 65   the copy stemme
2700: 72 20 2a 2f 0a 20 20 20 20 63 6f 70 79 5f 73 74  r */.    copy_st
2710: 65 6d 6d 65 72 28 7a 49 6e 2c 20 6e 49 6e 2c 20  emmer(zIn, nIn, 
2720: 7a 4f 75 74 2c 20 70 6e 4f 75 74 29 3b 0a 20 20  zOut, pnOut);.  
2730: 20 20 72 65 74 75 72 6e 3b 0a 20 20 7d 0a 20 20    return;.  }.  
2740: 66 6f 72 28 69 3d 30 2c 20 6a 3d 73 69 7a 65 6f  for(i=0, j=sizeo
2750: 66 28 7a 52 65 76 65 72 73 65 29 2d 36 3b 20 69  f(zReverse)-6; i
2760: 3c 6e 49 6e 3b 20 69 2b 2b 2c 20 6a 2d 2d 29 7b  <nIn; i++, j--){
2770: 0a 20 20 20 20 63 20 3d 20 7a 49 6e 5b 69 5d 3b  .    c = zIn[i];
2780: 0a 20 20 20 20 69 66 28 20 63 3e 3d 27 41 27 20  .    if( c>='A' 
2790: 26 26 20 63 3c 3d 27 5a 27 20 29 7b 0a 20 20 20  && c<='Z' ){.   
27a0: 20 20 20 7a 52 65 76 65 72 73 65 5b 6a 5d 20 3d     zReverse[j] =
27b0: 20 63 20 2b 20 27 61 27 20 2d 20 27 41 27 3b 0a   c + 'a' - 'A';.
27c0: 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 63 3e      }else if( c>
27d0: 3d 27 61 27 20 26 26 20 63 3c 3d 27 7a 27 20 29  ='a' && c<='z' )
27e0: 7b 0a 20 20 20 20 20 20 7a 52 65 76 65 72 73 65  {.      zReverse
27f0: 5b 6a 5d 20 3d 20 63 3b 0a 20 20 20 20 7d 65 6c  [j] = c;.    }el
2800: 73 65 7b 0a 20 20 20 20 20 20 2f 2a 20 54 68 65  se{.      /* The
2810: 20 75 73 65 20 6f 66 20 61 20 63 68 61 72 61 63   use of a charac
2820: 74 65 72 20 6e 6f 74 20 69 6e 20 5b 61 2d 7a 41  ter not in [a-zA
2830: 2d 5a 5d 20 6d 65 61 6e 73 20 74 68 61 74 20 77  -Z] means that w
2840: 65 20 66 61 6c 6c 62 61 63 6b 0a 20 20 20 20 20  e fallback.     
2850: 20 2a 2a 20 74 6f 20 74 68 65 20 63 6f 70 79 20   ** to the copy 
2860: 73 74 65 6d 6d 65 72 20 2a 2f 0a 20 20 20 20 20  stemmer */.     
2870: 20 63 6f 70 79 5f 73 74 65 6d 6d 65 72 28 7a 49   copy_stemmer(zI
2880: 6e 2c 20 6e 49 6e 2c 20 7a 4f 75 74 2c 20 70 6e  n, nIn, zOut, pn
2890: 4f 75 74 29 3b 0a 20 20 20 20 20 20 72 65 74 75  Out);.      retu
28a0: 72 6e 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 20 20  rn;.    }.  }.  
28b0: 6d 65 6d 73 65 74 28 26 7a 52 65 76 65 72 73 65  memset(&zReverse
28c0: 5b 73 69 7a 65 6f 66 28 7a 52 65 76 65 72 73 65  [sizeof(zReverse
28d0: 29 2d 35 5d 2c 20 30 2c 20 35 29 3b 0a 20 20 7a  )-5], 0, 5);.  z
28e0: 20 3d 20 26 7a 52 65 76 65 72 73 65 5b 6a 2b 31   = &zReverse[j+1
28f0: 5d 3b 0a 0a 0a 20 20 2f 2a 20 53 74 65 70 20 31  ];...  /* Step 1
2900: 61 20 2a 2f 0a 20 20 69 66 28 20 7a 5b 30 5d 3d  a */.  if( z[0]=
2910: 3d 27 73 27 20 29 7b 0a 20 20 20 20 69 66 28 0a  ='s' ){.    if(.
2920: 20 20 20 20 20 21 73 74 65 6d 28 26 7a 2c 20 22       !stem(&z, "
2930: 73 65 73 73 22 2c 20 22 73 73 22 2c 20 30 29 20  sess", "ss", 0) 
2940: 26 26 0a 20 20 20 20 20 21 73 74 65 6d 28 26 7a  &&.     !stem(&z
2950: 2c 20 22 73 65 69 22 2c 20 22 69 22 2c 20 30 29  , "sei", "i", 0)
2960: 20 20 26 26 0a 20 20 20 20 20 21 73 74 65 6d 28    &&.     !stem(
2970: 26 7a 2c 20 22 73 73 22 2c 20 22 73 73 22 2c 20  &z, "ss", "ss", 
2980: 30 29 0a 20 20 20 20 29 7b 0a 20 20 20 20 20 20  0).    ){.      
2990: 7a 2b 2b 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a  z++;.    }.  }..
29a0: 20 20 2f 2a 20 53 74 65 70 20 31 62 20 2a 2f 20    /* Step 1b */ 
29b0: 20 0a 20 20 7a 32 20 3d 20 7a 3b 0a 20 20 69 66   .  z2 = z;.  if
29c0: 28 20 73 74 65 6d 28 26 7a 2c 20 22 64 65 65 22  ( stem(&z, "dee"
29d0: 2c 20 22 65 65 22 2c 20 6d 5f 67 74 5f 30 29 20  , "ee", m_gt_0) 
29e0: 29 7b 0a 20 20 20 20 2f 2a 20 44 6f 20 6e 6f 74  ){.    /* Do not
29f0: 68 69 6e 67 2e 20 20 54 68 65 20 77 6f 72 6b 20  hing.  The work 
2a00: 77 61 73 20 61 6c 6c 20 69 6e 20 74 68 65 20 74  was all in the t
2a10: 65 73 74 20 2a 2f 0a 20 20 7d 65 6c 73 65 20 69  est */.  }else i
2a20: 66 28 20 0a 20 20 20 20 20 28 73 74 65 6d 28 26  f( .     (stem(&
2a30: 7a 2c 20 22 67 6e 69 22 2c 20 22 22 2c 20 68 61  z, "gni", "", ha
2a40: 73 56 6f 77 65 6c 29 20 7c 7c 20 73 74 65 6d 28  sVowel) || stem(
2a50: 26 7a 2c 20 22 64 65 22 2c 20 22 22 2c 20 68 61  &z, "de", "", ha
2a60: 73 56 6f 77 65 6c 29 29 0a 20 20 20 20 20 20 26  sVowel)).      &
2a70: 26 20 7a 21 3d 7a 32 0a 20 20 29 7b 0a 20 20 20  & z!=z2.  ){.   
2a80: 20 20 69 66 28 20 73 74 65 6d 28 26 7a 2c 20 22    if( stem(&z, "
2a90: 74 61 22 2c 20 22 61 74 65 22 2c 20 30 29 20 7c  ta", "ate", 0) |
2aa0: 7c 0a 20 20 20 20 20 20 20 20 20 73 74 65 6d 28  |.         stem(
2ab0: 26 7a 2c 20 22 6c 62 22 2c 20 22 62 6c 65 22 2c  &z, "lb", "ble",
2ac0: 20 30 29 20 7c 7c 0a 20 20 20 20 20 20 20 20 20   0) ||.         
2ad0: 73 74 65 6d 28 26 7a 2c 20 22 7a 69 22 2c 20 22  stem(&z, "zi", "
2ae0: 69 7a 65 22 2c 20 30 29 20 29 7b 0a 20 20 20 20  ize", 0) ){.    
2af0: 20 20 20 2f 2a 20 44 6f 20 6e 6f 74 68 69 6e 67     /* Do nothing
2b00: 2e 20 20 54 68 65 20 77 6f 72 6b 20 77 61 73 20  .  The work was 
2b10: 61 6c 6c 20 69 6e 20 74 68 65 20 74 65 73 74 20  all in the test 
2b20: 2a 2f 0a 20 20 20 20 20 7d 65 6c 73 65 20 69 66  */.     }else if
2b30: 28 20 64 6f 75 62 6c 65 43 6f 6e 73 6f 6e 61 6e  ( doubleConsonan
2b40: 74 28 7a 29 20 26 26 20 28 2a 7a 21 3d 27 6c 27  t(z) && (*z!='l'
2b50: 20 26 26 20 2a 7a 21 3d 27 73 27 20 26 26 20 2a   && *z!='s' && *
2b60: 7a 21 3d 27 7a 27 29 20 29 7b 0a 20 20 20 20 20  z!='z') ){.     
2b70: 20 20 7a 2b 2b 3b 0a 20 20 20 20 20 7d 65 6c 73    z++;.     }els
2b80: 65 20 69 66 28 20 6d 5f 65 71 5f 31 28 7a 29 20  e if( m_eq_1(z) 
2b90: 26 26 20 73 74 61 72 5f 6f 68 28 7a 29 20 29 7b  && star_oh(z) ){
2ba0: 0a 20 20 20 20 20 20 20 2a 28 2d 2d 7a 29 20 3d  .       *(--z) =
2bb0: 20 27 65 27 3b 0a 20 20 20 20 20 7d 0a 20 20 7d   'e';.     }.  }
2bc0: 0a 0a 20 20 2f 2a 20 53 74 65 70 20 31 63 20 2a  ..  /* Step 1c *
2bd0: 2f 0a 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 79  /.  if( z[0]=='y
2be0: 27 20 26 26 20 68 61 73 56 6f 77 65 6c 28 7a 2b  ' && hasVowel(z+
2bf0: 31 29 20 29 7b 0a 20 20 20 20 7a 5b 30 5d 20 3d  1) ){.    z[0] =
2c00: 20 27 69 27 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20   'i';.  }..  /* 
2c10: 53 74 65 70 20 32 20 2a 2f 0a 20 20 73 77 69 74  Step 2 */.  swit
2c20: 63 68 28 20 7a 5b 31 5d 20 29 7b 0a 20 20 20 63  ch( z[1] ){.   c
2c30: 61 73 65 20 27 61 27 3a 0a 20 20 20 20 20 73 74  ase 'a':.     st
2c40: 65 6d 28 26 7a 2c 20 22 6c 61 6e 6f 69 74 61 22  em(&z, "lanoita"
2c50: 2c 20 22 61 74 65 22 2c 20 6d 5f 67 74 5f 30 29  , "ate", m_gt_0)
2c60: 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a   ||.     stem(&z
2c70: 2c 20 22 6c 61 6e 6f 69 74 22 2c 20 22 74 69 6f  , "lanoit", "tio
2c80: 6e 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20  n", m_gt_0);.   
2c90: 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65    break;.   case
2ca0: 20 27 63 27 3a 0a 20 20 20 20 20 73 74 65 6d 28   'c':.     stem(
2cb0: 26 7a 2c 20 22 69 63 6e 65 22 2c 20 22 65 6e 63  &z, "icne", "enc
2cc0: 65 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20  e", m_gt_0) ||. 
2cd0: 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 63      stem(&z, "ic
2ce0: 6e 61 22 2c 20 22 61 6e 63 65 22 2c 20 6d 5f 67  na", "ance", m_g
2cf0: 74 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b  t_0);.     break
2d00: 3b 0a 20 20 20 63 61 73 65 20 27 65 27 3a 0a 20  ;.   case 'e':. 
2d10: 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 72 65      stem(&z, "re
2d20: 7a 69 22 2c 20 22 69 7a 65 22 2c 20 6d 5f 67 74  zi", "ize", m_gt
2d30: 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b  _0);.     break;
2d40: 0a 20 20 20 63 61 73 65 20 27 67 27 3a 0a 20 20  .   case 'g':.  
2d50: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 67 6f     stem(&z, "igo
2d60: 6c 22 2c 20 22 6c 6f 67 22 2c 20 6d 5f 67 74 5f  l", "log", m_gt_
2d70: 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a  0);.     break;.
2d80: 20 20 20 63 61 73 65 20 27 6c 27 3a 0a 20 20 20     case 'l':.   
2d90: 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 6c 62 22    stem(&z, "ilb"
2da0: 2c 20 22 62 6c 65 22 2c 20 6d 5f 67 74 5f 30 29  , "ble", m_gt_0)
2db0: 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a   ||.     stem(&z
2dc0: 2c 20 22 69 6c 6c 61 22 2c 20 22 61 6c 22 2c 20  , "illa", "al", 
2dd0: 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20  m_gt_0) ||.     
2de0: 73 74 65 6d 28 26 7a 2c 20 22 69 6c 74 6e 65 22  stem(&z, "iltne"
2df0: 2c 20 22 65 6e 74 22 2c 20 6d 5f 67 74 5f 30 29  , "ent", m_gt_0)
2e00: 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a   ||.     stem(&z
2e10: 2c 20 22 69 6c 65 22 2c 20 22 65 22 2c 20 6d 5f  , "ile", "e", m_
2e20: 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74  gt_0) ||.     st
2e30: 65 6d 28 26 7a 2c 20 22 69 6c 73 75 6f 22 2c 20  em(&z, "ilsuo", 
2e40: 22 6f 75 73 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a  "ous", m_gt_0);.
2e50: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63       break;.   c
2e60: 61 73 65 20 27 6f 27 3a 0a 20 20 20 20 20 73 74  ase 'o':.     st
2e70: 65 6d 28 26 7a 2c 20 22 6e 6f 69 74 61 7a 69 22  em(&z, "noitazi"
2e80: 2c 20 22 69 7a 65 22 2c 20 6d 5f 67 74 5f 30 29  , "ize", m_gt_0)
2e90: 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a   ||.     stem(&z
2ea0: 2c 20 22 6e 6f 69 74 61 22 2c 20 22 61 74 65 22  , "noita", "ate"
2eb0: 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20  , m_gt_0) ||.   
2ec0: 20 20 73 74 65 6d 28 26 7a 2c 20 22 72 6f 74 61    stem(&z, "rota
2ed0: 22 2c 20 22 61 74 65 22 2c 20 6d 5f 67 74 5f 30  ", "ate", m_gt_0
2ee0: 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20  );.     break;. 
2ef0: 20 20 63 61 73 65 20 27 73 27 3a 0a 20 20 20 20    case 's':.    
2f00: 20 73 74 65 6d 28 26 7a 2c 20 22 6d 73 69 6c 61   stem(&z, "msila
2f10: 22 2c 20 22 61 6c 22 2c 20 6d 5f 67 74 5f 30 29  ", "al", m_gt_0)
2f20: 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a   ||.     stem(&z
2f30: 2c 20 22 73 73 65 6e 65 76 69 22 2c 20 22 69 76  , "ssenevi", "iv
2f40: 65 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20  e", m_gt_0) ||. 
2f50: 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 73 73      stem(&z, "ss
2f60: 65 6e 6c 75 66 22 2c 20 22 66 75 6c 22 2c 20 6d  enluf", "ful", m
2f70: 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73  _gt_0) ||.     s
2f80: 74 65 6d 28 26 7a 2c 20 22 73 73 65 6e 73 75 6f  tem(&z, "ssensuo
2f90: 22 2c 20 22 6f 75 73 22 2c 20 6d 5f 67 74 5f 30  ", "ous", m_gt_0
2fa0: 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20  );.     break;. 
2fb0: 20 20 63 61 73 65 20 27 74 27 3a 0a 20 20 20 20    case 't':.    
2fc0: 20 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 6c 61   stem(&z, "itila
2fd0: 22 2c 20 22 61 6c 22 2c 20 6d 5f 67 74 5f 30 29  ", "al", m_gt_0)
2fe0: 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a   ||.     stem(&z
2ff0: 2c 20 22 69 74 69 76 69 22 2c 20 22 69 76 65 22  , "itivi", "ive"
3000: 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20  , m_gt_0) ||.   
3010: 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 74 69 6c    stem(&z, "itil
3020: 69 62 22 2c 20 22 62 6c 65 22 2c 20 6d 5f 67 74  ib", "ble", m_gt
3030: 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b  _0);.     break;
3040: 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53 74 65 70 20  .  }..  /* Step 
3050: 33 20 2a 2f 0a 20 20 73 77 69 74 63 68 28 20 7a  3 */.  switch( z
3060: 5b 30 5d 20 29 7b 0a 20 20 20 63 61 73 65 20 27  [0] ){.   case '
3070: 65 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a  e':.     stem(&z
3080: 2c 20 22 65 74 61 63 69 22 2c 20 22 69 63 22 2c  , "etaci", "ic",
3090: 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20   m_gt_0) ||.    
30a0: 20 73 74 65 6d 28 26 7a 2c 20 22 65 76 69 74 61   stem(&z, "evita
30b0: 22 2c 20 22 22 2c 20 6d 5f 67 74 5f 30 29 20 20  ", "", m_gt_0)  
30c0: 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a   ||.     stem(&z
30d0: 2c 20 22 65 7a 69 6c 61 22 2c 20 22 61 6c 22 2c  , "ezila", "al",
30e0: 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20 62   m_gt_0);.     b
30f0: 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 69  reak;.   case 'i
3100: 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c  ':.     stem(&z,
3110: 20 22 69 74 69 63 69 22 2c 20 22 69 63 22 2c 20   "itici", "ic", 
3120: 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20 62 72  m_gt_0);.     br
3130: 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 6c 27  eak;.   case 'l'
3140: 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20  :.     stem(&z, 
3150: 22 6c 61 63 69 22 2c 20 22 69 63 22 2c 20 6d 5f  "laci", "ic", m_
3160: 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74  gt_0) ||.     st
3170: 65 6d 28 26 7a 2c 20 22 6c 75 66 22 2c 20 22 22  em(&z, "luf", ""
3180: 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20  , m_gt_0);.     
3190: 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27  break;.   case '
31a0: 73 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a  s':.     stem(&z
31b0: 2c 20 22 73 73 65 6e 22 2c 20 22 22 2c 20 6d 5f  , "ssen", "", m_
31c0: 67 74 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61  gt_0);.     brea
31d0: 6b 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53 74 65  k;.  }..  /* Ste
31e0: 70 20 34 20 2a 2f 0a 20 20 73 77 69 74 63 68 28  p 4 */.  switch(
31f0: 20 7a 5b 31 5d 20 29 7b 0a 20 20 20 63 61 73 65   z[1] ){.   case
3200: 20 27 61 27 3a 0a 20 20 20 20 20 69 66 28 20 7a   'a':.     if( z
3210: 5b 30 5d 3d 3d 27 6c 27 20 26 26 20 6d 5f 67 74  [0]=='l' && m_gt
3220: 5f 31 28 7a 2b 32 29 20 29 7b 0a 20 20 20 20 20  _1(z+2) ){.     
3230: 20 20 7a 20 2b 3d 20 32 3b 0a 20 20 20 20 20 7d    z += 2;.     }
3240: 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20  .     break;.   
3250: 63 61 73 65 20 27 63 27 3a 0a 20 20 20 20 20 69  case 'c':.     i
3260: 66 28 20 7a 5b 30 5d 3d 3d 27 65 27 20 26 26 20  f( z[0]=='e' && 
3270: 7a 5b 32 5d 3d 3d 27 6e 27 20 26 26 20 28 7a 5b  z[2]=='n' && (z[
3280: 33 5d 3d 3d 27 61 27 20 7c 7c 20 7a 5b 33 5d 3d  3]=='a' || z[3]=
3290: 3d 27 65 27 29 20 20 26 26 20 6d 5f 67 74 5f 31  ='e')  && m_gt_1
32a0: 28 7a 2b 34 29 20 20 29 7b 0a 20 20 20 20 20 20  (z+4)  ){.      
32b0: 20 7a 20 2b 3d 20 34 3b 0a 20 20 20 20 20 7d 0a   z += 4;.     }.
32c0: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63       break;.   c
32d0: 61 73 65 20 27 65 27 3a 0a 20 20 20 20 20 69 66  ase 'e':.     if
32e0: 28 20 7a 5b 30 5d 3d 3d 27 72 27 20 26 26 20 6d  ( z[0]=='r' && m
32f0: 5f 67 74 5f 31 28 7a 2b 32 29 20 29 7b 0a 20 20  _gt_1(z+2) ){.  
3300: 20 20 20 20 20 7a 20 2b 3d 20 32 3b 0a 20 20 20       z += 2;.   
3310: 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a    }.     break;.
3320: 20 20 20 63 61 73 65 20 27 69 27 3a 0a 20 20 20     case 'i':.   
3330: 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 63 27 20    if( z[0]=='c' 
3340: 26 26 20 6d 5f 67 74 5f 31 28 7a 2b 32 29 20 29  && m_gt_1(z+2) )
3350: 7b 0a 20 20 20 20 20 20 20 7a 20 2b 3d 20 32 3b  {.       z += 2;
3360: 0a 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72 65  .     }.     bre
3370: 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 6c 27 3a  ak;.   case 'l':
3380: 0a 20 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d  .     if( z[0]==
3390: 27 65 27 20 26 26 20 7a 5b 32 5d 3d 3d 27 62 27  'e' && z[2]=='b'
33a0: 20 26 26 20 28 7a 5b 33 5d 3d 3d 27 61 27 20 7c   && (z[3]=='a' |
33b0: 7c 20 7a 5b 33 5d 3d 3d 27 69 27 29 20 26 26 20  | z[3]=='i') && 
33c0: 6d 5f 67 74 5f 31 28 7a 2b 34 29 20 29 7b 0a 20  m_gt_1(z+4) ){. 
33d0: 20 20 20 20 20 20 7a 20 2b 3d 20 34 3b 0a 20 20        z += 4;.  
33e0: 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b     }.     break;
33f0: 0a 20 20 20 63 61 73 65 20 27 6e 27 3a 0a 20 20  .   case 'n':.  
3400: 20 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 74 27     if( z[0]=='t'
3410: 20 29 7b 0a 20 20 20 20 20 20 20 69 66 28 20 7a   ){.       if( z
3420: 5b 32 5d 3d 3d 27 61 27 20 29 7b 0a 20 20 20 20  [2]=='a' ){.    
3430: 20 20 20 20 20 69 66 28 20 6d 5f 67 74 5f 31 28       if( m_gt_1(
3440: 7a 2b 33 29 20 29 7b 0a 20 20 20 20 20 20 20 20  z+3) ){.        
3450: 20 20 20 7a 20 2b 3d 20 33 3b 0a 20 20 20 20 20     z += 3;.     
3460: 20 20 20 20 7d 0a 20 20 20 20 20 20 20 7d 65 6c      }.       }el
3470: 73 65 20 69 66 28 20 7a 5b 32 5d 3d 3d 27 65 27  se if( z[2]=='e'
3480: 20 29 7b 0a 20 20 20 20 20 20 20 20 20 73 74 65   ){.         ste
3490: 6d 28 26 7a 2c 20 22 74 6e 65 6d 65 22 2c 20 22  m(&z, "tneme", "
34a0: 22 2c 20 6d 5f 67 74 5f 31 29 20 7c 7c 0a 20 20  ", m_gt_1) ||.  
34b0: 20 20 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20         stem(&z, 
34c0: 22 74 6e 65 6d 22 2c 20 22 22 2c 20 6d 5f 67 74  "tnem", "", m_gt
34d0: 5f 31 29 20 7c 7c 0a 20 20 20 20 20 20 20 20 20  _1) ||.         
34e0: 73 74 65 6d 28 26 7a 2c 20 22 74 6e 65 22 2c 20  stem(&z, "tne", 
34f0: 22 22 2c 20 6d 5f 67 74 5f 31 29 3b 0a 20 20 20  "", m_gt_1);.   
3500: 20 20 20 20 7d 0a 20 20 20 20 20 7d 0a 20 20 20      }.     }.   
3510: 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65    break;.   case
3520: 20 27 6f 27 3a 0a 20 20 20 20 20 69 66 28 20 7a   'o':.     if( z
3530: 5b 30 5d 3d 3d 27 75 27 20 29 7b 0a 20 20 20 20  [0]=='u' ){.    
3540: 20 20 20 69 66 28 20 6d 5f 67 74 5f 31 28 7a 2b     if( m_gt_1(z+
3550: 32 29 20 29 7b 0a 20 20 20 20 20 20 20 20 20 7a  2) ){.         z
3560: 20 2b 3d 20 32 3b 0a 20 20 20 20 20 20 20 7d 0a   += 2;.       }.
3570: 20 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 7a       }else if( z
3580: 5b 33 5d 3d 3d 27 73 27 20 7c 7c 20 7a 5b 33 5d  [3]=='s' || z[3]
3590: 3d 3d 27 74 27 20 29 7b 0a 20 20 20 20 20 20 20  =='t' ){.       
35a0: 73 74 65 6d 28 26 7a 2c 20 22 6e 6f 69 22 2c 20  stem(&z, "noi", 
35b0: 22 22 2c 20 6d 5f 67 74 5f 31 29 3b 0a 20 20 20  "", m_gt_1);.   
35c0: 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a    }.     break;.
35d0: 20 20 20 63 61 73 65 20 27 73 27 3a 0a 20 20 20     case 's':.   
35e0: 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 6d 27 20    if( z[0]=='m' 
35f0: 26 26 20 7a 5b 32 5d 3d 3d 27 69 27 20 26 26 20  && z[2]=='i' && 
3600: 6d 5f 67 74 5f 31 28 7a 2b 33 29 20 29 7b 0a 20  m_gt_1(z+3) ){. 
3610: 20 20 20 20 20 20 7a 20 2b 3d 20 33 3b 0a 20 20        z += 3;.  
3620: 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b     }.     break;
3630: 0a 20 20 20 63 61 73 65 20 27 74 27 3a 0a 20 20  .   case 't':.  
3640: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 65 74 61     stem(&z, "eta
3650: 22 2c 20 22 22 2c 20 6d 5f 67 74 5f 31 29 20 7c  ", "", m_gt_1) |
3660: 7c 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20  |.     stem(&z, 
3670: 22 69 74 69 22 2c 20 22 22 2c 20 6d 5f 67 74 5f  "iti", "", m_gt_
3680: 31 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a  1);.     break;.
3690: 20 20 20 63 61 73 65 20 27 75 27 3a 0a 20 20 20     case 'u':.   
36a0: 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 73 27 20    if( z[0]=='s' 
36b0: 26 26 20 7a 5b 32 5d 3d 3d 27 6f 27 20 26 26 20  && z[2]=='o' && 
36c0: 6d 5f 67 74 5f 31 28 7a 2b 33 29 20 29 7b 0a 20  m_gt_1(z+3) ){. 
36d0: 20 20 20 20 20 20 7a 20 2b 3d 20 33 3b 0a 20 20        z += 3;.  
36e0: 20 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b     }.     break;
36f0: 0a 20 20 20 63 61 73 65 20 27 76 27 3a 0a 20 20  .   case 'v':.  
3700: 20 63 61 73 65 20 27 7a 27 3a 0a 20 20 20 20 20   case 'z':.     
3710: 69 66 28 20 7a 5b 30 5d 3d 3d 27 65 27 20 26 26  if( z[0]=='e' &&
3720: 20 7a 5b 32 5d 3d 3d 27 69 27 20 26 26 20 6d 5f   z[2]=='i' && m_
3730: 67 74 5f 31 28 7a 2b 33 29 20 29 7b 0a 20 20 20  gt_1(z+3) ){.   
3740: 20 20 20 20 7a 20 2b 3d 20 33 3b 0a 20 20 20 20      z += 3;.    
3750: 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20   }.     break;. 
3760: 20 7d 0a 0a 20 20 2f 2a 20 53 74 65 70 20 35 61   }..  /* Step 5a
3770: 20 2a 2f 0a 20 20 69 66 28 20 7a 5b 30 5d 3d 3d   */.  if( z[0]==
3780: 27 65 27 20 29 7b 0a 20 20 20 20 69 66 28 20 6d  'e' ){.    if( m
3790: 5f 67 74 5f 31 28 7a 2b 31 29 20 29 7b 0a 20 20  _gt_1(z+1) ){.  
37a0: 20 20 20 20 7a 2b 2b 3b 0a 20 20 20 20 7d 65 6c      z++;.    }el
37b0: 73 65 20 69 66 28 20 6d 5f 65 71 5f 31 28 7a 2b  se if( m_eq_1(z+
37c0: 31 29 20 26 26 20 21 73 74 61 72 5f 6f 68 28 7a  1) && !star_oh(z
37d0: 2b 31 29 20 29 7b 0a 20 20 20 20 20 20 7a 2b 2b  +1) ){.      z++
37e0: 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 2f  ;.    }.  }..  /
37f0: 2a 20 53 74 65 70 20 35 62 20 2a 2f 0a 20 20 69  * Step 5b */.  i
3800: 66 28 20 6d 5f 67 74 5f 31 28 7a 29 20 26 26 20  f( m_gt_1(z) && 
3810: 7a 5b 30 5d 3d 3d 27 6c 27 20 26 26 20 7a 5b 31  z[0]=='l' && z[1
3820: 5d 3d 3d 27 6c 27 20 29 7b 0a 20 20 20 20 7a 2b  ]=='l' ){.    z+
3830: 2b 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 7a 5b 5d  +;.  }..  /* z[]
3840: 20 69 73 20 6e 6f 77 20 74 68 65 20 73 74 65 6d   is now the stem
3850: 6d 65 64 20 77 6f 72 64 20 69 6e 20 72 65 76 65  med word in reve
3860: 72 73 65 20 6f 72 64 65 72 2e 20 20 46 6c 69 70  rse order.  Flip
3870: 20 69 74 20 62 61 63 6b 0a 20 20 2a 2a 20 61 72   it back.  ** ar
3880: 6f 75 6e 64 20 69 6e 74 6f 20 66 6f 72 77 61 72  ound into forwar
3890: 64 20 6f 72 64 65 72 20 61 6e 64 20 72 65 74 75  d order and retu
38a0: 72 6e 2e 0a 20 20 2a 2f 0a 20 20 2a 70 6e 4f 75  rn..  */.  *pnOu
38b0: 74 20 3d 20 69 20 3d 20 73 74 72 6c 65 6e 28 7a  t = i = strlen(z
38c0: 29 3b 0a 20 20 7a 4f 75 74 5b 69 5d 20 3d 20 30  );.  zOut[i] = 0
38d0: 3b 0a 20 20 77 68 69 6c 65 28 20 2a 7a 20 29 7b  ;.  while( *z ){
38e0: 0a 20 20 20 20 7a 4f 75 74 5b 2d 2d 69 5d 20 3d  .    zOut[--i] =
38f0: 20 2a 28 7a 2b 2b 29 3b 0a 20 20 7d 0a 7d 0a 0a   *(z++);.  }.}..
3900: 2f 2a 0a 2a 2a 20 43 68 61 72 61 63 74 65 72 73  /*.** Characters
3910: 20 74 68 61 74 20 63 61 6e 20 62 65 20 70 61 72   that can be par
3920: 74 20 6f 66 20 61 20 74 6f 6b 65 6e 2e 20 20 57  t of a token.  W
3930: 65 20 61 73 73 75 6d 65 20 61 6e 79 20 63 68 61  e assume any cha
3940: 72 61 63 74 65 72 0a 2a 2a 20 77 68 6f 73 65 20  racter.** whose 
3950: 76 61 6c 75 65 20 69 73 20 67 72 65 61 74 65 72  value is greater
3960: 20 74 68 61 6e 20 30 78 38 30 20 28 61 6e 79 20   than 0x80 (any 
3970: 55 54 46 20 63 68 61 72 61 63 74 65 72 29 20 63  UTF character) c
3980: 61 6e 20 62 65 0a 2a 2a 20 70 61 72 74 20 6f 66  an be.** part of
3990: 20 61 20 74 6f 6b 65 6e 2e 20 20 49 6e 20 6f 74   a token.  In ot
39a0: 68 65 72 20 77 6f 72 64 73 2c 20 64 65 6c 69 6d  her words, delim
39b0: 69 74 65 72 73 20 61 6c 6c 20 6d 75 73 74 20 68  iters all must h
39c0: 61 76 65 0a 2a 2a 20 76 61 6c 75 65 73 20 6f 66  ave.** values of
39d0: 20 30 78 37 66 20 6f 72 20 6c 6f 77 65 72 2e 0a   0x7f or lower..
39e0: 2a 2f 0a 73 74 61 74 69 63 20 63 6f 6e 73 74 20  */.static const 
39f0: 63 68 61 72 20 70 6f 72 74 65 72 49 64 43 68 61  char porterIdCha
3a00: 72 5b 5d 20 3d 20 7b 0a 2f 2a 20 78 30 20 78 31  r[] = {./* x0 x1
3a10: 20 78 32 20 78 33 20 78 34 20 78 35 20 78 36 20   x2 x3 x4 x5 x6 
3a20: 78 37 20 78 38 20 78 39 20 78 41 20 78 42 20 78  x7 x8 x9 xA xB x
3a30: 43 20 78 44 20 78 45 20 78 46 20 2a 2f 0a 20 20  C xD xE xF */.  
3a40: 20 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c    1, 1, 1, 1, 1,
3a50: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3a60: 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 30  0, 0, 0, 0, 0, 0
3a70: 2c 20 20 2f 2a 20 33 78 20 2a 2f 0a 20 20 20 20  ,  /* 3x */.    
3a80: 30 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  0, 1, 1, 1, 1, 1
3a90: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3aa0: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3ab0: 20 2f 2a 20 34 78 20 2a 2f 0a 20 20 20 20 31 2c   /* 4x */.    1,
3ac0: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3ad0: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30  1, 1, 1, 1, 1, 0
3ae0: 2c 20 30 2c 20 30 2c 20 30 2c 20 31 2c 20 20 2f  , 0, 0, 0, 1,  /
3af0: 2a 20 35 78 20 2a 2f 0a 20 20 20 20 30 2c 20 31  * 5x */.    0, 1
3b00: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3b10: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3b20: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 20 2f 2a 20  1, 1, 1, 1,  /* 
3b30: 36 78 20 2a 2f 0a 20 20 20 20 31 2c 20 31 2c 20  6x */.    1, 1, 
3b40: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 1, 1, 1, 1, 1
3b50: 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 30 2c  , 1, 1, 1, 0, 0,
3b60: 20 30 2c 20 30 2c 20 30 2c 20 20 2f 2a 20 37 78   0, 0, 0,  /* 7x
3b70: 20 2a 2f 0a 7d 3b 0a 23 64 65 66 69 6e 65 20 69   */.};.#define i
3b80: 73 44 65 6c 69 6d 28 43 29 20 28 28 28 63 68 3d  sDelim(C) (((ch=
3b90: 43 29 26 30 78 38 30 29 3d 3d 30 20 26 26 20 28  C)&0x80)==0 && (
3ba0: 63 68 3c 30 78 33 30 20 7c 7c 20 21 70 6f 72 74  ch<0x30 || !port
3bb0: 65 72 49 64 43 68 61 72 5b 63 68 2d 30 78 33 30  erIdChar[ch-0x30
3bc0: 5d 29 29 0a 0a 2f 2a 0a 2a 2a 20 45 78 74 72 61  ]))../*.** Extra
3bd0: 63 74 20 74 68 65 20 6e 65 78 74 20 74 6f 6b 65  ct the next toke
3be0: 6e 20 66 72 6f 6d 20 61 20 74 6f 6b 65 6e 69 7a  n from a tokeniz
3bf0: 61 74 69 6f 6e 20 63 75 72 73 6f 72 2e 20 20 54  ation cursor.  T
3c00: 68 65 20 63 75 72 73 6f 72 20 6d 75 73 74 0a 2a  he cursor must.*
3c10: 2a 20 68 61 76 65 20 62 65 65 6e 20 6f 70 65 6e  * have been open
3c20: 65 64 20 62 79 20 61 20 70 72 69 6f 72 20 63 61  ed by a prior ca
3c30: 6c 6c 20 74 6f 20 70 6f 72 74 65 72 4f 70 65 6e  ll to porterOpen
3c40: 28 29 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  ()..*/.static in
3c50: 74 20 70 6f 72 74 65 72 4e 65 78 74 28 0a 20 20  t porterNext(.  
3c60: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
3c70: 72 5f 63 75 72 73 6f 72 20 2a 70 43 75 72 73 6f  r_cursor *pCurso
3c80: 72 2c 20 20 2f 2a 20 43 75 72 73 6f 72 20 72 65  r,  /* Cursor re
3c90: 74 75 72 6e 65 64 20 62 79 20 70 6f 72 74 65 72  turned by porter
3ca0: 4f 70 65 6e 20 2a 2f 0a 20 20 63 6f 6e 73 74 20  Open */.  const 
3cb0: 63 68 61 72 20 2a 2a 70 7a 54 6f 6b 65 6e 2c 20  char **pzToken, 
3cc0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
3cd0: 20 4f 55 54 3a 20 2a 70 7a 54 6f 6b 65 6e 20 69   OUT: *pzToken i
3ce0: 73 20 74 68 65 20 74 6f 6b 65 6e 20 74 65 78 74  s the token text
3cf0: 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 6e 42 79 74   */.  int *pnByt
3d00: 65 73 2c 20 20 20 20 20 20 20 20 20 20 20 20 20  es,             
3d10: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 54            /* OUT
3d20: 3a 20 4e 75 6d 62 65 72 20 6f 66 20 62 79 74 65  : Number of byte
3d30: 73 20 69 6e 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20  s in token */.  
3d40: 69 6e 74 20 2a 70 69 53 74 61 72 74 4f 66 66 73  int *piStartOffs
3d50: 65 74 2c 20 20 20 20 20 20 20 20 20 20 20 20 20  et,             
3d60: 20 20 20 20 2f 2a 20 4f 55 54 3a 20 53 74 61 72      /* OUT: Star
3d70: 74 69 6e 67 20 6f 66 66 73 65 74 20 6f 66 20 74  ting offset of t
3d80: 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20 2a 70  oken */.  int *p
3d90: 69 45 6e 64 4f 66 66 73 65 74 2c 20 20 20 20 20  iEndOffset,     
3da0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a                /*
3db0: 20 4f 55 54 3a 20 45 6e 64 69 6e 67 20 6f 66 66   OUT: Ending off
3dc0: 73 65 74 20 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a  set of token */.
3dd0: 20 20 69 6e 74 20 2a 70 69 50 6f 73 69 74 69 6f    int *piPositio
3de0: 6e 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  n               
3df0: 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 50 6f        /* OUT: Po
3e00: 73 69 74 69 6f 6e 20 69 6e 74 65 67 65 72 20 6f  sition integer o
3e10: 66 20 74 6f 6b 65 6e 20 2a 2f 0a 29 7b 0a 20 20  f token */.){.  
3e20: 70 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72  porter_tokenizer
3e30: 5f 63 75 72 73 6f 72 20 2a 63 20 3d 20 28 70 6f  _cursor *c = (po
3e40: 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63  rter_tokenizer_c
3e50: 75 72 73 6f 72 20 2a 29 20 70 43 75 72 73 6f 72  ursor *) pCursor
3e60: 3b 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a  ;.  const char *
3e70: 7a 20 3d 20 63 2d 3e 7a 49 6e 70 75 74 3b 0a 0a  z = c->zInput;..
3e80: 20 20 77 68 69 6c 65 28 20 63 2d 3e 69 4f 66 66    while( c->iOff
3e90: 73 65 74 3c 63 2d 3e 6e 49 6e 70 75 74 20 29 7b  set<c->nInput ){
3ea0: 0a 20 20 20 20 69 6e 74 20 69 53 74 61 72 74 4f  .    int iStartO
3eb0: 66 66 73 65 74 2c 20 63 68 3b 0a 0a 20 20 20 20  ffset, ch;..    
3ec0: 2f 2a 20 53 63 61 6e 20 70 61 73 74 20 64 65 6c  /* Scan past del
3ed0: 69 6d 69 74 65 72 20 63 68 61 72 61 63 74 65 72  imiter character
3ee0: 73 20 2a 2f 0a 20 20 20 20 77 68 69 6c 65 28 20  s */.    while( 
3ef0: 63 2d 3e 69 4f 66 66 73 65 74 3c 63 2d 3e 6e 49  c->iOffset<c->nI
3f00: 6e 70 75 74 20 26 26 20 69 73 44 65 6c 69 6d 28  nput && isDelim(
3f10: 7a 5b 63 2d 3e 69 4f 66 66 73 65 74 5d 29 20 29  z[c->iOffset]) )
3f20: 7b 0a 20 20 20 20 20 20 63 2d 3e 69 4f 66 66 73  {.      c->iOffs
3f30: 65 74 2b 2b 3b 0a 20 20 20 20 7d 0a 0a 20 20 20  et++;.    }..   
3f40: 20 2f 2a 20 43 6f 75 6e 74 20 6e 6f 6e 2d 64 65   /* Count non-de
3f50: 6c 69 6d 69 74 65 72 20 63 68 61 72 61 63 74 65  limiter characte
3f60: 72 73 2e 20 2a 2f 0a 20 20 20 20 69 53 74 61 72  rs. */.    iStar
3f70: 74 4f 66 66 73 65 74 20 3d 20 63 2d 3e 69 4f 66  tOffset = c->iOf
3f80: 66 73 65 74 3b 0a 20 20 20 20 77 68 69 6c 65 28  fset;.    while(
3f90: 20 63 2d 3e 69 4f 66 66 73 65 74 3c 63 2d 3e 6e   c->iOffset<c->n
3fa0: 49 6e 70 75 74 20 26 26 20 21 69 73 44 65 6c 69  Input && !isDeli
3fb0: 6d 28 7a 5b 63 2d 3e 69 4f 66 66 73 65 74 5d 29  m(z[c->iOffset])
3fc0: 20 29 7b 0a 20 20 20 20 20 20 63 2d 3e 69 4f 66   ){.      c->iOf
3fd0: 66 73 65 74 2b 2b 3b 0a 20 20 20 20 7d 0a 0a 20  fset++;.    }.. 
3fe0: 20 20 20 69 66 28 20 63 2d 3e 69 4f 66 66 73 65     if( c->iOffse
3ff0: 74 3e 69 53 74 61 72 74 4f 66 66 73 65 74 20 29  t>iStartOffset )
4000: 7b 0a 20 20 20 20 20 20 69 6e 74 20 6e 20 3d 20  {.      int n = 
4010: 63 2d 3e 69 4f 66 66 73 65 74 2d 69 53 74 61 72  c->iOffset-iStar
4020: 74 4f 66 66 73 65 74 3b 0a 20 20 20 20 20 20 69  tOffset;.      i
4030: 66 28 20 6e 3e 63 2d 3e 6e 41 6c 6c 6f 63 61 74  f( n>c->nAllocat
4040: 65 64 20 29 7b 0a 20 20 20 20 20 20 20 20 63 2d  ed ){.        c-
4050: 3e 6e 41 6c 6c 6f 63 61 74 65 64 20 3d 20 6e 2b  >nAllocated = n+
4060: 32 30 3b 0a 20 20 20 20 20 20 20 20 63 2d 3e 7a  20;.        c->z
4070: 54 6f 6b 65 6e 20 3d 20 73 71 6c 69 74 65 33 5f  Token = sqlite3_
4080: 72 65 61 6c 6c 6f 63 28 63 2d 3e 7a 54 6f 6b 65  realloc(c->zToke
4090: 6e 2c 20 63 2d 3e 6e 41 6c 6c 6f 63 61 74 65 64  n, c->nAllocated
40a0: 29 3b 0a 20 20 20 20 20 20 20 20 69 66 28 20 63  );.        if( c
40b0: 2d 3e 7a 54 6f 6b 65 6e 3d 3d 4e 55 4c 4c 20 29  ->zToken==NULL )
40c0: 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4e   return SQLITE_N
40d0: 4f 4d 45 4d 3b 0a 20 20 20 20 20 20 7d 0a 20 20  OMEM;.      }.  
40e0: 20 20 20 20 70 6f 72 74 65 72 5f 73 74 65 6d 6d      porter_stemm
40f0: 65 72 28 26 7a 5b 69 53 74 61 72 74 4f 66 66 73  er(&z[iStartOffs
4100: 65 74 5d 2c 20 6e 2c 20 63 2d 3e 7a 54 6f 6b 65  et], n, c->zToke
4110: 6e 2c 20 70 6e 42 79 74 65 73 29 3b 0a 20 20 20  n, pnBytes);.   
4120: 20 20 20 2a 70 7a 54 6f 6b 65 6e 20 3d 20 63 2d     *pzToken = c-
4130: 3e 7a 54 6f 6b 65 6e 3b 0a 20 20 20 20 20 20 2a  >zToken;.      *
4140: 70 69 53 74 61 72 74 4f 66 66 73 65 74 20 3d 20  piStartOffset = 
4150: 69 53 74 61 72 74 4f 66 66 73 65 74 3b 0a 20 20  iStartOffset;.  
4160: 20 20 20 20 2a 70 69 45 6e 64 4f 66 66 73 65 74      *piEndOffset
4170: 20 3d 20 63 2d 3e 69 4f 66 66 73 65 74 3b 0a 20   = c->iOffset;. 
4180: 20 20 20 20 20 2a 70 69 50 6f 73 69 74 69 6f 6e       *piPosition
4190: 20 3d 20 63 2d 3e 69 54 6f 6b 65 6e 2b 2b 3b 0a   = c->iToken++;.
41a0: 20 20 20 20 20 20 72 65 74 75 72 6e 20 53 51 4c        return SQL
41b0: 49 54 45 5f 4f 4b 3b 0a 20 20 20 20 7d 0a 20 20  ITE_OK;.    }.  
41c0: 7d 0a 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54  }.  return SQLIT
41d0: 45 5f 44 4f 4e 45 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a  E_DONE;.}../*.**
41e0: 20 54 68 65 20 73 65 74 20 6f 66 20 72 6f 75 74   The set of rout
41f0: 69 6e 65 73 20 74 68 61 74 20 69 6d 70 6c 65 6d  ines that implem
4200: 65 6e 74 20 74 68 65 20 70 6f 72 74 65 72 2d 73  ent the porter-s
4210: 74 65 6d 6d 65 72 20 74 6f 6b 65 6e 69 7a 65 72  temmer tokenizer
4220: 0a 2a 2f 0a 73 74 61 74 69 63 20 63 6f 6e 73 74  .*/.static const
4230: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a   sqlite3_tokeniz
4240: 65 72 5f 6d 6f 64 75 6c 65 20 70 6f 72 74 65 72  er_module porter
4250: 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 20  TokenizerModule 
4260: 3d 20 7b 0a 20 20 30 2c 0a 20 20 70 6f 72 74 65  = {.  0,.  porte
4270: 72 43 72 65 61 74 65 2c 0a 20 20 70 6f 72 74 65  rCreate,.  porte
4280: 72 44 65 73 74 72 6f 79 2c 0a 20 20 70 6f 72 74  rDestroy,.  port
4290: 65 72 4f 70 65 6e 2c 0a 20 20 70 6f 72 74 65 72  erOpen,.  porter
42a0: 43 6c 6f 73 65 2c 0a 20 20 70 6f 72 74 65 72 4e  Close,.  porterN
42b0: 65 78 74 2c 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a 20 41  ext,.};../*.** A
42c0: 6c 6c 6f 63 61 74 65 20 61 20 6e 65 77 20 70 6f  llocate a new po
42d0: 72 74 65 72 20 74 6f 6b 65 6e 69 7a 65 72 2e 20  rter tokenizer. 
42e0: 20 52 65 74 75 72 6e 20 61 20 70 6f 69 6e 74 65   Return a pointe
42f0: 72 20 74 6f 20 74 68 65 20 6e 65 77 0a 2a 2a 20  r to the new.** 
4300: 74 6f 6b 65 6e 69 7a 65 72 20 69 6e 20 2a 70 70  tokenizer in *pp
4310: 4d 6f 64 75 6c 65 0a 2a 2f 0a 76 6f 69 64 20 73  Module.*/.void s
4320: 71 6c 69 74 65 33 46 74 73 32 50 6f 72 74 65 72  qlite3Fts2Porter
4330: 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 28  TokenizerModule(
4340: 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  .  sqlite3_token
4350: 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 63 6f 6e 73  izer_module cons
4360: 74 2a 2a 70 70 4d 6f 64 75 6c 65 0a 29 7b 0a 20  t**ppModule.){. 
4370: 20 2a 70 70 4d 6f 64 75 6c 65 20 3d 20 26 70 6f   *ppModule = &po
4380: 72 74 65 72 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64  rterTokenizerMod
4390: 75 6c 65 3b 0a 7d 0a 0a 23 65 6e 64 69 66 20 2f  ule;.}..#endif /
43a0: 2a 20 21 64 65 66 69 6e 65 64 28 53 51 4c 49 54  * !defined(SQLIT
43b0: 45 5f 43 4f 52 45 29 20 7c 7c 20 64 65 66 69 6e  E_CORE) || defin
43c0: 65 64 28 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45  ed(SQLITE_ENABLE
43d0: 5f 46 54 53 32 29 20 2a 2f 0a                    _FTS2) */.