/ Hex Artifact Content
Login

Artifact 747056987951f743e955c8479f1df21a565720fe:


0000: 2f 2a 0a 2a 2a 20 32 30 30 36 20 53 65 70 74 65  /*.** 2006 Septe
0010: 6d 62 65 72 20 33 30 0a 2a 2a 0a 2a 2a 20 54 68  mber 30.**.** Th
0020: 65 20 61 75 74 68 6f 72 20 64 69 73 63 6c 61 69  e author disclai
0030: 6d 73 20 63 6f 70 79 72 69 67 68 74 20 74 6f 20  ms copyright to 
0040: 74 68 69 73 20 73 6f 75 72 63 65 20 63 6f 64 65  this source code
0050: 2e 20 20 49 6e 20 70 6c 61 63 65 20 6f 66 0a 2a  .  In place of.*
0060: 2a 20 61 20 6c 65 67 61 6c 20 6e 6f 74 69 63 65  * a legal notice
0070: 2c 20 68 65 72 65 20 69 73 20 61 20 62 6c 65 73  , here is a bles
0080: 73 69 6e 67 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 4d  sing:.**.**    M
0090: 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64 20 61  ay you do good a
00a0: 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 2a 2a 20  nd not evil..** 
00b0: 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64 20     May you find 
00c0: 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72 20  forgiveness for 
00d0: 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f 72  yourself and for
00e0: 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 2a 2a 20  give others..** 
00f0: 20 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65     May you share
0100: 20 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74   freely, never t
0110: 61 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20  aking more than 
0120: 79 6f 75 20 67 69 76 65 2e 0a 2a 2a 0a 2a 2a 2a  you give..**.***
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 2a 2a 2a 2a 2a 0a 2a 2a 20 49 6d 70 6c 65 6d  ******.** Implem
0180: 65 6e 74 61 74 69 6f 6e 20 6f 66 20 74 68 65 20  entation of the 
0190: 66 75 6c 6c 2d 74 65 78 74 2d 73 65 61 72 63 68  full-text-search
01a0: 20 74 6f 6b 65 6e 69 7a 65 72 20 74 68 61 74 20   tokenizer that 
01b0: 69 6d 70 6c 65 6d 65 6e 74 73 0a 2a 2a 20 61 20  implements.** a 
01c0: 50 6f 72 74 65 72 20 73 74 65 6d 6d 65 72 2e 0a  Porter stemmer..
01d0: 2a 2f 0a 0a 2f 2a 0a 2a 2a 20 54 68 65 20 63 6f  */../*.** The co
01e0: 64 65 20 69 6e 20 74 68 69 73 20 66 69 6c 65 20  de in this file 
01f0: 69 73 20 6f 6e 6c 79 20 63 6f 6d 70 69 6c 65 64  is only compiled
0200: 20 69 66 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 20 2a   if:.**.**     *
0210: 20 54 68 65 20 46 54 53 32 20 6d 6f 64 75 6c 65   The FTS2 module
0220: 20 69 73 20 62 65 69 6e 67 20 62 75 69 6c 74 20   is being built 
0230: 61 73 20 61 6e 20 65 78 74 65 6e 73 69 6f 6e 0a  as an extension.
0240: 2a 2a 20 20 20 20 20 20 20 28 69 6e 20 77 68 69  **       (in whi
0250: 63 68 20 63 61 73 65 20 53 51 4c 49 54 45 5f 43  ch case SQLITE_C
0260: 4f 52 45 20 69 73 20 6e 6f 74 20 64 65 66 69 6e  ORE is not defin
0270: 65 64 29 2c 20 6f 72 0a 2a 2a 0a 2a 2a 20 20 20  ed), or.**.**   
0280: 20 20 2a 20 54 68 65 20 46 54 53 32 20 6d 6f 64    * The FTS2 mod
0290: 75 6c 65 20 69 73 20 62 65 69 6e 67 20 62 75 69  ule is being bui
02a0: 6c 74 20 69 6e 74 6f 20 74 68 65 20 63 6f 72 65  lt into the core
02b0: 20 6f 66 0a 2a 2a 20 20 20 20 20 20 20 53 51 4c   of.**       SQL
02c0: 69 74 65 20 28 69 6e 20 77 68 69 63 68 20 63 61  ite (in which ca
02d0: 73 65 20 53 51 4c 49 54 45 5f 45 4e 41 42 4c 45  se SQLITE_ENABLE
02e0: 5f 46 54 53 32 20 69 73 20 64 65 66 69 6e 65 64  _FTS2 is defined
02f0: 29 2e 0a 2a 2f 0a 23 69 66 20 21 64 65 66 69 6e  )..*/.#if !defin
0300: 65 64 28 53 51 4c 49 54 45 5f 43 4f 52 45 29 20  ed(SQLITE_CORE) 
0310: 7c 7c 20 64 65 66 69 6e 65 64 28 53 51 4c 49 54  || defined(SQLIT
0320: 45 5f 45 4e 41 42 4c 45 5f 46 54 53 32 29 0a 0a  E_ENABLE_FTS2)..
0330: 0a 23 69 6e 63 6c 75 64 65 20 3c 61 73 73 65 72  .#include <asser
0340: 74 2e 68 3e 0a 23 69 6e 63 6c 75 64 65 20 3c 73  t.h>.#include <s
0350: 74 64 6c 69 62 2e 68 3e 0a 23 69 6e 63 6c 75 64  tdlib.h>.#includ
0360: 65 20 3c 73 74 64 69 6f 2e 68 3e 0a 23 69 6e 63  e <stdio.h>.#inc
0370: 6c 75 64 65 20 3c 73 74 72 69 6e 67 2e 68 3e 0a  lude <string.h>.
0380: 0a 23 69 6e 63 6c 75 64 65 20 22 66 74 73 32 5f  .#include "fts2_
0390: 74 6f 6b 65 6e 69 7a 65 72 2e 68 22 0a 0a 2f 2a  tokenizer.h"../*
03a0: 0a 2a 2a 20 43 6c 61 73 73 20 64 65 72 69 76 65  .** Class derive
03b0: 64 20 66 72 6f 6d 20 73 71 6c 69 74 65 33 5f 74  d from sqlite3_t
03c0: 6f 6b 65 6e 69 7a 65 72 0a 2a 2f 0a 74 79 70 65  okenizer.*/.type
03d0: 64 65 66 20 73 74 72 75 63 74 20 70 6f 72 74 65  def struct porte
03e0: 72 5f 74 6f 6b 65 6e 69 7a 65 72 20 7b 0a 20 20  r_tokenizer {.  
03f0: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
0400: 72 20 62 61 73 65 3b 20 20 20 20 20 20 2f 2a 20  r base;      /* 
0410: 42 61 73 65 20 63 6c 61 73 73 20 2a 2f 0a 7d 20  Base class */.} 
0420: 70 6f 72 74 65 72 5f 74 6f 6b 65 6e 69 7a 65 72  porter_tokenizer
0430: 3b 0a 0a 2f 2a 0a 2a 2a 20 43 6c 61 73 73 20 64  ;../*.** Class d
0440: 65 72 69 76 65 64 20 66 72 6f 6d 20 73 71 6c 69  erived from sqli
0450: 74 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72  t3_tokenizer_cur
0460: 73 6f 72 0a 2a 2f 0a 74 79 70 65 64 65 66 20 73  sor.*/.typedef s
0470: 74 72 75 63 74 20 70 6f 72 74 65 72 5f 74 6f 6b  truct porter_tok
0480: 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 7b 0a  enizer_cursor {.
0490: 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69    sqlite3_tokeni
04a0: 7a 65 72 5f 63 75 72 73 6f 72 20 62 61 73 65 3b  zer_cursor base;
04b0: 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a  .  const char *z
04c0: 49 6e 70 75 74 3b 20 20 20 20 20 20 20 20 20 20  Input;          
04d0: 2f 2a 20 69 6e 70 75 74 20 77 65 20 61 72 65 20  /* input we are 
04e0: 74 6f 6b 65 6e 69 7a 69 6e 67 20 2a 2f 0a 20 20  tokenizing */.  
04f0: 69 6e 74 20 6e 49 6e 70 75 74 3b 20 20 20 20 20  int nInput;     
0500: 20 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20               /* 
0510: 73 69 7a 65 20 6f 66 20 74 68 65 20 69 6e 70 75  size of the inpu
0520: 74 20 2a 2f 0a 20 20 69 6e 74 20 69 4f 66 66 73  t */.  int iOffs
0530: 65 74 3b 20 20 20 20 20 20 20 20 20 20 20 20 20  et;             
0540: 20 20 20 20 2f 2a 20 63 75 72 72 65 6e 74 20 70      /* current p
0550: 6f 73 69 74 69 6f 6e 20 69 6e 20 7a 49 6e 70 75  osition in zInpu
0560: 74 20 2a 2f 0a 20 20 69 6e 74 20 69 54 6f 6b 65  t */.  int iToke
0570: 6e 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20  n;              
0580: 20 20 20 20 2f 2a 20 69 6e 64 65 78 20 6f 66 20      /* index of 
0590: 6e 65 78 74 20 74 6f 6b 65 6e 20 74 6f 20 62 65  next token to be
05a0: 20 72 65 74 75 72 6e 65 64 20 2a 2f 0a 20 20 63   returned */.  c
05b0: 68 61 72 20 2a 7a 54 6f 6b 65 6e 3b 20 20 20 20  har *zToken;    
05c0: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 73              /* s
05d0: 74 6f 72 61 67 65 20 66 6f 72 20 63 75 72 72 65  torage for curre
05e0: 6e 74 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e  nt token */.  in
05f0: 74 20 6e 41 6c 6c 6f 63 61 74 65 64 3b 20 20 20  t nAllocated;   
0600: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 73 70             /* sp
0610: 61 63 65 20 61 6c 6c 6f 63 61 74 65 64 20 74 6f  ace allocated to
0620: 20 7a 54 6f 6b 65 6e 20 62 75 66 66 65 72 20 2a   zToken buffer *
0630: 2f 0a 7d 20 70 6f 72 74 65 72 5f 74 6f 6b 65 6e  /.} porter_token
0640: 69 7a 65 72 5f 63 75 72 73 6f 72 3b 0a 0a 0a 2f  izer_cursor;.../
0650: 2a 20 46 6f 72 77 61 72 64 20 64 65 63 6c 61 72  * Forward declar
0660: 61 74 69 6f 6e 20 2a 2f 0a 73 74 61 74 69 63 20  ation */.static 
0670: 63 6f 6e 73 74 20 73 71 6c 69 74 65 33 5f 74 6f  const sqlite3_to
0680: 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 70  kenizer_module p
0690: 6f 72 74 65 72 54 6f 6b 65 6e 69 7a 65 72 4d 6f  orterTokenizerMo
06a0: 64 75 6c 65 3b 0a 0a 0a 2f 2a 0a 2a 2a 20 43 72  dule;.../*.** Cr
06b0: 65 61 74 65 20 61 20 6e 65 77 20 74 6f 6b 65 6e  eate a new token
06c0: 69 7a 65 72 20 69 6e 73 74 61 6e 63 65 2e 0a 2a  izer instance..*
06d0: 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 70 6f 72  /.static int por
06e0: 74 65 72 43 72 65 61 74 65 28 0a 20 20 69 6e 74  terCreate(.  int
06f0: 20 61 72 67 63 2c 20 63 6f 6e 73 74 20 63 68 61   argc, const cha
0700: 72 20 2a 20 63 6f 6e 73 74 20 2a 61 72 67 76 2c  r * const *argv,
0710: 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  .  sqlite3_token
0720: 69 7a 65 72 20 2a 2a 70 70 54 6f 6b 65 6e 69 7a  izer **ppTokeniz
0730: 65 72 0a 29 7b 0a 20 20 70 6f 72 74 65 72 5f 74  er.){.  porter_t
0740: 6f 6b 65 6e 69 7a 65 72 20 2a 74 3b 0a 20 20 74  okenizer *t;.  t
0750: 20 3d 20 28 70 6f 72 74 65 72 5f 74 6f 6b 65 6e   = (porter_token
0760: 69 7a 65 72 20 2a 29 20 73 71 6c 69 74 65 33 5f  izer *) sqlite3_
0770: 6d 61 6c 6c 6f 63 28 73 69 7a 65 6f 66 28 2a 74  malloc(sizeof(*t
0780: 29 29 3b 0a 20 20 69 66 28 20 74 3d 3d 4e 55 4c  ));.  if( t==NUL
0790: 4c 20 29 20 72 65 74 75 72 6e 20 53 51 4c 49 54  L ) return SQLIT
07a0: 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 6d 65 6d 73 65  E_NOMEM;.  memse
07b0: 74 28 74 2c 20 30 2c 20 73 69 7a 65 6f 66 28 2a  t(t, 0, sizeof(*
07c0: 74 29 29 3b 0a 20 20 2a 70 70 54 6f 6b 65 6e 69  t));.  *ppTokeni
07d0: 7a 65 72 20 3d 20 26 74 2d 3e 62 61 73 65 3b 0a  zer = &t->base;.
07e0: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
07f0: 4f 4b 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 44 65 73  OK;.}../*.** Des
0800: 74 72 6f 79 20 61 20 74 6f 6b 65 6e 69 7a 65 72  troy a tokenizer
0810: 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 70  .*/.static int p
0820: 6f 72 74 65 72 44 65 73 74 72 6f 79 28 73 71 6c  orterDestroy(sql
0830: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a  ite3_tokenizer *
0840: 70 54 6f 6b 65 6e 69 7a 65 72 29 7b 0a 20 20 73  pTokenizer){.  s
0850: 71 6c 69 74 65 33 5f 66 72 65 65 28 70 54 6f 6b  qlite3_free(pTok
0860: 65 6e 69 7a 65 72 29 3b 0a 20 20 72 65 74 75 72  enizer);.  retur
0870: 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a 7d 0a 0a  n SQLITE_OK;.}..
0880: 2f 2a 0a 2a 2a 20 50 72 65 70 61 72 65 20 74 6f  /*.** Prepare to
0890: 20 62 65 67 69 6e 20 74 6f 6b 65 6e 69 7a 69 6e   begin tokenizin
08a0: 67 20 61 20 70 61 72 74 69 63 75 6c 61 72 20 73  g a particular s
08b0: 74 72 69 6e 67 2e 20 20 54 68 65 20 69 6e 70 75  tring.  The inpu
08c0: 74 0a 2a 2a 20 73 74 72 69 6e 67 20 74 6f 20 62  t.** string to b
08d0: 65 20 74 6f 6b 65 6e 69 7a 65 64 20 69 73 20 7a  e tokenized is z
08e0: 49 6e 70 75 74 5b 30 2e 2e 6e 49 6e 70 75 74 2d  Input[0..nInput-
08f0: 31 5d 2e 20 20 41 20 63 75 72 73 6f 72 0a 2a 2a  1].  A cursor.**
0900: 20 75 73 65 64 20 74 6f 20 69 6e 63 72 65 6d 65   used to increme
0910: 6e 74 61 6c 6c 79 20 74 6f 6b 65 6e 69 7a 65 20  ntally tokenize 
0920: 74 68 69 73 20 73 74 72 69 6e 67 20 69 73 20 72  this string is r
0930: 65 74 75 72 6e 65 64 20 69 6e 20 0a 2a 2a 20 2a  eturned in .** *
0940: 70 70 43 75 72 73 6f 72 2e 0a 2a 2f 0a 73 74 61  ppCursor..*/.sta
0950: 74 69 63 20 69 6e 74 20 70 6f 72 74 65 72 4f 70  tic int porterOp
0960: 65 6e 28 0a 20 20 73 71 6c 69 74 65 33 5f 74 6f  en(.  sqlite3_to
0970: 6b 65 6e 69 7a 65 72 20 2a 70 54 6f 6b 65 6e 69  kenizer *pTokeni
0980: 7a 65 72 2c 20 20 20 20 20 20 20 20 20 2f 2a 20  zer,         /* 
0990: 54 68 65 20 74 6f 6b 65 6e 69 7a 65 72 20 2a 2f  The tokenizer */
09a0: 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a  .  const char *z
09b0: 49 6e 70 75 74 2c 20 69 6e 74 20 6e 49 6e 70 75  Input, int nInpu
09c0: 74 2c 20 20 20 20 20 20 20 20 2f 2a 20 53 74 72  t,        /* Str
09d0: 69 6e 67 20 74 6f 20 62 65 20 74 6f 6b 65 6e 69  ing to be tokeni
09e0: 7a 65 64 20 2a 2f 0a 20 20 73 71 6c 69 74 65 33  zed */.  sqlite3
09f0: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f  _tokenizer_curso
0a00: 72 20 2a 2a 70 70 43 75 72 73 6f 72 20 20 20 20  r **ppCursor    
0a10: 2f 2a 20 4f 55 54 3a 20 54 6f 6b 65 6e 69 7a 61  /* OUT: Tokeniza
0a20: 74 69 6f 6e 20 63 75 72 73 6f 72 20 2a 2f 0a 29  tion cursor */.)
0a30: 7b 0a 20 20 70 6f 72 74 65 72 5f 74 6f 6b 65 6e  {.  porter_token
0a40: 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a 63 3b 0a  izer_cursor *c;.
0a50: 0a 20 20 63 20 3d 20 28 70 6f 72 74 65 72 5f 74  .  c = (porter_t
0a60: 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20  okenizer_cursor 
0a70: 2a 29 20 73 71 6c 69 74 65 33 5f 6d 61 6c 6c 6f  *) sqlite3_mallo
0a80: 63 28 73 69 7a 65 6f 66 28 2a 63 29 29 3b 0a 20  c(sizeof(*c));. 
0a90: 20 69 66 28 20 63 3d 3d 4e 55 4c 4c 20 29 20 72   if( c==NULL ) r
0aa0: 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4e 4f 4d  eturn SQLITE_NOM
0ab0: 45 4d 3b 0a 0a 20 20 63 2d 3e 7a 49 6e 70 75 74  EM;..  c->zInput
0ac0: 20 3d 20 7a 49 6e 70 75 74 3b 0a 20 20 69 66 28   = zInput;.  if(
0ad0: 20 7a 49 6e 70 75 74 3d 3d 30 20 29 7b 0a 20 20   zInput==0 ){.  
0ae0: 20 20 63 2d 3e 6e 49 6e 70 75 74 20 3d 20 30 3b    c->nInput = 0;
0af0: 0a 20 20 7d 65 6c 73 65 20 69 66 28 20 6e 49 6e  .  }else if( nIn
0b00: 70 75 74 3c 30 20 29 7b 0a 20 20 20 20 63 2d 3e  put<0 ){.    c->
0b10: 6e 49 6e 70 75 74 20 3d 20 28 69 6e 74 29 73 74  nInput = (int)st
0b20: 72 6c 65 6e 28 7a 49 6e 70 75 74 29 3b 0a 20 20  rlen(zInput);.  
0b30: 7d 65 6c 73 65 7b 0a 20 20 20 20 63 2d 3e 6e 49  }else{.    c->nI
0b40: 6e 70 75 74 20 3d 20 6e 49 6e 70 75 74 3b 0a 20  nput = nInput;. 
0b50: 20 7d 0a 20 20 63 2d 3e 69 4f 66 66 73 65 74 20   }.  c->iOffset 
0b60: 3d 20 30 3b 20 20 20 20 20 20 20 20 20 20 20 20  = 0;            
0b70: 20 20 20 20 20 2f 2a 20 73 74 61 72 74 20 74 6f       /* start to
0b80: 6b 65 6e 69 7a 69 6e 67 20 61 74 20 74 68 65 20  kenizing at the 
0b90: 62 65 67 69 6e 6e 69 6e 67 20 2a 2f 0a 20 20 63  beginning */.  c
0ba0: 2d 3e 69 54 6f 6b 65 6e 20 3d 20 30 3b 0a 20 20  ->iToken = 0;.  
0bb0: 63 2d 3e 7a 54 6f 6b 65 6e 20 3d 20 4e 55 4c 4c  c->zToken = NULL
0bc0: 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ;               
0bd0: 2f 2a 20 6e 6f 20 73 70 61 63 65 20 61 6c 6c 6f  /* no space allo
0be0: 63 61 74 65 64 2c 20 79 65 74 2e 20 2a 2f 0a 20  cated, yet. */. 
0bf0: 20 63 2d 3e 6e 41 6c 6c 6f 63 61 74 65 64 20 3d   c->nAllocated =
0c00: 20 30 3b 0a 0a 20 20 2a 70 70 43 75 72 73 6f 72   0;..  *ppCursor
0c10: 20 3d 20 26 63 2d 3e 62 61 73 65 3b 0a 20 20 72   = &c->base;.  r
0c20: 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b  eturn SQLITE_OK;
0c30: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43 6c 6f 73 65 20  .}../*.** Close 
0c40: 61 20 74 6f 6b 65 6e 69 7a 61 74 69 6f 6e 20 63  a tokenization c
0c50: 75 72 73 6f 72 20 70 72 65 76 69 6f 75 73 6c 79  ursor previously
0c60: 20 6f 70 65 6e 65 64 20 62 79 20 61 20 63 61 6c   opened by a cal
0c70: 6c 20 74 6f 0a 2a 2a 20 70 6f 72 74 65 72 4f 70  l to.** porterOp
0c80: 65 6e 28 29 20 61 62 6f 76 65 2e 0a 2a 2f 0a 73  en() above..*/.s
0c90: 74 61 74 69 63 20 69 6e 74 20 70 6f 72 74 65 72  tatic int porter
0ca0: 43 6c 6f 73 65 28 73 71 6c 69 74 65 33 5f 74 6f  Close(sqlite3_to
0cb0: 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a  kenizer_cursor *
0cc0: 70 43 75 72 73 6f 72 29 7b 0a 20 20 70 6f 72 74  pCursor){.  port
0cd0: 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72  er_tokenizer_cur
0ce0: 73 6f 72 20 2a 63 20 3d 20 28 70 6f 72 74 65 72  sor *c = (porter
0cf0: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f  _tokenizer_curso
0d00: 72 20 2a 29 20 70 43 75 72 73 6f 72 3b 0a 20 20  r *) pCursor;.  
0d10: 73 71 6c 69 74 65 33 5f 66 72 65 65 28 63 2d 3e  sqlite3_free(c->
0d20: 7a 54 6f 6b 65 6e 29 3b 0a 20 20 73 71 6c 69 74  zToken);.  sqlit
0d30: 65 33 5f 66 72 65 65 28 63 29 3b 0a 20 20 72 65  e3_free(c);.  re
0d40: 74 75 72 6e 20 53 51 4c 49 54 45 5f 4f 4b 3b 0a  turn SQLITE_OK;.
0d50: 7d 0a 2f 2a 0a 2a 2a 20 56 6f 77 65 6c 20 6f 72  }./*.** Vowel or
0d60: 20 63 6f 6e 73 6f 6e 61 6e 74 0a 2a 2f 0a 73 74   consonant.*/.st
0d70: 61 74 69 63 20 63 6f 6e 73 74 20 63 68 61 72 20  atic const char 
0d80: 63 54 79 70 65 5b 5d 20 3d 20 7b 0a 20 20 20 30  cType[] = {.   0
0d90: 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 31 2c  , 1, 1, 1, 0, 1,
0da0: 20 31 2c 20 31 2c 20 30 2c 20 31 2c 20 31 2c 20   1, 1, 0, 1, 1, 
0db0: 31 2c 20 31 2c 20 31 2c 20 30 2c 20 31 2c 20 31  1, 1, 1, 0, 1, 1
0dc0: 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c 0a 20 20  , 1, 1, 1, 0,.  
0dd0: 20 31 2c 20 31 2c 20 31 2c 20 32 2c 20 31 0a 7d   1, 1, 1, 2, 1.}
0de0: 3b 0a 0a 2f 2a 0a 2a 2a 20 69 73 43 6f 6e 73 6f  ;../*.** isConso
0df0: 6e 61 6e 74 28 29 20 61 6e 64 20 69 73 56 6f 77  nant() and isVow
0e00: 65 6c 28 29 20 64 65 74 65 72 6d 69 6e 65 20 69  el() determine i
0e10: 66 20 74 68 65 69 72 20 66 69 72 73 74 20 63 68  f their first ch
0e20: 61 72 61 63 74 65 72 20 69 6e 0a 2a 2a 20 74 68  aracter in.** th
0e30: 65 20 73 74 72 69 6e 67 20 74 68 65 79 20 70 6f  e string they po
0e40: 69 6e 74 20 74 6f 20 69 73 20 61 20 63 6f 6e 73  int to is a cons
0e50: 6f 6e 61 6e 74 20 6f 72 20 61 20 76 6f 77 65 6c  onant or a vowel
0e60: 2c 20 61 63 63 6f 72 64 69 6e 67 0a 2a 2a 20 74  , according.** t
0e70: 6f 20 50 6f 72 74 65 72 20 72 75 6c 73 2e 20 20  o Porter ruls.  
0e80: 0a 2a 2a 0a 2a 2a 20 41 20 63 6f 6e 73 6f 6e 61  .**.** A consona
0e90: 74 65 20 69 73 20 61 6e 79 20 6c 65 74 74 65 72  te is any letter
0ea0: 20 6f 74 68 65 72 20 74 68 61 6e 20 27 61 27 2c   other than 'a',
0eb0: 20 27 65 27 2c 20 27 69 27 2c 20 27 6f 27 2c 20   'e', 'i', 'o', 
0ec0: 6f 72 20 27 75 27 2e 0a 2a 2a 20 27 59 27 20 69  or 'u'..** 'Y' i
0ed0: 73 20 61 20 63 6f 6e 73 6f 6e 61 6e 74 20 75 6e  s a consonant un
0ee0: 6c 65 73 73 20 69 74 20 66 6f 6c 6c 6f 77 73 20  less it follows 
0ef0: 61 6e 6f 74 68 65 72 20 63 6f 6e 73 6f 6e 61 6e  another consonan
0f00: 74 2c 0a 2a 2a 20 69 6e 20 77 68 69 63 68 20 63  t,.** in which c
0f10: 61 73 65 20 69 74 20 69 73 20 61 20 76 6f 77 65  ase it is a vowe
0f20: 6c 2e 0a 2a 2a 0a 2a 2a 20 49 6e 20 74 68 65 73  l..**.** In thes
0f30: 65 20 72 6f 75 74 69 6e 65 2c 20 74 68 65 20 6c  e routine, the l
0f40: 65 74 74 65 72 73 20 61 72 65 20 69 6e 20 72 65  etters are in re
0f50: 76 65 72 73 65 20 6f 72 64 65 72 2e 20 20 53 6f  verse order.  So
0f60: 20 74 68 65 20 27 79 27 20 72 75 6c 65 0a 2a 2a   the 'y' rule.**
0f70: 20 69 73 20 74 68 61 74 20 27 79 27 20 69 73 20   is that 'y' is 
0f80: 61 20 63 6f 6e 73 6f 6e 61 6e 74 20 75 6e 6c 65  a consonant unle
0f90: 73 73 20 69 74 20 69 73 20 66 6f 6c 6c 6f 77 65  ss it is followe
0fa0: 64 20 62 79 20 61 6e 6f 74 68 65 72 0a 2a 2a 20  d by another.** 
0fb0: 63 6f 6e 73 6f 6e 65 6e 74 2e 0a 2a 2f 0a 73 74  consonent..*/.st
0fc0: 61 74 69 63 20 69 6e 74 20 69 73 56 6f 77 65 6c  atic int isVowel
0fd0: 28 63 6f 6e 73 74 20 63 68 61 72 2a 29 3b 0a 73  (const char*);.s
0fe0: 74 61 74 69 63 20 69 6e 74 20 69 73 43 6f 6e 73  tatic int isCons
0ff0: 6f 6e 61 6e 74 28 63 6f 6e 73 74 20 63 68 61 72  onant(const char
1000: 20 2a 7a 29 7b 0a 20 20 69 6e 74 20 6a 3b 0a 20   *z){.  int j;. 
1010: 20 63 68 61 72 20 78 20 3d 20 2a 7a 3b 0a 20 20   char x = *z;.  
1020: 69 66 28 20 78 3d 3d 30 20 29 20 72 65 74 75 72  if( x==0 ) retur
1030: 6e 20 30 3b 0a 20 20 61 73 73 65 72 74 28 20 78  n 0;.  assert( x
1040: 3e 3d 27 61 27 20 26 26 20 78 3c 3d 27 7a 27 20  >='a' && x<='z' 
1050: 29 3b 0a 20 20 6a 20 3d 20 63 54 79 70 65 5b 78  );.  j = cType[x
1060: 2d 27 61 27 5d 3b 0a 20 20 69 66 28 20 6a 3c 32  -'a'];.  if( j<2
1070: 20 29 20 72 65 74 75 72 6e 20 6a 3b 0a 20 20 72   ) return j;.  r
1080: 65 74 75 72 6e 20 7a 5b 31 5d 3d 3d 30 20 7c 7c  eturn z[1]==0 ||
1090: 20 69 73 56 6f 77 65 6c 28 7a 20 2b 20 31 29 3b   isVowel(z + 1);
10a0: 0a 7d 0a 73 74 61 74 69 63 20 69 6e 74 20 69 73  .}.static int is
10b0: 56 6f 77 65 6c 28 63 6f 6e 73 74 20 63 68 61 72  Vowel(const char
10c0: 20 2a 7a 29 7b 0a 20 20 69 6e 74 20 6a 3b 0a 20   *z){.  int j;. 
10d0: 20 63 68 61 72 20 78 20 3d 20 2a 7a 3b 0a 20 20   char x = *z;.  
10e0: 69 66 28 20 78 3d 3d 30 20 29 20 72 65 74 75 72  if( x==0 ) retur
10f0: 6e 20 30 3b 0a 20 20 61 73 73 65 72 74 28 20 78  n 0;.  assert( x
1100: 3e 3d 27 61 27 20 26 26 20 78 3c 3d 27 7a 27 20  >='a' && x<='z' 
1110: 29 3b 0a 20 20 6a 20 3d 20 63 54 79 70 65 5b 78  );.  j = cType[x
1120: 2d 27 61 27 5d 3b 0a 20 20 69 66 28 20 6a 3c 32  -'a'];.  if( j<2
1130: 20 29 20 72 65 74 75 72 6e 20 31 2d 6a 3b 0a 20   ) return 1-j;. 
1140: 20 72 65 74 75 72 6e 20 69 73 43 6f 6e 73 6f 6e   return isConson
1150: 61 6e 74 28 7a 20 2b 20 31 29 3b 0a 7d 0a 0a 2f  ant(z + 1);.}../
1160: 2a 0a 2a 2a 20 4c 65 74 20 61 6e 79 20 73 65 71  *.** Let any seq
1170: 75 65 6e 63 65 20 6f 66 20 6f 6e 65 20 6f 72 20  uence of one or 
1180: 6d 6f 72 65 20 76 6f 77 65 6c 73 20 62 65 20 72  more vowels be r
1190: 65 70 72 65 73 65 6e 74 65 64 20 62 79 20 56 20  epresented by V 
11a0: 61 6e 64 20 6c 65 74 0a 2a 2a 20 43 20 62 65 20  and let.** C be 
11b0: 73 65 71 75 65 6e 63 65 20 6f 66 20 6f 6e 65 20  sequence of one 
11c0: 6f 72 20 6d 6f 72 65 20 63 6f 6e 73 6f 6e 61 6e  or more consonan
11d0: 74 73 2e 20 20 54 68 65 6e 20 65 76 65 72 79 20  ts.  Then every 
11e0: 77 6f 72 64 20 63 61 6e 20 62 65 0a 2a 2a 20 72  word can be.** r
11f0: 65 70 72 65 73 65 6e 74 65 64 20 61 73 3a 0a 2a  epresented as:.*
1200: 2a 0a 2a 2a 20 20 20 20 20 20 20 20 20 20 20 5b  *.**           [
1210: 43 5d 20 28 56 43 29 7b 6d 7d 20 5b 56 5d 0a 2a  C] (VC){m} [V].*
1220: 2a 0a 2a 2a 20 49 6e 20 70 72 6f 73 65 3a 20 20  *.** In prose:  
1230: 41 20 77 6f 72 64 20 69 73 20 61 6e 20 6f 70 74  A word is an opt
1240: 69 6f 6e 61 6c 20 63 6f 6e 73 6f 6e 61 6e 74 20  ional consonant 
1250: 66 6f 6c 6c 6f 77 65 64 20 62 79 20 7a 65 72 6f  followed by zero
1260: 20 6f 72 0a 2a 2a 20 76 6f 77 65 6c 2d 63 6f 6e   or.** vowel-con
1270: 73 6f 6e 61 6e 74 20 70 61 69 72 73 20 66 6f 6c  sonant pairs fol
1280: 6c 6f 77 65 64 20 62 79 20 61 6e 20 6f 70 74 69  lowed by an opti
1290: 6f 6e 61 6c 20 76 6f 77 65 6c 2e 20 20 22 6d 22  onal vowel.  "m"
12a0: 20 69 73 20 74 68 65 0a 2a 2a 20 6e 75 6d 62 65   is the.** numbe
12b0: 72 20 6f 66 20 76 6f 77 65 6c 20 63 6f 6e 73 6f  r of vowel conso
12c0: 6e 61 6e 74 20 70 61 69 72 73 2e 20 20 54 68 69  nant pairs.  Thi
12d0: 73 20 72 6f 75 74 69 6e 65 20 63 6f 6d 70 75 74  s routine comput
12e0: 65 73 20 74 68 65 20 76 61 6c 75 65 0a 2a 2a 20  es the value.** 
12f0: 6f 66 20 6d 20 66 6f 72 20 74 68 65 20 66 69 72  of m for the fir
1300: 73 74 20 69 20 62 79 74 65 73 20 6f 66 20 61 20  st i bytes of a 
1310: 77 6f 72 64 2e 0a 2a 2a 0a 2a 2a 20 52 65 74 75  word..**.** Retu
1320: 72 6e 20 74 72 75 65 20 69 66 20 74 68 65 20 6d  rn true if the m
1330: 2d 76 61 6c 75 65 20 66 6f 72 20 7a 20 69 73 20  -value for z is 
1340: 31 20 6f 72 20 6d 6f 72 65 2e 20 20 49 6e 20 6f  1 or more.  In o
1350: 74 68 65 72 20 77 6f 72 64 73 2c 0a 2a 2a 20 72  ther words,.** r
1360: 65 74 75 72 6e 20 74 72 75 65 20 69 66 20 7a 20  eturn true if z 
1370: 63 6f 6e 74 61 69 6e 73 20 61 74 20 6c 65 61 73  contains at leas
1380: 74 20 6f 6e 65 20 76 6f 77 65 6c 20 74 68 61 74  t one vowel that
1390: 20 69 73 20 66 6f 6c 6c 6f 77 65 64 0a 2a 2a 20   is followed.** 
13a0: 62 79 20 61 20 63 6f 6e 73 6f 6e 61 6e 74 2e 0a  by a consonant..
13b0: 2a 2a 0a 2a 2a 20 49 6e 20 74 68 69 73 20 72 6f  **.** In this ro
13c0: 75 74 69 6e 65 20 7a 5b 5d 20 69 73 20 69 6e 20  utine z[] is in 
13d0: 72 65 76 65 72 73 65 20 6f 72 64 65 72 2e 20 20  reverse order.  
13e0: 53 6f 20 77 65 20 61 72 65 20 72 65 61 6c 6c 79  So we are really
13f0: 20 6c 6f 6f 6b 69 6e 67 0a 2a 2a 20 66 6f 72 20   looking.** for 
1400: 61 6e 20 69 6e 73 74 61 6e 63 65 20 6f 66 20 6f  an instance of o
1410: 66 20 61 20 63 6f 6e 73 6f 6e 61 6e 74 20 66 6f  f a consonant fo
1420: 6c 6c 6f 77 65 64 20 62 79 20 61 20 76 6f 77 65  llowed by a vowe
1430: 6c 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74  l..*/.static int
1440: 20 6d 5f 67 74 5f 30 28 63 6f 6e 73 74 20 63 68   m_gt_0(const ch
1450: 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69 6c 65 28  ar *z){.  while(
1460: 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a   isVowel(z) ){ z
1470: 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d  ++; }.  if( *z==
1480: 30 20 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20  0 ) return 0;.  
1490: 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61  while( isConsona
14a0: 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a  nt(z) ){ z++; }.
14b0: 20 20 72 65 74 75 72 6e 20 2a 7a 21 3d 30 3b 0a    return *z!=0;.
14c0: 7d 0a 0a 2f 2a 20 4c 69 6b 65 20 6d 67 74 30 20  }../* Like mgt0 
14d0: 61 62 6f 76 65 20 65 78 63 65 70 74 20 77 65 20  above except we 
14e0: 61 72 65 20 6c 6f 6f 6b 69 6e 67 20 66 6f 72 20  are looking for 
14f0: 61 20 76 61 6c 75 65 20 6f 66 20 6d 20 77 68 69  a value of m whi
1500: 63 68 20 69 73 0a 2a 2a 20 65 78 61 63 74 6c 79  ch is.** exactly
1510: 20 31 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74   1.*/.static int
1520: 20 6d 5f 65 71 5f 31 28 63 6f 6e 73 74 20 63 68   m_eq_1(const ch
1530: 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69 6c 65 28  ar *z){.  while(
1540: 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a   isVowel(z) ){ z
1550: 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d  ++; }.  if( *z==
1560: 30 20 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20  0 ) return 0;.  
1570: 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61  while( isConsona
1580: 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a  nt(z) ){ z++; }.
1590: 20 20 69 66 28 20 2a 7a 3d 3d 30 20 29 20 72 65    if( *z==0 ) re
15a0: 74 75 72 6e 20 30 3b 0a 20 20 77 68 69 6c 65 28  turn 0;.  while(
15b0: 20 69 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a   isVowel(z) ){ z
15c0: 2b 2b 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d  ++; }.  if( *z==
15d0: 30 20 29 20 72 65 74 75 72 6e 20 31 3b 0a 20 20  0 ) return 1;.  
15e0: 77 68 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61  while( isConsona
15f0: 6e 74 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a  nt(z) ){ z++; }.
1600: 20 20 72 65 74 75 72 6e 20 2a 7a 3d 3d 30 3b 0a    return *z==0;.
1610: 7d 0a 0a 2f 2a 20 4c 69 6b 65 20 6d 67 74 30 20  }../* Like mgt0 
1620: 61 62 6f 76 65 20 65 78 63 65 70 74 20 77 65 20  above except we 
1630: 61 72 65 20 6c 6f 6f 6b 69 6e 67 20 66 6f 72 20  are looking for 
1640: 61 20 76 61 6c 75 65 20 6f 66 20 6d 3e 31 20 69  a value of m>1 i
1650: 6e 73 74 65 61 64 0a 2a 2a 20 6f 72 20 6d 3e 30  nstead.** or m>0
1660: 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 6d  .*/.static int m
1670: 5f 67 74 5f 31 28 63 6f 6e 73 74 20 63 68 61 72  _gt_1(const char
1680: 20 2a 7a 29 7b 0a 20 20 77 68 69 6c 65 28 20 69   *z){.  while( i
1690: 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a 2b 2b  sVowel(z) ){ z++
16a0: 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20  ; }.  if( *z==0 
16b0: 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20 77 68  ) return 0;.  wh
16c0: 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61 6e 74  ile( isConsonant
16d0: 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20  (z) ){ z++; }.  
16e0: 69 66 28 20 2a 7a 3d 3d 30 20 29 20 72 65 74 75  if( *z==0 ) retu
16f0: 72 6e 20 30 3b 0a 20 20 77 68 69 6c 65 28 20 69  rn 0;.  while( i
1700: 73 56 6f 77 65 6c 28 7a 29 20 29 7b 20 7a 2b 2b  sVowel(z) ){ z++
1710: 3b 20 7d 0a 20 20 69 66 28 20 2a 7a 3d 3d 30 20  ; }.  if( *z==0 
1720: 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20 77 68  ) return 0;.  wh
1730: 69 6c 65 28 20 69 73 43 6f 6e 73 6f 6e 61 6e 74  ile( isConsonant
1740: 28 7a 29 20 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20  (z) ){ z++; }.  
1750: 72 65 74 75 72 6e 20 2a 7a 21 3d 30 3b 0a 7d 0a  return *z!=0;.}.
1760: 0a 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 54 52  ./*.** Return TR
1770: 55 45 20 69 66 20 74 68 65 72 65 20 69 73 20 61  UE if there is a
1780: 20 76 6f 77 65 6c 20 61 6e 79 77 68 65 72 65 20   vowel anywhere 
1790: 77 69 74 68 69 6e 20 7a 5b 30 2e 2e 6e 2d 31 5d  within z[0..n-1]
17a0: 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 68  .*/.static int h
17b0: 61 73 56 6f 77 65 6c 28 63 6f 6e 73 74 20 63 68  asVowel(const ch
17c0: 61 72 20 2a 7a 29 7b 0a 20 20 77 68 69 6c 65 28  ar *z){.  while(
17d0: 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29 20   isConsonant(z) 
17e0: 29 7b 20 7a 2b 2b 3b 20 7d 0a 20 20 72 65 74 75  ){ z++; }.  retu
17f0: 72 6e 20 2a 7a 21 3d 30 3b 0a 7d 0a 0a 2f 2a 0a  rn *z!=0;.}../*.
1800: 2a 2a 20 52 65 74 75 72 6e 20 54 52 55 45 20 69  ** Return TRUE i
1810: 66 20 74 68 65 20 77 6f 72 64 20 65 6e 64 73 20  f the word ends 
1820: 69 6e 20 61 20 64 6f 75 62 6c 65 20 63 6f 6e 73  in a double cons
1830: 6f 6e 61 6e 74 2e 0a 2a 2a 0a 2a 2a 20 54 68 65  onant..**.** The
1840: 20 74 65 78 74 20 69 73 20 72 65 76 65 72 73 65   text is reverse
1850: 64 20 68 65 72 65 2e 20 53 6f 20 77 65 20 61 72  d here. So we ar
1860: 65 20 72 65 61 6c 6c 79 20 6c 6f 6f 6b 69 6e 67  e really looking
1870: 20 61 74 0a 2a 2a 20 74 68 65 20 66 69 72 73 74   at.** the first
1880: 20 74 77 6f 20 63 68 61 72 61 63 74 65 72 73 20   two characters 
1890: 6f 66 20 7a 5b 5d 2e 0a 2a 2f 0a 73 74 61 74 69  of z[]..*/.stati
18a0: 63 20 69 6e 74 20 64 6f 75 62 6c 65 43 6f 6e 73  c int doubleCons
18b0: 6f 6e 61 6e 74 28 63 6f 6e 73 74 20 63 68 61 72  onant(const char
18c0: 20 2a 7a 29 7b 0a 20 20 72 65 74 75 72 6e 20 69   *z){.  return i
18d0: 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29 20 26 26  sConsonant(z) &&
18e0: 20 7a 5b 30 5d 3d 3d 7a 5b 31 5d 20 26 26 20 69   z[0]==z[1] && i
18f0: 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 2b 31 29 3b  sConsonant(z+1);
1900: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 52 65 74 75 72 6e  .}../*.** Return
1910: 20 54 52 55 45 20 69 66 20 74 68 65 20 77 6f 72   TRUE if the wor
1920: 64 20 65 6e 64 73 20 77 69 74 68 20 74 68 72 65  d ends with thre
1930: 65 20 6c 65 74 74 65 72 73 20 77 68 69 63 68 0a  e letters which.
1940: 2a 2a 20 61 72 65 20 63 6f 6e 73 6f 6e 61 6e 74  ** are consonant
1950: 2d 76 6f 77 65 6c 2d 63 6f 6e 73 6f 6e 65 6e 74  -vowel-consonent
1960: 20 61 6e 64 20 77 68 65 72 65 20 74 68 65 20 66   and where the f
1970: 69 6e 61 6c 20 63 6f 6e 73 6f 6e 61 6e 74 0a 2a  inal consonant.*
1980: 2a 20 69 73 20 6e 6f 74 20 27 77 27 2c 20 27 78  * is not 'w', 'x
1990: 27 2c 20 6f 72 20 27 79 27 2e 0a 2a 2a 0a 2a 2a  ', or 'y'..**.**
19a0: 20 54 68 65 20 77 6f 72 64 20 69 73 20 72 65 76   The word is rev
19b0: 65 72 73 65 64 20 68 65 72 65 2e 20 20 53 6f 20  ersed here.  So 
19c0: 77 65 20 61 72 65 20 72 65 61 6c 6c 79 20 63 68  we are really ch
19d0: 65 63 6b 69 6e 67 20 74 68 65 0a 2a 2a 20 66 69  ecking the.** fi
19e0: 72 73 74 20 74 68 72 65 65 20 6c 65 74 74 65 72  rst three letter
19f0: 73 20 61 6e 64 20 74 68 65 20 66 69 72 73 74 20  s and the first 
1a00: 6f 6e 65 20 63 61 6e 6e 6f 74 20 62 65 20 69 6e  one cannot be in
1a10: 20 5b 77 78 79 5d 2e 0a 2a 2f 0a 73 74 61 74 69   [wxy]..*/.stati
1a20: 63 20 69 6e 74 20 73 74 61 72 5f 6f 68 28 63 6f  c int star_oh(co
1a30: 6e 73 74 20 63 68 61 72 20 2a 7a 29 7b 0a 20 20  nst char *z){.  
1a40: 72 65 74 75 72 6e 0a 20 20 20 20 7a 5b 30 5d 21  return.    z[0]!
1a50: 3d 30 20 26 26 20 69 73 43 6f 6e 73 6f 6e 61 6e  =0 && isConsonan
1a60: 74 28 7a 29 20 26 26 0a 20 20 20 20 7a 5b 30 5d  t(z) &&.    z[0]
1a70: 21 3d 27 77 27 20 26 26 20 7a 5b 30 5d 21 3d 27  !='w' && z[0]!='
1a80: 78 27 20 26 26 20 7a 5b 30 5d 21 3d 27 79 27 20  x' && z[0]!='y' 
1a90: 26 26 0a 20 20 20 20 7a 5b 31 5d 21 3d 30 20 26  &&.    z[1]!=0 &
1aa0: 26 20 69 73 56 6f 77 65 6c 28 7a 2b 31 29 20 26  & isVowel(z+1) &
1ab0: 26 0a 20 20 20 20 7a 5b 32 5d 21 3d 30 20 26 26  &.    z[2]!=0 &&
1ac0: 20 69 73 43 6f 6e 73 6f 6e 61 6e 74 28 7a 2b 32   isConsonant(z+2
1ad0: 29 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 49 66 20 74  );.}../*.** If t
1ae0: 68 65 20 77 6f 72 64 20 65 6e 64 73 20 77 69 74  he word ends wit
1af0: 68 20 7a 46 72 6f 6d 20 61 6e 64 20 78 43 6f 6e  h zFrom and xCon
1b00: 64 28 29 20 69 73 20 74 72 75 65 20 66 6f 72 20  d() is true for 
1b10: 74 68 65 20 73 74 65 6d 0a 2a 2a 20 6f 66 20 74  the stem.** of t
1b20: 68 65 20 77 6f 72 64 20 74 68 61 74 20 70 72 65  he word that pre
1b30: 63 65 65 64 73 20 74 68 65 20 7a 46 72 6f 6d 20  ceeds the zFrom 
1b40: 65 6e 64 69 6e 67 2c 20 74 68 65 6e 20 63 68 61  ending, then cha
1b50: 6e 67 65 20 74 68 65 20 0a 2a 2a 20 65 6e 64 69  nge the .** endi
1b60: 6e 67 20 74 6f 20 7a 54 6f 2e 0a 2a 2a 0a 2a 2a  ng to zTo..**.**
1b70: 20 54 68 65 20 69 6e 70 75 74 20 77 6f 72 64 20   The input word 
1b80: 2a 70 7a 20 61 6e 64 20 7a 46 72 6f 6d 20 61 72  *pz and zFrom ar
1b90: 65 20 62 6f 74 68 20 69 6e 20 72 65 76 65 72 73  e both in revers
1ba0: 65 20 6f 72 64 65 72 2e 20 20 7a 54 6f 0a 2a 2a  e order.  zTo.**
1bb0: 20 69 73 20 69 6e 20 6e 6f 72 6d 61 6c 20 6f 72   is in normal or
1bc0: 64 65 72 2e 20 0a 2a 2a 0a 2a 2a 20 52 65 74 75  der. .**.** Retu
1bd0: 72 6e 20 54 52 55 45 20 69 66 20 7a 46 72 6f 6d  rn TRUE if zFrom
1be0: 20 6d 61 74 63 68 65 73 2e 20 20 52 65 74 75 72   matches.  Retur
1bf0: 6e 20 46 41 4c 53 45 20 69 66 20 7a 46 72 6f 6d  n FALSE if zFrom
1c00: 20 64 6f 65 73 20 6e 6f 74 0a 2a 2a 20 6d 61 74   does not.** mat
1c10: 63 68 2e 20 20 4e 6f 74 20 74 68 61 74 20 54 52  ch.  Not that TR
1c20: 55 45 20 69 73 20 72 65 74 75 72 6e 65 64 20 65  UE is returned e
1c30: 76 65 6e 20 69 66 20 78 43 6f 6e 64 28 29 20 66  ven if xCond() f
1c40: 61 69 6c 73 20 61 6e 64 0a 2a 2a 20 6e 6f 20 73  ails and.** no s
1c50: 75 62 73 74 69 74 75 74 69 6f 6e 20 6f 63 63 75  ubstitution occu
1c60: 72 73 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 69 6e  rs..*/.static in
1c70: 74 20 73 74 65 6d 28 0a 20 20 63 68 61 72 20 2a  t stem(.  char *
1c80: 2a 70 7a 2c 20 20 20 20 20 20 20 20 20 20 20 20  *pz,            
1c90: 20 2f 2a 20 54 68 65 20 77 6f 72 64 20 62 65 69   /* The word bei
1ca0: 6e 67 20 73 74 65 6d 6d 65 64 20 28 52 65 76 65  ng stemmed (Reve
1cb0: 72 73 65 64 29 20 2a 2f 0a 20 20 63 6f 6e 73 74  rsed) */.  const
1cc0: 20 63 68 61 72 20 2a 7a 46 72 6f 6d 2c 20 20 20   char *zFrom,   
1cd0: 20 20 2f 2a 20 49 66 20 74 68 65 20 65 6e 64 69    /* If the endi
1ce0: 6e 67 20 6d 61 74 63 68 65 73 20 74 68 69 73 2e  ng matches this.
1cf0: 2e 2e 20 28 52 65 76 65 72 73 65 64 29 20 2a 2f  .. (Reversed) */
1d00: 0a 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a  .  const char *z
1d10: 54 6f 2c 20 20 20 20 20 20 20 2f 2a 20 2e 2e 2e  To,       /* ...
1d20: 20 63 68 61 6e 67 65 20 74 68 65 20 65 6e 64 69   change the endi
1d30: 6e 67 20 74 6f 20 74 68 69 73 20 28 6e 6f 74 20  ng to this (not 
1d40: 72 65 76 65 72 73 65 64 29 20 2a 2f 0a 20 20 69  reversed) */.  i
1d50: 6e 74 20 28 2a 78 43 6f 6e 64 29 28 63 6f 6e 73  nt (*xCond)(cons
1d60: 74 20 63 68 61 72 2a 29 20 20 20 2f 2a 20 43 6f  t char*)   /* Co
1d70: 6e 64 69 74 69 6f 6e 20 74 68 61 74 20 6d 75 73  ndition that mus
1d80: 74 20 62 65 20 74 72 75 65 20 2a 2f 0a 29 7b 0a  t be true */.){.
1d90: 20 20 63 68 61 72 20 2a 7a 20 3d 20 2a 70 7a 3b    char *z = *pz;
1da0: 0a 20 20 77 68 69 6c 65 28 20 2a 7a 46 72 6f 6d  .  while( *zFrom
1db0: 20 26 26 20 2a 7a 46 72 6f 6d 3d 3d 2a 7a 20 29   && *zFrom==*z )
1dc0: 7b 20 7a 2b 2b 3b 20 7a 46 72 6f 6d 2b 2b 3b 20  { z++; zFrom++; 
1dd0: 7d 0a 20 20 69 66 28 20 2a 7a 46 72 6f 6d 21 3d  }.  if( *zFrom!=
1de0: 30 20 29 20 72 65 74 75 72 6e 20 30 3b 0a 20 20  0 ) return 0;.  
1df0: 69 66 28 20 78 43 6f 6e 64 20 26 26 20 21 78 43  if( xCond && !xC
1e00: 6f 6e 64 28 7a 29 20 29 20 72 65 74 75 72 6e 20  ond(z) ) return 
1e10: 31 3b 0a 20 20 77 68 69 6c 65 28 20 2a 7a 54 6f  1;.  while( *zTo
1e20: 20 29 7b 0a 20 20 20 20 2a 28 2d 2d 7a 29 20 3d   ){.    *(--z) =
1e30: 20 2a 28 7a 54 6f 2b 2b 29 3b 0a 20 20 7d 0a 20   *(zTo++);.  }. 
1e40: 20 2a 70 7a 20 3d 20 7a 3b 0a 20 20 72 65 74 75   *pz = z;.  retu
1e50: 72 6e 20 31 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 54  rn 1;.}../*.** T
1e60: 68 69 73 20 69 73 20 74 68 65 20 66 61 6c 6c 62  his is the fallb
1e70: 61 63 6b 20 73 74 65 6d 6d 65 72 20 75 73 65 64  ack stemmer used
1e80: 20 77 68 65 6e 20 74 68 65 20 70 6f 72 74 65 72   when the porter
1e90: 20 73 74 65 6d 6d 65 72 20 69 73 0a 2a 2a 20 69   stemmer is.** i
1ea0: 6e 61 70 70 72 6f 70 72 69 61 74 65 2e 20 20 54  nappropriate.  T
1eb0: 68 65 20 69 6e 70 75 74 20 77 6f 72 64 20 69 73  he input word is
1ec0: 20 63 6f 70 69 65 64 20 69 6e 74 6f 20 74 68 65   copied into the
1ed0: 20 6f 75 74 70 75 74 20 77 69 74 68 0a 2a 2a 20   output with.** 
1ee0: 55 53 2d 41 53 43 49 49 20 63 61 73 65 20 66 6f  US-ASCII case fo
1ef0: 6c 64 69 6e 67 2e 20 20 49 66 20 74 68 65 20 69  lding.  If the i
1f00: 6e 70 75 74 20 77 6f 72 64 20 69 73 20 74 6f 6f  nput word is too
1f10: 20 6c 6f 6e 67 20 28 6d 6f 72 65 0a 2a 2a 20 74   long (more.** t
1f20: 68 61 6e 20 32 30 20 62 79 74 65 73 20 69 66 20  han 20 bytes if 
1f30: 69 74 20 63 6f 6e 74 61 69 6e 73 20 6e 6f 20 64  it contains no d
1f40: 69 67 69 74 73 20 6f 72 20 6d 6f 72 65 20 74 68  igits or more th
1f50: 61 6e 20 36 20 62 79 74 65 73 20 69 66 0a 2a 2a  an 6 bytes if.**
1f60: 20 69 74 20 63 6f 6e 74 61 69 6e 73 20 64 69 67   it contains dig
1f70: 69 74 73 29 20 74 68 65 6e 20 77 6f 72 64 20 69  its) then word i
1f80: 73 20 74 72 75 6e 63 61 74 65 64 20 74 6f 20 32  s truncated to 2
1f90: 30 20 6f 72 20 36 20 62 79 74 65 73 0a 2a 2a 20  0 or 6 bytes.** 
1fa0: 62 79 20 74 61 6b 69 6e 67 20 31 30 20 6f 72 20  by taking 10 or 
1fb0: 33 20 62 79 74 65 73 20 66 72 6f 6d 20 74 68 65  3 bytes from the
1fc0: 20 62 65 67 69 6e 6e 69 6e 67 20 61 6e 64 20 65   beginning and e
1fd0: 6e 64 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 76 6f  nd..*/.static vo
1fe0: 69 64 20 63 6f 70 79 5f 73 74 65 6d 6d 65 72 28  id copy_stemmer(
1ff0: 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 49 6e 2c  const char *zIn,
2000: 20 69 6e 74 20 6e 49 6e 2c 20 63 68 61 72 20 2a   int nIn, char *
2010: 7a 4f 75 74 2c 20 69 6e 74 20 2a 70 6e 4f 75 74  zOut, int *pnOut
2020: 29 7b 0a 20 20 69 6e 74 20 69 2c 20 6d 78 2c 20  ){.  int i, mx, 
2030: 6a 3b 0a 20 20 69 6e 74 20 68 61 73 44 69 67 69  j;.  int hasDigi
2040: 74 20 3d 20 30 3b 0a 20 20 66 6f 72 28 69 3d 30  t = 0;.  for(i=0
2050: 3b 20 69 3c 6e 49 6e 3b 20 69 2b 2b 29 7b 0a 20  ; i<nIn; i++){. 
2060: 20 20 20 69 6e 74 20 63 20 3d 20 7a 49 6e 5b 69     int c = zIn[i
2070: 5d 3b 0a 20 20 20 20 69 66 28 20 63 3e 3d 27 41  ];.    if( c>='A
2080: 27 20 26 26 20 63 3c 3d 27 5a 27 20 29 7b 0a 20  ' && c<='Z' ){. 
2090: 20 20 20 20 20 7a 4f 75 74 5b 69 5d 20 3d 20 63       zOut[i] = c
20a0: 20 2d 20 27 41 27 20 2b 20 27 61 27 3b 0a 20 20   - 'A' + 'a';.  
20b0: 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20 20 20 69    }else{.      i
20c0: 66 28 20 63 3e 3d 27 30 27 20 26 26 20 63 3c 3d  f( c>='0' && c<=
20d0: 27 39 27 20 29 20 68 61 73 44 69 67 69 74 20 3d  '9' ) hasDigit =
20e0: 20 31 3b 0a 20 20 20 20 20 20 7a 4f 75 74 5b 69   1;.      zOut[i
20f0: 5d 20 3d 20 63 3b 0a 20 20 20 20 7d 0a 20 20 7d  ] = c;.    }.  }
2100: 0a 20 20 6d 78 20 3d 20 68 61 73 44 69 67 69 74  .  mx = hasDigit
2110: 20 3f 20 33 20 3a 20 31 30 3b 0a 20 20 69 66 28   ? 3 : 10;.  if(
2120: 20 6e 49 6e 3e 6d 78 2a 32 20 29 7b 0a 20 20 20   nIn>mx*2 ){.   
2130: 20 66 6f 72 28 6a 3d 6d 78 2c 20 69 3d 6e 49 6e   for(j=mx, i=nIn
2140: 2d 6d 78 3b 20 69 3c 6e 49 6e 3b 20 69 2b 2b 2c  -mx; i<nIn; i++,
2150: 20 6a 2b 2b 29 7b 0a 20 20 20 20 20 20 7a 4f 75   j++){.      zOu
2160: 74 5b 6a 5d 20 3d 20 7a 4f 75 74 5b 69 5d 3b 0a  t[j] = zOut[i];.
2170: 20 20 20 20 7d 0a 20 20 20 20 69 20 3d 20 6a 3b      }.    i = j;
2180: 0a 20 20 7d 0a 20 20 7a 4f 75 74 5b 69 5d 20 3d  .  }.  zOut[i] =
2190: 20 30 3b 0a 20 20 2a 70 6e 4f 75 74 20 3d 20 69   0;.  *pnOut = i
21a0: 3b 0a 7d 0a 0a 0a 2f 2a 0a 2a 2a 20 53 74 65 6d  ;.}.../*.** Stem
21b0: 20 74 68 65 20 69 6e 70 75 74 20 77 6f 72 64 20   the input word 
21c0: 7a 49 6e 5b 30 2e 2e 6e 49 6e 2d 31 5d 2e 20 20  zIn[0..nIn-1].  
21d0: 53 74 6f 72 65 20 74 68 65 20 6f 75 74 70 75 74  Store the output
21e0: 20 69 6e 20 7a 4f 75 74 2e 0a 2a 2a 20 7a 4f 75   in zOut..** zOu
21f0: 74 20 69 73 20 61 74 20 6c 65 61 73 74 20 62 69  t is at least bi
2200: 67 20 65 6e 6f 75 67 68 20 74 6f 20 68 6f 6c 64  g enough to hold
2210: 20 6e 49 6e 20 62 79 74 65 73 2e 20 20 57 72 69   nIn bytes.  Wri
2220: 74 65 20 74 68 65 20 61 63 74 75 61 6c 0a 2a 2a  te the actual.**
2230: 20 73 69 7a 65 20 6f 66 20 74 68 65 20 6f 75 74   size of the out
2240: 70 75 74 20 77 6f 72 64 20 28 65 78 63 6c 75 73  put word (exclus
2250: 69 76 65 20 6f 66 20 74 68 65 20 27 5c 30 27 20  ive of the '\0' 
2260: 74 65 72 6d 69 6e 61 74 6f 72 29 20 69 6e 74 6f  terminator) into
2270: 20 2a 70 6e 4f 75 74 2e 0a 2a 2a 0a 2a 2a 20 41   *pnOut..**.** A
2280: 6e 79 20 75 70 70 65 72 2d 63 61 73 65 20 63 68  ny upper-case ch
2290: 61 72 61 63 74 65 72 73 20 69 6e 20 74 68 65 20  aracters in the 
22a0: 55 53 2d 41 53 43 49 49 20 63 68 61 72 61 63 74  US-ASCII charact
22b0: 65 72 20 73 65 74 20 28 5b 41 2d 5a 5d 29 0a 2a  er set ([A-Z]).*
22c0: 2a 20 61 72 65 20 63 6f 6e 76 65 72 74 65 64 20  * are converted 
22d0: 74 6f 20 6c 6f 77 65 72 20 63 61 73 65 2e 20 20  to lower case.  
22e0: 55 70 70 65 72 2d 63 61 73 65 20 55 54 46 20 63  Upper-case UTF c
22f0: 68 61 72 61 63 74 65 72 73 20 61 72 65 0a 2a 2a  haracters are.**
2300: 20 75 6e 63 68 61 6e 67 65 64 2e 0a 2a 2a 0a 2a   unchanged..**.*
2310: 2a 20 57 6f 72 64 73 20 74 68 61 74 20 61 72 65  * Words that are
2320: 20 6c 6f 6e 67 65 72 20 74 68 61 6e 20 61 62 6f   longer than abo
2330: 75 74 20 32 30 20 62 79 74 65 73 20 61 72 65 20  ut 20 bytes are 
2340: 73 74 65 6d 6d 65 64 20 62 79 20 72 65 74 61 69  stemmed by retai
2350: 6e 69 6e 67 0a 2a 2a 20 61 20 66 65 77 20 62 79  ning.** a few by
2360: 74 65 73 20 66 72 6f 6d 20 74 68 65 20 62 65 67  tes from the beg
2370: 69 6e 6e 69 6e 67 20 61 6e 64 20 74 68 65 20 65  inning and the e
2380: 6e 64 20 6f 66 20 74 68 65 20 77 6f 72 64 2e 20  nd of the word. 
2390: 20 49 66 20 74 68 65 0a 2a 2a 20 77 6f 72 64 20   If the.** word 
23a0: 63 6f 6e 74 61 69 6e 73 20 64 69 67 69 74 73 2c  contains digits,
23b0: 20 33 20 62 79 74 65 73 20 61 72 65 20 74 61 6b   3 bytes are tak
23c0: 65 6e 20 66 72 6f 6d 20 74 68 65 20 62 65 67 69  en from the begi
23d0: 6e 6e 69 6e 67 20 61 6e 64 0a 2a 2a 20 33 20 62  nning and.** 3 b
23e0: 79 74 65 73 20 66 72 6f 6d 20 74 68 65 20 65 6e  ytes from the en
23f0: 64 2e 20 20 46 6f 72 20 6c 6f 6e 67 20 77 6f 72  d.  For long wor
2400: 64 73 20 77 69 74 68 6f 75 74 20 64 69 67 69 74  ds without digit
2410: 73 2c 20 31 30 20 62 79 74 65 73 0a 2a 2a 20 61  s, 10 bytes.** a
2420: 72 65 20 74 61 6b 65 6e 20 66 72 6f 6d 20 65 61  re taken from ea
2430: 63 68 20 65 6e 64 2e 20 20 55 53 2d 41 53 43 49  ch end.  US-ASCI
2440: 49 20 63 61 73 65 20 66 6f 6c 64 69 6e 67 20 73  I case folding s
2450: 74 69 6c 6c 20 61 70 70 6c 69 65 73 2e 0a 2a 2a  till applies..**
2460: 20 0a 2a 2a 20 49 66 20 74 68 65 20 69 6e 70 75   .** If the inpu
2470: 74 20 77 6f 72 64 20 63 6f 6e 74 61 69 6e 73 20  t word contains 
2480: 6e 6f 74 20 64 69 67 69 74 73 20 62 75 74 20 64  not digits but d
2490: 6f 65 73 20 63 68 61 72 61 63 74 65 72 73 20 6e  oes characters n
24a0: 6f 74 20 0a 2a 2a 20 69 6e 20 5b 61 2d 7a 41 2d  ot .** in [a-zA-
24b0: 5a 5d 20 74 68 65 6e 20 6e 6f 20 73 74 65 6d 6d  Z] then no stemm
24c0: 69 6e 67 20 69 73 20 61 74 74 65 6d 70 74 65 64  ing is attempted
24d0: 20 61 6e 64 20 74 68 69 73 20 72 6f 75 74 69 6e   and this routin
24e0: 65 20 6a 75 73 74 20 0a 2a 2a 20 63 6f 70 69 65  e just .** copie
24f0: 73 20 74 68 65 20 69 6e 70 75 74 20 69 6e 74 6f  s the input into
2500: 20 74 68 65 20 69 6e 70 75 74 20 69 6e 74 6f 20   the input into 
2510: 74 68 65 20 6f 75 74 70 75 74 20 77 69 74 68 20  the output with 
2520: 55 53 2d 41 53 43 49 49 0a 2a 2a 20 63 61 73 65  US-ASCII.** case
2530: 20 66 6f 6c 64 69 6e 67 2e 0a 2a 2a 0a 2a 2a 20   folding..**.** 
2540: 53 74 65 6d 6d 69 6e 67 20 6e 65 76 65 72 20 69  Stemming never i
2550: 6e 63 72 65 61 73 65 73 20 74 68 65 20 6c 65 6e  ncreases the len
2560: 67 74 68 20 6f 66 20 74 68 65 20 77 6f 72 64 2e  gth of the word.
2570: 20 20 53 6f 20 74 68 65 72 65 20 69 73 0a 2a 2a    So there is.**
2580: 20 6e 6f 20 63 68 61 6e 63 65 20 6f 66 20 6f 76   no chance of ov
2590: 65 72 66 6c 6f 77 69 6e 67 20 74 68 65 20 7a 4f  erflowing the zO
25a0: 75 74 20 62 75 66 66 65 72 2e 0a 2a 2f 0a 73 74  ut buffer..*/.st
25b0: 61 74 69 63 20 76 6f 69 64 20 70 6f 72 74 65 72  atic void porter
25c0: 5f 73 74 65 6d 6d 65 72 28 63 6f 6e 73 74 20 63  _stemmer(const c
25d0: 68 61 72 20 2a 7a 49 6e 2c 20 69 6e 74 20 6e 49  har *zIn, int nI
25e0: 6e 2c 20 63 68 61 72 20 2a 7a 4f 75 74 2c 20 69  n, char *zOut, i
25f0: 6e 74 20 2a 70 6e 4f 75 74 29 7b 0a 20 20 69 6e  nt *pnOut){.  in
2600: 74 20 69 2c 20 6a 2c 20 63 3b 0a 20 20 63 68 61  t i, j, c;.  cha
2610: 72 20 7a 52 65 76 65 72 73 65 5b 32 38 5d 3b 0a  r zReverse[28];.
2620: 20 20 63 68 61 72 20 2a 7a 2c 20 2a 7a 32 3b 0a    char *z, *z2;.
2630: 20 20 69 66 28 20 6e 49 6e 3c 33 20 7c 7c 20 6e    if( nIn<3 || n
2640: 49 6e 3e 3d 73 69 7a 65 6f 66 28 7a 52 65 76 65  In>=sizeof(zReve
2650: 72 73 65 29 2d 37 20 29 7b 0a 20 20 20 20 2f 2a  rse)-7 ){.    /*
2660: 20 54 68 65 20 77 6f 72 64 20 69 73 20 74 6f 6f   The word is too
2670: 20 62 69 67 20 6f 72 20 74 6f 6f 20 73 6d 61 6c   big or too smal
2680: 6c 20 66 6f 72 20 74 68 65 20 70 6f 72 74 65 72  l for the porter
2690: 20 73 74 65 6d 6d 65 72 2e 0a 20 20 20 20 2a 2a   stemmer..    **
26a0: 20 46 61 6c 6c 62 61 63 6b 20 74 6f 20 74 68 65   Fallback to the
26b0: 20 63 6f 70 79 20 73 74 65 6d 6d 65 72 20 2a 2f   copy stemmer */
26c0: 0a 20 20 20 20 63 6f 70 79 5f 73 74 65 6d 6d 65  .    copy_stemme
26d0: 72 28 7a 49 6e 2c 20 6e 49 6e 2c 20 7a 4f 75 74  r(zIn, nIn, zOut
26e0: 2c 20 70 6e 4f 75 74 29 3b 0a 20 20 20 20 72 65  , pnOut);.    re
26f0: 74 75 72 6e 3b 0a 20 20 7d 0a 20 20 66 6f 72 28  turn;.  }.  for(
2700: 69 3d 30 2c 20 6a 3d 73 69 7a 65 6f 66 28 7a 52  i=0, j=sizeof(zR
2710: 65 76 65 72 73 65 29 2d 36 3b 20 69 3c 6e 49 6e  everse)-6; i<nIn
2720: 3b 20 69 2b 2b 2c 20 6a 2d 2d 29 7b 0a 20 20 20  ; i++, j--){.   
2730: 20 63 20 3d 20 7a 49 6e 5b 69 5d 3b 0a 20 20 20   c = zIn[i];.   
2740: 20 69 66 28 20 63 3e 3d 27 41 27 20 26 26 20 63   if( c>='A' && c
2750: 3c 3d 27 5a 27 20 29 7b 0a 20 20 20 20 20 20 7a  <='Z' ){.      z
2760: 52 65 76 65 72 73 65 5b 6a 5d 20 3d 20 63 20 2b  Reverse[j] = c +
2770: 20 27 61 27 20 2d 20 27 41 27 3b 0a 20 20 20 20   'a' - 'A';.    
2780: 7d 65 6c 73 65 20 69 66 28 20 63 3e 3d 27 61 27  }else if( c>='a'
2790: 20 26 26 20 63 3c 3d 27 7a 27 20 29 7b 0a 20 20   && c<='z' ){.  
27a0: 20 20 20 20 7a 52 65 76 65 72 73 65 5b 6a 5d 20      zReverse[j] 
27b0: 3d 20 63 3b 0a 20 20 20 20 7d 65 6c 73 65 7b 0a  = c;.    }else{.
27c0: 20 20 20 20 20 20 2f 2a 20 54 68 65 20 75 73 65        /* The use
27d0: 20 6f 66 20 61 20 63 68 61 72 61 63 74 65 72 20   of a character 
27e0: 6e 6f 74 20 69 6e 20 5b 61 2d 7a 41 2d 5a 5d 20  not in [a-zA-Z] 
27f0: 6d 65 61 6e 73 20 74 68 61 74 20 77 65 20 66 61  means that we fa
2800: 6c 6c 62 61 63 6b 0a 20 20 20 20 20 20 2a 2a 20  llback.      ** 
2810: 74 6f 20 74 68 65 20 63 6f 70 79 20 73 74 65 6d  to the copy stem
2820: 6d 65 72 20 2a 2f 0a 20 20 20 20 20 20 63 6f 70  mer */.      cop
2830: 79 5f 73 74 65 6d 6d 65 72 28 7a 49 6e 2c 20 6e  y_stemmer(zIn, n
2840: 49 6e 2c 20 7a 4f 75 74 2c 20 70 6e 4f 75 74 29  In, zOut, pnOut)
2850: 3b 0a 20 20 20 20 20 20 72 65 74 75 72 6e 3b 0a  ;.      return;.
2860: 20 20 20 20 7d 0a 20 20 7d 0a 20 20 6d 65 6d 73      }.  }.  mems
2870: 65 74 28 26 7a 52 65 76 65 72 73 65 5b 73 69 7a  et(&zReverse[siz
2880: 65 6f 66 28 7a 52 65 76 65 72 73 65 29 2d 35 5d  eof(zReverse)-5]
2890: 2c 20 30 2c 20 35 29 3b 0a 20 20 7a 20 3d 20 26  , 0, 5);.  z = &
28a0: 7a 52 65 76 65 72 73 65 5b 6a 2b 31 5d 3b 0a 0a  zReverse[j+1];..
28b0: 0a 20 20 2f 2a 20 53 74 65 70 20 31 61 20 2a 2f  .  /* Step 1a */
28c0: 0a 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 73 27  .  if( z[0]=='s'
28d0: 20 29 7b 0a 20 20 20 20 69 66 28 0a 20 20 20 20   ){.    if(.    
28e0: 20 21 73 74 65 6d 28 26 7a 2c 20 22 73 65 73 73   !stem(&z, "sess
28f0: 22 2c 20 22 73 73 22 2c 20 30 29 20 26 26 0a 20  ", "ss", 0) &&. 
2900: 20 20 20 20 21 73 74 65 6d 28 26 7a 2c 20 22 73      !stem(&z, "s
2910: 65 69 22 2c 20 22 69 22 2c 20 30 29 20 20 26 26  ei", "i", 0)  &&
2920: 0a 20 20 20 20 20 21 73 74 65 6d 28 26 7a 2c 20  .     !stem(&z, 
2930: 22 73 73 22 2c 20 22 73 73 22 2c 20 30 29 0a 20  "ss", "ss", 0). 
2940: 20 20 20 29 7b 0a 20 20 20 20 20 20 7a 2b 2b 3b     ){.      z++;
2950: 0a 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 2f 2a  .    }.  }..  /*
2960: 20 53 74 65 70 20 31 62 20 2a 2f 20 20 0a 20 20   Step 1b */  .  
2970: 7a 32 20 3d 20 7a 3b 0a 20 20 69 66 28 20 73 74  z2 = z;.  if( st
2980: 65 6d 28 26 7a 2c 20 22 64 65 65 22 2c 20 22 65  em(&z, "dee", "e
2990: 65 22 2c 20 6d 5f 67 74 5f 30 29 20 29 7b 0a 20  e", m_gt_0) ){. 
29a0: 20 20 20 2f 2a 20 44 6f 20 6e 6f 74 68 69 6e 67     /* Do nothing
29b0: 2e 20 20 54 68 65 20 77 6f 72 6b 20 77 61 73 20  .  The work was 
29c0: 61 6c 6c 20 69 6e 20 74 68 65 20 74 65 73 74 20  all in the test 
29d0: 2a 2f 0a 20 20 7d 65 6c 73 65 20 69 66 28 20 0a  */.  }else if( .
29e0: 20 20 20 20 20 28 73 74 65 6d 28 26 7a 2c 20 22       (stem(&z, "
29f0: 67 6e 69 22 2c 20 22 22 2c 20 68 61 73 56 6f 77  gni", "", hasVow
2a00: 65 6c 29 20 7c 7c 20 73 74 65 6d 28 26 7a 2c 20  el) || stem(&z, 
2a10: 22 64 65 22 2c 20 22 22 2c 20 68 61 73 56 6f 77  "de", "", hasVow
2a20: 65 6c 29 29 0a 20 20 20 20 20 20 26 26 20 7a 21  el)).      && z!
2a30: 3d 7a 32 0a 20 20 29 7b 0a 20 20 20 20 20 69 66  =z2.  ){.     if
2a40: 28 20 73 74 65 6d 28 26 7a 2c 20 22 74 61 22 2c  ( stem(&z, "ta",
2a50: 20 22 61 74 65 22 2c 20 30 29 20 7c 7c 0a 20 20   "ate", 0) ||.  
2a60: 20 20 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20         stem(&z, 
2a70: 22 6c 62 22 2c 20 22 62 6c 65 22 2c 20 30 29 20  "lb", "ble", 0) 
2a80: 7c 7c 0a 20 20 20 20 20 20 20 20 20 73 74 65 6d  ||.         stem
2a90: 28 26 7a 2c 20 22 7a 69 22 2c 20 22 69 7a 65 22  (&z, "zi", "ize"
2aa0: 2c 20 30 29 20 29 7b 0a 20 20 20 20 20 20 20 2f  , 0) ){.       /
2ab0: 2a 20 44 6f 20 6e 6f 74 68 69 6e 67 2e 20 20 54  * Do nothing.  T
2ac0: 68 65 20 77 6f 72 6b 20 77 61 73 20 61 6c 6c 20  he work was all 
2ad0: 69 6e 20 74 68 65 20 74 65 73 74 20 2a 2f 0a 20  in the test */. 
2ae0: 20 20 20 20 7d 65 6c 73 65 20 69 66 28 20 64 6f      }else if( do
2af0: 75 62 6c 65 43 6f 6e 73 6f 6e 61 6e 74 28 7a 29  ubleConsonant(z)
2b00: 20 26 26 20 28 2a 7a 21 3d 27 6c 27 20 26 26 20   && (*z!='l' && 
2b10: 2a 7a 21 3d 27 73 27 20 26 26 20 2a 7a 21 3d 27  *z!='s' && *z!='
2b20: 7a 27 29 20 29 7b 0a 20 20 20 20 20 20 20 7a 2b  z') ){.       z+
2b30: 2b 3b 0a 20 20 20 20 20 7d 65 6c 73 65 20 69 66  +;.     }else if
2b40: 28 20 6d 5f 65 71 5f 31 28 7a 29 20 26 26 20 73  ( m_eq_1(z) && s
2b50: 74 61 72 5f 6f 68 28 7a 29 20 29 7b 0a 20 20 20  tar_oh(z) ){.   
2b60: 20 20 20 20 2a 28 2d 2d 7a 29 20 3d 20 27 65 27      *(--z) = 'e'
2b70: 3b 0a 20 20 20 20 20 7d 0a 20 20 7d 0a 0a 20 20  ;.     }.  }..  
2b80: 2f 2a 20 53 74 65 70 20 31 63 20 2a 2f 0a 20 20  /* Step 1c */.  
2b90: 69 66 28 20 7a 5b 30 5d 3d 3d 27 79 27 20 26 26  if( z[0]=='y' &&
2ba0: 20 68 61 73 56 6f 77 65 6c 28 7a 2b 31 29 20 29   hasVowel(z+1) )
2bb0: 7b 0a 20 20 20 20 7a 5b 30 5d 20 3d 20 27 69 27  {.    z[0] = 'i'
2bc0: 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53 74 65 70  ;.  }..  /* Step
2bd0: 20 32 20 2a 2f 0a 20 20 73 77 69 74 63 68 28 20   2 */.  switch( 
2be0: 7a 5b 31 5d 20 29 7b 0a 20 20 20 63 61 73 65 20  z[1] ){.   case 
2bf0: 27 61 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26  'a':.     stem(&
2c00: 7a 2c 20 22 6c 61 6e 6f 69 74 61 22 2c 20 22 61  z, "lanoita", "a
2c10: 74 65 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a  te", m_gt_0) ||.
2c20: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 6c       stem(&z, "l
2c30: 61 6e 6f 69 74 22 2c 20 22 74 69 6f 6e 22 2c 20  anoit", "tion", 
2c40: 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20 20 62 72  m_gt_0);.     br
2c50: 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 63 27  eak;.   case 'c'
2c60: 3a 0a 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20  :.     stem(&z, 
2c70: 22 69 63 6e 65 22 2c 20 22 65 6e 63 65 22 2c 20  "icne", "ence", 
2c80: 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20  m_gt_0) ||.     
2c90: 73 74 65 6d 28 26 7a 2c 20 22 69 63 6e 61 22 2c  stem(&z, "icna",
2ca0: 20 22 61 6e 63 65 22 2c 20 6d 5f 67 74 5f 30 29   "ance", m_gt_0)
2cb0: 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20  ;.     break;.  
2cc0: 20 63 61 73 65 20 27 65 27 3a 0a 20 20 20 20 20   case 'e':.     
2cd0: 73 74 65 6d 28 26 7a 2c 20 22 72 65 7a 69 22 2c  stem(&z, "rezi",
2ce0: 20 22 69 7a 65 22 2c 20 6d 5f 67 74 5f 30 29 3b   "ize", m_gt_0);
2cf0: 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20  .     break;.   
2d00: 63 61 73 65 20 27 67 27 3a 0a 20 20 20 20 20 73  case 'g':.     s
2d10: 74 65 6d 28 26 7a 2c 20 22 69 67 6f 6c 22 2c 20  tem(&z, "igol", 
2d20: 22 6c 6f 67 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a  "log", m_gt_0);.
2d30: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63       break;.   c
2d40: 61 73 65 20 27 6c 27 3a 0a 20 20 20 20 20 73 74  ase 'l':.     st
2d50: 65 6d 28 26 7a 2c 20 22 69 6c 62 22 2c 20 22 62  em(&z, "ilb", "b
2d60: 6c 65 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a  le", m_gt_0) ||.
2d70: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 69       stem(&z, "i
2d80: 6c 6c 61 22 2c 20 22 61 6c 22 2c 20 6d 5f 67 74  lla", "al", m_gt
2d90: 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d  _0) ||.     stem
2da0: 28 26 7a 2c 20 22 69 6c 74 6e 65 22 2c 20 22 65  (&z, "iltne", "e
2db0: 6e 74 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a  nt", m_gt_0) ||.
2dc0: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 69       stem(&z, "i
2dd0: 6c 65 22 2c 20 22 65 22 2c 20 6d 5f 67 74 5f 30  le", "e", m_gt_0
2de0: 29 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26  ) ||.     stem(&
2df0: 7a 2c 20 22 69 6c 73 75 6f 22 2c 20 22 6f 75 73  z, "ilsuo", "ous
2e00: 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20 20 20 20  ", m_gt_0);.    
2e10: 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20   break;.   case 
2e20: 27 6f 27 3a 0a 20 20 20 20 20 73 74 65 6d 28 26  'o':.     stem(&
2e30: 7a 2c 20 22 6e 6f 69 74 61 7a 69 22 2c 20 22 69  z, "noitazi", "i
2e40: 7a 65 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a  ze", m_gt_0) ||.
2e50: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 6e       stem(&z, "n
2e60: 6f 69 74 61 22 2c 20 22 61 74 65 22 2c 20 6d 5f  oita", "ate", m_
2e70: 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74  gt_0) ||.     st
2e80: 65 6d 28 26 7a 2c 20 22 72 6f 74 61 22 2c 20 22  em(&z, "rota", "
2e90: 61 74 65 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20  ate", m_gt_0);. 
2ea0: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61      break;.   ca
2eb0: 73 65 20 27 73 27 3a 0a 20 20 20 20 20 73 74 65  se 's':.     ste
2ec0: 6d 28 26 7a 2c 20 22 6d 73 69 6c 61 22 2c 20 22  m(&z, "msila", "
2ed0: 61 6c 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a  al", m_gt_0) ||.
2ee0: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 73       stem(&z, "s
2ef0: 73 65 6e 65 76 69 22 2c 20 22 69 76 65 22 2c 20  senevi", "ive", 
2f00: 6d 5f 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20  m_gt_0) ||.     
2f10: 73 74 65 6d 28 26 7a 2c 20 22 73 73 65 6e 6c 75  stem(&z, "ssenlu
2f20: 66 22 2c 20 22 66 75 6c 22 2c 20 6d 5f 67 74 5f  f", "ful", m_gt_
2f30: 30 29 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28  0) ||.     stem(
2f40: 26 7a 2c 20 22 73 73 65 6e 73 75 6f 22 2c 20 22  &z, "ssensuo", "
2f50: 6f 75 73 22 2c 20 6d 5f 67 74 5f 30 29 3b 0a 20  ous", m_gt_0);. 
2f60: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61      break;.   ca
2f70: 73 65 20 27 74 27 3a 0a 20 20 20 20 20 73 74 65  se 't':.     ste
2f80: 6d 28 26 7a 2c 20 22 69 74 69 6c 61 22 2c 20 22  m(&z, "itila", "
2f90: 61 6c 22 2c 20 6d 5f 67 74 5f 30 29 20 7c 7c 0a  al", m_gt_0) ||.
2fa0: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 69       stem(&z, "i
2fb0: 74 69 76 69 22 2c 20 22 69 76 65 22 2c 20 6d 5f  tivi", "ive", m_
2fc0: 67 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74  gt_0) ||.     st
2fd0: 65 6d 28 26 7a 2c 20 22 69 74 69 6c 69 62 22 2c  em(&z, "itilib",
2fe0: 20 22 62 6c 65 22 2c 20 6d 5f 67 74 5f 30 29 3b   "ble", m_gt_0);
2ff0: 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 7d  .     break;.  }
3000: 0a 0a 20 20 2f 2a 20 53 74 65 70 20 33 20 2a 2f  ..  /* Step 3 */
3010: 0a 20 20 73 77 69 74 63 68 28 20 7a 5b 30 5d 20  .  switch( z[0] 
3020: 29 7b 0a 20 20 20 63 61 73 65 20 27 65 27 3a 0a  ){.   case 'e':.
3030: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 65       stem(&z, "e
3040: 74 61 63 69 22 2c 20 22 69 63 22 2c 20 6d 5f 67  taci", "ic", m_g
3050: 74 5f 30 29 20 7c 7c 0a 20 20 20 20 20 73 74 65  t_0) ||.     ste
3060: 6d 28 26 7a 2c 20 22 65 76 69 74 61 22 2c 20 22  m(&z, "evita", "
3070: 22 2c 20 6d 5f 67 74 5f 30 29 20 20 20 7c 7c 0a  ", m_gt_0)   ||.
3080: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 65       stem(&z, "e
3090: 7a 69 6c 61 22 2c 20 22 61 6c 22 2c 20 6d 5f 67  zila", "al", m_g
30a0: 74 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b  t_0);.     break
30b0: 3b 0a 20 20 20 63 61 73 65 20 27 69 27 3a 0a 20  ;.   case 'i':. 
30c0: 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 74      stem(&z, "it
30d0: 69 63 69 22 2c 20 22 69 63 22 2c 20 6d 5f 67 74  ici", "ic", m_gt
30e0: 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b  _0);.     break;
30f0: 0a 20 20 20 63 61 73 65 20 27 6c 27 3a 0a 20 20  .   case 'l':.  
3100: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 6c 61 63     stem(&z, "lac
3110: 69 22 2c 20 22 69 63 22 2c 20 6d 5f 67 74 5f 30  i", "ic", m_gt_0
3120: 29 20 7c 7c 0a 20 20 20 20 20 73 74 65 6d 28 26  ) ||.     stem(&
3130: 7a 2c 20 22 6c 75 66 22 2c 20 22 22 2c 20 6d 5f  z, "luf", "", m_
3140: 67 74 5f 30 29 3b 0a 20 20 20 20 20 62 72 65 61  gt_0);.     brea
3150: 6b 3b 0a 20 20 20 63 61 73 65 20 27 73 27 3a 0a  k;.   case 's':.
3160: 20 20 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 73       stem(&z, "s
3170: 73 65 6e 22 2c 20 22 22 2c 20 6d 5f 67 74 5f 30  sen", "", m_gt_0
3180: 29 3b 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20  );.     break;. 
3190: 20 7d 0a 0a 20 20 2f 2a 20 53 74 65 70 20 34 20   }..  /* Step 4 
31a0: 2a 2f 0a 20 20 73 77 69 74 63 68 28 20 7a 5b 31  */.  switch( z[1
31b0: 5d 20 29 7b 0a 20 20 20 63 61 73 65 20 27 61 27  ] ){.   case 'a'
31c0: 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d  :.     if( z[0]=
31d0: 3d 27 6c 27 20 26 26 20 6d 5f 67 74 5f 31 28 7a  ='l' && m_gt_1(z
31e0: 2b 32 29 20 29 7b 0a 20 20 20 20 20 20 20 7a 20  +2) ){.       z 
31f0: 2b 3d 20 32 3b 0a 20 20 20 20 20 7d 0a 20 20 20  += 2;.     }.   
3200: 20 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65    break;.   case
3210: 20 27 63 27 3a 0a 20 20 20 20 20 69 66 28 20 7a   'c':.     if( z
3220: 5b 30 5d 3d 3d 27 65 27 20 26 26 20 7a 5b 32 5d  [0]=='e' && z[2]
3230: 3d 3d 27 6e 27 20 26 26 20 28 7a 5b 33 5d 3d 3d  =='n' && (z[3]==
3240: 27 61 27 20 7c 7c 20 7a 5b 33 5d 3d 3d 27 65 27  'a' || z[3]=='e'
3250: 29 20 20 26 26 20 6d 5f 67 74 5f 31 28 7a 2b 34  )  && m_gt_1(z+4
3260: 29 20 20 29 7b 0a 20 20 20 20 20 20 20 7a 20 2b  )  ){.       z +
3270: 3d 20 34 3b 0a 20 20 20 20 20 7d 0a 20 20 20 20  = 4;.     }.    
3280: 20 62 72 65 61 6b 3b 0a 20 20 20 63 61 73 65 20   break;.   case 
3290: 27 65 27 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b  'e':.     if( z[
32a0: 30 5d 3d 3d 27 72 27 20 26 26 20 6d 5f 67 74 5f  0]=='r' && m_gt_
32b0: 31 28 7a 2b 32 29 20 29 7b 0a 20 20 20 20 20 20  1(z+2) ){.      
32c0: 20 7a 20 2b 3d 20 32 3b 0a 20 20 20 20 20 7d 0a   z += 2;.     }.
32d0: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63       break;.   c
32e0: 61 73 65 20 27 69 27 3a 0a 20 20 20 20 20 69 66  ase 'i':.     if
32f0: 28 20 7a 5b 30 5d 3d 3d 27 63 27 20 26 26 20 6d  ( z[0]=='c' && m
3300: 5f 67 74 5f 31 28 7a 2b 32 29 20 29 7b 0a 20 20  _gt_1(z+2) ){.  
3310: 20 20 20 20 20 7a 20 2b 3d 20 32 3b 0a 20 20 20       z += 2;.   
3320: 20 20 7d 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a    }.     break;.
3330: 20 20 20 63 61 73 65 20 27 6c 27 3a 0a 20 20 20     case 'l':.   
3340: 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 65 27 20    if( z[0]=='e' 
3350: 26 26 20 7a 5b 32 5d 3d 3d 27 62 27 20 26 26 20  && z[2]=='b' && 
3360: 28 7a 5b 33 5d 3d 3d 27 61 27 20 7c 7c 20 7a 5b  (z[3]=='a' || z[
3370: 33 5d 3d 3d 27 69 27 29 20 26 26 20 6d 5f 67 74  3]=='i') && m_gt
3380: 5f 31 28 7a 2b 34 29 20 29 7b 0a 20 20 20 20 20  _1(z+4) ){.     
3390: 20 20 7a 20 2b 3d 20 34 3b 0a 20 20 20 20 20 7d    z += 4;.     }
33a0: 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20  .     break;.   
33b0: 63 61 73 65 20 27 6e 27 3a 0a 20 20 20 20 20 69  case 'n':.     i
33c0: 66 28 20 7a 5b 30 5d 3d 3d 27 74 27 20 29 7b 0a  f( z[0]=='t' ){.
33d0: 20 20 20 20 20 20 20 69 66 28 20 7a 5b 32 5d 3d         if( z[2]=
33e0: 3d 27 61 27 20 29 7b 0a 20 20 20 20 20 20 20 20  ='a' ){.        
33f0: 20 69 66 28 20 6d 5f 67 74 5f 31 28 7a 2b 33 29   if( m_gt_1(z+3)
3400: 20 29 7b 0a 20 20 20 20 20 20 20 20 20 20 20 7a   ){.           z
3410: 20 2b 3d 20 33 3b 0a 20 20 20 20 20 20 20 20 20   += 3;.         
3420: 7d 0a 20 20 20 20 20 20 20 7d 65 6c 73 65 20 69  }.       }else i
3430: 66 28 20 7a 5b 32 5d 3d 3d 27 65 27 20 29 7b 0a  f( z[2]=='e' ){.
3440: 20 20 20 20 20 20 20 20 20 73 74 65 6d 28 26 7a           stem(&z
3450: 2c 20 22 74 6e 65 6d 65 22 2c 20 22 22 2c 20 6d  , "tneme", "", m
3460: 5f 67 74 5f 31 29 20 7c 7c 0a 20 20 20 20 20 20  _gt_1) ||.      
3470: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 74 6e 65     stem(&z, "tne
3480: 6d 22 2c 20 22 22 2c 20 6d 5f 67 74 5f 31 29 20  m", "", m_gt_1) 
3490: 7c 7c 0a 20 20 20 20 20 20 20 20 20 73 74 65 6d  ||.         stem
34a0: 28 26 7a 2c 20 22 74 6e 65 22 2c 20 22 22 2c 20  (&z, "tne", "", 
34b0: 6d 5f 67 74 5f 31 29 3b 0a 20 20 20 20 20 20 20  m_gt_1);.       
34c0: 7d 0a 20 20 20 20 20 7d 0a 20 20 20 20 20 62 72  }.     }.     br
34d0: 65 61 6b 3b 0a 20 20 20 63 61 73 65 20 27 6f 27  eak;.   case 'o'
34e0: 3a 0a 20 20 20 20 20 69 66 28 20 7a 5b 30 5d 3d  :.     if( z[0]=
34f0: 3d 27 75 27 20 29 7b 0a 20 20 20 20 20 20 20 69  ='u' ){.       i
3500: 66 28 20 6d 5f 67 74 5f 31 28 7a 2b 32 29 20 29  f( m_gt_1(z+2) )
3510: 7b 0a 20 20 20 20 20 20 20 20 20 7a 20 2b 3d 20  {.         z += 
3520: 32 3b 0a 20 20 20 20 20 20 20 7d 0a 20 20 20 20  2;.       }.    
3530: 20 7d 65 6c 73 65 20 69 66 28 20 7a 5b 33 5d 3d   }else if( z[3]=
3540: 3d 27 73 27 20 7c 7c 20 7a 5b 33 5d 3d 3d 27 74  ='s' || z[3]=='t
3550: 27 20 29 7b 0a 20 20 20 20 20 20 20 73 74 65 6d  ' ){.       stem
3560: 28 26 7a 2c 20 22 6e 6f 69 22 2c 20 22 22 2c 20  (&z, "noi", "", 
3570: 6d 5f 67 74 5f 31 29 3b 0a 20 20 20 20 20 7d 0a  m_gt_1);.     }.
3580: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63       break;.   c
3590: 61 73 65 20 27 73 27 3a 0a 20 20 20 20 20 69 66  ase 's':.     if
35a0: 28 20 7a 5b 30 5d 3d 3d 27 6d 27 20 26 26 20 7a  ( z[0]=='m' && z
35b0: 5b 32 5d 3d 3d 27 69 27 20 26 26 20 6d 5f 67 74  [2]=='i' && m_gt
35c0: 5f 31 28 7a 2b 33 29 20 29 7b 0a 20 20 20 20 20  _1(z+3) ){.     
35d0: 20 20 7a 20 2b 3d 20 33 3b 0a 20 20 20 20 20 7d    z += 3;.     }
35e0: 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20  .     break;.   
35f0: 63 61 73 65 20 27 74 27 3a 0a 20 20 20 20 20 73  case 't':.     s
3600: 74 65 6d 28 26 7a 2c 20 22 65 74 61 22 2c 20 22  tem(&z, "eta", "
3610: 22 2c 20 6d 5f 67 74 5f 31 29 20 7c 7c 0a 20 20  ", m_gt_1) ||.  
3620: 20 20 20 73 74 65 6d 28 26 7a 2c 20 22 69 74 69     stem(&z, "iti
3630: 22 2c 20 22 22 2c 20 6d 5f 67 74 5f 31 29 3b 0a  ", "", m_gt_1);.
3640: 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20 63       break;.   c
3650: 61 73 65 20 27 75 27 3a 0a 20 20 20 20 20 69 66  ase 'u':.     if
3660: 28 20 7a 5b 30 5d 3d 3d 27 73 27 20 26 26 20 7a  ( z[0]=='s' && z
3670: 5b 32 5d 3d 3d 27 6f 27 20 26 26 20 6d 5f 67 74  [2]=='o' && m_gt
3680: 5f 31 28 7a 2b 33 29 20 29 7b 0a 20 20 20 20 20  _1(z+3) ){.     
3690: 20 20 7a 20 2b 3d 20 33 3b 0a 20 20 20 20 20 7d    z += 3;.     }
36a0: 0a 20 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 20  .     break;.   
36b0: 63 61 73 65 20 27 76 27 3a 0a 20 20 20 63 61 73  case 'v':.   cas
36c0: 65 20 27 7a 27 3a 0a 20 20 20 20 20 69 66 28 20  e 'z':.     if( 
36d0: 7a 5b 30 5d 3d 3d 27 65 27 20 26 26 20 7a 5b 32  z[0]=='e' && z[2
36e0: 5d 3d 3d 27 69 27 20 26 26 20 6d 5f 67 74 5f 31  ]=='i' && m_gt_1
36f0: 28 7a 2b 33 29 20 29 7b 0a 20 20 20 20 20 20 20  (z+3) ){.       
3700: 7a 20 2b 3d 20 33 3b 0a 20 20 20 20 20 7d 0a 20  z += 3;.     }. 
3710: 20 20 20 20 62 72 65 61 6b 3b 0a 20 20 7d 0a 0a      break;.  }..
3720: 20 20 2f 2a 20 53 74 65 70 20 35 61 20 2a 2f 0a    /* Step 5a */.
3730: 20 20 69 66 28 20 7a 5b 30 5d 3d 3d 27 65 27 20    if( z[0]=='e' 
3740: 29 7b 0a 20 20 20 20 69 66 28 20 6d 5f 67 74 5f  ){.    if( m_gt_
3750: 31 28 7a 2b 31 29 20 29 7b 0a 20 20 20 20 20 20  1(z+1) ){.      
3760: 7a 2b 2b 3b 0a 20 20 20 20 7d 65 6c 73 65 20 69  z++;.    }else i
3770: 66 28 20 6d 5f 65 71 5f 31 28 7a 2b 31 29 20 26  f( m_eq_1(z+1) &
3780: 26 20 21 73 74 61 72 5f 6f 68 28 7a 2b 31 29 20  & !star_oh(z+1) 
3790: 29 7b 0a 20 20 20 20 20 20 7a 2b 2b 3b 0a 20 20  ){.      z++;.  
37a0: 20 20 7d 0a 20 20 7d 0a 0a 20 20 2f 2a 20 53 74    }.  }..  /* St
37b0: 65 70 20 35 62 20 2a 2f 0a 20 20 69 66 28 20 6d  ep 5b */.  if( m
37c0: 5f 67 74 5f 31 28 7a 29 20 26 26 20 7a 5b 30 5d  _gt_1(z) && z[0]
37d0: 3d 3d 27 6c 27 20 26 26 20 7a 5b 31 5d 3d 3d 27  =='l' && z[1]=='
37e0: 6c 27 20 29 7b 0a 20 20 20 20 7a 2b 2b 3b 0a 20  l' ){.    z++;. 
37f0: 20 7d 0a 0a 20 20 2f 2a 20 7a 5b 5d 20 69 73 20   }..  /* z[] is 
3800: 6e 6f 77 20 74 68 65 20 73 74 65 6d 6d 65 64 20  now the stemmed 
3810: 77 6f 72 64 20 69 6e 20 72 65 76 65 72 73 65 20  word in reverse 
3820: 6f 72 64 65 72 2e 20 20 46 6c 69 70 20 69 74 20  order.  Flip it 
3830: 62 61 63 6b 0a 20 20 2a 2a 20 61 72 6f 75 6e 64  back.  ** around
3840: 20 69 6e 74 6f 20 66 6f 72 77 61 72 64 20 6f 72   into forward or
3850: 64 65 72 20 61 6e 64 20 72 65 74 75 72 6e 2e 0a  der and return..
3860: 20 20 2a 2f 0a 20 20 2a 70 6e 4f 75 74 20 3d 20    */.  *pnOut = 
3870: 69 20 3d 20 73 74 72 6c 65 6e 28 7a 29 3b 0a 20  i = strlen(z);. 
3880: 20 7a 4f 75 74 5b 69 5d 20 3d 20 30 3b 0a 20 20   zOut[i] = 0;.  
3890: 77 68 69 6c 65 28 20 2a 7a 20 29 7b 0a 20 20 20  while( *z ){.   
38a0: 20 7a 4f 75 74 5b 2d 2d 69 5d 20 3d 20 2a 28 7a   zOut[--i] = *(z
38b0: 2b 2b 29 3b 0a 20 20 7d 0a 7d 0a 0a 2f 2a 0a 2a  ++);.  }.}../*.*
38c0: 2a 20 43 68 61 72 61 63 74 65 72 73 20 74 68 61  * Characters tha
38d0: 74 20 63 61 6e 20 62 65 20 70 61 72 74 20 6f 66  t can be part of
38e0: 20 61 20 74 6f 6b 65 6e 2e 20 20 57 65 20 61 73   a token.  We as
38f0: 73 75 6d 65 20 61 6e 79 20 63 68 61 72 61 63 74  sume any charact
3900: 65 72 0a 2a 2a 20 77 68 6f 73 65 20 76 61 6c 75  er.** whose valu
3910: 65 20 69 73 20 67 72 65 61 74 65 72 20 74 68 61  e is greater tha
3920: 6e 20 30 78 38 30 20 28 61 6e 79 20 55 54 46 20  n 0x80 (any UTF 
3930: 63 68 61 72 61 63 74 65 72 29 20 63 61 6e 20 62  character) can b
3940: 65 0a 2a 2a 20 70 61 72 74 20 6f 66 20 61 20 74  e.** part of a t
3950: 6f 6b 65 6e 2e 20 20 49 6e 20 6f 74 68 65 72 20  oken.  In other 
3960: 77 6f 72 64 73 2c 20 64 65 6c 69 6d 69 74 65 72  words, delimiter
3970: 73 20 61 6c 6c 20 6d 75 73 74 20 68 61 76 65 0a  s all must have.
3980: 2a 2a 20 76 61 6c 75 65 73 20 6f 66 20 30 78 37  ** values of 0x7
3990: 66 20 6f 72 20 6c 6f 77 65 72 2e 0a 2a 2f 0a 73  f or lower..*/.s
39a0: 74 61 74 69 63 20 63 6f 6e 73 74 20 63 68 61 72  tatic const char
39b0: 20 70 6f 72 74 65 72 49 64 43 68 61 72 5b 5d 20   porterIdChar[] 
39c0: 3d 20 7b 0a 2f 2a 20 78 30 20 78 31 20 78 32 20  = {./* x0 x1 x2 
39d0: 78 33 20 78 34 20 78 35 20 78 36 20 78 37 20 78  x3 x4 x5 x6 x7 x
39e0: 38 20 78 39 20 78 41 20 78 42 20 78 43 20 78 44  8 x9 xA xB xC xD
39f0: 20 78 45 20 78 46 20 2a 2f 0a 20 20 20 20 31 2c   xE xF */.    1,
3a00: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3a10: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 30  1, 1, 1, 1, 0, 0
3a20: 2c 20 30 2c 20 30 2c 20 30 2c 20 30 2c 20 20 2f  , 0, 0, 0, 0,  /
3a30: 2a 20 33 78 20 2a 2f 0a 20 20 20 20 30 2c 20 31  * 3x */.    0, 1
3a40: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3a50: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3a60: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 20 2f 2a 20  1, 1, 1, 1,  /* 
3a70: 34 78 20 2a 2f 0a 20 20 20 20 31 2c 20 31 2c 20  4x */.    1, 1, 
3a80: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 1, 1, 1, 1, 1
3a90: 2c 20 31 2c 20 31 2c 20 31 2c 20 30 2c 20 30 2c  , 1, 1, 1, 0, 0,
3aa0: 20 30 2c 20 30 2c 20 31 2c 20 20 2f 2a 20 35 78   0, 0, 1,  /* 5x
3ab0: 20 2a 2f 0a 20 20 20 20 30 2c 20 31 2c 20 31 2c   */.    0, 1, 1,
3ac0: 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20   1, 1, 1, 1, 1, 
3ad0: 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31  1, 1, 1, 1, 1, 1
3ae0: 2c 20 31 2c 20 31 2c 20 20 2f 2a 20 36 78 20 2a  , 1, 1,  /* 6x *
3af0: 2f 0a 20 20 20 20 31 2c 20 31 2c 20 31 2c 20 31  /.    1, 1, 1, 1
3b00: 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c 20 31 2c  , 1, 1, 1, 1, 1,
3b10: 20 31 2c 20 31 2c 20 30 2c 20 30 2c 20 30 2c 20   1, 1, 0, 0, 0, 
3b20: 30 2c 20 30 2c 20 20 2f 2a 20 37 78 20 2a 2f 0a  0, 0,  /* 7x */.
3b30: 7d 3b 0a 23 64 65 66 69 6e 65 20 69 73 44 65 6c  };.#define isDel
3b40: 69 6d 28 43 29 20 28 28 28 63 68 3d 43 29 26 30  im(C) (((ch=C)&0
3b50: 78 38 30 29 3d 3d 30 20 26 26 20 28 63 68 3c 30  x80)==0 && (ch<0
3b60: 78 33 30 20 7c 7c 20 21 70 6f 72 74 65 72 49 64  x30 || !porterId
3b70: 43 68 61 72 5b 63 68 2d 30 78 33 30 5d 29 29 0a  Char[ch-0x30])).
3b80: 0a 2f 2a 0a 2a 2a 20 45 78 74 72 61 63 74 20 74  ./*.** Extract t
3b90: 68 65 20 6e 65 78 74 20 74 6f 6b 65 6e 20 66 72  he next token fr
3ba0: 6f 6d 20 61 20 74 6f 6b 65 6e 69 7a 61 74 69 6f  om a tokenizatio
3bb0: 6e 20 63 75 72 73 6f 72 2e 20 20 54 68 65 20 63  n cursor.  The c
3bc0: 75 72 73 6f 72 20 6d 75 73 74 0a 2a 2a 20 68 61  ursor must.** ha
3bd0: 76 65 20 62 65 65 6e 20 6f 70 65 6e 65 64 20 62  ve been opened b
3be0: 79 20 61 20 70 72 69 6f 72 20 63 61 6c 6c 20 74  y a prior call t
3bf0: 6f 20 70 6f 72 74 65 72 4f 70 65 6e 28 29 2e 0a  o porterOpen()..
3c00: 2a 2f 0a 73 74 61 74 69 63 20 69 6e 74 20 70 6f  */.static int po
3c10: 72 74 65 72 4e 65 78 74 28 0a 20 20 73 71 6c 69  rterNext(.  sqli
3c20: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  te3_tokenizer_cu
3c30: 72 73 6f 72 20 2a 70 43 75 72 73 6f 72 2c 20 20  rsor *pCursor,  
3c40: 2f 2a 20 43 75 72 73 6f 72 20 72 65 74 75 72 6e  /* Cursor return
3c50: 65 64 20 62 79 20 70 6f 72 74 65 72 4f 70 65 6e  ed by porterOpen
3c60: 20 2a 2f 0a 20 20 63 6f 6e 73 74 20 63 68 61 72   */.  const char
3c70: 20 2a 2a 70 7a 54 6f 6b 65 6e 2c 20 20 20 20 20   **pzToken,     
3c80: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 54            /* OUT
3c90: 3a 20 2a 70 7a 54 6f 6b 65 6e 20 69 73 20 74 68  : *pzToken is th
3ca0: 65 20 74 6f 6b 65 6e 20 74 65 78 74 20 2a 2f 0a  e token text */.
3cb0: 20 20 69 6e 74 20 2a 70 6e 42 79 74 65 73 2c 20    int *pnBytes, 
3cc0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3cd0: 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 4e 75        /* OUT: Nu
3ce0: 6d 62 65 72 20 6f 66 20 62 79 74 65 73 20 69 6e  mber of bytes in
3cf0: 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e 74 20   token */.  int 
3d00: 2a 70 69 53 74 61 72 74 4f 66 66 73 65 74 2c 20  *piStartOffset, 
3d10: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3d20: 2f 2a 20 4f 55 54 3a 20 53 74 61 72 74 69 6e 67  /* OUT: Starting
3d30: 20 6f 66 66 73 65 74 20 6f 66 20 74 6f 6b 65 6e   offset of token
3d40: 20 2a 2f 0a 20 20 69 6e 74 20 2a 70 69 45 6e 64   */.  int *piEnd
3d50: 4f 66 66 73 65 74 2c 20 20 20 20 20 20 20 20 20  Offset,         
3d60: 20 20 20 20 20 20 20 20 20 20 2f 2a 20 4f 55 54            /* OUT
3d70: 3a 20 45 6e 64 69 6e 67 20 6f 66 66 73 65 74 20  : Ending offset 
3d80: 6f 66 20 74 6f 6b 65 6e 20 2a 2f 0a 20 20 69 6e  of token */.  in
3d90: 74 20 2a 70 69 50 6f 73 69 74 69 6f 6e 20 20 20  t *piPosition   
3da0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
3db0: 20 20 2f 2a 20 4f 55 54 3a 20 50 6f 73 69 74 69    /* OUT: Positi
3dc0: 6f 6e 20 69 6e 74 65 67 65 72 20 6f 66 20 74 6f  on integer of to
3dd0: 6b 65 6e 20 2a 2f 0a 29 7b 0a 20 20 70 6f 72 74  ken */.){.  port
3de0: 65 72 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72  er_tokenizer_cur
3df0: 73 6f 72 20 2a 63 20 3d 20 28 70 6f 72 74 65 72  sor *c = (porter
3e00: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f  _tokenizer_curso
3e10: 72 20 2a 29 20 70 43 75 72 73 6f 72 3b 0a 20 20  r *) pCursor;.  
3e20: 63 6f 6e 73 74 20 63 68 61 72 20 2a 7a 20 3d 20  const char *z = 
3e30: 63 2d 3e 7a 49 6e 70 75 74 3b 0a 0a 20 20 77 68  c->zInput;..  wh
3e40: 69 6c 65 28 20 63 2d 3e 69 4f 66 66 73 65 74 3c  ile( c->iOffset<
3e50: 63 2d 3e 6e 49 6e 70 75 74 20 29 7b 0a 20 20 20  c->nInput ){.   
3e60: 20 69 6e 74 20 69 53 74 61 72 74 4f 66 66 73 65   int iStartOffse
3e70: 74 2c 20 63 68 3b 0a 0a 20 20 20 20 2f 2a 20 53  t, ch;..    /* S
3e80: 63 61 6e 20 70 61 73 74 20 64 65 6c 69 6d 69 74  can past delimit
3e90: 65 72 20 63 68 61 72 61 63 74 65 72 73 20 2a 2f  er characters */
3ea0: 0a 20 20 20 20 77 68 69 6c 65 28 20 63 2d 3e 69  .    while( c->i
3eb0: 4f 66 66 73 65 74 3c 63 2d 3e 6e 49 6e 70 75 74  Offset<c->nInput
3ec0: 20 26 26 20 69 73 44 65 6c 69 6d 28 7a 5b 63 2d   && isDelim(z[c-
3ed0: 3e 69 4f 66 66 73 65 74 5d 29 20 29 7b 0a 20 20  >iOffset]) ){.  
3ee0: 20 20 20 20 63 2d 3e 69 4f 66 66 73 65 74 2b 2b      c->iOffset++
3ef0: 3b 0a 20 20 20 20 7d 0a 0a 20 20 20 20 2f 2a 20  ;.    }..    /* 
3f00: 43 6f 75 6e 74 20 6e 6f 6e 2d 64 65 6c 69 6d 69  Count non-delimi
3f10: 74 65 72 20 63 68 61 72 61 63 74 65 72 73 2e 20  ter characters. 
3f20: 2a 2f 0a 20 20 20 20 69 53 74 61 72 74 4f 66 66  */.    iStartOff
3f30: 73 65 74 20 3d 20 63 2d 3e 69 4f 66 66 73 65 74  set = c->iOffset
3f40: 3b 0a 20 20 20 20 77 68 69 6c 65 28 20 63 2d 3e  ;.    while( c->
3f50: 69 4f 66 66 73 65 74 3c 63 2d 3e 6e 49 6e 70 75  iOffset<c->nInpu
3f60: 74 20 26 26 20 21 69 73 44 65 6c 69 6d 28 7a 5b  t && !isDelim(z[
3f70: 63 2d 3e 69 4f 66 66 73 65 74 5d 29 20 29 7b 0a  c->iOffset]) ){.
3f80: 20 20 20 20 20 20 63 2d 3e 69 4f 66 66 73 65 74        c->iOffset
3f90: 2b 2b 3b 0a 20 20 20 20 7d 0a 0a 20 20 20 20 69  ++;.    }..    i
3fa0: 66 28 20 63 2d 3e 69 4f 66 66 73 65 74 3e 69 53  f( c->iOffset>iS
3fb0: 74 61 72 74 4f 66 66 73 65 74 20 29 7b 0a 20 20  tartOffset ){.  
3fc0: 20 20 20 20 69 6e 74 20 6e 20 3d 20 63 2d 3e 69      int n = c->i
3fd0: 4f 66 66 73 65 74 2d 69 53 74 61 72 74 4f 66 66  Offset-iStartOff
3fe0: 73 65 74 3b 0a 20 20 20 20 20 20 69 66 28 20 6e  set;.      if( n
3ff0: 3e 63 2d 3e 6e 41 6c 6c 6f 63 61 74 65 64 20 29  >c->nAllocated )
4000: 7b 0a 20 20 20 20 20 20 20 20 63 2d 3e 6e 41 6c  {.        c->nAl
4010: 6c 6f 63 61 74 65 64 20 3d 20 6e 2b 32 30 3b 0a  located = n+20;.
4020: 20 20 20 20 20 20 20 20 63 2d 3e 7a 54 6f 6b 65          c->zToke
4030: 6e 20 3d 20 73 71 6c 69 74 65 33 5f 72 65 61 6c  n = sqlite3_real
4040: 6c 6f 63 28 63 2d 3e 7a 54 6f 6b 65 6e 2c 20 63  loc(c->zToken, c
4050: 2d 3e 6e 41 6c 6c 6f 63 61 74 65 64 29 3b 0a 20  ->nAllocated);. 
4060: 20 20 20 20 20 20 20 69 66 28 20 63 2d 3e 7a 54         if( c->zT
4070: 6f 6b 65 6e 3d 3d 4e 55 4c 4c 20 29 20 72 65 74  oken==NULL ) ret
4080: 75 72 6e 20 53 51 4c 49 54 45 5f 4e 4f 4d 45 4d  urn SQLITE_NOMEM
4090: 3b 0a 20 20 20 20 20 20 7d 0a 20 20 20 20 20 20  ;.      }.      
40a0: 70 6f 72 74 65 72 5f 73 74 65 6d 6d 65 72 28 26  porter_stemmer(&
40b0: 7a 5b 69 53 74 61 72 74 4f 66 66 73 65 74 5d 2c  z[iStartOffset],
40c0: 20 6e 2c 20 63 2d 3e 7a 54 6f 6b 65 6e 2c 20 70   n, c->zToken, p
40d0: 6e 42 79 74 65 73 29 3b 0a 20 20 20 20 20 20 2a  nBytes);.      *
40e0: 70 7a 54 6f 6b 65 6e 20 3d 20 63 2d 3e 7a 54 6f  pzToken = c->zTo
40f0: 6b 65 6e 3b 0a 20 20 20 20 20 20 2a 70 69 53 74  ken;.      *piSt
4100: 61 72 74 4f 66 66 73 65 74 20 3d 20 69 53 74 61  artOffset = iSta
4110: 72 74 4f 66 66 73 65 74 3b 0a 20 20 20 20 20 20  rtOffset;.      
4120: 2a 70 69 45 6e 64 4f 66 66 73 65 74 20 3d 20 63  *piEndOffset = c
4130: 2d 3e 69 4f 66 66 73 65 74 3b 0a 20 20 20 20 20  ->iOffset;.     
4140: 20 2a 70 69 50 6f 73 69 74 69 6f 6e 20 3d 20 63   *piPosition = c
4150: 2d 3e 69 54 6f 6b 65 6e 2b 2b 3b 0a 20 20 20 20  ->iToken++;.    
4160: 20 20 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f    return SQLITE_
4170: 4f 4b 3b 0a 20 20 20 20 7d 0a 20 20 7d 0a 20 20  OK;.    }.  }.  
4180: 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 44 4f  return SQLITE_DO
4190: 4e 45 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 54 68 65  NE;.}../*.** The
41a0: 20 73 65 74 20 6f 66 20 72 6f 75 74 69 6e 65 73   set of routines
41b0: 20 74 68 61 74 20 69 6d 70 6c 65 6d 65 6e 74 20   that implement 
41c0: 74 68 65 20 70 6f 72 74 65 72 2d 73 74 65 6d 6d  the porter-stemm
41d0: 65 72 20 74 6f 6b 65 6e 69 7a 65 72 0a 2a 2f 0a  er tokenizer.*/.
41e0: 73 74 61 74 69 63 20 63 6f 6e 73 74 20 73 71 6c  static const sql
41f0: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d  ite3_tokenizer_m
4200: 6f 64 75 6c 65 20 70 6f 72 74 65 72 54 6f 6b 65  odule porterToke
4210: 6e 69 7a 65 72 4d 6f 64 75 6c 65 20 3d 20 7b 0a  nizerModule = {.
4220: 20 20 30 2c 0a 20 20 70 6f 72 74 65 72 43 72 65    0,.  porterCre
4230: 61 74 65 2c 0a 20 20 70 6f 72 74 65 72 44 65 73  ate,.  porterDes
4240: 74 72 6f 79 2c 0a 20 20 70 6f 72 74 65 72 4f 70  troy,.  porterOp
4250: 65 6e 2c 0a 20 20 70 6f 72 74 65 72 43 6c 6f 73  en,.  porterClos
4260: 65 2c 0a 20 20 70 6f 72 74 65 72 4e 65 78 74 2c  e,.  porterNext,
4270: 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a 20 41 6c 6c 6f 63  .};../*.** Alloc
4280: 61 74 65 20 61 20 6e 65 77 20 70 6f 72 74 65 72  ate a new porter
4290: 20 74 6f 6b 65 6e 69 7a 65 72 2e 20 20 52 65 74   tokenizer.  Ret
42a0: 75 72 6e 20 61 20 70 6f 69 6e 74 65 72 20 74 6f  urn a pointer to
42b0: 20 74 68 65 20 6e 65 77 0a 2a 2a 20 74 6f 6b 65   the new.** toke
42c0: 6e 69 7a 65 72 20 69 6e 20 2a 70 70 4d 6f 64 75  nizer in *ppModu
42d0: 6c 65 0a 2a 2f 0a 76 6f 69 64 20 73 71 6c 69 74  le.*/.void sqlit
42e0: 65 33 46 74 73 32 50 6f 72 74 65 72 54 6f 6b 65  e3Fts2PorterToke
42f0: 6e 69 7a 65 72 4d 6f 64 75 6c 65 28 0a 20 20 73  nizerModule(.  s
4300: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
4310: 5f 6d 6f 64 75 6c 65 20 63 6f 6e 73 74 2a 2a 70  _module const**p
4320: 70 4d 6f 64 75 6c 65 0a 29 7b 0a 20 20 2a 70 70  pModule.){.  *pp
4330: 4d 6f 64 75 6c 65 20 3d 20 26 70 6f 72 74 65 72  Module = &porter
4340: 54 6f 6b 65 6e 69 7a 65 72 4d 6f 64 75 6c 65 3b  TokenizerModule;
4350: 0a 7d 0a 0a 23 65 6e 64 69 66 20 2f 2a 20 21 64  .}..#endif /* !d
4360: 65 66 69 6e 65 64 28 53 51 4c 49 54 45 5f 43 4f  efined(SQLITE_CO
4370: 52 45 29 20 7c 7c 20 64 65 66 69 6e 65 64 28 53  RE) || defined(S
4380: 51 4c 49 54 45 5f 45 4e 41 42 4c 45 5f 46 54 53  QLITE_ENABLE_FTS
4390: 32 29 20 2a 2f 0a                                2) */.