/ Hex Artifact Content
Login

Artifact 0c53421b832366d20d720d21ea3e1f6e66a36ef9:


0000: 2f 2a 0a 2a 2a 20 32 30 30 36 20 4a 75 6c 79 20  /*.** 2006 July 
0010: 31 30 0a 2a 2a 0a 2a 2a 20 54 68 65 20 61 75 74  10.**.** The aut
0020: 68 6f 72 20 64 69 73 63 6c 61 69 6d 73 20 63 6f  hor disclaims co
0030: 70 79 72 69 67 68 74 20 74 6f 20 74 68 69 73 20  pyright to this 
0040: 73 6f 75 72 63 65 20 63 6f 64 65 2e 0a 2a 2a 0a  source code..**.
0050: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0060: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0070: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0080: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0090: 2a 2a 2a 2a 2a 2a 2a 2a 2a 0a 2a 2a 20 44 65 66  *********.** Def
00a0: 69 6e 65 73 20 74 68 65 20 69 6e 74 65 72 66 61  ines the interfa
00b0: 63 65 20 74 6f 20 74 6f 6b 65 6e 69 7a 65 72 73  ce to tokenizers
00c0: 20 75 73 65 64 20 62 79 20 66 75 6c 6c 74 65 78   used by fulltex
00d0: 74 2d 73 65 61 72 63 68 2e 20 20 54 68 65 72 65  t-search.  There
00e0: 0a 2a 2a 20 61 72 65 20 74 68 72 65 65 20 62 61  .** are three ba
00f0: 73 69 63 20 63 6f 6d 70 6f 6e 65 6e 74 73 3a 0a  sic components:.
0100: 2a 2a 0a 2a 2a 20 73 71 6c 69 74 65 33 5f 74 6f  **.** sqlite3_to
0110: 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 69  kenizer_module i
0120: 73 20 61 20 73 69 6e 67 6c 65 74 6f 6e 20 64 65  s a singleton de
0130: 66 69 6e 69 6e 67 20 74 68 65 20 74 6f 6b 65 6e  fining the token
0140: 69 7a 65 72 0a 2a 2a 20 69 6e 74 65 72 66 61 63  izer.** interfac
0150: 65 20 66 75 6e 63 74 69 6f 6e 73 2e 20 20 54 68  e functions.  Th
0160: 69 73 20 69 73 20 65 73 73 65 6e 74 69 61 6c 6c  is is essentiall
0170: 79 20 74 68 65 20 63 6c 61 73 73 20 73 74 72 75  y the class stru
0180: 63 74 75 72 65 20 66 6f 72 0a 2a 2a 20 74 6f 6b  cture for.** tok
0190: 65 6e 69 7a 65 72 73 2e 0a 2a 2a 0a 2a 2a 20 73  enizers..**.** s
01a0: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
01b0: 20 69 73 20 75 73 65 64 20 74 6f 20 64 65 66 69   is used to defi
01c0: 6e 65 20 61 20 70 61 72 74 69 63 75 6c 61 72 20  ne a particular 
01d0: 74 6f 6b 65 6e 69 7a 65 72 2c 20 70 65 72 68 61  tokenizer, perha
01e0: 70 73 0a 2a 2a 20 69 6e 63 6c 75 64 69 6e 67 20  ps.** including 
01f0: 63 75 73 74 6f 6d 69 7a 61 74 69 6f 6e 20 69 6e  customization in
0200: 66 6f 72 6d 61 74 69 6f 6e 20 64 65 66 69 6e 65  formation define
0210: 64 20 61 74 20 63 72 65 61 74 69 6f 6e 20 74 69  d at creation ti
0220: 6d 65 2e 0a 2a 2a 0a 2a 2a 20 73 71 6c 69 74 65  me..**.** sqlite
0230: 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  3_tokenizer_curs
0240: 6f 72 20 69 73 20 67 65 6e 65 72 61 74 65 64 20  or is generated 
0250: 62 79 20 61 20 74 6f 6b 65 6e 69 7a 65 72 20 74  by a tokenizer t
0260: 6f 20 67 65 6e 65 72 61 74 65 0a 2a 2a 20 74 6f  o generate.** to
0270: 6b 65 6e 73 20 66 72 6f 6d 20 61 20 70 61 72 74  kens from a part
0280: 69 63 75 6c 61 72 20 69 6e 70 75 74 2e 0a 2a 2f  icular input..*/
0290: 0a 23 69 66 6e 64 65 66 20 5f 54 4f 4b 45 4e 49  .#ifndef _TOKENI
02a0: 5a 45 52 5f 48 5f 0a 23 64 65 66 69 6e 65 20 5f  ZER_H_.#define _
02b0: 54 4f 4b 45 4e 49 5a 45 52 5f 48 5f 0a 0a 2f 2a  TOKENIZER_H_../*
02c0: 20 54 4f 44 4f 28 73 68 65 73 73 29 20 4f 6e 6c   TODO(shess) Onl
02d0: 79 20 75 73 65 64 20 66 6f 72 20 53 51 4c 49 54  y used for SQLIT
02e0: 45 5f 4f 4b 20 61 6e 64 20 53 51 4c 49 54 45 5f  E_OK and SQLITE_
02f0: 44 4f 4e 45 20 61 74 20 74 68 69 73 20 74 69 6d  DONE at this tim
0300: 65 2e 0a 2a 2a 20 49 66 20 74 6f 6b 65 6e 69 7a  e..** If tokeniz
0310: 65 72 73 20 61 72 65 20 74 6f 20 62 65 20 61 6c  ers are to be al
0320: 6c 6f 77 65 64 20 74 6f 20 63 61 6c 6c 20 73 71  lowed to call sq
0330: 6c 69 74 65 33 5f 2a 28 29 20 66 75 6e 63 74 69  lite3_*() functi
0340: 6f 6e 73 2c 20 74 68 65 6e 0a 2a 2a 20 77 65 20  ons, then.** we 
0350: 77 69 6c 6c 20 6e 65 65 64 20 61 20 77 61 79 20  will need a way 
0360: 74 6f 20 72 65 67 69 73 74 65 72 20 74 68 65 20  to register the 
0370: 41 50 49 20 63 6f 6e 73 69 73 74 65 6e 74 6c 79  API consistently
0380: 2e 0a 2a 2f 0a 23 69 6e 63 6c 75 64 65 20 22 73  ..*/.#include "s
0390: 71 6c 69 74 65 33 2e 68 22 0a 0a 2f 2a 0a 2a 2a  qlite3.h"../*.**
03a0: 20 53 74 72 75 63 74 75 72 65 73 20 75 73 65 64   Structures used
03b0: 20 62 79 20 74 68 65 20 74 6f 6b 65 6e 69 7a 65   by the tokenize
03c0: 72 20 69 6e 74 65 72 66 61 63 65 2e 0a 2a 2f 0a  r interface..*/.
03d0: 74 79 70 65 64 65 66 20 73 74 72 75 63 74 20 73  typedef struct s
03e0: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
03f0: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a   sqlite3_tokeniz
0400: 65 72 3b 0a 74 79 70 65 64 65 66 20 73 74 72 75  er;.typedef stru
0410: 63 74 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  ct sqlite3_token
0420: 69 7a 65 72 5f 63 75 72 73 6f 72 20 73 71 6c 69  izer_cursor sqli
0430: 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75  te3_tokenizer_cu
0440: 72 73 6f 72 3b 0a 74 79 70 65 64 65 66 20 73 74  rsor;.typedef st
0450: 72 75 63 74 20 73 71 6c 69 74 65 33 5f 74 6f 6b  ruct sqlite3_tok
0460: 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 73 71  enizer_module sq
0470: 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f  lite3_tokenizer_
0480: 6d 6f 64 75 6c 65 3b 0a 0a 73 74 72 75 63 74 20  module;..struct 
0490: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
04a0: 72 5f 6d 6f 64 75 6c 65 20 7b 0a 20 20 69 6e 74  r_module {.  int
04b0: 20 69 56 65 72 73 69 6f 6e 3b 20 20 20 20 20 20   iVersion;      
04c0: 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 63              /* c
04d0: 75 72 72 65 6e 74 6c 79 20 30 20 2a 2f 0a 0a 20  urrently 0 */.. 
04e0: 20 2f 2a 0a 20 20 2a 2a 20 43 72 65 61 74 65 20   /*.  ** Create 
04f0: 61 6e 64 20 64 65 73 74 72 6f 79 20 61 20 74 6f  and destroy a to
0500: 6b 65 6e 69 7a 65 72 2e 20 20 61 72 67 63 2f 61  kenizer.  argc/a
0510: 72 67 76 20 61 72 65 20 70 61 73 73 65 64 20 64  rgv are passed d
0520: 6f 77 6e 20 66 72 6f 6d 0a 20 20 2a 2a 20 74 68  own from.  ** th
0530: 65 20 66 75 6c 6c 74 65 78 74 20 76 69 72 74 75  e fulltext virtu
0540: 61 6c 20 74 61 62 6c 65 20 63 72 65 61 74 69 6f  al table creatio
0550: 6e 20 74 6f 20 61 6c 6c 6f 77 20 63 75 73 74 6f  n to allow custo
0560: 6d 69 7a 61 74 69 6f 6e 2e 0a 20 20 2a 2f 0a 20  mization..  */. 
0570: 20 69 6e 74 20 28 2a 78 43 72 65 61 74 65 29 28   int (*xCreate)(
0580: 69 6e 74 20 61 72 67 63 2c 20 63 6f 6e 73 74 20  int argc, const 
0590: 63 68 61 72 20 2a 2a 61 72 67 76 2c 0a 20 20 20  char **argv,.   
05a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 73 71                sq
05b0: 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20  lite3_tokenizer 
05c0: 2a 2a 70 70 54 6f 6b 65 6e 69 7a 65 72 29 3b 0a  **ppTokenizer);.
05d0: 20 20 69 6e 74 20 28 2a 78 44 65 73 74 72 6f 79    int (*xDestroy
05e0: 29 28 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69  )(sqlite3_tokeni
05f0: 7a 65 72 20 2a 70 54 6f 6b 65 6e 69 7a 65 72 29  zer *pTokenizer)
0600: 3b 0a 0a 20 20 2f 2a 0a 20 20 2a 2a 20 54 6f 6b  ;..  /*.  ** Tok
0610: 65 6e 69 7a 65 20 61 20 70 61 72 74 69 63 75 6c  enize a particul
0620: 61 72 20 69 6e 70 75 74 2e 20 20 43 61 6c 6c 20  ar input.  Call 
0630: 78 4f 70 65 6e 28 29 20 74 6f 20 70 72 65 70 61  xOpen() to prepa
0640: 72 65 20 74 6f 0a 20 20 2a 2a 20 74 6f 6b 65 6e  re to.  ** token
0650: 69 7a 65 2c 20 78 4e 65 78 74 28 29 20 72 65 70  ize, xNext() rep
0660: 65 61 74 65 64 6c 79 20 75 6e 74 69 6c 20 69 74  eatedly until it
0670: 20 72 65 74 75 72 6e 73 20 53 51 4c 49 54 45 5f   returns SQLITE_
0680: 44 4f 4e 45 2c 20 74 68 65 6e 0a 20 20 2a 2a 20  DONE, then.  ** 
0690: 78 43 6c 6f 73 65 28 29 20 74 6f 20 66 72 65 65  xClose() to free
06a0: 20 61 6e 79 20 69 6e 74 65 72 6e 61 6c 20 73 74   any internal st
06b0: 61 74 65 2e 20 20 54 68 65 20 70 49 6e 70 75 74  ate.  The pInput
06c0: 20 70 61 73 73 65 64 20 74 6f 0a 20 20 2a 2a 20   passed to.  ** 
06d0: 78 4f 70 65 6e 28 29 20 6d 75 73 74 20 65 78 69  xOpen() must exi
06e0: 73 74 20 75 6e 74 69 6c 20 74 68 65 20 63 75 72  st until the cur
06f0: 73 6f 72 20 69 73 20 63 6c 6f 73 65 64 2e 20 20  sor is closed.  
0700: 54 68 65 20 70 70 54 6f 6b 65 6e 0a 20 20 2a 2a  The ppToken.  **
0710: 20 72 65 73 75 6c 74 20 66 72 6f 6d 20 78 4e 65   result from xNe
0720: 78 74 28 29 20 69 73 20 6f 6e 6c 79 20 76 61 6c  xt() is only val
0730: 69 64 20 75 6e 74 69 6c 20 74 68 65 20 6e 65 78  id until the nex
0740: 74 20 63 61 6c 6c 20 74 6f 20 78 4e 65 78 74 28  t call to xNext(
0750: 29 0a 20 20 2a 2a 20 6f 72 20 75 6e 74 69 6c 20  ).  ** or until 
0760: 78 43 6c 6f 73 65 28 29 20 69 73 20 63 61 6c 6c  xClose() is call
0770: 65 64 2e 0a 20 20 2a 2f 0a 20 20 2f 2a 20 54 4f  ed..  */.  /* TO
0780: 44 4f 28 73 68 65 73 73 29 20 63 75 72 72 65 6e  DO(shess) curren
0790: 74 20 69 6d 70 6c 65 6d 65 6e 74 61 74 69 6f 6e  t implementation
07a0: 20 72 65 71 75 69 72 65 73 20 70 49 6e 70 75 74   requires pInput
07b0: 20 74 6f 20 62 65 0a 20 20 2a 2a 20 6e 75 6c 2d   to be.  ** nul-
07c0: 74 65 72 6d 69 6e 61 74 65 64 2e 20 20 54 68 69  terminated.  Thi
07d0: 73 20 73 68 6f 75 6c 64 20 65 69 74 68 65 72 20  s should either 
07e0: 62 65 20 66 69 78 65 64 2c 20 6f 72 20 70 49 6e  be fixed, or pIn
07f0: 70 75 74 2f 6e 42 79 74 65 73 0a 20 20 2a 2a 20  put/nBytes.  ** 
0800: 73 68 6f 75 6c 64 20 62 65 20 63 6f 6e 76 65 72  should be conver
0810: 74 65 64 20 74 6f 20 7a 49 6e 70 75 74 2e 0a 20  ted to zInput.. 
0820: 20 2a 2f 0a 20 20 69 6e 74 20 28 2a 78 4f 70 65   */.  int (*xOpe
0830: 6e 29 28 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  n)(sqlite3_token
0840: 69 7a 65 72 20 2a 70 54 6f 6b 65 6e 69 7a 65 72  izer *pTokenizer
0850: 2c 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20  ,.              
0860: 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 70 49 6e   const char *pIn
0870: 70 75 74 2c 20 69 6e 74 20 6e 42 79 74 65 73 2c  put, int nBytes,
0880: 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  .               
0890: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
08a0: 72 5f 63 75 72 73 6f 72 20 2a 2a 70 70 43 75 72  r_cursor **ppCur
08b0: 73 6f 72 29 3b 0a 20 20 69 6e 74 20 28 2a 78 43  sor);.  int (*xC
08c0: 6c 6f 73 65 29 28 73 71 6c 69 74 65 33 5f 74 6f  lose)(sqlite3_to
08d0: 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72 20 2a  kenizer_cursor *
08e0: 70 43 75 72 73 6f 72 29 3b 0a 20 20 69 6e 74 20  pCursor);.  int 
08f0: 28 2a 78 4e 65 78 74 29 28 73 71 6c 69 74 65 33  (*xNext)(sqlite3
0900: 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f  _tokenizer_curso
0910: 72 20 2a 70 43 75 72 73 6f 72 2c 0a 20 20 20 20  r *pCursor,.    
0920: 20 20 20 20 20 20 20 20 20 20 20 63 6f 6e 73 74             const
0930: 20 63 68 61 72 20 2a 2a 70 70 54 6f 6b 65 6e 2c   char **ppToken,
0940: 20 69 6e 74 20 2a 70 6e 42 79 74 65 73 2c 0a 20   int *pnBytes,. 
0950: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 69 6e                in
0960: 74 20 2a 70 69 53 74 61 72 74 4f 66 66 73 65 74  t *piStartOffset
0970: 2c 20 69 6e 74 20 2a 70 69 45 6e 64 4f 66 66 73  , int *piEndOffs
0980: 65 74 2c 20 69 6e 74 20 2a 70 69 50 6f 73 69 74  et, int *piPosit
0990: 69 6f 6e 29 3b 0a 7d 3b 0a 0a 73 74 72 75 63 74  ion);.};..struct
09a0: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a   sqlite3_tokeniz
09b0: 65 72 20 7b 0a 20 20 73 71 6c 69 74 65 33 5f 74  er {.  sqlite3_t
09c0: 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20  okenizer_module 
09d0: 2a 70 4d 6f 64 75 6c 65 3b 20 20 2f 2a 20 54 68  *pModule;  /* Th
09e0: 65 20 6d 6f 64 75 6c 65 20 66 6f 72 20 74 68 69  e module for thi
09f0: 73 20 74 6f 6b 65 6e 69 7a 65 72 20 2a 2f 0a 20  s tokenizer */. 
0a00: 20 2f 2a 20 54 6f 6b 65 6e 69 7a 65 72 20 69 6d   /* Tokenizer im
0a10: 70 6c 65 6d 65 6e 74 61 74 69 6f 6e 73 20 77 69  plementations wi
0a20: 6c 6c 20 74 79 70 69 63 61 6c 6c 79 20 61 64 64  ll typically add
0a30: 20 61 64 64 69 74 69 6f 6e 61 6c 20 66 69 65 6c   additional fiel
0a40: 64 73 20 2a 2f 0a 7d 3b 0a 0a 73 74 72 75 63 74  ds */.};..struct
0a50: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a   sqlite3_tokeniz
0a60: 65 72 5f 63 75 72 73 6f 72 20 7b 0a 20 20 73 71  er_cursor {.  sq
0a70: 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20  lite3_tokenizer 
0a80: 2a 70 54 6f 6b 65 6e 69 7a 65 72 3b 20 20 20 20  *pTokenizer;    
0a90: 20 20 20 2f 2a 20 54 6f 6b 65 6e 69 7a 65 72 20     /* Tokenizer 
0aa0: 66 6f 72 20 74 68 69 73 20 63 75 72 73 6f 72 2e  for this cursor.
0ab0: 20 2a 2f 0a 20 20 2f 2a 20 54 6f 6b 65 6e 69 7a   */.  /* Tokeniz
0ac0: 65 72 20 69 6d 70 6c 65 6d 65 6e 74 61 74 69 6f  er implementatio
0ad0: 6e 73 20 77 69 6c 6c 20 74 79 70 69 63 61 6c 6c  ns will typicall
0ae0: 79 20 61 64 64 20 61 64 64 69 74 69 6f 6e 61 6c  y add additional
0af0: 20 66 69 65 6c 64 73 20 2a 2f 0a 7d 3b 0a 0a 2f   fields */.};../
0b00: 2a 0a 2a 2a 20 47 65 74 20 74 68 65 20 6d 6f 64  *.** Get the mod
0b10: 75 6c 65 20 66 6f 72 20 61 20 74 6f 6b 65 6e 69  ule for a tokeni
0b20: 7a 65 72 20 77 68 69 63 68 20 67 65 6e 65 72 61  zer which genera
0b30: 74 65 73 20 74 6f 6b 65 6e 73 20 62 61 73 65 64  tes tokens based
0b40: 20 6f 6e 20 61 0a 2a 2a 20 73 65 74 20 6f 66 20   on a.** set of 
0b50: 6e 6f 6e 2d 74 6f 6b 65 6e 20 63 68 61 72 61 63  non-token charac
0b60: 74 65 72 73 2e 20 20 54 68 65 20 64 65 66 61 75  ters.  The defau
0b70: 6c 74 20 69 73 20 74 6f 20 62 72 65 61 6b 20 74  lt is to break t
0b80: 6f 6b 65 6e 73 20 61 74 20 61 6e 79 0a 2a 2a 20  okens at any.** 
0b90: 6e 6f 6e 2d 61 6c 6e 75 6d 20 63 68 61 72 61 63  non-alnum charac
0ba0: 74 65 72 2c 20 74 68 6f 75 67 68 20 74 68 65 20  ter, though the 
0bb0: 73 65 74 20 6f 66 20 64 65 6c 69 6d 69 74 65 72  set of delimiter
0bc0: 73 20 63 61 6e 20 61 6c 73 6f 20 62 65 0a 2a 2a  s can also be.**
0bd0: 20 73 70 65 63 69 66 69 65 64 20 62 79 20 74 68   specified by th
0be0: 65 20 66 69 72 73 74 20 61 72 67 76 20 61 72 67  e first argv arg
0bf0: 75 6d 65 6e 74 20 74 6f 20 78 43 72 65 61 74 65  ument to xCreate
0c00: 28 29 2e 0a 2a 2f 0a 2f 2a 20 54 4f 44 4f 28 73  ()..*/./* TODO(s
0c10: 68 65 73 73 29 20 54 68 69 73 20 64 6f 65 73 6e  hess) This doesn
0c20: 27 74 20 62 65 6c 6f 6e 67 20 68 65 72 65 2e 20  't belong here. 
0c30: 20 4e 65 65 64 20 73 6f 6d 65 20 73 6f 72 74 20   Need some sort 
0c40: 6f 66 0a 2a 2a 20 72 65 67 69 73 74 72 61 74 69  of.** registrati
0c50: 6f 6e 20 70 72 6f 63 65 73 73 2e 0a 2a 2f 0a 76  on process..*/.v
0c60: 6f 69 64 20 67 65 74 5f 73 69 6d 70 6c 65 5f 74  oid get_simple_t
0c70: 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 28  okenizer_module(
0c80: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
0c90: 72 5f 6d 6f 64 75 6c 65 20 2a 2a 70 70 4d 6f 64  r_module **ppMod
0ca0: 75 6c 65 29 3b 0a 0a 23 65 6e 64 69 66 20 2f 2a  ule);..#endif /*
0cb0: 20 5f 54 4f 4b 45 4e 49 5a 45 52 5f 48 5f 20 2a   _TOKENIZER_H_ *
0cc0: 2f 0a                                            /.