/ Hex Artifact Content
Login

Artifact 7ff73caa3327589bf6550f60d93ebdd1f6a0fb5c:


0000: 2f 2a 0a 2a 2a 20 32 30 30 36 20 4a 75 6c 79 20  /*.** 2006 July 
0010: 31 30 0a 2a 2a 0a 2a 2a 20 54 68 65 20 61 75 74  10.**.** The aut
0020: 68 6f 72 20 64 69 73 63 6c 61 69 6d 73 20 63 6f  hor disclaims co
0030: 70 79 72 69 67 68 74 20 74 6f 20 74 68 69 73 20  pyright to this 
0040: 73 6f 75 72 63 65 20 63 6f 64 65 2e 0a 2a 2a 0a  source code..**.
0050: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0060: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0070: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0080: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0090: 2a 2a 2a 2a 2a 2a 2a 2a 2a 0a 2a 2a 20 44 65 66  *********.** Def
00a0: 69 6e 65 73 20 74 68 65 20 69 6e 74 65 72 66 61  ines the interfa
00b0: 63 65 20 74 6f 20 74 6f 6b 65 6e 69 7a 65 72 73  ce to tokenizers
00c0: 20 75 73 65 64 20 62 79 20 66 75 6c 6c 74 65 78   used by fulltex
00d0: 74 2d 73 65 61 72 63 68 2e 20 20 54 68 65 72 65  t-search.  There
00e0: 0a 2a 2a 20 61 72 65 20 74 68 72 65 65 20 62 61  .** are three ba
00f0: 73 69 63 20 63 6f 6d 70 6f 6e 65 6e 74 73 3a 0a  sic components:.
0100: 2a 2a 0a 2a 2a 20 73 71 6c 69 74 65 33 5f 74 6f  **.** sqlite3_to
0110: 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 69  kenizer_module i
0120: 73 20 61 20 73 69 6e 67 6c 65 74 6f 6e 20 64 65  s a singleton de
0130: 66 69 6e 69 6e 67 20 74 68 65 20 74 6f 6b 65 6e  fining the token
0140: 69 7a 65 72 0a 2a 2a 20 69 6e 74 65 72 66 61 63  izer.** interfac
0150: 65 20 66 75 6e 63 74 69 6f 6e 73 2e 20 20 54 68  e functions.  Th
0160: 69 73 20 69 73 20 65 73 73 65 6e 74 69 61 6c 6c  is is essentiall
0170: 79 20 74 68 65 20 63 6c 61 73 73 20 73 74 72 75  y the class stru
0180: 63 74 75 72 65 20 66 6f 72 0a 2a 2a 20 74 6f 6b  cture for.** tok
0190: 65 6e 69 7a 65 72 73 2e 0a 2a 2a 0a 2a 2a 20 73  enizers..**.** s
01a0: 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72  qlite3_tokenizer
01b0: 20 69 73 20 75 73 65 64 20 74 6f 20 64 65 66 69   is used to defi
01c0: 6e 65 20 61 20 70 61 72 74 69 63 75 6c 61 72 20  ne a particular 
01d0: 74 6f 6b 65 6e 69 7a 65 72 2c 20 70 65 72 68 61  tokenizer, perha
01e0: 70 73 0a 2a 2a 20 69 6e 63 6c 75 64 69 6e 67 20  ps.** including 
01f0: 63 75 73 74 6f 6d 69 7a 61 74 69 6f 6e 20 69 6e  customization in
0200: 66 6f 72 6d 61 74 69 6f 6e 20 64 65 66 69 6e 65  formation define
0210: 64 20 61 74 20 63 72 65 61 74 69 6f 6e 20 74 69  d at creation ti
0220: 6d 65 2e 0a 2a 2a 0a 2a 2a 20 73 71 6c 69 74 65  me..**.** sqlite
0230: 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  3_tokenizer_curs
0240: 6f 72 20 69 73 20 67 65 6e 65 72 61 74 65 64 20  or is generated 
0250: 62 79 20 61 20 74 6f 6b 65 6e 69 7a 65 72 20 74  by a tokenizer t
0260: 6f 20 67 65 6e 65 72 61 74 65 0a 2a 2a 20 74 6f  o generate.** to
0270: 6b 65 6e 73 20 66 72 6f 6d 20 61 20 70 61 72 74  kens from a part
0280: 69 63 75 6c 61 72 20 69 6e 70 75 74 2e 0a 2a 2f  icular input..*/
0290: 0a 23 69 66 6e 64 65 66 20 5f 46 54 53 33 5f 54  .#ifndef _FTS3_T
02a0: 4f 4b 45 4e 49 5a 45 52 5f 48 5f 0a 23 64 65 66  OKENIZER_H_.#def
02b0: 69 6e 65 20 5f 46 54 53 33 5f 54 4f 4b 45 4e 49  ine _FTS3_TOKENI
02c0: 5a 45 52 5f 48 5f 0a 0a 2f 2a 20 54 4f 44 4f 28  ZER_H_../* TODO(
02d0: 73 68 65 73 73 29 20 4f 6e 6c 79 20 75 73 65 64  shess) Only used
02e0: 20 66 6f 72 20 53 51 4c 49 54 45 5f 4f 4b 20 61   for SQLITE_OK a
02f0: 6e 64 20 53 51 4c 49 54 45 5f 44 4f 4e 45 20 61  nd SQLITE_DONE a
0300: 74 20 74 68 69 73 20 74 69 6d 65 2e 0a 2a 2a 20  t this time..** 
0310: 49 66 20 74 6f 6b 65 6e 69 7a 65 72 73 20 61 72  If tokenizers ar
0320: 65 20 74 6f 20 62 65 20 61 6c 6c 6f 77 65 64 20  e to be allowed 
0330: 74 6f 20 63 61 6c 6c 20 73 71 6c 69 74 65 33 5f  to call sqlite3_
0340: 2a 28 29 20 66 75 6e 63 74 69 6f 6e 73 2c 20 74  *() functions, t
0350: 68 65 6e 0a 2a 2a 20 77 65 20 77 69 6c 6c 20 6e  hen.** we will n
0360: 65 65 64 20 61 20 77 61 79 20 74 6f 20 72 65 67  eed a way to reg
0370: 69 73 74 65 72 20 74 68 65 20 41 50 49 20 63 6f  ister the API co
0380: 6e 73 69 73 74 65 6e 74 6c 79 2e 0a 2a 2f 0a 23  nsistently..*/.#
0390: 69 6e 63 6c 75 64 65 20 22 73 71 6c 69 74 65 33  include "sqlite3
03a0: 2e 68 22 0a 0a 2f 2a 0a 2a 2a 20 53 74 72 75 63  .h"../*.** Struc
03b0: 74 75 72 65 73 20 75 73 65 64 20 62 79 20 74 68  tures used by th
03c0: 65 20 74 6f 6b 65 6e 69 7a 65 72 20 69 6e 74 65  e tokenizer inte
03d0: 72 66 61 63 65 2e 20 57 68 65 6e 20 61 20 6e 65  rface. When a ne
03e0: 77 20 74 6f 6b 65 6e 69 7a 65 72 0a 2a 2a 20 69  w tokenizer.** i
03f0: 6d 70 6c 65 6d 65 6e 74 61 74 69 6f 6e 20 69 73  mplementation is
0400: 20 72 65 67 69 73 74 65 72 65 64 2c 20 74 68 65   registered, the
0410: 20 63 61 6c 6c 65 72 20 70 72 6f 76 69 64 65 73   caller provides
0420: 20 61 20 70 6f 69 6e 74 65 72 20 74 6f 0a 2a 2a   a pointer to.**
0430: 20 61 6e 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65   an sqlite3_toke
0440: 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 63 6f 6e  nizer_module con
0450: 74 61 69 6e 69 6e 67 20 70 6f 69 6e 74 65 72 73  taining pointers
0460: 20 74 6f 20 74 68 65 20 63 61 6c 6c 62 61 63 6b   to the callback
0470: 0a 2a 2a 20 66 75 6e 63 74 69 6f 6e 73 20 74 68  .** functions th
0480: 61 74 20 6d 61 6b 65 20 75 70 20 61 6e 20 69 6d  at make up an im
0490: 70 6c 65 6d 65 6e 74 61 74 69 6f 6e 2e 0a 2a 2a  plementation..**
04a0: 0a 2a 2a 20 57 68 65 6e 20 61 6e 20 66 74 73 33  .** When an fts3
04b0: 20 74 61 62 6c 65 20 69 73 20 63 72 65 61 74 65   table is create
04c0: 64 2c 20 69 74 20 70 61 73 73 65 73 20 61 6e 79  d, it passes any
04d0: 20 61 72 67 75 6d 65 6e 74 73 20 70 61 73 73 65   arguments passe
04e0: 64 20 74 6f 0a 2a 2a 20 74 68 65 20 74 6f 6b 65  d to.** the toke
04f0: 6e 69 7a 65 72 20 63 6c 61 75 73 65 20 6f 66 20  nizer clause of 
0500: 74 68 65 20 43 52 45 41 54 45 20 56 49 52 54 55  the CREATE VIRTU
0510: 41 4c 20 54 41 42 4c 45 20 73 74 61 74 65 6d 65  AL TABLE stateme
0520: 6e 74 20 74 6f 20 74 68 65 0a 2a 2a 20 73 71 6c  nt to the.** sql
0530: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d  ite3_tokenizer_m
0540: 6f 64 75 6c 65 2e 78 43 72 65 61 74 65 28 29 20  odule.xCreate() 
0550: 66 75 6e 63 74 69 6f 6e 20 6f 66 20 74 68 65 20  function of the 
0560: 72 65 71 75 65 73 74 65 64 20 74 6f 6b 65 6e 69  requested tokeni
0570: 7a 65 72 0a 2a 2a 20 69 6d 70 6c 65 6d 65 6e 74  zer.** implement
0580: 61 74 69 6f 6e 2e 20 54 68 65 20 78 43 72 65 61  ation. The xCrea
0590: 74 65 28 29 20 66 75 6e 63 74 69 6f 6e 20 69 6e  te() function in
05a0: 20 74 75 72 6e 20 72 65 74 75 72 6e 73 20 61 6e   turn returns an
05b0: 20 0a 2a 2a 20 73 71 6c 69 74 65 33 5f 74 6f 6b   .** sqlite3_tok
05c0: 65 6e 69 7a 65 72 20 73 74 72 75 63 74 75 72 65  enizer structure
05d0: 20 72 65 70 72 65 73 65 6e 74 69 6e 67 20 74 68   representing th
05e0: 65 20 73 70 65 63 69 66 69 63 20 74 6f 6b 65 6e  e specific token
05f0: 69 7a 65 72 20 74 6f 0a 2a 2a 20 62 65 20 75 73  izer to.** be us
0600: 65 64 20 66 6f 72 20 74 68 65 20 66 74 73 33 20  ed for the fts3 
0610: 74 61 62 6c 65 20 28 63 75 73 74 6f 6d 69 7a 65  table (customize
0620: 64 20 62 79 20 74 68 65 20 74 6f 6b 65 6e 69 7a  d by the tokeniz
0630: 65 72 20 63 6c 61 75 73 65 20 61 72 67 75 6d 65  er clause argume
0640: 6e 74 73 29 2e 0a 2a 2a 0a 2a 2a 20 54 6f 20 74  nts)..**.** To t
0650: 6f 6b 65 6e 69 7a 65 20 61 6e 20 69 6e 70 75 74  okenize an input
0660: 20 62 75 66 66 65 72 2c 20 74 68 65 20 73 71 6c   buffer, the sql
0670: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d  ite3_tokenizer_m
0680: 6f 64 75 6c 65 2e 78 4f 70 65 6e 28 29 0a 2a 2a  odule.xOpen().**
0690: 20 6d 65 74 68 6f 64 20 69 73 20 63 61 6c 6c 65   method is calle
06a0: 64 2e 20 49 74 20 72 65 74 75 72 6e 73 20 61 6e  d. It returns an
06b0: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a   sqlite3_tokeniz
06c0: 65 72 5f 63 75 72 73 6f 72 20 6f 62 6a 65 63 74  er_cursor object
06d0: 0a 2a 2a 20 74 68 61 74 20 6d 61 79 20 62 65 20  .** that may be 
06e0: 75 73 65 64 20 74 6f 20 74 6f 6b 65 6e 69 7a 65  used to tokenize
06f0: 20 61 20 73 70 65 63 69 66 69 63 20 69 6e 70 75   a specific inpu
0700: 74 20 62 75 66 66 65 72 20 62 61 73 65 64 20 6f  t buffer based o
0710: 6e 0a 2a 2a 20 74 68 65 20 74 6f 6b 65 6e 69 7a  n.** the tokeniz
0720: 61 74 69 6f 6e 20 72 75 6c 65 73 20 73 75 70 70  ation rules supp
0730: 6c 69 65 64 20 62 79 20 61 20 73 70 65 63 69 66  lied by a specif
0740: 69 63 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  ic sqlite3_token
0750: 69 7a 65 72 0a 2a 2a 20 6f 62 6a 65 63 74 2e 0a  izer.** object..
0760: 2a 2f 0a 74 79 70 65 64 65 66 20 73 74 72 75 63  */.typedef struc
0770: 74 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69  t sqlite3_tokeni
0780: 7a 65 72 5f 6d 6f 64 75 6c 65 20 73 71 6c 69 74  zer_module sqlit
0790: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64  e3_tokenizer_mod
07a0: 75 6c 65 3b 0a 74 79 70 65 64 65 66 20 73 74 72  ule;.typedef str
07b0: 75 63 74 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65  uct sqlite3_toke
07c0: 6e 69 7a 65 72 20 73 71 6c 69 74 65 33 5f 74 6f  nizer sqlite3_to
07d0: 6b 65 6e 69 7a 65 72 3b 0a 74 79 70 65 64 65 66  kenizer;.typedef
07e0: 20 73 74 72 75 63 74 20 73 71 6c 69 74 65 33 5f   struct sqlite3_
07f0: 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73 6f 72  tokenizer_cursor
0800: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a   sqlite3_tokeniz
0810: 65 72 5f 63 75 72 73 6f 72 3b 0a 0a 73 74 72 75  er_cursor;..stru
0820: 63 74 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e  ct sqlite3_token
0830: 69 7a 65 72 5f 6d 6f 64 75 6c 65 20 7b 0a 0a 20  izer_module {.. 
0840: 20 2f 2a 0a 20 20 2a 2a 20 53 74 72 75 63 74 75   /*.  ** Structu
0850: 72 65 20 76 65 72 73 69 6f 6e 2e 20 53 68 6f 75  re version. Shou
0860: 6c 64 20 61 6c 77 61 79 73 20 62 65 20 73 65 74  ld always be set
0870: 20 74 6f 20 30 2e 0a 20 20 2a 2f 0a 20 20 69 6e   to 0..  */.  in
0880: 74 20 69 56 65 72 73 69 6f 6e 3b 0a 0a 20 20 2f  t iVersion;..  /
0890: 2a 0a 20 20 2a 2a 20 43 72 65 61 74 65 20 61 20  *.  ** Create a 
08a0: 6e 65 77 20 74 6f 6b 65 6e 69 7a 65 72 2e 20 54  new tokenizer. T
08b0: 68 65 20 76 61 6c 75 65 73 20 69 6e 20 74 68 65  he values in the
08c0: 20 61 72 67 76 5b 5d 20 61 72 72 61 79 20 61 72   argv[] array ar
08d0: 65 20 74 68 65 0a 20 20 2a 2a 20 61 72 67 75 6d  e the.  ** argum
08e0: 65 6e 74 73 20 70 61 73 73 65 64 20 74 6f 20 74  ents passed to t
08f0: 68 65 20 22 74 6f 6b 65 6e 69 7a 65 72 22 20 63  he "tokenizer" c
0900: 6c 61 75 73 65 20 6f 66 20 74 68 65 20 43 52 45  lause of the CRE
0910: 41 54 45 20 56 49 52 54 55 41 4c 0a 20 20 2a 2a  ATE VIRTUAL.  **
0920: 20 54 41 42 4c 45 20 73 74 61 74 65 6d 65 6e 74   TABLE statement
0930: 20 74 68 61 74 20 63 72 65 61 74 65 64 20 74 68   that created th
0940: 65 20 66 74 73 33 20 74 61 62 6c 65 2e 20 46 6f  e fts3 table. Fo
0950: 72 20 65 78 61 6d 70 6c 65 2c 20 69 66 0a 20 20  r example, if.  
0960: 2a 2a 20 74 68 65 20 66 6f 6c 6c 6f 77 69 6e 67  ** the following
0970: 20 53 51 4c 20 69 73 20 65 78 65 63 75 74 65 64   SQL is executed
0980: 3a 0a 20 20 2a 2a 0a 20 20 2a 2a 20 20 20 43 52  :.  **.  **   CR
0990: 45 41 54 45 20 2e 2e 20 55 53 49 4e 47 20 66 74  EATE .. USING ft
09a0: 73 33 28 20 2e 2e 2e 20 2c 20 74 6f 6b 65 6e 69  s3( ... , tokeni
09b0: 7a 65 72 20 3c 74 6f 6b 65 6e 69 7a 65 72 2d 6e  zer <tokenizer-n
09c0: 61 6d 65 3e 20 61 72 67 31 20 61 72 67 32 29 0a  ame> arg1 arg2).
09d0: 20 20 2a 2a 0a 20 20 2a 2a 20 74 68 65 6e 20 61    **.  ** then a
09e0: 72 67 63 20 69 73 20 73 65 74 20 74 6f 20 32 2c  rgc is set to 2,
09f0: 20 61 6e 64 20 74 68 65 20 61 72 67 76 5b 5d 20   and the argv[] 
0a00: 61 72 72 61 79 20 63 6f 6e 74 61 69 6e 73 20 70  array contains p
0a10: 6f 69 6e 74 65 72 73 0a 20 20 2a 2a 20 74 6f 20  ointers.  ** to 
0a20: 74 68 65 20 73 74 72 69 6e 67 73 20 22 61 72 67  the strings "arg
0a30: 31 22 20 61 6e 64 20 22 61 72 67 32 22 2e 0a 20  1" and "arg2".. 
0a40: 20 2a 2a 0a 20 20 2a 2a 20 54 68 69 73 20 6d 65   **.  ** This me
0a50: 74 68 6f 64 20 73 68 6f 75 6c 64 20 72 65 74 75  thod should retu
0a60: 72 6e 20 65 69 74 68 65 72 20 53 51 4c 49 54 45  rn either SQLITE
0a70: 5f 4f 4b 20 28 30 29 2c 20 6f 72 20 61 6e 20 53  _OK (0), or an S
0a80: 51 4c 69 74 65 20 65 72 72 6f 72 20 0a 20 20 2a  QLite error .  *
0a90: 2a 20 63 6f 64 65 2e 20 49 66 20 53 51 4c 49 54  * code. If SQLIT
0aa0: 45 5f 4f 4b 20 69 73 20 72 65 74 75 72 6e 65 64  E_OK is returned
0ab0: 2c 20 74 68 65 6e 20 2a 70 70 54 6f 6b 65 6e 69  , then *ppTokeni
0ac0: 7a 65 72 20 73 68 6f 75 6c 64 20 62 65 20 73 65  zer should be se
0ad0: 74 0a 20 20 2a 2a 20 74 6f 20 70 6f 69 6e 74 20  t.  ** to point 
0ae0: 61 74 20 74 68 65 20 6e 65 77 6c 79 20 63 72 65  at the newly cre
0af0: 61 74 65 64 20 74 6f 6b 65 6e 69 7a 65 72 20 73  ated tokenizer s
0b00: 74 72 75 63 74 75 72 65 2e 20 54 68 65 20 67 65  tructure. The ge
0b10: 6e 65 72 69 63 0a 20 20 2a 2a 20 73 71 6c 69 74  neric.  ** sqlit
0b20: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 2e 70 4d 6f  e3_tokenizer.pMo
0b30: 64 75 6c 65 20 76 61 72 69 61 62 6c 65 20 73 68  dule variable sh
0b40: 6f 75 6c 64 20 6e 6f 74 20 62 65 20 69 6e 69 74  ould not be init
0b50: 69 61 6c 69 73 65 64 20 62 79 0a 20 20 2a 2a 20  ialised by.  ** 
0b60: 74 68 69 73 20 63 61 6c 6c 62 61 63 6b 2e 20 54  this callback. T
0b70: 68 65 20 63 61 6c 6c 65 72 20 77 69 6c 6c 20 64  he caller will d
0b80: 6f 20 73 6f 2e 0a 20 20 2a 2f 0a 20 20 69 6e 74  o so..  */.  int
0b90: 20 28 2a 78 43 72 65 61 74 65 29 28 0a 20 20 20   (*xCreate)(.   
0ba0: 20 69 6e 74 20 61 72 67 63 2c 20 20 20 20 20 20   int argc,      
0bb0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0bc0: 20 20 20 20 20 2f 2a 20 53 69 7a 65 20 6f 66 20       /* Size of 
0bd0: 61 72 67 76 20 61 72 72 61 79 20 2a 2f 0a 20 20  argv array */.  
0be0: 20 20 63 6f 6e 73 74 20 63 68 61 72 20 2a 63 6f    const char *co
0bf0: 6e 73 74 2a 61 72 67 76 2c 20 20 20 20 20 20 20  nst*argv,       
0c00: 20 20 20 20 20 20 2f 2a 20 54 6f 6b 65 6e 69 7a        /* Tokeniz
0c10: 65 72 20 61 72 67 75 6d 65 6e 74 20 73 74 72 69  er argument stri
0c20: 6e 67 73 20 2a 2f 0a 20 20 20 20 73 71 6c 69 74  ngs */.    sqlit
0c30: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a 2a 70  e3_tokenizer **p
0c40: 70 54 6f 6b 65 6e 69 7a 65 72 20 20 20 20 20 2f  pTokenizer     /
0c50: 2a 20 4f 55 54 3a 20 43 72 65 61 74 65 64 20 74  * OUT: Created t
0c60: 6f 6b 65 6e 69 7a 65 72 20 2a 2f 0a 20 20 29 3b  okenizer */.  );
0c70: 0a 0a 20 20 2f 2a 0a 20 20 2a 2a 20 44 65 73 74  ..  /*.  ** Dest
0c80: 72 6f 79 20 61 6e 20 65 78 69 73 74 69 6e 67 20  roy an existing 
0c90: 74 6f 6b 65 6e 69 7a 65 72 2e 20 54 68 65 20 66  tokenizer. The f
0ca0: 74 73 33 20 6d 6f 64 75 6c 65 20 63 61 6c 6c 73  ts3 module calls
0cb0: 20 74 68 69 73 20 6d 65 74 68 6f 64 0a 20 20 2a   this method.  *
0cc0: 2a 20 65 78 61 63 74 6c 79 20 6f 6e 63 65 20 66  * exactly once f
0cd0: 6f 72 20 65 61 63 68 20 73 75 63 63 65 73 73 66  or each successf
0ce0: 75 6c 20 63 61 6c 6c 20 74 6f 20 78 43 72 65 61  ul call to xCrea
0cf0: 74 65 28 29 2e 0a 20 20 2a 2f 0a 20 20 69 6e 74  te()..  */.  int
0d00: 20 28 2a 78 44 65 73 74 72 6f 79 29 28 73 71 6c   (*xDestroy)(sql
0d10: 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 2a  ite3_tokenizer *
0d20: 70 54 6f 6b 65 6e 69 7a 65 72 29 3b 0a 0a 20 20  pTokenizer);..  
0d30: 2f 2a 0a 20 20 2a 2a 20 43 72 65 61 74 65 20 61  /*.  ** Create a
0d40: 20 74 6f 6b 65 6e 69 7a 65 72 20 63 75 72 73 6f   tokenizer curso
0d50: 72 20 74 6f 20 74 6f 6b 65 6e 69 7a 65 20 61 6e  r to tokenize an
0d60: 20 69 6e 70 75 74 20 62 75 66 66 65 72 2e 20 54   input buffer. T
0d70: 68 65 20 63 61 6c 6c 65 72 0a 20 20 2a 2a 20 69  he caller.  ** i
0d80: 73 20 72 65 73 70 6f 6e 73 69 62 6c 65 20 66 6f  s responsible fo
0d90: 72 20 65 6e 73 75 72 69 6e 67 20 74 68 61 74 20  r ensuring that 
0da0: 74 68 65 20 69 6e 70 75 74 20 62 75 66 66 65 72  the input buffer
0db0: 20 72 65 6d 61 69 6e 73 20 76 61 6c 69 64 0a 20   remains valid. 
0dc0: 20 2a 2a 20 75 6e 74 69 6c 20 74 68 65 20 63 75   ** until the cu
0dd0: 72 73 6f 72 20 69 73 20 63 6c 6f 73 65 64 20 28  rsor is closed (
0de0: 75 73 69 6e 67 20 74 68 65 20 78 43 6c 6f 73 65  using the xClose
0df0: 28 29 20 6d 65 74 68 6f 64 29 2e 20 0a 20 20 2a  () method). .  *
0e00: 2f 0a 20 20 69 6e 74 20 28 2a 78 4f 70 65 6e 29  /.  int (*xOpen)
0e10: 28 0a 20 20 20 20 73 71 6c 69 74 65 33 5f 74 6f  (.    sqlite3_to
0e20: 6b 65 6e 69 7a 65 72 20 2a 70 54 6f 6b 65 6e 69  kenizer *pTokeni
0e30: 7a 65 72 2c 20 20 20 20 20 20 20 2f 2a 20 54 6f  zer,       /* To
0e40: 6b 65 6e 69 7a 65 72 20 6f 62 6a 65 63 74 20 2a  kenizer object *
0e50: 2f 0a 20 20 20 20 63 6f 6e 73 74 20 63 68 61 72  /.    const char
0e60: 20 2a 70 49 6e 70 75 74 2c 20 69 6e 74 20 6e 42   *pInput, int nB
0e70: 79 74 65 73 2c 20 20 20 20 20 20 2f 2a 20 49 6e  ytes,      /* In
0e80: 70 75 74 20 62 75 66 66 65 72 20 2a 2f 0a 20 20  put buffer */.  
0e90: 20 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69    sqlite3_tokeni
0ea0: 7a 65 72 5f 63 75 72 73 6f 72 20 2a 2a 70 70 43  zer_cursor **ppC
0eb0: 75 72 73 6f 72 20 20 2f 2a 20 4f 55 54 3a 20 43  ursor  /* OUT: C
0ec0: 72 65 61 74 65 64 20 74 6f 6b 65 6e 69 7a 65 72  reated tokenizer
0ed0: 20 63 75 72 73 6f 72 20 2a 2f 0a 20 20 29 3b 0a   cursor */.  );.
0ee0: 0a 20 20 2f 2a 0a 20 20 2a 2a 20 44 65 73 74 72  .  /*.  ** Destr
0ef0: 6f 79 20 61 6e 20 65 78 69 73 74 69 6e 67 20 74  oy an existing t
0f00: 6f 6b 65 6e 69 7a 65 72 20 63 75 72 73 6f 72 2e  okenizer cursor.
0f10: 20 54 68 65 20 66 74 73 33 20 6d 6f 64 75 6c 65   The fts3 module
0f20: 20 63 61 6c 6c 73 20 74 68 69 73 20 0a 20 20 2a   calls this .  *
0f30: 2a 20 6d 65 74 68 6f 64 20 65 78 61 63 74 6c 79  * method exactly
0f40: 20 6f 6e 63 65 20 66 6f 72 20 65 61 63 68 20 73   once for each s
0f50: 75 63 63 65 73 73 66 75 6c 20 63 61 6c 6c 20 74  uccessful call t
0f60: 6f 20 78 4f 70 65 6e 28 29 2e 0a 20 20 2a 2f 0a  o xOpen()..  */.
0f70: 20 20 69 6e 74 20 28 2a 78 43 6c 6f 73 65 29 28    int (*xClose)(
0f80: 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65  sqlite3_tokenize
0f90: 72 5f 63 75 72 73 6f 72 20 2a 70 43 75 72 73 6f  r_cursor *pCurso
0fa0: 72 29 3b 0a 0a 20 20 2f 2a 0a 20 20 2a 2a 20 52  r);..  /*.  ** R
0fb0: 65 74 72 69 65 76 65 20 74 68 65 20 6e 65 78 74  etrieve the next
0fc0: 20 74 6f 6b 65 6e 20 66 72 6f 6d 20 74 68 65 20   token from the 
0fd0: 74 6f 6b 65 6e 69 7a 65 72 20 63 75 72 73 6f 72  tokenizer cursor
0fe0: 20 70 43 75 72 73 6f 72 2e 20 54 68 69 73 0a 20   pCursor. This. 
0ff0: 20 2a 2a 20 6d 65 74 68 6f 64 20 73 68 6f 75 6c   ** method shoul
1000: 64 20 65 69 74 68 65 72 20 72 65 74 75 72 6e 20  d either return 
1010: 53 51 4c 49 54 45 5f 4f 4b 20 61 6e 64 20 73 65  SQLITE_OK and se
1020: 74 20 74 68 65 20 76 61 6c 75 65 73 20 6f 66 20  t the values of 
1030: 74 68 65 0a 20 20 2a 2a 20 22 4f 55 54 22 20 76  the.  ** "OUT" v
1040: 61 72 69 61 62 6c 65 73 20 69 64 65 6e 74 69 66  ariables identif
1050: 69 65 64 20 62 65 6c 6f 77 2c 20 6f 72 20 53 51  ied below, or SQ
1060: 4c 49 54 45 5f 44 4f 4e 45 20 74 6f 20 69 6e 64  LITE_DONE to ind
1070: 69 63 61 74 65 20 74 68 61 74 0a 20 20 2a 2a 20  icate that.  ** 
1080: 74 68 65 20 65 6e 64 20 6f 66 20 74 68 65 20 62  the end of the b
1090: 75 66 66 65 72 20 68 61 73 20 62 65 65 6e 20 72  uffer has been r
10a0: 65 61 63 68 65 64 2c 20 6f 72 20 61 6e 20 53 51  eached, or an SQ
10b0: 4c 69 74 65 20 65 72 72 6f 72 20 63 6f 64 65 2e  Lite error code.
10c0: 0a 20 20 2a 2a 0a 20 20 2a 2a 20 2a 70 70 54 6f  .  **.  ** *ppTo
10d0: 6b 65 6e 20 73 68 6f 75 6c 64 20 62 65 20 73 65  ken should be se
10e0: 74 20 74 6f 20 70 6f 69 6e 74 20 61 74 20 61 20  t to point at a 
10f0: 62 75 66 66 65 72 20 63 6f 6e 74 61 69 6e 69 6e  buffer containin
1100: 67 20 74 68 65 20 0a 20 20 2a 2a 20 6e 6f 72 6d  g the .  ** norm
1110: 61 6c 69 7a 65 64 20 76 65 72 73 69 6f 6e 20 6f  alized version o
1120: 66 20 74 68 65 20 74 6f 6b 65 6e 20 28 69 2e 65  f the token (i.e
1130: 2e 20 61 66 74 65 72 20 61 6e 79 20 63 61 73 65  . after any case
1140: 2d 66 6f 6c 64 69 6e 67 20 61 6e 64 2f 6f 72 0a  -folding and/or.
1150: 20 20 2a 2a 20 73 74 65 6d 6d 69 6e 67 20 68 61    ** stemming ha
1160: 73 20 62 65 65 6e 20 70 65 72 66 6f 72 6d 65 64  s been performed
1170: 29 2e 20 2a 70 6e 42 79 74 65 73 20 73 68 6f 75  ). *pnBytes shou
1180: 6c 64 20 62 65 20 73 65 74 20 74 6f 20 74 68 65  ld be set to the
1190: 20 6c 65 6e 67 74 68 0a 20 20 2a 2a 20 6f 66 20   length.  ** of 
11a0: 74 68 69 73 20 62 75 66 66 65 72 20 69 6e 20 62  this buffer in b
11b0: 79 74 65 73 2e 20 54 68 65 20 69 6e 70 75 74 20  ytes. The input 
11c0: 74 65 78 74 20 74 68 61 74 20 67 65 6e 65 72 61  text that genera
11d0: 74 65 64 20 74 68 65 20 74 6f 6b 65 6e 20 69 73  ted the token is
11e0: 0a 20 20 2a 2a 20 69 64 65 6e 74 69 66 69 65 64  .  ** identified
11f0: 20 62 79 20 74 68 65 20 62 79 74 65 20 6f 66 66   by the byte off
1200: 73 65 74 73 20 72 65 74 75 72 6e 65 64 20 69 6e  sets returned in
1210: 20 2a 70 69 53 74 61 72 74 4f 66 66 73 65 74 20   *piStartOffset 
1220: 61 6e 64 0a 20 20 2a 2a 20 2a 70 69 45 6e 64 4f  and.  ** *piEndO
1230: 66 66 73 65 74 2e 20 2a 70 69 53 74 61 72 74 4f  ffset. *piStartO
1240: 66 66 73 65 74 20 73 68 6f 75 6c 64 20 62 65 20  ffset should be 
1250: 73 65 74 20 74 6f 20 74 68 65 20 69 6e 64 65 78  set to the index
1260: 20 6f 66 20 74 68 65 20 66 69 72 73 74 0a 20 20   of the first.  
1270: 2a 2a 20 62 79 74 65 20 6f 66 20 74 68 65 20 74  ** byte of the t
1280: 6f 6b 65 6e 20 69 6e 20 74 68 65 20 69 6e 70 75  oken in the inpu
1290: 74 20 62 75 66 66 65 72 2e 20 2a 70 69 45 6e 64  t buffer. *piEnd
12a0: 4f 66 66 73 65 74 20 73 68 6f 75 6c 64 20 62 65  Offset should be
12b0: 20 73 65 74 0a 20 20 2a 2a 20 74 6f 20 74 68 65   set.  ** to the
12c0: 20 69 6e 64 65 78 20 6f 66 20 74 68 65 20 66 69   index of the fi
12d0: 72 73 74 20 62 79 74 65 20 6a 75 73 74 20 70 61  rst byte just pa
12e0: 73 74 20 74 68 65 20 65 6e 64 20 6f 66 20 74 68  st the end of th
12f0: 65 20 74 6f 6b 65 6e 20 69 6e 0a 20 20 2a 2a 20  e token in.  ** 
1300: 74 68 65 20 69 6e 70 75 74 20 62 75 66 66 65 72  the input buffer
1310: 2e 0a 20 20 2a 2a 0a 20 20 2a 2a 20 54 68 65 20  ..  **.  ** The 
1320: 62 75 66 66 65 72 20 2a 70 70 54 6f 6b 65 6e 20  buffer *ppToken 
1330: 69 73 20 73 65 74 20 74 6f 20 70 6f 69 6e 74 20  is set to point 
1340: 61 74 20 69 73 20 6d 61 6e 61 67 65 64 20 62 79  at is managed by
1350: 20 74 68 65 20 74 6f 6b 65 6e 69 7a 65 72 0a 20   the tokenizer. 
1360: 20 2a 2a 20 69 6d 70 6c 65 6d 65 6e 74 61 74 69   ** implementati
1370: 6f 6e 2e 20 49 74 20 69 73 20 6f 6e 6c 79 20 72  on. It is only r
1380: 65 71 75 69 72 65 64 20 74 6f 20 62 65 20 76 61  equired to be va
1390: 6c 69 64 20 75 6e 74 69 6c 20 74 68 65 20 6e 65  lid until the ne
13a0: 78 74 20 63 61 6c 6c 0a 20 20 2a 2a 20 74 6f 20  xt call.  ** to 
13b0: 78 4e 65 78 74 28 29 20 6f 72 20 78 43 6c 6f 73  xNext() or xClos
13c0: 65 28 29 2e 20 0a 20 20 2a 2f 0a 20 20 2f 2a 20  e(). .  */.  /* 
13d0: 54 4f 44 4f 28 73 68 65 73 73 29 20 63 75 72 72  TODO(shess) curr
13e0: 65 6e 74 20 69 6d 70 6c 65 6d 65 6e 74 61 74 69  ent implementati
13f0: 6f 6e 20 72 65 71 75 69 72 65 73 20 70 49 6e 70  on requires pInp
1400: 75 74 20 74 6f 20 62 65 0a 20 20 2a 2a 20 6e 75  ut to be.  ** nu
1410: 6c 2d 74 65 72 6d 69 6e 61 74 65 64 2e 20 20 54  l-terminated.  T
1420: 68 69 73 20 73 68 6f 75 6c 64 20 65 69 74 68 65  his should eithe
1430: 72 20 62 65 20 66 69 78 65 64 2c 20 6f 72 20 70  r be fixed, or p
1440: 49 6e 70 75 74 2f 6e 42 79 74 65 73 0a 20 20 2a  Input/nBytes.  *
1450: 2a 20 73 68 6f 75 6c 64 20 62 65 20 63 6f 6e 76  * should be conv
1460: 65 72 74 65 64 20 74 6f 20 7a 49 6e 70 75 74 2e  erted to zInput.
1470: 0a 20 20 2a 2f 0a 20 20 69 6e 74 20 28 2a 78 4e  .  */.  int (*xN
1480: 65 78 74 29 28 0a 20 20 20 20 73 71 6c 69 74 65  ext)(.    sqlite
1490: 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 63 75 72 73  3_tokenizer_curs
14a0: 6f 72 20 2a 70 43 75 72 73 6f 72 2c 20 20 20 2f  or *pCursor,   /
14b0: 2a 20 54 6f 6b 65 6e 69 7a 65 72 20 63 75 72 73  * Tokenizer curs
14c0: 6f 72 20 2a 2f 0a 20 20 20 20 63 6f 6e 73 74 20  or */.    const 
14d0: 63 68 61 72 20 2a 2a 70 70 54 6f 6b 65 6e 2c 20  char **ppToken, 
14e0: 69 6e 74 20 2a 70 6e 42 79 74 65 73 2c 20 20 2f  int *pnBytes,  /
14f0: 2a 20 4f 55 54 3a 20 4e 6f 72 6d 61 6c 69 7a 65  * OUT: Normalize
1500: 64 20 74 65 78 74 20 66 6f 72 20 74 6f 6b 65 6e  d text for token
1510: 20 2a 2f 0a 20 20 20 20 69 6e 74 20 2a 70 69 53   */.    int *piS
1520: 74 61 72 74 4f 66 66 73 65 74 2c 20 20 2f 2a 20  tartOffset,  /* 
1530: 4f 55 54 3a 20 42 79 74 65 20 6f 66 66 73 65 74  OUT: Byte offset
1540: 20 6f 66 20 74 6f 6b 65 6e 20 69 6e 20 69 6e 70   of token in inp
1550: 75 74 20 62 75 66 66 65 72 20 2a 2f 0a 20 20 20  ut buffer */.   
1560: 20 69 6e 74 20 2a 70 69 45 6e 64 4f 66 66 73 65   int *piEndOffse
1570: 74 2c 20 20 20 20 2f 2a 20 4f 55 54 3a 20 42 79  t,    /* OUT: By
1580: 74 65 20 6f 66 66 73 65 74 20 6f 66 20 65 6e 64  te offset of end
1590: 20 6f 66 20 74 6f 6b 65 6e 20 69 6e 20 69 6e 70   of token in inp
15a0: 75 74 20 62 75 66 66 65 72 20 2a 2f 0a 20 20 20  ut buffer */.   
15b0: 20 69 6e 74 20 2a 70 69 50 6f 73 69 74 69 6f 6e   int *piPosition
15c0: 20 20 20 20 20 20 2f 2a 20 4f 55 54 3a 20 4e 75        /* OUT: Nu
15d0: 6d 62 65 72 20 6f 66 20 74 6f 6b 65 6e 73 20 72  mber of tokens r
15e0: 65 74 75 72 6e 65 64 20 62 65 66 6f 72 65 20 74  eturned before t
15f0: 68 69 73 20 6f 6e 65 20 2a 2f 0a 20 20 29 3b 0a  his one */.  );.
1600: 7d 3b 0a 0a 73 74 72 75 63 74 20 73 71 6c 69 74  };..struct sqlit
1610: 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20 7b 0a 20  e3_tokenizer {. 
1620: 20 63 6f 6e 73 74 20 73 71 6c 69 74 65 33 5f 74   const sqlite3_t
1630: 6f 6b 65 6e 69 7a 65 72 5f 6d 6f 64 75 6c 65 20  okenizer_module 
1640: 2a 70 4d 6f 64 75 6c 65 3b 20 20 2f 2a 20 54 68  *pModule;  /* Th
1650: 65 20 6d 6f 64 75 6c 65 20 66 6f 72 20 74 68 69  e module for thi
1660: 73 20 74 6f 6b 65 6e 69 7a 65 72 20 2a 2f 0a 20  s tokenizer */. 
1670: 20 2f 2a 20 54 6f 6b 65 6e 69 7a 65 72 20 69 6d   /* Tokenizer im
1680: 70 6c 65 6d 65 6e 74 61 74 69 6f 6e 73 20 77 69  plementations wi
1690: 6c 6c 20 74 79 70 69 63 61 6c 6c 79 20 61 64 64  ll typically add
16a0: 20 61 64 64 69 74 69 6f 6e 61 6c 20 66 69 65 6c   additional fiel
16b0: 64 73 20 2a 2f 0a 7d 3b 0a 0a 73 74 72 75 63 74  ds */.};..struct
16c0: 20 73 71 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a   sqlite3_tokeniz
16d0: 65 72 5f 63 75 72 73 6f 72 20 7b 0a 20 20 73 71  er_cursor {.  sq
16e0: 6c 69 74 65 33 5f 74 6f 6b 65 6e 69 7a 65 72 20  lite3_tokenizer 
16f0: 2a 70 54 6f 6b 65 6e 69 7a 65 72 3b 20 20 20 20  *pTokenizer;    
1700: 20 20 20 2f 2a 20 54 6f 6b 65 6e 69 7a 65 72 20     /* Tokenizer 
1710: 66 6f 72 20 74 68 69 73 20 63 75 72 73 6f 72 2e  for this cursor.
1720: 20 2a 2f 0a 20 20 2f 2a 20 54 6f 6b 65 6e 69 7a   */.  /* Tokeniz
1730: 65 72 20 69 6d 70 6c 65 6d 65 6e 74 61 74 69 6f  er implementatio
1740: 6e 73 20 77 69 6c 6c 20 74 79 70 69 63 61 6c 6c  ns will typicall
1750: 79 20 61 64 64 20 61 64 64 69 74 69 6f 6e 61 6c  y add additional
1760: 20 66 69 65 6c 64 73 20 2a 2f 0a 7d 3b 0a 0a 23   fields */.};..#
1770: 65 6e 64 69 66 20 2f 2a 20 5f 46 54 53 33 5f 54  endif /* _FTS3_T
1780: 4f 4b 45 4e 49 5a 45 52 5f 48 5f 20 2a 2f 0a     OKENIZER_H_ */.