/ Hex Artifact Content
Login
SQLite training in Houston TX on 2019-11-05 (details)
Part of the 2019 Tcl Conference

Artifact d8070b241a15ff13592a9ae4a8b7c171af6f445a:


0000: 23 20 32 30 30 37 20 4a 75 6e 65 20 32 31 0a 23  # 2007 June 21.#
0010: 0a 23 20 54 68 65 20 61 75 74 68 6f 72 20 64 69  .# The author di
0020: 73 63 6c 61 69 6d 73 20 63 6f 70 79 72 69 67 68  sclaims copyrigh
0030: 74 20 74 6f 20 74 68 69 73 20 73 6f 75 72 63 65  t to this source
0040: 20 63 6f 64 65 2e 20 20 49 6e 20 70 6c 61 63 65   code.  In place
0050: 20 6f 66 0a 23 20 61 20 6c 65 67 61 6c 20 6e 6f   of.# a legal no
0060: 74 69 63 65 2c 20 68 65 72 65 20 69 73 20 61 20  tice, here is a 
0070: 62 6c 65 73 73 69 6e 67 3a 0a 23 0a 23 20 20 20  blessing:.#.#   
0080: 20 4d 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64   May you do good
0090: 20 61 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 23   and not evil..#
00a0: 20 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64      May you find
00b0: 20 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72   forgiveness for
00c0: 20 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f   yourself and fo
00d0: 72 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 23 20  rgive others..# 
00e0: 20 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65     May you share
00f0: 20 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74   freely, never t
0100: 61 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20  aking more than 
0110: 79 6f 75 20 67 69 76 65 2e 0a 23 0a 23 2a 2a 2a  you give..#.#***
0120: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 0a 23 20 54 68 69 73 20 66 69  ******.# This fi
0170: 6c 65 20 69 6d 70 6c 65 6d 65 6e 74 73 20 72 65  le implements re
0180: 67 72 65 73 73 69 6f 6e 20 74 65 73 74 73 20 66  gression tests f
0190: 6f 72 20 53 51 4c 69 74 65 20 6c 69 62 72 61 72  or SQLite librar
01a0: 79 2e 20 54 68 65 20 66 6f 63 75 73 20 0a 23 20  y. The focus .# 
01b0: 6f 66 20 74 68 69 73 20 73 63 72 69 70 74 20 69  of this script i
01c0: 73 20 74 65 73 74 69 6e 67 20 74 68 65 20 70 6c  s testing the pl
01d0: 75 67 67 61 62 6c 65 20 74 6f 6b 65 6e 69 73 65  uggable tokenise
01e0: 72 20 66 65 61 74 75 72 65 20 6f 66 20 74 68 65  r feature of the
01f0: 20 0a 23 20 46 54 53 32 20 6d 6f 64 75 6c 65 2e   .# FTS2 module.
0200: 0a 23 0a 23 20 24 49 64 3a 20 66 74 73 32 74 6f  .#.# $Id: fts2to
0210: 6b 65 6e 2e 74 65 73 74 2c 76 20 31 2e 33 20 32  ken.test,v 1.3 2
0220: 30 30 37 2f 30 36 2f 32 35 20 31 32 3a 30 35 3a  007/06/25 12:05:
0230: 34 30 20 64 61 6e 69 65 6c 6b 31 39 37 37 20 45  40 danielk1977 E
0240: 78 70 20 24 0a 23 0a 0a 73 65 74 20 74 65 73 74  xp $.#..set test
0250: 64 69 72 20 5b 66 69 6c 65 20 64 69 72 6e 61 6d  dir [file dirnam
0260: 65 20 24 61 72 67 76 30 5d 0a 73 6f 75 72 63 65  e $argv0].source
0270: 20 24 74 65 73 74 64 69 72 2f 74 65 73 74 65 72   $testdir/tester
0280: 2e 74 63 6c 0a 0a 23 20 49 66 20 53 51 4c 49 54  .tcl..# If SQLIT
0290: 45 5f 45 4e 41 42 4c 45 5f 46 54 53 32 20 69 73  E_ENABLE_FTS2 is
02a0: 20 64 65 66 69 6e 65 64 2c 20 6f 6d 69 74 20 74   defined, omit t
02b0: 68 69 73 20 66 69 6c 65 2e 0a 69 66 63 61 70 61  his file..ifcapa
02c0: 62 6c 65 20 21 66 74 73 32 20 7b 0a 20 20 66 69  ble !fts2 {.  fi
02d0: 6e 69 73 68 5f 74 65 73 74 0a 20 20 72 65 74 75  nish_test.  retu
02e0: 72 6e 0a 7d 0a 0a 70 72 6f 63 20 65 73 63 61 70  rn.}..proc escap
02f0: 65 5f 73 74 72 69 6e 67 20 7b 73 74 72 7d 20 7b  e_string {str} {
0300: 0a 20 20 73 65 74 20 6f 75 74 20 22 22 0a 20 20  .  set out "".  
0310: 66 6f 72 65 61 63 68 20 63 68 61 72 20 5b 73 70  foreach char [sp
0320: 6c 69 74 20 24 73 74 72 20 22 22 5d 20 7b 0a 20  lit $str ""] {. 
0330: 20 20 20 73 63 61 6e 20 24 63 68 61 72 20 25 63     scan $char %c
0340: 20 69 0a 20 20 20 20 69 66 20 7b 24 69 3c 3d 31   i.    if {$i<=1
0350: 32 37 7d 20 7b 0a 20 20 20 20 20 20 61 70 70 65  27} {.      appe
0360: 6e 64 20 6f 75 74 20 24 63 68 61 72 0a 20 20 20  nd out $char.   
0370: 20 7d 20 65 6c 73 65 20 7b 0a 20 20 20 20 20 20   } else {.      
0380: 61 70 70 65 6e 64 20 6f 75 74 20 5b 66 6f 72 6d  append out [form
0390: 61 74 20 7b 5c 78 25 2e 34 78 7d 20 24 69 5d 0a  at {\x%.4x} $i].
03a0: 20 20 20 20 7d 0a 20 20 7d 0a 20 20 73 65 74 20      }.  }.  set 
03b0: 6f 75 74 0a 7d 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d  out.}..#--------
03c0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
03d0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
03e0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
03f0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0400: 2d 2d 0a 23 20 54 65 73 74 20 63 61 73 65 73 20  --.# Test cases 
0410: 66 74 73 32 74 6f 6b 65 6e 2d 31 2e 2a 20 61 72  fts2token-1.* ar
0420: 65 20 74 68 65 20 77 61 72 6d 2d 62 6f 64 79 20  e the warm-body 
0430: 74 65 73 74 20 66 6f 72 20 74 68 65 20 53 51 4c  test for the SQL
0440: 20 73 63 61 6c 61 72 0a 23 20 66 75 6e 63 74 69   scalar.# functi
0450: 6f 6e 20 66 74 73 32 5f 74 6f 6b 65 6e 69 7a 65  on fts2_tokenize
0460: 72 28 29 2e 20 54 68 65 20 70 72 6f 63 65 64 75  r(). The procedu
0470: 72 65 20 69 73 20 61 73 20 66 6f 6c 6c 6f 77 73  re is as follows
0480: 3a 0a 23 0a 23 20 20 20 31 3a 20 56 65 72 69 66  :.#.#   1: Verif
0490: 79 20 74 68 61 74 20 74 68 65 72 65 20 69 73 20  y that there is 
04a0: 6e 6f 20 73 75 63 68 20 66 74 73 32 20 74 6f 6b  no such fts2 tok
04b0: 65 6e 69 7a 65 72 20 61 73 20 27 62 6c 61 68 27  enizer as 'blah'
04c0: 2e 0a 23 0a 23 20 20 20 32 3a 20 51 75 65 72 79  ..#.#   2: Query
04d0: 20 66 6f 72 20 74 68 65 20 62 75 69 6c 74 2d 69   for the built-i
04e0: 6e 20 74 6f 6b 65 6e 69 7a 65 72 20 27 73 69 6d  n tokenizer 'sim
04f0: 70 6c 65 27 2e 20 49 6e 73 65 72 74 20 61 20 63  ple'. Insert a c
0500: 6f 70 79 20 6f 66 20 74 68 65 0a 23 20 20 20 20  opy of the.#    
0510: 20 20 72 65 74 72 69 65 76 65 64 20 76 61 6c 75    retrieved valu
0520: 65 20 61 73 20 74 6f 6b 65 6e 69 7a 65 72 20 27  e as tokenizer '
0530: 62 6c 61 68 27 2e 0a 23 0a 23 20 20 20 33 3a 20  blah'..#.#   3: 
0540: 54 65 73 74 20 74 68 61 74 20 74 68 65 20 76 61  Test that the va
0550: 6c 75 65 20 72 65 74 75 72 6e 65 64 20 66 6f 72  lue returned for
0560: 20 74 6f 6b 65 6e 69 7a 65 72 20 27 62 6c 61 68   tokenizer 'blah
0570: 27 20 69 73 20 6e 6f 77 20 74 68 65 0a 23 20 20  ' is now the.#  
0580: 20 20 20 20 73 61 6d 65 20 61 73 20 74 68 61 74      same as that
0590: 20 72 65 74 72 69 65 76 65 64 20 66 6f 72 20 27   retrieved for '
05a0: 73 69 6d 70 6c 65 27 2e 0a 23 0a 23 20 20 20 34  simple'..#.#   4
05b0: 3a 20 54 65 73 74 20 74 68 61 74 20 69 74 20 69  : Test that it i
05c0: 73 20 6e 6f 77 20 70 6f 73 73 69 62 6c 65 20 74  s now possible t
05d0: 6f 20 63 72 65 61 74 65 20 61 6e 20 66 74 73 32  o create an fts2
05e0: 20 74 61 62 6c 65 20 75 73 69 6e 67 20 0a 23 20   table using .# 
05f0: 20 20 20 20 20 74 6f 6b 65 6e 69 7a 65 72 20 27       tokenizer '
0600: 62 6c 61 68 27 20 28 69 74 20 77 61 73 20 6e 6f  blah' (it was no
0610: 74 20 70 6f 73 73 69 62 6c 65 20 69 6e 20 73 74  t possible in st
0620: 65 70 20 31 29 2e 0a 23 0a 23 20 20 20 35 3a 20  ep 1)..#.#   5: 
0630: 54 65 73 74 20 74 68 61 74 20 74 68 65 20 74 61  Test that the ta
0640: 62 6c 65 20 63 72 65 61 74 65 64 20 74 6f 20 75  ble created to u
0650: 73 65 20 74 6f 6b 65 6e 69 7a 65 72 20 27 62 6c  se tokenizer 'bl
0660: 61 68 27 20 69 73 20 75 73 61 62 6c 65 2e 0a 23  ah' is usable..#
0670: 0a 64 6f 5f 74 65 73 74 20 66 74 73 32 74 6f 6b  .do_test fts2tok
0680: 65 6e 2d 31 2e 31 20 7b 0a 20 20 63 61 74 63 68  en-1.1 {.  catch
0690: 73 71 6c 20 7b 0a 20 20 20 20 43 52 45 41 54 45  sql {.    CREATE
06a0: 20 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20 74   VIRTUAL TABLE t
06b0: 31 20 55 53 49 4e 47 20 66 74 73 32 28 63 6f 6e  1 USING fts2(con
06c0: 74 65 6e 74 2c 20 74 6f 6b 65 6e 69 7a 65 20 62  tent, tokenize b
06d0: 6c 61 68 29 3b 0a 20 20 7d 0a 7d 20 7b 31 20 7b  lah);.  }.} {1 {
06e0: 75 6e 6b 6e 6f 77 6e 20 74 6f 6b 65 6e 69 7a 65  unknown tokenize
06f0: 72 3a 20 62 6c 61 68 7d 7d 0a 64 6f 5f 74 65 73  r: blah}}.do_tes
0700: 74 20 66 74 73 32 74 6f 6b 65 6e 2d 31 2e 32 20  t fts2token-1.2 
0710: 7b 0a 20 20 65 78 65 63 73 71 6c 20 7b 0a 20 20  {.  execsql {.  
0720: 20 20 53 45 4c 45 43 54 20 66 74 73 32 5f 74 6f    SELECT fts2_to
0730: 6b 65 6e 69 7a 65 72 28 27 62 6c 61 68 27 2c 20  kenizer('blah', 
0740: 66 74 73 32 5f 74 6f 6b 65 6e 69 7a 65 72 28 27  fts2_tokenizer('
0750: 73 69 6d 70 6c 65 27 29 29 20 49 53 20 4e 55 4c  simple')) IS NUL
0760: 4c 3b 0a 20 20 7d 0a 7d 20 7b 30 7d 0a 64 6f 5f  L;.  }.} {0}.do_
0770: 74 65 73 74 20 66 74 73 32 74 6f 6b 65 6e 2d 31  test fts2token-1
0780: 2e 33 20 7b 0a 20 20 65 78 65 63 73 71 6c 20 7b  .3 {.  execsql {
0790: 0a 20 20 20 20 53 45 4c 45 43 54 20 66 74 73 32  .    SELECT fts2
07a0: 5f 74 6f 6b 65 6e 69 7a 65 72 28 27 62 6c 61 68  _tokenizer('blah
07b0: 27 29 20 3d 3d 20 66 74 73 32 5f 74 6f 6b 65 6e  ') == fts2_token
07c0: 69 7a 65 72 28 27 73 69 6d 70 6c 65 27 29 3b 0a  izer('simple');.
07d0: 20 20 7d 0a 7d 20 7b 31 7d 0a 64 6f 5f 74 65 73    }.} {1}.do_tes
07e0: 74 20 66 74 73 32 74 6f 6b 65 6e 2d 31 2e 34 20  t fts2token-1.4 
07f0: 7b 0a 20 20 63 61 74 63 68 73 71 6c 20 7b 0a 20  {.  catchsql {. 
0800: 20 20 20 43 52 45 41 54 45 20 56 49 52 54 55 41     CREATE VIRTUA
0810: 4c 20 54 41 42 4c 45 20 74 31 20 55 53 49 4e 47  L TABLE t1 USING
0820: 20 66 74 73 32 28 63 6f 6e 74 65 6e 74 2c 20 74   fts2(content, t
0830: 6f 6b 65 6e 69 7a 65 20 62 6c 61 68 29 3b 0a 20  okenize blah);. 
0840: 20 7d 0a 7d 20 7b 30 20 7b 7d 7d 0a 64 6f 5f 74   }.} {0 {}}.do_t
0850: 65 73 74 20 66 74 73 32 74 6f 6b 65 6e 2d 31 2e  est fts2token-1.
0860: 35 20 7b 0a 20 20 65 78 65 63 73 71 6c 20 7b 0a  5 {.  execsql {.
0870: 20 20 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20      INSERT INTO 
0880: 74 31 28 63 6f 6e 74 65 6e 74 29 20 56 41 4c 55  t1(content) VALU
0890: 45 53 28 27 54 68 65 72 65 20 77 61 73 20 6d 6f  ES('There was mo
08a0: 76 65 6d 65 6e 74 20 61 74 20 74 68 65 20 73 74  vement at the st
08b0: 61 74 69 6f 6e 27 29 3b 0a 20 20 20 20 49 4e 53  ation');.    INS
08c0: 45 52 54 20 49 4e 54 4f 20 74 31 28 63 6f 6e 74  ERT INTO t1(cont
08d0: 65 6e 74 29 20 56 41 4c 55 45 53 28 27 46 6f 72  ent) VALUES('For
08e0: 20 74 68 65 20 77 6f 72 64 20 68 61 73 20 70 61   the word has pa
08f0: 73 73 65 64 20 61 72 6f 75 6e 64 27 29 3b 0a 20  ssed around');. 
0900: 20 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74     INSERT INTO t
0910: 31 28 63 6f 6e 74 65 6e 74 29 20 56 41 4c 55 45  1(content) VALUE
0920: 53 28 27 54 68 61 74 20 74 68 65 20 63 6f 6c 74  S('That the colt
0930: 20 66 72 6f 6d 20 6f 6c 20 72 65 67 72 65 74 20   from ol regret 
0940: 68 61 64 20 67 6f 74 20 61 77 61 79 27 29 3b 0a  had got away');.
0950: 20 20 20 20 53 45 4c 45 43 54 20 63 6f 6e 74 65      SELECT conte
0960: 6e 74 20 46 52 4f 4d 20 74 31 20 57 48 45 52 45  nt FROM t1 WHERE
0970: 20 63 6f 6e 74 65 6e 74 20 4d 41 54 43 48 20 27   content MATCH '
0980: 6d 6f 76 65 6d 65 6e 74 27 0a 20 20 7d 0a 7d 20  movement'.  }.} 
0990: 7b 7b 54 68 65 72 65 20 77 61 73 20 6d 6f 76 65  {{There was move
09a0: 6d 65 6e 74 20 61 74 20 74 68 65 20 73 74 61 74  ment at the stat
09b0: 69 6f 6e 7d 7d 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d  ion}}..#--------
09c0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
09d0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
09e0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
09f0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a00: 2d 2d 0a 23 20 54 65 73 74 20 63 61 73 65 73 20  --.# Test cases 
0a10: 66 74 73 32 74 6f 6b 65 6e 2d 32 2e 2a 20 74 65  fts2token-2.* te
0a20: 73 74 20 65 72 72 6f 72 20 63 61 73 65 73 20 69  st error cases i
0a30: 6e 20 74 68 65 20 73 63 61 6c 61 72 20 66 75 6e  n the scalar fun
0a40: 63 74 69 6f 6e 20 62 61 73 65 64 0a 23 20 41 50  ction based.# AP
0a50: 49 20 66 6f 72 20 67 65 74 74 69 6e 67 20 61 6e  I for getting an
0a60: 64 20 73 65 74 74 69 6e 67 20 74 6f 6b 65 6e 69  d setting tokeni
0a70: 7a 65 72 73 2e 0a 23 0a 64 6f 5f 74 65 73 74 20  zers..#.do_test 
0a80: 66 74 73 32 74 6f 6b 65 6e 2d 32 2e 31 20 7b 0a  fts2token-2.1 {.
0a90: 20 20 63 61 74 63 68 73 71 6c 20 7b 0a 20 20 20    catchsql {.   
0aa0: 20 53 45 4c 45 43 54 20 66 74 73 32 5f 74 6f 6b   SELECT fts2_tok
0ab0: 65 6e 69 7a 65 72 28 27 6e 6f 73 75 63 68 74 6f  enizer('nosuchto
0ac0: 6b 65 6e 69 7a 65 72 27 29 3b 0a 20 20 7d 0a 7d  kenizer');.  }.}
0ad0: 20 7b 31 20 7b 75 6e 6b 6e 6f 77 6e 20 74 6f 6b   {1 {unknown tok
0ae0: 65 6e 69 7a 65 72 3a 20 6e 6f 73 75 63 68 74 6f  enizer: nosuchto
0af0: 6b 65 6e 69 7a 65 72 7d 7d 0a 0a 23 2d 2d 2d 2d  kenizer}}..#----
0b00: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b10: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b20: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b30: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b40: 2d 2d 2d 2d 2d 2d 0a 23 20 54 65 73 74 20 63 61  ------.# Test ca
0b50: 73 65 73 20 66 74 73 32 74 6f 6b 65 6e 2d 33 2e  ses fts2token-3.
0b60: 2a 20 74 65 73 74 20 74 68 65 20 74 68 72 65 65  * test the three
0b70: 20 62 75 69 6c 74 2d 69 6e 20 74 6f 6b 65 6e 69   built-in tokeni
0b80: 7a 65 72 73 20 77 69 74 68 20 61 0a 23 20 73 69  zers with a.# si
0b90: 6d 70 6c 65 20 69 6e 70 75 74 20 73 74 72 69 6e  mple input strin
0ba0: 67 20 76 69 61 20 74 68 65 20 62 75 69 6c 74 2d  g via the built-
0bb0: 69 6e 20 74 65 73 74 20 66 75 6e 63 74 69 6f 6e  in test function
0bc0: 2e 20 54 68 69 73 20 69 73 20 61 73 20 6d 75 63  . This is as muc
0bd0: 68 0a 23 20 74 6f 20 74 65 73 74 20 74 68 65 20  h.# to test the 
0be0: 74 65 73 74 20 66 75 6e 63 74 69 6f 6e 20 61 73  test function as
0bf0: 20 74 68 65 20 74 6f 6b 65 6e 69 7a 65 72 20 69   the tokenizer i
0c00: 6d 70 6c 65 6d 65 6e 74 61 74 69 6f 6e 73 2e 0a  mplementations..
0c10: 23 0a 64 6f 5f 74 65 73 74 20 66 74 73 32 74 6f  #.do_test fts2to
0c20: 6b 65 6e 2d 33 2e 31 20 7b 0a 20 20 65 78 65 63  ken-3.1 {.  exec
0c30: 73 71 6c 20 7b 0a 20 20 20 20 53 45 4c 45 43 54  sql {.    SELECT
0c40: 20 66 74 73 32 5f 74 6f 6b 65 6e 69 7a 65 72 5f   fts2_tokenizer_
0c50: 74 65 73 74 28 27 73 69 6d 70 6c 65 27 2c 20 27  test('simple', '
0c60: 49 20 64 6f 6e 27 27 74 20 73 65 65 20 68 6f 77  I don''t see how
0c70: 27 29 3b 0a 20 20 7d 0a 7d 20 7b 7b 30 20 69 20  ');.  }.} {{0 i 
0c80: 49 20 31 20 64 6f 6e 20 64 6f 6e 20 32 20 74 20  I 1 don don 2 t 
0c90: 74 20 33 20 73 65 65 20 73 65 65 20 34 20 68 6f  t 3 see see 4 ho
0ca0: 77 20 68 6f 77 7d 7d 0a 64 6f 5f 74 65 73 74 20  w how}}.do_test 
0cb0: 66 74 73 32 74 6f 6b 65 6e 2d 33 2e 32 20 7b 0a  fts2token-3.2 {.
0cc0: 20 20 65 78 65 63 73 71 6c 20 7b 0a 20 20 20 20    execsql {.    
0cd0: 53 45 4c 45 43 54 20 66 74 73 32 5f 74 6f 6b 65  SELECT fts2_toke
0ce0: 6e 69 7a 65 72 5f 74 65 73 74 28 27 70 6f 72 74  nizer_test('port
0cf0: 65 72 27 2c 20 27 49 20 64 6f 6e 27 27 74 20 73  er', 'I don''t s
0d00: 65 65 20 68 6f 77 27 29 3b 0a 20 20 7d 0a 7d 20  ee how');.  }.} 
0d10: 7b 7b 30 20 69 20 49 20 31 20 64 6f 6e 20 64 6f  {{0 i I 1 don do
0d20: 6e 20 32 20 74 20 74 20 33 20 73 65 65 20 73 65  n 2 t t 3 see se
0d30: 65 20 34 20 68 6f 77 20 68 6f 77 7d 7d 0a 69 66  e 4 how how}}.if
0d40: 63 61 70 61 62 6c 65 20 69 63 75 20 7b 0a 20 20  capable icu {.  
0d50: 64 6f 5f 74 65 73 74 20 66 74 73 32 74 6f 6b 65  do_test fts2toke
0d60: 6e 2d 33 2e 33 20 7b 0a 20 20 20 20 65 78 65 63  n-3.3 {.    exec
0d70: 73 71 6c 20 7b 0a 20 20 20 20 20 20 53 45 4c 45  sql {.      SELE
0d80: 43 54 20 66 74 73 32 5f 74 6f 6b 65 6e 69 7a 65  CT fts2_tokenize
0d90: 72 5f 74 65 73 74 28 27 69 63 75 27 2c 20 27 49  r_test('icu', 'I
0da0: 20 64 6f 6e 27 27 74 20 73 65 65 20 68 6f 77 27   don''t see how'
0db0: 29 3b 0a 20 20 20 20 7d 0a 20 20 7d 20 7b 7b 30  );.    }.  } {{0
0dc0: 20 69 20 49 20 31 20 64 6f 6e 27 74 20 64 6f 6e   i I 1 don't don
0dd0: 27 74 20 32 20 73 65 65 20 73 65 65 20 33 20 68  't 2 see see 3 h
0de0: 6f 77 20 68 6f 77 7d 7d 0a 7d 0a 0a 23 2d 2d 2d  ow how}}.}..#---
0df0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e00: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e10: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e20: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e30: 2d 2d 2d 2d 2d 2d 2d 0a 23 20 54 65 73 74 20 63  -------.# Test c
0e40: 61 73 65 73 20 66 74 73 32 74 6f 6b 65 6e 2d 34  ases fts2token-4
0e50: 2e 2a 20 74 65 73 74 20 74 68 65 20 49 43 55 20  .* test the ICU 
0e60: 74 6f 6b 65 6e 69 7a 65 72 2e 20 49 6e 20 70 72  tokenizer. In pr
0e70: 61 63 74 69 63 65 2c 20 74 68 69 73 0a 23 20 74  actice, this.# t
0e80: 6f 6b 65 6e 69 7a 65 72 20 6f 6e 6c 79 20 68 61  okenizer only ha
0e90: 73 20 74 77 6f 20 6d 6f 64 65 73 20 2d 20 22 74  s two modes - "t
0ea0: 68 61 69 22 20 61 6e 64 20 22 65 76 65 72 79 62  hai" and "everyb
0eb0: 6f 64 79 20 65 6c 73 65 22 2e 20 53 6f 6d 65 20  ody else". Some 
0ec0: 6f 74 68 65 72 0a 23 20 41 73 69 61 6e 20 6c 61  other.# Asian la
0ed0: 6e 67 75 61 67 65 73 20 28 4c 61 6f 2c 20 4b 68  nguages (Lao, Kh
0ee0: 6d 65 72 20 65 74 63 2e 29 20 72 65 71 75 69 72  mer etc.) requir
0ef0: 65 20 74 68 65 20 73 61 6d 65 20 73 70 65 63 69  e the same speci
0f00: 61 6c 20 74 72 65 61 74 6d 65 6e 74 20 61 73 20  al treatment as 
0f10: 0a 23 20 54 68 61 69 2c 20 62 75 74 20 49 43 55  .# Thai, but ICU
0f20: 20 64 6f 65 73 6e 27 74 20 73 75 70 70 6f 72 74   doesn't support
0f30: 20 74 68 65 6d 20 79 65 74 2e 0a 23 0a 69 66 63   them yet..#.ifc
0f40: 61 70 61 62 6c 65 20 69 63 75 20 7b 0a 0a 20 20  apable icu {..  
0f50: 70 72 6f 63 20 64 6f 5f 69 63 75 5f 74 65 73 74  proc do_icu_test
0f60: 20 7b 6e 61 6d 65 20 6c 6f 63 61 6c 65 20 69 6e   {name locale in
0f70: 70 75 74 20 6f 75 74 70 75 74 7d 20 7b 0a 20 20  put output} {.  
0f80: 20 20 73 65 74 20 3a 3a 6f 75 74 20 5b 64 62 20    set ::out [db 
0f90: 65 76 61 6c 20 7b 20 53 45 4c 45 43 54 20 66 74  eval { SELECT ft
0fa0: 73 32 5f 74 6f 6b 65 6e 69 7a 65 72 5f 74 65 73  s2_tokenizer_tes
0fb0: 74 28 27 69 63 75 27 2c 20 24 6c 6f 63 61 6c 65  t('icu', $locale
0fc0: 2c 20 24 69 6e 70 75 74 29 20 7d 5d 0a 20 20 20  , $input) }].   
0fd0: 20 64 6f 5f 74 65 73 74 20 24 6e 61 6d 65 20 7b   do_test $name {
0fe0: 0a 20 20 20 20 20 20 6c 69 6e 64 65 78 20 24 3a  .      lindex $:
0ff0: 3a 6f 75 74 20 30 0a 20 20 20 20 7d 20 24 6f 75  :out 0.    } $ou
1000: 74 70 75 74 0a 20 20 7d 0a 20 20 0a 20 20 64 6f  tput.  }.  .  do
1010: 5f 69 63 75 5f 74 65 73 74 20 66 74 73 32 74 6f  _icu_test fts2to
1020: 6b 65 6e 2d 34 2e 31 20 65 6e 5f 55 53 20 20 7b  ken-4.1 en_US  {
1030: 7d 20 20 20 7b 7d 0a 20 20 64 6f 5f 69 63 75 5f  }   {}.  do_icu_
1040: 74 65 73 74 20 66 74 73 32 74 6f 6b 65 6e 2d 34  test fts2token-4
1050: 2e 32 20 65 6e 5f 55 53 20 7b 54 65 73 74 20 63  .2 en_US {Test c
1060: 61 73 65 73 20 66 74 73 32 7d 20 5b 6c 69 73 74  ases fts2} [list
1070: 20 5c 0a 20 20 20 20 30 20 74 65 73 74 20 54 65   \.    0 test Te
1080: 73 74 20 31 20 63 61 73 65 73 20 63 61 73 65 73  st 1 cases cases
1090: 20 32 20 66 74 73 32 20 66 74 73 32 0a 20 20 5d   2 fts2 fts2.  ]
10a0: 0a 0a 20 20 23 20 54 68 65 20 66 6f 6c 6c 6f 77  ..  # The follow
10b0: 69 6e 67 20 74 65 73 74 20 73 68 6f 77 73 20 74  ing test shows t
10c0: 68 61 74 20 49 43 55 20 69 73 20 73 6d 61 72 74  hat ICU is smart
10d0: 20 65 6e 6f 75 67 68 20 74 6f 20 72 65 63 6f 67   enough to recog
10e0: 6e 69 73 65 0a 20 20 23 20 54 68 61 69 20 63 68  nise.  # Thai ch
10f0: 61 72 61 72 61 63 74 65 72 73 2c 20 65 76 65 6e  araracters, even
1100: 20 77 68 65 6e 20 74 68 65 20 6c 6f 63 61 6c 65   when the locale
1110: 20 69 73 20 73 65 74 20 74 6f 20 45 6e 67 6c 69   is set to Engli
1120: 73 68 2f 55 6e 69 74 65 64 20 0a 20 20 23 20 53  sh/United .  # S
1130: 74 61 74 65 73 2e 0a 20 20 23 0a 20 20 73 65 74  tates..  #.  set
1140: 20 69 6e 70 75 74 20 22 5c 75 30 65 32 64 5c 75   input "\u0e2d\u
1150: 30 65 33 30 5c 75 30 65 34 34 5c 75 30 65 32 33  0e30\u0e44\u0e23
1160: 5c 75 30 65 31 39 5c 75 30 65 33 30 5c 75 30 65  \u0e19\u0e30\u0e
1170: 30 34 5c 75 30 65 32 33 5c 75 30 65 33 31 5c 75  04\u0e23\u0e31\u
1180: 30 65 31 61 22 0a 20 20 73 65 74 20 6f 75 74 70  0e1a".  set outp
1190: 75 74 20 20 20 20 22 30 20 5c 75 30 65 32 64 5c  ut    "0 \u0e2d\
11a0: 75 30 65 33 30 5c 75 30 65 34 34 5c 75 30 65 32  u0e30\u0e44\u0e2
11b0: 33 20 5c 75 30 65 32 64 5c 75 30 65 33 30 5c 75  3 \u0e2d\u0e30\u
11c0: 30 65 34 34 5c 75 30 65 32 33 20 22 0a 20 20 61  0e44\u0e23 ".  a
11d0: 70 70 65 6e 64 20 6f 75 74 70 75 74 20 22 31 20  ppend output "1 
11e0: 5c 75 30 65 31 39 5c 75 30 65 33 30 20 5c 75 30  \u0e19\u0e30 \u0
11f0: 65 31 39 5c 75 30 65 33 30 20 22 0a 20 20 61 70  e19\u0e30 ".  ap
1200: 70 65 6e 64 20 6f 75 74 70 75 74 20 22 32 20 5c  pend output "2 \
1210: 75 30 65 30 34 5c 75 30 65 32 33 5c 75 30 65 33  u0e04\u0e23\u0e3
1220: 31 5c 75 30 65 31 61 20 5c 75 30 65 30 34 5c 75  1\u0e1a \u0e04\u
1230: 30 65 32 33 5c 75 30 65 33 31 5c 75 30 65 31 61  0e23\u0e31\u0e1a
1240: 22 0a 0a 20 20 64 6f 5f 69 63 75 5f 74 65 73 74  "..  do_icu_test
1250: 20 66 74 73 32 74 6f 6b 65 6e 2d 34 2e 33 20 74   fts2token-4.3 t
1260: 68 5f 54 48 20 20 24 69 6e 70 75 74 20 24 6f 75  h_TH  $input $ou
1270: 74 70 75 74 0a 20 20 64 6f 5f 69 63 75 5f 74 65  tput.  do_icu_te
1280: 73 74 20 66 74 73 32 74 6f 6b 65 6e 2d 34 2e 34  st fts2token-4.4
1290: 20 65 6e 5f 55 53 20 20 24 69 6e 70 75 74 20 24   en_US  $input $
12a0: 6f 75 74 70 75 74 0a 0a 20 20 23 20 49 43 55 20  output..  # ICU 
12b0: 68 61 6e 64 6c 65 73 20 61 6e 20 75 6e 6b 6e 6f  handles an unkno
12c0: 77 6e 20 6c 6f 63 61 6c 65 20 62 79 20 66 61 6c  wn locale by fal
12d0: 6c 69 6e 67 20 62 61 63 6b 20 74 6f 20 74 68 65  ling back to the
12e0: 20 64 65 66 61 75 6c 74 2e 0a 20 20 23 20 53 6f   default..  # So
12f0: 20 74 68 69 73 20 69 73 20 6e 6f 74 20 61 6e 20   this is not an 
1300: 65 72 72 6f 72 2e 0a 20 20 64 6f 5f 69 63 75 5f  error..  do_icu_
1310: 74 65 73 74 20 66 74 73 32 74 6f 6b 65 6e 2d 34  test fts2token-4
1320: 2e 35 20 4d 69 64 64 6c 65 4f 66 54 68 65 4f 63  .5 MiddleOfTheOc
1330: 65 61 6e 20 20 24 69 6e 70 75 74 20 24 6f 75 74  ean  $input $out
1340: 70 75 74 0a 0a 20 20 73 65 74 20 20 20 20 6c 6f  put..  set    lo
1350: 6e 67 74 6f 6b 65 6e 20 22 41 52 65 61 6c 6c 79  ngtoken "AReally
1360: 52 65 61 6c 6c 79 4c 6f 6e 67 54 6f 6b 65 6e 4f  ReallyLongTokenO
1370: 6e 65 54 68 61 74 57 69 6c 6c 53 75 72 65 6c 79  neThatWillSurely
1380: 52 65 71 75 69 72 65 22 0a 20 20 61 70 70 65 6e  Require".  appen
1390: 64 20 6c 6f 6e 67 74 6f 6b 65 6e 20 22 41 52 65  d longtoken "ARe
13a0: 61 6c 6c 6f 63 49 6e 54 68 65 49 63 75 54 6f 6b  allocInTheIcuTok
13b0: 65 6e 69 7a 65 72 43 6f 64 65 22 0a 0a 20 20 73  enizerCode"..  s
13c0: 65 74 20 20 20 20 69 6e 70 75 74 20 22 73 68 6f  et    input "sho
13d0: 72 74 20 74 6f 6b 65 6e 73 20 74 68 65 6e 20 22  rt tokens then "
13e0: 0a 20 20 61 70 70 65 6e 64 20 69 6e 70 75 74 20  .  append input 
13f0: 24 6c 6f 6e 67 74 6f 6b 65 6e 0a 20 20 73 65 74  $longtoken.  set
1400: 20 20 20 20 6f 75 74 70 75 74 20 22 30 20 73 68      output "0 sh
1410: 6f 72 74 20 73 68 6f 72 74 20 22 0a 20 20 61 70  ort short ".  ap
1420: 70 65 6e 64 20 6f 75 74 70 75 74 20 22 31 20 74  pend output "1 t
1430: 6f 6b 65 6e 73 20 74 6f 6b 65 6e 73 20 22 0a 20  okens tokens ". 
1440: 20 61 70 70 65 6e 64 20 6f 75 74 70 75 74 20 22   append output "
1450: 32 20 74 68 65 6e 20 74 68 65 6e 20 22 0a 20 20  2 then then ".  
1460: 61 70 70 65 6e 64 20 6f 75 74 70 75 74 20 22 33  append output "3
1470: 20 5b 73 74 72 69 6e 67 20 74 6f 6c 6f 77 65 72   [string tolower
1480: 20 24 6c 6f 6e 67 74 6f 6b 65 6e 5d 20 24 6c 6f   $longtoken] $lo
1490: 6e 67 74 6f 6b 65 6e 22 0a 0a 20 20 64 6f 5f 69  ngtoken"..  do_i
14a0: 63 75 5f 74 65 73 74 20 66 74 73 32 74 6f 6b 65  cu_test fts2toke
14b0: 6e 2d 34 2e 36 20 4d 69 64 64 6c 65 4f 66 54 68  n-4.6 MiddleOfTh
14c0: 65 4f 63 65 61 6e 20 20 24 69 6e 70 75 74 20 24  eOcean  $input $
14d0: 6f 75 74 70 75 74 0a 20 20 64 6f 5f 69 63 75 5f  output.  do_icu_
14e0: 74 65 73 74 20 66 74 73 32 74 6f 6b 65 6e 2d 34  test fts2token-4
14f0: 2e 37 20 74 68 5f 54 48 20 20 24 69 6e 70 75 74  .7 th_TH  $input
1500: 20 24 6f 75 74 70 75 74 0a 20 20 64 6f 5f 69 63   $output.  do_ic
1510: 75 5f 74 65 73 74 20 66 74 73 32 74 6f 6b 65 6e  u_test fts2token
1520: 2d 34 2e 38 20 65 6e 5f 55 53 20 20 24 69 6e 70  -4.8 en_US  $inp
1530: 75 74 20 24 6f 75 74 70 75 74 0a 7d 0a 0a 64 6f  ut $output.}..do
1540: 5f 74 65 73 74 20 66 74 73 32 74 6f 6b 65 6e 2d  _test fts2token-
1550: 69 6e 74 65 72 6e 61 6c 20 7b 0a 20 20 65 78 65  internal {.  exe
1560: 63 73 71 6c 20 7b 20 53 45 4c 45 43 54 20 66 74  csql { SELECT ft
1570: 73 32 5f 74 6f 6b 65 6e 69 7a 65 72 5f 69 6e 74  s2_tokenizer_int
1580: 65 72 6e 61 6c 5f 74 65 73 74 28 29 20 7d 0a 7d  ernal_test() }.}
1590: 20 7b 6f 6b 7d 0a 0a 66 69 6e 69 73 68 5f 74 65   {ok}..finish_te
15a0: 73 74 0a                                         st.