/ Hex Artifact Content
Login

Artifact 9b3df486de05fb4bde4aa7ee8de2e6dae1df6eb90e3f2e242c9383b95d314e3e:


0000: 23 20 32 30 31 32 20 4d 61 79 20 32 35 0a 23 0a  # 2012 May 25.#.
0010: 23 20 54 68 65 20 61 75 74 68 6f 72 20 64 69 73  # The author dis
0020: 63 6c 61 69 6d 73 20 63 6f 70 79 72 69 67 68 74  claims copyright
0030: 20 74 6f 20 74 68 69 73 20 73 6f 75 72 63 65 20   to this source 
0040: 63 6f 64 65 2e 20 20 49 6e 20 70 6c 61 63 65 20  code.  In place 
0050: 6f 66 0a 23 20 61 20 6c 65 67 61 6c 20 6e 6f 74  of.# a legal not
0060: 69 63 65 2c 20 68 65 72 65 20 69 73 20 61 20 62  ice, here is a b
0070: 6c 65 73 73 69 6e 67 3a 0a 23 0a 23 20 20 20 20  lessing:.#.#    
0080: 4d 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64 20  May you do good 
0090: 61 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 23 20  and not evil..# 
00a0: 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64 20     May you find 
00b0: 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72 20  forgiveness for 
00c0: 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f 72  yourself and for
00d0: 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 23 20 20  give others..#  
00e0: 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65 20    May you share 
00f0: 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74 61  freely, never ta
0100: 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20 79  king more than y
0110: 6f 75 20 67 69 76 65 2e 0a 23 0a 23 2a 2a 2a 2a  ou give..#.#****
0120: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 0a 23 0a 23 20 54 68 65 20 74 65  *****.#.# The te
0170: 73 74 73 20 69 6e 20 74 68 69 73 20 66 69 6c 65  sts in this file
0180: 20 66 6f 63 75 73 20 6f 6e 20 74 65 73 74 69 6e   focus on testin
0190: 67 20 74 68 65 20 22 75 6e 69 63 6f 64 65 22 20  g the "unicode" 
01a0: 46 54 53 20 74 6f 6b 65 6e 69 7a 65 72 2e 0a 23  FTS tokenizer..#
01b0: 0a 23 20 54 68 69 73 20 69 73 20 61 20 6d 6f 64  .# This is a mod
01c0: 69 66 69 65 64 20 63 6f 70 79 20 6f 66 20 46 54  ified copy of FT
01d0: 53 34 20 74 65 73 74 20 66 69 6c 65 20 22 66 74  S4 test file "ft
01e0: 73 34 5f 75 6e 69 63 6f 64 65 2e 74 65 73 74 22  s4_unicode.test"
01f0: 2e 0a 23 0a 0a 73 6f 75 72 63 65 20 5b 66 69 6c  ..#..source [fil
0200: 65 20 6a 6f 69 6e 20 5b 66 69 6c 65 20 64 69 72  e join [file dir
0210: 6e 61 6d 65 20 5b 69 6e 66 6f 20 73 63 72 69 70  name [info scrip
0220: 74 5d 5d 20 66 74 73 35 5f 63 6f 6d 6d 6f 6e 2e  t]] fts5_common.
0230: 74 63 6c 5d 0a 73 65 74 20 74 65 73 74 70 72 65  tcl].set testpre
0240: 66 69 78 20 66 74 73 35 75 6e 69 63 6f 64 65 32  fix fts5unicode2
0250: 0a 0a 23 20 49 66 20 53 51 4c 49 54 45 5f 45 4e  ..# If SQLITE_EN
0260: 41 42 4c 45 5f 46 54 53 35 20 69 73 20 64 65 66  ABLE_FTS5 is def
0270: 69 6e 65 64 2c 20 6f 6d 69 74 20 74 68 69 73 20  ined, omit this 
0280: 66 69 6c 65 2e 0a 69 66 63 61 70 61 62 6c 65 20  file..ifcapable 
0290: 21 66 74 73 35 20 7b 0a 20 20 66 69 6e 69 73 68  !fts5 {.  finish
02a0: 5f 74 65 73 74 0a 20 20 72 65 74 75 72 6e 0a 7d  _test.  return.}
02b0: 0a 0a 70 72 6f 63 20 64 6f 5f 75 6e 69 63 6f 64  ..proc do_unicod
02c0: 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 20 7b 74 6e  e_token_test {tn
02d0: 20 69 6e 70 75 74 20 72 65 73 7d 20 7b 0a 20 20   input res} {.  
02e0: 75 70 6c 65 76 65 6c 20 5b 6c 69 73 74 20 64 6f  uplevel [list do
02f0: 5f 74 65 73 74 20 24 74 6e 20 5b 6c 69 73 74 20  _test $tn [list 
0300: 5c 0a 20 20 20 20 73 71 6c 69 74 65 33 5f 66 74  \.    sqlite3_ft
0310: 73 35 5f 74 6f 6b 65 6e 69 7a 65 20 2d 73 75 62  s5_tokenize -sub
0320: 73 74 20 64 62 20 22 75 6e 69 63 6f 64 65 36 31  st db "unicode61
0330: 20 72 65 6d 6f 76 65 5f 64 69 61 63 72 69 74 69   remove_diacriti
0340: 63 73 20 30 22 20 24 69 6e 70 75 74 0a 20 20 5d  cs 0" $input.  ]
0350: 20 5b 6c 69 73 74 20 7b 2a 7d 24 72 65 73 5d 5d   [list {*}$res]]
0360: 0a 7d 0a 0a 70 72 6f 63 20 64 6f 5f 75 6e 69 63  .}..proc do_unic
0370: 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 32 20  ode_token_test2 
0380: 7b 74 6e 20 69 6e 70 75 74 20 72 65 73 7d 20 7b  {tn input res} {
0390: 0a 20 20 75 70 6c 65 76 65 6c 20 5b 6c 69 73 74  .  uplevel [list
03a0: 20 64 6f 5f 74 65 73 74 20 24 74 6e 20 5b 6c 69   do_test $tn [li
03b0: 73 74 20 5c 0a 20 20 20 20 73 71 6c 69 74 65 33  st \.    sqlite3
03c0: 5f 66 74 73 35 5f 74 6f 6b 65 6e 69 7a 65 20 2d  _fts5_tokenize -
03d0: 73 75 62 73 74 20 64 62 20 22 75 6e 69 63 6f 64  subst db "unicod
03e0: 65 36 31 22 20 24 69 6e 70 75 74 0a 20 20 5d 20  e61" $input.  ] 
03f0: 5b 6c 69 73 74 20 7b 2a 7d 24 72 65 73 5d 5d 0a  [list {*}$res]].
0400: 7d 0a 0a 70 72 6f 63 20 64 6f 5f 75 6e 69 63 6f  }..proc do_unico
0410: 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 33 20 7b  de_token_test3 {
0420: 74 6e 20 61 72 67 73 7d 20 7b 0a 20 20 73 65 74  tn args} {.  set
0430: 20 74 6f 6b 65 6e 69 7a 65 72 20 5b 63 6f 6e 63   tokenizer [conc
0440: 61 74 20 75 6e 69 63 6f 64 65 36 31 20 7b 2a 7d  at unicode61 {*}
0450: 5b 6c 72 61 6e 67 65 20 24 61 72 67 73 20 30 20  [lrange $args 0 
0460: 65 6e 64 2d 32 5d 5d 0a 20 20 73 65 74 20 69 6e  end-2]].  set in
0470: 70 75 74 20 5b 6c 69 6e 64 65 78 20 24 61 72 67  put [lindex $arg
0480: 73 20 65 6e 64 2d 31 5d 0a 20 20 73 65 74 20 72  s end-1].  set r
0490: 65 73 20 5b 6c 69 6e 64 65 78 20 24 61 72 67 73  es [lindex $args
04a0: 20 65 6e 64 5d 0a 20 20 75 70 6c 65 76 65 6c 20   end].  uplevel 
04b0: 5b 6c 69 73 74 20 64 6f 5f 74 65 73 74 20 24 74  [list do_test $t
04c0: 6e 20 5b 6c 69 73 74 20 5c 0a 20 20 20 20 73 71  n [list \.    sq
04d0: 6c 69 74 65 33 5f 66 74 73 35 5f 74 6f 6b 65 6e  lite3_fts5_token
04e0: 69 7a 65 20 2d 73 75 62 73 74 20 64 62 20 24 74  ize -subst db $t
04f0: 6f 6b 65 6e 69 7a 65 72 20 24 69 6e 70 75 74 0a  okenizer $input.
0500: 20 20 5d 20 5b 6c 69 73 74 20 7b 2a 7d 24 72 65    ] [list {*}$re
0510: 73 5d 5d 0a 7d 0a 0a 64 6f 5f 75 6e 69 63 6f 64  s]].}..do_unicod
0520: 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 20 31 2e 30  e_token_test 1.0
0530: 20 7b 61 20 42 20 63 20 44 7d 20 7b 61 20 61 20   {a B c D} {a a 
0540: 62 20 42 20 63 20 63 20 64 20 44 7d 0a 0a 64 6f  b B c c d D}..do
0550: 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74  _unicode_token_t
0560: 65 73 74 20 31 2e 31 20 22 5c 75 43 34 20 5c 75  est 1.1 "\uC4 \u
0570: 44 36 20 5c 75 44 43 22 20 5c 0a 20 20 20 20 22  D6 \uDC" \.    "
0580: 5c 75 45 34 20 5c 75 43 34 20 5c 75 46 36 20 5c  \uE4 \uC4 \uF6 \
0590: 75 44 36 20 5c 75 46 43 20 5c 75 44 43 22 0a 0a  uD6 \uFC \uDC"..
05a0: 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e  do_unicode_token
05b0: 5f 74 65 73 74 20 31 2e 32 20 22 78 5c 75 43 34  _test 1.2 "x\uC4
05c0: 78 20 78 5c 75 44 36 78 20 78 5c 75 44 43 78 22  x x\uD6x x\uDCx"
05d0: 20 5c 0a 20 20 20 20 22 78 5c 75 45 34 78 20 78   \.    "x\uE4x x
05e0: 5c 75 43 34 78 20 78 5c 75 46 36 78 20 78 5c 75  \uC4x x\uF6x x\u
05f0: 44 36 78 20 78 5c 75 46 43 78 20 78 5c 75 44 43  D6x x\uFCx x\uDC
0600: 78 22 0a 0a 23 20 30 78 30 30 44 46 20 69 73 20  x"..# 0x00DF is 
0610: 61 20 73 6d 61 6c 6c 20 22 73 68 61 72 70 20 73  a small "sharp s
0620: 22 2e 20 30 78 31 45 39 45 20 69 73 20 61 20 63  ". 0x1E9E is a c
0630: 61 70 69 74 61 6c 20 73 68 61 72 70 20 73 2e 0a  apital sharp s..
0640: 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e  do_unicode_token
0650: 5f 74 65 73 74 20 31 2e 33 20 22 5c 75 44 46 22  _test 1.3 "\uDF"
0660: 20 22 5c 75 44 46 20 5c 75 44 46 22 0a 64 6f 5f   "\uDF \uDF".do_
0670: 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65  unicode_token_te
0680: 73 74 20 31 2e 34 20 22 5c 75 31 45 39 45 22 20  st 1.4 "\u1E9E" 
0690: 22 5c 75 44 46 20 5c 75 31 45 39 45 22 0a 0a 64  "\uDF \u1E9E"..d
06a0: 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f  o_unicode_token_
06b0: 74 65 73 74 20 31 2e 35 20 22 54 68 65 20 71 75  test 1.5 "The qu
06c0: 69 63 6b 20 62 72 6f 77 6e 20 66 6f 78 22 20 7b  ick brown fox" {
06d0: 0a 20 20 74 68 65 20 54 68 65 20 71 75 69 63 6b  .  the The quick
06e0: 20 71 75 69 63 6b 20 62 72 6f 77 6e 20 62 72 6f   quick brown bro
06f0: 77 6e 20 66 6f 78 20 66 6f 78 0a 7d 0a 64 6f 5f  wn fox fox.}.do_
0700: 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65  unicode_token_te
0710: 73 74 20 31 2e 36 20 22 54 68 65 5c 75 30 30 62  st 1.6 "The\u00b
0720: 66 71 75 69 63 6b 5c 75 32 32 34 65 62 72 6f 77  fquick\u224ebrow
0730: 6e 5c 75 32 32 36 33 66 6f 78 22 20 7b 0a 20 20  n\u2263fox" {.  
0740: 74 68 65 20 54 68 65 20 71 75 69 63 6b 20 71 75  the The quick qu
0750: 69 63 6b 20 62 72 6f 77 6e 20 62 72 6f 77 6e 20  ick brown brown 
0760: 66 6f 78 20 66 6f 78 0a 7d 0a 0a 64 6f 5f 75 6e  fox fox.}..do_un
0770: 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74  icode_token_test
0780: 32 20 31 2e 37 20 20 7b 61 20 42 20 63 20 44 7d  2 1.7  {a B c D}
0790: 20 7b 61 20 61 20 62 20 42 20 63 20 63 20 64 20   {a a b B c c d 
07a0: 44 7d 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f  D}.do_unicode_to
07b0: 6b 65 6e 5f 74 65 73 74 32 20 31 2e 38 20 20 22  ken_test2 1.8  "
07c0: 5c 75 43 34 20 5c 75 44 36 20 5c 75 44 43 22 20  \uC4 \uD6 \uDC" 
07d0: 22 61 20 5c 75 43 34 20 6f 20 5c 75 44 36 20 75  "a \uC4 o \uD6 u
07e0: 20 5c 75 44 43 22 0a 0a 64 6f 5f 75 6e 69 63 6f   \uDC"..do_unico
07f0: 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 32 20 31  de_token_test2 1
0800: 2e 39 20 20 22 78 5c 75 43 34 78 20 78 5c 75 44  .9  "x\uC4x x\uD
0810: 36 78 20 78 5c 75 44 43 78 22 20 5c 0a 20 20 20  6x x\uDCx" \.   
0820: 20 22 78 61 78 20 78 5c 75 43 34 78 20 78 6f 78   "xax x\uC4x xox
0830: 20 78 5c 75 44 36 78 20 78 75 78 20 78 5c 75 44   x\uD6x xux x\uD
0840: 43 78 22 0a 0a 23 20 43 68 65 63 6b 20 74 68 61  Cx"..# Check tha
0850: 74 20 64 69 61 63 72 69 74 69 63 73 20 61 72 65  t diacritics are
0860: 20 72 65 6d 6f 76 65 64 20 69 66 20 72 65 6d 6f   removed if remo
0870: 76 65 5f 64 69 61 63 72 69 74 69 63 73 3d 31 20  ve_diacritics=1 
0880: 69 73 20 73 70 65 63 69 66 69 65 64 2e 0a 23 20  is specified..# 
0890: 41 6e 64 20 74 68 61 74 20 74 68 65 79 20 64 6f  And that they do
08a0: 20 6e 6f 74 20 62 72 65 61 6b 20 74 6f 6b 65 6e   not break token
08b0: 73 2e 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f  s..do_unicode_to
08c0: 6b 65 6e 5f 74 65 73 74 32 20 31 2e 31 30 20 22  ken_test2 1.10 "
08d0: 78 78 5c 75 30 33 30 31 78 78 22 20 22 78 78 78  xx\u0301xx" "xxx
08e0: 78 20 78 78 5c 75 33 30 31 78 78 22 0a 0a 23 20  x xx\u301xx"..# 
08f0: 54 69 74 6c 65 2d 63 61 73 65 20 6d 61 70 70 69  Title-case mappi
0900: 6e 67 73 20 77 6f 72 6b 0a 64 6f 5f 75 6e 69 63  ngs work.do_unic
0910: 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 20 31  ode_token_test 1
0920: 2e 31 31 20 22 5c 75 30 31 63 35 22 20 22 5c 75  .11 "\u01c5" "\u
0930: 30 31 63 36 20 5c 75 30 31 63 35 22 0a 0a 64 6f  01c6 \u01c5"..do
0940: 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74  _unicode_token_t
0950: 65 73 74 20 31 2e 31 32 20 22 5c 75 30 30 43 31  est 1.12 "\u00C1
0960: 61 62 63 5c 75 30 30 43 32 20 5c 75 30 30 44 31  abc\u00C2 \u00D1
0970: 64 65 66 5c 75 30 30 43 33 22 20 5c 0a 20 20 20  def\u00C3" \.   
0980: 20 22 5c 75 30 30 45 31 61 62 63 5c 75 30 30 45   "\u00E1abc\u00E
0990: 32 20 5c 75 30 30 43 31 61 62 63 5c 75 30 30 43  2 \u00C1abc\u00C
09a0: 32 20 5c 75 30 30 46 31 64 65 66 5c 75 30 30 45  2 \u00F1def\u00E
09b0: 33 20 5c 75 30 30 44 31 64 65 66 5c 75 30 30 43  3 \u00D1def\u00C
09c0: 33 22 0a 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74  3"..do_unicode_t
09d0: 6f 6b 65 6e 5f 74 65 73 74 20 31 2e 31 33 20 22  oken_test 1.13 "
09e0: 5c 75 30 30 41 32 61 62 63 5c 75 30 30 41 33 20  \u00A2abc\u00A3 
09f0: 5c 75 30 30 41 34 64 65 66 5c 75 30 30 41 35 22  \u00A4def\u00A5"
0a00: 20 5c 0a 20 20 20 20 22 61 62 63 20 61 62 63 20   \.    "abc abc 
0a10: 64 65 66 20 64 65 66 22 0a 0a 23 2d 2d 2d 2d 2d  def def"..#-----
0a20: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a30: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a40: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a50: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a60: 2d 2d 2d 2d 0a 23 0a 73 65 74 20 64 6f 63 73 20  ----.#.set docs 
0a70: 5b 6c 69 73 74 20 7b 0a 20 20 45 6e 68 61 6e 63  [list {.  Enhanc
0a80: 65 20 74 68 65 20 49 4e 53 45 52 54 20 73 79 6e  e the INSERT syn
0a90: 74 61 78 20 74 6f 20 61 6c 6c 6f 77 20 6d 75 6c  tax to allow mul
0aa0: 74 69 70 6c 65 20 72 6f 77 73 20 74 6f 20 62 65  tiple rows to be
0ab0: 20 69 6e 73 65 72 74 65 64 20 76 69 61 20 74 68   inserted via th
0ac0: 65 0a 20 20 56 41 4c 55 45 53 20 63 6c 61 75 73  e.  VALUES claus
0ad0: 65 2e 0a 7d 20 7b 0a 20 20 45 6e 68 61 6e 63 65  e..} {.  Enhance
0ae0: 20 74 68 65 20 43 52 45 41 54 45 20 56 49 52 54   the CREATE VIRT
0af0: 55 41 4c 20 54 41 42 4c 45 20 63 6f 6d 6d 61 6e  UAL TABLE comman
0b00: 64 20 74 6f 20 73 75 70 70 6f 72 74 20 74 68 65  d to support the
0b10: 20 49 46 20 4e 4f 54 20 45 58 49 53 54 53 20 63   IF NOT EXISTS c
0b20: 6c 61 75 73 65 2e 0a 7d 20 7b 0a 20 20 41 64 64  lause..} {.  Add
0b30: 65 64 20 74 68 65 20 73 71 6c 69 74 65 33 5f 73  ed the sqlite3_s
0b40: 74 72 69 63 6d 70 28 29 20 69 6e 74 65 72 66 61  tricmp() interfa
0b50: 63 65 20 61 73 20 61 20 63 6f 75 6e 74 65 72 70  ce as a counterp
0b60: 61 72 74 20 74 6f 20 73 71 6c 69 74 65 33 5f 73  art to sqlite3_s
0b70: 74 72 6e 69 63 6d 70 28 29 2e 0a 7d 20 7b 0a 20  trnicmp()..} {. 
0b80: 20 41 64 64 65 64 20 74 68 65 20 73 71 6c 69 74   Added the sqlit
0b90: 65 33 5f 64 62 5f 72 65 61 64 6f 6e 6c 79 28 29  e3_db_readonly()
0ba0: 20 69 6e 74 65 72 66 61 63 65 2e 0a 7d 20 7b 0a   interface..} {.
0bb0: 20 20 41 64 64 65 64 20 74 68 65 20 53 51 4c 49    Added the SQLI
0bc0: 54 45 5f 46 43 4e 54 4c 5f 50 52 41 47 4d 41 20  TE_FCNTL_PRAGMA 
0bd0: 66 69 6c 65 20 63 6f 6e 74 72 6f 6c 2c 20 67 69  file control, gi
0be0: 76 69 6e 67 20 56 46 53 20 69 6d 70 6c 65 6d 65  ving VFS impleme
0bf0: 6e 74 61 74 69 6f 6e 73 20 74 68 65 0a 20 20 61  ntations the.  a
0c00: 62 69 6c 69 74 79 20 74 6f 20 61 64 64 20 6e 65  bility to add ne
0c10: 77 20 50 52 41 47 4d 41 20 73 74 61 74 65 6d 65  w PRAGMA stateme
0c20: 6e 74 73 20 6f 72 20 74 6f 20 6f 76 65 72 72 69  nts or to overri
0c30: 64 65 20 62 75 69 6c 74 2d 69 6e 20 50 52 41 47  de built-in PRAG
0c40: 4d 41 73 2e 20 20 0a 7d 20 7b 0a 20 20 51 75 65  MAs.  .} {.  Que
0c50: 72 69 65 73 20 6f 66 20 74 68 65 20 66 6f 72 6d  ries of the form
0c60: 3a 20 22 53 45 4c 45 43 54 20 6d 61 78 28 78 29  : "SELECT max(x)
0c70: 2c 20 79 20 46 52 4f 4d 20 74 61 62 6c 65 22 20  , y FROM table" 
0c80: 72 65 74 75 72 6e 73 20 74 68 65 20 76 61 6c 75  returns the valu
0c90: 65 20 6f 66 20 79 20 6f 6e 0a 20 20 74 68 65 20  e of y on.  the 
0ca0: 73 61 6d 65 20 72 6f 77 20 74 68 61 74 20 63 6f  same row that co
0cb0: 6e 74 61 69 6e 73 20 74 68 65 20 6d 61 78 69 6d  ntains the maxim
0cc0: 75 6d 20 78 20 76 61 6c 75 65 2e 0a 7d 20 7b 0a  um x value..} {.
0cd0: 20 20 41 64 64 65 64 20 73 75 70 70 6f 72 74 20    Added support 
0ce0: 66 6f 72 20 74 68 65 20 46 54 53 34 20 6c 61 6e  for the FTS4 lan
0cf0: 67 75 61 67 65 69 64 20 6f 70 74 69 6f 6e 2e 0a  guageid option..
0d00: 7d 20 7b 0a 20 20 44 6f 63 75 6d 65 6e 74 65 64  } {.  Documented
0d10: 20 73 75 70 70 6f 72 74 20 66 6f 72 20 74 68 65   support for the
0d20: 20 46 54 53 34 20 63 6f 6e 74 65 6e 74 20 6f 70   FTS4 content op
0d30: 74 69 6f 6e 2e 20 54 68 69 73 20 66 65 61 74 75  tion. This featu
0d40: 72 65 20 68 61 73 20 61 63 74 75 61 6c 6c 79 0a  re has actually.
0d50: 20 20 62 65 65 6e 20 69 6e 20 74 68 65 20 63 6f    been in the co
0d60: 64 65 20 73 69 6e 63 65 20 76 65 72 73 69 6f 6e  de since version
0d70: 20 33 2e 37 2e 39 20 62 75 74 20 69 73 20 6f 6e   3.7.9 but is on
0d80: 6c 79 20 6e 6f 77 20 63 6f 6e 73 69 64 65 72 65  ly now considere
0d90: 64 20 74 6f 20 62 65 0a 20 20 6f 66 66 69 63 69  d to be.  offici
0da0: 61 6c 6c 79 20 73 75 70 70 6f 72 74 65 64 2e 20  ally supported. 
0db0: 20 0a 7d 20 7b 0a 20 20 50 65 6e 64 69 6e 67 20   .} {.  Pending 
0dc0: 73 74 61 74 65 6d 65 6e 74 73 20 6e 6f 20 6c 6f  statements no lo
0dd0: 6e 67 65 72 20 62 6c 6f 63 6b 20 52 4f 4c 4c 42  nger block ROLLB
0de0: 41 43 4b 2e 20 49 6e 73 74 65 61 64 2c 20 74 68  ACK. Instead, th
0df0: 65 20 70 65 6e 64 69 6e 67 20 73 74 61 74 65 6d  e pending statem
0e00: 65 6e 74 0a 20 20 77 69 6c 6c 20 72 65 74 75 72  ent.  will retur
0e10: 6e 20 53 51 4c 49 54 45 5f 41 42 4f 52 54 20 75  n SQLITE_ABORT u
0e20: 70 6f 6e 20 6e 65 78 74 20 61 63 63 65 73 73 20  pon next access 
0e30: 61 66 74 65 72 20 74 68 65 20 52 4f 4c 4c 42 41  after the ROLLBA
0e40: 43 4b 2e 20 20 0a 7d 20 7b 0a 20 20 49 6d 70 72  CK.  .} {.  Impr
0e50: 6f 76 65 6d 65 6e 74 73 20 74 6f 20 74 68 65 20  ovements to the 
0e60: 68 61 6e 64 6c 69 6e 67 20 6f 66 20 43 53 56 20  handling of CSV 
0e70: 69 6e 70 75 74 73 20 69 6e 20 74 68 65 20 63 6f  inputs in the co
0e80: 6d 6d 61 6e 64 2d 6c 69 6e 65 20 73 68 65 6c 6c  mmand-line shell
0e90: 0a 7d 20 7b 0a 20 20 46 69 78 20 61 20 62 75 67  .} {.  Fix a bug
0ea0: 20 69 6e 74 72 6f 64 75 63 65 64 20 69 6e 20 76   introduced in v
0eb0: 65 72 73 69 6f 6e 20 33 2e 37 2e 31 30 20 74 68  ersion 3.7.10 th
0ec0: 61 74 20 6d 69 67 68 74 20 63 61 75 73 65 20 61  at might cause a
0ed0: 20 4c 45 46 54 20 4a 4f 49 4e 20 74 6f 20 62 65   LEFT JOIN to be
0ee0: 0a 20 20 69 6e 63 6f 72 72 65 63 74 6c 79 20 63  .  incorrectly c
0ef0: 6f 6e 76 65 72 74 65 64 20 69 6e 74 6f 20 61 6e  onverted into an
0f00: 20 49 4e 4e 45 52 20 4a 4f 49 4e 20 69 66 20 74   INNER JOIN if t
0f10: 68 65 20 57 48 45 52 45 20 63 6c 61 75 73 65 20  he WHERE clause 
0f20: 69 6e 64 65 78 61 62 6c 65 20 74 65 72 6d 73 0a  indexable terms.
0f30: 20 20 63 6f 6e 6e 65 63 74 65 64 20 62 79 20 4f    connected by O
0f40: 52 2e 20 20 0a 7d 5d 0a 0a 73 65 74 20 6d 61 70  R.  .}]..set map
0f50: 28 61 29 20 5b 6c 69 73 74 20 22 5c 75 30 30 43  (a) [list "\u00C
0f60: 34 22 20 22 5c 75 30 30 45 34 22 5d 20 20 3b 20  4" "\u00E4"]  ; 
0f70: 23 20 4c 41 54 49 4e 20 4c 45 54 54 45 52 20 41  # LATIN LETTER A
0f80: 20 57 49 54 48 20 44 49 41 45 52 45 53 49 53 0a   WITH DIAERESIS.
0f90: 73 65 74 20 6d 61 70 28 65 29 20 5b 6c 69 73 74  set map(e) [list
0fa0: 20 22 5c 75 30 30 43 42 22 20 22 5c 75 30 30 45   "\u00CB" "\u00E
0fb0: 42 22 5d 20 20 3b 20 23 20 4c 41 54 49 4e 20 4c  B"]  ; # LATIN L
0fc0: 45 54 54 45 52 20 45 20 57 49 54 48 20 44 49 41  ETTER E WITH DIA
0fd0: 45 52 45 53 49 53 0a 73 65 74 20 6d 61 70 28 69  ERESIS.set map(i
0fe0: 29 20 5b 6c 69 73 74 20 22 5c 75 30 30 43 46 22  ) [list "\u00CF"
0ff0: 20 22 5c 75 30 30 45 46 22 5d 20 20 3b 20 23 20   "\u00EF"]  ; # 
1000: 4c 41 54 49 4e 20 4c 45 54 54 45 52 20 49 20 57  LATIN LETTER I W
1010: 49 54 48 20 44 49 41 45 52 45 53 49 53 0a 73 65  ITH DIAERESIS.se
1020: 74 20 6d 61 70 28 6f 29 20 5b 6c 69 73 74 20 22  t map(o) [list "
1030: 5c 75 30 30 44 36 22 20 22 5c 75 30 30 46 36 22  \u00D6" "\u00F6"
1040: 5d 20 20 3b 20 23 20 4c 41 54 49 4e 20 4c 45 54  ]  ; # LATIN LET
1050: 54 45 52 20 4f 20 57 49 54 48 20 44 49 41 45 52  TER O WITH DIAER
1060: 45 53 49 53 0a 73 65 74 20 6d 61 70 28 75 29 20  ESIS.set map(u) 
1070: 5b 6c 69 73 74 20 22 5c 75 30 30 44 43 22 20 22  [list "\u00DC" "
1080: 5c 75 30 30 46 43 22 5d 20 20 3b 20 23 20 4c 41  \u00FC"]  ; # LA
1090: 54 49 4e 20 4c 45 54 54 45 52 20 55 20 57 49 54  TIN LETTER U WIT
10a0: 48 20 44 49 41 45 52 45 53 49 53 0a 73 65 74 20  H DIAERESIS.set 
10b0: 6d 61 70 28 79 29 20 5b 6c 69 73 74 20 22 5c 75  map(y) [list "\u
10c0: 30 31 37 38 22 20 22 5c 75 30 30 46 46 22 5d 20  0178" "\u00FF"] 
10d0: 20 3b 20 23 20 4c 41 54 49 4e 20 4c 45 54 54 45   ; # LATIN LETTE
10e0: 52 20 59 20 57 49 54 48 20 44 49 41 45 52 45 53  R Y WITH DIAERES
10f0: 49 53 0a 73 65 74 20 6d 61 70 28 68 29 20 5b 6c  IS.set map(h) [l
1100: 69 73 74 20 22 5c 75 31 45 32 36 22 20 22 5c 75  ist "\u1E26" "\u
1110: 31 45 32 37 22 5d 20 20 3b 20 23 20 4c 41 54 49  1E27"]  ; # LATI
1120: 4e 20 4c 45 54 54 45 52 20 48 20 57 49 54 48 20  N LETTER H WITH 
1130: 44 49 41 45 52 45 53 49 53 0a 73 65 74 20 6d 61  DIAERESIS.set ma
1140: 70 28 77 29 20 5b 6c 69 73 74 20 22 5c 75 31 45  p(w) [list "\u1E
1150: 38 34 22 20 22 5c 75 31 45 38 35 22 5d 20 20 3b  84" "\u1E85"]  ;
1160: 20 23 20 4c 41 54 49 4e 20 4c 45 54 54 45 52 20   # LATIN LETTER 
1170: 57 20 57 49 54 48 20 44 49 41 45 52 45 53 49 53  W WITH DIAERESIS
1180: 0a 73 65 74 20 6d 61 70 28 78 29 20 5b 6c 69 73  .set map(x) [lis
1190: 74 20 22 5c 75 31 45 38 43 22 20 22 5c 75 31 45  t "\u1E8C" "\u1E
11a0: 38 44 22 5d 20 20 3b 20 23 20 4c 41 54 49 4e 20  8D"]  ; # LATIN 
11b0: 4c 45 54 54 45 52 20 58 20 57 49 54 48 20 44 49  LETTER X WITH DI
11c0: 41 45 52 45 53 49 53 0a 66 6f 72 65 61 63 68 20  AERESIS.foreach 
11d0: 6b 20 5b 61 72 72 61 79 20 6e 61 6d 65 73 20 6d  k [array names m
11e0: 61 70 5d 20 7b 0a 20 20 6c 61 70 70 65 6e 64 20  ap] {.  lappend 
11f0: 6d 61 70 70 69 6e 67 73 20 5b 73 74 72 69 6e 67  mappings [string
1200: 20 74 6f 75 70 70 65 72 20 24 6b 5d 20 5b 6c 69   toupper $k] [li
1210: 6e 64 65 78 20 24 6d 61 70 28 24 6b 29 20 30 5d  ndex $map($k) 0]
1220: 20 0a 20 20 6c 61 70 70 65 6e 64 20 6d 61 70 70   .  lappend mapp
1230: 69 6e 67 73 20 24 6b 20 5b 6c 69 6e 64 65 78 20  ings $k [lindex 
1240: 24 6d 61 70 28 24 6b 29 20 31 5d 0a 7d 0a 70 72  $map($k) 1].}.pr
1250: 6f 63 20 6d 61 70 64 6f 63 20 7b 64 6f 63 7d 20  oc mapdoc {doc} 
1260: 7b 20 0a 20 20 73 65 74 20 64 6f 63 20 5b 72 65  { .  set doc [re
1270: 67 73 75 62 20 2d 61 6c 6c 20 7b 5b 5b 3a 73 70  gsub -all {[[:sp
1280: 61 63 65 3a 5d 5d 2b 7d 20 24 64 6f 63 20 22 20  ace:]]+} $doc " 
1290: 22 5d 0a 20 20 73 74 72 69 6e 67 20 6d 61 70 20  "].  string map 
12a0: 24 3a 3a 6d 61 70 70 69 6e 67 73 20 5b 73 74 72  $::mappings [str
12b0: 69 6e 67 20 74 72 69 6d 20 24 64 6f 63 5d 20 0a  ing trim $doc] .
12c0: 7d 0a 0a 64 6f 5f 74 65 73 74 20 32 2e 30 20 7b  }..do_test 2.0 {
12d0: 0a 20 20 65 78 65 63 73 71 6c 20 7b 20 43 52 45  .  execsql { CRE
12e0: 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c  ATE VIRTUAL TABL
12f0: 45 20 74 32 20 55 53 49 4e 47 20 66 74 73 35 28  E t2 USING fts5(
1300: 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64 65  tokenize=unicode
1310: 36 31 2c 20 78 29 3b 20 7d 0a 20 20 66 6f 72 65  61, x); }.  fore
1320: 61 63 68 20 64 6f 63 20 24 64 6f 63 73 20 7b 0a  ach doc $docs {.
1330: 20 20 20 20 73 65 74 20 64 20 5b 6d 61 70 64 6f      set d [mapdo
1340: 63 20 24 64 6f 63 5d 0a 20 20 20 20 65 78 65 63  c $doc].    exec
1350: 73 71 6c 20 7b 20 49 4e 53 45 52 54 20 49 4e 54  sql { INSERT INT
1360: 4f 20 74 32 20 56 41 4c 55 45 53 28 24 64 29 20  O t2 VALUES($d) 
1370: 7d 0a 20 20 7d 0a 7d 20 7b 7d 0a 0a 64 6f 5f 74  }.  }.} {}..do_t
1380: 65 73 74 20 32 2e 31 20 7b 0a 20 20 73 65 74 20  est 2.1 {.  set 
1390: 71 20 5b 6d 61 70 64 6f 63 20 22 72 6f 77 22 5d  q [mapdoc "row"]
13a0: 0a 20 20 65 78 65 63 73 71 6c 20 7b 20 53 45 4c  .  execsql { SEL
13b0: 45 43 54 20 2a 20 46 52 4f 4d 20 74 32 20 57 48  ECT * FROM t2 WH
13c0: 45 52 45 20 74 32 20 4d 41 54 43 48 20 24 71 20  ERE t2 MATCH $q 
13d0: 7d 0a 7d 20 5b 6c 69 73 74 20 5b 6d 61 70 64 6f  }.} [list [mapdo
13e0: 63 20 7b 0a 20 20 51 75 65 72 69 65 73 20 6f 66  c {.  Queries of
13f0: 20 74 68 65 20 66 6f 72 6d 3a 20 22 53 45 4c 45   the form: "SELE
1400: 43 54 20 6d 61 78 28 78 29 2c 20 79 20 46 52 4f  CT max(x), y FRO
1410: 4d 20 74 61 62 6c 65 22 20 72 65 74 75 72 6e 73  M table" returns
1420: 20 74 68 65 20 76 61 6c 75 65 20 6f 66 20 79 20   the value of y 
1430: 6f 6e 0a 20 20 74 68 65 20 73 61 6d 65 20 72 6f  on.  the same ro
1440: 77 20 74 68 61 74 20 63 6f 6e 74 61 69 6e 73 20  w that contains 
1450: 74 68 65 20 6d 61 78 69 6d 75 6d 20 78 20 76 61  the maximum x va
1460: 6c 75 65 2e 0a 7d 5d 5d 0a 0a 66 6f 72 65 61 63  lue..}]]..foreac
1470: 68 20 7b 74 6e 20 71 75 65 72 79 20 73 6e 69 70  h {tn query snip
1480: 70 65 74 7d 20 7b 0a 20 20 32 20 22 72 6f 77 22  pet} {.  2 "row"
1490: 20 7b 0a 20 20 20 20 20 2e 2e 2e 72 65 74 75 72   {.     ...retur
14a0: 6e 73 20 74 68 65 20 76 61 6c 75 65 20 6f 66 20  ns the value of 
14b0: 79 20 6f 6e 20 74 68 65 20 73 61 6d 65 20 5b 72  y on the same [r
14c0: 6f 77 5d 20 74 68 61 74 20 63 6f 6e 74 61 69 6e  ow] that contain
14d0: 73 20 0a 20 20 20 20 20 74 68 65 20 6d 61 78 69  s .     the maxi
14e0: 6d 75 6d 20 78 20 76 61 6c 75 65 2e 0a 20 20 7d  mum x value..  }
14f0: 0a 20 20 33 20 22 52 4f 57 22 20 7b 0a 20 20 20  .  3 "ROW" {.   
1500: 20 20 2e 2e 2e 72 65 74 75 72 6e 73 20 74 68 65    ...returns the
1510: 20 76 61 6c 75 65 20 6f 66 20 79 20 6f 6e 20 74   value of y on t
1520: 68 65 20 73 61 6d 65 20 5b 72 6f 77 5d 20 74 68  he same [row] th
1530: 61 74 20 63 6f 6e 74 61 69 6e 73 20 0a 20 20 20  at contains .   
1540: 20 20 74 68 65 20 6d 61 78 69 6d 75 6d 20 78 20    the maximum x 
1550: 76 61 6c 75 65 2e 0a 20 20 7d 0a 20 20 34 20 22  value..  }.  4 "
1560: 72 6f 6c 6c 62 61 63 6b 22 20 7b 0a 20 20 20 20  rollback" {.    
1570: 20 50 65 6e 64 69 6e 67 20 73 74 61 74 65 6d 65   Pending stateme
1580: 6e 74 73 20 6e 6f 20 6c 6f 6e 67 65 72 20 62 6c  nts no longer bl
1590: 6f 63 6b 20 5b 52 4f 4c 4c 42 41 43 4b 5d 2e 20  ock [ROLLBACK]. 
15a0: 49 6e 73 74 65 61 64 2c 20 74 68 65 20 70 65 6e  Instead, the pen
15b0: 64 69 6e 67 0a 20 20 20 20 20 73 74 61 74 65 6d  ding.     statem
15c0: 65 6e 74 20 77 69 6c 6c 20 72 65 74 75 72 6e 20  ent will return 
15d0: 53 51 4c 49 54 45 5f 41 42 4f 52 54 20 75 70 6f  SQLITE_ABORT upo
15e0: 6e 2e 2e 2e 0a 20 20 7d 0a 20 20 35 20 22 72 4f  n....  }.  5 "rO
15f0: 6c 6c 62 61 63 6b 22 20 7b 0a 20 20 20 20 20 50  llback" {.     P
1600: 65 6e 64 69 6e 67 20 73 74 61 74 65 6d 65 6e 74  ending statement
1610: 73 20 6e 6f 20 6c 6f 6e 67 65 72 20 62 6c 6f 63  s no longer bloc
1620: 6b 20 5b 52 4f 4c 4c 42 41 43 4b 5d 2e 20 49 6e  k [ROLLBACK]. In
1630: 73 74 65 61 64 2c 20 74 68 65 20 70 65 6e 64 69  stead, the pendi
1640: 6e 67 0a 20 20 20 20 20 73 74 61 74 65 6d 65 6e  ng.     statemen
1650: 74 20 77 69 6c 6c 20 72 65 74 75 72 6e 20 53 51  t will return SQ
1660: 4c 49 54 45 5f 41 42 4f 52 54 20 75 70 6f 6e 2e  LITE_ABORT upon.
1670: 2e 2e 0a 20 20 7d 0a 20 20 36 20 22 6c 61 6e 67  ...  }.  6 "lang
1680: 2a 22 20 7b 0a 20 20 20 20 20 41 64 64 65 64 20  *" {.     Added 
1690: 73 75 70 70 6f 72 74 20 66 6f 72 20 74 68 65 20  support for the 
16a0: 46 54 53 34 20 5b 6c 61 6e 67 75 61 67 65 69 64  FTS4 [languageid
16b0: 5d 20 6f 70 74 69 6f 6e 2e 0a 20 20 7d 0a 7d 20  ] option..  }.} 
16c0: 7b 0a 20 20 64 6f 5f 74 65 73 74 20 32 2e 24 74  {.  do_test 2.$t
16d0: 6e 20 7b 0a 20 20 20 20 73 65 74 20 71 20 5b 6d  n {.    set q [m
16e0: 61 70 64 6f 63 20 24 71 75 65 72 79 5d 0a 20 20  apdoc $query].  
16f0: 20 20 65 78 65 63 73 71 6c 20 7b 20 0a 20 20 20    execsql { .   
1700: 20 20 20 53 45 4c 45 43 54 20 73 6e 69 70 70 65     SELECT snippe
1710: 74 28 74 32 2c 20 2d 31 2c 20 27 5b 27 2c 20 27  t(t2, -1, '[', '
1720: 5d 27 2c 20 27 2e 2e 2e 27 2c 20 31 35 29 20 46  ]', '...', 15) F
1730: 52 4f 4d 20 74 32 20 57 48 45 52 45 20 74 32 20  ROM t2 WHERE t2 
1740: 4d 41 54 43 48 20 24 71 20 0a 20 20 20 20 7d 0a  MATCH $q .    }.
1750: 20 20 7d 20 5b 6c 69 73 74 20 5b 6d 61 70 64 6f    } [list [mapdo
1760: 63 20 24 73 6e 69 70 70 65 74 5d 5d 0a 7d 0a 0a  c $snippet]].}..
1770: 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  #---------------
1780: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
1790: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
17a0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
17b0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 20 4d 61 6b  ----------.# Mak
17c0: 65 20 73 75 72 65 20 74 68 65 20 75 6e 69 63 6f  e sure the unico
17d0: 64 65 36 31 20 74 6f 6b 65 6e 69 7a 65 72 20 64  de61 tokenizer d
17e0: 6f 65 73 20 6e 6f 74 20 63 72 61 73 68 20 69 66  oes not crash if
17f0: 20 69 74 20 69 73 20 70 61 73 73 65 64 20 61 20   it is passed a 
1800: 0a 23 20 4e 55 4c 4c 20 70 6f 69 6e 74 65 72 2e  .# NULL pointer.
1810: 0a 72 65 73 65 74 5f 64 62 0a 64 6f 5f 65 78 65  .reset_db.do_exe
1820: 63 73 71 6c 5f 74 65 73 74 20 33 2e 31 20 7b 0a  csql_test 3.1 {.
1830: 20 20 43 52 45 41 54 45 20 56 49 52 54 55 41 4c    CREATE VIRTUAL
1840: 20 54 41 42 4c 45 20 74 31 20 55 53 49 4e 47 20   TABLE t1 USING 
1850: 66 74 73 35 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e  fts5(tokenize=un
1860: 69 63 6f 64 65 36 31 2c 20 78 2c 20 79 29 3b 0a  icode61, x, y);.
1870: 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31    INSERT INTO t1
1880: 20 56 41 4c 55 45 53 28 4e 55 4c 4c 2c 20 27 61   VALUES(NULL, 'a
1890: 20 62 20 63 27 29 3b 0a 7d 0a 0a 64 6f 5f 65 78   b c');.}..do_ex
18a0: 65 63 73 71 6c 5f 74 65 73 74 20 33 2e 32 20 7b  ecsql_test 3.2 {
18b0: 0a 20 20 53 45 4c 45 43 54 20 73 6e 69 70 70 65  .  SELECT snippe
18c0: 74 28 74 31 2c 20 2d 31 2c 20 27 5b 27 2c 20 27  t(t1, -1, '[', '
18d0: 5d 27 2c 20 27 2e 2e 2e 27 2c 20 31 35 29 20 46  ]', '...', 15) F
18e0: 52 4f 4d 20 74 31 20 57 48 45 52 45 20 74 31 20  ROM t1 WHERE t1 
18f0: 4d 41 54 43 48 20 27 62 27 0a 7d 20 7b 7b 61 20  MATCH 'b'.} {{a 
1900: 5b 62 5d 20 63 7d 7d 0a 0a 64 6f 5f 65 78 65 63  [b] c}}..do_exec
1910: 73 71 6c 5f 74 65 73 74 20 33 2e 33 20 7b 0a 20  sql_test 3.3 {. 
1920: 20 42 45 47 49 4e 3b 0a 20 20 44 45 4c 45 54 45   BEGIN;.  DELETE
1930: 20 46 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45   FROM t1;.  INSE
1940: 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55 45  RT INTO t1 VALUE
1950: 53 28 27 62 20 62 20 62 20 62 20 62 20 62 20 62  S('b b b b b b b
1960: 20 62 20 62 20 62 20 62 27 2c 20 27 62 20 62 20   b b b b', 'b b 
1970: 62 20 62 20 62 20 62 20 62 20 62 20 62 20 62 20  b b b b b b b b 
1980: 62 20 62 20 62 27 29 3b 0a 20 20 49 4e 53 45 52  b b b');.  INSER
1990: 54 20 49 4e 54 4f 20 74 31 20 53 45 4c 45 43 54  T INTO t1 SELECT
19a0: 20 2a 20 46 52 4f 4d 20 74 31 3b 0a 20 20 49 4e   * FROM t1;.  IN
19b0: 53 45 52 54 20 49 4e 54 4f 20 74 31 20 53 45 4c  SERT INTO t1 SEL
19c0: 45 43 54 20 2a 20 46 52 4f 4d 20 74 31 3b 0a 20  ECT * FROM t1;. 
19d0: 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20   INSERT INTO t1 
19e0: 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74 31  SELECT * FROM t1
19f0: 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20  ;.  INSERT INTO 
1a00: 74 31 20 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d  t1 SELECT * FROM
1a10: 20 74 31 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e   t1;.  INSERT IN
1a20: 54 4f 20 74 31 20 53 45 4c 45 43 54 20 2a 20 46  TO t1 SELECT * F
1a30: 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45 52 54  ROM t1;.  INSERT
1a40: 20 49 4e 54 4f 20 74 31 20 53 45 4c 45 43 54 20   INTO t1 SELECT 
1a50: 2a 20 46 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53  * FROM t1;.  INS
1a60: 45 52 54 20 49 4e 54 4f 20 74 31 20 53 45 4c 45  ERT INTO t1 SELE
1a70: 43 54 20 2a 20 46 52 4f 4d 20 74 31 3b 0a 20 20  CT * FROM t1;.  
1a80: 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 53  INSERT INTO t1 S
1a90: 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74 31 3b  ELECT * FROM t1;
1aa0: 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74  .  INSERT INTO t
1ab0: 31 20 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20  1 SELECT * FROM 
1ac0: 74 31 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54  t1;.  INSERT INT
1ad0: 4f 20 74 31 20 53 45 4c 45 43 54 20 2a 20 46 52  O t1 SELECT * FR
1ae0: 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45 52 54 20  OM t1;.  INSERT 
1af0: 49 4e 54 4f 20 74 31 20 53 45 4c 45 43 54 20 2a  INTO t1 SELECT *
1b00: 20 46 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45   FROM t1;.  INSE
1b10: 52 54 20 49 4e 54 4f 20 74 31 20 53 45 4c 45 43  RT INTO t1 SELEC
1b20: 54 20 2a 20 46 52 4f 4d 20 74 31 3b 0a 20 20 49  T * FROM t1;.  I
1b30: 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 53 45  NSERT INTO t1 SE
1b40: 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74 31 3b 0a  LECT * FROM t1;.
1b50: 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31    INSERT INTO t1
1b60: 20 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74   SELECT * FROM t
1b70: 31 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f  1;.  INSERT INTO
1b80: 20 74 31 20 53 45 4c 45 43 54 20 2a 20 46 52 4f   t1 SELECT * FRO
1b90: 4d 20 74 31 3b 0a 20 20 49 4e 53 45 52 54 20 49  M t1;.  INSERT I
1ba0: 4e 54 4f 20 74 31 20 53 45 4c 45 43 54 20 2a 20  NTO t1 SELECT * 
1bb0: 46 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45 52  FROM t1;.  INSER
1bc0: 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55 45 53  T INTO t1 VALUES
1bd0: 28 27 61 20 62 20 63 27 2c 20 4e 55 4c 4c 29 3b  ('a b c', NULL);
1be0: 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74  .  INSERT INTO t
1bf0: 31 20 56 41 4c 55 45 53 28 27 61 20 78 20 63 27  1 VALUES('a x c'
1c00: 2c 20 4e 55 4c 4c 29 3b 0a 20 20 43 4f 4d 4d 49  , NULL);.  COMMI
1c10: 54 3b 0a 7d 0a 0a 64 6f 5f 65 78 65 63 73 71 6c  T;.}..do_execsql
1c20: 5f 74 65 73 74 20 33 2e 34 20 7b 0a 20 20 53 45  _test 3.4 {.  SE
1c30: 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74 31 20 57  LECT * FROM t1 W
1c40: 48 45 52 45 20 74 31 20 4d 41 54 43 48 20 27 61  HERE t1 MATCH 'a
1c50: 20 62 27 3b 0a 7d 20 7b 7b 61 20 62 20 63 7d 20   b';.} {{a b c} 
1c60: 7b 7d 7d 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  {}}..#----------
1c70: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
1c80: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
1c90: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
1ca0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a  ---------------.
1cb0: 23 0a 72 65 73 65 74 5f 64 62 0a 0a 64 6f 5f 74  #.reset_db..do_t
1cc0: 65 73 74 20 34 2e 31 20 7b 0a 20 20 73 65 74 20  est 4.1 {.  set 
1cd0: 61 20 22 61 62 63 5c 75 46 46 46 45 64 65 66 22  a "abc\uFFFEdef"
1ce0: 0a 20 20 73 65 74 20 62 20 22 61 62 63 5c 75 44  .  set b "abc\uD
1cf0: 38 30 30 64 65 66 22 0a 20 20 73 65 74 20 63 20  800def".  set c 
1d00: 22 5c 75 46 46 46 45 64 65 66 22 0a 20 20 73 65  "\uFFFEdef".  se
1d10: 74 20 64 20 22 5c 75 44 38 30 30 64 65 66 22 0a  t d "\uD800def".
1d20: 20 20 65 78 65 63 73 71 6c 20 7b 0a 20 20 20 20    execsql {.    
1d30: 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54  CREATE VIRTUAL T
1d40: 41 42 4c 45 20 74 31 20 55 53 49 4e 47 20 66 74  ABLE t1 USING ft
1d50: 73 35 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63  s5(tokenize=unic
1d60: 6f 64 65 36 31 2c 20 78 29 3b 0a 20 20 20 20 49  ode61, x);.    I
1d70: 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41  NSERT INTO t1 VA
1d80: 4c 55 45 53 28 24 61 29 3b 0a 20 20 20 20 49 4e  LUES($a);.    IN
1d90: 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c  SERT INTO t1 VAL
1da0: 55 45 53 28 24 62 29 3b 0a 20 20 20 20 49 4e 53  UES($b);.    INS
1db0: 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55  ERT INTO t1 VALU
1dc0: 45 53 28 24 63 29 3b 0a 20 20 20 20 49 4e 53 45  ES($c);.    INSE
1dd0: 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55 45  RT INTO t1 VALUE
1de0: 53 28 24 64 29 3b 0a 20 20 7d 0a 0a 20 20 65 78  S($d);.  }..  ex
1df0: 65 63 73 71 6c 20 22 43 52 45 41 54 45 20 56 49  ecsql "CREATE VI
1e00: 52 54 55 41 4c 20 54 41 42 4c 45 20 74 38 20 55  RTUAL TABLE t8 U
1e10: 53 49 4e 47 20 66 74 73 35 28 0a 20 20 20 20 20  SING fts5(.     
1e20: 20 61 2c 20 62 2c 20 74 6f 6b 65 6e 69 7a 65 3d   a, b, tokenize=
1e30: 5c 22 75 6e 69 63 6f 64 65 36 31 20 73 65 70 61  \"unicode61 sepa
1e40: 72 61 74 6f 72 73 20 27 5c 75 46 46 46 45 5c 75  rators '\uFFFE\u
1e50: 44 38 30 30 5c 75 30 30 42 46 27 5c 22 0a 20 20  D800\u00BF'\".  
1e60: 29 22 0a 7d 20 7b 7d 0a 0a 64 6f 5f 74 65 73 74  )".} {}..do_test
1e70: 20 34 2e 32 20 7b 0a 20 20 73 65 74 20 61 20 5b   4.2 {.  set a [
1e80: 62 69 6e 61 72 79 20 66 6f 72 6d 61 74 20 63 2a  binary format c*
1e90: 20 7b 30 78 36 31 20 30 78 46 37 20 30 78 42 46   {0x61 0xF7 0xBF
1ea0: 20 30 78 42 46 20 30 78 42 46 20 30 78 36 32 7d   0xBF 0xBF 0x62}
1eb0: 5d 0a 20 20 73 65 74 20 62 20 5b 62 69 6e 61 72  ].  set b [binar
1ec0: 79 20 66 6f 72 6d 61 74 20 63 2a 20 7b 30 78 36  y format c* {0x6
1ed0: 31 20 30 78 46 37 20 30 78 42 46 20 30 78 42 46  1 0xF7 0xBF 0xBF
1ee0: 20 30 78 42 46 20 30 78 42 46 20 30 78 36 32 7d   0xBF 0xBF 0x62}
1ef0: 5d 0a 20 20 73 65 74 20 63 20 5b 62 69 6e 61 72  ].  set c [binar
1f00: 79 20 66 6f 72 6d 61 74 20 63 2a 20 7b 30 78 36  y format c* {0x6
1f10: 31 20 30 78 46 37 20 30 78 42 46 20 30 78 42 46  1 0xF7 0xBF 0xBF
1f20: 20 30 78 42 46 20 30 78 42 46 20 30 78 42 46 20   0xBF 0xBF 0xBF 
1f30: 30 78 36 32 7d 5d 0a 20 20 73 65 74 20 64 20 5b  0x62}].  set d [
1f40: 62 69 6e 61 72 79 20 66 6f 72 6d 61 74 20 63 2a  binary format c*
1f50: 20 7b 30 78 36 31 20 30 78 46 37 20 30 78 42 46   {0x61 0xF7 0xBF
1f60: 20 30 78 42 46 20 30 78 42 46 20 30 78 42 46 20   0xBF 0xBF 0xBF 
1f70: 30 78 42 46 20 30 78 42 46 20 30 78 36 32 7d 5d  0xBF 0xBF 0x62}]
1f80: 0a 20 20 65 78 65 63 73 71 6c 20 7b 0a 20 20 20  .  execsql {.   
1f90: 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20   INSERT INTO t1 
1fa0: 56 41 4c 55 45 53 28 24 61 29 3b 0a 20 20 20 20  VALUES($a);.    
1fb0: 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56  INSERT INTO t1 V
1fc0: 41 4c 55 45 53 28 24 62 29 3b 0a 20 20 20 20 49  ALUES($b);.    I
1fd0: 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41  NSERT INTO t1 VA
1fe0: 4c 55 45 53 28 24 63 29 3b 0a 20 20 20 20 49 4e  LUES($c);.    IN
1ff0: 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c  SERT INTO t1 VAL
2000: 55 45 53 28 24 64 29 3b 0a 20 20 7d 0a 7d 20 7b  UES($d);.  }.} {
2010: 7d 0a 0a 64 6f 5f 74 65 73 74 20 34 2e 33 20 7b  }..do_test 4.3 {
2020: 0a 20 20 73 65 74 20 61 20 5b 62 69 6e 61 72 79  .  set a [binary
2030: 20 66 6f 72 6d 61 74 20 63 2a 20 7b 30 78 46 37   format c* {0xF7
2040: 20 30 78 42 46 20 30 78 42 46 20 30 78 42 46 7d   0xBF 0xBF 0xBF}
2050: 5d 0a 20 20 73 65 74 20 62 20 5b 62 69 6e 61 72  ].  set b [binar
2060: 79 20 66 6f 72 6d 61 74 20 63 2a 20 7b 30 78 46  y format c* {0xF
2070: 37 20 30 78 42 46 20 30 78 42 46 20 30 78 42 46  7 0xBF 0xBF 0xBF
2080: 20 30 78 42 46 7d 5d 0a 20 20 73 65 74 20 63 20   0xBF}].  set c 
2090: 5b 62 69 6e 61 72 79 20 66 6f 72 6d 61 74 20 63  [binary format c
20a0: 2a 20 7b 30 78 46 37 20 30 78 42 46 20 30 78 42  * {0xF7 0xBF 0xB
20b0: 46 20 30 78 42 46 20 30 78 42 46 20 30 78 42 46  F 0xBF 0xBF 0xBF
20c0: 7d 5d 0a 20 20 73 65 74 20 64 20 5b 62 69 6e 61  }].  set d [bina
20d0: 72 79 20 66 6f 72 6d 61 74 20 63 2a 20 7b 30 78  ry format c* {0x
20e0: 46 37 20 30 78 42 46 20 30 78 42 46 20 30 78 42  F7 0xBF 0xBF 0xB
20f0: 46 20 30 78 42 46 20 30 78 42 46 20 30 78 42 46  F 0xBF 0xBF 0xBF
2100: 7d 5d 0a 20 20 65 78 65 63 73 71 6c 20 7b 0a 20  }].  execsql {. 
2110: 20 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74     INSERT INTO t
2120: 31 20 56 41 4c 55 45 53 28 24 61 29 3b 0a 20 20  1 VALUES($a);.  
2130: 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31    INSERT INTO t1
2140: 20 56 41 4c 55 45 53 28 24 62 29 3b 0a 20 20 20   VALUES($b);.   
2150: 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20   INSERT INTO t1 
2160: 56 41 4c 55 45 53 28 24 63 29 3b 0a 20 20 20 20  VALUES($c);.    
2170: 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56  INSERT INTO t1 V
2180: 41 4c 55 45 53 28 24 64 29 3b 0a 20 20 7d 0a 7d  ALUES($d);.  }.}
2190: 20 7b 7d 0a 0a 64 6f 5f 74 65 73 74 20 34 2e 34   {}..do_test 4.4
21a0: 20 7b 0a 20 20 73 71 6c 69 74 65 33 5f 65 78 65   {.  sqlite3_exe
21b0: 63 5f 68 65 78 20 64 62 20 7b 0a 20 20 20 20 43  c_hex db {.    C
21c0: 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54 41  REATE VIRTUAL TA
21d0: 42 4c 45 20 74 39 20 55 53 49 4e 47 20 66 74 73  BLE t9 USING fts
21e0: 35 28 61 2c 20 62 2c 20 0a 20 20 20 20 20 20 74  5(a, b, .      t
21f0: 6f 6b 65 6e 69 7a 65 3d 22 75 6e 69 63 6f 64 65  okenize="unicode
2200: 36 31 20 73 65 70 61 72 61 74 6f 72 73 20 27 25  61 separators '%
2210: 43 30 39 30 30 34 27 22 0a 20 20 20 20 29 3b 0a  C09004'".    );.
2220: 20 20 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20      INSERT INTO 
2230: 74 39 28 61 29 20 56 41 4c 55 45 53 28 27 61 62  t9(a) VALUES('ab
2240: 63 25 38 38 64 65 66 20 25 38 39 67 68 69 25 39  c%88def %89ghi%9
2250: 30 27 29 3b 0a 20 20 7d 0a 7d 20 7b 30 20 7b 7d  0');.  }.} {0 {}
2260: 7d 0a 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  }...#-----------
2270: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2280: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2290: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
22a0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 0a  --------------..
22b0: 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e  do_unicode_token
22c0: 5f 74 65 73 74 33 20 35 2e 31 20 7b 74 6f 6b 65  _test3 5.1 {toke
22d0: 6e 63 68 61 72 73 20 7b 7d 7d 20 7b 0a 20 20 73  nchars {}} {.  s
22e0: 71 6c 69 74 65 33 5f 72 65 73 65 74 20 73 71 6c  qlite3_reset sql
22f0: 69 74 65 33 5f 63 6f 6c 75 6d 6e 5f 69 6e 74 0a  ite3_column_int.
2300: 7d 20 7b 0a 20 20 73 71 6c 69 74 65 33 20 73 71  } {.  sqlite3 sq
2310: 6c 69 74 65 33 20 0a 20 20 72 65 73 65 74 20 72  lite3 .  reset r
2320: 65 73 65 74 20 0a 20 20 73 71 6c 69 74 65 33 20  eset .  sqlite3 
2330: 73 71 6c 69 74 65 33 20 0a 20 20 63 6f 6c 75 6d  sqlite3 .  colum
2340: 6e 20 63 6f 6c 75 6d 6e 20 0a 20 20 69 6e 74 20  n column .  int 
2350: 69 6e 74 0a 7d 0a 0a 64 6f 5f 75 6e 69 63 6f 64  int.}..do_unicod
2360: 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 33 20 35 2e  e_token_test3 5.
2370: 32 20 7b 74 6f 6b 65 6e 63 68 61 72 73 20 5f 7d  2 {tokenchars _}
2380: 20 7b 0a 20 20 73 71 6c 69 74 65 33 5f 72 65 73   {.  sqlite3_res
2390: 65 74 20 73 71 6c 69 74 65 33 5f 63 6f 6c 75 6d  et sqlite3_colum
23a0: 6e 5f 69 6e 74 0a 7d 20 7b 0a 20 20 73 71 6c 69  n_int.} {.  sqli
23b0: 74 65 33 5f 72 65 73 65 74 20 73 71 6c 69 74 65  te3_reset sqlite
23c0: 33 5f 72 65 73 65 74 20 0a 20 20 73 71 6c 69 74  3_reset .  sqlit
23d0: 65 33 5f 63 6f 6c 75 6d 6e 5f 69 6e 74 20 73 71  e3_column_int sq
23e0: 6c 69 74 65 33 5f 63 6f 6c 75 6d 6e 5f 69 6e 74  lite3_column_int
23f0: 0a 7d 0a 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74  .}..do_unicode_t
2400: 6f 6b 65 6e 5f 74 65 73 74 33 20 35 2e 33 20 7b  oken_test3 5.3 {
2410: 73 65 70 61 72 61 74 6f 72 73 20 78 79 7a 7d 20  separators xyz} 
2420: 7b 0a 20 20 4c 61 6f 74 69 61 6e 78 68 6f 72 73  {.  Laotianxhors
2430: 65 79 72 75 6e 73 7a 66 61 73 74 0a 7d 20 7b 0a  eyrunszfast.} {.
2440: 20 20 6c 61 6f 74 69 61 6e 20 4c 61 6f 74 69 61    laotian Laotia
2450: 6e 0a 20 20 68 6f 72 73 65 20 68 6f 72 73 65 0a  n.  horse horse.
2460: 20 20 72 75 6e 73 20 72 75 6e 73 0a 20 20 66 61    runs runs.  fa
2470: 73 74 20 66 61 73 74 0a 7d 0a 0a 64 6f 5f 75 6e  st fast.}..do_un
2480: 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74  icode_token_test
2490: 33 20 35 2e 34 20 7b 74 6f 6b 65 6e 63 68 61 72  3 5.4 {tokenchar
24a0: 73 20 78 79 7a 7d 20 7b 0a 20 20 4c 61 6f 74 69  s xyz} {.  Laoti
24b0: 61 6e 78 68 6f 72 73 65 79 72 75 6e 73 7a 66 61  anxhorseyrunszfa
24c0: 73 74 0a 7d 20 7b 0a 20 20 6c 61 6f 74 69 61 6e  st.} {.  laotian
24d0: 78 68 6f 72 73 65 79 72 75 6e 73 7a 66 61 73 74  xhorseyrunszfast
24e0: 20 4c 61 6f 74 69 61 6e 78 68 6f 72 73 65 79 72   Laotianxhorseyr
24f0: 75 6e 73 7a 66 61 73 74 0a 7d 0a 0a 64 6f 5f 75  unszfast.}..do_u
2500: 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73  nicode_token_tes
2510: 74 33 20 35 2e 35 20 7b 74 6f 6b 65 6e 63 68 61  t3 5.5 {tokencha
2520: 72 73 20 5f 7d 20 7b 73 65 70 61 72 61 74 6f 72  rs _} {separator
2530: 73 20 7a 79 78 7d 20 7b 0a 20 20 73 71 6c 69 74  s zyx} {.  sqlit
2540: 65 33 5f 72 65 73 65 74 78 73 71 6c 69 74 65 33  e3_resetxsqlite3
2550: 5f 63 6f 6c 75 6d 6e 5f 69 6e 74 79 68 6f 6e 64  _column_intyhond
2560: 61 5f 70 68 61 6e 74 6f 6d 0a 7d 20 7b 0a 20 20  a_phantom.} {.  
2570: 73 71 6c 69 74 65 33 5f 72 65 73 65 74 20 73 71  sqlite3_reset sq
2580: 6c 69 74 65 33 5f 72 65 73 65 74 20 0a 20 20 73  lite3_reset .  s
2590: 71 6c 69 74 65 33 5f 63 6f 6c 75 6d 6e 5f 69 6e  qlite3_column_in
25a0: 74 20 73 71 6c 69 74 65 33 5f 63 6f 6c 75 6d 6e  t sqlite3_column
25b0: 5f 69 6e 74 0a 20 20 68 6f 6e 64 61 5f 70 68 61  _int.  honda_pha
25c0: 6e 74 6f 6d 20 68 6f 6e 64 61 5f 70 68 61 6e 74  ntom honda_phant
25d0: 6f 6d 0a 7d 0a 0a 64 6f 5f 75 6e 69 63 6f 64 65  om.}..do_unicode
25e0: 5f 74 6f 6b 65 6e 5f 74 65 73 74 33 20 35 2e 36  _token_test3 5.6
25f0: 20 22 73 65 70 61 72 61 74 6f 72 73 20 5c 75 30   "separators \u0
2600: 35 44 31 22 20 22 61 62 63 5c 75 30 35 44 31 64  5D1" "abc\u05D1d
2610: 65 66 22 20 7b 0a 20 20 61 62 63 20 61 62 63 20  ef" {.  abc abc 
2620: 64 65 66 20 64 65 66 0a 7d 0a 0a 64 6f 5f 75 6e  def def.}..do_un
2630: 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74  icode_token_test
2640: 33 20 35 2e 37 20 20 20 20 20 20 20 20 20 20 20  3 5.7           
2650: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2660: 20 20 5c 0a 20 20 22 74 6f 6b 65 6e 63 68 61 72    \.  "tokenchar
2670: 73 20 5c 75 32 34 34 34 5c 75 32 34 34 35 22 20  s \u2444\u2445" 
2680: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2690: 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 22             \.  "
26a0: 73 65 70 61 72 61 74 6f 72 73 20 5c 75 30 35 44  separators \u05D
26b0: 30 5c 75 30 35 44 31 5c 75 30 35 44 32 22 20 20  0\u05D1\u05D2"  
26c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
26d0: 20 20 20 20 5c 0a 20 20 22 5c 75 32 34 34 34 66      \.  "\u2444f
26e0: 72 65 5c 75 32 34 34 35 73 68 5c 75 30 35 44 30  re\u2445sh\u05D0
26f0: 77 61 74 65 72 5c 75 30 35 44 32 66 69 73 68 2e  water\u05D2fish.
2700: 5c 75 32 34 34 35 74 69 6d 65 72 22 20 5c 0a 20  \u2445timer" \. 
2710: 20 5b 6c 69 73 74 20 20 20 20 20 20 20 20 20 20   [list          
2720: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2730: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2740: 20 20 20 20 20 20 5c 0a 20 20 20 20 5c 75 32 34        \.    \u24
2750: 34 34 66 72 65 5c 75 32 34 34 35 73 68 20 5c 75  44fre\u2445sh \u
2760: 32 34 34 34 66 72 65 5c 75 32 34 34 35 73 68 20  2444fre\u2445sh 
2770: 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20               \. 
2780: 20 20 20 77 61 74 65 72 20 77 61 74 65 72 20 20     water water  
2790: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
27a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
27b0: 20 20 20 20 5c 0a 20 20 20 20 66 69 73 68 20 66      \.    fish f
27c0: 69 73 68 20 20 20 20 20 20 20 20 20 20 20 20 20  ish             
27d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
27e0: 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 20             \.   
27f0: 20 5c 75 32 34 34 35 74 69 6d 65 72 20 5c 75 32   \u2445timer \u2
2800: 34 34 35 74 69 6d 65 72 20 20 20 20 20 20 20 20  445timer        
2810: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2820: 20 20 5c 0a 20 20 5d 0a 0a 23 20 43 68 65 63 6b    \.  ]..# Check
2830: 20 74 68 61 74 20 69 74 20 69 73 20 6e 6f 74 20   that it is not 
2840: 70 6f 73 73 69 62 6c 65 20 74 6f 20 61 64 64 20  possible to add 
2850: 61 20 73 74 61 6e 64 61 6c 6f 6e 65 20 64 69 61  a standalone dia
2860: 63 72 69 74 69 63 20 63 6f 64 65 70 6f 69 6e 74  critic codepoint
2870: 20 0a 23 20 74 6f 20 65 69 74 68 65 72 20 73 65   .# to either se
2880: 70 61 72 61 74 6f 72 73 20 6f 72 20 74 6f 6b 65  parators or toke
2890: 6e 63 68 61 72 73 2e 0a 64 6f 5f 75 6e 69 63 6f  nchars..do_unico
28a0: 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 33 20 35  de_token_test3 5
28b0: 2e 38 20 22 73 65 70 61 72 61 74 6f 72 73 20 5c  .8 "separators \
28c0: 75 30 33 30 31 22 20 5c 0a 20 20 22 68 65 6c 6c  u0301" \.  "hell
28d0: 6f 5c 75 30 33 30 31 77 6f 72 6c 64 20 5c 75 30  o\u0301world \u0
28e0: 33 30 31 68 65 6c 6c 6f 77 6f 72 6c 64 22 20 20  301helloworld"  
28f0: 20 20 20 20 20 20 20 20 5c 0a 20 20 22 68 65 6c          \.  "hel
2900: 6c 6f 77 6f 72 6c 64 20 68 65 6c 6c 6f 5c 75 30  loworld hello\u0
2910: 33 30 31 77 6f 72 6c 64 20 68 65 6c 6c 6f 77 6f  301world hellowo
2920: 72 6c 64 20 68 65 6c 6c 6f 77 6f 72 6c 64 22 0a  rld helloworld".
2930: 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65  .do_unicode_toke
2940: 6e 5f 74 65 73 74 33 20 35 2e 39 20 22 74 6f 6b  n_test3 5.9 "tok
2950: 65 6e 63 68 61 72 73 20 5c 75 30 33 30 31 22 20  enchars \u0301" 
2960: 5c 0a 20 20 22 68 65 6c 6c 6f 5c 75 30 33 30 31  \.  "hello\u0301
2970: 77 6f 72 6c 64 20 5c 75 30 33 30 31 68 65 6c 6c  world \u0301hell
2980: 6f 77 6f 72 6c 64 22 20 20 20 20 20 20 20 20 20  oworld"         
2990: 20 5c 0a 20 20 22 68 65 6c 6c 6f 77 6f 72 6c 64   \.  "helloworld
29a0: 20 68 65 6c 6c 6f 5c 75 30 33 30 31 77 6f 72 6c   hello\u0301worl
29b0: 64 20 68 65 6c 6c 6f 77 6f 72 6c 64 20 68 65 6c  d helloworld hel
29c0: 6c 6f 77 6f 72 6c 64 22 0a 0a 64 6f 5f 75 6e 69  loworld"..do_uni
29d0: 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 33  code_token_test3
29e0: 20 35 2e 31 30 20 22 73 65 70 61 72 61 74 6f 72   5.10 "separator
29f0: 73 20 5c 75 30 33 30 31 22 20 5c 0a 20 20 22 72  s \u0301" \.  "r
2a00: 65 6d 6f 76 65 5f 64 69 61 63 72 69 74 69 63 73  emove_diacritics
2a10: 20 30 22 20 20 20 20 20 20 20 20 20 20 20 20 20   0"             
2a20: 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 22             \.  "
2a30: 68 65 6c 6c 6f 5c 75 30 33 30 31 77 6f 72 6c 64  hello\u0301world
2a40: 20 5c 75 30 33 30 31 68 65 6c 6c 6f 77 6f 72 6c   \u0301helloworl
2a50: 64 22 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20  d"          \.  
2a60: 22 68 65 6c 6c 6f 5c 75 30 33 30 31 77 6f 72 6c  "hello\u0301worl
2a70: 64 20 68 65 6c 6c 6f 5c 75 30 33 30 31 77 6f 72  d hello\u0301wor
2a80: 6c 64 20 68 65 6c 6c 6f 77 6f 72 6c 64 20 68 65  ld helloworld he
2a90: 6c 6c 6f 77 6f 72 6c 64 22 0a 0a 64 6f 5f 75 6e  lloworld"..do_un
2aa0: 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74  icode_token_test
2ab0: 33 20 35 2e 31 31 20 22 74 6f 6b 65 6e 63 68 61  3 5.11 "tokencha
2ac0: 72 73 20 5c 75 30 33 30 31 22 20 5c 0a 20 20 22  rs \u0301" \.  "
2ad0: 72 65 6d 6f 76 65 5f 64 69 61 63 72 69 74 69 63  remove_diacritic
2ae0: 73 20 30 22 20 20 20 20 20 20 20 20 20 20 20 20  s 0"            
2af0: 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20               \. 
2b00: 20 22 68 65 6c 6c 6f 5c 75 30 33 30 31 77 6f 72   "hello\u0301wor
2b10: 6c 64 20 5c 75 30 33 30 31 68 65 6c 6c 6f 77 6f  ld \u0301hellowo
2b20: 72 6c 64 22 20 20 20 20 20 20 20 20 20 20 20 5c  rld"           \
2b30: 0a 20 20 22 68 65 6c 6c 6f 5c 75 30 33 30 31 77  .  "hello\u0301w
2b40: 6f 72 6c 64 20 68 65 6c 6c 6f 5c 75 30 33 30 31  orld hello\u0301
2b50: 77 6f 72 6c 64 20 68 65 6c 6c 6f 77 6f 72 6c 64  world helloworld
2b60: 20 68 65 6c 6c 6f 77 6f 72 6c 64 22 0a 0a 23 2d   helloworld"..#-
2b70: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2b80: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2b90: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2ba0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2bb0: 2d 2d 2d 2d 2d 2d 2d 2d 0a 0a 70 72 6f 63 20 64  --------..proc d
2bc0: 6f 5f 74 6f 6b 65 6e 69 7a 65 20 7b 74 6f 6b 65  o_tokenize {toke
2bd0: 6e 69 7a 65 72 20 74 78 74 7d 20 7b 0a 20 20 73  nizer txt} {.  s
2be0: 65 74 20 72 65 73 20 5b 6c 69 73 74 5d 0a 20 20  et res [list].  
2bf0: 66 6f 72 65 61 63 68 20 7b 62 20 63 7d 20 5b 73  foreach {b c} [s
2c00: 71 6c 69 74 65 33 5f 66 74 73 35 5f 74 6f 6b 65  qlite3_fts5_toke
2c10: 6e 69 7a 65 20 2d 73 75 62 73 74 20 64 62 20 24  nize -subst db $
2c20: 74 6f 6b 65 6e 69 7a 65 72 20 24 74 78 74 5d 20  tokenizer $txt] 
2c30: 7b 0a 20 20 20 20 6c 61 70 70 65 6e 64 20 72 65  {.    lappend re
2c40: 73 20 24 62 0a 20 20 7d 0a 20 20 73 65 74 20 72  s $b.  }.  set r
2c50: 65 73 0a 7d 0a 0a 23 20 41 72 67 75 6d 65 6e 74  es.}..# Argument
2c60: 20 24 6c 43 6f 64 65 70 6f 69 6e 74 20 6d 75 73   $lCodepoint mus
2c70: 74 20 62 65 20 61 20 6c 69 73 74 20 6f 66 20 63  t be a list of c
2c80: 6f 64 65 70 6f 69 6e 74 73 20 28 69 6e 74 65 67  odepoints (integ
2c90: 65 72 73 29 20 74 68 61 74 20 0a 23 20 63 6f 72  ers) that .# cor
2ca0: 72 65 73 70 6f 6e 64 20 74 6f 20 77 68 69 74 65  respond to white
2cb0: 73 70 61 63 65 20 63 68 61 72 61 63 74 65 72 73  space characters
2cc0: 2e 20 54 68 69 73 20 63 6f 6d 6d 61 6e 64 20 63  . This command c
2cd0: 72 65 61 74 65 73 20 61 20 73 74 72 69 6e 67 0a  reates a string.
2ce0: 23 20 24 57 20 66 72 6f 6d 20 74 68 65 20 63 6f  # $W from the co
2cf0: 64 65 70 6f 69 6e 74 73 2c 20 74 68 65 6e 20 74  depoints, then t
2d00: 6f 6b 65 6e 69 7a 65 73 20 22 24 7b 57 7d 68 65  okenizes "${W}he
2d10: 6c 6c 6f 7b 24 57 7d 77 6f 72 6c 64 24 7b 57 7d  llo{$W}world${W}
2d20: 22 20 0a 23 20 75 73 69 6e 67 20 74 6f 6b 65 6e  " .# using token
2d30: 69 7a 65 72 20 24 74 6f 6b 65 6e 69 7a 65 72 2e  izer $tokenizer.
2d40: 20 54 68 65 20 74 65 73 74 20 70 61 73 73 65 73   The test passes
2d50: 20 69 66 20 74 68 65 20 74 6f 6b 65 6e 69 7a 65   if the tokenize
2d60: 72 20 73 75 63 63 65 73 73 66 75 6c 6c 79 0a 23  r successfully.#
2d70: 20 65 78 74 72 61 63 74 73 20 74 68 65 20 74 77   extracts the tw
2d80: 6f 20 35 20 63 68 61 72 61 63 74 65 72 20 74 6f  o 5 character to
2d90: 6b 65 6e 73 2e 0a 23 0a 70 72 6f 63 20 64 6f 5f  kens..#.proc do_
2da0: 69 73 73 70 61 63 65 5f 74 65 73 74 20 7b 74 6e  isspace_test {tn
2db0: 20 74 6f 6b 65 6e 69 7a 65 72 20 6c 43 70 7d 20   tokenizer lCp} 
2dc0: 7b 0a 20 20 73 65 74 20 77 68 69 74 65 73 70 61  {.  set whitespa
2dd0: 63 65 20 5b 66 6f 72 6d 61 74 20 5b 73 74 72 69  ce [format [stri
2de0: 6e 67 20 72 65 70 65 61 74 20 25 63 20 5b 6c 6c  ng repeat %c [ll
2df0: 65 6e 67 74 68 20 24 6c 43 70 5d 5d 20 7b 2a 7d  ength $lCp]] {*}
2e00: 24 6c 43 70 5d 20 0a 20 20 73 65 74 20 74 78 74  $lCp] .  set txt
2e10: 20 22 24 7b 77 68 69 74 65 73 70 61 63 65 7d 68   "${whitespace}h
2e20: 65 6c 6c 6f 24 7b 77 68 69 74 65 73 70 61 63 65  ello${whitespace
2e30: 7d 77 6f 72 6c 64 24 7b 77 68 69 74 65 73 70 61  }world${whitespa
2e40: 63 65 7d 22 0a 20 20 75 70 6c 65 76 65 6c 20 5b  ce}".  uplevel [
2e50: 6c 69 73 74 20 64 6f 5f 74 65 73 74 20 24 74 6e  list do_test $tn
2e60: 20 5b 6c 69 73 74 20 64 6f 5f 74 6f 6b 65 6e 69   [list do_tokeni
2e70: 7a 65 20 24 74 6f 6b 65 6e 69 7a 65 72 20 24 74  ze $tokenizer $t
2e80: 78 74 5d 20 7b 68 65 6c 6c 6f 20 77 6f 72 6c 64  xt] {hello world
2e90: 7d 5d 0a 7d 0a 0a 73 65 74 20 74 6f 6b 65 6e 69  }].}..set tokeni
2ea0: 7a 65 72 73 20 5b 6c 69 73 74 20 75 6e 69 63 6f  zers [list unico
2eb0: 64 65 36 31 5d 0a 23 69 66 63 61 70 61 62 6c 65  de61].#ifcapable
2ec0: 20 69 63 75 20 7b 20 6c 61 70 70 65 6e 64 20 74   icu { lappend t
2ed0: 6f 6b 65 6e 69 7a 65 72 73 20 69 63 75 20 7d 0a  okenizers icu }.
2ee0: 0a 23 20 53 6f 6d 65 20 74 65 73 74 73 20 74 6f  .# Some tests to
2ef0: 20 63 68 65 63 6b 20 74 68 61 74 20 74 68 65 20   check that the 
2f00: 74 6f 6b 65 6e 69 7a 65 72 73 20 63 61 6e 20 62  tokenizers can b
2f10: 6f 74 68 20 69 64 65 6e 74 69 66 79 20 77 68 69  oth identify whi
2f20: 74 65 2d 73 70 61 63 65 20 0a 23 20 63 6f 64 65  te-space .# code
2f30: 70 6f 69 6e 74 73 2e 20 41 6c 6c 20 63 6f 64 65  points. All code
2f40: 70 6f 69 6e 74 73 20 74 65 73 74 65 64 20 62 65  points tested be
2f50: 6c 6f 77 20 61 72 65 20 6f 66 20 74 79 70 65 20  low are of type 
2f60: 22 5a 73 22 20 69 6e 20 74 68 65 0a 23 20 55 6e  "Zs" in the.# Un
2f70: 69 63 6f 64 65 44 61 74 61 2e 74 78 74 20 66 69  icodeData.txt fi
2f80: 6c 65 2e 0a 66 6f 72 65 61 63 68 20 54 20 24 74  le..foreach T $t
2f90: 6f 6b 65 6e 69 7a 65 72 73 20 7b 0a 20 20 64 6f  okenizers {.  do
2fa0: 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e  _isspace_test 6.
2fb0: 24 54 2e 31 20 24 54 20 20 20 20 33 32 0a 20 20  $T.1 $T    32.  
2fc0: 64 6f 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20  do_isspace_test 
2fd0: 36 2e 24 54 2e 32 20 24 54 20 20 20 20 31 36 30  6.$T.2 $T    160
2fe0: 0a 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74 65  .  do_isspace_te
2ff0: 73 74 20 36 2e 24 54 2e 33 20 24 54 20 20 20 20  st 6.$T.3 $T    
3000: 35 37 36 30 0a 20 20 64 6f 5f 69 73 73 70 61 63  5760.  do_isspac
3010: 65 5f 74 65 73 74 20 36 2e 24 54 2e 34 20 24 54  e_test 6.$T.4 $T
3020: 20 20 20 20 36 31 35 38 0a 20 20 64 6f 5f 69 73      6158.  do_is
3030: 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24 54 2e  space_test 6.$T.
3040: 35 20 24 54 20 20 20 20 38 31 39 32 0a 20 20 64  5 $T    8192.  d
3050: 6f 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20 36  o_isspace_test 6
3060: 2e 24 54 2e 36 20 24 54 20 20 20 20 38 31 39 33  .$T.6 $T    8193
3070: 0a 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74 65  .  do_isspace_te
3080: 73 74 20 36 2e 24 54 2e 37 20 24 54 20 20 20 20  st 6.$T.7 $T    
3090: 38 31 39 34 0a 20 20 64 6f 5f 69 73 73 70 61 63  8194.  do_isspac
30a0: 65 5f 74 65 73 74 20 36 2e 24 54 2e 38 20 24 54  e_test 6.$T.8 $T
30b0: 20 20 20 20 38 31 39 35 0a 20 20 64 6f 5f 69 73      8195.  do_is
30c0: 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24 54 2e  space_test 6.$T.
30d0: 39 20 24 54 20 20 20 20 38 31 39 36 0a 20 20 64  9 $T    8196.  d
30e0: 6f 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20 36  o_isspace_test 6
30f0: 2e 24 54 2e 31 30 20 24 54 20 20 20 20 38 31 39  .$T.10 $T    819
3100: 37 0a 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74  7.  do_isspace_t
3110: 65 73 74 20 36 2e 24 54 2e 31 31 20 24 54 20 20  est 6.$T.11 $T  
3120: 20 20 38 31 39 38 0a 20 20 64 6f 5f 69 73 73 70    8198.  do_issp
3130: 61 63 65 5f 74 65 73 74 20 36 2e 24 54 2e 31 32  ace_test 6.$T.12
3140: 20 24 54 20 20 20 20 38 31 39 39 0a 20 20 64 6f   $T    8199.  do
3150: 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e  _isspace_test 6.
3160: 24 54 2e 31 33 20 24 54 20 20 20 20 38 32 30 30  $T.13 $T    8200
3170: 0a 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74 65  .  do_isspace_te
3180: 73 74 20 36 2e 24 54 2e 31 34 20 24 54 20 20 20  st 6.$T.14 $T   
3190: 20 38 32 30 31 0a 20 20 64 6f 5f 69 73 73 70 61   8201.  do_isspa
31a0: 63 65 5f 74 65 73 74 20 36 2e 24 54 2e 31 35 20  ce_test 6.$T.15 
31b0: 24 54 20 20 20 20 38 32 30 32 0a 20 20 64 6f 5f  $T    8202.  do_
31c0: 69 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24  isspace_test 6.$
31d0: 54 2e 31 36 20 24 54 20 20 20 20 38 32 33 39 0a  T.16 $T    8239.
31e0: 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74 65 73    do_isspace_tes
31f0: 74 20 36 2e 24 54 2e 31 37 20 24 54 20 20 20 20  t 6.$T.17 $T    
3200: 38 32 38 37 0a 20 20 64 6f 5f 69 73 73 70 61 63  8287.  do_isspac
3210: 65 5f 74 65 73 74 20 36 2e 24 54 2e 31 38 20 24  e_test 6.$T.18 $
3220: 54 20 20 20 31 32 32 38 38 0a 0a 20 20 64 6f 5f  T   12288..  do_
3230: 69 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24  isspace_test 6.$
3240: 54 2e 31 39 20 24 54 20 20 20 7b 33 32 20 31 36  T.19 $T   {32 16
3250: 30 20 35 37 36 30 20 36 31 35 38 7d 0a 20 20 64  0 5760 6158}.  d
3260: 6f 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20 36  o_isspace_test 6
3270: 2e 24 54 2e 32 30 20 24 54 20 20 20 7b 38 31 39  .$T.20 $T   {819
3280: 32 20 38 31 39 33 20 38 31 39 34 20 38 31 39 35  2 8193 8194 8195
3290: 7d 0a 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74  }.  do_isspace_t
32a0: 65 73 74 20 36 2e 24 54 2e 32 31 20 24 54 20 20  est 6.$T.21 $T  
32b0: 20 7b 38 31 39 36 20 38 31 39 37 20 38 31 39 38   {8196 8197 8198
32c0: 20 38 31 39 39 7d 0a 20 20 64 6f 5f 69 73 73 70   8199}.  do_issp
32d0: 61 63 65 5f 74 65 73 74 20 36 2e 24 54 2e 32 32  ace_test 6.$T.22
32e0: 20 24 54 20 20 20 7b 38 32 30 30 20 38 32 30 31   $T   {8200 8201
32f0: 20 38 32 30 32 20 38 32 33 39 7d 0a 20 20 64 6f   8202 8239}.  do
3300: 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e  _isspace_test 6.
3310: 24 54 2e 32 33 20 24 54 20 20 20 7b 38 32 38 37  $T.23 $T   {8287
3320: 20 31 32 32 38 38 7d 0a 7d 0a 0a 0a 23 2d 2d 2d   12288}.}...#---
3330: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3340: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3350: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3360: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3370: 2d 2d 2d 2d 2d 2d 0a 23 20 54 65 73 74 20 74 68  ------.# Test th
3380: 61 74 20 74 68 65 20 70 72 69 76 61 74 65 20 75  at the private u
3390: 73 65 20 72 61 6e 67 65 73 20 61 72 65 20 74 72  se ranges are tr
33a0: 65 61 74 65 64 20 61 73 20 61 6c 70 68 61 6e 75  eated as alphanu
33b0: 6d 65 72 69 63 2e 0a 23 0a 66 6f 72 65 61 63 68  meric..#.foreach
33c0: 20 7b 74 6e 31 20 63 7d 20 7b 0a 20 20 31 20 5c   {tn1 c} {.  1 \
33d0: 75 65 30 30 30 20 32 20 5c 75 65 30 30 31 20 33  ue000 2 \ue001 3
33e0: 20 5c 75 66 30 30 30 20 34 20 5c 75 66 38 66 65   \uf000 4 \uf8fe
33f0: 20 35 20 5c 75 66 38 66 66 0a 7d 20 7b 0a 20 20   5 \uf8ff.} {.  
3400: 66 6f 72 65 61 63 68 20 7b 74 6e 32 20 63 6f 6e  foreach {tn2 con
3410: 66 69 67 20 72 65 73 7d 20 7b 0a 20 20 20 20 31  fig res} {.    1
3420: 20 22 22 20 20 20 20 20 20 20 20 20 20 20 20 20   ""             
3430: 22 68 65 6c 6c 6f 2a 77 6f 72 6c 64 20 68 65 6c  "hello*world hel
3440: 6c 6f 2a 77 6f 72 6c 64 22 0a 20 20 20 20 32 20  lo*world".    2 
3450: 22 73 65 70 61 72 61 74 6f 72 73 20 2a 22 20 22  "separators *" "
3460: 68 65 6c 6c 6f 20 68 65 6c 6c 6f 20 77 6f 72 6c  hello hello worl
3470: 64 20 77 6f 72 6c 64 22 0a 20 20 7d 20 7b 0a 20  d world".  } {. 
3480: 20 20 20 73 65 74 20 63 6f 6e 66 69 67 20 5b 73     set config [s
3490: 74 72 69 6e 67 20 6d 61 70 20 5b 6c 69 73 74 20  tring map [list 
34a0: 2a 20 24 63 5d 20 24 63 6f 6e 66 69 67 5d 0a 20  * $c] $config]. 
34b0: 20 20 20 73 65 74 20 69 6e 70 75 74 20 20 5b 73     set input  [s
34c0: 74 72 69 6e 67 20 6d 61 70 20 5b 6c 69 73 74 20  tring map [list 
34d0: 2a 20 24 63 5d 20 22 68 65 6c 6c 6f 2a 77 6f 72  * $c] "hello*wor
34e0: 6c 64 22 5d 0a 20 20 20 20 73 65 74 20 6f 75 74  ld"].    set out
34f0: 70 75 74 20 5b 73 74 72 69 6e 67 20 6d 61 70 20  put [string map 
3500: 5b 6c 69 73 74 20 2a 20 24 63 5d 20 24 72 65 73  [list * $c] $res
3510: 5d 0a 20 20 20 20 64 6f 5f 75 6e 69 63 6f 64 65  ].    do_unicode
3520: 5f 74 6f 6b 65 6e 5f 74 65 73 74 33 20 37 2e 24  _token_test3 7.$
3530: 74 6e 31 2e 24 74 6e 32 20 7b 2a 7d 24 63 6f 6e  tn1.$tn2 {*}$con
3540: 66 69 67 20 24 69 6e 70 75 74 20 24 6f 75 74 70  fig $input $outp
3550: 75 74 0a 20 20 7d 0a 7d 0a 0a 23 2d 2d 2d 2d 2d  ut.  }.}..#-----
3560: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3570: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3580: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3590: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
35a0: 2d 2d 2d 2d 0a 23 20 43 75 72 73 6f 72 79 20 74  ----.# Cursory t
35b0: 65 73 74 20 6f 66 20 72 65 6d 6f 76 65 5f 64 69  est of remove_di
35c0: 61 63 72 69 74 69 63 73 3d 30 2e 0a 23 0a 23 20  acritics=0..#.# 
35d0: 30 30 43 34 3b 4c 41 54 49 4e 20 43 41 50 49 54  00C4;LATIN CAPIT
35e0: 41 4c 20 4c 45 54 54 45 52 20 41 20 57 49 54 48  AL LETTER A WITH
35f0: 20 44 49 41 45 52 45 53 49 53 0a 23 20 30 30 44   DIAERESIS.# 00D
3600: 36 3b 4c 41 54 49 4e 20 43 41 50 49 54 41 4c 20  6;LATIN CAPITAL 
3610: 4c 45 54 54 45 52 20 4f 20 57 49 54 48 20 44 49  LETTER O WITH DI
3620: 41 45 52 45 53 49 53 0a 23 20 30 30 45 34 3b 4c  AERESIS.# 00E4;L
3630: 41 54 49 4e 20 53 4d 41 4c 4c 20 4c 45 54 54 45  ATIN SMALL LETTE
3640: 52 20 41 20 57 49 54 48 20 44 49 41 45 52 45 53  R A WITH DIAERES
3650: 49 53 0a 23 20 30 30 46 36 3b 4c 41 54 49 4e 20  IS.# 00F6;LATIN 
3660: 53 4d 41 4c 4c 20 4c 45 54 54 45 52 20 4f 20 57  SMALL LETTER O W
3670: 49 54 48 20 44 49 41 45 52 45 53 49 53 0a 23 0a  ITH DIAERESIS.#.
3680: 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73 74 20  do_execsql_test 
3690: 38 2e 31 2e 31 20 22 0a 20 20 43 52 45 41 54 45  8.1.1 ".  CREATE
36a0: 20 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20 74   VIRTUAL TABLE t
36b0: 33 20 55 53 49 4e 47 20 66 74 73 35 28 0a 20 20  3 USING fts5(.  
36c0: 20 20 63 6f 6e 74 65 6e 74 2c 20 74 6f 6b 65 6e    content, token
36d0: 69 7a 65 3d 27 75 6e 69 63 6f 64 65 36 31 20 72  ize='unicode61 r
36e0: 65 6d 6f 76 65 5f 64 69 61 63 72 69 74 69 63 73  emove_diacritics
36f0: 20 31 27 0a 20 20 29 3b 0a 20 20 49 4e 53 45 52   1'.  );.  INSER
3700: 54 20 49 4e 54 4f 20 74 33 20 56 41 4c 55 45 53  T INTO t3 VALUES
3710: 28 27 6f 27 29 3b 0a 20 20 49 4e 53 45 52 54 20  ('o');.  INSERT 
3720: 49 4e 54 4f 20 74 33 20 56 41 4c 55 45 53 28 27  INTO t3 VALUES('
3730: 61 27 29 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e  a');.  INSERT IN
3740: 54 4f 20 74 33 20 56 41 4c 55 45 53 28 27 4f 27  TO t3 VALUES('O'
3750: 29 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f  );.  INSERT INTO
3760: 20 74 33 20 56 41 4c 55 45 53 28 27 41 27 29 3b   t3 VALUES('A');
3770: 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74  .  INSERT INTO t
3780: 33 20 56 41 4c 55 45 53 28 27 5c 78 44 36 27 29  3 VALUES('\xD6')
3790: 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20  ;.  INSERT INTO 
37a0: 74 33 20 56 41 4c 55 45 53 28 27 5c 78 43 34 27  t3 VALUES('\xC4'
37b0: 29 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f  );.  INSERT INTO
37c0: 20 74 33 20 56 41 4c 55 45 53 28 27 5c 78 46 36   t3 VALUES('\xF6
37d0: 27 29 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54  ');.  INSERT INT
37e0: 4f 20 74 33 20 56 41 4c 55 45 53 28 27 5c 78 45  O t3 VALUES('\xE
37f0: 34 27 29 3b 0a 22 0a 64 6f 5f 65 78 65 63 73 71  4');.".do_execsq
3800: 6c 5f 74 65 73 74 20 38 2e 31 2e 32 20 7b 0a 20  l_test 8.1.2 {. 
3810: 20 53 45 4c 45 43 54 20 72 6f 77 69 64 20 46 52   SELECT rowid FR
3820: 4f 4d 20 74 33 20 57 48 45 52 45 20 74 33 20 4d  OM t3 WHERE t3 M
3830: 41 54 43 48 20 27 6f 27 20 4f 52 44 45 52 20 42  ATCH 'o' ORDER B
3840: 59 20 72 6f 77 69 64 20 41 53 43 3b 0a 7d 20 7b  Y rowid ASC;.} {
3850: 31 20 33 20 35 20 37 7d 0a 64 6f 5f 65 78 65 63  1 3 5 7}.do_exec
3860: 73 71 6c 5f 74 65 73 74 20 38 2e 31 2e 33 20 7b  sql_test 8.1.3 {
3870: 0a 20 20 53 45 4c 45 43 54 20 72 6f 77 69 64 20  .  SELECT rowid 
3880: 46 52 4f 4d 20 74 33 20 57 48 45 52 45 20 74 33  FROM t3 WHERE t3
3890: 20 4d 41 54 43 48 20 27 61 27 20 4f 52 44 45 52   MATCH 'a' ORDER
38a0: 20 42 59 20 72 6f 77 69 64 20 41 53 43 3b 0a 7d   BY rowid ASC;.}
38b0: 20 7b 32 20 34 20 36 20 38 7d 0a 64 6f 5f 65 78   {2 4 6 8}.do_ex
38c0: 65 63 73 71 6c 5f 74 65 73 74 20 38 2e 32 2e 31  ecsql_test 8.2.1
38d0: 20 7b 0a 20 20 43 52 45 41 54 45 20 56 49 52 54   {.  CREATE VIRT
38e0: 55 41 4c 20 54 41 42 4c 45 20 74 34 20 55 53 49  UAL TABLE t4 USI
38f0: 4e 47 20 66 74 73 35 28 0a 20 20 20 20 63 6f 6e  NG fts5(.    con
3900: 74 65 6e 74 2c 20 74 6f 6b 65 6e 69 7a 65 3d 27  tent, tokenize='
3910: 75 6e 69 63 6f 64 65 36 31 20 72 65 6d 6f 76 65  unicode61 remove
3920: 5f 64 69 61 63 72 69 74 69 63 73 20 30 27 0a 20  _diacritics 0'. 
3930: 20 29 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54   );.  INSERT INT
3940: 4f 20 74 34 20 53 45 4c 45 43 54 20 2a 20 46 52  O t4 SELECT * FR
3950: 4f 4d 20 74 33 20 4f 52 44 45 52 20 42 59 20 72  OM t3 ORDER BY r
3960: 6f 77 69 64 20 41 53 43 3b 0a 7d 0a 64 6f 5f 65  owid ASC;.}.do_e
3970: 78 65 63 73 71 6c 5f 74 65 73 74 20 38 2e 32 2e  xecsql_test 8.2.
3980: 32 20 7b 0a 20 20 53 45 4c 45 43 54 20 72 6f 77  2 {.  SELECT row
3990: 69 64 20 46 52 4f 4d 20 74 34 20 57 48 45 52 45  id FROM t4 WHERE
39a0: 20 74 34 20 4d 41 54 43 48 20 27 6f 27 20 4f 52   t4 MATCH 'o' OR
39b0: 44 45 52 20 42 59 20 72 6f 77 69 64 20 41 53 43  DER BY rowid ASC
39c0: 3b 0a 7d 20 7b 31 20 33 7d 0a 64 6f 5f 65 78 65  ;.} {1 3}.do_exe
39d0: 63 73 71 6c 5f 74 65 73 74 20 38 2e 32 2e 33 20  csql_test 8.2.3 
39e0: 7b 0a 20 20 53 45 4c 45 43 54 20 72 6f 77 69 64  {.  SELECT rowid
39f0: 20 46 52 4f 4d 20 74 34 20 57 48 45 52 45 20 74   FROM t4 WHERE t
3a00: 34 20 4d 41 54 43 48 20 27 61 27 20 4f 52 44 45  4 MATCH 'a' ORDE
3a10: 52 20 42 59 20 72 6f 77 69 64 20 41 53 43 3b 0a  R BY rowid ASC;.
3a20: 7d 20 7b 32 20 34 7d 0a 0a 23 2d 2d 2d 2d 2d 2d  } {2 4}..#------
3a30: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3a40: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3a50: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3a60: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3a70: 2d 2d 2d 0a 23 0a 69 66 20 30 20 7b 0a 66 6f 72  ---.#.if 0 {.for
3a80: 65 61 63 68 20 7b 74 6e 20 73 71 6c 7d 20 7b 0a  each {tn sql} {.
3a90: 20 20 31 20 7b 0a 20 20 20 20 43 52 45 41 54 45    1 {.    CREATE
3aa0: 20 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20 74   VIRTUAL TABLE t
3ab0: 35 20 55 53 49 4e 47 20 66 74 73 34 28 74 6f 6b  5 USING fts4(tok
3ac0: 65 6e 69 7a 65 3d 75 6e 69 63 6f 64 65 36 31 20  enize=unicode61 
3ad0: 5b 74 6f 6b 65 6e 63 68 61 72 73 3d 20 2e 5d 29  [tokenchars= .])
3ae0: 3b 0a 20 20 20 20 43 52 45 41 54 45 20 56 49 52  ;.    CREATE VIR
3af0: 54 55 41 4c 20 54 41 42 4c 45 20 74 36 20 55 53  TUAL TABLE t6 US
3b00: 49 4e 47 20 66 74 73 34 28 0a 20 20 20 20 20 20  ING fts4(.      
3b10: 20 20 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f    tokenize=unico
3b20: 64 65 36 31 20 5b 74 6f 6b 65 6e 63 68 61 72 73  de61 [tokenchars
3b30: 3d 3d 22 5d 20 22 74 6f 6b 65 6e 63 68 61 72 73  =="] "tokenchars
3b40: 3d 5b 5d 22 29 3b 0a 20 20 20 20 43 52 45 41 54  =[]");.    CREAT
3b50: 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20  E VIRTUAL TABLE 
3b60: 74 37 20 55 53 49 4e 47 20 66 74 73 34 28 74 6f  t7 USING fts4(to
3b70: 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64 65 36 31  kenize=unicode61
3b80: 20 5b 73 65 70 61 72 61 74 6f 72 73 3d 78 5c 78   [separators=x\x
3b90: 43 34 5d 29 3b 0a 20 20 7d 0a 20 20 32 20 7b 0a  C4]);.  }.  2 {.
3ba0: 20 20 20 20 43 52 45 41 54 45 20 56 49 52 54 55      CREATE VIRTU
3bb0: 41 4c 20 54 41 42 4c 45 20 74 35 20 55 53 49 4e  AL TABLE t5 USIN
3bc0: 47 20 66 74 73 34 28 74 6f 6b 65 6e 69 7a 65 3d  G fts4(tokenize=
3bd0: 75 6e 69 63 6f 64 65 36 31 20 22 74 6f 6b 65 6e  unicode61 "token
3be0: 63 68 61 72 73 3d 20 2e 22 29 3b 0a 20 20 20 20  chars= .");.    
3bf0: 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54  CREATE VIRTUAL T
3c00: 41 42 4c 45 20 74 36 20 55 53 49 4e 47 20 66 74  ABLE t6 USING ft
3c10: 73 34 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63  s4(tokenize=unic
3c20: 6f 64 65 36 31 20 22 74 6f 6b 65 6e 63 68 61 72  ode61 "tokenchar
3c30: 73 3d 5b 3d 22 22 5d 22 29 3b 0a 20 20 20 20 43  s=[=""]");.    C
3c40: 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54 41  REATE VIRTUAL TA
3c50: 42 4c 45 20 74 37 20 55 53 49 4e 47 20 66 74 73  BLE t7 USING fts
3c60: 34 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f  4(tokenize=unico
3c70: 64 65 36 31 20 22 73 65 70 61 72 61 74 6f 72 73  de61 "separators
3c80: 3d 78 5c 78 43 34 22 29 3b 0a 20 20 7d 0a 20 20  =x\xC4");.  }.  
3c90: 33 20 7b 0a 20 20 20 20 43 52 45 41 54 45 20 56  3 {.    CREATE V
3ca0: 49 52 54 55 41 4c 20 54 41 42 4c 45 20 74 35 20  IRTUAL TABLE t5 
3cb0: 55 53 49 4e 47 20 66 74 73 34 28 74 6f 6b 65 6e  USING fts4(token
3cc0: 69 7a 65 3d 75 6e 69 63 6f 64 65 36 31 20 27 74  ize=unicode61 't
3cd0: 6f 6b 65 6e 63 68 61 72 73 3d 20 2e 27 29 3b 0a  okenchars= .');.
3ce0: 20 20 20 20 43 52 45 41 54 45 20 56 49 52 54 55      CREATE VIRTU
3cf0: 41 4c 20 54 41 42 4c 45 20 74 36 20 55 53 49 4e  AL TABLE t6 USIN
3d00: 47 20 66 74 73 34 28 74 6f 6b 65 6e 69 7a 65 3d  G fts4(tokenize=
3d10: 75 6e 69 63 6f 64 65 36 31 20 27 74 6f 6b 65 6e  unicode61 'token
3d20: 63 68 61 72 73 3d 3d 22 5b 5d 27 29 3b 0a 20 20  chars=="[]');.  
3d30: 20 20 43 52 45 41 54 45 20 56 49 52 54 55 41 4c    CREATE VIRTUAL
3d40: 20 54 41 42 4c 45 20 74 37 20 55 53 49 4e 47 20   TABLE t7 USING 
3d50: 66 74 73 34 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e  fts4(tokenize=un
3d60: 69 63 6f 64 65 36 31 20 27 73 65 70 61 72 61 74  icode61 'separat
3d70: 6f 72 73 3d 78 5c 78 43 34 27 29 3b 0a 20 20 7d  ors=x\xC4');.  }
3d80: 0a 20 20 34 20 7b 0a 20 20 20 20 43 52 45 41 54  .  4 {.    CREAT
3d90: 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20  E VIRTUAL TABLE 
3da0: 74 35 20 55 53 49 4e 47 20 66 74 73 34 28 74 6f  t5 USING fts4(to
3db0: 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64 65 36 31  kenize=unicode61
3dc0: 20 60 74 6f 6b 65 6e 63 68 61 72 73 3d 20 2e 60   `tokenchars= .`
3dd0: 29 3b 0a 20 20 20 20 43 52 45 41 54 45 20 56 49  );.    CREATE VI
3de0: 52 54 55 41 4c 20 54 41 42 4c 45 20 74 36 20 55  RTUAL TABLE t6 U
3df0: 53 49 4e 47 20 66 74 73 34 28 74 6f 6b 65 6e 69  SING fts4(tokeni
3e00: 7a 65 3d 75 6e 69 63 6f 64 65 36 31 20 60 74 6f  ze=unicode61 `to
3e10: 6b 65 6e 63 68 61 72 73 3d 5b 3d 22 5d 60 29 3b  kenchars=[="]`);
3e20: 0a 20 20 20 20 43 52 45 41 54 45 20 56 49 52 54  .    CREATE VIRT
3e30: 55 41 4c 20 54 41 42 4c 45 20 74 37 20 55 53 49  UAL TABLE t7 USI
3e40: 4e 47 20 66 74 73 34 28 74 6f 6b 65 6e 69 7a 65  NG fts4(tokenize
3e50: 3d 75 6e 69 63 6f 64 65 36 31 20 60 73 65 70 61  =unicode61 `sepa
3e60: 72 61 74 6f 72 73 3d 78 5c 78 43 34 60 29 3b 0a  rators=x\xC4`);.
3e70: 20 20 7d 0a 7d 20 7b 0a 20 20 64 6f 5f 65 78 65    }.} {.  do_exe
3e80: 63 73 71 6c 5f 74 65 73 74 20 39 2e 24 74 6e 2e  csql_test 9.$tn.
3e90: 30 20 7b 20 0a 20 20 20 20 44 52 4f 50 20 54 41  0 { .    DROP TA
3ea0: 42 4c 45 20 49 46 20 45 58 49 53 54 53 20 74 35  BLE IF EXISTS t5
3eb0: 3b 0a 20 20 20 20 44 52 4f 50 20 54 41 42 4c 45  ;.    DROP TABLE
3ec0: 20 49 46 20 45 58 49 53 54 53 20 74 35 61 75 78   IF EXISTS t5aux
3ed0: 3b 0a 20 20 20 20 44 52 4f 50 20 54 41 42 4c 45  ;.    DROP TABLE
3ee0: 20 49 46 20 45 58 49 53 54 53 20 74 36 3b 0a 20   IF EXISTS t6;. 
3ef0: 20 20 20 44 52 4f 50 20 54 41 42 4c 45 20 49 46     DROP TABLE IF
3f00: 20 45 58 49 53 54 53 20 74 36 61 75 78 3b 0a 20   EXISTS t6aux;. 
3f10: 20 20 20 44 52 4f 50 20 54 41 42 4c 45 20 49 46     DROP TABLE IF
3f20: 20 45 58 49 53 54 53 20 74 37 3b 0a 20 20 20 20   EXISTS t7;.    
3f30: 44 52 4f 50 20 54 41 42 4c 45 20 49 46 20 45 58  DROP TABLE IF EX
3f40: 49 53 54 53 20 74 37 61 75 78 3b 0a 20 20 7d 0a  ISTS t7aux;.  }.
3f50: 20 20 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73    do_execsql_tes
3f60: 74 20 39 2e 24 74 6e 2e 31 20 24 73 71 6c 0a 0a  t 9.$tn.1 $sql..
3f70: 20 20 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73    do_execsql_tes
3f80: 74 20 39 2e 24 74 6e 2e 32 20 7b 0a 20 20 20 20  t 9.$tn.2 {.    
3f90: 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54  CREATE VIRTUAL T
3fa0: 41 42 4c 45 20 74 35 61 75 78 20 55 53 49 4e 47  ABLE t5aux USING
3fb0: 20 66 74 73 34 61 75 78 28 74 35 29 3b 0a 20 20   fts4aux(t5);.  
3fc0: 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 35    INSERT INTO t5
3fd0: 20 56 41 4c 55 45 53 28 27 6f 6e 65 20 74 77 6f   VALUES('one two
3fe0: 20 74 68 72 65 65 2f 66 6f 75 72 2e 66 69 76 65   three/four.five
3ff0: 2e 73 69 78 27 29 3b 0a 20 20 20 20 53 45 4c 45  .six');.    SELE
4000: 43 54 20 2a 20 46 52 4f 4d 20 74 35 61 75 78 3b  CT * FROM t5aux;
4010: 0a 20 20 7d 20 7b 0a 20 20 20 20 66 6f 75 72 2e  .  } {.    four.
4020: 66 69 76 65 2e 73 69 78 20 20 20 2a 20 31 20 31  five.six   * 1 1
4030: 20 66 6f 75 72 2e 66 69 76 65 2e 73 69 78 20 20   four.five.six  
4040: 20 30 20 31 20 31 20 0a 20 20 20 20 7b 6f 6e 65   0 1 1 .    {one
4050: 20 74 77 6f 20 74 68 72 65 65 7d 20 2a 20 31 20   two three} * 1 
4060: 31 20 7b 6f 6e 65 20 74 77 6f 20 74 68 72 65 65  1 {one two three
4070: 7d 20 30 20 31 20 31 0a 20 20 7d 0a 0a 20 20 64  } 0 1 1.  }..  d
4080: 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73 74 20 39  o_execsql_test 9
4090: 2e 24 74 6e 2e 33 20 7b 0a 20 20 20 20 43 52 45  .$tn.3 {.    CRE
40a0: 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c  ATE VIRTUAL TABL
40b0: 45 20 74 36 61 75 78 20 55 53 49 4e 47 20 66 74  E t6aux USING ft
40c0: 73 34 61 75 78 28 74 36 29 3b 0a 20 20 20 20 49  s4aux(t6);.    I
40d0: 4e 53 45 52 54 20 49 4e 54 4f 20 74 36 20 56 41  NSERT INTO t6 VA
40e0: 4c 55 45 53 28 27 61 6c 70 68 61 3d 62 65 74 61  LUES('alpha=beta
40f0: 22 67 61 6d 6d 61 2f 64 65 6c 74 61 5b 65 70 73  "gamma/delta[eps
4100: 69 6c 6f 6e 5d 7a 65 74 61 27 29 3b 0a 20 20 20  ilon]zeta');.   
4110: 20 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74   SELECT * FROM t
4120: 36 61 75 78 3b 0a 20 20 7d 20 7b 0a 20 20 20 20  6aux;.  } {.    
4130: 7b 61 6c 70 68 61 3d 62 65 74 61 22 67 61 6d 6d  {alpha=beta"gamm
4140: 61 7d 20 20 20 2a 20 31 20 31 20 7b 61 6c 70 68  a}   * 1 1 {alph
4150: 61 3d 62 65 74 61 22 67 61 6d 6d 61 7d 20 30 20  a=beta"gamma} 0 
4160: 31 20 31 20 0a 20 20 20 20 7b 64 65 6c 74 61 5b  1 1 .    {delta[
4170: 65 70 73 69 6c 6f 6e 5d 7a 65 74 61 7d 20 2a 20  epsilon]zeta} * 
4180: 31 20 31 20 7b 64 65 6c 74 61 5b 65 70 73 69 6c  1 1 {delta[epsil
4190: 6f 6e 5d 7a 65 74 61 7d 20 30 20 31 20 31 0a 20  on]zeta} 0 1 1. 
41a0: 20 7d 0a 0a 20 20 64 6f 5f 65 78 65 63 73 71 6c   }..  do_execsql
41b0: 5f 74 65 73 74 20 39 2e 24 74 6e 2e 34 20 7b 0a  _test 9.$tn.4 {.
41c0: 20 20 20 20 43 52 45 41 54 45 20 56 49 52 54 55      CREATE VIRTU
41d0: 41 4c 20 54 41 42 4c 45 20 74 37 61 75 78 20 55  AL TABLE t7aux U
41e0: 53 49 4e 47 20 66 74 73 34 61 75 78 28 74 37 29  SING fts4aux(t7)
41f0: 3b 0a 20 20 20 20 49 4e 53 45 52 54 20 49 4e 54  ;.    INSERT INT
4200: 4f 20 74 37 20 56 41 4c 55 45 53 28 27 61 6c 65  O t7 VALUES('ale
4210: 70 68 78 62 65 74 68 5c 78 43 34 67 69 6d 65 6c  phxbeth\xC4gimel
4220: 27 29 3b 0a 20 20 20 20 53 45 4c 45 43 54 20 2a  ');.    SELECT *
4230: 20 46 52 4f 4d 20 74 37 61 75 78 3b 0a 20 20 7d   FROM t7aux;.  }
4240: 20 7b 0a 20 20 20 20 61 6c 65 70 68 20 2a 20 31   {.    aleph * 1
4250: 20 31 20 61 6c 65 70 68 20 30 20 31 20 31 20 0a   1 aleph 0 1 1 .
4260: 20 20 20 20 62 65 74 68 20 20 2a 20 31 20 31 20      beth  * 1 1 
4270: 62 65 74 68 20 20 30 20 31 20 31 20 0a 20 20 20  beth  0 1 1 .   
4280: 20 67 69 6d 65 6c 20 2a 20 31 20 31 20 67 69 6d   gimel * 1 1 gim
4290: 65 6c 20 30 20 31 20 31 0a 20 20 7d 0a 7d 0a 0a  el 0 1 1.  }.}..
42a0: 23 20 43 68 65 63 6b 20 74 68 61 74 20 6d 75 6c  # Check that mul
42b0: 74 69 70 6c 65 20 6f 70 74 69 6f 6e 73 20 61 72  tiple options ar
42c0: 65 20 68 61 6e 64 6c 65 64 20 63 6f 72 72 65 63  e handled correc
42d0: 74 6c 79 2e 0a 23 0a 64 6f 5f 65 78 65 63 73 71  tly..#.do_execsq
42e0: 6c 5f 74 65 73 74 20 31 30 2e 31 20 7b 0a 20 20  l_test 10.1 {.  
42f0: 44 52 4f 50 20 54 41 42 4c 45 20 49 46 20 45 58  DROP TABLE IF EX
4300: 49 53 54 53 20 74 31 3b 0a 20 20 43 52 45 41 54  ISTS t1;.  CREAT
4310: 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20  E VIRTUAL TABLE 
4320: 74 31 20 55 53 49 4e 47 20 66 74 73 34 28 74 6f  t1 USING fts4(to
4330: 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64 65 36 31  kenize=unicode61
4340: 0a 20 20 20 20 22 74 6f 6b 65 6e 63 68 61 72 73  .    "tokenchars
4350: 3d 78 79 7a 22 20 22 74 6f 6b 65 6e 63 68 61 72  =xyz" "tokenchar
4360: 73 3d 2e 3d 22 20 22 73 65 70 61 72 61 74 6f 72  s=.=" "separator
4370: 73 3d 2e 3d 22 20 22 73 65 70 61 72 61 74 6f 72  s=.=" "separator
4380: 73 3d 78 79 22 0a 20 20 20 20 22 73 65 70 61 72  s=xy".    "separ
4390: 61 74 6f 72 73 3d 61 22 20 22 73 65 70 61 72 61  ators=a" "separa
43a0: 74 6f 72 73 3d 61 22 20 22 74 6f 6b 65 6e 63 68  tors=a" "tokench
43b0: 61 72 73 3d 61 22 20 22 74 6f 6b 65 6e 63 68 61  ars=a" "tokencha
43c0: 72 73 3d 61 22 0a 20 20 29 3b 0a 0a 20 20 49 4e  rs=a".  );..  IN
43d0: 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c  SERT INTO t1 VAL
43e0: 55 45 53 28 27 6f 6e 65 61 74 77 6f 78 74 68 72  UES('oneatwoxthr
43f0: 65 65 79 66 6f 75 72 27 29 3b 0a 20 20 49 4e 53  eeyfour');.  INS
4400: 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55  ERT INTO t1 VALU
4410: 45 53 28 27 61 2e 73 69 6e 67 6c 65 3d 77 6f 72  ES('a.single=wor
4420: 64 27 29 3b 0a 20 20 43 52 45 41 54 45 20 56 49  d');.  CREATE VI
4430: 52 54 55 41 4c 20 54 41 42 4c 45 20 74 31 61 75  RTUAL TABLE t1au
4440: 78 20 55 53 49 4e 47 20 66 74 73 34 61 75 78 28  x USING fts4aux(
4450: 74 31 29 3b 0a 20 20 53 45 4c 45 43 54 20 2a 20  t1);.  SELECT * 
4460: 46 52 4f 4d 20 74 31 61 75 78 3b 0a 7d 20 7b 0a  FROM t1aux;.} {.
4470: 20 20 2e 73 69 6e 67 6c 65 3d 77 6f 72 64 20 2a    .single=word *
4480: 20 31 20 31 20 2e 73 69 6e 67 6c 65 3d 77 6f 72   1 1 .single=wor
4490: 64 20 30 20 31 20 31 20 0a 20 20 66 6f 75 72 20  d 0 1 1 .  four 
44a0: 20 20 20 20 20 20 20 20 2a 20 31 20 31 20 66 6f          * 1 1 fo
44b0: 75 72 20 20 20 20 20 20 20 20 20 30 20 31 20 31  ur         0 1 1
44c0: 20 0a 20 20 6f 6e 65 20 20 20 20 20 20 20 20 20   .  one         
44d0: 20 2a 20 31 20 31 20 6f 6e 65 20 20 20 20 20 20   * 1 1 one      
44e0: 20 20 20 20 30 20 31 20 31 20 0a 20 20 74 68 72      0 1 1 .  thr
44f0: 65 65 20 20 20 20 20 20 20 20 2a 20 31 20 31 20  ee        * 1 1 
4500: 74 68 72 65 65 20 20 20 20 20 20 20 20 30 20 31  three        0 1
4510: 20 31 20 0a 20 20 74 77 6f 20 20 20 20 20 20 20   1 .  two       
4520: 20 20 20 2a 20 31 20 31 20 74 77 6f 20 20 20 20     * 1 1 two    
4530: 20 20 20 20 20 20 30 20 31 20 31 0a 7d 0a 0a 23        0 1 1.}..#
4540: 20 54 65 73 74 20 74 68 61 74 20 63 61 73 65 20   Test that case 
4550: 66 6f 6c 64 69 6e 67 20 68 61 70 70 65 6e 73 20  folding happens 
4560: 61 66 74 65 72 20 74 6f 6b 65 6e 69 7a 61 74 69  after tokenizati
4570: 6f 6e 2c 20 6e 6f 74 20 62 65 66 6f 72 65 2e 0a  on, not before..
4580: 23 0a 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73  #.do_execsql_tes
4590: 74 20 31 30 2e 32 20 7b 0a 20 20 44 52 4f 50 20  t 10.2 {.  DROP 
45a0: 54 41 42 4c 45 20 49 46 20 45 58 49 53 54 53 20  TABLE IF EXISTS 
45b0: 74 32 3b 0a 20 20 43 52 45 41 54 45 20 56 49 52  t2;.  CREATE VIR
45c0: 54 55 41 4c 20 54 41 42 4c 45 20 74 32 20 55 53  TUAL TABLE t2 US
45d0: 49 4e 47 20 66 74 73 34 28 74 6f 6b 65 6e 69 7a  ING fts4(tokeniz
45e0: 65 3d 75 6e 69 63 6f 64 65 36 31 20 22 73 65 70  e=unicode61 "sep
45f0: 61 72 61 74 6f 72 73 3d 61 42 22 29 3b 0a 20 20  arators=aB");.  
4600: 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 32 20 56  INSERT INTO t2 V
4610: 41 4c 55 45 53 28 27 6f 6e 65 61 74 77 6f 42 74  ALUES('oneatwoBt
4620: 68 72 65 65 27 29 3b 0a 20 20 49 4e 53 45 52 54  hree');.  INSERT
4630: 20 49 4e 54 4f 20 74 32 20 56 41 4c 55 45 53 28   INTO t2 VALUES(
4640: 27 6f 6e 65 62 74 77 6f 41 74 68 72 65 65 27 29  'onebtwoAthree')
4650: 3b 0a 20 20 43 52 45 41 54 45 20 56 49 52 54 55  ;.  CREATE VIRTU
4660: 41 4c 20 54 41 42 4c 45 20 74 32 61 75 78 20 55  AL TABLE t2aux U
4670: 53 49 4e 47 20 66 74 73 34 61 75 78 28 74 32 29  SING fts4aux(t2)
4680: 3b 0a 20 20 53 45 4c 45 43 54 20 2a 20 46 52 4f  ;.  SELECT * FRO
4690: 4d 20 74 32 61 75 78 3b 0a 7d 20 7b 0a 20 20 6f  M t2aux;.} {.  o
46a0: 6e 65 20 20 20 20 20 20 20 20 20 20 20 2a 20 31  ne           * 1
46b0: 20 31 20 6f 6e 65 20 20 20 20 20 20 20 20 20 20   1 one          
46c0: 20 30 20 31 20 31 20 0a 20 20 6f 6e 65 62 74 77   0 1 1 .  onebtw
46d0: 6f 61 74 68 72 65 65 20 2a 20 31 20 31 20 6f 6e  oathree * 1 1 on
46e0: 65 62 74 77 6f 61 74 68 72 65 65 20 30 20 31 20  ebtwoathree 0 1 
46f0: 31 20 0a 20 20 74 68 72 65 65 20 20 20 20 20 20  1 .  three      
4700: 20 20 20 2a 20 31 20 31 20 74 68 72 65 65 20 20     * 1 1 three  
4710: 20 20 20 20 20 20 20 30 20 31 20 31 20 0a 20 20         0 1 1 .  
4720: 74 77 6f 20 20 20 20 20 20 20 20 20 20 20 2a 20  two           * 
4730: 31 20 31 20 74 77 6f 20 20 20 20 20 20 20 20 20  1 1 two         
4740: 20 20 30 20 31 20 31 0a 7d 0a 0a 23 20 54 65 73    0 1 1.}..# Tes
4750: 74 20 74 68 61 74 20 74 68 65 20 74 6f 6b 65 6e  t that the token
4760: 63 68 61 72 73 20 61 6e 64 20 73 65 70 61 72 61  chars and separa
4770: 74 6f 72 73 20 6f 70 74 69 6f 6e 73 20 77 6f 72  tors options wor
4780: 6b 20 77 69 74 68 20 74 68 65 20 0a 23 20 66 74  k with the .# ft
4790: 73 33 74 6f 6b 65 6e 69 7a 65 20 74 61 62 6c 65  s3tokenize table
47a0: 2e 0a 23 0a 64 6f 5f 65 78 65 63 73 71 6c 5f 74  ..#.do_execsql_t
47b0: 65 73 74 20 31 31 2e 31 20 7b 0a 20 20 43 52 45  est 11.1 {.  CRE
47c0: 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c  ATE VIRTUAL TABL
47d0: 45 20 66 74 31 20 55 53 49 4e 47 20 66 74 73 33  E ft1 USING fts3
47e0: 74 6f 6b 65 6e 69 7a 65 28 0a 20 20 20 20 22 75  tokenize(.    "u
47f0: 6e 69 63 6f 64 65 36 31 22 2c 20 22 74 6f 6b 65  nicode61", "toke
4800: 6e 63 68 61 72 73 3d 40 2e 22 2c 20 22 73 65 70  nchars=@.", "sep
4810: 61 72 61 74 6f 72 73 3d 31 32 33 34 35 36 37 38  arators=12345678
4820: 39 30 22 0a 20 20 29 3b 0a 20 20 53 45 4c 45 43  90".  );.  SELEC
4830: 54 20 74 6f 6b 65 6e 20 46 52 4f 4d 20 66 74 31  T token FROM ft1
4840: 20 57 48 45 52 45 20 69 6e 70 75 74 20 3d 20 27   WHERE input = '
4850: 62 65 72 6c 69 6e 40 73 74 72 65 65 74 31 32 33  berlin@street123
4860: 73 79 64 6e 65 79 2e 72 6f 61 64 27 3b 0a 7d 20  sydney.road';.} 
4870: 7b 0a 20 20 62 65 72 6c 69 6e 40 73 74 72 65 65  {.  berlin@stree
4880: 74 20 73 79 64 6e 65 79 2e 72 6f 61 64 0a 7d 0a  t sydney.road.}.
4890: 0a 7d 0a 0a 66 69 6e 69 73 68 5f 74 65 73 74 0a  .}..finish_test.