/ Hex Artifact Content
Login
SQLite training in Houston TX on 2019-11-05 (details)
Part of the 2019 Tcl Conference

Artifact c1dd890ba32b7609adba78e420faa847abe43b59:


0000: 23 20 32 30 31 32 20 4d 61 79 20 32 35 0a 23 0a  # 2012 May 25.#.
0010: 23 20 54 68 65 20 61 75 74 68 6f 72 20 64 69 73  # The author dis
0020: 63 6c 61 69 6d 73 20 63 6f 70 79 72 69 67 68 74  claims copyright
0030: 20 74 6f 20 74 68 69 73 20 73 6f 75 72 63 65 20   to this source 
0040: 63 6f 64 65 2e 20 20 49 6e 20 70 6c 61 63 65 20  code.  In place 
0050: 6f 66 0a 23 20 61 20 6c 65 67 61 6c 20 6e 6f 74  of.# a legal not
0060: 69 63 65 2c 20 68 65 72 65 20 69 73 20 61 20 62  ice, here is a b
0070: 6c 65 73 73 69 6e 67 3a 0a 23 0a 23 20 20 20 20  lessing:.#.#    
0080: 4d 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64 20  May you do good 
0090: 61 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 23 20  and not evil..# 
00a0: 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64 20     May you find 
00b0: 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72 20  forgiveness for 
00c0: 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f 72  yourself and for
00d0: 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 23 20 20  give others..#  
00e0: 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65 20    May you share 
00f0: 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74 61  freely, never ta
0100: 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20 79  king more than y
0110: 6f 75 20 67 69 76 65 2e 0a 23 0a 23 2a 2a 2a 2a  ou give..#.#****
0120: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 0a 23 0a 23 20 54 68 65 20 74 65  *****.#.# The te
0170: 73 74 73 20 69 6e 20 74 68 69 73 20 66 69 6c 65  sts in this file
0180: 20 66 6f 63 75 73 20 6f 6e 20 74 65 73 74 69 6e   focus on testin
0190: 67 20 74 68 65 20 22 75 6e 69 63 6f 64 65 22 20  g the "unicode" 
01a0: 46 54 53 20 74 6f 6b 65 6e 69 7a 65 72 2e 0a 23  FTS tokenizer..#
01b0: 0a 23 20 54 68 69 73 20 69 73 20 61 20 6d 6f 64  .# This is a mod
01c0: 69 66 69 65 64 20 63 6f 70 79 20 6f 66 20 46 54  ified copy of FT
01d0: 53 34 20 74 65 73 74 20 66 69 6c 65 20 22 66 74  S4 test file "ft
01e0: 73 34 5f 75 6e 69 63 6f 64 65 2e 74 65 73 74 22  s4_unicode.test"
01f0: 2e 0a 23 0a 0a 73 6f 75 72 63 65 20 5b 66 69 6c  ..#..source [fil
0200: 65 20 6a 6f 69 6e 20 5b 66 69 6c 65 20 64 69 72  e join [file dir
0210: 6e 61 6d 65 20 5b 69 6e 66 6f 20 73 63 72 69 70  name [info scrip
0220: 74 5d 5d 20 66 74 73 35 5f 63 6f 6d 6d 6f 6e 2e  t]] fts5_common.
0230: 74 63 6c 5d 0a 73 65 74 20 74 65 73 74 70 72 65  tcl].set testpre
0240: 66 69 78 20 66 74 73 35 75 6e 69 63 6f 64 65 32  fix fts5unicode2
0250: 0a 0a 23 20 49 66 20 53 51 4c 49 54 45 5f 45 4e  ..# If SQLITE_EN
0260: 41 42 4c 45 5f 46 54 53 35 20 69 73 20 64 65 66  ABLE_FTS5 is def
0270: 69 6e 65 64 2c 20 6f 6d 69 74 20 74 68 69 73 20  ined, omit this 
0280: 66 69 6c 65 2e 0a 69 66 63 61 70 61 62 6c 65 20  file..ifcapable 
0290: 21 66 74 73 35 20 7b 0a 20 20 66 69 6e 69 73 68  !fts5 {.  finish
02a0: 5f 74 65 73 74 0a 20 20 72 65 74 75 72 6e 0a 7d  _test.  return.}
02b0: 0a 0a 70 72 6f 63 20 64 6f 5f 75 6e 69 63 6f 64  ..proc do_unicod
02c0: 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 20 7b 74 6e  e_token_test {tn
02d0: 20 69 6e 70 75 74 20 72 65 73 7d 20 7b 0a 20 20   input res} {.  
02e0: 75 70 6c 65 76 65 6c 20 5b 6c 69 73 74 20 64 6f  uplevel [list do
02f0: 5f 74 65 73 74 20 24 74 6e 20 5b 6c 69 73 74 20  _test $tn [list 
0300: 5c 0a 20 20 20 20 73 71 6c 69 74 65 33 5f 66 74  \.    sqlite3_ft
0310: 73 35 5f 74 6f 6b 65 6e 69 7a 65 20 2d 73 75 62  s5_tokenize -sub
0320: 73 74 20 64 62 20 22 75 6e 69 63 6f 64 65 36 31  st db "unicode61
0330: 20 72 65 6d 6f 76 65 5f 64 69 61 63 72 69 74 69   remove_diacriti
0340: 63 73 20 30 22 20 24 69 6e 70 75 74 0a 20 20 5d  cs 0" $input.  ]
0350: 20 5b 6c 69 73 74 20 7b 2a 7d 24 72 65 73 5d 5d   [list {*}$res]]
0360: 0a 7d 0a 0a 70 72 6f 63 20 64 6f 5f 75 6e 69 63  .}..proc do_unic
0370: 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 32 20  ode_token_test2 
0380: 7b 74 6e 20 69 6e 70 75 74 20 72 65 73 7d 20 7b  {tn input res} {
0390: 0a 20 20 75 70 6c 65 76 65 6c 20 5b 6c 69 73 74  .  uplevel [list
03a0: 20 64 6f 5f 74 65 73 74 20 24 74 6e 20 5b 6c 69   do_test $tn [li
03b0: 73 74 20 5c 0a 20 20 20 20 73 71 6c 69 74 65 33  st \.    sqlite3
03c0: 5f 66 74 73 35 5f 74 6f 6b 65 6e 69 7a 65 20 2d  _fts5_tokenize -
03d0: 73 75 62 73 74 20 64 62 20 22 75 6e 69 63 6f 64  subst db "unicod
03e0: 65 36 31 22 20 24 69 6e 70 75 74 0a 20 20 5d 20  e61" $input.  ] 
03f0: 5b 6c 69 73 74 20 7b 2a 7d 24 72 65 73 5d 5d 0a  [list {*}$res]].
0400: 7d 0a 0a 70 72 6f 63 20 64 6f 5f 75 6e 69 63 6f  }..proc do_unico
0410: 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 33 20 7b  de_token_test3 {
0420: 74 6e 20 61 72 67 73 7d 20 7b 0a 20 20 73 65 74  tn args} {.  set
0430: 20 74 6f 6b 65 6e 69 7a 65 72 20 5b 63 6f 6e 63   tokenizer [conc
0440: 61 74 20 75 6e 69 63 6f 64 65 36 31 20 7b 2a 7d  at unicode61 {*}
0450: 5b 6c 72 61 6e 67 65 20 24 61 72 67 73 20 30 20  [lrange $args 0 
0460: 65 6e 64 2d 32 5d 5d 0a 20 20 73 65 74 20 69 6e  end-2]].  set in
0470: 70 75 74 20 5b 6c 69 6e 64 65 78 20 24 61 72 67  put [lindex $arg
0480: 73 20 65 6e 64 2d 31 5d 0a 20 20 73 65 74 20 72  s end-1].  set r
0490: 65 73 20 5b 6c 69 6e 64 65 78 20 24 61 72 67 73  es [lindex $args
04a0: 20 65 6e 64 5d 0a 20 20 75 70 6c 65 76 65 6c 20   end].  uplevel 
04b0: 5b 6c 69 73 74 20 64 6f 5f 74 65 73 74 20 24 74  [list do_test $t
04c0: 6e 20 5b 6c 69 73 74 20 5c 0a 20 20 20 20 73 71  n [list \.    sq
04d0: 6c 69 74 65 33 5f 66 74 73 35 5f 74 6f 6b 65 6e  lite3_fts5_token
04e0: 69 7a 65 20 2d 73 75 62 73 74 20 64 62 20 24 74  ize -subst db $t
04f0: 6f 6b 65 6e 69 7a 65 72 20 24 69 6e 70 75 74 0a  okenizer $input.
0500: 20 20 5d 20 5b 6c 69 73 74 20 7b 2a 7d 24 72 65    ] [list {*}$re
0510: 73 5d 5d 0a 7d 0a 0a 64 6f 5f 75 6e 69 63 6f 64  s]].}..do_unicod
0520: 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 20 31 2e 30  e_token_test 1.0
0530: 20 7b 61 20 42 20 63 20 44 7d 20 7b 61 20 61 20   {a B c D} {a a 
0540: 62 20 42 20 63 20 63 20 64 20 44 7d 0a 0a 64 6f  b B c c d D}..do
0550: 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74  _unicode_token_t
0560: 65 73 74 20 31 2e 31 20 22 5c 75 43 34 20 5c 75  est 1.1 "\uC4 \u
0570: 44 36 20 5c 75 44 43 22 20 5c 0a 20 20 20 20 22  D6 \uDC" \.    "
0580: 5c 75 45 34 20 5c 75 43 34 20 5c 75 46 36 20 5c  \uE4 \uC4 \uF6 \
0590: 75 44 36 20 5c 75 46 43 20 5c 75 44 43 22 0a 0a  uD6 \uFC \uDC"..
05a0: 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e  do_unicode_token
05b0: 5f 74 65 73 74 20 31 2e 32 20 22 78 5c 75 43 34  _test 1.2 "x\uC4
05c0: 78 20 78 5c 75 44 36 78 20 78 5c 75 44 43 78 22  x x\uD6x x\uDCx"
05d0: 20 5c 0a 20 20 20 20 22 78 5c 75 45 34 78 20 78   \.    "x\uE4x x
05e0: 5c 75 43 34 78 20 78 5c 75 46 36 78 20 78 5c 75  \uC4x x\uF6x x\u
05f0: 44 36 78 20 78 5c 75 46 43 78 20 78 5c 75 44 43  D6x x\uFCx x\uDC
0600: 78 22 0a 0a 23 20 30 78 30 30 44 46 20 69 73 20  x"..# 0x00DF is 
0610: 61 20 73 6d 61 6c 6c 20 22 73 68 61 72 70 20 73  a small "sharp s
0620: 22 2e 20 30 78 31 45 39 45 20 69 73 20 61 20 63  ". 0x1E9E is a c
0630: 61 70 69 74 61 6c 20 73 68 61 72 70 20 73 2e 0a  apital sharp s..
0640: 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e  do_unicode_token
0650: 5f 74 65 73 74 20 31 2e 33 20 22 5c 75 44 46 22  _test 1.3 "\uDF"
0660: 20 22 5c 75 44 46 20 5c 75 44 46 22 0a 64 6f 5f   "\uDF \uDF".do_
0670: 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65  unicode_token_te
0680: 73 74 20 31 2e 34 20 22 5c 75 31 45 39 45 22 20  st 1.4 "\u1E9E" 
0690: 22 5c 75 44 46 20 5c 75 31 45 39 45 22 0a 0a 64  "\uDF \u1E9E"..d
06a0: 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f  o_unicode_token_
06b0: 74 65 73 74 20 31 2e 35 20 22 54 68 65 20 71 75  test 1.5 "The qu
06c0: 69 63 6b 20 62 72 6f 77 6e 20 66 6f 78 22 20 7b  ick brown fox" {
06d0: 0a 20 20 74 68 65 20 54 68 65 20 71 75 69 63 6b  .  the The quick
06e0: 20 71 75 69 63 6b 20 62 72 6f 77 6e 20 62 72 6f   quick brown bro
06f0: 77 6e 20 66 6f 78 20 66 6f 78 0a 7d 0a 64 6f 5f  wn fox fox.}.do_
0700: 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65  unicode_token_te
0710: 73 74 20 31 2e 36 20 22 54 68 65 5c 75 30 30 62  st 1.6 "The\u00b
0720: 66 71 75 69 63 6b 5c 75 32 32 34 65 62 72 6f 77  fquick\u224ebrow
0730: 6e 5c 75 32 32 36 33 66 6f 78 22 20 7b 0a 20 20  n\u2263fox" {.  
0740: 74 68 65 20 54 68 65 20 71 75 69 63 6b 20 71 75  the The quick qu
0750: 69 63 6b 20 62 72 6f 77 6e 20 62 72 6f 77 6e 20  ick brown brown 
0760: 66 6f 78 20 66 6f 78 0a 7d 0a 0a 64 6f 5f 75 6e  fox fox.}..do_un
0770: 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74  icode_token_test
0780: 32 20 31 2e 37 20 20 7b 61 20 42 20 63 20 44 7d  2 1.7  {a B c D}
0790: 20 7b 61 20 61 20 62 20 42 20 63 20 63 20 64 20   {a a b B c c d 
07a0: 44 7d 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f  D}.do_unicode_to
07b0: 6b 65 6e 5f 74 65 73 74 32 20 31 2e 38 20 20 22  ken_test2 1.8  "
07c0: 5c 75 43 34 20 5c 75 44 36 20 5c 75 44 43 22 20  \uC4 \uD6 \uDC" 
07d0: 22 61 20 5c 75 43 34 20 6f 20 5c 75 44 36 20 75  "a \uC4 o \uD6 u
07e0: 20 5c 75 44 43 22 0a 0a 64 6f 5f 75 6e 69 63 6f   \uDC"..do_unico
07f0: 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 32 20 31  de_token_test2 1
0800: 2e 39 20 20 22 78 5c 75 43 34 78 20 78 5c 75 44  .9  "x\uC4x x\uD
0810: 36 78 20 78 5c 75 44 43 78 22 20 5c 0a 20 20 20  6x x\uDCx" \.   
0820: 20 22 78 61 78 20 78 5c 75 43 34 78 20 78 6f 78   "xax x\uC4x xox
0830: 20 78 5c 75 44 36 78 20 78 75 78 20 78 5c 75 44   x\uD6x xux x\uD
0840: 43 78 22 0a 0a 23 20 43 68 65 63 6b 20 74 68 61  Cx"..# Check tha
0850: 74 20 64 69 61 63 72 69 74 69 63 73 20 61 72 65  t diacritics are
0860: 20 72 65 6d 6f 76 65 64 20 69 66 20 72 65 6d 6f   removed if remo
0870: 76 65 5f 64 69 61 63 72 69 74 69 63 73 3d 31 20  ve_diacritics=1 
0880: 69 73 20 73 70 65 63 69 66 69 65 64 2e 0a 23 20  is specified..# 
0890: 41 6e 64 20 74 68 61 74 20 74 68 65 79 20 64 6f  And that they do
08a0: 20 6e 6f 74 20 62 72 65 61 6b 20 74 6f 6b 65 6e   not break token
08b0: 73 2e 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f  s..do_unicode_to
08c0: 6b 65 6e 5f 74 65 73 74 32 20 31 2e 31 30 20 22  ken_test2 1.10 "
08d0: 78 78 5c 75 30 33 30 31 78 78 22 20 22 78 78 78  xx\u0301xx" "xxx
08e0: 78 20 78 78 5c 75 33 30 31 78 78 22 0a 0a 23 20  x xx\u301xx"..# 
08f0: 54 69 74 6c 65 2d 63 61 73 65 20 6d 61 70 70 69  Title-case mappi
0900: 6e 67 73 20 77 6f 72 6b 0a 64 6f 5f 75 6e 69 63  ngs work.do_unic
0910: 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 20 31  ode_token_test 1
0920: 2e 31 31 20 22 5c 75 30 31 63 35 22 20 22 5c 75  .11 "\u01c5" "\u
0930: 30 31 63 36 20 5c 75 30 31 63 35 22 0a 0a 64 6f  01c6 \u01c5"..do
0940: 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74  _unicode_token_t
0950: 65 73 74 20 31 2e 31 32 20 22 5c 75 30 30 43 31  est 1.12 "\u00C1
0960: 61 62 63 5c 75 30 30 43 32 20 5c 75 30 30 44 31  abc\u00C2 \u00D1
0970: 64 65 66 5c 75 30 30 43 33 22 20 5c 0a 20 20 20  def\u00C3" \.   
0980: 20 22 5c 75 30 30 45 31 61 62 63 5c 75 30 30 45   "\u00E1abc\u00E
0990: 32 20 5c 75 30 30 43 31 61 62 63 5c 75 30 30 43  2 \u00C1abc\u00C
09a0: 32 20 5c 75 30 30 46 31 64 65 66 5c 75 30 30 45  2 \u00F1def\u00E
09b0: 33 20 5c 75 30 30 44 31 64 65 66 5c 75 30 30 43  3 \u00D1def\u00C
09c0: 33 22 0a 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74  3"..do_unicode_t
09d0: 6f 6b 65 6e 5f 74 65 73 74 20 31 2e 31 33 20 22  oken_test 1.13 "
09e0: 5c 75 30 30 41 32 61 62 63 5c 75 30 30 41 33 20  \u00A2abc\u00A3 
09f0: 5c 75 30 30 41 34 64 65 66 5c 75 30 30 41 35 22  \u00A4def\u00A5"
0a00: 20 5c 0a 20 20 20 20 22 61 62 63 20 61 62 63 20   \.    "abc abc 
0a10: 64 65 66 20 64 65 66 22 0a 0a 23 2d 2d 2d 2d 2d  def def"..#-----
0a20: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a30: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a40: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a50: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a60: 2d 2d 2d 2d 0a 23 0a 73 65 74 20 64 6f 63 73 20  ----.#.set docs 
0a70: 5b 6c 69 73 74 20 7b 0a 20 20 45 6e 68 61 6e 63  [list {.  Enhanc
0a80: 65 20 74 68 65 20 49 4e 53 45 52 54 20 73 79 6e  e the INSERT syn
0a90: 74 61 78 20 74 6f 20 61 6c 6c 6f 77 20 6d 75 6c  tax to allow mul
0aa0: 74 69 70 6c 65 20 72 6f 77 73 20 74 6f 20 62 65  tiple rows to be
0ab0: 20 69 6e 73 65 72 74 65 64 20 76 69 61 20 74 68   inserted via th
0ac0: 65 0a 20 20 56 41 4c 55 45 53 20 63 6c 61 75 73  e.  VALUES claus
0ad0: 65 2e 0a 7d 20 7b 0a 20 20 45 6e 68 61 6e 63 65  e..} {.  Enhance
0ae0: 20 74 68 65 20 43 52 45 41 54 45 20 56 49 52 54   the CREATE VIRT
0af0: 55 41 4c 20 54 41 42 4c 45 20 63 6f 6d 6d 61 6e  UAL TABLE comman
0b00: 64 20 74 6f 20 73 75 70 70 6f 72 74 20 74 68 65  d to support the
0b10: 20 49 46 20 4e 4f 54 20 45 58 49 53 54 53 20 63   IF NOT EXISTS c
0b20: 6c 61 75 73 65 2e 0a 7d 20 7b 0a 20 20 41 64 64  lause..} {.  Add
0b30: 65 64 20 74 68 65 20 73 71 6c 69 74 65 33 5f 73  ed the sqlite3_s
0b40: 74 72 69 63 6d 70 28 29 20 69 6e 74 65 72 66 61  tricmp() interfa
0b50: 63 65 20 61 73 20 61 20 63 6f 75 6e 74 65 72 70  ce as a counterp
0b60: 61 72 74 20 74 6f 20 73 71 6c 69 74 65 33 5f 73  art to sqlite3_s
0b70: 74 72 6e 69 63 6d 70 28 29 2e 0a 7d 20 7b 0a 20  trnicmp()..} {. 
0b80: 20 41 64 64 65 64 20 74 68 65 20 73 71 6c 69 74   Added the sqlit
0b90: 65 33 5f 64 62 5f 72 65 61 64 6f 6e 6c 79 28 29  e3_db_readonly()
0ba0: 20 69 6e 74 65 72 66 61 63 65 2e 0a 7d 20 7b 0a   interface..} {.
0bb0: 20 20 41 64 64 65 64 20 74 68 65 20 53 51 4c 49    Added the SQLI
0bc0: 54 45 5f 46 43 4e 54 4c 5f 50 52 41 47 4d 41 20  TE_FCNTL_PRAGMA 
0bd0: 66 69 6c 65 20 63 6f 6e 74 72 6f 6c 2c 20 67 69  file control, gi
0be0: 76 69 6e 67 20 56 46 53 20 69 6d 70 6c 65 6d 65  ving VFS impleme
0bf0: 6e 74 61 74 69 6f 6e 73 20 74 68 65 0a 20 20 61  ntations the.  a
0c00: 62 69 6c 69 74 79 20 74 6f 20 61 64 64 20 6e 65  bility to add ne
0c10: 77 20 50 52 41 47 4d 41 20 73 74 61 74 65 6d 65  w PRAGMA stateme
0c20: 6e 74 73 20 6f 72 20 74 6f 20 6f 76 65 72 72 69  nts or to overri
0c30: 64 65 20 62 75 69 6c 74 2d 69 6e 20 50 52 41 47  de built-in PRAG
0c40: 4d 41 73 2e 20 20 0a 7d 20 7b 0a 20 20 51 75 65  MAs.  .} {.  Que
0c50: 72 69 65 73 20 6f 66 20 74 68 65 20 66 6f 72 6d  ries of the form
0c60: 3a 20 22 53 45 4c 45 43 54 20 6d 61 78 28 78 29  : "SELECT max(x)
0c70: 2c 20 79 20 46 52 4f 4d 20 74 61 62 6c 65 22 20  , y FROM table" 
0c80: 72 65 74 75 72 6e 73 20 74 68 65 20 76 61 6c 75  returns the valu
0c90: 65 20 6f 66 20 79 20 6f 6e 0a 20 20 74 68 65 20  e of y on.  the 
0ca0: 73 61 6d 65 20 72 6f 77 20 74 68 61 74 20 63 6f  same row that co
0cb0: 6e 74 61 69 6e 73 20 74 68 65 20 6d 61 78 69 6d  ntains the maxim
0cc0: 75 6d 20 78 20 76 61 6c 75 65 2e 0a 7d 20 7b 0a  um x value..} {.
0cd0: 20 20 41 64 64 65 64 20 73 75 70 70 6f 72 74 20    Added support 
0ce0: 66 6f 72 20 74 68 65 20 46 54 53 34 20 6c 61 6e  for the FTS4 lan
0cf0: 67 75 61 67 65 69 64 20 6f 70 74 69 6f 6e 2e 0a  guageid option..
0d00: 7d 20 7b 0a 20 20 44 6f 63 75 6d 65 6e 74 65 64  } {.  Documented
0d10: 20 73 75 70 70 6f 72 74 20 66 6f 72 20 74 68 65   support for the
0d20: 20 46 54 53 34 20 63 6f 6e 74 65 6e 74 20 6f 70   FTS4 content op
0d30: 74 69 6f 6e 2e 20 54 68 69 73 20 66 65 61 74 75  tion. This featu
0d40: 72 65 20 68 61 73 20 61 63 74 75 61 6c 6c 79 0a  re has actually.
0d50: 20 20 62 65 65 6e 20 69 6e 20 74 68 65 20 63 6f    been in the co
0d60: 64 65 20 73 69 6e 63 65 20 76 65 72 73 69 6f 6e  de since version
0d70: 20 33 2e 37 2e 39 20 62 75 74 20 69 73 20 6f 6e   3.7.9 but is on
0d80: 6c 79 20 6e 6f 77 20 63 6f 6e 73 69 64 65 72 65  ly now considere
0d90: 64 20 74 6f 20 62 65 0a 20 20 6f 66 66 69 63 69  d to be.  offici
0da0: 61 6c 6c 79 20 73 75 70 70 6f 72 74 65 64 2e 20  ally supported. 
0db0: 20 0a 7d 20 7b 0a 20 20 50 65 6e 64 69 6e 67 20   .} {.  Pending 
0dc0: 73 74 61 74 65 6d 65 6e 74 73 20 6e 6f 20 6c 6f  statements no lo
0dd0: 6e 67 65 72 20 62 6c 6f 63 6b 20 52 4f 4c 4c 42  nger block ROLLB
0de0: 41 43 4b 2e 20 49 6e 73 74 65 61 64 2c 20 74 68  ACK. Instead, th
0df0: 65 20 70 65 6e 64 69 6e 67 20 73 74 61 74 65 6d  e pending statem
0e00: 65 6e 74 0a 20 20 77 69 6c 6c 20 72 65 74 75 72  ent.  will retur
0e10: 6e 20 53 51 4c 49 54 45 5f 41 42 4f 52 54 20 75  n SQLITE_ABORT u
0e20: 70 6f 6e 20 6e 65 78 74 20 61 63 63 65 73 73 20  pon next access 
0e30: 61 66 74 65 72 20 74 68 65 20 52 4f 4c 4c 42 41  after the ROLLBA
0e40: 43 4b 2e 20 20 0a 7d 20 7b 0a 20 20 49 6d 70 72  CK.  .} {.  Impr
0e50: 6f 76 65 6d 65 6e 74 73 20 74 6f 20 74 68 65 20  ovements to the 
0e60: 68 61 6e 64 6c 69 6e 67 20 6f 66 20 43 53 56 20  handling of CSV 
0e70: 69 6e 70 75 74 73 20 69 6e 20 74 68 65 20 63 6f  inputs in the co
0e80: 6d 6d 61 6e 64 2d 6c 69 6e 65 20 73 68 65 6c 6c  mmand-line shell
0e90: 0a 7d 20 7b 0a 20 20 46 69 78 20 61 20 62 75 67  .} {.  Fix a bug
0ea0: 20 69 6e 74 72 6f 64 75 63 65 64 20 69 6e 20 76   introduced in v
0eb0: 65 72 73 69 6f 6e 20 33 2e 37 2e 31 30 20 74 68  ersion 3.7.10 th
0ec0: 61 74 20 6d 69 67 68 74 20 63 61 75 73 65 20 61  at might cause a
0ed0: 20 4c 45 46 54 20 4a 4f 49 4e 20 74 6f 20 62 65   LEFT JOIN to be
0ee0: 0a 20 20 69 6e 63 6f 72 72 65 63 74 6c 79 20 63  .  incorrectly c
0ef0: 6f 6e 76 65 72 74 65 64 20 69 6e 74 6f 20 61 6e  onverted into an
0f00: 20 49 4e 4e 45 52 20 4a 4f 49 4e 20 69 66 20 74   INNER JOIN if t
0f10: 68 65 20 57 48 45 52 45 20 63 6c 61 75 73 65 20  he WHERE clause 
0f20: 69 6e 64 65 78 61 62 6c 65 20 74 65 72 6d 73 0a  indexable terms.
0f30: 20 20 63 6f 6e 6e 65 63 74 65 64 20 62 79 20 4f    connected by O
0f40: 52 2e 20 20 0a 7d 5d 0a 0a 73 65 74 20 6d 61 70  R.  .}]..set map
0f50: 28 61 29 20 5b 6c 69 73 74 20 22 5c 75 30 30 43  (a) [list "\u00C
0f60: 34 22 20 22 5c 75 30 30 45 34 22 5d 20 20 3b 20  4" "\u00E4"]  ; 
0f70: 23 20 4c 41 54 49 4e 20 4c 45 54 54 45 52 20 41  # LATIN LETTER A
0f80: 20 57 49 54 48 20 44 49 41 45 52 45 53 49 53 0a   WITH DIAERESIS.
0f90: 73 65 74 20 6d 61 70 28 65 29 20 5b 6c 69 73 74  set map(e) [list
0fa0: 20 22 5c 75 30 30 43 42 22 20 22 5c 75 30 30 45   "\u00CB" "\u00E
0fb0: 42 22 5d 20 20 3b 20 23 20 4c 41 54 49 4e 20 4c  B"]  ; # LATIN L
0fc0: 45 54 54 45 52 20 45 20 57 49 54 48 20 44 49 41  ETTER E WITH DIA
0fd0: 45 52 45 53 49 53 0a 73 65 74 20 6d 61 70 28 69  ERESIS.set map(i
0fe0: 29 20 5b 6c 69 73 74 20 22 5c 75 30 30 43 46 22  ) [list "\u00CF"
0ff0: 20 22 5c 75 30 30 45 46 22 5d 20 20 3b 20 23 20   "\u00EF"]  ; # 
1000: 4c 41 54 49 4e 20 4c 45 54 54 45 52 20 49 20 57  LATIN LETTER I W
1010: 49 54 48 20 44 49 41 45 52 45 53 49 53 0a 73 65  ITH DIAERESIS.se
1020: 74 20 6d 61 70 28 6f 29 20 5b 6c 69 73 74 20 22  t map(o) [list "
1030: 5c 75 30 30 44 36 22 20 22 5c 75 30 30 46 36 22  \u00D6" "\u00F6"
1040: 5d 20 20 3b 20 23 20 4c 41 54 49 4e 20 4c 45 54  ]  ; # LATIN LET
1050: 54 45 52 20 4f 20 57 49 54 48 20 44 49 41 45 52  TER O WITH DIAER
1060: 45 53 49 53 0a 73 65 74 20 6d 61 70 28 75 29 20  ESIS.set map(u) 
1070: 5b 6c 69 73 74 20 22 5c 75 30 30 44 43 22 20 22  [list "\u00DC" "
1080: 5c 75 30 30 46 43 22 5d 20 20 3b 20 23 20 4c 41  \u00FC"]  ; # LA
1090: 54 49 4e 20 4c 45 54 54 45 52 20 55 20 57 49 54  TIN LETTER U WIT
10a0: 48 20 44 49 41 45 52 45 53 49 53 0a 73 65 74 20  H DIAERESIS.set 
10b0: 6d 61 70 28 79 29 20 5b 6c 69 73 74 20 22 5c 75  map(y) [list "\u
10c0: 30 31 37 38 22 20 22 5c 75 30 30 46 46 22 5d 20  0178" "\u00FF"] 
10d0: 20 3b 20 23 20 4c 41 54 49 4e 20 4c 45 54 54 45   ; # LATIN LETTE
10e0: 52 20 59 20 57 49 54 48 20 44 49 41 45 52 45 53  R Y WITH DIAERES
10f0: 49 53 0a 73 65 74 20 6d 61 70 28 68 29 20 5b 6c  IS.set map(h) [l
1100: 69 73 74 20 22 5c 75 31 45 32 36 22 20 22 5c 75  ist "\u1E26" "\u
1110: 31 45 32 37 22 5d 20 20 3b 20 23 20 4c 41 54 49  1E27"]  ; # LATI
1120: 4e 20 4c 45 54 54 45 52 20 48 20 57 49 54 48 20  N LETTER H WITH 
1130: 44 49 41 45 52 45 53 49 53 0a 73 65 74 20 6d 61  DIAERESIS.set ma
1140: 70 28 77 29 20 5b 6c 69 73 74 20 22 5c 75 31 45  p(w) [list "\u1E
1150: 38 34 22 20 22 5c 75 31 45 38 35 22 5d 20 20 3b  84" "\u1E85"]  ;
1160: 20 23 20 4c 41 54 49 4e 20 4c 45 54 54 45 52 20   # LATIN LETTER 
1170: 57 20 57 49 54 48 20 44 49 41 45 52 45 53 49 53  W WITH DIAERESIS
1180: 0a 73 65 74 20 6d 61 70 28 78 29 20 5b 6c 69 73  .set map(x) [lis
1190: 74 20 22 5c 75 31 45 38 43 22 20 22 5c 75 31 45  t "\u1E8C" "\u1E
11a0: 38 44 22 5d 20 20 3b 20 23 20 4c 41 54 49 4e 20  8D"]  ; # LATIN 
11b0: 4c 45 54 54 45 52 20 58 20 57 49 54 48 20 44 49  LETTER X WITH DI
11c0: 41 45 52 45 53 49 53 0a 66 6f 72 65 61 63 68 20  AERESIS.foreach 
11d0: 6b 20 5b 61 72 72 61 79 20 6e 61 6d 65 73 20 6d  k [array names m
11e0: 61 70 5d 20 7b 0a 20 20 6c 61 70 70 65 6e 64 20  ap] {.  lappend 
11f0: 6d 61 70 70 69 6e 67 73 20 5b 73 74 72 69 6e 67  mappings [string
1200: 20 74 6f 75 70 70 65 72 20 24 6b 5d 20 5b 6c 69   toupper $k] [li
1210: 6e 64 65 78 20 24 6d 61 70 28 24 6b 29 20 30 5d  ndex $map($k) 0]
1220: 20 0a 20 20 6c 61 70 70 65 6e 64 20 6d 61 70 70   .  lappend mapp
1230: 69 6e 67 73 20 24 6b 20 5b 6c 69 6e 64 65 78 20  ings $k [lindex 
1240: 24 6d 61 70 28 24 6b 29 20 31 5d 0a 7d 0a 70 72  $map($k) 1].}.pr
1250: 6f 63 20 6d 61 70 64 6f 63 20 7b 64 6f 63 7d 20  oc mapdoc {doc} 
1260: 7b 20 0a 20 20 73 65 74 20 64 6f 63 20 5b 72 65  { .  set doc [re
1270: 67 73 75 62 20 2d 61 6c 6c 20 7b 5b 5b 3a 73 70  gsub -all {[[:sp
1280: 61 63 65 3a 5d 5d 2b 7d 20 24 64 6f 63 20 22 20  ace:]]+} $doc " 
1290: 22 5d 0a 20 20 73 74 72 69 6e 67 20 6d 61 70 20  "].  string map 
12a0: 24 3a 3a 6d 61 70 70 69 6e 67 73 20 5b 73 74 72  $::mappings [str
12b0: 69 6e 67 20 74 72 69 6d 20 24 64 6f 63 5d 20 0a  ing trim $doc] .
12c0: 7d 0a 0a 64 6f 5f 74 65 73 74 20 32 2e 30 20 7b  }..do_test 2.0 {
12d0: 0a 20 20 65 78 65 63 73 71 6c 20 7b 20 43 52 45  .  execsql { CRE
12e0: 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c  ATE VIRTUAL TABL
12f0: 45 20 74 32 20 55 53 49 4e 47 20 66 74 73 35 28  E t2 USING fts5(
1300: 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64 65  tokenize=unicode
1310: 36 31 2c 20 78 29 3b 20 7d 0a 20 20 66 6f 72 65  61, x); }.  fore
1320: 61 63 68 20 64 6f 63 20 24 64 6f 63 73 20 7b 0a  ach doc $docs {.
1330: 20 20 20 20 73 65 74 20 64 20 5b 6d 61 70 64 6f      set d [mapdo
1340: 63 20 24 64 6f 63 5d 0a 20 20 20 20 65 78 65 63  c $doc].    exec
1350: 73 71 6c 20 7b 20 49 4e 53 45 52 54 20 49 4e 54  sql { INSERT INT
1360: 4f 20 74 32 20 56 41 4c 55 45 53 28 24 64 29 20  O t2 VALUES($d) 
1370: 7d 0a 20 20 7d 0a 7d 20 7b 7d 0a 0a 64 6f 5f 74  }.  }.} {}..do_t
1380: 65 73 74 20 32 2e 31 20 7b 0a 20 20 73 65 74 20  est 2.1 {.  set 
1390: 71 20 5b 6d 61 70 64 6f 63 20 22 72 6f 77 22 5d  q [mapdoc "row"]
13a0: 0a 20 20 65 78 65 63 73 71 6c 20 7b 20 53 45 4c  .  execsql { SEL
13b0: 45 43 54 20 2a 20 46 52 4f 4d 20 74 32 20 57 48  ECT * FROM t2 WH
13c0: 45 52 45 20 74 32 20 4d 41 54 43 48 20 24 71 20  ERE t2 MATCH $q 
13d0: 7d 0a 7d 20 5b 6c 69 73 74 20 5b 6d 61 70 64 6f  }.} [list [mapdo
13e0: 63 20 7b 0a 20 20 51 75 65 72 69 65 73 20 6f 66  c {.  Queries of
13f0: 20 74 68 65 20 66 6f 72 6d 3a 20 22 53 45 4c 45   the form: "SELE
1400: 43 54 20 6d 61 78 28 78 29 2c 20 79 20 46 52 4f  CT max(x), y FRO
1410: 4d 20 74 61 62 6c 65 22 20 72 65 74 75 72 6e 73  M table" returns
1420: 20 74 68 65 20 76 61 6c 75 65 20 6f 66 20 79 20   the value of y 
1430: 6f 6e 0a 20 20 74 68 65 20 73 61 6d 65 20 72 6f  on.  the same ro
1440: 77 20 74 68 61 74 20 63 6f 6e 74 61 69 6e 73 20  w that contains 
1450: 74 68 65 20 6d 61 78 69 6d 75 6d 20 78 20 76 61  the maximum x va
1460: 6c 75 65 2e 0a 7d 5d 5d 0a 0a 66 6f 72 65 61 63  lue..}]]..foreac
1470: 68 20 7b 74 6e 20 71 75 65 72 79 20 73 6e 69 70  h {tn query snip
1480: 70 65 74 7d 20 7b 0a 20 20 32 20 22 72 6f 77 22  pet} {.  2 "row"
1490: 20 7b 0a 20 20 20 20 20 2e 2e 2e 72 65 74 75 72   {.     ...retur
14a0: 6e 73 20 74 68 65 20 76 61 6c 75 65 20 6f 66 20  ns the value of 
14b0: 79 20 6f 6e 20 74 68 65 20 73 61 6d 65 20 5b 72  y on the same [r
14c0: 6f 77 5d 20 74 68 61 74 20 63 6f 6e 74 61 69 6e  ow] that contain
14d0: 73 20 0a 20 20 20 20 20 74 68 65 20 6d 61 78 69  s .     the maxi
14e0: 6d 75 6d 20 78 20 76 61 6c 75 65 2e 0a 20 20 7d  mum x value..  }
14f0: 0a 20 20 33 20 22 52 4f 57 22 20 7b 0a 20 20 20  .  3 "ROW" {.   
1500: 20 20 2e 2e 2e 72 65 74 75 72 6e 73 20 74 68 65    ...returns the
1510: 20 76 61 6c 75 65 20 6f 66 20 79 20 6f 6e 20 74   value of y on t
1520: 68 65 20 73 61 6d 65 20 5b 72 6f 77 5d 20 74 68  he same [row] th
1530: 61 74 20 63 6f 6e 74 61 69 6e 73 20 0a 20 20 20  at contains .   
1540: 20 20 74 68 65 20 6d 61 78 69 6d 75 6d 20 78 20    the maximum x 
1550: 76 61 6c 75 65 2e 0a 20 20 7d 0a 20 20 34 20 22  value..  }.  4 "
1560: 72 6f 6c 6c 62 61 63 6b 22 20 7b 0a 20 20 20 20  rollback" {.    
1570: 20 2e 2e 2e 5b 52 4f 4c 4c 42 41 43 4b 5d 2e 20   ...[ROLLBACK]. 
1580: 49 6e 73 74 65 61 64 2c 20 74 68 65 20 70 65 6e  Instead, the pen
1590: 64 69 6e 67 20 73 74 61 74 65 6d 65 6e 74 0a 20  ding statement. 
15a0: 20 20 20 20 77 69 6c 6c 20 72 65 74 75 72 6e 20      will return 
15b0: 53 51 4c 49 54 45 5f 41 42 4f 52 54 20 75 70 6f  SQLITE_ABORT upo
15c0: 6e 20 6e 65 78 74 20 61 63 63 65 73 73 20 61 66  n next access af
15d0: 74 65 72 20 74 68 65 20 5b 52 4f 4c 4c 42 41 43  ter the [ROLLBAC
15e0: 4b 5d 2e 0a 20 20 7d 0a 20 20 35 20 22 72 4f 6c  K]..  }.  5 "rOl
15f0: 6c 62 61 63 6b 22 20 7b 0a 20 20 20 20 20 2e 2e  lback" {.     ..
1600: 2e 5b 52 4f 4c 4c 42 41 43 4b 5d 2e 20 49 6e 73  .[ROLLBACK]. Ins
1610: 74 65 61 64 2c 20 74 68 65 20 70 65 6e 64 69 6e  tead, the pendin
1620: 67 20 73 74 61 74 65 6d 65 6e 74 0a 20 20 20 20  g statement.    
1630: 20 77 69 6c 6c 20 72 65 74 75 72 6e 20 53 51 4c   will return SQL
1640: 49 54 45 5f 41 42 4f 52 54 20 75 70 6f 6e 20 6e  ITE_ABORT upon n
1650: 65 78 74 20 61 63 63 65 73 73 20 61 66 74 65 72  ext access after
1660: 20 74 68 65 20 5b 52 4f 4c 4c 42 41 43 4b 5d 2e   the [ROLLBACK].
1670: 0a 20 20 7d 0a 20 20 36 20 22 6c 61 6e 67 2a 22  .  }.  6 "lang*"
1680: 20 7b 0a 20 20 20 20 20 41 64 64 65 64 20 73 75   {.     Added su
1690: 70 70 6f 72 74 20 66 6f 72 20 74 68 65 20 46 54  pport for the FT
16a0: 53 34 20 5b 6c 61 6e 67 75 61 67 65 69 64 5d 20  S4 [languageid] 
16b0: 6f 70 74 69 6f 6e 2e 0a 20 20 7d 0a 7d 20 7b 0a  option..  }.} {.
16c0: 20 20 64 6f 5f 74 65 73 74 20 32 2e 24 74 6e 20    do_test 2.$tn 
16d0: 7b 0a 20 20 20 20 73 65 74 20 71 20 5b 6d 61 70  {.    set q [map
16e0: 64 6f 63 20 24 71 75 65 72 79 5d 0a 20 20 20 20  doc $query].    
16f0: 65 78 65 63 73 71 6c 20 7b 20 0a 20 20 20 20 20  execsql { .     
1700: 20 53 45 4c 45 43 54 20 73 6e 69 70 70 65 74 28   SELECT snippet(
1710: 74 32 2c 20 2d 31 2c 20 27 5b 27 2c 20 27 5d 27  t2, -1, '[', ']'
1720: 2c 20 27 2e 2e 2e 27 2c 20 31 35 29 20 46 52 4f  , '...', 15) FRO
1730: 4d 20 74 32 20 57 48 45 52 45 20 74 32 20 4d 41  M t2 WHERE t2 MA
1740: 54 43 48 20 24 71 20 0a 20 20 20 20 7d 0a 20 20  TCH $q .    }.  
1750: 7d 20 5b 6c 69 73 74 20 5b 6d 61 70 64 6f 63 20  } [list [mapdoc 
1760: 24 73 6e 69 70 70 65 74 5d 5d 0a 7d 0a 0a 23 2d  $snippet]].}..#-
1770: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
1780: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
1790: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
17a0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
17b0: 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 20 4d 61 6b 65 20  --------.# Make 
17c0: 73 75 72 65 20 74 68 65 20 75 6e 69 63 6f 64 65  sure the unicode
17d0: 36 31 20 74 6f 6b 65 6e 69 7a 65 72 20 64 6f 65  61 tokenizer doe
17e0: 73 20 6e 6f 74 20 63 72 61 73 68 20 69 66 20 69  s not crash if i
17f0: 74 20 69 73 20 70 61 73 73 65 64 20 61 20 0a 23  t is passed a .#
1800: 20 4e 55 4c 4c 20 70 6f 69 6e 74 65 72 2e 0a 72   NULL pointer..r
1810: 65 73 65 74 5f 64 62 0a 64 6f 5f 65 78 65 63 73  eset_db.do_execs
1820: 71 6c 5f 74 65 73 74 20 33 2e 31 20 7b 0a 20 20  ql_test 3.1 {.  
1830: 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54  CREATE VIRTUAL T
1840: 41 42 4c 45 20 74 31 20 55 53 49 4e 47 20 66 74  ABLE t1 USING ft
1850: 73 35 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63  s5(tokenize=unic
1860: 6f 64 65 36 31 2c 20 78 2c 20 79 29 3b 0a 20 20  ode61, x, y);.  
1870: 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56  INSERT INTO t1 V
1880: 41 4c 55 45 53 28 4e 55 4c 4c 2c 20 27 61 20 62  ALUES(NULL, 'a b
1890: 20 63 27 29 3b 0a 7d 0a 0a 64 6f 5f 65 78 65 63   c');.}..do_exec
18a0: 73 71 6c 5f 74 65 73 74 20 33 2e 32 20 7b 0a 20  sql_test 3.2 {. 
18b0: 20 53 45 4c 45 43 54 20 73 6e 69 70 70 65 74 28   SELECT snippet(
18c0: 74 31 2c 20 2d 31 2c 20 27 5b 27 2c 20 27 5d 27  t1, -1, '[', ']'
18d0: 2c 20 27 2e 2e 2e 27 2c 20 31 35 29 20 46 52 4f  , '...', 15) FRO
18e0: 4d 20 74 31 20 57 48 45 52 45 20 74 31 20 4d 41  M t1 WHERE t1 MA
18f0: 54 43 48 20 27 62 27 0a 7d 20 7b 7b 61 20 5b 62  TCH 'b'.} {{a [b
1900: 5d 20 63 7d 7d 0a 0a 64 6f 5f 65 78 65 63 73 71  ] c}}..do_execsq
1910: 6c 5f 74 65 73 74 20 33 2e 33 20 7b 0a 20 20 42  l_test 3.3 {.  B
1920: 45 47 49 4e 3b 0a 20 20 44 45 4c 45 54 45 20 46  EGIN;.  DELETE F
1930: 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45 52 54  ROM t1;.  INSERT
1940: 20 49 4e 54 4f 20 74 31 20 56 41 4c 55 45 53 28   INTO t1 VALUES(
1950: 27 62 20 62 20 62 20 62 20 62 20 62 20 62 20 62  'b b b b b b b b
1960: 20 62 20 62 20 62 27 2c 20 27 62 20 62 20 62 20   b b b', 'b b b 
1970: 62 20 62 20 62 20 62 20 62 20 62 20 62 20 62 20  b b b b b b b b 
1980: 62 20 62 27 29 3b 0a 20 20 49 4e 53 45 52 54 20  b b');.  INSERT 
1990: 49 4e 54 4f 20 74 31 20 53 45 4c 45 43 54 20 2a  INTO t1 SELECT *
19a0: 20 46 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45   FROM t1;.  INSE
19b0: 52 54 20 49 4e 54 4f 20 74 31 20 53 45 4c 45 43  RT INTO t1 SELEC
19c0: 54 20 2a 20 46 52 4f 4d 20 74 31 3b 0a 20 20 49  T * FROM t1;.  I
19d0: 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 53 45  NSERT INTO t1 SE
19e0: 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74 31 3b 0a  LECT * FROM t1;.
19f0: 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31    INSERT INTO t1
1a00: 20 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74   SELECT * FROM t
1a10: 31 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f  1;.  INSERT INTO
1a20: 20 74 31 20 53 45 4c 45 43 54 20 2a 20 46 52 4f   t1 SELECT * FRO
1a30: 4d 20 74 31 3b 0a 20 20 49 4e 53 45 52 54 20 49  M t1;.  INSERT I
1a40: 4e 54 4f 20 74 31 20 53 45 4c 45 43 54 20 2a 20  NTO t1 SELECT * 
1a50: 46 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45 52  FROM t1;.  INSER
1a60: 54 20 49 4e 54 4f 20 74 31 20 53 45 4c 45 43 54  T INTO t1 SELECT
1a70: 20 2a 20 46 52 4f 4d 20 74 31 3b 0a 20 20 49 4e   * FROM t1;.  IN
1a80: 53 45 52 54 20 49 4e 54 4f 20 74 31 20 53 45 4c  SERT INTO t1 SEL
1a90: 45 43 54 20 2a 20 46 52 4f 4d 20 74 31 3b 0a 20  ECT * FROM t1;. 
1aa0: 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20   INSERT INTO t1 
1ab0: 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74 31  SELECT * FROM t1
1ac0: 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20  ;.  INSERT INTO 
1ad0: 74 31 20 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d  t1 SELECT * FROM
1ae0: 20 74 31 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e   t1;.  INSERT IN
1af0: 54 4f 20 74 31 20 53 45 4c 45 43 54 20 2a 20 46  TO t1 SELECT * F
1b00: 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45 52 54  ROM t1;.  INSERT
1b10: 20 49 4e 54 4f 20 74 31 20 53 45 4c 45 43 54 20   INTO t1 SELECT 
1b20: 2a 20 46 52 4f 4d 20 74 31 3b 0a 20 20 49 4e 53  * FROM t1;.  INS
1b30: 45 52 54 20 49 4e 54 4f 20 74 31 20 53 45 4c 45  ERT INTO t1 SELE
1b40: 43 54 20 2a 20 46 52 4f 4d 20 74 31 3b 0a 20 20  CT * FROM t1;.  
1b50: 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 53  INSERT INTO t1 S
1b60: 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74 31 3b  ELECT * FROM t1;
1b70: 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74  .  INSERT INTO t
1b80: 31 20 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20  1 SELECT * FROM 
1b90: 74 31 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54  t1;.  INSERT INT
1ba0: 4f 20 74 31 20 53 45 4c 45 43 54 20 2a 20 46 52  O t1 SELECT * FR
1bb0: 4f 4d 20 74 31 3b 0a 20 20 49 4e 53 45 52 54 20  OM t1;.  INSERT 
1bc0: 49 4e 54 4f 20 74 31 20 56 41 4c 55 45 53 28 27  INTO t1 VALUES('
1bd0: 61 20 62 20 63 27 2c 20 4e 55 4c 4c 29 3b 0a 20  a b c', NULL);. 
1be0: 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20   INSERT INTO t1 
1bf0: 56 41 4c 55 45 53 28 27 61 20 78 20 63 27 2c 20  VALUES('a x c', 
1c00: 4e 55 4c 4c 29 3b 0a 20 20 43 4f 4d 4d 49 54 3b  NULL);.  COMMIT;
1c10: 0a 7d 0a 0a 64 6f 5f 65 78 65 63 73 71 6c 5f 74  .}..do_execsql_t
1c20: 65 73 74 20 33 2e 34 20 7b 0a 20 20 53 45 4c 45  est 3.4 {.  SELE
1c30: 43 54 20 2a 20 46 52 4f 4d 20 74 31 20 57 48 45  CT * FROM t1 WHE
1c40: 52 45 20 74 31 20 4d 41 54 43 48 20 27 61 20 62  RE t1 MATCH 'a b
1c50: 27 3b 0a 7d 20 7b 7b 61 20 62 20 63 7d 20 7b 7d  ';.} {{a b c} {}
1c60: 7d 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  }..#------------
1c70: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
1c80: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
1c90: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
1ca0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 0a  -------------.#.
1cb0: 72 65 73 65 74 5f 64 62 0a 0a 64 6f 5f 74 65 73  reset_db..do_tes
1cc0: 74 20 34 2e 31 20 7b 0a 20 20 73 65 74 20 61 20  t 4.1 {.  set a 
1cd0: 22 61 62 63 5c 75 46 46 46 45 64 65 66 22 0a 20  "abc\uFFFEdef". 
1ce0: 20 73 65 74 20 62 20 22 61 62 63 5c 75 44 38 30   set b "abc\uD80
1cf0: 30 64 65 66 22 0a 20 20 73 65 74 20 63 20 22 5c  0def".  set c "\
1d00: 75 46 46 46 45 64 65 66 22 0a 20 20 73 65 74 20  uFFFEdef".  set 
1d10: 64 20 22 5c 75 44 38 30 30 64 65 66 22 0a 20 20  d "\uD800def".  
1d20: 65 78 65 63 73 71 6c 20 7b 0a 20 20 20 20 43 52  execsql {.    CR
1d30: 45 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42  EATE VIRTUAL TAB
1d40: 4c 45 20 74 31 20 55 53 49 4e 47 20 66 74 73 35  LE t1 USING fts5
1d50: 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64  (tokenize=unicod
1d60: 65 36 31 2c 20 78 29 3b 0a 20 20 20 20 49 4e 53  e61, x);.    INS
1d70: 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55  ERT INTO t1 VALU
1d80: 45 53 28 24 61 29 3b 0a 20 20 20 20 49 4e 53 45  ES($a);.    INSE
1d90: 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55 45  RT INTO t1 VALUE
1da0: 53 28 24 62 29 3b 0a 20 20 20 20 49 4e 53 45 52  S($b);.    INSER
1db0: 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55 45 53  T INTO t1 VALUES
1dc0: 28 24 63 29 3b 0a 20 20 20 20 49 4e 53 45 52 54  ($c);.    INSERT
1dd0: 20 49 4e 54 4f 20 74 31 20 56 41 4c 55 45 53 28   INTO t1 VALUES(
1de0: 24 64 29 3b 0a 20 20 7d 0a 0a 20 20 65 78 65 63  $d);.  }..  exec
1df0: 73 71 6c 20 22 43 52 45 41 54 45 20 56 49 52 54  sql "CREATE VIRT
1e00: 55 41 4c 20 54 41 42 4c 45 20 74 38 20 55 53 49  UAL TABLE t8 USI
1e10: 4e 47 20 66 74 73 35 28 0a 20 20 20 20 20 20 61  NG fts5(.      a
1e20: 2c 20 62 2c 20 74 6f 6b 65 6e 69 7a 65 3d 5c 22  , b, tokenize=\"
1e30: 75 6e 69 63 6f 64 65 36 31 20 73 65 70 61 72 61  unicode61 separa
1e40: 74 6f 72 73 20 27 5c 75 46 46 46 45 5c 75 44 38  tors '\uFFFE\uD8
1e50: 30 30 5c 75 30 30 42 46 27 5c 22 0a 20 20 29 22  00\u00BF'\".  )"
1e60: 0a 7d 20 7b 7d 0a 0a 64 6f 5f 74 65 73 74 20 34  .} {}..do_test 4
1e70: 2e 32 20 7b 0a 20 20 73 65 74 20 61 20 5b 62 69  .2 {.  set a [bi
1e80: 6e 61 72 79 20 66 6f 72 6d 61 74 20 63 2a 20 7b  nary format c* {
1e90: 30 78 36 31 20 30 78 46 37 20 30 78 42 46 20 30  0x61 0xF7 0xBF 0
1ea0: 78 42 46 20 30 78 42 46 20 30 78 36 32 7d 5d 0a  xBF 0xBF 0x62}].
1eb0: 20 20 73 65 74 20 62 20 5b 62 69 6e 61 72 79 20    set b [binary 
1ec0: 66 6f 72 6d 61 74 20 63 2a 20 7b 30 78 36 31 20  format c* {0x61 
1ed0: 30 78 46 37 20 30 78 42 46 20 30 78 42 46 20 30  0xF7 0xBF 0xBF 0
1ee0: 78 42 46 20 30 78 42 46 20 30 78 36 32 7d 5d 0a  xBF 0xBF 0x62}].
1ef0: 20 20 73 65 74 20 63 20 5b 62 69 6e 61 72 79 20    set c [binary 
1f00: 66 6f 72 6d 61 74 20 63 2a 20 7b 30 78 36 31 20  format c* {0x61 
1f10: 30 78 46 37 20 30 78 42 46 20 30 78 42 46 20 30  0xF7 0xBF 0xBF 0
1f20: 78 42 46 20 30 78 42 46 20 30 78 42 46 20 30 78  xBF 0xBF 0xBF 0x
1f30: 36 32 7d 5d 0a 20 20 73 65 74 20 64 20 5b 62 69  62}].  set d [bi
1f40: 6e 61 72 79 20 66 6f 72 6d 61 74 20 63 2a 20 7b  nary format c* {
1f50: 30 78 36 31 20 30 78 46 37 20 30 78 42 46 20 30  0x61 0xF7 0xBF 0
1f60: 78 42 46 20 30 78 42 46 20 30 78 42 46 20 30 78  xBF 0xBF 0xBF 0x
1f70: 42 46 20 30 78 42 46 20 30 78 36 32 7d 5d 0a 20  BF 0xBF 0x62}]. 
1f80: 20 65 78 65 63 73 71 6c 20 7b 0a 20 20 20 20 49   execsql {.    I
1f90: 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41  NSERT INTO t1 VA
1fa0: 4c 55 45 53 28 24 61 29 3b 0a 20 20 20 20 49 4e  LUES($a);.    IN
1fb0: 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c  SERT INTO t1 VAL
1fc0: 55 45 53 28 24 62 29 3b 0a 20 20 20 20 49 4e 53  UES($b);.    INS
1fd0: 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55  ERT INTO t1 VALU
1fe0: 45 53 28 24 63 29 3b 0a 20 20 20 20 49 4e 53 45  ES($c);.    INSE
1ff0: 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c 55 45  RT INTO t1 VALUE
2000: 53 28 24 64 29 3b 0a 20 20 7d 0a 7d 20 7b 7d 0a  S($d);.  }.} {}.
2010: 0a 64 6f 5f 74 65 73 74 20 34 2e 33 20 7b 0a 20  .do_test 4.3 {. 
2020: 20 73 65 74 20 61 20 5b 62 69 6e 61 72 79 20 66   set a [binary f
2030: 6f 72 6d 61 74 20 63 2a 20 7b 30 78 46 37 20 30  ormat c* {0xF7 0
2040: 78 42 46 20 30 78 42 46 20 30 78 42 46 7d 5d 0a  xBF 0xBF 0xBF}].
2050: 20 20 73 65 74 20 62 20 5b 62 69 6e 61 72 79 20    set b [binary 
2060: 66 6f 72 6d 61 74 20 63 2a 20 7b 30 78 46 37 20  format c* {0xF7 
2070: 30 78 42 46 20 30 78 42 46 20 30 78 42 46 20 30  0xBF 0xBF 0xBF 0
2080: 78 42 46 7d 5d 0a 20 20 73 65 74 20 63 20 5b 62  xBF}].  set c [b
2090: 69 6e 61 72 79 20 66 6f 72 6d 61 74 20 63 2a 20  inary format c* 
20a0: 7b 30 78 46 37 20 30 78 42 46 20 30 78 42 46 20  {0xF7 0xBF 0xBF 
20b0: 30 78 42 46 20 30 78 42 46 20 30 78 42 46 7d 5d  0xBF 0xBF 0xBF}]
20c0: 0a 20 20 73 65 74 20 64 20 5b 62 69 6e 61 72 79  .  set d [binary
20d0: 20 66 6f 72 6d 61 74 20 63 2a 20 7b 30 78 46 37   format c* {0xF7
20e0: 20 30 78 42 46 20 30 78 42 46 20 30 78 42 46 20   0xBF 0xBF 0xBF 
20f0: 30 78 42 46 20 30 78 42 46 20 30 78 42 46 7d 5d  0xBF 0xBF 0xBF}]
2100: 0a 20 20 65 78 65 63 73 71 6c 20 7b 0a 20 20 20  .  execsql {.   
2110: 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20   INSERT INTO t1 
2120: 56 41 4c 55 45 53 28 24 61 29 3b 0a 20 20 20 20  VALUES($a);.    
2130: 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56  INSERT INTO t1 V
2140: 41 4c 55 45 53 28 24 62 29 3b 0a 20 20 20 20 49  ALUES($b);.    I
2150: 4e 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41  NSERT INTO t1 VA
2160: 4c 55 45 53 28 24 63 29 3b 0a 20 20 20 20 49 4e  LUES($c);.    IN
2170: 53 45 52 54 20 49 4e 54 4f 20 74 31 20 56 41 4c  SERT INTO t1 VAL
2180: 55 45 53 28 24 64 29 3b 0a 20 20 7d 0a 7d 20 7b  UES($d);.  }.} {
2190: 7d 0a 0a 64 6f 5f 74 65 73 74 20 34 2e 34 20 7b  }..do_test 4.4 {
21a0: 0a 20 20 73 71 6c 69 74 65 33 5f 65 78 65 63 5f  .  sqlite3_exec_
21b0: 68 65 78 20 64 62 20 7b 0a 20 20 20 20 43 52 45  hex db {.    CRE
21c0: 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c  ATE VIRTUAL TABL
21d0: 45 20 74 39 20 55 53 49 4e 47 20 66 74 73 35 28  E t9 USING fts5(
21e0: 61 2c 20 62 2c 20 0a 20 20 20 20 20 20 74 6f 6b  a, b, .      tok
21f0: 65 6e 69 7a 65 3d 22 75 6e 69 63 6f 64 65 36 31  enize="unicode61
2200: 20 73 65 70 61 72 61 74 6f 72 73 20 27 25 43 30   separators '%C0
2210: 39 30 30 34 27 22 0a 20 20 20 20 29 3b 0a 20 20  9004'".    );.  
2220: 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 39    INSERT INTO t9
2230: 28 61 29 20 56 41 4c 55 45 53 28 27 61 62 63 25  (a) VALUES('abc%
2240: 38 38 64 65 66 20 25 38 39 67 68 69 25 39 30 27  88def %89ghi%90'
2250: 29 3b 0a 20 20 7d 0a 7d 20 7b 30 20 7b 7d 7d 0a  );.  }.} {0 {}}.
2260: 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ..#-------------
2270: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2280: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2290: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
22a0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 0a 62 72  ------------..br
22b0: 65 61 6b 70 6f 69 6e 74 0a 64 6f 5f 75 6e 69 63  eakpoint.do_unic
22c0: 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 33 20  ode_token_test3 
22d0: 35 2e 31 20 7b 74 6f 6b 65 6e 63 68 61 72 73 20  5.1 {tokenchars 
22e0: 7b 7d 7d 20 7b 0a 20 20 73 71 6c 69 74 65 33 5f  {}} {.  sqlite3_
22f0: 72 65 73 65 74 20 73 71 6c 69 74 65 33 5f 63 6f  reset sqlite3_co
2300: 6c 75 6d 6e 5f 69 6e 74 0a 7d 20 7b 0a 20 20 73  lumn_int.} {.  s
2310: 71 6c 69 74 65 33 20 73 71 6c 69 74 65 33 20 0a  qlite3 sqlite3 .
2320: 20 20 72 65 73 65 74 20 72 65 73 65 74 20 0a 20    reset reset . 
2330: 20 73 71 6c 69 74 65 33 20 73 71 6c 69 74 65 33   sqlite3 sqlite3
2340: 20 0a 20 20 63 6f 6c 75 6d 6e 20 63 6f 6c 75 6d   .  column colum
2350: 6e 20 0a 20 20 69 6e 74 20 69 6e 74 0a 7d 0a 0a  n .  int int.}..
2360: 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e  do_unicode_token
2370: 5f 74 65 73 74 33 20 35 2e 32 20 7b 74 6f 6b 65  _test3 5.2 {toke
2380: 6e 63 68 61 72 73 20 5f 7d 20 7b 0a 20 20 73 71  nchars _} {.  sq
2390: 6c 69 74 65 33 5f 72 65 73 65 74 20 73 71 6c 69  lite3_reset sqli
23a0: 74 65 33 5f 63 6f 6c 75 6d 6e 5f 69 6e 74 0a 7d  te3_column_int.}
23b0: 20 7b 0a 20 20 73 71 6c 69 74 65 33 5f 72 65 73   {.  sqlite3_res
23c0: 65 74 20 73 71 6c 69 74 65 33 5f 72 65 73 65 74  et sqlite3_reset
23d0: 20 0a 20 20 73 71 6c 69 74 65 33 5f 63 6f 6c 75   .  sqlite3_colu
23e0: 6d 6e 5f 69 6e 74 20 73 71 6c 69 74 65 33 5f 63  mn_int sqlite3_c
23f0: 6f 6c 75 6d 6e 5f 69 6e 74 0a 7d 0a 0a 64 6f 5f  olumn_int.}..do_
2400: 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65  unicode_token_te
2410: 73 74 33 20 35 2e 33 20 7b 73 65 70 61 72 61 74  st3 5.3 {separat
2420: 6f 72 73 20 78 79 7a 7d 20 7b 0a 20 20 4c 61 6f  ors xyz} {.  Lao
2430: 74 69 61 6e 78 68 6f 72 73 65 79 72 75 6e 73 7a  tianxhorseyrunsz
2440: 66 61 73 74 0a 7d 20 7b 0a 20 20 6c 61 6f 74 69  fast.} {.  laoti
2450: 61 6e 20 4c 61 6f 74 69 61 6e 0a 20 20 68 6f 72  an Laotian.  hor
2460: 73 65 20 68 6f 72 73 65 0a 20 20 72 75 6e 73 20  se horse.  runs 
2470: 72 75 6e 73 0a 20 20 66 61 73 74 20 66 61 73 74  runs.  fast fast
2480: 0a 7d 0a 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74  .}..do_unicode_t
2490: 6f 6b 65 6e 5f 74 65 73 74 33 20 35 2e 34 20 7b  oken_test3 5.4 {
24a0: 74 6f 6b 65 6e 63 68 61 72 73 20 78 79 7a 7d 20  tokenchars xyz} 
24b0: 7b 0a 20 20 4c 61 6f 74 69 61 6e 78 68 6f 72 73  {.  Laotianxhors
24c0: 65 79 72 75 6e 73 7a 66 61 73 74 0a 7d 20 7b 0a  eyrunszfast.} {.
24d0: 20 20 6c 61 6f 74 69 61 6e 78 68 6f 72 73 65 79    laotianxhorsey
24e0: 72 75 6e 73 7a 66 61 73 74 20 4c 61 6f 74 69 61  runszfast Laotia
24f0: 6e 78 68 6f 72 73 65 79 72 75 6e 73 7a 66 61 73  nxhorseyrunszfas
2500: 74 0a 7d 0a 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f  t.}..do_unicode_
2510: 74 6f 6b 65 6e 5f 74 65 73 74 33 20 35 2e 35 20  token_test3 5.5 
2520: 7b 74 6f 6b 65 6e 63 68 61 72 73 20 5f 7d 20 7b  {tokenchars _} {
2530: 73 65 70 61 72 61 74 6f 72 73 20 7a 79 78 7d 20  separators zyx} 
2540: 7b 0a 20 20 73 71 6c 69 74 65 33 5f 72 65 73 65  {.  sqlite3_rese
2550: 74 78 73 71 6c 69 74 65 33 5f 63 6f 6c 75 6d 6e  txsqlite3_column
2560: 5f 69 6e 74 79 68 6f 6e 64 61 5f 70 68 61 6e 74  _intyhonda_phant
2570: 6f 6d 0a 7d 20 7b 0a 20 20 73 71 6c 69 74 65 33  om.} {.  sqlite3
2580: 5f 72 65 73 65 74 20 73 71 6c 69 74 65 33 5f 72  _reset sqlite3_r
2590: 65 73 65 74 20 0a 20 20 73 71 6c 69 74 65 33 5f  eset .  sqlite3_
25a0: 63 6f 6c 75 6d 6e 5f 69 6e 74 20 73 71 6c 69 74  column_int sqlit
25b0: 65 33 5f 63 6f 6c 75 6d 6e 5f 69 6e 74 0a 20 20  e3_column_int.  
25c0: 68 6f 6e 64 61 5f 70 68 61 6e 74 6f 6d 20 68 6f  honda_phantom ho
25d0: 6e 64 61 5f 70 68 61 6e 74 6f 6d 0a 7d 0a 0a 64  nda_phantom.}..d
25e0: 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f  o_unicode_token_
25f0: 74 65 73 74 33 20 35 2e 36 20 22 73 65 70 61 72  test3 5.6 "separ
2600: 61 74 6f 72 73 20 5c 75 30 35 44 31 22 20 22 61  ators \u05D1" "a
2610: 62 63 5c 75 30 35 44 31 64 65 66 22 20 7b 0a 20  bc\u05D1def" {. 
2620: 20 61 62 63 20 61 62 63 20 64 65 66 20 64 65 66   abc abc def def
2630: 0a 7d 0a 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74  .}..do_unicode_t
2640: 6f 6b 65 6e 5f 74 65 73 74 33 20 35 2e 37 20 20  oken_test3 5.7  
2650: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2660: 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 22             \.  "
2670: 74 6f 6b 65 6e 63 68 61 72 73 20 5c 75 32 34 34  tokenchars \u244
2680: 34 5c 75 32 34 34 35 22 20 20 20 20 20 20 20 20  4\u2445"        
2690: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
26a0: 20 20 20 20 5c 0a 20 20 22 73 65 70 61 72 61 74      \.  "separat
26b0: 6f 72 73 20 5c 75 30 35 44 30 5c 75 30 35 44 31  ors \u05D0\u05D1
26c0: 5c 75 30 35 44 32 22 20 20 20 20 20 20 20 20 20  \u05D2"         
26d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20               \. 
26e0: 20 22 5c 75 32 34 34 34 66 72 65 5c 75 32 34 34   "\u2444fre\u244
26f0: 35 73 68 5c 75 30 35 44 30 77 61 74 65 72 5c 75  5sh\u05D0water\u
2700: 30 35 44 32 66 69 73 68 2e 5c 75 32 34 34 35 74  05D2fish.\u2445t
2710: 69 6d 65 72 22 20 5c 0a 20 20 5b 6c 69 73 74 20  imer" \.  [list 
2720: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2730: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2740: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 5c                 \
2750: 0a 20 20 20 20 5c 75 32 34 34 34 66 72 65 5c 75  .    \u2444fre\u
2760: 32 34 34 35 73 68 20 5c 75 32 34 34 34 66 72 65  2445sh \u2444fre
2770: 5c 75 32 34 34 35 73 68 20 20 20 20 20 20 20 20  \u2445sh        
2780: 20 20 20 20 20 20 5c 0a 20 20 20 20 77 61 74 65        \.    wate
2790: 72 20 77 61 74 65 72 20 20 20 20 20 20 20 20 20  r water         
27a0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
27b0: 20 20 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20               \. 
27c0: 20 20 20 66 69 73 68 20 66 69 73 68 20 20 20 20     fish fish    
27d0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
27e0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
27f0: 20 20 20 20 5c 0a 20 20 20 20 5c 75 32 34 34 35      \.    \u2445
2800: 74 69 6d 65 72 20 5c 75 32 34 34 35 74 69 6d 65  timer \u2445time
2810: 72 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  r               
2820: 20 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 5d             \.  ]
2830: 0a 0a 23 20 43 68 65 63 6b 20 74 68 61 74 20 69  ..# Check that i
2840: 74 20 69 73 20 6e 6f 74 20 70 6f 73 73 69 62 6c  t is not possibl
2850: 65 20 74 6f 20 61 64 64 20 61 20 73 74 61 6e 64  e to add a stand
2860: 61 6c 6f 6e 65 20 64 69 61 63 72 69 74 69 63 20  alone diacritic 
2870: 63 6f 64 65 70 6f 69 6e 74 20 0a 23 20 74 6f 20  codepoint .# to 
2880: 65 69 74 68 65 72 20 73 65 70 61 72 61 74 6f 72  either separator
2890: 73 20 6f 72 20 74 6f 6b 65 6e 63 68 61 72 73 2e  s or tokenchars.
28a0: 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65  .do_unicode_toke
28b0: 6e 5f 74 65 73 74 33 20 35 2e 38 20 22 73 65 70  n_test3 5.8 "sep
28c0: 61 72 61 74 6f 72 73 20 5c 75 30 33 30 31 22 20  arators \u0301" 
28d0: 5c 0a 20 20 22 68 65 6c 6c 6f 5c 75 30 33 30 31  \.  "hello\u0301
28e0: 77 6f 72 6c 64 20 5c 75 30 33 30 31 68 65 6c 6c  world \u0301hell
28f0: 6f 77 6f 72 6c 64 22 20 20 20 20 20 20 20 20 20  oworld"         
2900: 20 5c 0a 20 20 22 68 65 6c 6c 6f 77 6f 72 6c 64   \.  "helloworld
2910: 20 68 65 6c 6c 6f 5c 75 30 33 30 31 77 6f 72 6c   hello\u0301worl
2920: 64 20 68 65 6c 6c 6f 77 6f 72 6c 64 20 68 65 6c  d helloworld hel
2930: 6c 6f 77 6f 72 6c 64 22 0a 0a 64 6f 5f 75 6e 69  loworld"..do_uni
2940: 63 6f 64 65 5f 74 6f 6b 65 6e 5f 74 65 73 74 33  code_token_test3
2950: 20 35 2e 39 20 22 74 6f 6b 65 6e 63 68 61 72 73   5.9 "tokenchars
2960: 20 5c 75 30 33 30 31 22 20 5c 0a 20 20 22 68 65   \u0301" \.  "he
2970: 6c 6c 6f 5c 75 30 33 30 31 77 6f 72 6c 64 20 5c  llo\u0301world \
2980: 75 30 33 30 31 68 65 6c 6c 6f 77 6f 72 6c 64 22  u0301helloworld"
2990: 20 20 20 20 20 20 20 20 20 20 5c 0a 20 20 22 68            \.  "h
29a0: 65 6c 6c 6f 77 6f 72 6c 64 20 68 65 6c 6c 6f 5c  elloworld hello\
29b0: 75 30 33 30 31 77 6f 72 6c 64 20 68 65 6c 6c 6f  u0301world hello
29c0: 77 6f 72 6c 64 20 68 65 6c 6c 6f 77 6f 72 6c 64  world helloworld
29d0: 22 0a 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f  "..do_unicode_to
29e0: 6b 65 6e 5f 74 65 73 74 33 20 35 2e 31 30 20 22  ken_test3 5.10 "
29f0: 73 65 70 61 72 61 74 6f 72 73 20 5c 75 30 33 30  separators \u030
2a00: 31 22 20 5c 0a 20 20 22 72 65 6d 6f 76 65 5f 64  1" \.  "remove_d
2a10: 69 61 63 72 69 74 69 63 73 20 30 22 20 20 20 20  iacritics 0"    
2a20: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2a30: 20 20 20 20 5c 0a 20 20 22 68 65 6c 6c 6f 5c 75      \.  "hello\u
2a40: 30 33 30 31 77 6f 72 6c 64 20 5c 75 30 33 30 31  0301world \u0301
2a50: 68 65 6c 6c 6f 77 6f 72 6c 64 22 20 20 20 20 20  helloworld"     
2a60: 20 20 20 20 20 5c 0a 20 20 22 68 65 6c 6c 6f 5c       \.  "hello\
2a70: 75 30 33 30 31 77 6f 72 6c 64 20 68 65 6c 6c 6f  u0301world hello
2a80: 5c 75 30 33 30 31 77 6f 72 6c 64 20 68 65 6c 6c  \u0301world hell
2a90: 6f 77 6f 72 6c 64 20 68 65 6c 6c 6f 77 6f 72 6c  oworld helloworl
2aa0: 64 22 0a 0a 64 6f 5f 75 6e 69 63 6f 64 65 5f 74  d"..do_unicode_t
2ab0: 6f 6b 65 6e 5f 74 65 73 74 33 20 35 2e 31 31 20  oken_test3 5.11 
2ac0: 22 74 6f 6b 65 6e 63 68 61 72 73 20 5c 75 30 33  "tokenchars \u03
2ad0: 30 31 22 20 5c 0a 20 20 22 72 65 6d 6f 76 65 5f  01" \.  "remove_
2ae0: 64 69 61 63 72 69 74 69 63 73 20 30 22 20 20 20  diacritics 0"   
2af0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
2b00: 20 20 20 20 20 20 5c 0a 20 20 22 68 65 6c 6c 6f        \.  "hello
2b10: 5c 75 30 33 30 31 77 6f 72 6c 64 20 5c 75 30 33  \u0301world \u03
2b20: 30 31 68 65 6c 6c 6f 77 6f 72 6c 64 22 20 20 20  01helloworld"   
2b30: 20 20 20 20 20 20 20 20 5c 0a 20 20 22 68 65 6c          \.  "hel
2b40: 6c 6f 5c 75 30 33 30 31 77 6f 72 6c 64 20 68 65  lo\u0301world he
2b50: 6c 6c 6f 5c 75 30 33 30 31 77 6f 72 6c 64 20 68  llo\u0301world h
2b60: 65 6c 6c 6f 77 6f 72 6c 64 20 68 65 6c 6c 6f 77  elloworld hellow
2b70: 6f 72 6c 64 22 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d  orld"..#--------
2b80: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2b90: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2ba0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2bb0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
2bc0: 2d 0a 0a 70 72 6f 63 20 64 6f 5f 74 6f 6b 65 6e  -..proc do_token
2bd0: 69 7a 65 20 7b 74 6f 6b 65 6e 69 7a 65 72 20 74  ize {tokenizer t
2be0: 78 74 7d 20 7b 0a 20 20 73 65 74 20 72 65 73 20  xt} {.  set res 
2bf0: 5b 6c 69 73 74 5d 0a 20 20 66 6f 72 65 61 63 68  [list].  foreach
2c00: 20 7b 62 20 63 7d 20 5b 73 71 6c 69 74 65 33 5f   {b c} [sqlite3_
2c10: 66 74 73 35 5f 74 6f 6b 65 6e 69 7a 65 20 2d 73  fts5_tokenize -s
2c20: 75 62 73 74 20 64 62 20 24 74 6f 6b 65 6e 69 7a  ubst db $tokeniz
2c30: 65 72 20 24 74 78 74 5d 20 7b 0a 20 20 20 20 6c  er $txt] {.    l
2c40: 61 70 70 65 6e 64 20 72 65 73 20 24 62 0a 20 20  append res $b.  
2c50: 7d 0a 20 20 73 65 74 20 72 65 73 0a 7d 0a 0a 23  }.  set res.}..#
2c60: 20 41 72 67 75 6d 65 6e 74 20 24 6c 43 6f 64 65   Argument $lCode
2c70: 70 6f 69 6e 74 20 6d 75 73 74 20 62 65 20 61 20  point must be a 
2c80: 6c 69 73 74 20 6f 66 20 63 6f 64 65 70 6f 69 6e  list of codepoin
2c90: 74 73 20 28 69 6e 74 65 67 65 72 73 29 20 74 68  ts (integers) th
2ca0: 61 74 20 0a 23 20 63 6f 72 72 65 73 70 6f 6e 64  at .# correspond
2cb0: 20 74 6f 20 77 68 69 74 65 73 70 61 63 65 20 63   to whitespace c
2cc0: 68 61 72 61 63 74 65 72 73 2e 20 54 68 69 73 20  haracters. This 
2cd0: 63 6f 6d 6d 61 6e 64 20 63 72 65 61 74 65 73 20  command creates 
2ce0: 61 20 73 74 72 69 6e 67 0a 23 20 24 57 20 66 72  a string.# $W fr
2cf0: 6f 6d 20 74 68 65 20 63 6f 64 65 70 6f 69 6e 74  om the codepoint
2d00: 73 2c 20 74 68 65 6e 20 74 6f 6b 65 6e 69 7a 65  s, then tokenize
2d10: 73 20 22 24 7b 57 7d 68 65 6c 6c 6f 7b 24 57 7d  s "${W}hello{$W}
2d20: 77 6f 72 6c 64 24 7b 57 7d 22 20 0a 23 20 75 73  world${W}" .# us
2d30: 69 6e 67 20 74 6f 6b 65 6e 69 7a 65 72 20 24 74  ing tokenizer $t
2d40: 6f 6b 65 6e 69 7a 65 72 2e 20 54 68 65 20 74 65  okenizer. The te
2d50: 73 74 20 70 61 73 73 65 73 20 69 66 20 74 68 65  st passes if the
2d60: 20 74 6f 6b 65 6e 69 7a 65 72 20 73 75 63 63 65   tokenizer succe
2d70: 73 73 66 75 6c 6c 79 0a 23 20 65 78 74 72 61 63  ssfully.# extrac
2d80: 74 73 20 74 68 65 20 74 77 6f 20 35 20 63 68 61  ts the two 5 cha
2d90: 72 61 63 74 65 72 20 74 6f 6b 65 6e 73 2e 0a 23  racter tokens..#
2da0: 0a 70 72 6f 63 20 64 6f 5f 69 73 73 70 61 63 65  .proc do_isspace
2db0: 5f 74 65 73 74 20 7b 74 6e 20 74 6f 6b 65 6e 69  _test {tn tokeni
2dc0: 7a 65 72 20 6c 43 70 7d 20 7b 0a 20 20 73 65 74  zer lCp} {.  set
2dd0: 20 77 68 69 74 65 73 70 61 63 65 20 5b 66 6f 72   whitespace [for
2de0: 6d 61 74 20 5b 73 74 72 69 6e 67 20 72 65 70 65  mat [string repe
2df0: 61 74 20 25 63 20 5b 6c 6c 65 6e 67 74 68 20 24  at %c [llength $
2e00: 6c 43 70 5d 5d 20 7b 2a 7d 24 6c 43 70 5d 20 0a  lCp]] {*}$lCp] .
2e10: 20 20 73 65 74 20 74 78 74 20 22 24 7b 77 68 69    set txt "${whi
2e20: 74 65 73 70 61 63 65 7d 68 65 6c 6c 6f 24 7b 77  tespace}hello${w
2e30: 68 69 74 65 73 70 61 63 65 7d 77 6f 72 6c 64 24  hitespace}world$
2e40: 7b 77 68 69 74 65 73 70 61 63 65 7d 22 0a 20 20  {whitespace}".  
2e50: 75 70 6c 65 76 65 6c 20 5b 6c 69 73 74 20 64 6f  uplevel [list do
2e60: 5f 74 65 73 74 20 24 74 6e 20 5b 6c 69 73 74 20  _test $tn [list 
2e70: 64 6f 5f 74 6f 6b 65 6e 69 7a 65 20 24 74 6f 6b  do_tokenize $tok
2e80: 65 6e 69 7a 65 72 20 24 74 78 74 5d 20 7b 68 65  enizer $txt] {he
2e90: 6c 6c 6f 20 77 6f 72 6c 64 7d 5d 0a 7d 0a 0a 73  llo world}].}..s
2ea0: 65 74 20 74 6f 6b 65 6e 69 7a 65 72 73 20 5b 6c  et tokenizers [l
2eb0: 69 73 74 20 75 6e 69 63 6f 64 65 36 31 5d 0a 23  ist unicode61].#
2ec0: 69 66 63 61 70 61 62 6c 65 20 69 63 75 20 7b 20  ifcapable icu { 
2ed0: 6c 61 70 70 65 6e 64 20 74 6f 6b 65 6e 69 7a 65  lappend tokenize
2ee0: 72 73 20 69 63 75 20 7d 0a 0a 23 20 53 6f 6d 65  rs icu }..# Some
2ef0: 20 74 65 73 74 73 20 74 6f 20 63 68 65 63 6b 20   tests to check 
2f00: 74 68 61 74 20 74 68 65 20 74 6f 6b 65 6e 69 7a  that the tokeniz
2f10: 65 72 73 20 63 61 6e 20 62 6f 74 68 20 69 64 65  ers can both ide
2f20: 6e 74 69 66 79 20 77 68 69 74 65 2d 73 70 61 63  ntify white-spac
2f30: 65 20 0a 23 20 63 6f 64 65 70 6f 69 6e 74 73 2e  e .# codepoints.
2f40: 20 41 6c 6c 20 63 6f 64 65 70 6f 69 6e 74 73 20   All codepoints 
2f50: 74 65 73 74 65 64 20 62 65 6c 6f 77 20 61 72 65  tested below are
2f60: 20 6f 66 20 74 79 70 65 20 22 5a 73 22 20 69 6e   of type "Zs" in
2f70: 20 74 68 65 0a 23 20 55 6e 69 63 6f 64 65 44 61   the.# UnicodeDa
2f80: 74 61 2e 74 78 74 20 66 69 6c 65 2e 0a 66 6f 72  ta.txt file..for
2f90: 65 61 63 68 20 54 20 24 74 6f 6b 65 6e 69 7a 65  each T $tokenize
2fa0: 72 73 20 7b 0a 20 20 64 6f 5f 69 73 73 70 61 63  rs {.  do_isspac
2fb0: 65 5f 74 65 73 74 20 36 2e 24 54 2e 31 20 24 54  e_test 6.$T.1 $T
2fc0: 20 20 20 20 33 32 0a 20 20 64 6f 5f 69 73 73 70      32.  do_issp
2fd0: 61 63 65 5f 74 65 73 74 20 36 2e 24 54 2e 32 20  ace_test 6.$T.2 
2fe0: 24 54 20 20 20 20 31 36 30 0a 20 20 64 6f 5f 69  $T    160.  do_i
2ff0: 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24 54  sspace_test 6.$T
3000: 2e 33 20 24 54 20 20 20 20 35 37 36 30 0a 20 20  .3 $T    5760.  
3010: 64 6f 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20  do_isspace_test 
3020: 36 2e 24 54 2e 34 20 24 54 20 20 20 20 36 31 35  6.$T.4 $T    615
3030: 38 0a 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74  8.  do_isspace_t
3040: 65 73 74 20 36 2e 24 54 2e 35 20 24 54 20 20 20  est 6.$T.5 $T   
3050: 20 38 31 39 32 0a 20 20 64 6f 5f 69 73 73 70 61   8192.  do_isspa
3060: 63 65 5f 74 65 73 74 20 36 2e 24 54 2e 36 20 24  ce_test 6.$T.6 $
3070: 54 20 20 20 20 38 31 39 33 0a 20 20 64 6f 5f 69  T    8193.  do_i
3080: 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24 54  sspace_test 6.$T
3090: 2e 37 20 24 54 20 20 20 20 38 31 39 34 0a 20 20  .7 $T    8194.  
30a0: 64 6f 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20  do_isspace_test 
30b0: 36 2e 24 54 2e 38 20 24 54 20 20 20 20 38 31 39  6.$T.8 $T    819
30c0: 35 0a 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74  5.  do_isspace_t
30d0: 65 73 74 20 36 2e 24 54 2e 39 20 24 54 20 20 20  est 6.$T.9 $T   
30e0: 20 38 31 39 36 0a 20 20 64 6f 5f 69 73 73 70 61   8196.  do_isspa
30f0: 63 65 5f 74 65 73 74 20 36 2e 24 54 2e 31 30 20  ce_test 6.$T.10 
3100: 24 54 20 20 20 20 38 31 39 37 0a 20 20 64 6f 5f  $T    8197.  do_
3110: 69 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24  isspace_test 6.$
3120: 54 2e 31 31 20 24 54 20 20 20 20 38 31 39 38 0a  T.11 $T    8198.
3130: 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74 65 73    do_isspace_tes
3140: 74 20 36 2e 24 54 2e 31 32 20 24 54 20 20 20 20  t 6.$T.12 $T    
3150: 38 31 39 39 0a 20 20 64 6f 5f 69 73 73 70 61 63  8199.  do_isspac
3160: 65 5f 74 65 73 74 20 36 2e 24 54 2e 31 33 20 24  e_test 6.$T.13 $
3170: 54 20 20 20 20 38 32 30 30 0a 20 20 64 6f 5f 69  T    8200.  do_i
3180: 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24 54  sspace_test 6.$T
3190: 2e 31 34 20 24 54 20 20 20 20 38 32 30 31 0a 20  .14 $T    8201. 
31a0: 20 64 6f 5f 69 73 73 70 61 63 65 5f 74 65 73 74   do_isspace_test
31b0: 20 36 2e 24 54 2e 31 35 20 24 54 20 20 20 20 38   6.$T.15 $T    8
31c0: 32 30 32 0a 20 20 64 6f 5f 69 73 73 70 61 63 65  202.  do_isspace
31d0: 5f 74 65 73 74 20 36 2e 24 54 2e 31 36 20 24 54  _test 6.$T.16 $T
31e0: 20 20 20 20 38 32 33 39 0a 20 20 64 6f 5f 69 73      8239.  do_is
31f0: 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24 54 2e  space_test 6.$T.
3200: 31 37 20 24 54 20 20 20 20 38 32 38 37 0a 20 20  17 $T    8287.  
3210: 64 6f 5f 69 73 73 70 61 63 65 5f 74 65 73 74 20  do_isspace_test 
3220: 36 2e 24 54 2e 31 38 20 24 54 20 20 20 31 32 32  6.$T.18 $T   122
3230: 38 38 0a 0a 20 20 64 6f 5f 69 73 73 70 61 63 65  88..  do_isspace
3240: 5f 74 65 73 74 20 36 2e 24 54 2e 31 39 20 24 54  _test 6.$T.19 $T
3250: 20 20 20 7b 33 32 20 31 36 30 20 35 37 36 30 20     {32 160 5760 
3260: 36 31 35 38 7d 0a 20 20 64 6f 5f 69 73 73 70 61  6158}.  do_isspa
3270: 63 65 5f 74 65 73 74 20 36 2e 24 54 2e 32 30 20  ce_test 6.$T.20 
3280: 24 54 20 20 20 7b 38 31 39 32 20 38 31 39 33 20  $T   {8192 8193 
3290: 38 31 39 34 20 38 31 39 35 7d 0a 20 20 64 6f 5f  8194 8195}.  do_
32a0: 69 73 73 70 61 63 65 5f 74 65 73 74 20 36 2e 24  isspace_test 6.$
32b0: 54 2e 32 31 20 24 54 20 20 20 7b 38 31 39 36 20  T.21 $T   {8196 
32c0: 38 31 39 37 20 38 31 39 38 20 38 31 39 39 7d 0a  8197 8198 8199}.
32d0: 20 20 64 6f 5f 69 73 73 70 61 63 65 5f 74 65 73    do_isspace_tes
32e0: 74 20 36 2e 24 54 2e 32 32 20 24 54 20 20 20 7b  t 6.$T.22 $T   {
32f0: 38 32 30 30 20 38 32 30 31 20 38 32 30 32 20 38  8200 8201 8202 8
3300: 32 33 39 7d 0a 20 20 64 6f 5f 69 73 73 70 61 63  239}.  do_isspac
3310: 65 5f 74 65 73 74 20 36 2e 24 54 2e 32 33 20 24  e_test 6.$T.23 $
3320: 54 20 20 20 7b 38 32 38 37 20 31 32 32 38 38 7d  T   {8287 12288}
3330: 0a 7d 0a 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  .}...#----------
3340: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3350: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3360: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3370: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a  ---------------.
3380: 23 20 54 65 73 74 20 74 68 61 74 20 74 68 65 20  # Test that the 
3390: 70 72 69 76 61 74 65 20 75 73 65 20 72 61 6e 67  private use rang
33a0: 65 73 20 61 72 65 20 74 72 65 61 74 65 64 20 61  es are treated a
33b0: 73 20 61 6c 70 68 61 6e 75 6d 65 72 69 63 2e 0a  s alphanumeric..
33c0: 23 0a 66 6f 72 65 61 63 68 20 7b 74 6e 31 20 63  #.foreach {tn1 c
33d0: 7d 20 7b 0a 20 20 31 20 5c 75 65 30 30 30 20 32  } {.  1 \ue000 2
33e0: 20 5c 75 65 30 30 31 20 33 20 5c 75 66 30 30 30   \ue001 3 \uf000
33f0: 20 34 20 5c 75 66 38 66 65 20 35 20 5c 75 66 38   4 \uf8fe 5 \uf8
3400: 66 66 0a 7d 20 7b 0a 20 20 66 6f 72 65 61 63 68  ff.} {.  foreach
3410: 20 7b 74 6e 32 20 63 6f 6e 66 69 67 20 72 65 73   {tn2 config res
3420: 7d 20 7b 0a 20 20 20 20 31 20 22 22 20 20 20 20  } {.    1 ""    
3430: 20 20 20 20 20 20 20 20 20 22 68 65 6c 6c 6f 2a           "hello*
3440: 77 6f 72 6c 64 20 68 65 6c 6c 6f 2a 77 6f 72 6c  world hello*worl
3450: 64 22 0a 20 20 20 20 32 20 22 73 65 70 61 72 61  d".    2 "separa
3460: 74 6f 72 73 20 2a 22 20 22 68 65 6c 6c 6f 20 68  tors *" "hello h
3470: 65 6c 6c 6f 20 77 6f 72 6c 64 20 77 6f 72 6c 64  ello world world
3480: 22 0a 20 20 7d 20 7b 0a 20 20 20 20 73 65 74 20  ".  } {.    set 
3490: 63 6f 6e 66 69 67 20 5b 73 74 72 69 6e 67 20 6d  config [string m
34a0: 61 70 20 5b 6c 69 73 74 20 2a 20 24 63 5d 20 24  ap [list * $c] $
34b0: 63 6f 6e 66 69 67 5d 0a 20 20 20 20 73 65 74 20  config].    set 
34c0: 69 6e 70 75 74 20 20 5b 73 74 72 69 6e 67 20 6d  input  [string m
34d0: 61 70 20 5b 6c 69 73 74 20 2a 20 24 63 5d 20 22  ap [list * $c] "
34e0: 68 65 6c 6c 6f 2a 77 6f 72 6c 64 22 5d 0a 20 20  hello*world"].  
34f0: 20 20 73 65 74 20 6f 75 74 70 75 74 20 5b 73 74    set output [st
3500: 72 69 6e 67 20 6d 61 70 20 5b 6c 69 73 74 20 2a  ring map [list *
3510: 20 24 63 5d 20 24 72 65 73 5d 0a 20 20 20 20 64   $c] $res].    d
3520: 6f 5f 75 6e 69 63 6f 64 65 5f 74 6f 6b 65 6e 5f  o_unicode_token_
3530: 74 65 73 74 33 20 37 2e 24 74 6e 31 2e 24 74 6e  test3 7.$tn1.$tn
3540: 32 20 7b 2a 7d 24 63 6f 6e 66 69 67 20 24 69 6e  2 {*}$config $in
3550: 70 75 74 20 24 6f 75 74 70 75 74 0a 20 20 7d 0a  put $output.  }.
3560: 7d 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  }..#------------
3570: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3580: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3590: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
35a0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 20  -------------.# 
35b0: 43 75 72 73 6f 72 79 20 74 65 73 74 20 6f 66 20  Cursory test of 
35c0: 72 65 6d 6f 76 65 5f 64 69 61 63 72 69 74 69 63  remove_diacritic
35d0: 73 3d 30 2e 0a 23 0a 23 20 30 30 43 34 3b 4c 41  s=0..#.# 00C4;LA
35e0: 54 49 4e 20 43 41 50 49 54 41 4c 20 4c 45 54 54  TIN CAPITAL LETT
35f0: 45 52 20 41 20 57 49 54 48 20 44 49 41 45 52 45  ER A WITH DIAERE
3600: 53 49 53 0a 23 20 30 30 44 36 3b 4c 41 54 49 4e  SIS.# 00D6;LATIN
3610: 20 43 41 50 49 54 41 4c 20 4c 45 54 54 45 52 20   CAPITAL LETTER 
3620: 4f 20 57 49 54 48 20 44 49 41 45 52 45 53 49 53  O WITH DIAERESIS
3630: 0a 23 20 30 30 45 34 3b 4c 41 54 49 4e 20 53 4d  .# 00E4;LATIN SM
3640: 41 4c 4c 20 4c 45 54 54 45 52 20 41 20 57 49 54  ALL LETTER A WIT
3650: 48 20 44 49 41 45 52 45 53 49 53 0a 23 20 30 30  H DIAERESIS.# 00
3660: 46 36 3b 4c 41 54 49 4e 20 53 4d 41 4c 4c 20 4c  F6;LATIN SMALL L
3670: 45 54 54 45 52 20 4f 20 57 49 54 48 20 44 49 41  ETTER O WITH DIA
3680: 45 52 45 53 49 53 0a 23 0a 64 6f 5f 65 78 65 63  ERESIS.#.do_exec
3690: 73 71 6c 5f 74 65 73 74 20 38 2e 31 2e 31 20 22  sql_test 8.1.1 "
36a0: 0a 20 20 43 52 45 41 54 45 20 56 49 52 54 55 41  .  CREATE VIRTUA
36b0: 4c 20 54 41 42 4c 45 20 74 33 20 55 53 49 4e 47  L TABLE t3 USING
36c0: 20 66 74 73 35 28 0a 20 20 20 20 63 6f 6e 74 65   fts5(.    conte
36d0: 6e 74 2c 20 74 6f 6b 65 6e 69 7a 65 3d 27 75 6e  nt, tokenize='un
36e0: 69 63 6f 64 65 36 31 20 72 65 6d 6f 76 65 5f 64  icode61 remove_d
36f0: 69 61 63 72 69 74 69 63 73 20 31 27 0a 20 20 29  iacritics 1'.  )
3700: 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20  ;.  INSERT INTO 
3710: 74 33 20 56 41 4c 55 45 53 28 27 6f 27 29 3b 0a  t3 VALUES('o');.
3720: 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 33    INSERT INTO t3
3730: 20 56 41 4c 55 45 53 28 27 61 27 29 3b 0a 20 20   VALUES('a');.  
3740: 49 4e 53 45 52 54 20 49 4e 54 4f 20 74 33 20 56  INSERT INTO t3 V
3750: 41 4c 55 45 53 28 27 4f 27 29 3b 0a 20 20 49 4e  ALUES('O');.  IN
3760: 53 45 52 54 20 49 4e 54 4f 20 74 33 20 56 41 4c  SERT INTO t3 VAL
3770: 55 45 53 28 27 41 27 29 3b 0a 20 20 49 4e 53 45  UES('A');.  INSE
3780: 52 54 20 49 4e 54 4f 20 74 33 20 56 41 4c 55 45  RT INTO t3 VALUE
3790: 53 28 27 5c 78 44 36 27 29 3b 0a 20 20 49 4e 53  S('\xD6');.  INS
37a0: 45 52 54 20 49 4e 54 4f 20 74 33 20 56 41 4c 55  ERT INTO t3 VALU
37b0: 45 53 28 27 5c 78 43 34 27 29 3b 0a 20 20 49 4e  ES('\xC4');.  IN
37c0: 53 45 52 54 20 49 4e 54 4f 20 74 33 20 56 41 4c  SERT INTO t3 VAL
37d0: 55 45 53 28 27 5c 78 46 36 27 29 3b 0a 20 20 49  UES('\xF6');.  I
37e0: 4e 53 45 52 54 20 49 4e 54 4f 20 74 33 20 56 41  NSERT INTO t3 VA
37f0: 4c 55 45 53 28 27 5c 78 45 34 27 29 3b 0a 22 0a  LUES('\xE4');.".
3800: 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73 74 20  do_execsql_test 
3810: 38 2e 31 2e 32 20 7b 0a 20 20 53 45 4c 45 43 54  8.1.2 {.  SELECT
3820: 20 72 6f 77 69 64 20 46 52 4f 4d 20 74 33 20 57   rowid FROM t3 W
3830: 48 45 52 45 20 74 33 20 4d 41 54 43 48 20 27 6f  HERE t3 MATCH 'o
3840: 27 20 4f 52 44 45 52 20 42 59 20 72 6f 77 69 64  ' ORDER BY rowid
3850: 20 41 53 43 3b 0a 7d 20 7b 31 20 33 20 35 20 37   ASC;.} {1 3 5 7
3860: 7d 0a 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73  }.do_execsql_tes
3870: 74 20 38 2e 31 2e 33 20 7b 0a 20 20 53 45 4c 45  t 8.1.3 {.  SELE
3880: 43 54 20 72 6f 77 69 64 20 46 52 4f 4d 20 74 33  CT rowid FROM t3
3890: 20 57 48 45 52 45 20 74 33 20 4d 41 54 43 48 20   WHERE t3 MATCH 
38a0: 27 61 27 20 4f 52 44 45 52 20 42 59 20 72 6f 77  'a' ORDER BY row
38b0: 69 64 20 41 53 43 3b 0a 7d 20 7b 32 20 34 20 36  id ASC;.} {2 4 6
38c0: 20 38 7d 0a 64 6f 5f 65 78 65 63 73 71 6c 5f 74   8}.do_execsql_t
38d0: 65 73 74 20 38 2e 32 2e 31 20 7b 0a 20 20 43 52  est 8.2.1 {.  CR
38e0: 45 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42  EATE VIRTUAL TAB
38f0: 4c 45 20 74 34 20 55 53 49 4e 47 20 66 74 73 35  LE t4 USING fts5
3900: 28 0a 20 20 20 20 63 6f 6e 74 65 6e 74 2c 20 74  (.    content, t
3910: 6f 6b 65 6e 69 7a 65 3d 27 75 6e 69 63 6f 64 65  okenize='unicode
3920: 36 31 20 72 65 6d 6f 76 65 5f 64 69 61 63 72 69  61 remove_diacri
3930: 74 69 63 73 20 30 27 0a 20 20 29 3b 0a 20 20 49  tics 0'.  );.  I
3940: 4e 53 45 52 54 20 49 4e 54 4f 20 74 34 20 53 45  NSERT INTO t4 SE
3950: 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74 33 20 4f  LECT * FROM t3 O
3960: 52 44 45 52 20 42 59 20 72 6f 77 69 64 20 41 53  RDER BY rowid AS
3970: 43 3b 0a 7d 0a 64 6f 5f 65 78 65 63 73 71 6c 5f  C;.}.do_execsql_
3980: 74 65 73 74 20 38 2e 32 2e 32 20 7b 0a 20 20 53  test 8.2.2 {.  S
3990: 45 4c 45 43 54 20 72 6f 77 69 64 20 46 52 4f 4d  ELECT rowid FROM
39a0: 20 74 34 20 57 48 45 52 45 20 74 34 20 4d 41 54   t4 WHERE t4 MAT
39b0: 43 48 20 27 6f 27 20 4f 52 44 45 52 20 42 59 20  CH 'o' ORDER BY 
39c0: 72 6f 77 69 64 20 41 53 43 3b 0a 7d 20 7b 31 20  rowid ASC;.} {1 
39d0: 33 7d 0a 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65  3}.do_execsql_te
39e0: 73 74 20 38 2e 32 2e 33 20 7b 0a 20 20 53 45 4c  st 8.2.3 {.  SEL
39f0: 45 43 54 20 72 6f 77 69 64 20 46 52 4f 4d 20 74  ECT rowid FROM t
3a00: 34 20 57 48 45 52 45 20 74 34 20 4d 41 54 43 48  4 WHERE t4 MATCH
3a10: 20 27 61 27 20 4f 52 44 45 52 20 42 59 20 72 6f   'a' ORDER BY ro
3a20: 77 69 64 20 41 53 43 3b 0a 7d 20 7b 32 20 34 7d  wid ASC;.} {2 4}
3a30: 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ..#-------------
3a40: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3a50: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3a60: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
3a70: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 0a 69  ------------.#.i
3a80: 66 20 30 20 7b 0a 66 6f 72 65 61 63 68 20 7b 74  f 0 {.foreach {t
3a90: 6e 20 73 71 6c 7d 20 7b 0a 20 20 31 20 7b 0a 20  n sql} {.  1 {. 
3aa0: 20 20 20 43 52 45 41 54 45 20 56 49 52 54 55 41     CREATE VIRTUA
3ab0: 4c 20 54 41 42 4c 45 20 74 35 20 55 53 49 4e 47  L TABLE t5 USING
3ac0: 20 66 74 73 34 28 74 6f 6b 65 6e 69 7a 65 3d 75   fts4(tokenize=u
3ad0: 6e 69 63 6f 64 65 36 31 20 5b 74 6f 6b 65 6e 63  nicode61 [tokenc
3ae0: 68 61 72 73 3d 20 2e 5d 29 3b 0a 20 20 20 20 43  hars= .]);.    C
3af0: 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54 41  REATE VIRTUAL TA
3b00: 42 4c 45 20 74 36 20 55 53 49 4e 47 20 66 74 73  BLE t6 USING fts
3b10: 34 28 0a 20 20 20 20 20 20 20 20 74 6f 6b 65 6e  4(.        token
3b20: 69 7a 65 3d 75 6e 69 63 6f 64 65 36 31 20 5b 74  ize=unicode61 [t
3b30: 6f 6b 65 6e 63 68 61 72 73 3d 3d 22 5d 20 22 74  okenchars=="] "t
3b40: 6f 6b 65 6e 63 68 61 72 73 3d 5b 5d 22 29 3b 0a  okenchars=[]");.
3b50: 20 20 20 20 43 52 45 41 54 45 20 56 49 52 54 55      CREATE VIRTU
3b60: 41 4c 20 54 41 42 4c 45 20 74 37 20 55 53 49 4e  AL TABLE t7 USIN
3b70: 47 20 66 74 73 34 28 74 6f 6b 65 6e 69 7a 65 3d  G fts4(tokenize=
3b80: 75 6e 69 63 6f 64 65 36 31 20 5b 73 65 70 61 72  unicode61 [separ
3b90: 61 74 6f 72 73 3d 78 5c 78 43 34 5d 29 3b 0a 20  ators=x\xC4]);. 
3ba0: 20 7d 0a 20 20 32 20 7b 0a 20 20 20 20 43 52 45   }.  2 {.    CRE
3bb0: 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c  ATE VIRTUAL TABL
3bc0: 45 20 74 35 20 55 53 49 4e 47 20 66 74 73 34 28  E t5 USING fts4(
3bd0: 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64 65  tokenize=unicode
3be0: 36 31 20 22 74 6f 6b 65 6e 63 68 61 72 73 3d 20  61 "tokenchars= 
3bf0: 2e 22 29 3b 0a 20 20 20 20 43 52 45 41 54 45 20  .");.    CREATE 
3c00: 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20 74 36  VIRTUAL TABLE t6
3c10: 20 55 53 49 4e 47 20 66 74 73 34 28 74 6f 6b 65   USING fts4(toke
3c20: 6e 69 7a 65 3d 75 6e 69 63 6f 64 65 36 31 20 22  nize=unicode61 "
3c30: 74 6f 6b 65 6e 63 68 61 72 73 3d 5b 3d 22 22 5d  tokenchars=[=""]
3c40: 22 29 3b 0a 20 20 20 20 43 52 45 41 54 45 20 56  ");.    CREATE V
3c50: 49 52 54 55 41 4c 20 54 41 42 4c 45 20 74 37 20  IRTUAL TABLE t7 
3c60: 55 53 49 4e 47 20 66 74 73 34 28 74 6f 6b 65 6e  USING fts4(token
3c70: 69 7a 65 3d 75 6e 69 63 6f 64 65 36 31 20 22 73  ize=unicode61 "s
3c80: 65 70 61 72 61 74 6f 72 73 3d 78 5c 78 43 34 22  eparators=x\xC4"
3c90: 29 3b 0a 20 20 7d 0a 20 20 33 20 7b 0a 20 20 20  );.  }.  3 {.   
3ca0: 20 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20   CREATE VIRTUAL 
3cb0: 54 41 42 4c 45 20 74 35 20 55 53 49 4e 47 20 66  TABLE t5 USING f
3cc0: 74 73 34 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69  ts4(tokenize=uni
3cd0: 63 6f 64 65 36 31 20 27 74 6f 6b 65 6e 63 68 61  code61 'tokencha
3ce0: 72 73 3d 20 2e 27 29 3b 0a 20 20 20 20 43 52 45  rs= .');.    CRE
3cf0: 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c  ATE VIRTUAL TABL
3d00: 45 20 74 36 20 55 53 49 4e 47 20 66 74 73 34 28  E t6 USING fts4(
3d10: 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64 65  tokenize=unicode
3d20: 36 31 20 27 74 6f 6b 65 6e 63 68 61 72 73 3d 3d  61 'tokenchars==
3d30: 22 5b 5d 27 29 3b 0a 20 20 20 20 43 52 45 41 54  "[]');.    CREAT
3d40: 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20  E VIRTUAL TABLE 
3d50: 74 37 20 55 53 49 4e 47 20 66 74 73 34 28 74 6f  t7 USING fts4(to
3d60: 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64 65 36 31  kenize=unicode61
3d70: 20 27 73 65 70 61 72 61 74 6f 72 73 3d 78 5c 78   'separators=x\x
3d80: 43 34 27 29 3b 0a 20 20 7d 0a 20 20 34 20 7b 0a  C4');.  }.  4 {.
3d90: 20 20 20 20 43 52 45 41 54 45 20 56 49 52 54 55      CREATE VIRTU
3da0: 41 4c 20 54 41 42 4c 45 20 74 35 20 55 53 49 4e  AL TABLE t5 USIN
3db0: 47 20 66 74 73 34 28 74 6f 6b 65 6e 69 7a 65 3d  G fts4(tokenize=
3dc0: 75 6e 69 63 6f 64 65 36 31 20 60 74 6f 6b 65 6e  unicode61 `token
3dd0: 63 68 61 72 73 3d 20 2e 60 29 3b 0a 20 20 20 20  chars= .`);.    
3de0: 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54  CREATE VIRTUAL T
3df0: 41 42 4c 45 20 74 36 20 55 53 49 4e 47 20 66 74  ABLE t6 USING ft
3e00: 73 34 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63  s4(tokenize=unic
3e10: 6f 64 65 36 31 20 60 74 6f 6b 65 6e 63 68 61 72  ode61 `tokenchar
3e20: 73 3d 5b 3d 22 5d 60 29 3b 0a 20 20 20 20 43 52  s=[="]`);.    CR
3e30: 45 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42  EATE VIRTUAL TAB
3e40: 4c 45 20 74 37 20 55 53 49 4e 47 20 66 74 73 34  LE t7 USING fts4
3e50: 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f 64  (tokenize=unicod
3e60: 65 36 31 20 60 73 65 70 61 72 61 74 6f 72 73 3d  e61 `separators=
3e70: 78 5c 78 43 34 60 29 3b 0a 20 20 7d 0a 7d 20 7b  x\xC4`);.  }.} {
3e80: 0a 20 20 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65  .  do_execsql_te
3e90: 73 74 20 39 2e 24 74 6e 2e 30 20 7b 20 0a 20 20  st 9.$tn.0 { .  
3ea0: 20 20 44 52 4f 50 20 54 41 42 4c 45 20 49 46 20    DROP TABLE IF 
3eb0: 45 58 49 53 54 53 20 74 35 3b 0a 20 20 20 20 44  EXISTS t5;.    D
3ec0: 52 4f 50 20 54 41 42 4c 45 20 49 46 20 45 58 49  ROP TABLE IF EXI
3ed0: 53 54 53 20 74 35 61 75 78 3b 0a 20 20 20 20 44  STS t5aux;.    D
3ee0: 52 4f 50 20 54 41 42 4c 45 20 49 46 20 45 58 49  ROP TABLE IF EXI
3ef0: 53 54 53 20 74 36 3b 0a 20 20 20 20 44 52 4f 50  STS t6;.    DROP
3f00: 20 54 41 42 4c 45 20 49 46 20 45 58 49 53 54 53   TABLE IF EXISTS
3f10: 20 74 36 61 75 78 3b 0a 20 20 20 20 44 52 4f 50   t6aux;.    DROP
3f20: 20 54 41 42 4c 45 20 49 46 20 45 58 49 53 54 53   TABLE IF EXISTS
3f30: 20 74 37 3b 0a 20 20 20 20 44 52 4f 50 20 54 41   t7;.    DROP TA
3f40: 42 4c 45 20 49 46 20 45 58 49 53 54 53 20 74 37  BLE IF EXISTS t7
3f50: 61 75 78 3b 0a 20 20 7d 0a 20 20 64 6f 5f 65 78  aux;.  }.  do_ex
3f60: 65 63 73 71 6c 5f 74 65 73 74 20 39 2e 24 74 6e  ecsql_test 9.$tn
3f70: 2e 31 20 24 73 71 6c 0a 0a 20 20 64 6f 5f 65 78  .1 $sql..  do_ex
3f80: 65 63 73 71 6c 5f 74 65 73 74 20 39 2e 24 74 6e  ecsql_test 9.$tn
3f90: 2e 32 20 7b 0a 20 20 20 20 43 52 45 41 54 45 20  .2 {.    CREATE 
3fa0: 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20 74 35  VIRTUAL TABLE t5
3fb0: 61 75 78 20 55 53 49 4e 47 20 66 74 73 34 61 75  aux USING fts4au
3fc0: 78 28 74 35 29 3b 0a 20 20 20 20 49 4e 53 45 52  x(t5);.    INSER
3fd0: 54 20 49 4e 54 4f 20 74 35 20 56 41 4c 55 45 53  T INTO t5 VALUES
3fe0: 28 27 6f 6e 65 20 74 77 6f 20 74 68 72 65 65 2f  ('one two three/
3ff0: 66 6f 75 72 2e 66 69 76 65 2e 73 69 78 27 29 3b  four.five.six');
4000: 0a 20 20 20 20 53 45 4c 45 43 54 20 2a 20 46 52  .    SELECT * FR
4010: 4f 4d 20 74 35 61 75 78 3b 0a 20 20 7d 20 7b 0a  OM t5aux;.  } {.
4020: 20 20 20 20 66 6f 75 72 2e 66 69 76 65 2e 73 69      four.five.si
4030: 78 20 20 20 2a 20 31 20 31 20 66 6f 75 72 2e 66  x   * 1 1 four.f
4040: 69 76 65 2e 73 69 78 20 20 20 30 20 31 20 31 20  ive.six   0 1 1 
4050: 0a 20 20 20 20 7b 6f 6e 65 20 74 77 6f 20 74 68  .    {one two th
4060: 72 65 65 7d 20 2a 20 31 20 31 20 7b 6f 6e 65 20  ree} * 1 1 {one 
4070: 74 77 6f 20 74 68 72 65 65 7d 20 30 20 31 20 31  two three} 0 1 1
4080: 0a 20 20 7d 0a 0a 20 20 64 6f 5f 65 78 65 63 73  .  }..  do_execs
4090: 71 6c 5f 74 65 73 74 20 39 2e 24 74 6e 2e 33 20  ql_test 9.$tn.3 
40a0: 7b 0a 20 20 20 20 43 52 45 41 54 45 20 56 49 52  {.    CREATE VIR
40b0: 54 55 41 4c 20 54 41 42 4c 45 20 74 36 61 75 78  TUAL TABLE t6aux
40c0: 20 55 53 49 4e 47 20 66 74 73 34 61 75 78 28 74   USING fts4aux(t
40d0: 36 29 3b 0a 20 20 20 20 49 4e 53 45 52 54 20 49  6);.    INSERT I
40e0: 4e 54 4f 20 74 36 20 56 41 4c 55 45 53 28 27 61  NTO t6 VALUES('a
40f0: 6c 70 68 61 3d 62 65 74 61 22 67 61 6d 6d 61 2f  lpha=beta"gamma/
4100: 64 65 6c 74 61 5b 65 70 73 69 6c 6f 6e 5d 7a 65  delta[epsilon]ze
4110: 74 61 27 29 3b 0a 20 20 20 20 53 45 4c 45 43 54  ta');.    SELECT
4120: 20 2a 20 46 52 4f 4d 20 74 36 61 75 78 3b 0a 20   * FROM t6aux;. 
4130: 20 7d 20 7b 0a 20 20 20 20 7b 61 6c 70 68 61 3d   } {.    {alpha=
4140: 62 65 74 61 22 67 61 6d 6d 61 7d 20 20 20 2a 20  beta"gamma}   * 
4150: 31 20 31 20 7b 61 6c 70 68 61 3d 62 65 74 61 22  1 1 {alpha=beta"
4160: 67 61 6d 6d 61 7d 20 30 20 31 20 31 20 0a 20 20  gamma} 0 1 1 .  
4170: 20 20 7b 64 65 6c 74 61 5b 65 70 73 69 6c 6f 6e    {delta[epsilon
4180: 5d 7a 65 74 61 7d 20 2a 20 31 20 31 20 7b 64 65  ]zeta} * 1 1 {de
4190: 6c 74 61 5b 65 70 73 69 6c 6f 6e 5d 7a 65 74 61  lta[epsilon]zeta
41a0: 7d 20 30 20 31 20 31 0a 20 20 7d 0a 0a 20 20 64  } 0 1 1.  }..  d
41b0: 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73 74 20 39  o_execsql_test 9
41c0: 2e 24 74 6e 2e 34 20 7b 0a 20 20 20 20 43 52 45  .$tn.4 {.    CRE
41d0: 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c  ATE VIRTUAL TABL
41e0: 45 20 74 37 61 75 78 20 55 53 49 4e 47 20 66 74  E t7aux USING ft
41f0: 73 34 61 75 78 28 74 37 29 3b 0a 20 20 20 20 49  s4aux(t7);.    I
4200: 4e 53 45 52 54 20 49 4e 54 4f 20 74 37 20 56 41  NSERT INTO t7 VA
4210: 4c 55 45 53 28 27 61 6c 65 70 68 78 62 65 74 68  LUES('alephxbeth
4220: 5c 78 43 34 67 69 6d 65 6c 27 29 3b 0a 20 20 20  \xC4gimel');.   
4230: 20 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74   SELECT * FROM t
4240: 37 61 75 78 3b 0a 20 20 7d 20 7b 0a 20 20 20 20  7aux;.  } {.    
4250: 61 6c 65 70 68 20 2a 20 31 20 31 20 61 6c 65 70  aleph * 1 1 alep
4260: 68 20 30 20 31 20 31 20 0a 20 20 20 20 62 65 74  h 0 1 1 .    bet
4270: 68 20 20 2a 20 31 20 31 20 62 65 74 68 20 20 30  h  * 1 1 beth  0
4280: 20 31 20 31 20 0a 20 20 20 20 67 69 6d 65 6c 20   1 1 .    gimel 
4290: 2a 20 31 20 31 20 67 69 6d 65 6c 20 30 20 31 20  * 1 1 gimel 0 1 
42a0: 31 0a 20 20 7d 0a 7d 0a 0a 23 20 43 68 65 63 6b  1.  }.}..# Check
42b0: 20 74 68 61 74 20 6d 75 6c 74 69 70 6c 65 20 6f   that multiple o
42c0: 70 74 69 6f 6e 73 20 61 72 65 20 68 61 6e 64 6c  ptions are handl
42d0: 65 64 20 63 6f 72 72 65 63 74 6c 79 2e 0a 23 0a  ed correctly..#.
42e0: 64 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73 74 20  do_execsql_test 
42f0: 31 30 2e 31 20 7b 0a 20 20 44 52 4f 50 20 54 41  10.1 {.  DROP TA
4300: 42 4c 45 20 49 46 20 45 58 49 53 54 53 20 74 31  BLE IF EXISTS t1
4310: 3b 0a 20 20 43 52 45 41 54 45 20 56 49 52 54 55  ;.  CREATE VIRTU
4320: 41 4c 20 54 41 42 4c 45 20 74 31 20 55 53 49 4e  AL TABLE t1 USIN
4330: 47 20 66 74 73 34 28 74 6f 6b 65 6e 69 7a 65 3d  G fts4(tokenize=
4340: 75 6e 69 63 6f 64 65 36 31 0a 20 20 20 20 22 74  unicode61.    "t
4350: 6f 6b 65 6e 63 68 61 72 73 3d 78 79 7a 22 20 22  okenchars=xyz" "
4360: 74 6f 6b 65 6e 63 68 61 72 73 3d 2e 3d 22 20 22  tokenchars=.=" "
4370: 73 65 70 61 72 61 74 6f 72 73 3d 2e 3d 22 20 22  separators=.=" "
4380: 73 65 70 61 72 61 74 6f 72 73 3d 78 79 22 0a 20  separators=xy". 
4390: 20 20 20 22 73 65 70 61 72 61 74 6f 72 73 3d 61     "separators=a
43a0: 22 20 22 73 65 70 61 72 61 74 6f 72 73 3d 61 22  " "separators=a"
43b0: 20 22 74 6f 6b 65 6e 63 68 61 72 73 3d 61 22 20   "tokenchars=a" 
43c0: 22 74 6f 6b 65 6e 63 68 61 72 73 3d 61 22 0a 20  "tokenchars=a". 
43d0: 20 29 3b 0a 0a 20 20 49 4e 53 45 52 54 20 49 4e   );..  INSERT IN
43e0: 54 4f 20 74 31 20 56 41 4c 55 45 53 28 27 6f 6e  TO t1 VALUES('on
43f0: 65 61 74 77 6f 78 74 68 72 65 65 79 66 6f 75 72  eatwoxthreeyfour
4400: 27 29 3b 0a 20 20 49 4e 53 45 52 54 20 49 4e 54  ');.  INSERT INT
4410: 4f 20 74 31 20 56 41 4c 55 45 53 28 27 61 2e 73  O t1 VALUES('a.s
4420: 69 6e 67 6c 65 3d 77 6f 72 64 27 29 3b 0a 20 20  ingle=word');.  
4430: 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54  CREATE VIRTUAL T
4440: 41 42 4c 45 20 74 31 61 75 78 20 55 53 49 4e 47  ABLE t1aux USING
4450: 20 66 74 73 34 61 75 78 28 74 31 29 3b 0a 20 20   fts4aux(t1);.  
4460: 53 45 4c 45 43 54 20 2a 20 46 52 4f 4d 20 74 31  SELECT * FROM t1
4470: 61 75 78 3b 0a 7d 20 7b 0a 20 20 2e 73 69 6e 67  aux;.} {.  .sing
4480: 6c 65 3d 77 6f 72 64 20 2a 20 31 20 31 20 2e 73  le=word * 1 1 .s
4490: 69 6e 67 6c 65 3d 77 6f 72 64 20 30 20 31 20 31  ingle=word 0 1 1
44a0: 20 0a 20 20 66 6f 75 72 20 20 20 20 20 20 20 20   .  four        
44b0: 20 2a 20 31 20 31 20 66 6f 75 72 20 20 20 20 20   * 1 1 four     
44c0: 20 20 20 20 30 20 31 20 31 20 0a 20 20 6f 6e 65      0 1 1 .  one
44d0: 20 20 20 20 20 20 20 20 20 20 2a 20 31 20 31 20            * 1 1 
44e0: 6f 6e 65 20 20 20 20 20 20 20 20 20 20 30 20 31  one          0 1
44f0: 20 31 20 0a 20 20 74 68 72 65 65 20 20 20 20 20   1 .  three     
4500: 20 20 20 2a 20 31 20 31 20 74 68 72 65 65 20 20     * 1 1 three  
4510: 20 20 20 20 20 20 30 20 31 20 31 20 0a 20 20 74        0 1 1 .  t
4520: 77 6f 20 20 20 20 20 20 20 20 20 20 2a 20 31 20  wo          * 1 
4530: 31 20 74 77 6f 20 20 20 20 20 20 20 20 20 20 30  1 two          0
4540: 20 31 20 31 0a 7d 0a 0a 23 20 54 65 73 74 20 74   1 1.}..# Test t
4550: 68 61 74 20 63 61 73 65 20 66 6f 6c 64 69 6e 67  hat case folding
4560: 20 68 61 70 70 65 6e 73 20 61 66 74 65 72 20 74   happens after t
4570: 6f 6b 65 6e 69 7a 61 74 69 6f 6e 2c 20 6e 6f 74  okenization, not
4580: 20 62 65 66 6f 72 65 2e 0a 23 0a 64 6f 5f 65 78   before..#.do_ex
4590: 65 63 73 71 6c 5f 74 65 73 74 20 31 30 2e 32 20  ecsql_test 10.2 
45a0: 7b 0a 20 20 44 52 4f 50 20 54 41 42 4c 45 20 49  {.  DROP TABLE I
45b0: 46 20 45 58 49 53 54 53 20 74 32 3b 0a 20 20 43  F EXISTS t2;.  C
45c0: 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54 41  REATE VIRTUAL TA
45d0: 42 4c 45 20 74 32 20 55 53 49 4e 47 20 66 74 73  BLE t2 USING fts
45e0: 34 28 74 6f 6b 65 6e 69 7a 65 3d 75 6e 69 63 6f  4(tokenize=unico
45f0: 64 65 36 31 20 22 73 65 70 61 72 61 74 6f 72 73  de61 "separators
4600: 3d 61 42 22 29 3b 0a 20 20 49 4e 53 45 52 54 20  =aB");.  INSERT 
4610: 49 4e 54 4f 20 74 32 20 56 41 4c 55 45 53 28 27  INTO t2 VALUES('
4620: 6f 6e 65 61 74 77 6f 42 74 68 72 65 65 27 29 3b  oneatwoBthree');
4630: 0a 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20 74  .  INSERT INTO t
4640: 32 20 56 41 4c 55 45 53 28 27 6f 6e 65 62 74 77  2 VALUES('onebtw
4650: 6f 41 74 68 72 65 65 27 29 3b 0a 20 20 43 52 45  oAthree');.  CRE
4660: 41 54 45 20 56 49 52 54 55 41 4c 20 54 41 42 4c  ATE VIRTUAL TABL
4670: 45 20 74 32 61 75 78 20 55 53 49 4e 47 20 66 74  E t2aux USING ft
4680: 73 34 61 75 78 28 74 32 29 3b 0a 20 20 53 45 4c  s4aux(t2);.  SEL
4690: 45 43 54 20 2a 20 46 52 4f 4d 20 74 32 61 75 78  ECT * FROM t2aux
46a0: 3b 0a 7d 20 7b 0a 20 20 6f 6e 65 20 20 20 20 20  ;.} {.  one     
46b0: 20 20 20 20 20 20 2a 20 31 20 31 20 6f 6e 65 20        * 1 1 one 
46c0: 20 20 20 20 20 20 20 20 20 20 30 20 31 20 31 20            0 1 1 
46d0: 0a 20 20 6f 6e 65 62 74 77 6f 61 74 68 72 65 65  .  onebtwoathree
46e0: 20 2a 20 31 20 31 20 6f 6e 65 62 74 77 6f 61 74   * 1 1 onebtwoat
46f0: 68 72 65 65 20 30 20 31 20 31 20 0a 20 20 74 68  hree 0 1 1 .  th
4700: 72 65 65 20 20 20 20 20 20 20 20 20 2a 20 31 20  ree         * 1 
4710: 31 20 74 68 72 65 65 20 20 20 20 20 20 20 20 20  1 three         
4720: 30 20 31 20 31 20 0a 20 20 74 77 6f 20 20 20 20  0 1 1 .  two    
4730: 20 20 20 20 20 20 20 2a 20 31 20 31 20 74 77 6f         * 1 1 two
4740: 20 20 20 20 20 20 20 20 20 20 20 30 20 31 20 31             0 1 1
4750: 0a 7d 0a 0a 23 20 54 65 73 74 20 74 68 61 74 20  .}..# Test that 
4760: 74 68 65 20 74 6f 6b 65 6e 63 68 61 72 73 20 61  the tokenchars a
4770: 6e 64 20 73 65 70 61 72 61 74 6f 72 73 20 6f 70  nd separators op
4780: 74 69 6f 6e 73 20 77 6f 72 6b 20 77 69 74 68 20  tions work with 
4790: 74 68 65 20 0a 23 20 66 74 73 33 74 6f 6b 65 6e  the .# fts3token
47a0: 69 7a 65 20 74 61 62 6c 65 2e 0a 23 0a 64 6f 5f  ize table..#.do_
47b0: 65 78 65 63 73 71 6c 5f 74 65 73 74 20 31 31 2e  execsql_test 11.
47c0: 31 20 7b 0a 20 20 43 52 45 41 54 45 20 56 49 52  1 {.  CREATE VIR
47d0: 54 55 41 4c 20 54 41 42 4c 45 20 66 74 31 20 55  TUAL TABLE ft1 U
47e0: 53 49 4e 47 20 66 74 73 33 74 6f 6b 65 6e 69 7a  SING fts3tokeniz
47f0: 65 28 0a 20 20 20 20 22 75 6e 69 63 6f 64 65 36  e(.    "unicode6
4800: 31 22 2c 20 22 74 6f 6b 65 6e 63 68 61 72 73 3d  1", "tokenchars=
4810: 40 2e 22 2c 20 22 73 65 70 61 72 61 74 6f 72 73  @.", "separators
4820: 3d 31 32 33 34 35 36 37 38 39 30 22 0a 20 20 29  =1234567890".  )
4830: 3b 0a 20 20 53 45 4c 45 43 54 20 74 6f 6b 65 6e  ;.  SELECT token
4840: 20 46 52 4f 4d 20 66 74 31 20 57 48 45 52 45 20   FROM ft1 WHERE 
4850: 69 6e 70 75 74 20 3d 20 27 62 65 72 6c 69 6e 40  input = 'berlin@
4860: 73 74 72 65 65 74 31 32 33 73 79 64 6e 65 79 2e  street123sydney.
4870: 72 6f 61 64 27 3b 0a 7d 20 7b 0a 20 20 62 65 72  road';.} {.  ber
4880: 6c 69 6e 40 73 74 72 65 65 74 20 73 79 64 6e 65  lin@street sydne
4890: 79 2e 72 6f 61 64 0a 7d 0a 0a 7d 0a 0a 66 69 6e  y.road.}..}..fin
48a0: 69 73 68 5f 74 65 73 74 0a                       ish_test.