/ Hex Artifact Content
Login

Artifact fb398ab50aa232489e2a17f9b29d7ad3a3885f36:


0000: 23 20 32 30 30 37 20 4a 75 6e 65 20 32 31 0a 23  # 2007 June 21.#
0010: 0a 23 20 54 68 65 20 61 75 74 68 6f 72 20 64 69  .# The author di
0020: 73 63 6c 61 69 6d 73 20 63 6f 70 79 72 69 67 68  sclaims copyrigh
0030: 74 20 74 6f 20 74 68 69 73 20 73 6f 75 72 63 65  t to this source
0040: 20 63 6f 64 65 2e 20 20 49 6e 20 70 6c 61 63 65   code.  In place
0050: 20 6f 66 0a 23 20 61 20 6c 65 67 61 6c 20 6e 6f   of.# a legal no
0060: 74 69 63 65 2c 20 68 65 72 65 20 69 73 20 61 20  tice, here is a 
0070: 62 6c 65 73 73 69 6e 67 3a 0a 23 0a 23 20 20 20  blessing:.#.#   
0080: 20 4d 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64   May you do good
0090: 20 61 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 23   and not evil..#
00a0: 20 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64      May you find
00b0: 20 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72   forgiveness for
00c0: 20 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f   yourself and fo
00d0: 72 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 23 20  rgive others..# 
00e0: 20 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65     May you share
00f0: 20 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74   freely, never t
0100: 61 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20  aking more than 
0110: 79 6f 75 20 67 69 76 65 2e 0a 23 0a 23 2a 2a 2a  you give..#.#***
0120: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 0a 23 20 54 68 69 73 20 66 69  ******.# This fi
0170: 6c 65 20 69 6d 70 6c 65 6d 65 6e 74 73 20 72 65  le implements re
0180: 67 72 65 73 73 69 6f 6e 20 74 65 73 74 73 20 66  gression tests f
0190: 6f 72 20 53 51 4c 69 74 65 20 6c 69 62 72 61 72  or SQLite librar
01a0: 79 2e 20 54 68 65 20 66 6f 63 75 73 20 0a 23 20  y. The focus .# 
01b0: 6f 66 20 74 68 69 73 20 73 63 72 69 70 74 20 69  of this script i
01c0: 73 20 74 65 73 74 69 6e 67 20 74 68 65 20 70 6c  s testing the pl
01d0: 75 67 67 61 62 6c 65 20 74 6f 6b 65 6e 69 73 65  uggable tokenise
01e0: 72 20 66 65 61 74 75 72 65 20 6f 66 20 74 68 65  r feature of the
01f0: 20 0a 23 20 46 54 53 33 20 6d 6f 64 75 6c 65 2e   .# FTS3 module.
0200: 0a 23 0a 23 20 24 49 64 3a 20 66 74 73 33 61 74  .#.# $Id: fts3at
0210: 6f 6b 65 6e 2e 74 65 73 74 2c 76 20 31 2e 31 20  oken.test,v 1.1 
0220: 32 30 30 37 2f 30 38 2f 32 30 20 31 37 3a 33 38  2007/08/20 17:38
0230: 3a 34 32 20 73 68 65 73 73 20 45 78 70 20 24 0a  :42 shess Exp $.
0240: 23 0a 0a 73 65 74 20 74 65 73 74 64 69 72 20 5b  #..set testdir [
0250: 66 69 6c 65 20 64 69 72 6e 61 6d 65 20 24 61 72  file dirname $ar
0260: 67 76 30 5d 0a 73 6f 75 72 63 65 20 24 74 65 73  gv0].source $tes
0270: 74 64 69 72 2f 74 65 73 74 65 72 2e 74 63 6c 0a  tdir/tester.tcl.
0280: 0a 23 20 49 66 20 53 51 4c 49 54 45 5f 45 4e 41  .# If SQLITE_ENA
0290: 42 4c 45 5f 46 54 53 33 20 69 73 20 64 65 66 69  BLE_FTS3 is defi
02a0: 6e 65 64 2c 20 6f 6d 69 74 20 74 68 69 73 20 66  ned, omit this f
02b0: 69 6c 65 2e 0a 69 66 63 61 70 61 62 6c 65 20 21  ile..ifcapable !
02c0: 66 74 73 33 20 7b 0a 20 20 66 69 6e 69 73 68 5f  fts3 {.  finish_
02d0: 74 65 73 74 0a 20 20 72 65 74 75 72 6e 0a 7d 0a  test.  return.}.
02e0: 0a 73 65 74 20 3a 3a 74 65 73 74 70 72 65 66 69  .set ::testprefi
02f0: 78 20 66 74 73 33 74 6f 6b 65 6e 0a 0a 70 72 6f  x fts3token..pro
0300: 63 20 65 73 63 61 70 65 5f 73 74 72 69 6e 67 20  c escape_string 
0310: 7b 73 74 72 7d 20 7b 0a 20 20 73 65 74 20 6f 75  {str} {.  set ou
0320: 74 20 22 22 0a 20 20 66 6f 72 65 61 63 68 20 63  t "".  foreach c
0330: 68 61 72 20 5b 73 70 6c 69 74 20 24 73 74 72 20  har [split $str 
0340: 22 22 5d 20 7b 0a 20 20 20 20 73 63 61 6e 20 24  ""] {.    scan $
0350: 63 68 61 72 20 25 63 20 69 0a 20 20 20 20 69 66  char %c i.    if
0360: 20 7b 24 69 3c 3d 31 32 37 7d 20 7b 0a 20 20 20   {$i<=127} {.   
0370: 20 20 20 61 70 70 65 6e 64 20 6f 75 74 20 24 63     append out $c
0380: 68 61 72 0a 20 20 20 20 7d 20 65 6c 73 65 20 7b  har.    } else {
0390: 0a 20 20 20 20 20 20 61 70 70 65 6e 64 20 6f 75  .      append ou
03a0: 74 20 5b 66 6f 72 6d 61 74 20 7b 5c 78 25 2e 34  t [format {\x%.4
03b0: 78 7d 20 24 69 5d 0a 20 20 20 20 7d 0a 20 20 7d  x} $i].    }.  }
03c0: 0a 20 20 73 65 74 20 6f 75 74 0a 7d 0a 0a 23 2d  .  set out.}..#-
03d0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
03e0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
03f0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0400: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0410: 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 20 54 65 73 74  ---------.# Test
0420: 20 63 61 73 65 73 20 66 74 73 33 74 6f 6b 65 6e   cases fts3token
0430: 2d 31 2e 2a 20 61 72 65 20 74 68 65 20 77 61 72  -1.* are the war
0440: 6d 2d 62 6f 64 79 20 74 65 73 74 20 66 6f 72 20  m-body test for 
0450: 74 68 65 20 53 51 4c 20 73 63 61 6c 61 72 0a 23  the SQL scalar.#
0460: 20 66 75 6e 63 74 69 6f 6e 20 66 74 73 33 5f 74   function fts3_t
0470: 6f 6b 65 6e 69 7a 65 72 28 29 2e 20 54 68 65 20  okenizer(). The 
0480: 70 72 6f 63 65 64 75 72 65 20 69 73 20 61 73 20  procedure is as 
0490: 66 6f 6c 6c 6f 77 73 3a 0a 23 0a 23 20 20 20 31  follows:.#.#   1
04a0: 3a 20 56 65 72 69 66 79 20 74 68 61 74 20 74 68  : Verify that th
04b0: 65 72 65 20 69 73 20 6e 6f 20 73 75 63 68 20 66  ere is no such f
04c0: 74 73 33 20 74 6f 6b 65 6e 69 7a 65 72 20 61 73  ts3 tokenizer as
04d0: 20 27 62 6c 61 68 27 2e 0a 23 0a 23 20 20 20 32   'blah'..#.#   2
04e0: 3a 20 51 75 65 72 79 20 66 6f 72 20 74 68 65 20  : Query for the 
04f0: 62 75 69 6c 74 2d 69 6e 20 74 6f 6b 65 6e 69 7a  built-in tokeniz
0500: 65 72 20 27 73 69 6d 70 6c 65 27 2e 20 49 6e 73  er 'simple'. Ins
0510: 65 72 74 20 61 20 63 6f 70 79 20 6f 66 20 74 68  ert a copy of th
0520: 65 0a 23 20 20 20 20 20 20 72 65 74 72 69 65 76  e.#      retriev
0530: 65 64 20 76 61 6c 75 65 20 61 73 20 74 6f 6b 65  ed value as toke
0540: 6e 69 7a 65 72 20 27 62 6c 61 68 27 2e 0a 23 0a  nizer 'blah'..#.
0550: 23 20 20 20 33 3a 20 54 65 73 74 20 74 68 61 74  #   3: Test that
0560: 20 74 68 65 20 76 61 6c 75 65 20 72 65 74 75 72   the value retur
0570: 6e 65 64 20 66 6f 72 20 74 6f 6b 65 6e 69 7a 65  ned for tokenize
0580: 72 20 27 62 6c 61 68 27 20 69 73 20 6e 6f 77 20  r 'blah' is now 
0590: 74 68 65 0a 23 20 20 20 20 20 20 73 61 6d 65 20  the.#      same 
05a0: 61 73 20 74 68 61 74 20 72 65 74 72 69 65 76 65  as that retrieve
05b0: 64 20 66 6f 72 20 27 73 69 6d 70 6c 65 27 2e 0a  d for 'simple'..
05c0: 23 0a 23 20 20 20 34 3a 20 54 65 73 74 20 74 68  #.#   4: Test th
05d0: 61 74 20 69 74 20 69 73 20 6e 6f 77 20 70 6f 73  at it is now pos
05e0: 73 69 62 6c 65 20 74 6f 20 63 72 65 61 74 65 20  sible to create 
05f0: 61 6e 20 66 74 73 33 20 74 61 62 6c 65 20 75 73  an fts3 table us
0600: 69 6e 67 20 0a 23 20 20 20 20 20 20 74 6f 6b 65  ing .#      toke
0610: 6e 69 7a 65 72 20 27 62 6c 61 68 27 20 28 69 74  nizer 'blah' (it
0620: 20 77 61 73 20 6e 6f 74 20 70 6f 73 73 69 62 6c   was not possibl
0630: 65 20 69 6e 20 73 74 65 70 20 31 29 2e 0a 23 0a  e in step 1)..#.
0640: 23 20 20 20 35 3a 20 54 65 73 74 20 74 68 61 74  #   5: Test that
0650: 20 74 68 65 20 74 61 62 6c 65 20 63 72 65 61 74   the table creat
0660: 65 64 20 74 6f 20 75 73 65 20 74 6f 6b 65 6e 69  ed to use tokeni
0670: 7a 65 72 20 27 62 6c 61 68 27 20 69 73 20 75 73  zer 'blah' is us
0680: 61 62 6c 65 2e 0a 23 0a 64 6f 5f 74 65 73 74 20  able..#.do_test 
0690: 66 74 73 33 74 6f 6b 65 6e 2d 31 2e 31 20 7b 0a  fts3token-1.1 {.
06a0: 20 20 63 61 74 63 68 73 71 6c 20 7b 0a 20 20 20    catchsql {.   
06b0: 20 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20   CREATE VIRTUAL 
06c0: 54 41 42 4c 45 20 74 31 20 55 53 49 4e 47 20 66  TABLE t1 USING f
06d0: 74 73 33 28 63 6f 6e 74 65 6e 74 2c 20 74 6f 6b  ts3(content, tok
06e0: 65 6e 69 7a 65 20 62 6c 61 68 29 3b 0a 20 20 7d  enize blah);.  }
06f0: 0a 7d 20 7b 31 20 7b 75 6e 6b 6e 6f 77 6e 20 74  .} {1 {unknown t
0700: 6f 6b 65 6e 69 7a 65 72 3a 20 62 6c 61 68 7d 7d  okenizer: blah}}
0710: 0a 64 6f 5f 74 65 73 74 20 66 74 73 33 74 6f 6b  .do_test fts3tok
0720: 65 6e 2d 31 2e 32 20 7b 0a 20 20 65 78 65 63 73  en-1.2 {.  execs
0730: 71 6c 20 7b 0a 20 20 20 20 53 45 4c 45 43 54 20  ql {.    SELECT 
0740: 66 74 73 33 5f 74 6f 6b 65 6e 69 7a 65 72 28 27  fts3_tokenizer('
0750: 62 6c 61 68 27 2c 20 66 74 73 33 5f 74 6f 6b 65  blah', fts3_toke
0760: 6e 69 7a 65 72 28 27 73 69 6d 70 6c 65 27 29 29  nizer('simple'))
0770: 20 49 53 20 4e 55 4c 4c 3b 0a 20 20 7d 0a 7d 20   IS NULL;.  }.} 
0780: 7b 30 7d 0a 64 6f 5f 74 65 73 74 20 66 74 73 33  {0}.do_test fts3
0790: 74 6f 6b 65 6e 2d 31 2e 33 20 7b 0a 20 20 65 78  token-1.3 {.  ex
07a0: 65 63 73 71 6c 20 7b 0a 20 20 20 20 53 45 4c 45  ecsql {.    SELE
07b0: 43 54 20 66 74 73 33 5f 74 6f 6b 65 6e 69 7a 65  CT fts3_tokenize
07c0: 72 28 27 62 6c 61 68 27 29 20 3d 3d 20 66 74 73  r('blah') == fts
07d0: 33 5f 74 6f 6b 65 6e 69 7a 65 72 28 27 73 69 6d  3_tokenizer('sim
07e0: 70 6c 65 27 29 3b 0a 20 20 7d 0a 7d 20 7b 31 7d  ple');.  }.} {1}
07f0: 0a 64 6f 5f 74 65 73 74 20 66 74 73 33 74 6f 6b  .do_test fts3tok
0800: 65 6e 2d 31 2e 34 20 7b 0a 20 20 63 61 74 63 68  en-1.4 {.  catch
0810: 73 71 6c 20 7b 0a 20 20 20 20 43 52 45 41 54 45  sql {.    CREATE
0820: 20 56 49 52 54 55 41 4c 20 54 41 42 4c 45 20 74   VIRTUAL TABLE t
0830: 31 20 55 53 49 4e 47 20 66 74 73 33 28 63 6f 6e  1 USING fts3(con
0840: 74 65 6e 74 2c 20 74 6f 6b 65 6e 69 7a 65 20 62  tent, tokenize b
0850: 6c 61 68 29 3b 0a 20 20 7d 0a 7d 20 7b 30 20 7b  lah);.  }.} {0 {
0860: 7d 7d 0a 64 6f 5f 74 65 73 74 20 66 74 73 33 74  }}.do_test fts3t
0870: 6f 6b 65 6e 2d 31 2e 35 20 7b 0a 20 20 65 78 65  oken-1.5 {.  exe
0880: 63 73 71 6c 20 7b 0a 20 20 20 20 49 4e 53 45 52  csql {.    INSER
0890: 54 20 49 4e 54 4f 20 74 31 28 63 6f 6e 74 65 6e  T INTO t1(conten
08a0: 74 29 20 56 41 4c 55 45 53 28 27 54 68 65 72 65  t) VALUES('There
08b0: 20 77 61 73 20 6d 6f 76 65 6d 65 6e 74 20 61 74   was movement at
08c0: 20 74 68 65 20 73 74 61 74 69 6f 6e 27 29 3b 0a   the station');.
08d0: 20 20 20 20 49 4e 53 45 52 54 20 49 4e 54 4f 20      INSERT INTO 
08e0: 74 31 28 63 6f 6e 74 65 6e 74 29 20 56 41 4c 55  t1(content) VALU
08f0: 45 53 28 27 46 6f 72 20 74 68 65 20 77 6f 72 64  ES('For the word
0900: 20 68 61 73 20 70 61 73 73 65 64 20 61 72 6f 75   has passed arou
0910: 6e 64 27 29 3b 0a 20 20 20 20 49 4e 53 45 52 54  nd');.    INSERT
0920: 20 49 4e 54 4f 20 74 31 28 63 6f 6e 74 65 6e 74   INTO t1(content
0930: 29 20 56 41 4c 55 45 53 28 27 54 68 61 74 20 74  ) VALUES('That t
0940: 68 65 20 63 6f 6c 74 20 66 72 6f 6d 20 6f 6c 20  he colt from ol 
0950: 72 65 67 72 65 74 20 68 61 64 20 67 6f 74 20 61  regret had got a
0960: 77 61 79 27 29 3b 0a 20 20 20 20 53 45 4c 45 43  way');.    SELEC
0970: 54 20 63 6f 6e 74 65 6e 74 20 46 52 4f 4d 20 74  T content FROM t
0980: 31 20 57 48 45 52 45 20 63 6f 6e 74 65 6e 74 20  1 WHERE content 
0990: 4d 41 54 43 48 20 27 6d 6f 76 65 6d 65 6e 74 27  MATCH 'movement'
09a0: 0a 20 20 7d 0a 7d 20 7b 7b 54 68 65 72 65 20 77  .  }.} {{There w
09b0: 61 73 20 6d 6f 76 65 6d 65 6e 74 20 61 74 20 74  as movement at t
09c0: 68 65 20 73 74 61 74 69 6f 6e 7d 7d 0a 0a 23 2d  he station}}..#-
09d0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
09e0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
09f0: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a00: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0a10: 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 20 54 65 73 74  ---------.# Test
0a20: 20 63 61 73 65 73 20 66 74 73 33 74 6f 6b 65 6e   cases fts3token
0a30: 2d 32 2e 2a 20 74 65 73 74 20 65 72 72 6f 72 20  -2.* test error 
0a40: 63 61 73 65 73 20 69 6e 20 74 68 65 20 73 63 61  cases in the sca
0a50: 6c 61 72 20 66 75 6e 63 74 69 6f 6e 20 62 61 73  lar function bas
0a60: 65 64 0a 23 20 41 50 49 20 66 6f 72 20 67 65 74  ed.# API for get
0a70: 74 69 6e 67 20 61 6e 64 20 73 65 74 74 69 6e 67  ting and setting
0a80: 20 74 6f 6b 65 6e 69 7a 65 72 73 2e 0a 23 0a 64   tokenizers..#.d
0a90: 6f 5f 74 65 73 74 20 66 74 73 33 74 6f 6b 65 6e  o_test fts3token
0aa0: 2d 32 2e 31 20 7b 0a 20 20 63 61 74 63 68 73 71  -2.1 {.  catchsq
0ab0: 6c 20 7b 0a 20 20 20 20 53 45 4c 45 43 54 20 66  l {.    SELECT f
0ac0: 74 73 33 5f 74 6f 6b 65 6e 69 7a 65 72 28 27 6e  ts3_tokenizer('n
0ad0: 6f 73 75 63 68 74 6f 6b 65 6e 69 7a 65 72 27 29  osuchtokenizer')
0ae0: 3b 0a 20 20 7d 0a 7d 20 7b 31 20 7b 75 6e 6b 6e  ;.  }.} {1 {unkn
0af0: 6f 77 6e 20 74 6f 6b 65 6e 69 7a 65 72 3a 20 6e  own tokenizer: n
0b00: 6f 73 75 63 68 74 6f 6b 65 6e 69 7a 65 72 7d 7d  osuchtokenizer}}
0b10: 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ..#-------------
0b20: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b30: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b40: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0b50: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23 20  -------------.# 
0b60: 54 65 73 74 20 63 61 73 65 73 20 66 74 73 33 74  Test cases fts3t
0b70: 6f 6b 65 6e 2d 33 2e 2a 20 74 65 73 74 20 74 68  oken-3.* test th
0b80: 65 20 74 68 72 65 65 20 62 75 69 6c 74 2d 69 6e  e three built-in
0b90: 20 74 6f 6b 65 6e 69 7a 65 72 73 20 77 69 74 68   tokenizers with
0ba0: 20 61 0a 23 20 73 69 6d 70 6c 65 20 69 6e 70 75   a.# simple inpu
0bb0: 74 20 73 74 72 69 6e 67 20 76 69 61 20 74 68 65  t string via the
0bc0: 20 62 75 69 6c 74 2d 69 6e 20 74 65 73 74 20 66   built-in test f
0bd0: 75 6e 63 74 69 6f 6e 2e 20 54 68 69 73 20 69 73  unction. This is
0be0: 20 61 73 20 6d 75 63 68 0a 23 20 74 6f 20 74 65   as much.# to te
0bf0: 73 74 20 74 68 65 20 74 65 73 74 20 66 75 6e 63  st the test func
0c00: 74 69 6f 6e 20 61 73 20 74 68 65 20 74 6f 6b 65  tion as the toke
0c10: 6e 69 7a 65 72 20 69 6d 70 6c 65 6d 65 6e 74 61  nizer implementa
0c20: 74 69 6f 6e 73 2e 0a 23 0a 64 6f 5f 74 65 73 74  tions..#.do_test
0c30: 20 66 74 73 33 74 6f 6b 65 6e 2d 33 2e 31 20 7b   fts3token-3.1 {
0c40: 0a 20 20 65 78 65 63 73 71 6c 20 7b 0a 20 20 20  .  execsql {.   
0c50: 20 53 45 4c 45 43 54 20 66 74 73 33 5f 74 6f 6b   SELECT fts3_tok
0c60: 65 6e 69 7a 65 72 5f 74 65 73 74 28 27 73 69 6d  enizer_test('sim
0c70: 70 6c 65 27 2c 20 27 49 20 64 6f 6e 27 27 74 20  ple', 'I don''t 
0c80: 73 65 65 20 68 6f 77 27 29 3b 0a 20 20 7d 0a 7d  see how');.  }.}
0c90: 20 7b 7b 30 20 69 20 49 20 31 20 64 6f 6e 20 64   {{0 i I 1 don d
0ca0: 6f 6e 20 32 20 74 20 74 20 33 20 73 65 65 20 73  on 2 t t 3 see s
0cb0: 65 65 20 34 20 68 6f 77 20 68 6f 77 7d 7d 0a 64  ee 4 how how}}.d
0cc0: 6f 5f 74 65 73 74 20 66 74 73 33 74 6f 6b 65 6e  o_test fts3token
0cd0: 2d 33 2e 32 20 7b 0a 20 20 65 78 65 63 73 71 6c  -3.2 {.  execsql
0ce0: 20 7b 0a 20 20 20 20 53 45 4c 45 43 54 20 66 74   {.    SELECT ft
0cf0: 73 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 74 65 73  s3_tokenizer_tes
0d00: 74 28 27 70 6f 72 74 65 72 27 2c 20 27 49 20 64  t('porter', 'I d
0d10: 6f 6e 27 27 74 20 73 65 65 20 68 6f 77 27 29 3b  on''t see how');
0d20: 0a 20 20 7d 0a 7d 20 7b 7b 30 20 69 20 49 20 31  .  }.} {{0 i I 1
0d30: 20 64 6f 6e 20 64 6f 6e 20 32 20 74 20 74 20 33   don don 2 t t 3
0d40: 20 73 65 65 20 73 65 65 20 34 20 68 6f 77 20 68   see see 4 how h
0d50: 6f 77 7d 7d 0a 69 66 63 61 70 61 62 6c 65 20 69  ow}}.ifcapable i
0d60: 63 75 20 7b 0a 20 20 64 6f 5f 74 65 73 74 20 66  cu {.  do_test f
0d70: 74 73 33 74 6f 6b 65 6e 2d 33 2e 33 20 7b 0a 20  ts3token-3.3 {. 
0d80: 20 20 20 65 78 65 63 73 71 6c 20 7b 0a 20 20 20     execsql {.   
0d90: 20 20 20 53 45 4c 45 43 54 20 66 74 73 33 5f 74     SELECT fts3_t
0da0: 6f 6b 65 6e 69 7a 65 72 5f 74 65 73 74 28 27 69  okenizer_test('i
0db0: 63 75 27 2c 20 27 49 20 64 6f 6e 27 27 74 20 73  cu', 'I don''t s
0dc0: 65 65 20 68 6f 77 27 29 3b 0a 20 20 20 20 7d 0a  ee how');.    }.
0dd0: 20 20 7d 20 7b 7b 30 20 69 20 49 20 31 20 64 6f    } {{0 i I 1 do
0de0: 6e 27 74 20 64 6f 6e 27 74 20 32 20 73 65 65 20  n't don't 2 see 
0df0: 73 65 65 20 33 20 68 6f 77 20 68 6f 77 7d 7d 0a  see 3 how how}}.
0e00: 7d 0a 0a 23 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  }..#------------
0e10: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e20: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e30: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d  ----------------
0e40: 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 2d 0a 23  --------------.#
0e50: 20 54 65 73 74 20 63 61 73 65 73 20 66 74 73 33   Test cases fts3
0e60: 74 6f 6b 65 6e 2d 34 2e 2a 20 74 65 73 74 20 74  token-4.* test t
0e70: 68 65 20 49 43 55 20 74 6f 6b 65 6e 69 7a 65 72  he ICU tokenizer
0e80: 2e 20 49 6e 20 70 72 61 63 74 69 63 65 2c 20 74  . In practice, t
0e90: 68 69 73 0a 23 20 74 6f 6b 65 6e 69 7a 65 72 20  his.# tokenizer 
0ea0: 6f 6e 6c 79 20 68 61 73 20 74 77 6f 20 6d 6f 64  only has two mod
0eb0: 65 73 20 2d 20 22 74 68 61 69 22 20 61 6e 64 20  es - "thai" and 
0ec0: 22 65 76 65 72 79 62 6f 64 79 20 65 6c 73 65 22  "everybody else"
0ed0: 2e 20 53 6f 6d 65 20 6f 74 68 65 72 0a 23 20 41  . Some other.# A
0ee0: 73 69 61 6e 20 6c 61 6e 67 75 61 67 65 73 20 28  sian languages (
0ef0: 4c 61 6f 2c 20 4b 68 6d 65 72 20 65 74 63 2e 29  Lao, Khmer etc.)
0f00: 20 72 65 71 75 69 72 65 20 74 68 65 20 73 61 6d   require the sam
0f10: 65 20 73 70 65 63 69 61 6c 20 74 72 65 61 74 6d  e special treatm
0f20: 65 6e 74 20 61 73 20 0a 23 20 54 68 61 69 2c 20  ent as .# Thai, 
0f30: 62 75 74 20 49 43 55 20 64 6f 65 73 6e 27 74 20  but ICU doesn't 
0f40: 73 75 70 70 6f 72 74 20 74 68 65 6d 20 79 65 74  support them yet
0f50: 2e 0a 23 0a 69 66 63 61 70 61 62 6c 65 20 69 63  ..#.ifcapable ic
0f60: 75 20 7b 0a 0a 20 20 70 72 6f 63 20 64 6f 5f 69  u {..  proc do_i
0f70: 63 75 5f 74 65 73 74 20 7b 6e 61 6d 65 20 6c 6f  cu_test {name lo
0f80: 63 61 6c 65 20 69 6e 70 75 74 20 6f 75 74 70 75  cale input outpu
0f90: 74 7d 20 7b 0a 20 20 20 20 73 65 74 20 3a 3a 6f  t} {.    set ::o
0fa0: 75 74 20 5b 64 62 20 65 76 61 6c 20 7b 20 53 45  ut [db eval { SE
0fb0: 4c 45 43 54 20 66 74 73 33 5f 74 6f 6b 65 6e 69  LECT fts3_tokeni
0fc0: 7a 65 72 5f 74 65 73 74 28 27 69 63 75 27 2c 20  zer_test('icu', 
0fd0: 24 6c 6f 63 61 6c 65 2c 20 24 69 6e 70 75 74 29  $locale, $input)
0fe0: 20 7d 5d 0a 20 20 20 20 64 6f 5f 74 65 73 74 20   }].    do_test 
0ff0: 24 6e 61 6d 65 20 7b 0a 20 20 20 20 20 20 6c 69  $name {.      li
1000: 6e 64 65 78 20 24 3a 3a 6f 75 74 20 30 0a 20 20  ndex $::out 0.  
1010: 20 20 7d 20 24 6f 75 74 70 75 74 0a 20 20 7d 0a    } $output.  }.
1020: 20 20 0a 20 20 64 6f 5f 69 63 75 5f 74 65 73 74    .  do_icu_test
1030: 20 66 74 73 33 74 6f 6b 65 6e 2d 34 2e 31 20 65   fts3token-4.1 e
1040: 6e 5f 55 53 20 20 7b 7d 20 20 20 7b 7d 0a 20 20  n_US  {}   {}.  
1050: 64 6f 5f 69 63 75 5f 74 65 73 74 20 66 74 73 33  do_icu_test fts3
1060: 74 6f 6b 65 6e 2d 34 2e 32 20 65 6e 5f 55 53 20  token-4.2 en_US 
1070: 7b 54 65 73 74 20 63 61 73 65 73 20 66 74 73 33  {Test cases fts3
1080: 7d 20 5b 6c 69 73 74 20 5c 0a 20 20 20 20 30 20  } [list \.    0 
1090: 74 65 73 74 20 54 65 73 74 20 31 20 63 61 73 65  test Test 1 case
10a0: 73 20 63 61 73 65 73 20 32 20 66 74 73 33 20 66  s cases 2 fts3 f
10b0: 74 73 33 0a 20 20 5d 0a 0a 20 20 23 20 54 68 65  ts3.  ]..  # The
10c0: 20 66 6f 6c 6c 6f 77 69 6e 67 20 74 65 73 74 20   following test 
10d0: 73 68 6f 77 73 20 74 68 61 74 20 49 43 55 20 69  shows that ICU i
10e0: 73 20 73 6d 61 72 74 20 65 6e 6f 75 67 68 20 74  s smart enough t
10f0: 6f 20 72 65 63 6f 67 6e 69 73 65 0a 20 20 23 20  o recognise.  # 
1100: 54 68 61 69 20 63 68 61 72 61 72 61 63 74 65 72  Thai chararacter
1110: 73 2c 20 65 76 65 6e 20 77 68 65 6e 20 74 68 65  s, even when the
1120: 20 6c 6f 63 61 6c 65 20 69 73 20 73 65 74 20 74   locale is set t
1130: 6f 20 45 6e 67 6c 69 73 68 2f 55 6e 69 74 65 64  o English/United
1140: 20 0a 20 20 23 20 53 74 61 74 65 73 2e 0a 20 20   .  # States..  
1150: 23 0a 20 20 73 65 74 20 69 6e 70 75 74 20 22 5c  #.  set input "\
1160: 75 30 65 32 64 5c 75 30 65 33 30 5c 75 30 65 34  u0e2d\u0e30\u0e4
1170: 34 5c 75 30 65 32 33 5c 75 30 65 31 39 5c 75 30  4\u0e23\u0e19\u0
1180: 65 33 30 5c 75 30 65 30 34 5c 75 30 65 32 33 5c  e30\u0e04\u0e23\
1190: 75 30 65 33 31 5c 75 30 65 31 61 22 0a 20 20 73  u0e31\u0e1a".  s
11a0: 65 74 20 6f 75 74 70 75 74 20 20 20 20 22 30 20  et output    "0 
11b0: 5c 75 30 65 32 64 5c 75 30 65 33 30 5c 75 30 65  \u0e2d\u0e30\u0e
11c0: 34 34 5c 75 30 65 32 33 20 5c 75 30 65 32 64 5c  44\u0e23 \u0e2d\
11d0: 75 30 65 33 30 5c 75 30 65 34 34 5c 75 30 65 32  u0e30\u0e44\u0e2
11e0: 33 20 22 0a 20 20 61 70 70 65 6e 64 20 6f 75 74  3 ".  append out
11f0: 70 75 74 20 22 31 20 5c 75 30 65 31 39 5c 75 30  put "1 \u0e19\u0
1200: 65 33 30 20 5c 75 30 65 31 39 5c 75 30 65 33 30  e30 \u0e19\u0e30
1210: 20 22 0a 20 20 61 70 70 65 6e 64 20 6f 75 74 70   ".  append outp
1220: 75 74 20 22 32 20 5c 75 30 65 30 34 5c 75 30 65  ut "2 \u0e04\u0e
1230: 32 33 5c 75 30 65 33 31 5c 75 30 65 31 61 20 5c  23\u0e31\u0e1a \
1240: 75 30 65 30 34 5c 75 30 65 32 33 5c 75 30 65 33  u0e04\u0e23\u0e3
1250: 31 5c 75 30 65 31 61 22 0a 0a 20 20 64 6f 5f 69  1\u0e1a"..  do_i
1260: 63 75 5f 74 65 73 74 20 66 74 73 33 74 6f 6b 65  cu_test fts3toke
1270: 6e 2d 34 2e 33 20 74 68 5f 54 48 20 20 24 69 6e  n-4.3 th_TH  $in
1280: 70 75 74 20 24 6f 75 74 70 75 74 0a 20 20 64 6f  put $output.  do
1290: 5f 69 63 75 5f 74 65 73 74 20 66 74 73 33 74 6f  _icu_test fts3to
12a0: 6b 65 6e 2d 34 2e 34 20 65 6e 5f 55 53 20 20 24  ken-4.4 en_US  $
12b0: 69 6e 70 75 74 20 24 6f 75 74 70 75 74 0a 0a 20  input $output.. 
12c0: 20 23 20 49 43 55 20 68 61 6e 64 6c 65 73 20 61   # ICU handles a
12d0: 6e 20 75 6e 6b 6e 6f 77 6e 20 6c 6f 63 61 6c 65  n unknown locale
12e0: 20 62 79 20 66 61 6c 6c 69 6e 67 20 62 61 63 6b   by falling back
12f0: 20 74 6f 20 74 68 65 20 64 65 66 61 75 6c 74 2e   to the default.
1300: 0a 20 20 23 20 53 6f 20 74 68 69 73 20 69 73 20  .  # So this is 
1310: 6e 6f 74 20 61 6e 20 65 72 72 6f 72 2e 0a 20 20  not an error..  
1320: 64 6f 5f 69 63 75 5f 74 65 73 74 20 66 74 73 33  do_icu_test fts3
1330: 74 6f 6b 65 6e 2d 34 2e 35 20 4d 69 64 64 6c 65  token-4.5 Middle
1340: 4f 66 54 68 65 4f 63 65 61 6e 20 20 24 69 6e 70  OfTheOcean  $inp
1350: 75 74 20 24 6f 75 74 70 75 74 0a 0a 20 20 73 65  ut $output..  se
1360: 74 20 20 20 20 6c 6f 6e 67 74 6f 6b 65 6e 20 22  t    longtoken "
1370: 41 52 65 61 6c 6c 79 52 65 61 6c 6c 79 4c 6f 6e  AReallyReallyLon
1380: 67 54 6f 6b 65 6e 4f 6e 65 54 68 61 74 57 69 6c  gTokenOneThatWil
1390: 6c 53 75 72 65 6c 79 52 65 71 75 69 72 65 22 0a  lSurelyRequire".
13a0: 20 20 61 70 70 65 6e 64 20 6c 6f 6e 67 74 6f 6b    append longtok
13b0: 65 6e 20 22 41 52 65 61 6c 6c 6f 63 49 6e 54 68  en "AReallocInTh
13c0: 65 49 63 75 54 6f 6b 65 6e 69 7a 65 72 43 6f 64  eIcuTokenizerCod
13d0: 65 22 0a 0a 20 20 73 65 74 20 20 20 20 69 6e 70  e"..  set    inp
13e0: 75 74 20 22 73 68 6f 72 74 20 74 6f 6b 65 6e 73  ut "short tokens
13f0: 20 74 68 65 6e 20 22 0a 20 20 61 70 70 65 6e 64   then ".  append
1400: 20 69 6e 70 75 74 20 24 6c 6f 6e 67 74 6f 6b 65   input $longtoke
1410: 6e 0a 20 20 73 65 74 20 20 20 20 6f 75 74 70 75  n.  set    outpu
1420: 74 20 22 30 20 73 68 6f 72 74 20 73 68 6f 72 74  t "0 short short
1430: 20 22 0a 20 20 61 70 70 65 6e 64 20 6f 75 74 70   ".  append outp
1440: 75 74 20 22 31 20 74 6f 6b 65 6e 73 20 74 6f 6b  ut "1 tokens tok
1450: 65 6e 73 20 22 0a 20 20 61 70 70 65 6e 64 20 6f  ens ".  append o
1460: 75 74 70 75 74 20 22 32 20 74 68 65 6e 20 74 68  utput "2 then th
1470: 65 6e 20 22 0a 20 20 61 70 70 65 6e 64 20 6f 75  en ".  append ou
1480: 74 70 75 74 20 22 33 20 5b 73 74 72 69 6e 67 20  tput "3 [string 
1490: 74 6f 6c 6f 77 65 72 20 24 6c 6f 6e 67 74 6f 6b  tolower $longtok
14a0: 65 6e 5d 20 24 6c 6f 6e 67 74 6f 6b 65 6e 22 0a  en] $longtoken".
14b0: 0a 20 20 64 6f 5f 69 63 75 5f 74 65 73 74 20 66  .  do_icu_test f
14c0: 74 73 33 74 6f 6b 65 6e 2d 34 2e 36 20 4d 69 64  ts3token-4.6 Mid
14d0: 64 6c 65 4f 66 54 68 65 4f 63 65 61 6e 20 20 24  dleOfTheOcean  $
14e0: 69 6e 70 75 74 20 24 6f 75 74 70 75 74 0a 20 20  input $output.  
14f0: 64 6f 5f 69 63 75 5f 74 65 73 74 20 66 74 73 33  do_icu_test fts3
1500: 74 6f 6b 65 6e 2d 34 2e 37 20 74 68 5f 54 48 20  token-4.7 th_TH 
1510: 20 24 69 6e 70 75 74 20 24 6f 75 74 70 75 74 0a   $input $output.
1520: 20 20 64 6f 5f 69 63 75 5f 74 65 73 74 20 66 74    do_icu_test ft
1530: 73 33 74 6f 6b 65 6e 2d 34 2e 38 20 65 6e 5f 55  s3token-4.8 en_U
1540: 53 20 20 24 69 6e 70 75 74 20 24 6f 75 74 70 75  S  $input $outpu
1550: 74 0a 0a 20 20 64 6f 5f 65 78 65 63 73 71 6c 5f  t..  do_execsql_
1560: 74 65 73 74 20 35 2e 31 20 7b 0a 20 20 20 20 43  test 5.1 {.    C
1570: 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54 41  REATE VIRTUAL TA
1580: 42 4c 45 20 78 31 20 55 53 49 4e 47 20 66 74 73  BLE x1 USING fts
1590: 33 28 6e 61 6d 65 2c 54 4f 4b 45 4e 49 5a 45 20  3(name,TOKENIZE 
15a0: 69 63 75 20 65 6e 5f 55 53 29 3b 0a 20 20 20 20  icu en_US);.    
15b0: 69 6e 73 65 72 74 20 69 6e 74 6f 20 78 31 20 28  insert into x1 (
15c0: 6e 61 6d 65 29 20 76 61 6c 75 65 73 20 28 4e 55  name) values (NU
15d0: 4c 4c 29 3b 0a 20 20 20 20 69 6e 73 65 72 74 20  LL);.    insert 
15e0: 69 6e 74 6f 20 78 31 20 28 6e 61 6d 65 29 20 76  into x1 (name) v
15f0: 61 6c 75 65 73 20 28 4e 55 4c 4c 29 3b 0a 20 20  alues (NULL);.  
1600: 20 20 64 65 6c 65 74 65 20 66 72 6f 6d 20 78 31    delete from x1
1610: 3b 0a 20 20 7d 0a 0a 20 20 70 72 6f 63 20 63 70  ;.  }..  proc cp
1620: 5f 74 6f 5f 73 74 72 20 7b 63 6f 64 65 70 6f 69  _to_str {codepoi
1630: 6e 74 5f 6c 69 73 74 7d 20 7b 0a 20 20 20 20 73  nt_list} {.    s
1640: 65 74 20 66 6d 74 20 5b 73 74 72 69 6e 67 20 72  et fmt [string r
1650: 65 70 65 61 74 20 25 63 20 5b 6c 6c 65 6e 67 74  epeat %c [llengt
1660: 68 20 24 63 6f 64 65 70 6f 69 6e 74 5f 6c 69 73  h $codepoint_lis
1670: 74 5d 5d 0a 20 20 20 20 65 76 61 6c 20 5b 6c 69  t]].    eval [li
1680: 73 74 20 66 6f 72 6d 61 74 20 24 66 6d 74 5d 20  st format $fmt] 
1690: 24 63 6f 64 65 70 6f 69 6e 74 5f 6c 69 73 74 0a  $codepoint_list.
16a0: 20 20 7d 0a 0a 20 20 64 6f 5f 74 65 73 74 20 35    }..  do_test 5
16b0: 2e 32 20 7b 0a 20 20 20 20 73 65 74 20 73 74 72  .2 {.    set str
16c0: 20 5b 63 70 5f 74 6f 5f 73 74 72 20 7b 31 39 39   [cp_to_str {199
16d0: 36 38 20 32 36 30 38 35 20 33 32 38 32 32 20 33  68 26085 32822 3
16e0: 32 36 34 35 20 32 37 38 37 34 20 32 33 34 33 33  2645 27874 23433
16f0: 20 32 30 39 38 36 7d 5d 0a 20 20 20 20 65 78 65   20986}].    exe
1700: 63 73 71 6c 20 7b 20 49 4e 53 45 52 54 20 49 4e  csql { INSERT IN
1710: 54 4f 20 78 31 20 56 41 4c 55 45 53 28 24 73 74  TO x1 VALUES($st
1720: 72 29 20 7d 0a 20 20 7d 20 7b 7d 0a 7d 0a 0a 0a  r) }.  } {}.}...
1730: 64 6f 5f 74 65 73 74 20 66 74 73 33 74 6f 6b 65  do_test fts3toke
1740: 6e 2d 69 6e 74 65 72 6e 61 6c 20 7b 0a 20 20 65  n-internal {.  e
1750: 78 65 63 73 71 6c 20 7b 20 53 45 4c 45 43 54 20  xecsql { SELECT 
1760: 66 74 73 33 5f 74 6f 6b 65 6e 69 7a 65 72 5f 69  fts3_tokenizer_i
1770: 6e 74 65 72 6e 61 6c 5f 74 65 73 74 28 29 20 7d  nternal_test() }
1780: 0a 7d 20 7b 6f 6b 7d 0a 0a 0a 66 69 6e 69 73 68  .} {ok}...finish
1790: 5f 74 65 73 74 0a 0a 0a                          _test...