/ Hex Artifact Content
Login

Artifact 273f9086ad33935566bbc0d0c94d0d9687ef686b:


0000: 23 20 32 30 31 34 20 44 65 63 20 32 30 0a 23 0a  # 2014 Dec 20.#.
0010: 23 20 54 68 65 20 61 75 74 68 6f 72 20 64 69 73  # The author dis
0020: 63 6c 61 69 6d 73 20 63 6f 70 79 72 69 67 68 74  claims copyright
0030: 20 74 6f 20 74 68 69 73 20 73 6f 75 72 63 65 20   to this source 
0040: 63 6f 64 65 2e 20 20 49 6e 20 70 6c 61 63 65 20  code.  In place 
0050: 6f 66 0a 23 20 61 20 6c 65 67 61 6c 20 6e 6f 74  of.# a legal not
0060: 69 63 65 2c 20 68 65 72 65 20 69 73 20 61 20 62  ice, here is a b
0070: 6c 65 73 73 69 6e 67 3a 0a 23 0a 23 20 20 20 20  lessing:.#.#    
0080: 4d 61 79 20 79 6f 75 20 64 6f 20 67 6f 6f 64 20  May you do good 
0090: 61 6e 64 20 6e 6f 74 20 65 76 69 6c 2e 0a 23 20  and not evil..# 
00a0: 20 20 20 4d 61 79 20 79 6f 75 20 66 69 6e 64 20     May you find 
00b0: 66 6f 72 67 69 76 65 6e 65 73 73 20 66 6f 72 20  forgiveness for 
00c0: 79 6f 75 72 73 65 6c 66 20 61 6e 64 20 66 6f 72  yourself and for
00d0: 67 69 76 65 20 6f 74 68 65 72 73 2e 0a 23 20 20  give others..#  
00e0: 20 20 4d 61 79 20 79 6f 75 20 73 68 61 72 65 20    May you share 
00f0: 66 72 65 65 6c 79 2c 20 6e 65 76 65 72 20 74 61  freely, never ta
0100: 6b 69 6e 67 20 6d 6f 72 65 20 74 68 61 6e 20 79  king more than y
0110: 6f 75 20 67 69 76 65 2e 0a 23 0a 23 2a 2a 2a 2a  ou give..#.#****
0120: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 0a 23 0a 23 20 54 65 73 74 73 20 66 6f  ***.#.# Tests fo
0170: 63 75 73 69 6e 67 20 6f 6e 20 74 68 65 20 66 74  cusing on the ft
0180: 73 35 20 74 6f 6b 65 6e 69 7a 65 72 73 0a 23 0a  s5 tokenizers.#.
0190: 0a 70 72 6f 63 20 66 74 73 33 5f 75 6e 69 63 6f  .proc fts3_unico
01a0: 64 65 5f 70 61 74 68 20 7b 66 69 6c 65 7d 20 7b  de_path {file} {
01b0: 0a 20 20 66 69 6c 65 20 6a 6f 69 6e 20 5b 66 69  .  file join [fi
01c0: 6c 65 20 64 69 72 6e 61 6d 65 20 5b 69 6e 66 6f  le dirname [info
01d0: 20 73 63 72 69 70 74 5d 5d 20 2e 2e 20 2e 2e 20   script]] .. .. 
01e0: 66 74 73 33 20 75 6e 69 63 6f 64 65 20 24 66 69  fts3 unicode $fi
01f0: 6c 65 0a 7d 0a 0a 73 6f 75 72 63 65 20 5b 66 69  le.}..source [fi
0200: 6c 65 20 6a 6f 69 6e 20 5b 66 69 6c 65 20 64 69  le join [file di
0210: 72 6e 61 6d 65 20 5b 69 6e 66 6f 20 73 63 72 69  rname [info scri
0220: 70 74 5d 5d 20 66 74 73 35 5f 63 6f 6d 6d 6f 6e  pt]] fts5_common
0230: 2e 74 63 6c 5d 0a 73 6f 75 72 63 65 20 5b 66 74  .tcl].source [ft
0240: 73 33 5f 75 6e 69 63 6f 64 65 5f 70 61 74 68 20  s3_unicode_path 
0250: 70 61 72 73 65 75 6e 69 63 6f 64 65 2e 74 63 6c  parseunicode.tcl
0260: 5d 0a 73 65 74 20 74 65 73 74 70 72 65 66 69 78  ].set testprefix
0270: 20 66 74 73 35 75 6e 69 63 6f 64 65 33 0a 0a 73   fts5unicode3..s
0280: 65 74 20 43 46 20 5b 66 74 73 33 5f 75 6e 69 63  et CF [fts3_unic
0290: 6f 64 65 5f 70 61 74 68 20 43 61 73 65 46 6f 6c  ode_path CaseFol
02a0: 64 69 6e 67 2e 74 78 74 5d 0a 73 65 74 20 55 44  ding.txt].set UD
02b0: 20 5b 66 74 73 33 5f 75 6e 69 63 6f 64 65 5f 70   [fts3_unicode_p
02c0: 61 74 68 20 55 6e 69 63 6f 64 65 44 61 74 61 2e  ath UnicodeData.
02d0: 74 78 74 5d 0a 0a 74 6c 5f 6c 6f 61 64 5f 63 61  txt]..tl_load_ca
02e0: 73 65 66 6f 6c 64 69 6e 67 5f 74 78 74 20 24 43  sefolding_txt $C
02f0: 46 0a 66 6f 72 65 61 63 68 20 78 20 5b 61 6e 5f  F.foreach x [an_
0300: 6c 6f 61 64 5f 75 6e 69 63 6f 64 65 64 61 74 61  load_unicodedata
0310: 5f 74 65 78 74 20 24 55 44 5d 20 7b 0a 20 20 73  _text $UD] {.  s
0320: 65 74 20 61 4e 6f 74 41 6c 6e 75 6d 28 24 78 29  et aNotAlnum($x)
0330: 20 31 0a 7d 0a 0a 66 6f 72 65 61 63 68 20 7b 79   1.}..foreach {y
0340: 7d 20 5b 72 64 5f 6c 6f 61 64 5f 75 6e 69 63 6f  } [rd_load_unico
0350: 64 65 64 61 74 61 5f 74 65 78 74 20 24 55 44 5d  dedata_text $UD]
0360: 20 7b 0a 20 20 66 6f 72 65 61 63 68 20 7b 63 6f   {.  foreach {co
0370: 64 65 20 61 73 63 69 69 7d 20 24 79 20 7b 7d 0a  de ascii} $y {}.
0380: 20 20 69 66 20 7b 24 61 73 63 69 69 3d 3d 22 22    if {$ascii==""
0390: 7d 20 7b 0a 20 20 20 20 73 65 74 20 69 6e 74 20  } {.    set int 
03a0: 30 0a 20 20 7d 20 65 6c 73 65 20 7b 0a 20 20 20  0.  } else {.   
03b0: 20 62 69 6e 61 72 79 20 73 63 61 6e 20 24 61 73   binary scan $as
03c0: 63 69 69 20 63 20 69 6e 74 0a 20 20 7d 0a 20 20  cii c int.  }.  
03d0: 73 65 74 20 61 44 69 61 63 72 69 74 69 63 28 24  set aDiacritic($
03e0: 63 6f 64 65 29 20 24 69 6e 74 0a 7d 0a 0a 70 72  code) $int.}..pr
03f0: 6f 63 20 74 63 6c 5f 66 6f 6c 64 20 7b 69 20 7b  oc tcl_fold {i {
0400: 62 52 65 6d 6f 76 65 44 69 61 63 72 69 74 69 63  bRemoveDiacritic
0410: 20 30 7d 7d 20 7b 0a 20 20 67 6c 6f 62 61 6c 20   0}} {.  global 
0420: 74 6c 5f 6c 6f 6f 6b 75 70 5f 74 61 62 6c 65 0a  tl_lookup_table.
0430: 20 20 67 6c 6f 62 61 6c 20 61 44 69 61 63 72 69    global aDiacri
0440: 74 69 63 0a 0a 20 20 69 66 20 7b 5b 69 6e 66 6f  tic..  if {[info
0450: 20 65 78 69 73 74 73 20 74 6c 5f 6c 6f 6f 6b 75   exists tl_looku
0460: 70 5f 74 61 62 6c 65 28 24 69 29 5d 7d 20 7b 0a  p_table($i)]} {.
0470: 20 20 20 20 73 65 74 20 69 20 24 74 6c 5f 6c 6f      set i $tl_lo
0480: 6f 6b 75 70 5f 74 61 62 6c 65 28 24 69 29 0a 20  okup_table($i). 
0490: 20 7d 0a 20 20 69 66 20 7b 24 62 52 65 6d 6f 76   }.  if {$bRemov
04a0: 65 44 69 61 63 72 69 74 69 63 20 26 26 20 5b 69  eDiacritic && [i
04b0: 6e 66 6f 20 65 78 69 73 74 73 20 61 44 69 61 63  nfo exists aDiac
04c0: 72 69 74 69 63 28 24 69 29 5d 7d 20 7b 0a 20 20  ritic($i)]} {.  
04d0: 20 20 73 65 74 20 69 20 24 61 44 69 61 63 72 69    set i $aDiacri
04e0: 74 69 63 28 24 69 29 0a 20 20 7d 0a 20 20 65 78  tic($i).  }.  ex
04f0: 70 72 20 24 69 0a 7d 0a 64 62 20 66 75 6e 63 20  pr $i.}.db func 
0500: 74 63 6c 5f 66 6f 6c 64 20 74 63 6c 5f 66 6f 6c  tcl_fold tcl_fol
0510: 64 0a 0a 70 72 6f 63 20 74 63 6c 5f 69 73 61 6c  d..proc tcl_isal
0520: 6e 75 6d 20 7b 69 7d 20 7b 0a 20 20 67 6c 6f 62  num {i} {.  glob
0530: 61 6c 20 61 4e 6f 74 41 6c 6e 75 6d 0a 20 20 65  al aNotAlnum.  e
0540: 78 70 72 20 7b 21 5b 69 6e 66 6f 20 65 78 69 73  xpr {![info exis
0550: 74 73 20 61 4e 6f 74 41 6c 6e 75 6d 28 24 69 29  ts aNotAlnum($i)
0560: 5d 7d 0a 7d 0a 64 62 20 66 75 6e 63 20 74 63 6c  ]}.}.db func tcl
0570: 5f 69 73 61 6c 6e 75 6d 20 74 63 6c 5f 69 73 61  _isalnum tcl_isa
0580: 6c 6e 75 6d 0a 0a 0a 64 6f 5f 63 61 74 63 68 73  lnum...do_catchs
0590: 71 6c 5f 74 65 73 74 20 31 2e 30 2e 31 20 7b 0a  ql_test 1.0.1 {.
05a0: 20 20 53 45 4c 45 43 54 20 66 74 73 35 5f 69 73    SELECT fts5_is
05b0: 61 6c 6e 75 6d 28 31 2c 20 32 2c 20 33 29 3b 0a  alnum(1, 2, 3);.
05c0: 7d 20 7b 31 20 7b 77 72 6f 6e 67 20 6e 75 6d 62  } {1 {wrong numb
05d0: 65 72 20 6f 66 20 61 72 67 75 6d 65 6e 74 73 20  er of arguments 
05e0: 74 6f 20 66 75 6e 63 74 69 6f 6e 20 66 74 73 35  to function fts5
05f0: 5f 69 73 61 6c 6e 75 6d 7d 7d 0a 64 6f 5f 63 61  _isalnum}}.do_ca
0600: 74 63 68 73 71 6c 5f 74 65 73 74 20 31 2e 30 2e  tchsql_test 1.0.
0610: 32 20 7b 0a 20 20 53 45 4c 45 43 54 20 66 74 73  2 {.  SELECT fts
0620: 35 5f 66 6f 6c 64 28 29 3b 0a 7d 20 7b 31 20 7b  5_fold();.} {1 {
0630: 77 72 6f 6e 67 20 6e 75 6d 62 65 72 20 6f 66 20  wrong number of 
0640: 61 72 67 75 6d 65 6e 74 73 20 74 6f 20 66 75 6e  arguments to fun
0650: 63 74 69 6f 6e 20 66 74 73 35 5f 66 6f 6c 64 7d  ction fts5_fold}
0660: 7d 0a 64 6f 5f 63 61 74 63 68 73 71 6c 5f 74 65  }.do_catchsql_te
0670: 73 74 20 31 2e 30 2e 33 20 7b 0a 20 20 53 45 4c  st 1.0.3 {.  SEL
0680: 45 43 54 20 66 74 73 35 5f 66 6f 6c 64 28 31 2c  ECT fts5_fold(1,
0690: 32 2c 33 29 3b 0a 7d 20 7b 31 20 7b 77 72 6f 6e  2,3);.} {1 {wron
06a0: 67 20 6e 75 6d 62 65 72 20 6f 66 20 61 72 67 75  g number of argu
06b0: 6d 65 6e 74 73 20 74 6f 20 66 75 6e 63 74 69 6f  ments to functio
06c0: 6e 20 66 74 73 35 5f 66 6f 6c 64 7d 7d 0a 0a 64  n fts5_fold}}..d
06d0: 6f 5f 65 78 65 63 73 71 6c 5f 74 65 73 74 20 31  o_execsql_test 1
06e0: 2e 31 20 7b 0a 20 20 57 49 54 48 20 69 69 28 69  .1 {.  WITH ii(i
06f0: 29 20 41 53 20 28 0a 20 20 20 20 53 45 4c 45 43  ) AS (.    SELEC
0700: 54 20 2d 31 0a 20 20 20 20 55 4e 49 4f 4e 20 41  T -1.    UNION A
0710: 4c 4c 0a 20 20 20 20 53 45 4c 45 43 54 20 69 2b  LL.    SELECT i+
0720: 31 20 46 52 4f 4d 20 69 69 20 57 48 45 52 45 20  1 FROM ii WHERE 
0730: 69 3c 31 30 30 30 30 30 0a 20 20 29 0a 20 20 53  i<100000.  ).  S
0740: 45 4c 45 43 54 20 63 6f 75 6e 74 28 2a 29 2c 20  ELECT count(*), 
0750: 6d 69 6e 28 69 29 20 46 52 4f 4d 20 69 69 20 57  min(i) FROM ii W
0760: 48 45 52 45 20 66 74 73 35 5f 66 6f 6c 64 28 69  HERE fts5_fold(i
0770: 29 21 3d 43 41 53 54 28 74 63 6c 5f 66 6f 6c 64  )!=CAST(tcl_fold
0780: 28 69 29 20 41 53 20 69 6e 74 29 3b 0a 7d 20 7b  (i) AS int);.} {
0790: 30 20 7b 7d 7d 0a 0a 64 6f 5f 65 78 65 63 73 71  0 {}}..do_execsq
07a0: 6c 5f 74 65 73 74 20 31 2e 32 20 7b 0a 20 20 57  l_test 1.2 {.  W
07b0: 49 54 48 20 69 69 28 69 29 20 41 53 20 28 0a 20  ITH ii(i) AS (. 
07c0: 20 20 20 53 45 4c 45 43 54 20 2d 31 0a 20 20 20     SELECT -1.   
07d0: 20 55 4e 49 4f 4e 20 41 4c 4c 0a 20 20 20 20 53   UNION ALL.    S
07e0: 45 4c 45 43 54 20 69 2b 31 20 46 52 4f 4d 20 69  ELECT i+1 FROM i
07f0: 69 20 57 48 45 52 45 20 69 3c 31 30 30 30 30 30  i WHERE i<100000
0800: 0a 20 20 29 0a 20 20 53 45 4c 45 43 54 20 63 6f  .  ).  SELECT co
0810: 75 6e 74 28 2a 29 2c 20 6d 69 6e 28 69 29 20 46  unt(*), min(i) F
0820: 52 4f 4d 20 69 69 20 0a 20 20 57 48 45 52 45 20  ROM ii .  WHERE 
0830: 66 74 73 35 5f 66 6f 6c 64 28 69 2c 31 29 21 3d  fts5_fold(i,1)!=
0840: 43 41 53 54 28 74 63 6c 5f 66 6f 6c 64 28 69 2c  CAST(tcl_fold(i,
0850: 31 29 20 41 53 20 69 6e 74 29 3b 0a 7d 20 7b 30  1) AS int);.} {0
0860: 20 7b 7d 7d 0a 0a 64 6f 5f 65 78 65 63 73 71 6c   {}}..do_execsql
0870: 5f 74 65 73 74 20 31 2e 33 20 7b 0a 20 20 57 49  _test 1.3 {.  WI
0880: 54 48 20 69 69 28 69 29 20 41 53 20 28 0a 20 20  TH ii(i) AS (.  
0890: 20 20 53 45 4c 45 43 54 20 2d 31 0a 20 20 20 20    SELECT -1.    
08a0: 55 4e 49 4f 4e 20 41 4c 4c 0a 20 20 20 20 53 45  UNION ALL.    SE
08b0: 4c 45 43 54 20 69 2b 31 20 46 52 4f 4d 20 69 69  LECT i+1 FROM ii
08c0: 20 57 48 45 52 45 20 69 3c 31 30 30 30 30 30 0a   WHERE i<100000.
08d0: 20 20 29 0a 20 20 53 45 4c 45 43 54 20 63 6f 75    ).  SELECT cou
08e0: 6e 74 28 2a 29 2c 20 6d 69 6e 28 69 29 20 46 52  nt(*), min(i) FR
08f0: 4f 4d 20 69 69 20 0a 20 20 57 48 45 52 45 20 66  OM ii .  WHERE f
0900: 74 73 35 5f 69 73 61 6c 6e 75 6d 28 69 29 21 3d  ts5_isalnum(i)!=
0910: 43 41 53 54 28 74 63 6c 5f 69 73 61 6c 6e 75 6d  CAST(tcl_isalnum
0920: 28 69 29 20 41 53 20 69 6e 74 29 3b 0a 7d 20 7b  (i) AS int);.} {
0930: 30 20 7b 7d 7d 0a 0a 64 6f 5f 74 65 73 74 20 31  0 {}}..do_test 1
0940: 2e 34 20 7b 0a 20 20 73 65 74 20 73 74 72 20 7b  .4 {.  set str {
0950: 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20 54  CREATE VIRTUAL T
0960: 41 42 4c 45 20 66 33 20 55 53 49 4e 47 20 66 74  ABLE f3 USING ft
0970: 73 35 28 61 2c 20 74 6f 6b 65 6e 69 7a 65 3d 7d  s5(a, tokenize=}
0980: 0a 20 20 61 70 70 65 6e 64 20 73 74 72 20 7b 22  .  append str {"
0990: 75 6e 69 63 6f 64 65 36 31 20 73 65 70 61 72 61  unicode61 separa
09a0: 74 6f 72 73 20 27 7d 0a 20 20 66 6f 72 20 7b 73  tors '}.  for {s
09b0: 65 74 20 69 20 37 30 30 7d 20 7b 24 69 3c 39 30  et i 700} {$i<90
09c0: 30 7d 20 7b 69 6e 63 72 20 69 7d 20 7b 0a 20 20  0} {incr i} {.  
09d0: 20 20 61 70 70 65 6e 64 20 73 74 72 20 5b 66 6f    append str [fo
09e0: 72 6d 61 74 20 25 63 20 24 69 5d 0a 20 20 7d 0a  rmat %c $i].  }.
09f0: 20 20 61 70 70 65 6e 64 20 73 74 72 20 7b 27 22    append str {'"
0a00: 29 3b 7d 0a 20 20 65 78 65 63 73 71 6c 20 24 73  );}.  execsql $s
0a10: 74 72 0a 7d 20 7b 7d 0a 64 6f 5f 74 65 73 74 20  tr.} {}.do_test 
0a20: 31 2e 35 20 7b 0a 20 20 73 65 74 20 73 74 72 20  1.5 {.  set str 
0a30: 7b 43 52 45 41 54 45 20 56 49 52 54 55 41 4c 20  {CREATE VIRTUAL 
0a40: 54 41 42 4c 45 20 66 35 20 55 53 49 4e 47 20 66  TABLE f5 USING f
0a50: 74 73 35 28 61 2c 20 74 6f 6b 65 6e 69 7a 65 3d  ts5(a, tokenize=
0a60: 7d 0a 20 20 61 70 70 65 6e 64 20 73 74 72 20 7b  }.  append str {
0a70: 22 75 6e 69 63 6f 64 65 36 31 20 74 6f 6b 65 6e  "unicode61 token
0a80: 63 68 61 72 73 20 27 7d 0a 20 20 66 6f 72 20 7b  chars '}.  for {
0a90: 73 65 74 20 69 20 37 30 30 7d 20 7b 24 69 3c 39  set i 700} {$i<9
0aa0: 30 30 7d 20 7b 69 6e 63 72 20 69 7d 20 7b 0a 20  00} {incr i} {. 
0ab0: 20 20 20 61 70 70 65 6e 64 20 73 74 72 20 5b 66     append str [f
0ac0: 6f 72 6d 61 74 20 25 63 20 24 69 5d 0a 20 20 7d  ormat %c $i].  }
0ad0: 0a 20 20 61 70 70 65 6e 64 20 73 74 72 20 7b 27  .  append str {'
0ae0: 22 29 3b 7d 0a 20 20 65 78 65 63 73 71 6c 20 24  ");}.  execsql $
0af0: 73 74 72 0a 7d 20 7b 7d 0a 0a 0a 66 69 6e 69 73  str.} {}...finis
0b00: 68 5f 74 65 73 74 0a 0a                          h_test..