/ Hex Artifact Content
Login
SQLite training in Houston TX on 2019-11-05 (details)
Part of the 2019 Tcl Conference

Artifact c8be20ecdcb10659e23c43e35d835460e964d248:


0000: 2f 2a 0a 2a 2a 20 32 30 30 34 20 41 70 72 69 6c  /*.** 2004 April
0010: 20 31 33 0a 2a 2a 0a 2a 2a 20 54 68 65 20 61 75   13.**.** The au
0020: 74 68 6f 72 20 64 69 73 63 6c 61 69 6d 73 20 63  thor disclaims c
0030: 6f 70 79 72 69 67 68 74 20 74 6f 20 74 68 69 73  opyright to this
0040: 20 73 6f 75 72 63 65 20 63 6f 64 65 2e 20 20 49   source code.  I
0050: 6e 20 70 6c 61 63 65 20 6f 66 0a 2a 2a 20 61 20  n place of.** a 
0060: 6c 65 67 61 6c 20 6e 6f 74 69 63 65 2c 20 68 65  legal notice, he
0070: 72 65 20 69 73 20 61 20 62 6c 65 73 73 69 6e 67  re is a blessing
0080: 3a 0a 2a 2a 0a 2a 2a 20 20 20 20 4d 61 79 20 79  :.**.**    May y
0090: 6f 75 20 64 6f 20 67 6f 6f 64 20 61 6e 64 20 6e  ou do good and n
00a0: 6f 74 20 65 76 69 6c 2e 0a 2a 2a 20 20 20 20 4d  ot evil..**    M
00b0: 61 79 20 79 6f 75 20 66 69 6e 64 20 66 6f 72 67  ay you find forg
00c0: 69 76 65 6e 65 73 73 20 66 6f 72 20 79 6f 75 72  iveness for your
00d0: 73 65 6c 66 20 61 6e 64 20 66 6f 72 67 69 76 65  self and forgive
00e0: 20 6f 74 68 65 72 73 2e 0a 2a 2a 20 20 20 20 4d   others..**    M
00f0: 61 79 20 79 6f 75 20 73 68 61 72 65 20 66 72 65  ay you share fre
0100: 65 6c 79 2c 20 6e 65 76 65 72 20 74 61 6b 69 6e  ely, never takin
0110: 67 20 6d 6f 72 65 20 74 68 61 6e 20 79 6f 75 20  g more than you 
0120: 67 69 76 65 2e 0a 2a 2a 0a 2a 2a 2a 2a 2a 2a 2a  give..**.*******
0130: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0140: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0150: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0160: 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a 2a  ****************
0170: 2a 2a 0a 2a 2a 20 54 68 69 73 20 66 69 6c 65 20  **.** This file 
0180: 63 6f 6e 74 61 69 6e 73 20 72 6f 75 74 69 6e 65  contains routine
0190: 73 20 75 73 65 64 20 74 6f 20 74 72 61 6e 73 6c  s used to transl
01a0: 61 74 65 20 62 65 74 77 65 65 6e 20 55 54 46 2d  ate between UTF-
01b0: 38 2c 20 0a 2a 2a 20 55 54 46 2d 31 36 2c 20 55  8, .** UTF-16, U
01c0: 54 46 2d 31 36 42 45 2c 20 61 6e 64 20 55 54 46  TF-16BE, and UTF
01d0: 2d 31 36 4c 45 2e 0a 2a 2a 0a 2a 2a 20 24 49 64  -16LE..**.** $Id
01e0: 3a 20 75 74 66 2e 63 2c 76 20 31 2e 31 36 20 32  : utf.c,v 1.16 2
01f0: 30 30 34 2f 30 36 2f 30 32 20 30 30 3a 32 39 3a  004/06/02 00:29:
0200: 32 34 20 64 61 6e 69 65 6c 6b 31 39 37 37 20 45  24 danielk1977 E
0210: 78 70 20 24 0a 2a 2a 0a 2a 2a 20 4e 6f 74 65 73  xp $.**.** Notes
0220: 20 6f 6e 20 55 54 46 2d 38 3a 0a 2a 2a 0a 2a 2a   on UTF-8:.**.**
0230: 20 20 20 42 79 74 65 2d 30 20 20 20 20 42 79 74     Byte-0    Byt
0240: 65 2d 31 20 20 20 20 42 79 74 65 2d 32 20 20 20  e-1    Byte-2   
0250: 20 42 79 74 65 2d 33 20 20 20 20 56 61 6c 75 65   Byte-3    Value
0260: 0a 2a 2a 20 20 30 78 78 78 78 78 78 78 20 20 20  .**  0xxxxxxx   
0270: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
0280: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 30 30                00
0290: 30 30 30 30 30 30 20 30 30 30 30 30 30 30 30 20  000000 00000000 
02a0: 30 78 78 78 78 78 78 78 0a 2a 2a 20 20 31 31 30  0xxxxxxx.**  110
02b0: 79 79 79 79 79 20 20 31 30 78 78 78 78 78 78 20  yyyyy  10xxxxxx 
02c0: 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20                  
02d0: 20 20 20 20 20 20 30 30 30 30 30 30 30 30 20 30        00000000 0
02e0: 30 30 30 30 79 79 79 20 79 79 78 78 78 78 78 78  0000yyy yyxxxxxx
02f0: 0a 2a 2a 20 20 31 31 31 30 7a 7a 7a 7a 20 20 31  .**  1110zzzz  1
0300: 30 79 79 79 79 79 79 20 20 31 30 78 78 78 78 78  0yyyyyy  10xxxxx
0310: 78 20 20 20 20 20 20 20 20 20 20 20 20 20 30 30  x             00
0320: 30 30 30 30 30 30 20 7a 7a 7a 7a 79 79 79 79 20  000000 zzzzyyyy 
0330: 79 79 78 78 78 78 78 78 0a 2a 2a 20 20 31 31 31  yyxxxxxx.**  111
0340: 31 30 75 75 75 20 20 31 30 75 75 7a 7a 7a 7a 20  10uuu  10uuzzzz 
0350: 20 31 30 79 79 79 79 79 79 20 20 31 30 78 78 78   10yyyyyy  10xxx
0360: 78 78 78 20 20 20 30 30 30 75 75 75 75 75 20 7a  xxx   000uuuuu z
0370: 7a 7a 7a 79 79 79 79 20 79 79 78 78 78 78 78 78  zzzyyyy yyxxxxxx
0380: 0a 2a 2a 0a 2a 2a 0a 2a 2a 20 4e 6f 74 65 73 20  .**.**.** Notes 
0390: 6f 6e 20 55 54 46 2d 31 36 3a 20 20 28 77 69 74  on UTF-16:  (wit
03a0: 68 20 77 77 77 77 2b 31 3d 3d 75 75 75 75 75 29  h wwww+1==uuuuu)
03b0: 0a 2a 2a 0a 2a 2a 20 20 20 20 20 20 57 6f 72 64  .**.**      Word
03c0: 2d 30 20 20 20 20 20 20 20 20 20 20 20 20 20 20  -0              
03d0: 20 57 6f 72 64 2d 31 20 20 20 20 20 20 20 20 20   Word-1         
03e0: 20 56 61 6c 75 65 0a 2a 2a 20 20 31 31 30 31 31   Value.**  11011
03f0: 30 77 77 20 77 77 7a 7a 7a 7a 79 79 20 20 20 31  0ww wwzzzzyy   1
0400: 31 30 31 31 31 79 79 20 79 79 78 78 78 78 78 78  10111yy yyxxxxxx
0410: 20 20 20 20 30 30 30 75 75 75 75 75 20 7a 7a 7a      000uuuuu zzz
0420: 7a 79 79 79 79 20 79 79 78 78 78 78 78 78 0a 2a  zyyyy yyxxxxxx.*
0430: 2a 20 20 7a 7a 7a 7a 79 79 79 79 20 79 79 78 78  *  zzzzyyyy yyxx
0440: 78 78 78 78 20 20 20 20 20 20 20 20 20 20 20 20  xxxx            
0450: 20 20 20 20 20 20 20 20 20 20 20 20 30 30 30 30              0000
0460: 30 30 30 30 20 7a 7a 7a 7a 79 79 79 79 20 79 79  0000 zzzzyyyy yy
0470: 78 78 78 78 78 78 0a 2a 2a 0a 2a 2a 0a 2a 2a 20  xxxxxx.**.**.** 
0480: 42 4f 4d 20 6f 72 20 42 79 74 65 20 4f 72 64 65  BOM or Byte Orde
0490: 72 20 4d 61 72 6b 3a 0a 2a 2a 20 20 20 20 20 30  r Mark:.**     0
04a0: 78 66 66 20 30 78 66 65 20 20 20 6c 69 74 74 6c  xff 0xfe   littl
04b0: 65 2d 65 6e 64 69 61 6e 20 75 74 66 2d 31 36 20  e-endian utf-16 
04c0: 66 6f 6c 6c 6f 77 73 0a 2a 2a 20 20 20 20 20 30  follows.**     0
04d0: 78 66 65 20 30 78 66 66 20 20 20 62 69 67 2d 65  xfe 0xff   big-e
04e0: 6e 64 69 61 6e 20 75 74 66 2d 31 36 20 66 6f 6c  ndian utf-16 fol
04f0: 6c 6f 77 73 0a 2a 2a 0a 2a 2a 0a 2a 2a 20 48 61  lows.**.**.** Ha
0500: 6e 64 6c 69 6e 67 20 6f 66 20 6d 61 6c 66 6f 72  ndling of malfor
0510: 6d 65 64 20 73 74 72 69 6e 67 73 3a 0a 2a 2a 0a  med strings:.**.
0520: 2a 2a 20 53 51 4c 69 74 65 20 61 63 63 65 70 74  ** SQLite accept
0530: 73 20 61 6e 64 20 70 72 6f 63 65 73 73 65 73 20  s and processes 
0540: 6d 61 6c 66 6f 72 6d 65 64 20 73 74 72 69 6e 67  malformed string
0550: 73 20 77 69 74 68 6f 75 74 20 61 6e 20 65 72 72  s without an err
0560: 6f 72 20 77 68 65 72 65 76 65 72 0a 2a 2a 20 70  or wherever.** p
0570: 6f 73 73 69 62 6c 65 2e 20 48 6f 77 65 76 65 72  ossible. However
0580: 20 74 68 69 73 20 69 73 20 6e 6f 74 20 70 6f 73   this is not pos
0590: 73 69 62 6c 65 20 77 68 65 6e 20 63 6f 6e 76 65  sible when conve
05a0: 72 74 69 6e 67 20 62 65 74 77 65 65 6e 20 55 54  rting between UT
05b0: 46 2d 38 20 61 6e 64 0a 2a 2a 20 55 54 46 2d 31  F-8 and.** UTF-1
05c0: 36 2e 0a 2a 2a 0a 2a 2a 20 57 68 65 6e 20 63 6f  6..**.** When co
05d0: 6e 76 65 72 74 69 6e 67 20 6d 61 6c 66 6f 72 6d  nverting malform
05e0: 65 64 20 55 54 46 2d 38 20 73 74 72 69 6e 67 73  ed UTF-8 strings
05f0: 20 74 6f 20 55 54 46 2d 31 36 2c 20 6f 6e 65 20   to UTF-16, one 
0600: 69 6e 73 74 61 6e 63 65 20 6f 66 20 74 68 65 0a  instance of the.
0610: 2a 2a 20 72 65 70 6c 61 63 65 6d 65 6e 74 20 63  ** replacement c
0620: 68 61 72 61 63 74 65 72 20 55 2b 46 46 46 44 20  haracter U+FFFD 
0630: 66 6f 72 20 65 61 63 68 20 62 79 74 65 20 74 68  for each byte th
0640: 61 74 20 63 61 6e 6e 6f 74 20 62 65 20 69 6e 74  at cannot be int
0650: 65 72 70 65 74 65 64 20 61 73 0a 2a 2a 20 70 61  erpeted as.** pa
0660: 72 74 20 6f 66 20 61 20 76 61 6c 69 64 20 75 6e  rt of a valid un
0670: 69 63 6f 64 65 20 63 68 61 72 61 63 74 65 72 2e  icode character.
0680: 0a 2a 2a 0a 2a 2a 20 57 68 65 6e 20 63 6f 6e 76  .**.** When conv
0690: 65 72 74 69 6e 67 20 6d 61 6c 66 6f 72 6d 65 64  erting malformed
06a0: 20 55 54 46 2d 31 36 20 73 74 72 69 6e 67 73 20   UTF-16 strings 
06b0: 74 6f 20 55 54 46 2d 38 2c 20 6f 6e 65 20 69 6e  to UTF-8, one in
06c0: 73 74 61 6e 63 65 20 6f 66 20 74 68 65 0a 2a 2a  stance of the.**
06d0: 20 72 65 70 6c 61 63 65 6d 65 6e 74 20 63 68 61   replacement cha
06e0: 72 61 63 74 65 72 20 55 2b 46 46 46 44 20 66 6f  racter U+FFFD fo
06f0: 72 20 65 61 63 68 20 70 61 69 72 20 6f 66 20 62  r each pair of b
0700: 79 74 65 73 20 74 68 61 74 20 63 61 6e 6e 6f 74  ytes that cannot
0710: 20 62 65 0a 2a 2a 20 69 6e 74 65 72 70 65 74 65   be.** interpete
0720: 64 20 61 73 20 70 61 72 74 20 6f 66 20 61 20 76  d as part of a v
0730: 61 6c 69 64 20 75 6e 69 63 6f 64 65 20 63 68 61  alid unicode cha
0740: 72 61 63 74 65 72 2e 0a 2a 2f 0a 23 69 6e 63 6c  racter..*/.#incl
0750: 75 64 65 20 3c 61 73 73 65 72 74 2e 68 3e 0a 23  ude <assert.h>.#
0760: 69 6e 63 6c 75 64 65 20 22 73 71 6c 69 74 65 49  include "sqliteI
0770: 6e 74 2e 68 22 0a 0a 74 79 70 65 64 65 66 20 73  nt.h"..typedef s
0780: 74 72 75 63 74 20 55 74 66 53 74 72 69 6e 67 20  truct UtfString 
0790: 55 74 66 53 74 72 69 6e 67 3b 0a 73 74 72 75 63  UtfString;.struc
07a0: 74 20 55 74 66 53 74 72 69 6e 67 20 7b 0a 20 20  t UtfString {.  
07b0: 75 6e 73 69 67 6e 65 64 20 63 68 61 72 20 2a 70  unsigned char *p
07c0: 5a 3b 20 20 20 20 2f 2a 20 52 61 77 20 73 74 72  Z;    /* Raw str
07d0: 69 6e 67 20 64 61 74 61 20 2a 2f 0a 20 20 69 6e  ing data */.  in
07e0: 74 20 6e 3b 20 20 20 20 20 20 20 20 20 20 20 20  t n;            
07f0: 20 20 20 20 2f 2a 20 41 6c 6c 6f 63 61 74 65 64      /* Allocated
0800: 20 6c 65 6e 67 74 68 20 6f 66 20 70 5a 20 69 6e   length of pZ in
0810: 20 62 79 74 65 73 20 2a 2f 0a 20 20 69 6e 74 20   bytes */.  int 
0820: 63 3b 20 20 20 20 20 20 20 20 20 20 20 20 20 20  c;              
0830: 20 20 2f 2a 20 4e 75 6d 62 65 72 20 6f 66 20 70    /* Number of p
0840: 5a 20 62 79 74 65 73 20 61 6c 72 65 61 64 79 20  Z bytes already 
0850: 72 65 61 64 20 6f 72 20 77 72 69 74 74 65 6e 20  read or written 
0860: 2a 2f 0a 7d 3b 0a 0a 2f 2a 0a 2a 2a 20 54 68 65  */.};../*.** The
0870: 73 65 20 74 77 6f 20 6d 61 63 72 6f 73 20 61 72  se two macros ar
0880: 65 20 75 73 65 64 20 74 6f 20 69 6e 74 65 72 70  e used to interp
0890: 72 65 74 20 74 68 65 20 66 69 72 73 74 20 74 77  ret the first tw
08a0: 6f 20 62 79 74 65 73 20 6f 66 20 74 68 65 20 0a  o bytes of the .
08b0: 2a 2a 20 75 6e 73 69 67 6e 65 64 20 63 68 61 72  ** unsigned char
08c0: 20 61 72 72 61 79 20 70 5a 20 61 73 20 61 20 31   array pZ as a 1
08d0: 36 2d 62 69 74 20 75 6e 73 69 67 6e 65 64 20 69  6-bit unsigned i
08e0: 6e 74 2e 20 42 45 31 36 28 29 20 66 6f 72 20 61  nt. BE16() for a
08f0: 20 62 69 67 2d 65 6e 64 69 61 6e 0a 2a 2a 20 69   big-endian.** i
0900: 6e 74 65 72 70 72 65 74 61 74 69 6f 6e 2c 20 4c  nterpretation, L
0910: 45 31 36 28 29 20 66 6f 72 20 6c 69 74 74 6c 65  E16() for little
0920: 2d 65 6e 64 69 61 6e 2e 0a 2a 2f 0a 23 64 65 66  -endian..*/.#def
0930: 69 6e 65 20 42 45 31 36 28 70 5a 29 20 28 28 28  ine BE16(pZ) (((
0940: 75 31 36 29 28 28 70 5a 29 5b 30 5d 29 3c 3c 38  u16)((pZ)[0])<<8
0950: 29 20 2b 20 28 75 31 36 29 28 28 70 5a 29 5b 31  ) + (u16)((pZ)[1
0960: 5d 29 29 0a 23 64 65 66 69 6e 65 20 4c 45 31 36  ])).#define LE16
0970: 28 70 5a 29 20 28 28 28 75 31 36 29 28 28 70 5a  (pZ) (((u16)((pZ
0980: 29 5b 31 5d 29 3c 3c 38 29 20 2b 20 28 75 31 36  )[1])<<8) + (u16
0990: 29 28 28 70 5a 29 5b 30 5d 29 29 0a 0a 2f 2a 0a  )((pZ)[0]))../*.
09a0: 2a 2a 20 52 45 41 44 5f 31 36 20 69 6e 74 65 72  ** READ_16 inter
09b0: 70 72 65 74 73 20 74 68 65 20 66 69 72 73 74 20  prets the first 
09c0: 74 77 6f 20 62 79 74 65 73 20 6f 66 20 74 68 65  two bytes of the
09d0: 20 75 6e 73 69 67 6e 65 64 20 63 68 61 72 20 61   unsigned char a
09e0: 72 72 61 79 20 70 5a 20 0a 2a 2a 20 61 73 20 61  rray pZ .** as a
09f0: 20 31 36 2d 62 69 74 20 75 6e 73 69 67 6e 65 64   16-bit unsigned
0a00: 20 69 6e 74 2e 20 49 66 20 62 69 67 5f 65 6e 64   int. If big_end
0a10: 69 61 6e 20 69 73 20 6e 6f 6e 2d 7a 65 72 6f 20  ian is non-zero 
0a20: 74 68 65 20 69 6e 74 65 70 72 65 74 61 74 69 6f  the intepretatio
0a30: 6e 0a 2a 2a 20 69 73 20 62 69 67 2d 65 6e 64 69  n.** is big-endi
0a40: 61 6e 2c 20 6f 74 68 65 72 77 69 73 65 20 6c 69  an, otherwise li
0a50: 74 74 6c 65 2d 65 6e 64 69 61 6e 2e 0a 2a 2f 0a  ttle-endian..*/.
0a60: 23 64 65 66 69 6e 65 20 52 45 41 44 5f 31 36 28  #define READ_16(
0a70: 70 5a 2c 62 69 67 5f 65 6e 64 69 61 6e 29 20 28  pZ,big_endian) (
0a80: 62 69 67 5f 65 6e 64 69 61 6e 3f 42 45 31 36 28  big_endian?BE16(
0a90: 70 5a 29 3a 4c 45 31 36 28 70 5a 29 29 0a 0a 2f  pZ):LE16(pZ))../
0aa0: 2a 0a 2a 2a 20 52 65 61 64 20 74 68 65 20 42 4f  *.** Read the BO
0ab0: 4d 20 66 72 6f 6d 20 74 68 65 20 73 74 61 72 74  M from the start
0ac0: 20 6f 66 20 2a 70 53 74 72 2c 20 69 66 20 6f 6e   of *pStr, if on
0ad0: 65 20 69 73 20 70 72 65 73 65 6e 74 2e 20 52 65  e is present. Re
0ae0: 74 75 72 6e 20 7a 65 72 6f 0a 2a 2a 20 66 6f 72  turn zero.** for
0af0: 20 6c 69 74 74 6c 65 2d 65 6e 64 69 61 6e 2c 20   little-endian, 
0b00: 6e 6f 6e 2d 7a 65 72 6f 20 66 6f 72 20 62 69 67  non-zero for big
0b10: 2d 65 6e 64 69 61 6e 2e 20 49 66 20 6e 6f 20 42  -endian. If no B
0b20: 4f 4d 20 69 73 20 70 72 65 73 65 6e 74 2c 20 72  OM is present, r
0b30: 65 74 75 72 6e 0a 2a 2a 20 74 68 65 20 76 61 6c  eturn.** the val
0b40: 75 65 20 6f 66 20 74 68 65 20 70 61 72 61 6d 65  ue of the parame
0b50: 74 65 72 20 22 62 69 67 5f 65 6e 64 69 61 6e 22  ter "big_endian"
0b60: 2e 0a 2a 2a 0a 2a 2a 20 52 65 74 75 72 6e 20 76  ..**.** Return v
0b70: 61 6c 75 65 73 3a 0a 2a 2a 20 20 20 20 20 31 20  alues:.**     1 
0b80: 2d 3e 20 62 69 67 2d 65 6e 64 69 61 6e 20 73 74  -> big-endian st
0b90: 72 69 6e 67 0a 2a 2a 20 20 20 20 20 30 20 2d 3e  ring.**     0 ->
0ba0: 20 6c 69 74 74 6c 65 2d 65 6e 64 69 61 6e 20 73   little-endian s
0bb0: 74 72 69 6e 67 0a 2a 2f 0a 73 74 61 74 69 63 20  tring.*/.static 
0bc0: 69 6e 74 20 72 65 61 64 55 74 66 31 36 42 6f 6d  int readUtf16Bom
0bd0: 28 55 74 66 53 74 72 69 6e 67 20 2a 70 53 74 72  (UtfString *pStr
0be0: 2c 20 69 6e 74 20 62 69 67 5f 65 6e 64 69 61 6e  , int big_endian
0bf0: 29 7b 0a 20 20 2f 2a 20 54 68 65 20 42 4f 4d 20  ){.  /* The BOM 
0c00: 6d 75 73 74 20 62 65 20 74 68 65 20 66 69 72 73  must be the firs
0c10: 74 20 74 68 69 6e 67 20 72 65 61 64 20 66 72 6f  t thing read fro
0c20: 6d 20 74 68 65 20 73 74 72 69 6e 67 20 2a 2f 0a  m the string */.
0c30: 20 20 61 73 73 65 72 74 28 20 70 53 74 72 2d 3e    assert( pStr->
0c40: 63 3d 3d 30 20 29 3b 0a 0a 20 20 2f 2a 20 49 66  c==0 );..  /* If
0c50: 20 74 68 65 20 73 74 72 69 6e 67 20 64 61 74 61   the string data
0c60: 20 63 6f 6e 73 69 73 74 73 20 6f 66 20 31 20 62   consists of 1 b
0c70: 79 74 65 20 6f 72 20 6c 65 73 73 2c 20 74 68 65  yte or less, the
0c80: 20 42 4f 4d 20 77 69 6c 6c 20 6d 61 6b 65 20 6e   BOM will make n
0c90: 6f 0a 20 20 2a 2a 20 64 69 66 66 65 72 65 6e 63  o.  ** differenc
0ca0: 65 20 61 6e 79 77 61 79 2e 20 49 6e 20 74 68 69  e anyway. In thi
0cb0: 73 20 63 61 73 65 20 6a 75 73 74 20 66 61 6c 6c  s case just fall
0cc0: 20 74 68 72 6f 75 67 68 20 74 6f 20 74 68 65 20   through to the 
0cd0: 64 65 66 61 75 6c 74 20 63 61 73 65 0a 20 20 2a  default case.  *
0ce0: 2a 20 61 6e 64 20 72 65 74 75 72 6e 20 74 68 65  * and return the
0cf0: 20 6e 61 74 69 76 65 20 62 79 74 65 2d 6f 72 64   native byte-ord
0d00: 65 72 20 66 6f 72 20 74 68 69 73 20 6d 61 63 68  er for this mach
0d10: 69 6e 65 2e 0a 20 20 2a 2a 0a 20 20 2a 2a 20 4f  ine..  **.  ** O
0d20: 74 68 65 72 77 69 73 65 2c 20 63 68 65 63 6b 20  therwise, check 
0d30: 74 68 65 20 66 69 72 73 74 20 32 20 62 79 74 65  the first 2 byte
0d40: 73 20 6f 66 20 74 68 65 20 73 74 72 69 6e 67 20  s of the string 
0d50: 74 6f 20 73 65 65 20 69 66 20 61 20 42 4f 4d 20  to see if a BOM 
0d60: 69 73 0a 20 20 2a 2a 20 70 72 65 73 65 6e 74 2e  is.  ** present.
0d70: 0a 20 20 2a 2f 0a 20 20 69 66 28 20 70 53 74 72  .  */.  if( pStr
0d80: 2d 3e 6e 3e 31 20 29 7b 0a 20 20 20 20 75 38 20  ->n>1 ){.    u8 
0d90: 62 6f 6d 20 3d 20 73 71 6c 69 74 65 33 55 74 66  bom = sqlite3Utf
0da0: 52 65 61 64 42 6f 6d 28 70 53 74 72 2d 3e 70 5a  ReadBom(pStr->pZ
0db0: 2c 20 32 29 3b 0a 20 20 20 20 69 66 28 20 62 6f  , 2);.    if( bo
0dc0: 6d 20 29 7b 0a 20 20 20 20 20 20 70 53 74 72 2d  m ){.      pStr-
0dd0: 3e 63 20 2b 3d 20 32 3b 0a 20 20 20 20 20 20 72  >c += 2;.      r
0de0: 65 74 75 72 6e 20 28 62 6f 6d 3d 3d 54 45 58 54  eturn (bom==TEXT
0df0: 5f 55 74 66 31 36 6c 65 29 3f 30 3a 31 3b 0a 20  _Utf16le)?0:1;. 
0e00: 20 20 20 7d 0a 20 20 7d 0a 0a 20 20 72 65 74 75     }.  }..  retu
0e10: 72 6e 20 62 69 67 5f 65 6e 64 69 61 6e 3b 0a 7d  rn big_endian;.}
0e20: 0a 0a 2f 2a 0a 2a 2a 20 7a 44 61 74 61 20 69 73  ../*.** zData is
0e30: 20 61 20 55 54 46 2d 31 36 20 65 6e 63 6f 64 65   a UTF-16 encode
0e40: 64 20 73 74 72 69 6e 67 2c 20 6e 44 61 74 61 20  d string, nData 
0e50: 62 79 74 65 73 20 69 6e 20 6c 65 6e 67 74 68 2e  bytes in length.
0e60: 20 54 68 69 73 20 72 6f 75 74 69 6e 65 0a 2a 2a   This routine.**
0e70: 20 63 68 65 63 6b 73 20 69 66 20 74 68 65 72 65   checks if there
0e80: 20 69 73 20 61 20 62 79 74 65 2d 6f 72 64 65 72   is a byte-order
0e90: 20 6d 61 72 6b 20 61 74 20 74 68 65 20 73 74 61   mark at the sta
0ea0: 72 74 20 6f 66 20 7a 44 61 74 61 2e 20 49 66 20  rt of zData. If 
0eb0: 6e 6f 0a 2a 2a 20 62 79 74 65 20 6f 72 64 65 72  no.** byte order
0ec0: 20 6d 61 72 6b 20 69 73 20 66 6f 75 6e 64 20 30   mark is found 0
0ed0: 20 69 73 20 72 65 74 75 72 6e 65 64 2e 20 4f 74   is returned. Ot
0ee0: 68 65 72 77 69 73 65 20 54 45 58 54 5f 55 74 66  herwise TEXT_Utf
0ef0: 31 36 62 65 20 6f 72 0a 2a 2a 20 54 45 58 54 5f  16be or.** TEXT_
0f00: 55 74 66 31 36 6c 65 20 69 73 20 72 65 74 75 72  Utf16le is retur
0f10: 6e 65 64 2c 20 64 65 70 65 6e 64 69 6e 67 20 6f  ned, depending o
0f20: 6e 20 77 68 65 74 68 65 72 20 54 68 65 20 42 4f  n whether The BO
0f30: 4d 20 69 6e 64 69 63 61 74 65 73 20 74 68 61 74  M indicates that
0f40: 0a 2a 2a 20 74 68 65 20 74 65 78 74 20 69 73 20  .** the text is 
0f50: 62 69 67 2d 65 6e 64 69 61 6e 20 6f 72 20 6c 69  big-endian or li
0f60: 74 74 6c 65 2d 65 6e 64 69 61 6e 2e 0a 2a 2f 0a  ttle-endian..*/.
0f70: 75 38 20 73 71 6c 69 74 65 33 55 74 66 52 65 61  u8 sqlite3UtfRea
0f80: 64 42 6f 6d 28 63 6f 6e 73 74 20 76 6f 69 64 20  dBom(const void 
0f90: 2a 7a 44 61 74 61 2c 20 69 6e 74 20 6e 44 61 74  *zData, int nDat
0fa0: 61 29 7b 0a 20 20 69 66 28 20 6e 44 61 74 61 3c  a){.  if( nData<
0fb0: 30 20 7c 7c 20 6e 44 61 74 61 3e 31 20 29 7b 0a  0 || nData>1 ){.
0fc0: 20 20 20 20 75 38 20 62 31 20 3d 20 2a 28 75 38      u8 b1 = *(u8
0fd0: 20 2a 29 7a 44 61 74 61 3b 0a 20 20 20 20 75 38   *)zData;.    u8
0fe0: 20 62 32 20 3d 20 2a 28 28 28 75 38 20 2a 29 7a   b2 = *(((u8 *)z
0ff0: 44 61 74 61 29 20 2b 20 31 29 3b 0a 20 20 20 20  Data) + 1);.    
1000: 69 66 28 20 62 31 3d 3d 30 78 46 45 20 26 26 20  if( b1==0xFE && 
1010: 62 32 3d 3d 30 78 46 46 20 29 7b 0a 20 20 20 20  b2==0xFF ){.    
1020: 20 20 72 65 74 75 72 6e 20 54 45 58 54 5f 55 74    return TEXT_Ut
1030: 66 31 36 62 65 3b 0a 20 20 20 20 7d 0a 20 20 20  f16be;.    }.   
1040: 20 69 66 28 20 62 31 3d 3d 30 78 46 46 20 26 26   if( b1==0xFF &&
1050: 20 62 32 3d 3d 30 78 46 45 20 29 7b 0a 20 20 20   b2==0xFE ){.   
1060: 20 20 20 72 65 74 75 72 6e 20 54 45 58 54 5f 55     return TEXT_U
1070: 74 66 31 36 6c 65 3b 0a 20 20 20 20 7d 0a 20 20  tf16le;.    }.  
1080: 7d 0a 20 20 72 65 74 75 72 6e 20 30 3b 0a 7d 0a  }.  return 0;.}.
1090: 0a 0a 2f 2a 0a 2a 2a 20 52 65 61 64 20 61 20 73  ../*.** Read a s
10a0: 69 6e 67 6c 65 20 75 6e 69 63 6f 64 65 20 63 68  ingle unicode ch
10b0: 61 72 61 63 74 65 72 20 66 72 6f 6d 20 74 68 65  aracter from the
10c0: 20 55 54 46 2d 38 20 65 6e 63 6f 64 65 64 20 73   UTF-8 encoded s
10d0: 74 72 69 6e 67 20 2a 70 53 74 72 2e 20 54 68 65  tring *pStr. The
10e0: 0a 2a 2a 20 76 61 6c 75 65 20 72 65 74 75 72 6e  .** value return
10f0: 65 64 20 69 73 20 61 20 75 6e 69 63 6f 64 65 20  ed is a unicode 
1100: 73 63 61 6c 61 72 20 76 61 6c 75 65 2e 20 49 6e  scalar value. In
1110: 20 74 68 65 20 63 61 73 65 20 6f 66 20 6d 61 6c   the case of mal
1120: 66 6f 72 6d 65 64 0a 2a 2a 20 73 74 72 69 6e 67  formed.** string
1130: 73 2c 20 74 68 65 20 75 6e 69 63 6f 64 65 20 72  s, the unicode r
1140: 65 70 6c 61 63 65 6d 65 6e 74 20 63 68 61 72 61  eplacement chara
1150: 63 74 65 72 20 55 2b 46 46 46 44 20 6d 61 79 20  cter U+FFFD may 
1160: 62 65 20 72 65 74 75 72 6e 65 64 2e 0a 2a 2f 0a  be returned..*/.
1170: 73 74 61 74 69 63 20 75 33 32 20 72 65 61 64 55  static u32 readU
1180: 74 66 38 28 55 74 66 53 74 72 69 6e 67 20 2a 70  tf8(UtfString *p
1190: 53 74 72 29 7b 0a 20 20 73 74 72 75 63 74 20 55  Str){.  struct U
11a0: 74 66 38 54 62 6c 52 6f 77 20 7b 0a 20 20 20 20  tf8TblRow {.    
11b0: 75 38 20 62 31 5f 6d 61 73 6b 3b 0a 20 20 20 20  u8 b1_mask;.    
11c0: 75 38 20 62 31 5f 6d 61 73 6b 65 64 5f 76 61 6c  u8 b1_masked_val
11d0: 3b 0a 20 20 20 20 75 38 20 62 31 5f 76 61 6c 75  ;.    u8 b1_valu
11e0: 65 5f 6d 61 73 6b 3b 0a 20 20 20 20 69 6e 74 20  e_mask;.    int 
11f0: 74 72 61 69 6c 69 6e 67 5f 62 79 74 65 73 3b 0a  trailing_bytes;.
1200: 20 20 7d 3b 0a 20 20 73 74 61 74 69 63 20 63 6f    };.  static co
1210: 6e 73 74 20 73 74 72 75 63 74 20 55 74 66 38 54  nst struct Utf8T
1220: 62 6c 52 6f 77 20 75 74 66 38 74 62 6c 5b 5d 20  blRow utf8tbl[] 
1230: 3d 20 7b 0a 20 20 20 20 7b 20 30 78 38 30 2c 20  = {.    { 0x80, 
1240: 30 78 30 30 2c 20 30 78 37 46 2c 20 30 20 7d 2c  0x00, 0x7F, 0 },
1250: 0a 20 20 20 20 7b 20 30 78 45 30 2c 20 30 78 43  .    { 0xE0, 0xC
1260: 30 2c 20 30 78 31 46 2c 20 31 20 7d 2c 0a 20 20  0, 0x1F, 1 },.  
1270: 20 20 7b 20 30 78 46 30 2c 20 30 78 45 30 2c 20    { 0xF0, 0xE0, 
1280: 30 78 30 46 2c 20 32 20 7d 2c 0a 20 20 20 20 7b  0x0F, 2 },.    {
1290: 20 30 78 46 38 2c 20 30 78 46 30 2c 20 30 78 30   0xF8, 0xF0, 0x0
12a0: 45 2c 20 33 20 7d 2c 0a 20 20 20 20 7b 20 30 2c  E, 3 },.    { 0,
12b0: 20 30 2c 20 30 2c 20 30 7d 0a 20 20 7d 3b 0a 0a   0, 0, 0}.  };..
12c0: 20 20 75 38 20 62 31 3b 20 20 20 20 20 20 20 2f    u8 b1;       /
12d0: 2a 20 46 69 72 73 74 20 62 79 74 65 20 6f 66 20  * First byte of 
12e0: 74 68 65 20 70 6f 74 65 6e 74 69 61 6c 6c 79 20  the potentially 
12f0: 6d 75 6c 74 69 2d 62 79 74 65 20 75 74 66 2d 38  multi-byte utf-8
1300: 20 63 68 61 72 61 63 74 65 72 20 2a 2f 0a 20 20   character */.  
1310: 75 33 32 20 72 65 74 20 3d 20 30 3b 20 2f 2a 20  u32 ret = 0; /* 
1320: 52 65 74 75 72 6e 20 76 61 6c 75 65 20 2a 2f 0a  Return value */.
1330: 20 20 69 6e 74 20 69 69 3b 0a 20 20 73 74 72 75    int ii;.  stru
1340: 63 74 20 55 74 66 38 54 62 6c 52 6f 77 20 63 6f  ct Utf8TblRow co
1350: 6e 73 74 20 2a 70 52 6f 77 3b 0a 0a 20 20 70 52  nst *pRow;..  pR
1360: 6f 77 20 3d 20 26 28 75 74 66 38 74 62 6c 5b 30  ow = &(utf8tbl[0
1370: 5d 29 3b 0a 0a 20 20 62 31 20 3d 20 70 53 74 72  ]);..  b1 = pStr
1380: 2d 3e 70 5a 5b 70 53 74 72 2d 3e 63 5d 3b 0a 20  ->pZ[pStr->c];. 
1390: 20 70 53 74 72 2d 3e 63 2b 2b 3b 0a 20 20 77 68   pStr->c++;.  wh
13a0: 69 6c 65 28 20 70 52 6f 77 2d 3e 62 31 5f 6d 61  ile( pRow->b1_ma
13b0: 73 6b 20 26 26 20 28 62 31 26 70 52 6f 77 2d 3e  sk && (b1&pRow->
13c0: 62 31 5f 6d 61 73 6b 29 21 3d 70 52 6f 77 2d 3e  b1_mask)!=pRow->
13d0: 62 31 5f 6d 61 73 6b 65 64 5f 76 61 6c 20 29 7b  b1_masked_val ){
13e0: 0a 20 20 20 20 70 52 6f 77 2b 2b 3b 0a 20 20 7d  .    pRow++;.  }
13f0: 0a 20 20 69 66 28 20 21 70 52 6f 77 2d 3e 62 31  .  if( !pRow->b1
1400: 5f 6d 61 73 6b 20 29 7b 0a 20 20 20 20 72 65 74  _mask ){.    ret
1410: 75 72 6e 20 30 78 46 46 46 44 3b 0a 20 20 7d 0a  urn 0xFFFD;.  }.
1420: 20 20 0a 20 20 72 65 74 20 3d 20 28 75 33 32 29    .  ret = (u32)
1430: 28 62 31 26 70 52 6f 77 2d 3e 62 31 5f 76 61 6c  (b1&pRow->b1_val
1440: 75 65 5f 6d 61 73 6b 29 3b 0a 20 20 66 6f 72 28  ue_mask);.  for(
1450: 20 69 69 3d 30 3b 20 69 69 3c 70 52 6f 77 2d 3e   ii=0; ii<pRow->
1460: 74 72 61 69 6c 69 6e 67 5f 62 79 74 65 73 3b 20  trailing_bytes; 
1470: 69 69 2b 2b 20 29 7b 0a 20 20 20 20 75 38 20 62  ii++ ){.    u8 b
1480: 20 3d 20 70 53 74 72 2d 3e 70 5a 5b 70 53 74 72   = pStr->pZ[pStr
1490: 2d 3e 63 2b 69 69 5d 3b 0a 20 20 20 20 69 66 28  ->c+ii];.    if(
14a0: 20 28 62 26 30 78 43 30 29 21 3d 30 78 38 30 20   (b&0xC0)!=0x80 
14b0: 29 7b 0a 20 20 20 20 20 20 72 65 74 75 72 6e 20  ){.      return 
14c0: 30 78 46 46 46 44 3b 0a 20 20 20 20 7d 0a 20 20  0xFFFD;.    }.  
14d0: 20 20 72 65 74 20 3d 20 28 72 65 74 3c 3c 36 29    ret = (ret<<6)
14e0: 20 2b 20 28 75 33 32 29 28 62 26 30 78 33 46 29   + (u32)(b&0x3F)
14f0: 3b 0a 20 20 7d 0a 20 20 0a 20 20 70 53 74 72 2d  ;.  }.  .  pStr-
1500: 3e 63 20 2b 3d 20 70 52 6f 77 2d 3e 74 72 61 69  >c += pRow->trai
1510: 6c 69 6e 67 5f 62 79 74 65 73 3b 0a 20 20 72 65  ling_bytes;.  re
1520: 74 75 72 6e 20 72 65 74 3b 0a 7d 0a 0a 2f 2a 0a  turn ret;.}../*.
1530: 2a 2a 20 57 72 69 74 65 20 74 68 65 20 75 6e 69  ** Write the uni
1540: 63 6f 64 65 20 63 68 61 72 61 63 74 65 72 20 27  code character '
1550: 63 6f 64 65 27 20 74 6f 20 74 68 65 20 73 74 72  code' to the str
1560: 69 6e 67 20 70 53 74 72 20 75 73 69 6e 67 20 55  ing pStr using U
1570: 54 46 2d 38 0a 2a 2a 20 65 6e 63 6f 64 69 6e 67  TF-8.** encoding
1580: 2e 20 53 51 4c 49 54 45 5f 4e 4f 4d 45 4d 20 6d  . SQLITE_NOMEM m
1590: 61 79 20 62 65 20 72 65 74 75 72 6e 65 64 20 69  ay be returned i
15a0: 66 20 73 71 6c 69 74 65 33 4d 61 6c 6c 6f 63 28  f sqlite3Malloc(
15b0: 29 20 66 61 69 6c 73 2e 0a 2a 2f 0a 73 74 61 74  ) fails..*/.stat
15c0: 69 63 20 69 6e 74 20 77 72 69 74 65 55 74 66 38  ic int writeUtf8
15d0: 28 55 74 66 53 74 72 69 6e 67 20 2a 70 53 74 72  (UtfString *pStr
15e0: 2c 20 75 33 32 20 63 6f 64 65 29 7b 0a 20 20 73  , u32 code){.  s
15f0: 74 72 75 63 74 20 55 74 66 38 57 72 69 74 65 54  truct Utf8WriteT
1600: 62 6c 52 6f 77 20 7b 0a 20 20 20 20 75 33 32 20  blRow {.    u32 
1610: 6d 61 78 5f 63 6f 64 65 3b 0a 20 20 20 20 69 6e  max_code;.    in
1620: 74 20 74 72 61 69 6c 69 6e 67 5f 62 79 74 65 73  t trailing_bytes
1630: 3b 0a 20 20 20 20 75 38 20 62 31 5f 61 6e 64 5f  ;.    u8 b1_and_
1640: 6d 61 73 6b 3b 0a 20 20 20 20 75 38 20 62 31 5f  mask;.    u8 b1_
1650: 6f 72 5f 6d 61 73 6b 3b 0a 20 20 7d 3b 0a 20 20  or_mask;.  };.  
1660: 73 74 61 74 69 63 20 63 6f 6e 73 74 20 73 74 72  static const str
1670: 75 63 74 20 55 74 66 38 57 72 69 74 65 54 62 6c  uct Utf8WriteTbl
1680: 52 6f 77 20 75 74 66 38 74 62 6c 5b 5d 20 3d 20  Row utf8tbl[] = 
1690: 7b 0a 20 20 20 20 7b 30 78 30 30 30 30 30 30 37  {.    {0x0000007
16a0: 46 2c 20 30 2c 20 30 78 37 46 2c 20 30 78 30 30  F, 0, 0x7F, 0x00
16b0: 7d 2c 0a 20 20 20 20 7b 30 78 30 30 30 30 30 37  },.    {0x000007
16c0: 46 46 2c 20 31 2c 20 30 78 44 46 2c 20 30 78 43  FF, 1, 0xDF, 0xC
16d0: 30 7d 2c 0a 20 20 20 20 7b 30 78 30 30 30 30 46  0},.    {0x0000F
16e0: 46 46 46 2c 20 32 2c 20 30 78 45 46 2c 20 30 78  FFF, 2, 0xEF, 0x
16f0: 45 30 7d 2c 0a 20 20 20 20 7b 30 78 30 30 31 30  E0},.    {0x0010
1700: 46 46 46 46 2c 20 33 2c 20 30 78 46 37 2c 20 30  FFFF, 3, 0xF7, 0
1710: 78 46 30 7d 2c 0a 20 20 20 20 7b 30 78 30 30 30  xF0},.    {0x000
1720: 30 30 30 30 30 2c 20 30 2c 20 30 78 30 30 2c 20  00000, 0, 0x00, 
1730: 30 78 30 30 7d 0a 20 20 7d 3b 0a 20 20 63 6f 6e  0x00}.  };.  con
1740: 73 74 20 73 74 72 75 63 74 20 55 74 66 38 57 72  st struct Utf8Wr
1750: 69 74 65 54 62 6c 52 6f 77 20 2a 70 52 6f 77 20  iteTblRow *pRow 
1760: 3d 20 26 75 74 66 38 74 62 6c 5b 30 5d 3b 0a 0a  = &utf8tbl[0];..
1770: 20 20 77 68 69 6c 65 28 20 63 6f 64 65 3e 70 52    while( code>pR
1780: 6f 77 2d 3e 6d 61 78 5f 63 6f 64 65 20 29 7b 0a  ow->max_code ){.
1790: 20 20 20 20 61 73 73 65 72 74 28 20 70 52 6f 77      assert( pRow
17a0: 2d 3e 6d 61 78 5f 63 6f 64 65 20 29 3b 0a 20 20  ->max_code );.  
17b0: 20 20 70 52 6f 77 2b 2b 3b 0a 20 20 7d 0a 0a 20    pRow++;.  }.. 
17c0: 20 2f 2a 20 45 6e 73 75 72 65 20 74 68 65 72 65   /* Ensure there
17d0: 20 69 73 20 65 6e 6f 75 67 68 20 72 6f 6f 6d 20   is enough room 
17e0: 6c 65 66 74 20 69 6e 20 74 68 65 20 6f 75 74 70  left in the outp
17f0: 75 74 20 62 75 66 66 65 72 20 74 6f 20 77 72 69  ut buffer to wri
1800: 74 65 0a 20 20 2a 2a 20 74 68 69 73 20 55 54 46  te.  ** this UTF
1810: 2d 38 20 63 68 61 72 61 63 74 65 72 2e 20 0a 20  -8 character. . 
1820: 20 2a 2f 0a 20 20 61 73 73 65 72 74 28 20 28 70   */.  assert( (p
1830: 53 74 72 2d 3e 6e 2d 70 53 74 72 2d 3e 63 29 3e  Str->n-pStr->c)>
1840: 3d 28 70 52 6f 77 2d 3e 74 72 61 69 6c 69 6e 67  =(pRow->trailing
1850: 5f 62 79 74 65 73 2b 31 29 20 29 3b 0a 0a 20 20  _bytes+1) );..  
1860: 2f 2a 20 57 72 69 74 65 20 74 68 65 20 55 54 46  /* Write the UTF
1870: 2d 38 20 65 6e 63 6f 64 65 64 20 63 68 61 72 61  -8 encoded chara
1880: 63 74 65 72 20 74 6f 20 70 53 74 72 2e 20 41 6c  cter to pStr. Al
1890: 6c 20 63 61 73 65 73 20 62 65 6c 6f 77 20 61 72  l cases below ar
18a0: 65 0a 20 20 2a 2a 20 69 6e 74 65 6e 74 69 6f 6e  e.  ** intention
18b0: 61 6c 6c 79 20 66 61 6c 6c 2d 74 68 72 6f 75 67  ally fall-throug
18c0: 68 2e 0a 20 20 2a 2f 0a 20 20 73 77 69 74 63 68  h..  */.  switch
18d0: 28 20 70 52 6f 77 2d 3e 74 72 61 69 6c 69 6e 67  ( pRow->trailing
18e0: 5f 62 79 74 65 73 20 29 7b 0a 20 20 20 20 63 61  _bytes ){.    ca
18f0: 73 65 20 33 3a 0a 20 20 20 20 20 20 70 53 74 72  se 3:.      pStr
1900: 2d 3e 70 5a 5b 70 53 74 72 2d 3e 63 2b 33 5d 20  ->pZ[pStr->c+3] 
1910: 3d 20 28 28 28 75 38 29 63 6f 64 65 29 26 30 78  = (((u8)code)&0x
1920: 33 46 29 7c 30 78 38 30 3b 0a 20 20 20 20 20 20  3F)|0x80;.      
1930: 63 6f 64 65 20 3d 20 63 6f 64 65 3e 3e 36 3b 0a  code = code>>6;.
1940: 20 20 20 20 63 61 73 65 20 32 3a 0a 20 20 20 20      case 2:.    
1950: 20 20 70 53 74 72 2d 3e 70 5a 5b 70 53 74 72 2d    pStr->pZ[pStr-
1960: 3e 63 2b 32 5d 20 3d 20 28 28 28 75 38 29 63 6f  >c+2] = (((u8)co
1970: 64 65 29 26 30 78 33 46 29 7c 30 78 38 30 3b 0a  de)&0x3F)|0x80;.
1980: 20 20 20 20 20 20 63 6f 64 65 20 3d 20 63 6f 64        code = cod
1990: 65 3e 3e 36 3b 0a 20 20 20 20 63 61 73 65 20 31  e>>6;.    case 1
19a0: 3a 0a 20 20 20 20 20 20 70 53 74 72 2d 3e 70 5a  :.      pStr->pZ
19b0: 5b 70 53 74 72 2d 3e 63 2b 31 5d 20 3d 20 28 28  [pStr->c+1] = ((
19c0: 28 75 38 29 63 6f 64 65 29 26 30 78 33 46 29 7c  (u8)code)&0x3F)|
19d0: 30 78 38 30 3b 0a 20 20 20 20 20 20 63 6f 64 65  0x80;.      code
19e0: 20 3d 20 63 6f 64 65 3e 3e 36 3b 0a 20 20 20 20   = code>>6;.    
19f0: 63 61 73 65 20 30 3a 0a 20 20 20 20 20 20 70 53  case 0:.      pS
1a00: 74 72 2d 3e 70 5a 5b 70 53 74 72 2d 3e 63 5d 20  tr->pZ[pStr->c] 
1a10: 3d 20 28 28 28 75 38 29 63 6f 64 65 29 26 28 70  = (((u8)code)&(p
1a20: 52 6f 77 2d 3e 62 31 5f 61 6e 64 5f 6d 61 73 6b  Row->b1_and_mask
1a30: 29 29 7c 28 70 52 6f 77 2d 3e 62 31 5f 6f 72 5f  ))|(pRow->b1_or_
1a40: 6d 61 73 6b 29 3b 0a 20 20 7d 0a 20 20 70 53 74  mask);.  }.  pSt
1a50: 72 2d 3e 63 20 2b 3d 20 28 70 52 6f 77 2d 3e 74  r->c += (pRow->t
1a60: 72 61 69 6c 69 6e 67 5f 62 79 74 65 73 20 2b 20  railing_bytes + 
1a70: 31 29 3b 0a 0a 20 20 72 65 74 75 72 6e 20 30 3b  1);..  return 0;
1a80: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 52 65 61 64 20 61  .}../*.** Read a
1a90: 20 73 69 6e 67 6c 65 20 75 6e 69 63 6f 64 65 20   single unicode 
1aa0: 63 68 61 72 61 63 74 65 72 20 66 72 6f 6d 20 74  character from t
1ab0: 68 65 20 55 54 46 2d 31 36 20 65 6e 63 6f 64 65  he UTF-16 encode
1ac0: 64 20 73 74 72 69 6e 67 20 2a 70 53 74 72 2e 20  d string *pStr. 
1ad0: 54 68 65 0a 2a 2a 20 76 61 6c 75 65 20 72 65 74  The.** value ret
1ae0: 75 72 6e 65 64 20 69 73 20 61 20 75 6e 69 63 6f  urned is a unico
1af0: 64 65 20 73 63 61 6c 61 72 20 76 61 6c 75 65 2e  de scalar value.
1b00: 20 49 6e 20 74 68 65 20 63 61 73 65 20 6f 66 20   In the case of 
1b10: 6d 61 6c 66 6f 72 6d 65 64 0a 2a 2a 20 73 74 72  malformed.** str
1b20: 69 6e 67 73 2c 20 74 68 65 20 75 6e 69 63 6f 64  ings, the unicod
1b30: 65 20 72 65 70 6c 61 63 65 6d 65 6e 74 20 63 68  e replacement ch
1b40: 61 72 61 63 74 65 72 20 55 2b 46 46 46 44 20 6d  aracter U+FFFD m
1b50: 61 79 20 62 65 20 72 65 74 75 72 6e 65 64 2e 0a  ay be returned..
1b60: 2a 2a 0a 2a 2a 20 49 66 20 62 69 67 5f 65 6e 64  **.** If big_end
1b70: 69 61 6e 20 69 73 20 74 72 75 65 2c 20 74 68 65  ian is true, the
1b80: 20 73 74 72 69 6e 67 20 69 73 20 61 73 73 75 6d   string is assum
1b90: 65 64 20 74 6f 20 62 65 20 55 54 46 2d 31 36 42  ed to be UTF-16B
1ba0: 45 20 65 6e 63 6f 64 65 64 2e 0a 2a 2a 20 4f 74  E encoded..** Ot
1bb0: 68 65 72 77 69 73 65 2c 20 69 74 20 69 73 20 55  herwise, it is U
1bc0: 54 46 2d 31 36 4c 45 20 65 6e 63 6f 64 65 64 2e  TF-16LE encoded.
1bd0: 0a 2a 2f 0a 73 74 61 74 69 63 20 75 33 32 20 72  .*/.static u32 r
1be0: 65 61 64 55 74 66 31 36 28 55 74 66 53 74 72 69  eadUtf16(UtfStri
1bf0: 6e 67 20 2a 70 53 74 72 2c 20 69 6e 74 20 62 69  ng *pStr, int bi
1c00: 67 5f 65 6e 64 69 61 6e 29 7b 0a 20 20 75 33 32  g_endian){.  u32
1c10: 20 63 6f 64 65 5f 70 6f 69 6e 74 3b 20 20 20 2f   code_point;   /
1c20: 2a 20 74 68 65 20 66 69 72 73 74 20 63 6f 64 65  * the first code
1c30: 2d 70 6f 69 6e 74 20 69 6e 20 74 68 65 20 63 68  -point in the ch
1c40: 61 72 61 63 74 65 72 20 2a 2f 0a 0a 20 20 2f 2a  aracter */..  /*
1c50: 20 49 66 20 74 68 65 72 65 20 69 73 20 6f 6e 6c   If there is onl
1c60: 79 20 6f 6e 65 20 62 79 74 65 20 6f 66 20 64 61  y one byte of da
1c70: 74 61 20 6c 65 66 74 20 69 6e 20 74 68 65 20 73  ta left in the s
1c80: 74 72 69 6e 67 2c 20 72 65 74 75 72 6e 20 74 68  tring, return th
1c90: 65 20 0a 20 20 2a 2a 20 72 65 70 6c 61 63 65 6d  e .  ** replacem
1ca0: 65 6e 74 20 63 68 61 72 61 63 74 65 72 2e 0a 20  ent character.. 
1cb0: 20 2a 2f 0a 20 20 69 66 28 20 28 70 53 74 72 2d   */.  if( (pStr-
1cc0: 3e 6e 2d 70 53 74 72 2d 3e 63 29 3d 3d 31 20 29  >n-pStr->c)==1 )
1cd0: 7b 0a 20 20 20 20 70 53 74 72 2d 3e 63 2b 2b 3b  {.    pStr->c++;
1ce0: 0a 20 20 20 20 72 65 74 75 72 6e 20 28 69 6e 74  .    return (int
1cf0: 29 30 78 46 46 46 44 3b 0a 20 20 7d 0a 0a 20 20  )0xFFFD;.  }..  
1d00: 63 6f 64 65 5f 70 6f 69 6e 74 20 3d 20 52 45 41  code_point = REA
1d10: 44 5f 31 36 28 26 28 70 53 74 72 2d 3e 70 5a 5b  D_16(&(pStr->pZ[
1d20: 70 53 74 72 2d 3e 63 5d 29 2c 20 62 69 67 5f 65  pStr->c]), big_e
1d30: 6e 64 69 61 6e 29 3b 0a 20 20 70 53 74 72 2d 3e  ndian);.  pStr->
1d40: 63 20 2b 3d 20 32 3b 0a 0a 20 20 2f 2a 20 49 66  c += 2;..  /* If
1d50: 20 74 68 69 73 20 69 73 20 61 20 6e 6f 6e 2d 73   this is a non-s
1d60: 75 72 72 6f 67 61 74 65 20 63 6f 64 65 2d 70 6f  urrogate code-po
1d70: 69 6e 74 2c 20 6a 75 73 74 20 63 61 73 74 20 69  int, just cast i
1d80: 74 20 74 6f 20 61 6e 20 69 6e 74 20 61 6e 64 0a  t to an int and.
1d90: 20 20 2a 2a 20 72 65 74 75 72 6e 20 74 68 65 20    ** return the 
1da0: 63 6f 64 65 2d 70 6f 69 6e 74 20 76 61 6c 75 65  code-point value
1db0: 2e 0a 20 20 2a 2f 0a 20 20 69 66 28 20 63 6f 64  ..  */.  if( cod
1dc0: 65 5f 70 6f 69 6e 74 3c 30 78 44 38 30 30 20 7c  e_point<0xD800 |
1dd0: 7c 20 63 6f 64 65 5f 70 6f 69 6e 74 3e 30 78 45  | code_point>0xE
1de0: 30 30 30 20 29 7b 0a 20 20 20 20 72 65 74 75 72  000 ){.    retur
1df0: 6e 20 63 6f 64 65 5f 70 6f 69 6e 74 3b 0a 20 20  n code_point;.  
1e00: 7d 0a 0a 20 20 2f 2a 20 49 66 20 74 68 69 73 20  }..  /* If this 
1e10: 69 73 20 61 20 74 72 61 69 6c 69 6e 67 20 73 75  is a trailing su
1e20: 72 72 6f 67 61 74 65 20 63 6f 64 65 2d 70 6f 69  rrogate code-poi
1e30: 6e 74 2c 20 74 68 65 6e 20 74 68 65 20 73 74 72  nt, then the str
1e40: 69 6e 67 20 69 73 0a 20 20 2a 2a 20 6d 61 6c 66  ing is.  ** malf
1e50: 6f 72 6d 65 64 3b 20 72 65 74 75 72 6e 20 74 68  ormed; return th
1e60: 65 20 72 65 70 6c 61 63 65 6d 65 6e 74 20 63 68  e replacement ch
1e70: 61 72 61 63 74 65 72 2e 0a 20 20 2a 2f 0a 20 20  aracter..  */.  
1e80: 69 66 28 20 63 6f 64 65 5f 70 6f 69 6e 74 3e 30  if( code_point>0
1e90: 78 44 42 46 46 20 29 7b 0a 20 20 20 20 72 65 74  xDBFF ){.    ret
1ea0: 75 72 6e 20 30 78 46 46 46 44 3b 0a 20 20 7d 0a  urn 0xFFFD;.  }.
1eb0: 0a 20 20 2f 2a 20 54 68 65 20 63 6f 64 65 2d 70  .  /* The code-p
1ec0: 6f 69 6e 74 20 6a 75 73 74 20 72 65 61 64 20 69  oint just read i
1ed0: 73 20 61 20 6c 65 61 64 69 6e 67 20 73 75 72 72  s a leading surr
1ee0: 6f 67 61 74 65 20 63 6f 64 65 2d 70 6f 69 6e 74  ogate code-point
1ef0: 2e 20 49 66 20 74 68 65 69 72 0a 20 20 2a 2a 20  . If their.  ** 
1f00: 69 73 20 6e 6f 74 20 65 6e 6f 75 67 68 20 64 61  is not enough da
1f10: 74 61 20 6c 65 66 74 20 6f 72 20 74 68 65 20 6e  ta left or the n
1f20: 65 78 74 20 63 6f 64 65 2d 70 6f 69 6e 74 20 69  ext code-point i
1f30: 73 20 6e 6f 74 20 61 20 74 72 61 69 6c 69 6e 67  s not a trailing
1f40: 0a 20 20 2a 2a 20 73 75 72 72 6f 67 61 74 65 2c  .  ** surrogate,
1f50: 20 72 65 74 75 72 6e 20 74 68 65 20 72 65 70 6c   return the repl
1f60: 61 63 65 6d 65 6e 74 20 63 68 61 72 61 63 74 65  acement characte
1f70: 72 2e 0a 20 20 2a 2f 0a 20 20 69 66 28 20 28 70  r..  */.  if( (p
1f80: 53 74 72 2d 3e 6e 2d 70 53 74 72 2d 3e 63 29 3e  Str->n-pStr->c)>
1f90: 31 20 29 7b 0a 20 20 20 20 75 33 32 20 63 6f 64  1 ){.    u32 cod
1fa0: 65 5f 70 6f 69 6e 74 32 20 3d 20 52 45 41 44 5f  e_point2 = READ_
1fb0: 31 36 28 26 70 53 74 72 2d 3e 70 5a 5b 70 53 74  16(&pStr->pZ[pSt
1fc0: 72 2d 3e 63 5d 2c 20 62 69 67 5f 65 6e 64 69 61  r->c], big_endia
1fd0: 6e 29 3b 0a 20 20 20 20 69 66 28 20 63 6f 64 65  n);.    if( code
1fe0: 5f 70 6f 69 6e 74 32 3c 30 78 44 43 30 30 20 7c  _point2<0xDC00 |
1ff0: 7c 20 63 6f 64 65 5f 70 6f 69 6e 74 3e 30 78 44  | code_point>0xD
2000: 46 46 46 20 29 7b 0a 20 20 20 20 20 20 72 65 74  FFF ){.      ret
2010: 75 72 6e 20 30 78 46 46 46 44 3b 0a 20 20 20 20  urn 0xFFFD;.    
2020: 7d 0a 20 20 20 20 70 53 74 72 2d 3e 63 20 2b 3d  }.    pStr->c +=
2030: 20 32 3b 0a 0a 20 20 20 20 72 65 74 75 72 6e 20   2;..    return 
2040: 28 20 0a 20 20 20 20 20 20 20 20 28 28 28 63 6f  ( .        (((co
2050: 64 65 5f 70 6f 69 6e 74 26 30 78 30 33 43 30 29  de_point&0x03C0)
2060: 2b 30 78 30 30 34 30 29 3c 3c 31 36 29 20 2b 20  +0x0040)<<16) + 
2070: 20 20 2f 2a 20 75 75 75 75 75 20 2a 2f 0a 20 20    /* uuuuu */.  
2080: 20 20 20 20 20 20 28 28 63 6f 64 65 5f 70 6f 69        ((code_poi
2090: 6e 74 26 30 78 30 30 33 46 29 3c 3c 31 30 29 20  nt&0x003F)<<10) 
20a0: 2b 20 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20  +            /* 
20b0: 78 78 78 78 78 78 20 2a 2f 0a 20 20 20 20 20 20  xxxxxx */.      
20c0: 20 20 28 63 6f 64 65 5f 70 6f 69 6e 74 32 26 30    (code_point2&0
20d0: 78 30 33 46 46 29 20 20 20 20 20 20 20 20 20 20  x03FF)          
20e0: 20 20 20 20 20 20 20 20 20 2f 2a 20 79 79 20 79           /* yy y
20f0: 79 79 79 79 79 79 79 20 2a 2f 0a 20 20 20 20 29  yyyyyyy */.    )
2100: 3b 0a 0a 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20  ;..  }else{.    
2110: 72 65 74 75 72 6e 20 28 69 6e 74 29 30 78 46 46  return (int)0xFF
2120: 46 44 3b 0a 20 20 7d 0a 20 20 0a 20 20 2f 2a 20  FD;.  }.  .  /* 
2130: 6e 6f 74 20 72 65 61 63 68 65 64 20 2a 2f 0a 7d  not reached */.}
2140: 0a 0a 73 74 61 74 69 63 20 69 6e 74 20 77 72 69  ..static int wri
2150: 74 65 55 74 66 31 36 28 55 74 66 53 74 72 69 6e  teUtf16(UtfStrin
2160: 67 20 2a 70 53 74 72 2c 20 69 6e 74 20 63 6f 64  g *pStr, int cod
2170: 65 2c 20 69 6e 74 20 62 69 67 5f 65 6e 64 69 61  e, int big_endia
2180: 6e 29 7b 0a 20 20 69 6e 74 20 62 79 74 65 73 3b  n){.  int bytes;
2190: 0a 20 20 75 6e 73 69 67 6e 65 64 20 63 68 61 72  .  unsigned char
21a0: 20 2a 68 69 5f 62 79 74 65 3b 0a 20 20 75 6e 73   *hi_byte;.  uns
21b0: 69 67 6e 65 64 20 63 68 61 72 20 2a 6c 6f 5f 62  igned char *lo_b
21c0: 79 74 65 3b 0a 0a 20 20 62 79 74 65 73 20 3d 20  yte;..  bytes = 
21d0: 28 63 6f 64 65 3e 30 78 30 30 30 30 46 46 46 46  (code>0x0000FFFF
21e0: 3f 34 3a 32 29 3b 0a 0a 20 20 2f 2a 20 45 6e 73  ?4:2);..  /* Ens
21f0: 75 72 65 20 74 68 65 72 65 20 69 73 20 65 6e 6f  ure there is eno
2200: 75 67 68 20 72 6f 6f 6d 20 6c 65 66 74 20 69 6e  ugh room left in
2210: 20 74 68 65 20 6f 75 74 70 75 74 20 62 75 66 66   the output buff
2220: 65 72 20 74 6f 20 77 72 69 74 65 0a 20 20 2a 2a  er to write.  **
2230: 20 74 68 69 73 20 55 54 46 2d 38 20 63 68 61 72   this UTF-8 char
2240: 61 63 74 65 72 2e 0a 20 20 2a 2f 0a 20 20 61 73  acter..  */.  as
2250: 73 65 72 74 28 20 28 70 53 74 72 2d 3e 6e 2d 70  sert( (pStr->n-p
2260: 53 74 72 2d 3e 63 29 3e 3d 62 79 74 65 73 20 29  Str->c)>=bytes )
2270: 3b 0a 20 20 0a 20 20 2f 2a 20 49 6e 69 74 69 61  ;.  .  /* Initia
2280: 6c 69 73 65 20 68 69 5f 62 79 74 65 20 61 6e 64  lise hi_byte and
2290: 20 6c 6f 5f 62 79 74 65 20 74 6f 20 70 6f 69 6e   lo_byte to poin
22a0: 74 20 61 74 20 74 68 65 20 6c 6f 63 61 74 69 6f  t at the locatio
22b0: 6e 73 20 69 6e 74 6f 20 77 68 69 63 68 0a 20 20  ns into which.  
22c0: 2a 2a 20 74 68 65 20 4d 53 42 20 61 6e 64 20 4c  ** the MSB and L
22d0: 53 42 20 6f 66 20 74 68 65 20 28 66 69 72 73 74  SB of the (first
22e0: 29 20 31 36 2d 62 69 74 20 75 6e 69 63 6f 64 65  ) 16-bit unicode
22f0: 20 63 6f 64 65 2d 70 6f 69 6e 74 20 77 72 69 74   code-point writ
2300: 74 65 6e 20 66 6f 72 0a 20 20 2a 2a 20 74 68 69  ten for.  ** thi
2310: 73 20 63 68 61 72 61 63 74 65 72 2e 0a 20 20 2a  s character..  *
2320: 2f 0a 20 20 68 69 5f 62 79 74 65 20 3d 20 28 62  /.  hi_byte = (b
2330: 69 67 5f 65 6e 64 69 61 6e 3f 26 70 53 74 72 2d  ig_endian?&pStr-
2340: 3e 70 5a 5b 70 53 74 72 2d 3e 63 5d 3a 26 70 53  >pZ[pStr->c]:&pS
2350: 74 72 2d 3e 70 5a 5b 70 53 74 72 2d 3e 63 2b 31  tr->pZ[pStr->c+1
2360: 5d 29 3b 0a 20 20 6c 6f 5f 62 79 74 65 20 3d 20  ]);.  lo_byte = 
2370: 28 62 69 67 5f 65 6e 64 69 61 6e 3f 26 70 53 74  (big_endian?&pSt
2380: 72 2d 3e 70 5a 5b 70 53 74 72 2d 3e 63 2b 31 5d  r->pZ[pStr->c+1]
2390: 3a 26 70 53 74 72 2d 3e 70 5a 5b 70 53 74 72 2d  :&pStr->pZ[pStr-
23a0: 3e 63 5d 29 3b 0a 0a 20 20 69 66 28 20 62 79 74  >c]);..  if( byt
23b0: 65 73 3d 3d 32 20 29 7b 0a 20 20 20 20 2a 68 69  es==2 ){.    *hi
23c0: 5f 62 79 74 65 20 3d 20 28 75 38 29 28 28 63 6f  _byte = (u8)((co
23d0: 64 65 26 30 78 30 30 30 30 46 46 30 30 29 3e 3e  de&0x0000FF00)>>
23e0: 38 29 3b 0a 20 20 20 20 2a 6c 6f 5f 62 79 74 65  8);.    *lo_byte
23f0: 20 3d 20 28 75 38 29 28 63 6f 64 65 26 30 78 30   = (u8)(code&0x0
2400: 30 30 30 30 30 46 46 29 3b 0a 20 20 7d 65 6c 73  00000FF);.  }els
2410: 65 7b 0a 20 20 20 20 75 33 32 20 77 72 64 3b 0a  e{.    u32 wrd;.
2420: 20 20 20 20 77 72 64 20 3d 20 28 28 28 28 63 6f      wrd = ((((co
2430: 64 65 26 30 78 30 30 31 46 30 30 30 30 29 2d 30  de&0x001F0000)-0
2440: 78 30 30 30 31 30 30 30 30 29 2b 28 63 6f 64 65  x00010000)+(code
2450: 26 30 78 30 30 30 30 46 43 30 30 29 29 3e 3e 31  &0x0000FC00))>>1
2460: 30 29 7c 30 78 30 30 30 30 44 38 30 30 3b 0a 20  0)|0x0000D800;. 
2470: 20 20 20 2a 68 69 5f 62 79 74 65 20 3d 20 28 75     *hi_byte = (u
2480: 38 29 28 28 77 72 64 26 30 78 30 30 30 30 46 46  8)((wrd&0x0000FF
2490: 30 30 29 3e 3e 38 29 3b 0a 20 20 20 20 2a 6c 6f  00)>>8);.    *lo
24a0: 5f 62 79 74 65 20 3d 20 28 75 38 29 28 77 72 64  _byte = (u8)(wrd
24b0: 26 30 78 30 30 30 30 30 30 46 46 29 3b 0a 0a 20  &0x000000FF);.. 
24c0: 20 20 20 77 72 64 20 3d 20 28 63 6f 64 65 26 30     wrd = (code&0
24d0: 78 30 30 30 30 30 33 46 46 29 7c 30 78 30 30 30  x000003FF)|0x000
24e0: 30 44 43 30 30 3b 0a 20 20 20 20 2a 28 68 69 5f  0DC00;.    *(hi_
24f0: 62 79 74 65 2b 32 29 20 3d 20 28 75 38 29 28 28  byte+2) = (u8)((
2500: 77 72 64 26 30 78 30 30 30 30 46 46 30 30 29 3e  wrd&0x0000FF00)>
2510: 3e 38 29 3b 0a 20 20 20 20 2a 28 6c 6f 5f 62 79  >8);.    *(lo_by
2520: 74 65 2b 32 29 20 3d 20 28 75 38 29 28 77 72 64  te+2) = (u8)(wrd
2530: 26 30 78 30 30 30 30 30 30 46 46 29 3b 0a 20 20  &0x000000FF);.  
2540: 7d 0a 0a 20 20 70 53 74 72 2d 3e 63 20 2b 3d 20  }..  pStr->c += 
2550: 62 79 74 65 73 3b 0a 20 20 0a 20 20 72 65 74 75  bytes;.  .  retu
2560: 72 6e 20 30 3b 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 70  rn 0;.}../*.** p
2570: 5a 20 69 73 20 61 20 55 54 46 2d 38 20 65 6e 63  Z is a UTF-8 enc
2580: 6f 64 65 64 20 75 6e 69 63 6f 64 65 20 73 74 72  oded unicode str
2590: 69 6e 67 2e 20 49 66 20 6e 42 79 74 65 20 69 73  ing. If nByte is
25a0: 20 6c 65 73 73 20 74 68 61 6e 20 7a 65 72 6f 2c   less than zero,
25b0: 0a 2a 2a 20 72 65 74 75 72 6e 20 74 68 65 20 6e  .** return the n
25c0: 75 6d 62 65 72 20 6f 66 20 75 6e 69 63 6f 64 65  umber of unicode
25d0: 20 63 68 61 72 61 63 74 65 72 73 20 69 6e 20 70   characters in p
25e0: 5a 20 75 70 20 74 6f 20 28 62 75 74 20 6e 6f 74  Z up to (but not
25f0: 20 69 6e 63 6c 75 64 69 6e 67 29 0a 2a 2a 20 74   including).** t
2600: 68 65 20 66 69 72 73 74 20 30 78 30 30 20 62 79  he first 0x00 by
2610: 74 65 2e 20 49 66 20 6e 42 79 74 65 20 69 73 20  te. If nByte is 
2620: 6e 6f 74 20 6c 65 73 73 20 74 68 61 6e 20 7a 65  not less than ze
2630: 72 6f 2c 20 72 65 74 75 72 6e 20 74 68 65 0a 2a  ro, return the.*
2640: 2a 20 6e 75 6d 62 65 72 20 6f 66 20 75 6e 69 63  * number of unic
2650: 6f 64 65 20 63 68 61 72 61 63 74 65 72 73 20 69  ode characters i
2660: 6e 20 74 68 65 20 66 69 72 73 74 20 6e 42 79 74  n the first nByt
2670: 65 20 6f 66 20 70 5a 20 28 6f 72 20 75 70 20 74  e of pZ (or up t
2680: 6f 20 0a 2a 2a 20 74 68 65 20 66 69 72 73 74 20  o .** the first 
2690: 30 78 30 30 2c 20 77 68 69 63 68 65 76 65 72 20  0x00, whichever 
26a0: 63 6f 6d 65 73 20 66 69 72 73 74 29 2e 0a 2a 2f  comes first)..*/
26b0: 0a 69 6e 74 20 73 71 6c 69 74 65 33 75 74 66 38  .int sqlite3utf8
26c0: 43 68 61 72 4c 65 6e 28 63 6f 6e 73 74 20 63 68  CharLen(const ch
26d0: 61 72 20 2a 70 5a 2c 20 69 6e 74 20 6e 42 79 74  ar *pZ, int nByt
26e0: 65 29 7b 0a 20 20 55 74 66 53 74 72 69 6e 67 20  e){.  UtfString 
26f0: 73 74 72 3b 0a 20 20 69 6e 74 20 72 65 74 20 3d  str;.  int ret =
2700: 20 30 3b 0a 20 20 75 33 32 20 63 6f 64 65 20 3d   0;.  u32 code =
2710: 20 31 3b 0a 0a 20 20 73 74 72 2e 70 5a 20 3d 20   1;..  str.pZ = 
2720: 28 63 68 61 72 20 2a 29 70 5a 3b 0a 20 20 73 74  (char *)pZ;.  st
2730: 72 2e 6e 20 3d 20 6e 42 79 74 65 3b 0a 20 20 73  r.n = nByte;.  s
2740: 74 72 2e 63 20 3d 20 30 3b 0a 0a 20 20 77 68 69  tr.c = 0;..  whi
2750: 6c 65 28 20 28 6e 42 79 74 65 3c 30 20 7c 7c 20  le( (nByte<0 || 
2760: 73 74 72 2e 63 3c 73 74 72 2e 6e 29 20 26 26 20  str.c<str.n) && 
2770: 63 6f 64 65 21 3d 30 20 29 7b 0a 20 20 20 20 63  code!=0 ){.    c
2780: 6f 64 65 20 3d 20 72 65 61 64 55 74 66 38 28 26  ode = readUtf8(&
2790: 73 74 72 29 3b 0a 20 20 20 20 72 65 74 2b 2b 3b  str);.    ret++;
27a0: 0a 20 20 7d 0a 20 20 69 66 28 20 63 6f 64 65 3d  .  }.  if( code=
27b0: 3d 30 20 29 20 72 65 74 2d 2d 3b 0a 0a 20 20 72  =0 ) ret--;..  r
27c0: 65 74 75 72 6e 20 72 65 74 3b 0a 7d 0a 0a 2f 2a  eturn ret;.}../*
27d0: 0a 2a 2a 20 70 5a 20 69 73 20 61 20 55 54 46 2d  .** pZ is a UTF-
27e0: 31 36 20 65 6e 63 6f 64 65 64 20 75 6e 69 63 6f  16 encoded unico
27f0: 64 65 20 73 74 72 69 6e 67 2e 20 49 66 20 6e 43  de string. If nC
2800: 68 61 72 20 69 73 20 6c 65 73 73 20 74 68 61 6e  har is less than
2810: 20 7a 65 72 6f 2c 0a 2a 2a 20 72 65 74 75 72 6e   zero,.** return
2820: 20 74 68 65 20 6e 75 6d 62 65 72 20 6f 66 20 62   the number of b
2830: 79 74 65 73 20 75 70 20 74 6f 20 28 62 75 74 20  ytes up to (but 
2840: 6e 6f 74 20 69 6e 63 6c 75 64 69 6e 67 29 2c 20  not including), 
2850: 74 68 65 20 66 69 72 73 74 20 70 61 69 72 0a 2a  the first pair.*
2860: 2a 20 6f 66 20 63 6f 6e 73 65 63 75 74 69 76 65  * of consecutive
2870: 20 30 78 30 30 20 62 79 74 65 73 20 69 6e 20 70   0x00 bytes in p
2880: 5a 2e 20 49 66 20 6e 43 68 61 72 20 69 73 20 6e  Z. If nChar is n
2890: 6f 74 20 6c 65 73 73 20 74 68 61 6e 20 7a 65 72  ot less than zer
28a0: 6f 2c 0a 2a 2a 20 74 68 65 6e 20 72 65 74 75 72  o,.** then retur
28b0: 6e 20 74 68 65 20 6e 75 6d 62 65 72 20 6f 66 20  n the number of 
28c0: 62 79 74 65 73 20 69 6e 20 74 68 65 20 66 69 72  bytes in the fir
28d0: 73 74 20 6e 43 68 61 72 20 75 6e 69 63 6f 64 65  st nChar unicode
28e0: 20 63 68 61 72 61 63 74 65 72 73 0a 2a 2a 20 69   characters.** i
28f0: 6e 20 70 5a 20 28 6f 72 20 75 70 20 75 6e 74 69  n pZ (or up unti
2900: 6c 20 74 68 65 20 66 69 72 73 74 20 70 61 69 72  l the first pair
2910: 20 6f 66 20 30 78 30 30 20 62 79 74 65 73 2c 20   of 0x00 bytes, 
2920: 77 68 69 63 68 65 76 65 72 20 63 6f 6d 65 73 20  whichever comes 
2930: 66 69 72 73 74 29 2e 0a 2a 2f 0a 69 6e 74 20 73  first)..*/.int s
2940: 71 6c 69 74 65 33 75 74 66 31 36 42 79 74 65 4c  qlite3utf16ByteL
2950: 65 6e 28 63 6f 6e 73 74 20 76 6f 69 64 20 2a 70  en(const void *p
2960: 5a 2c 20 69 6e 74 20 6e 43 68 61 72 29 7b 0a 20  Z, int nChar){. 
2970: 20 69 66 28 20 6e 43 68 61 72 3c 30 20 29 7b 0a   if( nChar<0 ){.
2980: 20 20 20 20 63 6f 6e 73 74 20 75 6e 73 69 67 6e      const unsign
2990: 65 64 20 63 68 61 72 20 2a 70 43 31 20 3d 20 28  ed char *pC1 = (
29a0: 75 6e 73 69 67 6e 65 64 20 63 68 61 72 20 2a 29  unsigned char *)
29b0: 70 5a 3b 0a 20 20 20 20 63 6f 6e 73 74 20 75 6e  pZ;.    const un
29c0: 73 69 67 6e 65 64 20 63 68 61 72 20 2a 70 43 32  signed char *pC2
29d0: 20 3d 20 28 75 6e 73 69 67 6e 65 64 20 63 68 61   = (unsigned cha
29e0: 72 20 2a 29 70 5a 2b 31 3b 0a 20 20 20 20 77 68  r *)pZ+1;.    wh
29f0: 69 6c 65 28 20 2a 70 43 31 20 7c 7c 20 2a 70 43  ile( *pC1 || *pC
2a00: 32 20 29 7b 0a 20 20 20 20 20 20 70 43 31 20 2b  2 ){.      pC1 +
2a10: 3d 20 32 3b 0a 20 20 20 20 20 20 70 43 32 20 2b  = 2;.      pC2 +
2a20: 3d 20 32 3b 0a 20 20 20 20 7d 0a 20 20 20 20 72  = 2;.    }.    r
2a30: 65 74 75 72 6e 20 70 43 31 2d 28 75 6e 73 69 67  eturn pC1-(unsig
2a40: 6e 65 64 20 63 68 61 72 20 2a 29 70 5a 3b 0a 20  ned char *)pZ;. 
2a50: 20 7d 65 6c 73 65 7b 0a 20 20 20 20 55 74 66 53   }else{.    UtfS
2a60: 74 72 69 6e 67 20 73 74 72 3b 0a 20 20 20 20 75  tring str;.    u
2a70: 33 32 20 63 6f 64 65 20 3d 20 31 3b 0a 20 20 20  32 code = 1;.   
2a80: 20 69 6e 74 20 62 69 67 5f 65 6e 64 69 61 6e 3b   int big_endian;
2a90: 0a 20 20 20 20 69 6e 74 20 6e 52 65 61 64 20 3d  .    int nRead =
2aa0: 20 30 3b 0a 20 20 20 20 69 6e 74 20 72 65 74 3b   0;.    int ret;
2ab0: 0a 0a 20 20 20 20 73 74 72 2e 70 5a 20 3d 20 28  ..    str.pZ = (
2ac0: 63 68 61 72 20 2a 29 70 5a 3b 0a 20 20 20 20 73  char *)pZ;.    s
2ad0: 74 72 2e 63 20 3d 20 30 3b 0a 20 20 20 20 73 74  tr.c = 0;.    st
2ae0: 72 2e 6e 20 3d 20 2d 31 3b 0a 0a 20 20 20 20 2f  r.n = -1;..    /
2af0: 2a 20 43 68 65 63 6b 20 66 6f 72 20 61 20 42 4f  * Check for a BO
2b00: 4d 2e 20 57 65 20 6a 75 73 74 20 69 67 6e 6f 72  M. We just ignor
2b10: 65 20 69 74 20 69 66 20 74 68 65 72 65 20 69 73  e it if there is
2b20: 20 6f 6e 65 2c 20 69 74 27 73 20 6f 6e 6c 79 20   one, it's only 
2b30: 72 65 61 64 0a 20 20 20 20 2a 2a 20 73 6f 20 74  read.    ** so t
2b40: 68 61 74 20 69 74 20 69 73 20 6e 6f 74 20 63 6f  hat it is not co
2b50: 75 6e 74 65 64 20 61 73 20 61 20 63 68 61 72 61  unted as a chara
2b60: 63 74 65 72 2e 20 0a 20 20 20 20 2a 2f 0a 20 20  cter. .    */.  
2b70: 20 20 62 69 67 5f 65 6e 64 69 61 6e 20 3d 20 72    big_endian = r
2b80: 65 61 64 55 74 66 31 36 42 6f 6d 28 26 73 74 72  eadUtf16Bom(&str
2b90: 2c 20 30 29 3b 0a 20 20 20 20 72 65 74 20 3d 20  , 0);.    ret = 
2ba0: 30 2d 73 74 72 2e 63 3b 0a 0a 20 20 20 20 77 68  0-str.c;..    wh
2bb0: 69 6c 65 28 20 63 6f 64 65 21 3d 30 20 26 26 20  ile( code!=0 && 
2bc0: 6e 52 65 61 64 3c 6e 43 68 61 72 20 29 7b 0a 20  nRead<nChar ){. 
2bd0: 20 20 20 20 20 63 6f 64 65 20 3d 20 72 65 61 64       code = read
2be0: 55 74 66 31 36 28 26 73 74 72 2c 20 62 69 67 5f  Utf16(&str, big_
2bf0: 65 6e 64 69 61 6e 29 3b 0a 20 20 20 20 20 20 6e  endian);.      n
2c00: 52 65 61 64 2b 2b 3b 0a 20 20 20 20 7d 0a 20 20  Read++;.    }.  
2c10: 20 20 69 66 28 20 63 6f 64 65 3d 3d 30 20 29 7b    if( code==0 ){
2c20: 0a 20 20 20 20 20 20 72 65 74 20 2d 3d 20 32 3b  .      ret -= 2;
2c30: 0a 20 20 20 20 7d 0a 20 20 20 20 72 65 74 75 72  .    }.    retur
2c40: 6e 20 73 74 72 2e 63 20 2b 20 72 65 74 3b 0a 20  n str.c + ret;. 
2c50: 20 7d 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43 6f 6e 76   }.}../*.** Conv
2c60: 65 72 74 20 61 20 73 74 72 69 6e 67 20 69 6e 20  ert a string in 
2c70: 55 54 46 2d 31 36 20 6e 61 74 69 76 65 20 62 79  UTF-16 native by
2c80: 74 65 20 28 6f 72 20 77 69 74 68 20 61 20 42 79  te (or with a By
2c90: 74 65 2d 6f 72 64 65 72 2d 6d 61 72 6b 20 6f 72  te-order-mark or
2ca0: 0a 2a 2a 20 22 42 4f 4d 22 29 20 69 6e 74 6f 20  .** "BOM") into 
2cb0: 61 20 55 54 46 2d 38 20 73 74 72 69 6e 67 2e 20  a UTF-8 string. 
2cc0: 20 54 68 65 20 55 54 46 2d 38 20 73 74 72 69 6e   The UTF-8 strin
2cd0: 67 20 69 73 20 77 72 69 74 74 65 6e 20 69 6e 74  g is written int
2ce0: 6f 20 73 70 61 63 65 20 0a 2a 2a 20 6f 62 74 61  o space .** obta
2cf0: 69 6e 65 64 20 66 72 6f 6d 20 73 71 6c 69 74 65  ined from sqlite
2d00: 33 4d 61 6c 6c 6f 63 28 29 20 61 6e 64 20 6d 75  3Malloc() and mu
2d10: 73 74 20 62 65 20 72 65 6c 65 61 73 65 64 20 62  st be released b
2d20: 79 20 74 68 65 20 63 61 6c 6c 69 6e 67 20 66 75  y the calling fu
2d30: 6e 63 74 69 6f 6e 2e 0a 2a 2a 0a 2a 2a 20 54 68  nction..**.** Th
2d40: 65 20 70 61 72 61 6d 65 74 65 72 20 4e 20 69 73  e parameter N is
2d50: 20 74 68 65 20 6e 75 6d 62 65 72 20 6f 66 20 62   the number of b
2d60: 79 74 65 73 20 69 6e 20 74 68 65 20 55 54 46 2d  ytes in the UTF-
2d70: 31 36 20 73 74 72 69 6e 67 2e 20 20 49 66 20 4e  16 string.  If N
2d80: 20 69 73 0a 2a 2a 20 6e 65 67 61 74 69 76 65 2c   is.** negative,
2d90: 20 74 68 65 20 65 6e 74 69 72 65 20 73 74 72 69   the entire stri
2da0: 6e 67 20 75 70 20 74 6f 20 74 68 65 20 66 69 72  ng up to the fir
2db0: 73 74 20 5c 75 30 30 30 30 20 63 68 61 72 61 63  st \u0000 charac
2dc0: 74 65 72 20 69 73 20 74 72 61 6e 73 6c 61 74 65  ter is translate
2dd0: 64 2e 0a 2a 2a 0a 2a 2a 20 54 68 65 20 72 65 74  d..**.** The ret
2de0: 75 72 6e 65 64 20 55 54 46 2d 38 20 73 74 72 69  urned UTF-8 stri
2df0: 6e 67 20 69 73 20 61 6c 77 61 79 73 20 5c 30 30  ng is always \00
2e00: 30 20 74 65 72 6d 69 6e 61 74 65 64 2e 0a 2a 2f  0 terminated..*/
2e10: 0a 75 6e 73 69 67 6e 65 64 20 63 68 61 72 20 2a  .unsigned char *
2e20: 73 71 6c 69 74 65 33 75 74 66 31 36 74 6f 38 28  sqlite3utf16to8(
2e30: 63 6f 6e 73 74 20 76 6f 69 64 20 2a 70 44 61 74  const void *pDat
2e40: 61 2c 20 69 6e 74 20 4e 2c 20 69 6e 74 20 62 69  a, int N, int bi
2e50: 67 5f 65 6e 64 69 61 6e 29 7b 0a 20 20 55 74 66  g_endian){.  Utf
2e60: 53 74 72 69 6e 67 20 69 6e 3b 0a 20 20 55 74 66  String in;.  Utf
2e70: 53 74 72 69 6e 67 20 6f 75 74 3b 0a 0a 20 20 6f  String out;..  o
2e80: 75 74 2e 70 5a 20 3d 20 30 3b 0a 0a 20 20 69 6e  ut.pZ = 0;..  in
2e90: 2e 70 5a 20 3d 20 28 75 6e 73 69 67 6e 65 64 20  .pZ = (unsigned 
2ea0: 63 68 61 72 20 2a 29 70 44 61 74 61 3b 0a 20 20  char *)pData;.  
2eb0: 69 6e 2e 6e 20 3d 20 4e 3b 0a 20 20 69 6e 2e 63  in.n = N;.  in.c
2ec0: 20 3d 20 30 3b 0a 0a 20 20 69 66 28 20 69 6e 2e   = 0;..  if( in.
2ed0: 6e 3c 30 20 29 7b 0a 20 20 20 20 69 6e 2e 6e 20  n<0 ){.    in.n 
2ee0: 3d 20 73 71 6c 69 74 65 33 75 74 66 31 36 42 79  = sqlite3utf16By
2ef0: 74 65 4c 65 6e 28 69 6e 2e 70 5a 2c 20 2d 31 29  teLen(in.pZ, -1)
2f00: 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20 41 20 55 54  ;.  }..  /* A UT
2f10: 46 2d 38 20 65 6e 63 6f 64 69 6e 67 20 6f 66 20  F-8 encoding of 
2f20: 61 20 75 6e 69 63 6f 64 65 20 73 74 72 69 6e 67  a unicode string
2f30: 20 63 61 6e 20 72 65 71 75 69 72 65 20 61 74 20   can require at 
2f40: 6d 6f 73 74 20 31 2e 35 20 74 69 6d 65 73 20 61  most 1.5 times a
2f50: 73 0a 20 20 2a 2a 20 6d 75 63 68 20 73 70 61 63  s.  ** much spac
2f60: 65 20 74 6f 20 73 74 6f 72 65 20 61 73 20 74 68  e to store as th
2f70: 65 20 73 61 6d 65 20 73 74 72 69 6e 67 20 65 6e  e same string en
2f80: 63 6f 64 65 64 20 75 73 69 6e 67 20 55 54 46 2d  coded using UTF-
2f90: 31 36 2e 20 41 6c 6c 6f 63 61 74 65 0a 20 20 2a  16. Allocate.  *
2fa0: 2a 20 74 68 69 73 20 6e 6f 77 2e 0a 20 20 2a 2f  * this now..  */
2fb0: 0a 20 20 6f 75 74 2e 6e 20 3d 20 28 69 6e 2e 6e  .  out.n = (in.n
2fc0: 2a 31 2e 35 29 20 2b 20 31 3b 0a 20 20 6f 75 74  *1.5) + 1;.  out
2fd0: 2e 70 5a 20 3d 20 73 71 6c 69 74 65 4d 61 6c 6c  .pZ = sqliteMall
2fe0: 6f 63 28 6f 75 74 2e 6e 29 3b 0a 20 20 69 66 28  oc(out.n);.  if(
2ff0: 20 21 6f 75 74 2e 70 5a 20 29 7b 0a 20 20 20 20   !out.pZ ){.    
3000: 72 65 74 75 72 6e 20 30 3b 0a 20 20 7d 0a 20 20  return 0;.  }.  
3010: 6f 75 74 2e 63 20 3d 20 30 3b 0a 0a 20 20 62 69  out.c = 0;..  bi
3020: 67 5f 65 6e 64 69 61 6e 20 3d 20 72 65 61 64 55  g_endian = readU
3030: 74 66 31 36 42 6f 6d 28 26 69 6e 2c 20 62 69 67  tf16Bom(&in, big
3040: 5f 65 6e 64 69 61 6e 29 3b 0a 20 20 77 68 69 6c  _endian);.  whil
3050: 65 28 20 69 6e 2e 63 3c 69 6e 2e 6e 20 29 7b 0a  e( in.c<in.n ){.
3060: 20 20 20 20 77 72 69 74 65 55 74 66 38 28 26 6f      writeUtf8(&o
3070: 75 74 2c 20 72 65 61 64 55 74 66 31 36 28 26 69  ut, readUtf16(&i
3080: 6e 2c 20 62 69 67 5f 65 6e 64 69 61 6e 29 29 3b  n, big_endian));
3090: 0a 20 20 7d 0a 0a 20 20 2f 2a 20 41 64 64 20 74  .  }..  /* Add t
30a0: 68 65 20 4e 55 4c 4c 2d 74 65 72 6d 69 6e 61 74  he NULL-terminat
30b0: 6f 72 20 63 68 61 72 61 63 74 65 72 20 2a 2f 0a  or character */.
30c0: 20 20 61 73 73 65 72 74 28 20 6f 75 74 2e 63 3c    assert( out.c<
30d0: 6f 75 74 2e 6e 20 29 3b 0a 20 20 6f 75 74 2e 70  out.n );.  out.p
30e0: 5a 5b 6f 75 74 2e 63 5d 20 3d 20 30 78 30 30 3b  Z[out.c] = 0x00;
30f0: 0a 0a 20 20 72 65 74 75 72 6e 20 6f 75 74 2e 70  ..  return out.p
3100: 5a 3b 0a 7d 0a 0a 73 74 61 74 69 63 20 76 6f 69  Z;.}..static voi
3110: 64 20 2a 75 74 66 38 74 6f 55 74 66 31 36 28 63  d *utf8toUtf16(c
3120: 6f 6e 73 74 20 75 6e 73 69 67 6e 65 64 20 63 68  onst unsigned ch
3130: 61 72 20 2a 70 49 6e 2c 20 69 6e 74 20 4e 2c 20  ar *pIn, int N, 
3140: 69 6e 74 20 62 69 67 5f 65 6e 64 69 61 6e 29 7b  int big_endian){
3150: 0a 20 20 55 74 66 53 74 72 69 6e 67 20 69 6e 3b  .  UtfString in;
3160: 0a 20 20 55 74 66 53 74 72 69 6e 67 20 6f 75 74  .  UtfString out
3170: 3b 0a 0a 20 20 69 6e 2e 70 5a 20 3d 20 28 75 6e  ;..  in.pZ = (un
3180: 73 69 67 6e 65 64 20 63 68 61 72 20 2a 29 70 49  signed char *)pI
3190: 6e 3b 0a 20 20 69 6e 2e 6e 20 3d 20 4e 3b 0a 20  n;.  in.n = N;. 
31a0: 20 69 6e 2e 63 20 3d 20 30 3b 0a 0a 20 20 69 66   in.c = 0;..  if
31b0: 28 20 69 6e 2e 6e 3c 30 20 29 7b 0a 20 20 20 20  ( in.n<0 ){.    
31c0: 69 6e 2e 6e 20 3d 20 73 74 72 6c 65 6e 28 69 6e  in.n = strlen(in
31d0: 2e 70 5a 29 3b 0a 20 20 7d 0a 0a 20 20 2f 2a 20  .pZ);.  }..  /* 
31e0: 41 20 55 54 46 2d 31 36 20 65 6e 63 6f 64 69 6e  A UTF-16 encodin
31f0: 67 20 6f 66 20 61 20 75 6e 69 63 6f 64 65 20 73  g of a unicode s
3200: 74 72 69 6e 67 20 63 61 6e 20 72 65 71 75 69 72  tring can requir
3210: 65 20 61 74 20 6d 6f 73 74 20 74 77 69 63 65 20  e at most twice 
3220: 61 73 0a 20 20 2a 2a 20 6d 75 63 68 20 73 70 61  as.  ** much spa
3230: 63 65 20 74 6f 20 73 74 6f 72 65 20 61 73 20 74  ce to store as t
3240: 68 65 20 73 61 6d 65 20 73 74 72 69 6e 67 20 65  he same string e
3250: 6e 63 6f 64 65 64 20 75 73 69 6e 67 20 55 54 46  ncoded using UTF
3260: 2d 38 2e 20 41 6c 6c 6f 63 61 74 65 0a 20 20 2a  -8. Allocate.  *
3270: 2a 20 74 68 69 73 20 6e 6f 77 2e 0a 20 20 2a 2f  * this now..  */
3280: 0a 20 20 6f 75 74 2e 6e 20 3d 20 28 69 6e 2e 6e  .  out.n = (in.n
3290: 2a 32 29 20 2b 20 32 3b 0a 20 20 6f 75 74 2e 70  *2) + 2;.  out.p
32a0: 5a 20 3d 20 73 71 6c 69 74 65 4d 61 6c 6c 6f 63  Z = sqliteMalloc
32b0: 28 6f 75 74 2e 6e 29 3b 0a 20 20 69 66 28 20 21  (out.n);.  if( !
32c0: 6f 75 74 2e 70 5a 20 29 7b 0a 20 20 20 20 72 65  out.pZ ){.    re
32d0: 74 75 72 6e 20 30 3b 0a 20 20 7d 0a 20 20 6f 75  turn 0;.  }.  ou
32e0: 74 2e 63 20 3d 20 30 3b 0a 0a 20 20 77 68 69 6c  t.c = 0;..  whil
32f0: 65 28 20 69 6e 2e 63 3c 69 6e 2e 6e 20 29 7b 0a  e( in.c<in.n ){.
3300: 20 20 20 20 77 72 69 74 65 55 74 66 31 36 28 26      writeUtf16(&
3310: 6f 75 74 2c 20 72 65 61 64 55 74 66 38 28 26 69  out, readUtf8(&i
3320: 6e 29 2c 20 62 69 67 5f 65 6e 64 69 61 6e 29 3b  n), big_endian);
3330: 0a 20 20 7d 0a 0a 20 20 2f 2a 20 41 64 64 20 74  .  }..  /* Add t
3340: 68 65 20 4e 55 4c 4c 2d 74 65 72 6d 69 6e 61 74  he NULL-terminat
3350: 6f 72 20 63 68 61 72 61 63 74 65 72 20 2a 2f 0a  or character */.
3360: 20 20 61 73 73 65 72 74 28 20 28 6f 75 74 2e 63    assert( (out.c
3370: 2b 31 29 3c 6f 75 74 2e 6e 20 29 3b 0a 20 20 6f  +1)<out.n );.  o
3380: 75 74 2e 70 5a 5b 6f 75 74 2e 63 5d 20 3d 20 30  ut.pZ[out.c] = 0
3390: 78 30 30 3b 0a 20 20 6f 75 74 2e 70 5a 5b 6f 75  x00;.  out.pZ[ou
33a0: 74 2e 63 2b 31 5d 20 3d 20 30 78 30 30 3b 0a 0a  t.c+1] = 0x00;..
33b0: 20 20 72 65 74 75 72 6e 20 6f 75 74 2e 70 5a 3b    return out.pZ;
33c0: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 54 72 61 6e 73 6c  .}../*.** Transl
33d0: 61 74 65 20 55 54 46 2d 38 20 74 6f 20 55 54 46  ate UTF-8 to UTF
33e0: 2d 31 36 42 45 20 6f 72 20 55 54 46 2d 31 36 4c  -16BE or UTF-16L
33f0: 45 0a 2a 2f 0a 76 6f 69 64 20 2a 73 71 6c 69 74  E.*/.void *sqlit
3400: 65 33 75 74 66 38 74 6f 31 36 62 65 28 63 6f 6e  e3utf8to16be(con
3410: 73 74 20 75 6e 73 69 67 6e 65 64 20 63 68 61 72  st unsigned char
3420: 20 2a 70 49 6e 2c 20 69 6e 74 20 4e 29 7b 0a 20   *pIn, int N){. 
3430: 20 72 65 74 75 72 6e 20 75 74 66 38 74 6f 55 74   return utf8toUt
3440: 66 31 36 28 70 49 6e 2c 20 4e 2c 20 31 29 3b 0a  f16(pIn, N, 1);.
3450: 7d 0a 0a 76 6f 69 64 20 2a 73 71 6c 69 74 65 33  }..void *sqlite3
3460: 75 74 66 38 74 6f 31 36 6c 65 28 63 6f 6e 73 74  utf8to16le(const
3470: 20 75 6e 73 69 67 6e 65 64 20 63 68 61 72 20 2a   unsigned char *
3480: 70 49 6e 2c 20 69 6e 74 20 4e 29 7b 0a 20 20 72  pIn, int N){.  r
3490: 65 74 75 72 6e 20 75 74 66 38 74 6f 55 74 66 31  eturn utf8toUtf1
34a0: 36 28 70 49 6e 2c 20 4e 2c 20 30 29 3b 0a 7d 0a  6(pIn, N, 0);.}.
34b0: 0a 2f 2a 20 0a 2a 2a 20 54 68 69 73 20 72 6f 75  ./* .** This rou
34c0: 74 69 6e 65 20 64 6f 65 73 20 74 68 65 20 77 6f  tine does the wo
34d0: 72 6b 20 66 6f 72 20 73 71 6c 69 74 65 33 75 74  rk for sqlite3ut
34e0: 66 31 36 74 6f 31 36 6c 65 28 29 20 61 6e 64 0a  f16to16le() and.
34f0: 2a 2a 20 73 71 6c 69 74 65 33 75 74 66 31 36 74  ** sqlite3utf16t
3500: 6f 31 36 62 65 28 29 2e 20 49 66 20 62 69 67 5f  o16be(). If big_
3510: 65 6e 64 69 61 6e 20 69 73 20 31 20 74 68 65 20  endian is 1 the 
3520: 69 6e 70 75 74 20 73 74 72 69 6e 67 20 69 73 0a  input string is.
3530: 2a 2a 20 74 72 61 6e 73 66 6f 72 6d 65 64 20 69  ** transformed i
3540: 6e 20 70 6c 61 63 65 20 74 6f 20 55 54 46 2d 31  n place to UTF-1
3550: 36 42 45 20 65 6e 63 6f 64 69 6e 67 2e 20 49 66  6BE encoding. If
3560: 20 62 69 67 5f 65 6e 64 69 61 6e 20 69 73 20 30   big_endian is 0
3570: 20 74 68 65 6e 0a 2a 2a 20 74 68 65 20 69 6e 70   then.** the inp
3580: 75 74 20 69 73 20 74 72 61 6e 73 66 6f 72 6d 65  ut is transforme
3590: 64 20 74 6f 20 55 54 46 2d 31 36 4c 45 2e 0a 2a  d to UTF-16LE..*
35a0: 2a 0a 2a 2a 20 55 6e 6c 65 73 73 20 74 68 65 20  *.** Unless the 
35b0: 66 69 72 73 74 20 74 77 6f 20 62 79 74 65 73 20  first two bytes 
35c0: 6f 66 20 74 68 65 20 69 6e 70 75 74 20 73 74 72  of the input str
35d0: 69 6e 67 20 69 73 20 61 20 42 4f 4d 2c 20 74 68  ing is a BOM, th
35e0: 65 20 69 6e 70 75 74 20 69 73 0a 2a 2a 20 61 73  e input is.** as
35f0: 73 75 6d 65 64 20 74 6f 20 62 65 20 55 54 46 2d  sumed to be UTF-
3600: 31 36 20 65 6e 63 6f 64 65 64 20 75 73 69 6e 67  16 encoded using
3610: 20 74 68 65 20 6d 61 63 68 69 6e 65 73 20 6e 61   the machines na
3620: 74 69 76 65 20 62 79 74 65 20 6f 72 64 65 72 69  tive byte orderi
3630: 6e 67 2e 0a 2a 2f 0a 73 74 61 74 69 63 20 76 6f  ng..*/.static vo
3640: 69 64 20 75 74 66 31 36 74 6f 31 36 28 76 6f 69  id utf16to16(voi
3650: 64 20 2a 70 44 61 74 61 2c 20 69 6e 74 20 4e 2c  d *pData, int N,
3660: 20 69 6e 74 20 62 69 67 5f 65 6e 64 69 61 6e 29   int big_endian)
3670: 7b 0a 20 20 55 74 66 53 74 72 69 6e 67 20 69 6e  {.  UtfString in
3680: 6f 75 74 3b 0a 20 20 69 6e 6f 75 74 2e 70 5a 20  out;.  inout.pZ 
3690: 3d 20 28 75 6e 73 69 67 6e 65 64 20 63 68 61 72  = (unsigned char
36a0: 20 2a 29 70 44 61 74 61 3b 0a 20 20 69 6e 6f 75   *)pData;.  inou
36b0: 74 2e 63 20 3d 20 30 3b 0a 20 20 69 6e 6f 75 74  t.c = 0;.  inout
36c0: 2e 6e 20 3d 20 4e 3b 0a 0a 20 20 69 66 28 20 69  .n = N;..  if( i
36d0: 6e 6f 75 74 2e 6e 3c 30 20 29 7b 0a 20 20 20 20  nout.n<0 ){.    
36e0: 69 6e 6f 75 74 2e 6e 20 3d 20 73 71 6c 69 74 65  inout.n = sqlite
36f0: 33 75 74 66 31 36 42 79 74 65 4c 65 6e 28 69 6e  3utf16ByteLen(in
3700: 6f 75 74 2e 70 5a 2c 20 2d 31 29 3b 0a 20 20 7d  out.pZ, -1);.  }
3710: 0a 0a 20 20 69 66 28 20 72 65 61 64 55 74 66 31  ..  if( readUtf1
3720: 36 42 6f 6d 28 26 69 6e 6f 75 74 2c 20 53 51 4c  6Bom(&inout, SQL
3730: 49 54 45 5f 42 49 47 45 4e 44 49 41 4e 29 21 3d  ITE_BIGENDIAN)!=
3740: 62 69 67 5f 65 6e 64 69 61 6e 20 29 7b 0a 20 20  big_endian ){.  
3750: 20 20 2f 2a 20 73 77 61 62 28 26 69 6e 6f 75 74    /* swab(&inout
3760: 2e 70 5a 5b 69 6e 6f 75 74 2e 63 5d 2c 20 69 6e  .pZ[inout.c], in
3770: 6f 75 74 2e 70 5a 2c 20 69 6e 6f 75 74 2e 6e 2d  out.pZ, inout.n-
3780: 69 6e 6f 75 74 2e 63 29 3b 20 2a 2f 0a 20 20 20  inout.c); */.   
3790: 20 69 6e 74 20 69 3b 0a 20 20 20 20 66 6f 72 28   int i;.    for(
37a0: 69 3d 30 3b 20 69 3c 28 69 6e 6f 75 74 2e 6e 2d  i=0; i<(inout.n-
37b0: 69 6e 6f 75 74 2e 63 29 3b 20 69 20 2b 3d 20 32  inout.c); i += 2
37c0: 29 7b 0a 20 20 20 20 20 20 63 68 61 72 20 63 31  ){.      char c1
37d0: 20 3d 20 69 6e 6f 75 74 2e 70 5a 5b 69 2b 69 6e   = inout.pZ[i+in
37e0: 6f 75 74 2e 63 5d 3b 0a 20 20 20 20 20 20 63 68  out.c];.      ch
37f0: 61 72 20 63 32 20 3d 20 69 6e 6f 75 74 2e 70 5a  ar c2 = inout.pZ
3800: 5b 69 2b 69 6e 6f 75 74 2e 63 2b 31 5d 3b 0a 20  [i+inout.c+1];. 
3810: 20 20 20 20 20 69 6e 6f 75 74 2e 70 5a 5b 69 5d       inout.pZ[i]
3820: 20 3d 20 63 32 3b 0a 20 20 20 20 20 20 69 6e 6f   = c2;.      ino
3830: 75 74 2e 70 5a 5b 69 2b 31 5d 20 3d 20 63 31 3b  ut.pZ[i+1] = c1;
3840: 0a 20 20 20 20 7d 0a 20 20 7d 65 6c 73 65 20 69  .    }.  }else i
3850: 66 28 20 69 6e 6f 75 74 2e 63 20 29 7b 0a 20 20  f( inout.c ){.  
3860: 20 20 6d 65 6d 6d 6f 76 65 28 69 6e 6f 75 74 2e    memmove(inout.
3870: 70 5a 2c 20 26 69 6e 6f 75 74 2e 70 5a 5b 69 6e  pZ, &inout.pZ[in
3880: 6f 75 74 2e 63 5d 2c 20 69 6e 6f 75 74 2e 6e 2d  out.c], inout.n-
3890: 69 6e 6f 75 74 2e 63 29 3b 0a 20 20 7d 0a 0a 20  inout.c);.  }.. 
38a0: 20 69 6e 6f 75 74 2e 70 5a 5b 69 6e 6f 75 74 2e   inout.pZ[inout.
38b0: 6e 2d 69 6e 6f 75 74 2e 63 5d 20 3d 20 30 78 30  n-inout.c] = 0x0
38c0: 30 3b 0a 20 20 69 6e 6f 75 74 2e 70 5a 5b 69 6e  0;.  inout.pZ[in
38d0: 6f 75 74 2e 6e 2d 69 6e 6f 75 74 2e 63 2b 31 5d  out.n-inout.c+1]
38e0: 20 3d 20 30 78 30 30 3b 0a 7d 0a 0a 2f 2a 0a 2a   = 0x00;.}../*.*
38f0: 2a 20 43 6f 6e 76 65 72 74 20 61 20 73 74 72 69  * Convert a stri
3900: 6e 67 20 69 6e 20 55 54 46 2d 31 36 20 6e 61 74  ng in UTF-16 nat
3910: 69 76 65 20 62 79 74 65 20 6f 72 20 77 69 74 68  ive byte or with
3920: 20 61 20 42 4f 4d 20 69 6e 74 6f 20 61 20 55 54   a BOM into a UT
3930: 46 2d 31 36 4c 45 0a 2a 2a 20 73 74 72 69 6e 67  F-16LE.** string
3940: 2e 20 20 54 68 65 20 63 6f 6e 76 65 72 73 69 6f  .  The conversio
3950: 6e 20 6f 63 63 75 72 73 20 69 6e 2d 70 6c 61 63  n occurs in-plac
3960: 65 2e 20 20 54 68 65 20 6f 75 74 70 75 74 20 6f  e.  The output o
3970: 76 65 72 77 72 69 74 65 73 20 74 68 65 0a 2a 2a  verwrites the.**
3980: 20 69 6e 70 75 74 2e 20 20 4e 20 62 79 74 65 73   input.  N bytes
3990: 20 61 72 65 20 63 6f 6e 76 65 72 74 65 64 2e 20   are converted. 
39a0: 20 49 66 20 4e 20 69 73 20 6e 65 67 61 74 69 76   If N is negativ
39b0: 65 20 65 76 65 72 79 74 68 69 6e 67 20 69 73 20  e everything is 
39c0: 63 6f 6e 76 65 72 74 65 64 0a 2a 2a 20 75 70 20  converted.** up 
39d0: 74 6f 20 74 68 65 20 66 69 72 73 74 20 5c 75 30  to the first \u0
39e0: 30 30 30 20 63 68 61 72 61 63 74 65 72 2e 0a 2a  000 character..*
39f0: 2a 0a 2a 2a 20 49 66 20 74 68 65 20 6e 61 74 69  *.** If the nati
3a00: 76 65 20 62 79 74 65 20 6f 72 64 65 72 20 69 73  ve byte order is
3a10: 20 6c 69 74 74 6c 65 2d 65 6e 64 69 61 6e 20 61   little-endian a
3a20: 6e 64 20 74 68 65 72 65 20 69 73 20 6e 6f 20 42  nd there is no B
3a30: 4f 4d 2c 20 74 68 65 6e 0a 2a 2a 20 74 68 69 73  OM, then.** this
3a40: 20 72 6f 75 74 69 6e 65 20 69 73 20 61 20 6e 6f   routine is a no
3a50: 2d 6f 70 2e 20 20 49 66 20 74 68 65 72 65 20 69  -op.  If there i
3a60: 73 20 61 20 42 4f 4d 20 61 74 20 74 68 65 20 73  s a BOM at the s
3a70: 74 61 72 74 20 6f 66 20 74 68 65 20 73 74 72 69  tart of the stri
3a80: 6e 67 2c 0a 2a 2a 20 69 74 20 69 73 20 72 65 6d  ng,.** it is rem
3a90: 6f 76 65 64 2e 0a 2a 2a 0a 2a 2a 20 54 72 61 6e  oved..**.** Tran
3aa0: 73 6c 61 74 69 6f 6e 20 66 72 6f 6d 20 55 54 46  slation from UTF
3ab0: 2d 31 36 4c 45 20 74 6f 20 55 54 46 2d 31 36 42  -16LE to UTF-16B
3ac0: 45 20 61 6e 64 20 62 61 63 6b 20 61 67 61 69 6e  E and back again
3ad0: 20 69 73 20 61 63 63 6f 6d 70 6c 69 73 68 65 64   is accomplished
3ae0: 0a 2a 2a 20 75 73 69 6e 67 20 74 68 65 20 6c 69  .** using the li
3af0: 62 72 61 72 79 20 66 75 6e 63 74 69 6f 6e 20 73  brary function s
3b00: 77 61 62 28 29 2e 0a 2a 2f 0a 76 6f 69 64 20 73  wab()..*/.void s
3b10: 71 6c 69 74 65 33 75 74 66 31 36 74 6f 31 36 6c  qlite3utf16to16l
3b20: 65 28 76 6f 69 64 20 2a 70 44 61 74 61 2c 20 69  e(void *pData, i
3b30: 6e 74 20 4e 29 7b 0a 20 20 75 74 66 31 36 74 6f  nt N){.  utf16to
3b40: 31 36 28 70 44 61 74 61 2c 20 4e 2c 20 30 29 3b  16(pData, N, 0);
3b50: 0a 7d 0a 0a 2f 2a 0a 2a 2a 20 43 6f 6e 76 65 72  .}../*.** Conver
3b60: 74 20 61 20 73 74 72 69 6e 67 20 69 6e 20 55 54  t a string in UT
3b70: 46 2d 31 36 20 6e 61 74 69 76 65 20 62 79 74 65  F-16 native byte
3b80: 20 6f 72 20 77 69 74 68 20 61 20 42 4f 4d 20 69   or with a BOM i
3b90: 6e 74 6f 20 61 20 55 54 46 2d 31 36 42 45 0a 2a  nto a UTF-16BE.*
3ba0: 2a 20 73 74 72 69 6e 67 2e 20 20 54 68 65 20 63  * string.  The c
3bb0: 6f 6e 76 65 72 73 69 6f 6e 20 6f 63 63 75 72 73  onversion occurs
3bc0: 20 69 6e 2d 70 6c 61 63 65 2e 20 20 54 68 65 20   in-place.  The 
3bd0: 6f 75 74 70 75 74 20 6f 76 65 72 77 72 69 74 65  output overwrite
3be0: 73 20 74 68 65 0a 2a 2a 20 69 6e 70 75 74 2e 20  s the.** input. 
3bf0: 20 4e 20 62 79 74 65 73 20 61 72 65 20 63 6f 6e   N bytes are con
3c00: 76 65 72 74 65 64 2e 20 20 49 66 20 4e 20 69 73  verted.  If N is
3c10: 20 6e 65 67 61 74 69 76 65 20 65 76 65 72 79 74   negative everyt
3c20: 68 69 6e 67 20 69 73 20 63 6f 6e 76 65 72 74 65  hing is converte
3c30: 64 0a 2a 2a 20 75 70 20 74 6f 20 74 68 65 20 66  d.** up to the f
3c40: 69 72 73 74 20 5c 75 30 30 30 30 20 63 68 61 72  irst \u0000 char
3c50: 61 63 74 65 72 2e 0a 2a 2a 0a 2a 2a 20 49 66 20  acter..**.** If 
3c60: 74 68 65 20 6e 61 74 69 76 65 20 62 79 74 65 20  the native byte 
3c70: 6f 72 64 65 72 20 69 73 20 6c 69 74 74 6c 65 2d  order is little-
3c80: 65 6e 64 69 61 6e 20 61 6e 64 20 74 68 65 72 65  endian and there
3c90: 20 69 73 20 6e 6f 20 42 4f 4d 2c 20 74 68 65 6e   is no BOM, then
3ca0: 0a 2a 2a 20 74 68 69 73 20 72 6f 75 74 69 6e 65  .** this routine
3cb0: 20 69 73 20 61 20 6e 6f 2d 6f 70 2e 20 20 49 66   is a no-op.  If
3cc0: 20 74 68 65 72 65 20 69 73 20 61 20 42 4f 4d 20   there is a BOM 
3cd0: 61 74 20 74 68 65 20 73 74 61 72 74 20 6f 66 20  at the start of 
3ce0: 74 68 65 20 73 74 72 69 6e 67 2c 0a 2a 2a 20 69  the string,.** i
3cf0: 74 20 69 73 20 72 65 6d 6f 76 65 64 2e 0a 2a 2a  t is removed..**
3d00: 0a 2a 2a 20 54 72 61 6e 73 6c 61 74 69 6f 6e 20  .** Translation 
3d10: 66 72 6f 6d 20 55 54 46 2d 31 36 4c 45 20 74 6f  from UTF-16LE to
3d20: 20 55 54 46 2d 31 36 42 45 20 61 6e 64 20 62 61   UTF-16BE and ba
3d30: 63 6b 20 61 67 61 69 6e 20 69 73 20 61 63 63 6f  ck again is acco
3d40: 6d 70 6c 69 73 68 65 64 0a 2a 2a 20 75 73 69 6e  mplished.** usin
3d50: 67 20 74 68 65 20 6c 69 62 72 61 72 79 20 66 75  g the library fu
3d60: 6e 63 74 69 6f 6e 20 73 77 61 62 28 29 2e 0a 2a  nction swab()..*
3d70: 2f 0a 76 6f 69 64 20 73 71 6c 69 74 65 33 75 74  /.void sqlite3ut
3d80: 66 31 36 74 6f 31 36 62 65 28 76 6f 69 64 20 2a  f16to16be(void *
3d90: 70 44 61 74 61 2c 20 69 6e 74 20 4e 29 7b 0a 20  pData, int N){. 
3da0: 20 75 74 66 31 36 74 6f 31 36 28 70 44 61 74 61   utf16to16(pData
3db0: 2c 20 4e 2c 20 31 29 3b 0a 7d 0a 0a 2f 2a 0a 2a  , N, 1);.}../*.*
3dc0: 2a 20 54 68 69 73 20 66 75 6e 63 74 69 6f 6e 20  * This function 
3dd0: 69 73 20 75 73 65 64 20 74 6f 20 74 72 61 6e 73  is used to trans
3de0: 6c 61 74 65 20 62 65 74 77 65 65 6e 20 55 54 46  late between UTF
3df0: 2d 38 20 61 6e 64 20 55 54 46 2d 31 36 2e 20 54  -8 and UTF-16. T
3e00: 68 65 0a 2a 2a 20 72 65 73 75 6c 74 20 69 73 20  he.** result is 
3e10: 72 65 74 75 72 6e 65 64 20 69 6e 20 64 79 6e 61  returned in dyna
3e20: 6d 69 63 61 6c 6c 79 20 61 6c 6c 6f 63 61 74 65  mically allocate
3e30: 64 20 6d 65 6d 6f 72 79 2e 0a 2a 2f 0a 69 6e 74  d memory..*/.int
3e40: 20 73 71 6c 69 74 65 33 75 74 66 54 72 61 6e 73   sqlite3utfTrans
3e50: 6c 61 74 65 28 0a 20 20 63 6f 6e 73 74 20 76 6f  late(.  const vo
3e60: 69 64 20 2a 7a 44 61 74 61 2c 20 69 6e 74 20 6e  id *zData, int n
3e70: 44 61 74 61 2c 20 20 2f 2a 20 49 6e 70 75 74 20  Data,  /* Input 
3e80: 73 74 72 69 6e 67 20 2a 2f 0a 20 20 75 38 20 65  string */.  u8 e
3e90: 6e 63 31 2c 20 20 20 20 20 20 20 20 20 20 20 20  nc1,            
3ea0: 20 20 20 20 20 20 20 20 20 20 20 2f 2a 20 45 6e             /* En
3eb0: 63 6f 64 69 6e 67 20 6f 66 20 7a 44 61 74 61 20  coding of zData 
3ec0: 2a 2f 0a 20 20 76 6f 69 64 20 2a 2a 7a 4f 75 74  */.  void **zOut
3ed0: 2c 20 69 6e 74 20 2a 6e 4f 75 74 2c 20 20 20 20  , int *nOut,    
3ee0: 20 20 20 20 2f 2a 20 4f 75 74 70 75 74 20 73 74      /* Output st
3ef0: 72 69 6e 67 20 2a 2f 0a 20 20 75 38 20 65 6e 63  ring */.  u8 enc
3f00: 32 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20  2               
3f10: 20 20 20 20 20 20 20 20 20 2f 2a 20 44 65 73 69           /* Desi
3f20: 72 65 64 20 65 6e 63 6f 64 69 6e 67 20 6f 66 20  red encoding of 
3f30: 6f 75 74 70 75 74 20 2a 2f 0a 29 7b 0a 20 20 61  output */.){.  a
3f40: 73 73 65 72 74 28 20 65 6e 63 31 3d 3d 54 45 58  ssert( enc1==TEX
3f50: 54 5f 55 74 66 38 20 7c 7c 20 65 6e 63 31 3d 3d  T_Utf8 || enc1==
3f60: 54 45 58 54 5f 55 74 66 31 36 6c 65 20 7c 7c 20  TEXT_Utf16le || 
3f70: 65 6e 63 31 3d 3d 54 45 58 54 5f 55 74 66 31 36  enc1==TEXT_Utf16
3f80: 62 65 20 29 3b 0a 20 20 61 73 73 65 72 74 28 20  be );.  assert( 
3f90: 65 6e 63 32 3d 3d 54 45 58 54 5f 55 74 66 38 20  enc2==TEXT_Utf8 
3fa0: 7c 7c 20 65 6e 63 32 3d 3d 54 45 58 54 5f 55 74  || enc2==TEXT_Ut
3fb0: 66 31 36 6c 65 20 7c 7c 20 65 6e 63 32 3d 3d 54  f16le || enc2==T
3fc0: 45 58 54 5f 55 74 66 31 36 62 65 20 29 3b 0a 20  EXT_Utf16be );. 
3fd0: 20 61 73 73 65 72 74 28 20 0a 20 20 20 20 28 65   assert( .    (e
3fe0: 6e 63 31 3d 3d 54 45 58 54 5f 55 74 66 38 20 26  nc1==TEXT_Utf8 &
3ff0: 26 20 28 65 6e 63 32 3d 3d 54 45 58 54 5f 55 74  & (enc2==TEXT_Ut
4000: 66 31 36 6c 65 20 7c 7c 20 65 6e 63 32 3d 3d 54  f16le || enc2==T
4010: 45 58 54 5f 55 74 66 31 36 62 65 29 29 20 7c 7c  EXT_Utf16be)) ||
4020: 0a 20 20 20 20 28 65 6e 63 32 3d 3d 54 45 58 54  .    (enc2==TEXT
4030: 5f 55 74 66 38 20 26 26 20 28 65 6e 63 31 3d 3d  _Utf8 && (enc1==
4040: 54 45 58 54 5f 55 74 66 31 36 6c 65 20 7c 7c 20  TEXT_Utf16le || 
4050: 65 6e 63 31 3d 3d 54 45 58 54 5f 55 74 66 31 36  enc1==TEXT_Utf16
4060: 62 65 29 29 0a 20 20 29 3b 0a 0a 20 20 69 66 28  be)).  );..  if(
4070: 20 65 6e 63 31 3d 3d 54 45 58 54 5f 55 74 66 38   enc1==TEXT_Utf8
4080: 20 29 7b 0a 20 20 20 20 69 66 28 20 65 6e 63 32   ){.    if( enc2
4090: 3d 3d 54 45 58 54 5f 55 74 66 31 36 6c 65 20 29  ==TEXT_Utf16le )
40a0: 7b 0a 20 20 20 20 20 20 2a 7a 4f 75 74 20 3d 20  {.      *zOut = 
40b0: 73 71 6c 69 74 65 33 75 74 66 38 74 6f 31 36 6c  sqlite3utf8to16l
40c0: 65 28 7a 44 61 74 61 2c 20 6e 44 61 74 61 29 3b  e(zData, nData);
40d0: 0a 20 20 20 20 7d 65 6c 73 65 7b 0a 20 20 20 20  .    }else{.    
40e0: 20 20 2a 7a 4f 75 74 20 3d 20 73 71 6c 69 74 65    *zOut = sqlite
40f0: 33 75 74 66 38 74 6f 31 36 62 65 28 7a 44 61 74  3utf8to16be(zDat
4100: 61 2c 20 6e 44 61 74 61 29 3b 0a 20 20 20 20 7d  a, nData);.    }
4110: 0a 20 20 20 20 69 66 28 20 21 28 2a 7a 4f 75 74  .    if( !(*zOut
4120: 29 20 29 20 72 65 74 75 72 6e 20 53 51 4c 49 54  ) ) return SQLIT
4130: 45 5f 4e 4f 4d 45 4d 3b 0a 20 20 20 20 2a 6e 4f  E_NOMEM;.    *nO
4140: 75 74 20 3d 20 73 71 6c 69 74 65 33 75 74 66 31  ut = sqlite3utf1
4150: 36 42 79 74 65 4c 65 6e 28 2a 7a 4f 75 74 2c 20  6ByteLen(*zOut, 
4160: 2d 31 29 3b 0a 20 20 7d 65 6c 73 65 7b 0a 20 20  -1);.  }else{.  
4170: 20 20 2a 7a 4f 75 74 20 3d 20 73 71 6c 69 74 65    *zOut = sqlite
4180: 33 75 74 66 31 36 74 6f 38 28 7a 44 61 74 61 2c  3utf16to8(zData,
4190: 20 6e 44 61 74 61 2c 20 65 6e 63 31 3d 3d 54 45   nData, enc1==TE
41a0: 58 54 5f 55 74 66 31 36 62 65 29 3b 0a 20 20 20  XT_Utf16be);.   
41b0: 20 69 66 28 20 21 28 2a 7a 4f 75 74 29 20 29 20   if( !(*zOut) ) 
41c0: 72 65 74 75 72 6e 20 53 51 4c 49 54 45 5f 4e 4f  return SQLITE_NO
41d0: 4d 45 4d 3b 0a 20 20 20 20 2a 6e 4f 75 74 20 3d  MEM;.    *nOut =
41e0: 20 73 74 72 6c 65 6e 28 2a 7a 4f 75 74 29 3b 0a   strlen(*zOut);.
41f0: 20 20 7d 0a 20 20 72 65 74 75 72 6e 20 53 51 4c    }.  return SQL
4200: 49 54 45 5f 4f 4b 3b 0a 7d 0a                    ITE_OK;.}.