Bugzilla #502
[exim.git] / src / src / sieve.c
index 9dd04eee7bc969ba0b90272f5a98b20cfcaa95f7..e243f653c3433792358e00f1b88a3301d67840e3 100644 (file)
@@ -1,4 +1,4 @@
-/* $Cambridge: exim/src/src/sieve.c,v 1.26 2007/03/21 15:15:12 ph10 Exp $ */
+/* $Cambridge: exim/src/src/sieve.c,v 1.28 2007/04/19 13:19:06 ph10 Exp $ */
 
 /*************************************************
 *     Exim - an Internet mail transport agent    *
@@ -1195,8 +1195,212 @@ return 1;
 }
 
 
+#ifdef ENCODED_CHARACTER
+/*************************************************
+*      Decode hex-encoded-character string       *
+*************************************************/
+
+/*
+Encoding definition:
+   blank                = SP / TAB / CRLF
+   hex-pair-seq         = *blank hex-pair *(1*blank hex-pair) *blank
+   hex-pair             = 1*2HEXDIG
+
+Arguments:
+  src         points to a hex-pair-seq
+  end         points to its end
+  dst         points to the destination of the decoded octets,
+              optionally to (uschar*)0 for checking only
+
+Returns:      >=0              number of decoded octets
+              -1               syntax error
+*/
+
+static int hex_decode(uschar *src, uschar *end, uschar *dst)
+{
+int decoded=0;
+
+while (*src==' ' || *src=='\t' || *src=='\n') ++src;
+do
+  {
+  int x,d,n;
+
+  for (x=0,d=0; d<2 && src<end && isxdigit(n=tolower(*src)); x=(x<<4)|(n>='0' && n<='9' ? n-'0' : 10+(n-'a')),++d,++src);
+  if (d==0) return -1;
+  if (dst) *dst++=x;
+  ++decoded;
+  if (src==end) return decoded;
+  if (*src==' ' || *src=='\t' || *src=='\n')
+    while (*src==' ' || *src=='\t' || *src=='\n') ++src;
+  else
+    return -1;
+  }
+while (src<end);
+return decoded;
+}
+
+
+/*************************************************
+*    Decode unicode-encoded-character string     *
+*************************************************/
+
+/*
+Encoding definition:
+   blank                = SP / TAB / CRLF
+   unicode-hex-seq      = *blank unicode-hex *(blank unicode-hex) *blank
+   unicode-hex          = 1*HEXDIG
+
+   It is an error for a script to use a hexadecimal value that isn't in
+   either the range 0 to D7FF or the range E000 to 10FFFF.
+
+   At this time, strings are already scanned, thus the CRLF is converted
+   to the internally used \n (should RFC_EOL have been used).
+
+Arguments:
+  src         points to a unicode-hex-seq
+  end         points to its end
+  dst         points to the destination of the decoded octets,
+              optionally to (uschar*)0 for checking only
+
+Returns:      >=0              number of decoded octets
+              -1               syntax error
+              -2               semantic error (character range violation)
+*/
+
+static int unicode_decode(uschar *src, uschar *end, uschar *dst)
+{
+int decoded=0;
+
+while (*src==' ' || *src=='\t' || *src=='\n') ++src;
+do
+  {
+  uschar *hex_seq;
+  int c,d,n;
+
+  unicode_hex:
+  for (hex_seq=src; src<end && *src=='0'; ++src);
+  for (c=0,d=0; d<7 && src<end && isxdigit(n=tolower(*src)); c=(c<<4)|(n>='0' && n<='9' ? n-'0' : 10+(n-'a')),++d,++src);
+  if (src==hex_seq) return -1;
+  if (d==7 || (!((c>=0 && c<=0xd7ff) || (c>=0xe000 && c<=0x10ffff)))) return -2;
+  if (c<128)
+    {
+    if (dst) *dst++=c;
+    ++decoded;
+    }
+  else if (c>=0x80 && c<=0x7ff)
+    {
+      if (dst)
+        {
+        *dst++=192+(c>>6);
+        *dst++=128+(c&0x3f);
+        }
+      decoded+=2;
+    }
+  else if (c>=0x800 && c<=0xffff)
+    {
+      if (dst)
+        {
+        *dst++=224+(c>>12);
+        *dst++=128+((c>>6)&0x3f);
+        *dst++=128+(c&0x3f);
+        }
+      decoded+=3;
+    }
+  else if (c>=0x10000 && c<=0x1fffff)
+    {
+      if (dst)
+        {
+        *dst++=240+(c>>18);
+        *dst++=128+((c>>10)&0x3f);
+        *dst++=128+((c>>6)&0x3f);
+        *dst++=128+(c&0x3f);
+        }
+      decoded+=4;
+    }
+  if (*src==' ' || *src=='\t' || *src=='\n')
+    {
+    while (*src==' ' || *src=='\t' || *src=='\n') ++src;
+    if (src==end) return decoded;
+    goto unicode_hex;
+    }
+  }
+while (src<end);
+return decoded;
+}
+
+
+/*************************************************
+*       Decode encoded-character string          *
+*************************************************/
+
+/*
+Encoding definition:
+   encoded-arb-octets   = "${hex:" hex-pair-seq "}"
+   encoded-unicode-char = "${unicode:" unicode-hex-seq "}"
+
+Arguments:
+  encoded     points to an encoded string, returns decoded string
+  filter      points to the Sieve filter including its state
+
+Returns:      1                success
+              -1               syntax error
+*/
+
+static int string_decode(struct Sieve *filter, struct String *data)
+{
+uschar *src,*dst,*end;
+
+src=data->character;
+dst=src;
+end=data->character+data->length;
+while (src<end)
+  {
+  uschar *brace;
+
+  if (
+      strncmpic(src,US "${hex:",6)==0
+      && (brace=Ustrchr(src+6,'}'))!=(uschar*)0
+      && (hex_decode(src+6,brace,(uschar*)0))>=0
+     )
+    {
+    dst+=hex_decode(src+6,brace,dst);
+    src=brace+1;
+    }
+  else if (
+           strncmpic(src,US "${unicode:",10)==0
+           && (brace=Ustrchr(src+10,'}'))!=(uschar*)0
+          )
+    {
+    switch (unicode_decode(src+10,brace,(uschar*)0))
+      {
+      case -2:
+        {
+        filter->errmsg=CUS "unicode character out of range";
+        return -1;
+        }
+      case -1:
+        {
+        *dst++=*src++;
+        break;
+        }
+      default:
+        {
+        dst+=unicode_decode(src+10,brace,dst);
+        src=brace+1;
+        }
+      }
+    }
+  else *dst++=*src++;
+  }
+  data->length=dst-data->character;
+  *dst='\0';
+return 1;
+}
+#endif
+
+
 /*************************************************
-*          Parse a optional string               *
+*          Parse an optional string              *
 *************************************************/
 
 /*
@@ -1243,6 +1447,11 @@ if (*filter->pc=='"') /* quoted string */
       ++filter->pc;
       /* that way, there will be at least one character allocated */
       data->character=string_cat(data->character,&dataCapacity,&foo,CUS "",1);
+#ifdef ENCODED_CHARACTER
+      if (filter->require_encoded_character
+          && string_decode(filter,data)==-1)
+        return -1;
+#endif
       return 1;
       }
     else if (*filter->pc=='\\' && *(filter->pc+1)) /* quoted character */
@@ -1327,6 +1536,11 @@ else if (Ustrncmp(filter->pc,CUS "text:",5)==0) /* multiline string */
         filter->pc+=2;
 #endif
         ++filter->line;
+#ifdef ENCODED_CHARACTER
+        if (filter->require_encoded_character
+            && string_decode(filter,data)==-1)
+          return -1;
+#endif
         return 1;
         }
       else if (*filter->pc=='.' && *(filter->pc+1)=='.') /* remove dot stuffing */
@@ -1368,7 +1582,7 @@ static int parse_identifier(struct Sieve *filter, const uschar *id)
 {
   size_t idlen=Ustrlen(id);
 
-  if (Ustrncmp(filter->pc,id,idlen)==0)
+  if (strncmpic(US filter->pc,US id,idlen)==0)
   {
     uschar next=filter->pc[idlen];