Fix issue 983 PDF UnicodeDecodeError
authorayleph <ayleph@thisshitistemp.com>
Fri, 4 Dec 2015 07:02:02 +0000 (02:02 -0500)
committerChristopher Allan Webber <cwebber@dustycloud.org>
Thu, 10 Dec 2015 17:11:42 +0000 (11:11 -0600)
Parse PDF lines as unicode to prevent UnicodeDecodeError when a
non-ASCII character is encountered.

mediagoblin/media_types/pdf/processing.py

index f6d10a5f5136641e881c2ffe7729724371ba1370..ac4bab6d55a51a39594d9fabd9d6a472c9ccc8ff 100644 (file)
@@ -207,7 +207,7 @@ def pdf_info(original):
         _log.debug('pdfinfo could not read the pdf file.')
         raise BadMediaFail()
 
-    lines = [l.decode() for l in lines]
+    lines = [l.decode('utf-8', 'replace') for l in lines]
     info_dict = dict([[part.strip() for part in l.strip().split(':', 1)]
                       for l in lines if ':' in l])