2016-06-20 22 views
0

Ich versuche, ein PDF zu lesen und die erste Seite als Bild zu speichern. Diese Methode funktioniert für http, funktioniert aber nicht für https.Das Lesen von pdfs mit RMagick von https gibt einen nicht autorisierten Fehler

require 'RMagick' 

url = "http://www.ke.tu-darmstadt.de/publications/reports/tud-ke-2008-07.pdf" 
image = Magick::Image.read(url + "[0]") 
=> [http://www.ke.tu-darmstadt.de/publications/reports/tud-ke-2008-07.pdf[0]=>tud-ke-2008-07.pdf PDF 595x842 595x842+0+0 DirectClass 16-bit 27kb] 

url = "https://www.cs.purdue.edu/homes/dgleich/publications/Gleich%202003%20-%20Machine%20Learning%20in%20Computer%20Chess.pdf" 
image = Magick::Image.read(url + "[0]") 
Magick::ImageMagickError: not authorized `//www.cs.purdue.edu/homes/dgleich/publications/Gleich%202003%20-%20Machine%20Learning%20in%20Computer%20Chess.pdf' @ error/constitute.c/ReadImage/454 

Die policy.xml Datei sieht wie folgt aus, ohne sie bearbeitet haben:

<?xml version="1.0" encoding="UTF-8"?> 
<!DOCTYPE policymap [ 
<!ELEMENT policymap (policy)+> 
<!ELEMENT policy (#PCDATA)> 
<!ATTLIST policy domain (delegate|coder|filter|path|resource) #IMPLIED> 
<!ATTLIST policy name CDATA #IMPLIED> 
<!ATTLIST policy rights CDATA #IMPLIED> 
<!ATTLIST policy pattern CDATA #IMPLIED> 
<!ATTLIST policy value CDATA #IMPLIED> 
]> 
<!-- 
    Configure ImageMagick policies. 

    Domains include system, delegate, coder, filter, path, or resource. 

    Rights include none, read, write, and execute. Use | to combine them, 
    for example: "read | write" to permit read from, or write to, a path. 

    Use a glob expression as a pattern. 

    Suppose we do not want users to process MPEG video images: 

    <policy domain="delegate" rights="none" pattern="mpeg:decode" /> 

    Here we do not want users reading images from HTTP: 

    <policy domain="coder" rights="none" pattern="HTTP" /> 

    Lets prevent users from executing any image filters: 

    <policy domain="filter" rights="none" pattern="*" /> 

    The /repository file system is restricted to read only. We use a glob 
    expression to match all paths that start with /repository: 

    <policy domain="path" rights="read" pattern="/repository/*" /> 

    Any large image is cached to disk rather than memory: 

    Define arguments for the memory, map, area, and disk resources with 
    SI prefixes (.e.g 100MB). In addition, resource policies are maximums for 
    each instance of ImageMagick (e.g. policy memory limit 1GB, -limit 2GB 
    exceeds policy maximum so memory limit is 1GB). 
--> 
<policymap> 
    <!-- <policy domain="system" name="precision" value="6"/> --> 
    <!-- <policy domain="resource" name="temporary-path" value="/tmp"/> --> 
    <!-- <policy domain="resource" name="memory" value="2GiB"/> --> 
    <!-- <policy domain="resource" name="map" value="4GiB"/> --> 
    <!-- <policy domain="resource" name="area" value="1GB"/> --> 
    <!-- <policy domain="resource" name="disk" value="16EB"/> --> 
    <!-- <policy domain="resource" name="file" value="768"/> --> 
    <!-- <policy domain="resource" name="thread" value="4"/> --> 
    <!-- <policy domain="resource" name="throttle" value="0"/> --> 
    <!-- <policy domain="resource" name="time" value="3600"/> --> 
    <policy domain="coder" rights="none" pattern="EPHEMERAL" /> 
    <policy domain="coder" rights="none" pattern="URL" /> 
    <policy domain="coder" rights="none" pattern="HTTPS" /> 
    <policy domain="coder" rights="none" pattern="MVG" /> 
    <policy domain="coder" rights="none" pattern="MSL" /> 
    <policy domain="coder" rights="none" pattern="TEXT" /> 
    <policy domain="coder" rights="none" pattern="SHOW" /> 
    <policy domain="coder" rights="none" pattern="WIN" /> 
    <policy domain="coder" rights="none" pattern="PLT" /> 
    <policy domain="path" rights="none" pattern="@*" /> 
</policymap> 
+0

Haben Sie eine Imagemagick-Richtliniendatei, die https verbietet (beliebt nach den imagetragick-Schwachstellen)? –

+0

Ich glaube nicht, dass ich eine Richtliniendatei habe. Ich fand nur eine verwandte Sache online, aber es war Heroku spezifisch: http://www.imagemagick.org/discourse-server/viewtopic.php?f=2&t=29657&p=133125&hilit=Magick%3A%3AImageMagickError%3A+ nicht + # p133125 und https://gist.github.com/yanowitz/8329d8b27d8294ca7027f504326fd629 – Eric

+0

Standardposition autorisieren ist /etc/ImageMagick/policy.xml - ich denke, es gibt immer eine solche Datei ist (obwohl es leer sein kann). Der Fehler, den Sie erhalten, ist der gleiche, den ich erhalte, wenn ich eine solche Richtlinie erstelle. –

Antwort

1

Es klingt wie Ihre imagemagick Richtliniendatei erlaubt keinen Zugriff auf https. Dies ist mit einer Richtlinie geschehen, die sieht aus wie

<policy domain="coder" rights="none" pattern="HTTPS" /> 

Dieser Teil des empfohlenen policy.xml nach einer letzten Runde von ImageMagick security vulnerabilities war.

Sie könnten natürlich policy.xml bearbeiten, um dies zu entfernen (ich weiß nicht von Anfang an, ob imagemagick sich beschweren wird, wenn die Datei komplett fehlt), aber dies kann Sie für diese Schwachstellen offen lassen, wenn Sie hosten Anbieter war auf diese Motivationen angewiesen

Eine weitere Möglichkeit ist, die Datei herunterzuladen und dann Rmagick bitten, diese lokale Datei zu lesen - die Richtlinie beschränkt ImageMagick nur auf den https-Zugriff selbst.

+0

Es sieht so aus, als hätte die policy.xml bereits diese Zeile und einige andere, die ich in meiner Frage aktualisiert habe. Ich könnte versuchen, diese Zeile zu entfernen, aber könnte einer der anderen Probleme beim Lesen von PDF-Dateien aus dem Internet verursachen? – Eric

+0

Ich glaube nicht. –

+0

Ich entfernte diese Zeile und versuchte es erneut, aber ein neuer Fehler: Magick :: ImageMagickError: Datei konnte nicht geöffnet werden '/ tmp/magick-w2acfoOL ': Keine solche Datei oder Verzeichnis @ error/constituent.c/ReadImage/583 – Eric