2016-05-17 8 views
0

Wir migrieren ein asp.net-Intranet zu SharePoint und automatisieren die Konvertierung über PowerShell.Scraping mit Invoke-WebRequest

Wir wollen nur Links aus dem DIV-Tag mit einem Klassennamen 'topnav' verschrotten. Nicht alle Links auf der Seite

$url = "http://intranet.company.com" 
$page = Invoke-WebRequest -Uri $url 
$div_topnav = $page.ParsedHtml.getElementsByTagName('div') | ? {$_.className -match 'topnav'} 

Dies wird uns den HTML-Code der topnav, aber wie man am besten nur die Anwendung Links von den Anwendungen Knoten extrahieren? Wir wollen keine HOME- oder Documents-Knoten?

<div class="topnav" > 
<ul class="lev1 clearfix" > 
    <li class="lev1 pos1 first lev1_first"> 
     <a href="index.html">Home</a> 
    </li> 
    <li class="lev1 pos2 haschildren lev1_haschildren"> 
     <a href="index.html">Applications</a> 
     <ul> 
      <li class="lev2 pos1 first lev2_first"> 
       <a href="http://someurl.com">App 1</a> 
      </li> 
      <li class="lev2 pos2 haschildren lev2_haschildren"> 
       <a href="index.html">Training</a> 
       <ul class="lev3"> 
        <li class="lev3 pos1 lev3_pos1 first lev3_first"> 
         <a href="http://someurl.com">App 3</a> 
        </li> 
        <li class="lev3 pos2 lev3_pos2 last lev3_last"> 
         <a href="http://someurl.com">App 4</a> 
        </li> 
       </ul> 
      </li> 
     </ul> 
    <li class="lev1 pos3 haschildren lev1_haschildren"> 
     <a href="index.html">Documents</a> 
     <ul> 
      <li class="lev2 pos1 first lev2_first"> 
       <a href="http://someurl.com">Doc 1</a> 
      </li> 
      <li class="lev2 pos2 haschildren lev2_haschildren"> 
       <a href="index.html">Training</a> 
       <ul class="lev3"> 
        <li class="lev3 pos1 lev3_pos1 first lev3_first"> 
         <a href="http://someurl.com">Doc 3</a> 
        </li> 
        <li class="lev3 pos2 lev3_pos2 last lev3_last"> 
         <a href="http://someurl.com">Doc 4</a> 
        </li> 
       </ul> 
      </li> 
     </ul> 
    </li> 
</ul> 
</div> 
+0

haben Sie versucht, das Ergebnis in ein anderes 'getElementByTagName ('li')' zu pipettieren? – Bum

+0

aus irgendeinem Grund funktioniert es nicht. Ich denke, ich werde zum Agility Pack wechseln. Zu viel Zeit mit diesem Ansatz verbringen. – user2019423

Antwort

0

Ich denke, das ist, was Sie wollen:

[xml]$div_topnav= 
@"<div class="topnav" > 
    <ul class="lev1 clearfix" > 
    <li class="lev1 pos1 first lev1_first"> 
     <a href="index.html">Home</a> 
    </li> 
    <li class="lev1 pos2 haschildren lev1_haschildren"> 
     <a href="index.html">Applications</a> 
     <ul> 
      <li class="lev2 pos1 first lev2_first"> 
       <a href="http://someurl.com">App 1</a> 
      </li> 
      <li class="lev2 pos2 haschildren lev2_haschildren"> 
       <a href="index.html">Training</a> 
       <ul class="lev3"> 
        <li class="lev3 pos1 lev3_pos1 first lev3_first"> 
         <a href="http://someurl.com">App 3</a> 
        </li> 
        <li class="lev3 pos2 lev3_pos2 last lev3_last"> 
         <a href="http://someurl.com">App 4</a> 
        </li> 
       </ul> 
      </li> 
     </ul> 
    </li> 
     <li class="lev1 pos3 haschildren lev1_haschildren"> 
      <a href="index.html">Documents</a> 
      <ul> 
       <li class="lev2 pos1 first lev2_first"> 
        <a href="http://someurl.com">Doc 1</a> 
       </li> 
       <li class="lev2 pos2 haschildren lev2_haschildren"> 
        <a href="index.html">Training</a> 
        <ul class="lev3"> 
         <li class="lev3 pos1 lev3_pos1 first lev3_first"> 
          <a href="http://someurl.com">Doc 3</a> 
         </li> 
         <li class="lev3 pos2 lev3_pos2 last lev3_last"> 
          <a href="http://someurl.com">Doc 4</a> 
         </li> 
        </ul> 
       </li> 
      </ul> 
     </li> 
    </ul> 
</div> 
"@ 
($div_topnav.GetElementsByTagName("a") | ? "#Text" -Like "App *").href 

Der Ausgang Ihre Links aller Ihrer Apps sein.

PowerShell konnte Ihren gebuchten $ div_topnav-Inhalt nicht analysieren, da in Zeile 6 ein schließendes li-Tag für Ihr li-Tag fehlt (ich habe das in meinem Code-Snippet behoben).