2016-06-24 11 views
0

Ich habe Probleme beim Schaben das genaue Stück Daten, die ich von der UCAS-Website wollen.Schienen mechanisieren Daten scrapping korrekte Daten/Reinigung

den Kurstitel den Code unten verwenden Ich ziehe Derzeit:

course_page.search('ol.resultscontainer li').each do |course| 
    @course_name = course.search('.courseTitle').text 

Was mich mit zum Beispiel lautet:

Mathematics (PGDE - Graduates only) 

Und mit dem unten Ich ziehe den Kurstitel mit dem UCAS Code in Klammern:

course_page.search('ol.resultscontainer li').each do |course| 
      @ucas_numb = clean_text(course.search('h4').text) 

Was mich mit ihm:

Mathematics (PGDE - Graduates only)(G1X1) 

Alles, was ich im letzten Beispiel abrufen möchte, ist der UCAS-Code (G1X1 im obigen Beispiel). Kann mir jemand mit einer Methode helfen, diese entweder zu reinigen oder nur den zu scrapenden UCAS-Code auszuwählen?

Unten ist der Code von der UCAS Website Ich Schabe, die mit den Daten-I kratzen wollen Angebote:

<h4><a href="/course/summary/452492/mathematics-pgde-graduates-only?Count…&page=6&providerids=41&Feather=7&MaxResults=1000&ret=results"> 

     <span class="courseTitle"></span> 
    (G1X1) 
</a> <h4> 

Antwort

0

Für alle, die wissen möchten, ich sloved dies durch den span class Entfernen mit der folgende Code lautet:

  # Removes excess html which was interferring with text 
      course.search(
       '.coursenamearea a span,').remove