Ich habe diesen Code, der versucht, zu einer URL zu gehen und 'li' Elemente in ein Array zu analysieren. Ich bin jedoch auf ein Problem gestoßen, als ich versucht habe, alles zu parsen, was nicht in einem "b" -Tag ist.Nokogiri Parsing-Tabelle ohne HTML-Element
Code:
url = '(some URL)'
page = Nokogiri::HTML(open(url))
csv = CSV.open("/tmp/output.csv", 'w')
page.search('//li[not(@id) and not(@class)]').each do |row|
arr = []
row.search('b').each do |cell|
arr << cell.text
end
csv << arr
pp arr
end
HTML:
<li><b>The Company Name</b><br>
The Street<br>
The City,
The State
The Zipcode<br><br>
</li>
Ich möchte alle Elemente analysieren, so dass die Ausgabe in etwa so sein würde:
["The Company Name", "The Street", "The City", "The State", "The Zip Code"],
["The Company Name", "The Street", "The City", "The State", "The Zip Code"],
["The Company Name", "The Street", "The City", "The State", "The Zip Code"]
Das eine Riesen Array zurückgibt, wie '[ "Straßenname", "Stadt", "Staat" aussieht" Zip "," Anderer Straßenname "," Andere Stadt "," Anderer Staat "," Anderer Zip "]' – Vladmrnv
Sie haben Recht. hat den Code aktualisiert. –