2016-06-30 11 views
0

Sagen wir, wir haben verschiedene Links für Facebook-Seiten. Ich möchte die "Entität" in diesen Links extrahieren. Zum Beispiel:Extrahieren Sie den letzten Teil einer Facebook-Seite URL

In http://www.facebook.com/pages/Blue-Mountain-Aromatics/561694213861926 Ich möchte 'Blue-Mountain-Aromatics' extrahieren.

In http://www.facebook.com/1905BocaJuniors Ich möchte '1905BocaJuniors' extrahieren.

In https://www.facebook.com/7upGuatemala?ref=br_tf Ich will '7upGuatemala' extrahieren

In http://www.fb.com/supligenjm Ich will 'supligenjm' extrahieren

In http://www.facebook.com/axebolivia?sk=wall&filter=1 möchte ich extrahieren 'axebolivia'

ich versucht habe, mit vielen wenn- andere Anweisungen, um es abzubremsen, aber am Ende des Tages ist es nur Spaghetti-Code.

Irgendwelche Hilfe?

+1

Können Sie einen Teil des bereits erstellten Codes posten? – mikeyq6

Antwort

1
try: 
    from urlparse import urlparse 
except ImportError: 
    from urllib.parse import urlparse 

links = [ 
    'http://www.facebook.com/pages/Blue-Mountain-Aromatics/561694213861926', 
    'http://www.facebook.com/1905BocaJuniors', 
    'https://www.facebook.com/7upGuatemala?ref=br_tf', 
    'http://www.fb.com/supligenjm', 
    'http://www.facebook.com/axebolivia?sk=wall&filter=1', 
] 


for url in links: 
    url = urlparse(url) 
    path = url.path.split('/') 
    entity = path[2] if path[1] == 'pages' else path[1] 
    print(entity) 
+0

Perfekt !!! Danke vielmals! –

1

Der Python-3-Version von @ Robᵩs Antwort (und in funtion neu geschrieben):

from urllib.parse import urlparse 

links = [ 
    'http://www.facebook.com/pages/Blue-Mountain-Aromatics/561694213861926', 
    'http://www.facebook.com/1905BocaJuniors', 
    'https://www.facebook.com/7upGuatemala?ref=br_tf', 
    'http://www.fb.com/supligenjm', 
    'http://www.facebook.com/axebolivia?sk=wall&filter=1', 
] 

def fb_extract(url): 
    url = urlparse(url) 
    path = url.path.split('/') 
    entity = path[2] if path[1] == 'pages' else path[1] 
    return entity 

for url in links: 
    fb_extract(url) 

hoffte, das hilft!