Suche nach einer nicht cloudbasierten Open-Source-Anwendung für die Datenumwandlung; obwohl für eine Killer- (und ich meine Killer) App, die nur für Datentransformationen gebaut wurde, könnte ich bereit sein, bis zu $ 1000 auszugeben.Datenerkennung, Analyse, Filterung und Transformation - GUI?
Ich habe mir Perl, Kapow Katalyst, Pentaho Kettle und mehr angesehen.
Perl, Python, Ruby die eindeutig Sprachen sind, aber keine Frameworks/DSLs nur für die Verarbeitung von Daten finden können; Das bedeutet, dass es keine großartigen Entwicklungsumgebungen gibt, was bedeutet, dass es keine eingebauten GUI's zum Erstellen von RegEx, Eingabe/Ausgabe (CSV, XML, JDBC, REST, etc.) gibt, keinen Debugger zum Testen von Zeilen und Zeilen von Daten - sie sind auch nicht schlecht, nur nicht das, was ich suche, das ist eine GUI für komplexe Datentransformationen gebaut; Das heißt, ich würde mich freuen, wenn die GUI/App-Datei in einer Skriptsprache wäre und NICHT nur in einer nicht von Menschen lesbaren XML/ASCII-Datei gespeichert wäre.
Kapow Katalyst wird für den Zugriff auf Daten via HTTP (HTML, CSS, RSS, JavaScript, etc.) gemacht es zur Umwandlung von unstrukturierten Text eine schöne GUI bekam, aber das ist nicht ihr Kernwert bietet, und ist Art und Weise, Art und Weise zu teuer. Es ist eine gute Aufgabe, Dokumentnamensraumpfade zu durchlaufen; Ich vermute, es ist nur XPath auf dem Back-End, da die Syntax scheint die gleiche zu sein.
Pentaho Kettle hat eine nette GUI für INPUT/OUTPUT der meisten gängigen Datenspeicher, und seine eigenen Umgang mit Datenverarbeitung; Das ist okay und hat nur eine kleine Lernkurve. Der Debugger von Kettle ist in Ordnung, da die Daten leicht zu sehen sind, aber die Fehler und Ausnahmen werden nicht mit der Ausgabe verknüpft, und es gibt keine Möglichkeit, ein Problem wirklich zu debuggen. Das bedeutet, dass Sie die Ausgabe/Fehler/Ausnahme nicht neu laden können, aber die Systemfeedback sehen können. Alles, was gesagt wurde, Kettle Daten Transformation ist _______ nun, lassen Sie uns einfach sagen, es ließ mich Gefühl, dass ich etwas verpassen muss, weil ich völlig verwirrt war "wenn es nicht möglich ist, einfach die Umwandlung in JavaScript schreiben"; Ähm, was?
Also, irgendwelche Vorschläge? Stellen Sie sich vor, dass ich nicht wirklich transformations spezifiziert habe, aber wenn Sie wirklich ein Produkt für Daten Munging verwenden, würde ich gerne darüber wissen; sogar übertreffen, schätze ich.
Im Allgemeinen suche ich derzeit nach einem Produkt, das 1000-100.000 Zeilen mit 10-100 Spalten verarbeiten kann. Es wäre super cool, wenn es Datensätze erstellen könnte, was eine Funktion von Kettle ist, aber nicht super gut. Ich würde auch gern integrierte Komponententests verwenden, was bedeutet, dass ich Kontrollsätze von Daten aufbauen und Änderungen an dem Kontrollsatz ausführen kann. Dann möchte ich in der Lage sein, selektiv Zeilen und Spalten herauszufiltern, während ich die Transformation ausbilde, ohne den Build zu ändern. Ich führe beispielsweise einen Datensatz durch Transformation aus, filtere die Ergebnisse, und beim nächsten Durchlauf werden diese Sätze beim ersten "logischen" Auftreten automatisch blockiert. was wiederum bedeuten würde, dass weniger Daten zu sehen sind und eine reduzierte Laufzeit für jede erweiterte Iteration; Was wäre verrückt, wenn ich die Zeilen/Spalten ausfiltern würde, die die App verfolgt (und die Ausgabe wurde herausgefiltert). und Einheit getestet/markiert alle Änderungen. Wenn ich eine Änderung vornehmen würde, die die Anwendungsprotokolle und die Fähigkeit, die Komponententests zu verfolgen basierend auf mir "brechen einen Zweig" - würde es mich warnen lassen, lassen Sie mich die gespeicherten Daten ablegen ... und/oder verfolgen die Primärschlüssel für den Unterschied in der nächsten Generation der Ausgabe oder sogar versuchen, sie unter Verwendung von Fuzzy-Logik zu vergleichen. Und ja, ich weiß, das ist ein Wunschtraum, aber hey, dachte ich würde fragen, nur für den Fall, dass da draußen etwas ist, das ich noch nie gesehen habe.
Fühlen Sie sich frei zu kommentieren, ich würde mich freuen, alle Fragen zu beantworten, oder bieten zusätzliche Informationen.
Bis zu $ 1000? Wie bist du zu dieser Nummer gekommen? Welche Produkte haben Sie angeschaut? –
@ S.Lott: "Bis zu 1000 $? Wie sind Sie bei dieser Nummer angekommen?" Unternehmen Budget, wirklich nicht daran interessiert, Geld auszugeben, obwohl. Ich habe CloverELT angeschaut; Die CE hat sehr wenig Transformationsunterstützung. Tatsächlich scheinen die meisten ETL nicht einmal komplexe Transformationen durchzuführen. Bin nicht zu Talend gekommen, obwohl die Java-Version 60-70% mehr Transformationen als die Perl-Version zu haben scheint. Scheint mir am meisten ETL Fokus auf das E und L, nicht das T; obwohl ich komplett neu dazu bin und hauptsächlich Kapow/RoboSuite in der Vergangenheit zum Extrahieren von Daten aus dem Internet verwendet habe; Jetzt konzentriere ich mich nur auf Datentransformation Builds – blunders
@ S.Lott: Hier ist eine Aufschlüsselung der CloverETL CE-Funktionen, die sie gerade gepostet: http://www.cloveretl.com/products/community-edition/features – blunders