Datenbankerweiterung und Datenbankupdate

Nach einigen Gesprächen und Analysen entschied ich mich zu einer Erweiterung der Datenbank. Diese hat nun die folgende Struktur (Quellecodeauszug aus dem Datenerfassungsprogram):

with memo do
begin
lines.Add('drop table if exists interakt;');
lines.Add('CREATE TABLE `interakt` (');
lines.Add(' `id` integer primary key AUTOINCREMENT,');
lines.Add('`name` varchar(400),');
lines.Add('`url` varchar(400),');
lines.Add('`uid` varchar(400),');
lines.Add('`postid` varchar(400),');
lines.Add('`posturl` varchar(400),');
lines.Add('`tagcloud` varchar(1600),');
lines.Add('`inflid` varchar(400),');
lines.Add('`inflname` varchar(400),');
lines.Add('`postzeit` varchar(400),');
lines.Add('`zeit` varchar(400)');
lines.Add(');');
end;

[Liste: Variablen]
„id“ => laufende Nummer
„name“ => Name des likenden Accounds
„url“ => Profilurl des likenden Accounts
„uid“ => ID des likenden Accounts
„postid“ => ID des beherzten Mediums
„posturl“ => URL des berherzten Mediums
„tagcloud“ => Tagcloud des beherzten Mediums [NEU]
„inflid“ => ID des Accounts des beherzten Mediums [NEU]
„inflname“ => Name des Accounts des beherzten Mediums [NEU]
„postzeit“ => Zeitstempel, Postzeitpunkt des beherzten Mediums [NEU]
„zeit“ => Scrapingzeitpunkt

Das final festgelegte Datenbankformat ist nun SQLite. Die Datenbank umfasst in der aktuellen Version und Struktur ca. 30GB und es lassen sich nun auch relativ sauber die folgenden Fragen entweder beantworten oder interpretieren:

(1) Wieviele Tags machen je Projekt oder Thema überhaupt Sinn?
(2) Wie beliebt oder unbeliebt sind Tags und Tagkombinationen?
(3) Welche Postzeitpunkte ziehen hohe Likeaufkommen / Interaktionen nach sich?
(4) Wie aktiv sind Likende auf den Accounts div. Influencer?
(5) Existieren Querverbindungen zwischen Themen und Themenkombinationen (Tags und Tagclouds)?
(6) Existieren Muster und Auffälligkeiten im Likeverhalten? (Bots, Fakes?)
(7) u.v.m.

Die Datenbank wird relativ unregelmäßig aktualisiert. Befreundete Kolleg_innen, unsere Kund_innen und interessierte Gesprächspartner_innen erhalten zeitnah Zugriff auf die Datenbank in Form einer spezielleren Schnittstelle (eMail-basiert).

Projekt: Instagram-Hashtagdatenbank, Datenbankupdate und weitere Pläne

Die angelegte Datenbank hat nun den folgenden Umfang:

Datenbanküberblick:
Unique-Tags:556022
Anzahl: Tagdatensätze:1579353
Anzahl: Abfragepunkte:28818
Anzahl: Kategorien:117
Letztes Prüfdatum: 18.11.2016

Die hinterlegten Kategorien und Abfragepunkte decken derzeit relativ stark die meisten erfassbaren Themen des Alltags ab und ich werde die finale Version auf ein Volumen von ~3-5 Mio Unique-Tags erweitern.

Neben den realisierten Abfragefunktionen (Tagliste, Tagwolke) sind die folgenden Erweiterungen geplant:

(1) Detailabfragen nach Häufung
– Tagliste und Wolke inklusive der tagesaktuellen Häufung
– Erweiterung der Wolken um Durchschnittshäufungen
(2) Wortpaarprüfungen
– Ausgabe (allgemein, inkl. Häufungen) nach Wortzusammensetzungen (weihnachten+geschenk, geburtstag+geschen, usw.)
– Formate: Taglisten und Tagwolken
(3) Häufungsentwicklungen
– Einzelabfragen und Wortpaare
(4) Textanalysen
– Gegenproben von Texten auf die Datenbank
– Ausgabe der Häufungen
– Ausgabe der durchschnittlichen Häufungen
– Ausgabe der gefundenen Tags als Promovorschlag für die Socialmedia
(5) Alertsystem, Triggersystem
– Infosystem zu geänderten Häufungen
– Infosystem zu „neuen“ Tags
– Infosystem zu „neuen“ Wortpaaren
– Alerts: täglich, wöchentlich etc.

Wir diskutieren und analysieren derzeit intern noch diverse Datenfreigabemöglichkeiten neben der bekannten EMail-Schnittstelle. Im Moment sind die folgenden Optionen bei uns im Gespräch:
(a) Datenauszüge in den Formaten: XLS, JSON, SQL, CSV
(b) Reportings analog zu bspw. XOVI und andere Datendienstleister (PDF)