InstaLOC: Freigabe der ersten Themendatenbank (Home&Living)

Gestern veranlasste ich die Freigabe der ersten Datenbank, welche den DACH-Raum und Teile der EU nach den Themenwelten der Sparte „Home & Living“ abbildet.

Die Grunddaten der SQLite-Datei sind:

Speicher: ca. 5GB
Beiträge: 8.532.446
User_innen: 2.495.311
Locations: 473.903
Medienzeitstempel: 4.863.183

Interessierte Leser_innen des Arbeitsblogs können sich zu der Datenbank unter den folgenden Auszügen weitergehende Eindrücke verschaffen:

(1) Locationliste + Sum(Postings), unverschlüsselt
https://drive.google.com/open?id=18rVNt2zTfKBmUl606O-L1mMsExvhI4iH
(2) Locationliste + Sum(Likes), unverschlüsselt
https://drive.google.com/open?id=1S3QMkwyo82w3SkH7YhrlZoixZRNlsSiI
(3) Medienpostzeitstempel, unverschlüsselt
https://drive.google.com/open?id=1EtRVSRuFhI5oyE9s6KHBcGKrDF_ARMRv
(4) Tagwolkenliste, unverschlüsselt
https://drive.google.com/open?id=14tXw59I3ky7_bbQ5znG_D4dSGo0rYfkw

Hinweise:
Hinter den CSV-Dateien stehen entsprechende SQL-Statements, die in diesem Blog dokumentiert wurden und dokumentiert werden. Die Datensätze sind unkategorisiert und nicht interpretiert: sie befinden sich quasi in einem Rohdatenzustand.

Supportanfragen, Interpretationsanfragen oder Anfragen zur Strategieableitung bitte an:
Anne Lehmann: office(at)pontipix.de (Wobus & Lehmann GbR), Preisliste unter: https://www.pontimania.de/
Dr. Klaus Holthausen: https://www.linkedin.com/in/dr-klaus-holthausen-1464b043/

Notiz: Diverse SQL-Abfragen für den Komplex „InstaLOC“

(A) Statistiken, Allgemeines
(1) Komplettüberblick
select count(url) as Beiträge, count(distinct(username)) as Nutzer_innen, count(distinct(location)) as Locations, count(distinct(filter)) as Fotofilter, count(distinct(erstellzeit)) as Medienzeitstempel, sum(likes) as Summe_Likes, sum(comments) as Summe_Kommentare from locations;

(2) Überblick nach Locationfilter
select count(url) as Beiträge, count(distinct(username)) as Nutzer_innen, count(distinct(location)) as Locations, count(distinct(filter)) as Fotofilter, count(distinct(erstellzeit)) as Medienzeitstempel, sum(likes) as Summe_Likes, sum(comments) as Summe_Kommentare from locations where location like '%germany%';

(3) Überblick nach Tagfilter
select count(url) as Beiträge, count(distinct(username)) as Nutzer_innen, count(distinct(location)) as Locations, count(distinct(filter)) as Fotofilter, count(distinct(erstellzeit)) as Medienzeitstempel, sum(likes) as Summe_Likes, sum(comments) as Summe_Kommentare from locations where tag like '%hausbau%'

(4) Überblick nach Tag- und Locationfilter
select count(url) as Beiträge, count(distinct(username)) as Nutzer_innen, count(distinct(location)) as Locations, count(distinct(filter)) as Fotofilter, count(distinct(erstellzeit)) as Medienzeitstempel, sum(likes) as Summe_Likes, sum(comments) as Summe_Kommentare from locations where (tag like '%hausbau%') and (location like '%germany%');

(5) Auflistung der Nutzer_innen mit Summe der „produzierten“ Likes
select distinct(username) , Anz_Likes from(
Select username, sum(likes) as Anz_likes from locations GROUP BY username ) as my_table order by Anz_likes DESC;

(6) Auflistung der Nutzer_innen mit Summe der verbundenen Locations, absteigend
select distinct(username) , Anz_Locations from(
Select username, count(location) as Anz_Locations from locations GROUP BY username ) as my_table order by Anz_Locations DESC;

(7) Auflistung der Nutzer_innen+Location zzgl. der Medienanzahl (Summe), absteigend
select username , location , Anz_Locations from(
Select username, location, count(location) as Anz_Locations from locations GROUP BY username ) as my_table where location like '%berlin%' order by Anz_Locations DESC;

(8) Tiefenprüfung auf einen Useraccount+Anzahl-Postings/Locations, absteigend
select username , location , Anzahl_Postings from(
Select username, location, count(location) as Anzahl_Postings from locations GROUP BY username ) as my_table where (location like '%berlin%') and (username = 'share') order by Anzahl_Postings DESC;

(9) Stadtrecherchen aus den Themenweltendatenbanken
select location from locations where (location like '%titude":51.339%') and (location like '%itude":12.377%')
Hinweise:
– Beispiel ist Leipzig
– weitere Städte unter http://www.fwiegleb.de/geo-a.htm

(10) Bereinigte Ausgabe der Tagwolken
select distinct(REPLACE(tag,'%22','"')) as Tagwolke from locations;

(11) Bereinigte Ausgabe der Locations inkl. Aufsummierung der Likes
SELECT distinct(location) as Orte, Anz_Likes from(
Select location, sum(likes) as Anz_likes from locations GROUP BY location ) as my_table order by Anz_Likes DESC;

(12) Bereinigte Ausgabe der Locations inkl. Aufsummierung der Postings
SELECT distinct(location) as Orte, Anz_User from(
Select location, count(username) as Anz_User from locations GROUP BY location ) as my_table order by Anz_User DESC

Hinweise:
– Durch die DB-Struktur werden die Beiträge „username“ zugeordnet und „username“ = „Beitrag“.

(B) Recherchen: Tagwolken
(1) Auflistung aller Tagwolken mit Aufsummierung der Likes, absteigend

SELECT distinct(tag) as Tagwolke, Anz_Likes from(
Select tag, sum(likes) as Anz_likes from locations GROUP BY tag ) as my_table order by Anz_Likes DESC

Hinweise:
(a) Bei Recherche nach den Comments, kann „likes“ zu „comments“ ausgetauscht werden.
(b) Die Abfrage listet alle Tagwolken – ungefiltert – auf und sortiert die Ergebnisse nach der Summe der Likes, welche durch die Tagwolken „produziert“ wurden.

(2) Auflistung der Tagwolken nach Suche mit Aufsummierung der Likes, absteigend

SELECT tag as Tagwolke, Anz_Likes from(
Select tag, sum(likes) as Anz_likes from locations GROUP BY username ) as my_table where tag like '%leipzig%' order by Anz_Likes DESC

Hinweise:
(a) Bei Recherche nach den Comments, kann „likes“ zu „comments“ ausgetauscht werden.
(b) Die Abfrage listet alle Tagwolken – ungefiltert – auf und sortiert die Ergebnisse nach der Summe der Likes, welche durch die Tagwolken „produziert“ wurden.

InstaLOC: Etablierung der Themenwelten-Datenbanken und Datenauszüge aus dem Komplex „Home & Living“

Inhalte der Datenbank: ca. 12.000 * 2000 Beiträge aus „Home&Living“-bezogenen Themenabfragen
Speichergröße der Datenbank: ca. 1.6GB, Format: SQLite

Beispielrohdatensätze
Abfrage via SQLiteStudio
select REPLACE(tag,'%22','"') as Tagwolke, likes, comments, location, erstellzeit from locations where tag like '%[keyword]%'

Datenlinks (CSV)
(1) Tagwolke: Carport.csv (2MB)
(2) Tagwolke: Hausbau.csv (gepackt: 10MB, entpackt: 64MB)
(3) Tagwolke: Haus.csv (gepackt: 27MB, entpackt: 147MB)

CSV-Schema
Tagwolke|Likes|Coments|Location(Geocode+ID+Titel)|Erstellzeitstempel

Allgemeine Datensätze
(1) Liste: Locations.csv (gepackt: 7MB, entpackt: 23MB)

Hinweise
Durch die modifizierte Abfrage wurde die Tagwolke etwas lesbarer gemacht. Man muss bei der Sichtung und Prüfung jedoch die Umlaute und Piktogramme bei Bedarf noch umwandeln, oder eben auf unseren Client zurückgreifen. Die Beispieldatensätze beinhalten nicht die Postingurl, Fotofilter und Usernames und erlauben daher keinerlei Rückschlüsse auf eventuelle Influencer. Diese Angaben werden bei Buchung der kostenpflichtigen Angebote (Workshops, Datenabfragen etc.) offen gelegt und – bei Bedarf – erklärt.

InstaLOC: Accountrecherchen auf Basis der Likes und Comments

Die modifizierten Datenbankspalten erlauben nun genauere Accountbegutachtungen für Influencerrecherchen, Suche nach Trendursprüngen und die folgenden Queries verdeutlichen die Anwendungsszenarien:

(1) User zu Location
SELECT location, username as Nutzer, Anz_Likes from(
Select location, username, sum(likes) as Anz_likes from locations GROUP BY username ) as my_table
where location like '%hotel%' order by Anz_Likes DESC

Diese Abfrage verschafft einen Überblick zu den Usernames. Hierbei werden die Beiträge den Locations zugeordnet und die Likes aufsummiert.
Aufgaben:
(a) Auflistung der Accounts, welche bei den Locations eventuell Trends setzen
(b) Auflistung der Influenceraccounts, welche an den Locations für Reichweite sorgen (können)

(2) Userbewertung – Basis
SELECT username as Nutzer, Anz_Likes from(
Select username, sum(likes) as Anz_likes from locations GROUP BY username ) as my_table order by Anz_Likes DESC

Diese Abfrage verschafft einen Überblick zu den Usern in Verbindung mit den aufsummierten Likes.
Aufgaben:
(a) Erste Grobrecherche

(3) User zu Location und Zeitfenster
SELECT location, username as Nutzer, Anz_Likes from(
Select location, erstellzeit, username, sum(likes) as Anz_likes from locations GROUP BY username ) as my_table
where (erstellzeit like '%.2016%') and (location like '%hotel%') order by Anz_Likes DESC

Diese Abfrage verschafft einen Überblick zu den Usernames. Hierbei werden die Beiträge den Locations zugeordnet, nach einem Zeitfenster gefiltert und die Likes aufsummiert.
Aufgaben:
(a) Auflistung der Accounts, welche bei den Locations eventuell Trends setzen
(b) Auflistung der Influenceraccounts, welche an den Locations für Reichweite sorgen (können)

Diese Abfragen lassen sich recht problemlos auf die Tagwolken umschreiben.
Die Rechercheoptionen werden zeitnah in den neuen Client überführt und via Reports in die Beratungsprojekte integriert.

InstaLOC: letzte Bugfixes und Datenbankupdates

Per sofort wurden die Datenbankspalten „likes“ und „comments“ von „VARCHAR“ auf „INTEGER“ gewechselt.

Diese Modifikation erlaubt nun tiefergehende Location-, Themenwelten- und Hashtagbegutachtungen auf Basis der Werthaltigkeitsindikatoren „likes“ und „comments“.

Folgende Queries verdeutlichen das:

(1) Basis-Abfrage 01
select tag, likes,comments, location from locations where (location like '%leipzig%') and (likes > 10) order by likes DESC
Exportdatei: LE_likes (ZIP, CSV)
Erklärung: Die Datei beinhaltet die Daten „Tagwolke“, Anzahl Comments+Likes, die Locations aus der Datenbank, wo der Locationname die Zeichenkette „Leipzig“ trägt. Es werden Ergebnisse ausgespielt, welche mind. 10 Likes beinhalten.

(2) Basis-Abfrage 02
select tag, likes,comments, location from locations where (tag like '%thisis%') and (location like '%leipzig%') and (likes > 10) order by likes DESC
Exportdatei: LE_tags_likes (ZIP, CSV)
Erklärung: Die Datei beinhaltet die Daten „Tagwolke“, Anzahl Comments+Likes, die Locations aus der Datenbank, wo der Locationname die Zeichenkette „Leipzig“ trägt UND wo in der Tagwolke die Zeichenkette „thisis“ vorkommt. Es werden Ergebnisse ausgespielt, welche mind. 10 Likes beinhalten.

(3) Locationbewertung nach Likes / Comments
SELECT location as Ort, Anz_Likes from(
Select location, sum(likes) as Anz_likes from locations GROUP BY location ) as my_table
WHERE (Anz_Likes >= 2) AND (location like '%leipzig%') order by Anz_Likes DESC

Exportdatei: LE_locs_likes (ZIP, CSV)
Erklärung: Die Datei summiert alle vorhandenen Likes zu den Locations mit Zeichenkettenabschnitt „leipzig“ auf und erlaubt einen ersten Überblick dazu, wie „beliebt“ die recherchierten Locations – nach den Instagramdaten – sind. Die Abfrage muss hier – bei Bedarf – auf die Comments umgeschrieben werden. Das ist recht einfach so zu erledigen, dass aus „sum(likes)“ eben „sum(comments)“ geschrieben wird. Ich werde noch prüfen, wie die Aufsummierung der Likes UND Comments in einem Export / Report zu lösen ist.

(4) Tagwolkenbewertung nach Likes / Comments
SELECT tag as Ort, location, Anz_Likes from(
Select tag, location, sum(likes) as Anz_likes from locations GROUP BY tag ) as my_table
WHERE (tag like '%thisis%') order by Anz_Likes DESC

Exportdatei: LE_tagsumlikes (ZIP, CSV)
Erklärung: Die Ausgabedatei beinhaltet die Auflistung aller „unique“ Tagwolken, deren Locations und die Aufsummierung der Likes (optional: Comments).

Die neuen Recherchefunktionen werden zeitnah in den Client übertragen.

Anleitung: Datenbankmodifikation (YT)

Pinterest: Strategiewechsel und erste Zahlen

Aktuelle Beobachtungen aus dem Rohmaterial der Instagramprojekte (InstaLOC, Hashtagreichweiten etc.) ergaben neue Gedanken und Strategien im Bezug auf Instagram.

Hier habe ich mir die folgenden Fragen gestellt:

(1) Lässt sich Pinterest für das Setzen von Links benutzen?
(2) Funktioniert auf Pinterest das Instagram-Bildmaterial?

Um das Experiment sinnvoll zu starten, veröffentlichte ich auf dem Account zwei Boards mit Inhalten aus einer Spezialnische der Analogfotografie. Diese nennt sich „Soaked-Films“ und beschreibt die künstlerische Beeinflussung der Emulsionsschicht(en), welche sich auf den unbelichteten Negativen (Farbe!) befinden. Hier legte ich die Filmdosen in saure Flüssigkeiten (Kaffee, Tee, Bier, Wein etc.) ein und schaue mir an, welche Effekte sich nach Belichtung und Entwicklung auf den Bildern zeigen. Auf Instagram wurden die Bildreihen erfolgreich und mit wenig Aufwand positioniert und die Contententscheidung bzgl. Pinterest wurde nach der Sichtung div. Rückmeldungen und der üblichen Interaktionsmetriken gefällt.

Nach Motivwahl wurden die Algorithmen des InstaLOC-Scrapers/Datenauswerters mit dem Schema der Interessensmatritzen synchronisiert. Diese Symbiose ergab keinerlei Unterschiede zwischen dem Datenmaterialen der Plattformen und ich entschied mich zu einer „schmalen“ Bildbeschreibung / Hashtagwolkenfokussierung in der Beschreibung der Pins.

Die Inhalte der Boards wurden mit einer (Big)data-gesteuerten Strategie in der Plattform positioniert und der Ansatz beschreibt einen Vorgang, der so ausschaut:
(a) Auslesen der Trends auf Basis von InstaLOC
(b) Auslesen der Interessen auf Basis der Matrix-Strategie
(c) Match von (a) und (b): Ausgabe der geeigneten Tagwolken
(d) Abgleich von (c) mit den Beobachtungen aus Instagram (wahlweise weitere Datenquellen)
(e) Einspielen der Materialien in die Plattform und KI-gesteuerte Präsentation bei den potentiellen Zielgruppen.

Hier die Ergebnisse der Pins, welche vor ca. 5 Tagen veröffentlicht wurden.

Hier der Zielgruppenüberblick des Einspeiseaccounts.

Interessant ist auch die Entwicklung des Einspeiseaccounts. Dieser widerlegt u.a. auch viele Thesen aus der Branche. Ich sehe hier ein stabiles Besuchervolumen von über 43.000 Accounts zu 1.481 Interaktionen mit einer starken Gewichtung auf den DACH-Raum (28.521 -> Deutschland). Das Geschlechterverhältnis ist ca. 28.000 (Frauen) zu ca. 15.000 (Männer).

Die Zahlen der aktuellen Ergebnisse empfand ich als überraschend gut und das Grundgefühl verstärkte sich bei Abgleich mit den konservativ positionierten Materialien. Durch interessante Positionssprünge der hinterlegten URLS (teilweise N/A auf Seite 1-3 unter härteren Keywords) wurde hier die Entscheidung gefällt, die (neue) Pinterest-Strategie in das Tagesgeschäft zu überführen.

InstaLOC – Sichtung und Abfragen bzgl. der „Themenweltdatenbank“

Für die Prüfung und auch „Eichung“ der erweiterten Datenquelle (hier: Tagsearch mit Ergänzung zu den Locations) wurde eine Themenweltdatenbank angelegt, welche auch durch aktuelles Zeitgeschehen inspiriert ist.

Der Scraper benötigte 20 Stunden für die Erfassung der Daten, wobei diese Zeit auf 2 Tage verteilt und eine Liste mit ca. 6000 „Spezialterms“ abgearbeitet wurde.

Datenbankstatistik:
Anz. Einträge: 1238290
Anz. Filter: 45
Anz. Tagsclouds: 1011505
Anz. Locations: 110648
Anz. Accounts: 553799
Anz. Posting/Zeitstempel: 806680
Dateigröße (Byte): 689319936

Beispielabfragen:
(1) select location, erstellzeit from locations where (tag like ‚%22aXX%22‘) and (tag like ‚%22mXXXXXXXXXXXX%22′) and (location <> ’null‘);

Übersetzung:
Hole alle Locations und Erstellzeitpunkte (Zeitstempel) aus der Datenbank, wo die „tag like“ Bedingungen zutreffen und eine Location hinterlegt ist.
Ergebnisse:
771 Einträge

(2) select count(distinct(location)) from locations where (tag like ‚%22aXX%22‘) and (tag like ‚%22mXXXXXXXXXXXX%22′) and (location <> ’null‘);
Übersetzung:
Hole Locations aus der Datenbank, wo die „tag like“ Bedingungen zutreffen und eine Location hinterlegt ist.
Ergebnisse:
99 Einträge (für count(distinct(location)),
Liste (PDF, Locations, für „select location“)
Liste (PDF, Erstellzeit + Location, für „select location, erstellzeit“)

(3) select count(username) from locations where (tag like ‚%22aXX%22‘) and (tag like ‚%22mXXXXXXXXXXX%22‘);
Übersetzung:
Zähle die Accounts zusammen, wo in den Tagwolken die 2 abgefragten Terms vorkommen.
Ergebnisse:
3077 Einträge

Projekt „InstaLOC“ – Datenbankbefüllung auf Basis der Tagsuche

(1) Vorbereitung
Im ersten Schritt wird die Datenbank angelegt.

with sql_befehle do
begin
clear;
lines.Add('drop table if exists locations;');
lines.Add('CREATE TABLE `locations` (');
lines.Add(' `id` integer primary key AUTOINCREMENT,');
lines.Add('`url` varchar(400),');
lines.Add('`tag` varchar(2000),');
lines.Add('`likes` varchar(400),');
lines.Add('`comments` varchar(400),');
lines.Add('`erstellzeit` varchar(400),');
lines.Add('`post_id` varchar(1600),');
lines.Add('`username` varchar(400),');
lines.Add('`location` varchar(400),');
lines.Add('`filter` varchar(400),');
lines.Add('`pruefzeit` varchar(400)');
lines.Add(');');
lines.Add('vacuum;');
end;
fdquery3.ExecSQL(sql_befehle.text);

Die Datei umfasst folgende Spalten:
ID -> Nummerierung der Einträge (Zeilen)
URL -> erfasste Beitragsurl
Tag -> erfasste Tagwolke
Likes -> erfasste Likes als Zahl
Comments -> erfasste Comments als Zahl
Post_ID -> per Instagram vergebene Medien/Beitrags-ID
Username -> Username: Wer hat den Beitrag veröffentlicht?
Location -> Location des Beitrages, falls vom User freigegeben (GeoCode + Name)
Filter -> Fotofilter des veröffentlichten Beitrages
Erstellzeit -> Wann wurde der Beitrag veröffentlicht?
Pruefzeit -> Wann wurde der Beitrag vom Scraper erfasst UND in die Datenbank gespeichert?

(2) Scrapingvorgang
for lauf := strtoint(uebertrag.Text) to memo8.Lines.Count-1 do
begin
randomize;
token.Text:=token.Items[random(token.Items.Count-1)];
getmedia_db(locmedia,memo8.Lines[lauf],200);
end;

(3) Scrapingprozedur

procedure TForm1.getmedia_db(mytable: TStringGrid; tagsearch: string; rounds: integer);
var
JSONArray: tJSONArray;
JSONValue,jvalue: tJSONValue;
JSONPair: TJSONPair;
JSON, json_sub: TJSONObject;
size: integer;
j_array: tJSONArray;
s: string;
i,j: integer;
next_id: string;
zaehl: integer;
url,tag,likes,comments,post_id,username,location,filter,pruefzeit: widestring;
erstellzeit: string;
begin
sql_befehle.Clear;
memo3.Lines.Add('url => https://api.instagram.com/v1/tags/'+escape(tagsearch)+'/media/recent?access_token='+token.text);
try
debug.text:=idhttp1.Get('https://api.instagram.com/v1/tags/'+escape(tagsearch)+'/media/recent?access_token='+token.text);
JSONValue := TJSONObject.ParseJSONValue(debug.text);
JSON := TJSONObject.ParseJSONValue(debug.Lines.Text) as TJSONObject;
JSONArray := TJSONArray(JSON.Get('data').JsonValue);
try next_id:= JSONValue.GetValue('pagination.next_url');
except
next_id:='N/A';
end;
for i := 0 to JSONArray.Size - 1 do
begin
url:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('link')).JsonValue.Value);
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('tags')).ToString);
s:= StringReplace(s, '"tags":[', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, ']', '', [rfReplaceAll,rfIgnoreCase]);
tag:=escape(s);
memo7.Lines.Add(unescape(tag));
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('likes')).ToString);
s:= StringReplace(s, '"likes":{"count":', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, '}', '', [rfReplaceAll,rfIgnoreCase]);
likes:=s;
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('comments')).ToString);
s:= StringReplace(s, '"comments":{"count":', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, '}', '', [rfReplaceAll,rfIgnoreCase]);
comments:=s;
erstellzeit:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('created_time')).JsonValue.Value);
erstellzeit:=datetimetostr(UnixToDateTime(strtoint(erstellzeit)));
post_id:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('id')).JsonValue.Value);
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('user')).ToString);
s:= StringReplace(s, '"user":{"username":', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, '}', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, '"', '', [rfReplaceAll,rfIgnoreCase]);
username:=s;
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('location')).ToString);
s:= StringReplace(s, '"location":', '', [rfReplaceAll,rfIgnoreCase]);
location:=s;
filter:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('filter')).JsonValue.Value);
pruefzeit:=datetimetostr(now);
with sql_befehle.Lines do
begin
add('INSERT INTO `locations` (`url`, `tag`, `likes`, `comments`, `erstellzeit`, `post_id`, `username`, `location`, `filter`, `pruefzeit`) Values ('''+url+''', '''+tag+''', '''+likes+''', '''+comments+''', '''+erstellzeit+''', '''+post_id+''', '''+username+''', '''+location+''', '''+filter+''', '''+pruefzeit+''');');
end;
end;
fdquery3.ExecSQL(sql_befehle.text);
sql_befehle.Clear;
except
end;
if next_id<>'N/A' then
begin
repeat
// -> tiefenpruefung
if next_id='N/A' then
break;
delay(strtoint(frequenz1.Text));
try
debug.text:=idhttp1.Get(next_id);
JSONValue := TJSONObject.ParseJSONValue(debug.text);
JSON := TJSONObject.ParseJSONValue(debug.Lines.Text) as TJSONObject;
JSONArray := TJSONArray(JSON.Get('data').JsonValue);
try next_id:= JSONValue.GetValue('pagination.next_url');
except
next_id:='N/A';
break;
end;
for i := 0 to JSONArray.Size - 1 do
begin
url:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('link')).JsonValue.Value);
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('tags')).ToString);
s:= StringReplace(s, '"tags":[', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, ']', '', [rfReplaceAll,rfIgnoreCase]);
tag:=escape(s);
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('likes')).ToString);
s:= StringReplace(s, '"likes":{"count":', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, '}', '', [rfReplaceAll,rfIgnoreCase]);
likes:=s;
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('comments')).ToString);
s:= StringReplace(s, '"comments":{"count":', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, '}', '', [rfReplaceAll,rfIgnoreCase]);
comments:=s;
erstellzeit:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('created_time')).JsonValue.Value);
erstellzeit:=datetimetostr(UnixToDateTime(strtoint(erstellzeit)));
post_id:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('id')).JsonValue.Value);
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('user')).ToString);
s:= StringReplace(s, '"user":{"username":', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, '}', '', [rfReplaceAll,rfIgnoreCase]);
s:= StringReplace(s, '"', '', [rfReplaceAll,rfIgnoreCase]);
username:=s;
s:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('location')).ToString);
s:= StringReplace(s, '"location":', '', [rfReplaceAll,rfIgnoreCase]);
location:=s;
filter:=(TJSONPair(TJSONObject(JSONArray.Get(i)).Get('filter')).JsonValue.Value);
pruefzeit:=datetimetostr(now);
with sql_befehle.Lines do
begin
add('INSERT INTO `locations` (`url`, `tag`, `likes`, `comments`, `erstellzeit`, `post_id`, `username`, `location`, `filter`, `pruefzeit`) Values ('''+url+''', '''+tag+''', '''+likes+''', '''+comments+''', '''+erstellzeit+''', '''+post_id+''', '''+username+''', '''+location+''', '''+filter+''', '''+pruefzeit+''');');
end;
end;
fdquery3.ExecSQL(sql_befehle.text);
sql_befehle.Clear;
except
break;
end;
// -> tiefenpruefung, ende
zaehl:=zaehl+1;
until zaehl=rounds;
end;
end;

Prozeduraufruf.

getmedia_db(locmedia,memo8.Lines[lauf],200);

Erklärung, Prozedurlogik:

Die Variable „locmedia“ ist für das Szenarium relativ uninteressant und wird aktiviert, wenn bspw. die gescrapten Daten in ein Stringgridobjekt zwecks Gegensichtung übergeben werden müssen. Die Variable „memo8.lines[X]“ beschreibt den Zwischenspeicherort der Tagliste(n), wobei „X“ oder „lauf“ die Position des Terms / Tags in der Liste beschreibt. Die Variable „200“ sagt aus, wie tief die Scrapingprozedur forschen soll. In dem Fall handelt es sich um 200×20 (-> 4000) Beiträge je Suchanfrage.

Projekt „InstaLoc“ – Wechsel der Datenscrapertechnologie

Nach diversen Gesprächen, Socialmediabeobachtungen usw. entschied ich mich zur festen Einbindung eines weiteren Datenscraperansatzes.
Dieser interpretiert nun die Stadt nicht als Konstruktion mit einer Grenze, sondern als „Gegend“ mit der Stadt als Mittelpunkt.

Konkrete Beispiele können sein:

Datenbank „Mainz“ -> Mainz + Wiesbaden
Datenbank „Apolda“ -> Apolda + Weimar + Jena + div. Dörfer (falls auslesbar)
Datenbank „Leipzig“ -> Leipzig + Halle + Merseburg

Der Testlauf zum Raum „Mainz“ ergab ca. 25.700 auslesbare Locations zu max. 2000 Beiträge und ein Datenerfassungsdurchlauf beansprucht etwas um die 24 Stunden.

Im Zuge der nächsten Updates werden weitere Erhebungsmethoden getestet und ggf. in die Prozeduren eingebaut.

Die massive Datenausweitung und das feinmaschig erfasste Locationnetz erlaubt nun (auch nach Rückmeldung der Kolleg_innen) die Beantwortung folgender Fragen:

(1) Wo befinden sich ansprechbare (!) Zielgruppen?
(2) Was machen die ansprechbaren Zielgruppen an welchen Orten (gez. durch die Tagwolken, Fotofilter, Emotionsäußerungen etc.)=
(3) Wie sind die Bewegungsstrecken von ansprechbaren Zielgruppen gestaltet? (Hotel->Bar, Hotel->Museum, FashionStore->Bar->Club usw.)
(4) …

Anwendungsszenarien der interpretierbaren Rohdaten / Analysedaten können auch sein:
(1) Genauere Auswahl von Plakatplätzen in Städten
(2) Genauere Auswahl und Briefings von Promotiontrupps (Flyerverteilungen, Werbegeschenkeverteilungen)
(3) div. politische Analysen, pol. Trendanalysen
(4) Trendanalysen in Bezug auf Orte und Ortsverbindungen für Auf- und Abbau v. lokalen Geschäften
(5) Konkurrenzanalysen auf Locationbasis (hier: Sprache und Interaktionen)
(6) Möglichkeiten: Verkauftrigger / Lead- und Saleunterstützungen
(7) Kundengruppen: Interessensschwerpunktanalyse- und reportings (Freizeitverhalten u.a.)

An der Stelle bedanke ich mich bei Georg Grohs, Dr. Klaus Holthausen / Andrea Fetzer (Roland Berger), Lars Heinemann, Mitossi und Dirk Schumann für die treibende und kreative Beurteilung des Projektes.

InstaLOC-Projekt, Freigabe der Version 0.10 Beta

Ich habe soeben die Freigabe für die Versionsnummer 0.10Beta erteilt. Die entsprechende Datei befindet sich in dem – intern geteilten – Dropboxordner und trägt den Namen „insta_loc_15082018_010Beta.zip“.

Bedienungsanleitungsvideos:
InstaLoc-Forschungsprojekt/Software (Basisfunktionen – Likes): https://youtu.be/CkZSVPC8KJY
InstaLoc-Forschungsprojekt/Software (Basisfunktionen – Accountebene): https://youtu.be/VXPzhanL-vw
InstaLoc-Forschungsprojekt/Software (Filter: Tagwolkenanalyse, Locations): https://youtu.be/qh2bowhnMbI
InstaLoc-Forschungsprojekt/Software (Tagwolkenanalyse, Locations): https://youtu.be/5aefOGaGy-o
InstaLoc-Forschungsprojekt/Software (Tagwolkenanalyse): https://youtu.be/Ey9B6Skm9Y4

Wir vergeben an 2 besondere und ausgewählte Kolleg_innen jeweils eine Kopie der Auswertungssoftware und sind offen für entsprechende Gespräche, Anfragen und Nachfragen.