#societas
Verteilung von Sprachen von eingebetteten Links in #Diaspora
Heute: Opengraph und Posts
Non german speaker: Use deepl translator to easily select and translate text everywhere.
Opengraph ist die Technik, die auf einem eingebetteten Link in einem Post, diese netten Kästchen produziert, die meist eine Überschrift (Title), eine Beschreibung (Description) und eventuell ein Bild enthalten.
Und oft auch der Hinweis auf die verwendete Sprache.
Unter https://ogp.me findet man mehr dazu.
#Diaspora hat bisher die Sprache der eingebetteten Links nicht weiter beachtet. Auf #societas wird dies aber herangezogen, um den öffentlichen Stream zu filtern.
Ich habe also alle bei mir abgelegten Links angeschaut und das Feld "og:locale" auslesen lassen. Wurde dieses Feld nicht angegeben, habe ich per CLD3 (Compact Language Detector 3) die Description analysieren lassen.
Hat beides nicht funktioniert, wurde die Sprache eben nicht gesetzt.
Es wurde ca 160.000 Links analysiert, das alleine hat etwa drei Tage gedauert. Die Verteilung der ersten 20 Sprachen habe ich hier mal aufgelistet:
Verteilung der Links nach Sprache
locale | count
---------+-------
en | 48332
de | 39541
ru | 18765
n/a | 13106
es | 7601
fr | 5099
ca | 1000
pt | 659
it | 233
vi | 114
ar | 103
nl | 92
hy | 74
bg | 48
pl | 46
tr | 45
el | 41
RT DE | 29
fi | 26
zh | 26
sv | 23
Die erste Zeile hat im Moment noch den größten Anteil, darin verbergen sich die Verlinkungen, die noch nicht analysiert wurden, oder noch analysiert werden müssen.
"RT DE" ist übrigens die von RT-Deutschland, dem russischen Staatssender- selbst erfundene Sprache.
Man sieht wie so oft: Nur wenige Sprachen dominieren die Kurve flacht extrem schnell ab - Man kann sagen, verlinkungen im Netz - zumindest das von #diaspora erreichbare- finden in wenigen Sprach-Kulturen statt.
Deutsch, English und Russisch teilen den Kuchen unter sich auf.
Bereits ins Französische - die Franzosen haben ja ebenfalls eine grosse Gemeinschaft in #diaspora, verweisen nur auf wenige Links in der eigenen Sprache. Der Mengenmässige Bruch von 1/10 zu Russisch versuche ich später zu beleuchten.
Schaut man sich die übrigen erkannten Sprachen an, so handelt es sich meist um Fehler in der Analyse. Der Sever hat eine falsche Sprache angegeben, oder das Description Feld enthielt Links, Hashtags oder andere nicht klar aufzulösenden Therme. Es handelt sich also eher um Datenrauschen.
Zum Vergleich die Verteilung der Sprachen von Posts:
Verteilung der Sprache in Posts (Text und Nur-Link Posts)
Sprach-ID | Anzahl
-------------+--------
en | 108268
de | 57213
fr | 21109
ru | 20621
n/a | 14138
es | 13235
lb | 5268
no | 5263
pt | 3333
ca | 3126
sn | 3054
nl | 2753
pl | 1932
fy | 1865
cy | 1551
it | 1418
Es scheint also so zu sein, das man zwar eher in seiner eigenen Sprache schreibt, aber doch öfter auf Englische, deutsche oder russisch-Sprachige Inhalte verweist.
In den eigentlichen Texten gibt es eine deutliche Häufung an der Spitze, die Kurve flacht aber nach einigen besonders fleissigen Schreiben (oder bots?) ab.
Schauen wir uns das Ganze mal sortiert nach Author an. Wie sieht die Verteilung der Beiträge nach Author aus in der jeweiligen Sprache?
Zu erwarten ist eigentlich eine Kurve, die langsam abflacht:
Englisch-Sprachige Posts nach Author
author_id | Anzahl
-----------+-------
2632 | 22773
3435 | 5408
2351 | 4677
4804 | 4323
1844 | 3058
2431 | 2957
1935 | 2778
3843 | 1852
2576 | 1832
2130 | 1662
4084 | 1638
2344 | 1433
6197 | 1334
3280 | 1317
4785 | 1283
4282 | 1189
2272 | 1163
2094 | 1119
2104 | 1099
2851 | 982
1860 | 886
Der fleissigste english-Sprachiger Account ist:
schestowitz@joindiaspora.com
Erst nach diesem Spitzenreiter wird einigermaasen gleich verteilt.
Bei den spanischen ("ES") Textbeiträgen sieht es ähnlich aus. Ein Spitzenreiter, dann eine schnell abflachende Kurve:
Spanisch-Sprachige Posts nach Author
author_id | Anzahl
-----------+-------
7072 | 11640
2328 | 493
4228 | 416
3207 | 361
3701 | 308
6271 | 130
8298 | 103
3343 | 100
6785 | 60
2291 | 48
3435 | 41
2794 | 32
2918 | 26
2031 | 25
3348 | 23
4119 | 21
In diesem Fall anscheinend ein weiterer Bot: mauthausengusen@pod.dapor.net
Posts in deutscher Sprache nach Author:
author_id | Anzahl
-----------+-------
1862 | 8855
1868 | 6783
3775 | 6460
5831 | 2793
4287 | 1963
4785 | 1678
4126 | 1664
1855 | 1481
1848 | 1470
2652 | 1195
1901 | 1121
2050 | 1013
3008 | 967
2031 | 944
...
1 | 101 <- Das bin wohl ich
2084 | 101
1963 | 100
2351 | 100
1888 | 97
...
Schauen wir uns mal die Herkunft der Posts in russischer Sprache mal an:
Russisch-Sprachige Posts nach Author
author_id | Anzahl
-----------+-------
1852 | 9833
6372 | 3610
4284 | 2691
2471 | 1751
4227 | 1649
6717 | 1028
4218 | 33
1877 | 19
2464 | 15
2991 | 15
4633 | 14
6410 | 13
5568 | 13
2054 | 12
7467 | 11
7586 | 8
2106 | 7
4334 | 7
Aber Hallo... eine Handvoll Accounts sind für mehr als 98% aller Posts zusändig!
Von über 20.800 Posts erzeugen diese sechs Accounts etwa 20.500.
Die sechs fleißigsten Accounts sind:
- science_bot@federatica.space
- federatica_bot@federatica.space
- hockey_bot@federatica.space
- rss_habrahabr@pod.afox.me
- automotive@federatica.space
- ukraine@federatica.space
Fazit:
Überall gibt es fleissige Bots. Russisch-Sprachige Bots sind allerdings extrem auffällig. Die anderen Sprachen sind erheblich gleichmässiger Verteilt.
Es ist ausserdem eine Momentaufnahme eines einzelnen - und nicht allzu grossen Pods. Es kann gut sein, das auf älteren Pods die verteilung anders aussieht.
Auch ist der Zeitfaktor nicht berücksichtigt. Also die Verteilung der Nachrichten über die Jahre hinweg.
Der Pod der die Daten erhoben hat, ist societas.online
Je viens de créer un compte test sur #diaspora-fr.org
Et un autre sur #societas en vue d'un test d importation.
Voici mon premier retour.
Lors de l inscription on demande une photo de profil et des hastags à suivre.
La photo n'est pas enregistrée sur les deux et les hastags ne sont retenues que sur societas.
C'est vraiment désagréable.
Sur diaspora-fr.org, on voit un message relative ancien de Fla et ensuite des messages datant d il y a deux ans
Pour résoudre cela on est obligé d aller sur les paramètres du profil.
My tests with #diaspora import #migration are running well.
If you want (or need to) move from your pod, I have good news. At least on my development machine I now can import migration files (the zipped json, you can download from your settings menu) as well as the zipped #photos file.
Don't hold your breath, but in the next days I will deploy an early test available for everyone to #societas.
@fla@diaspora-fr.org has a nice new registration formula in the makes that will lead you from new registrations to the migration page. (Still need to adapt this)
A short intermezzo from my other work on #diaspora #sourcecode.
#societas.online pod has now a slightly improved "Popular Tags" section. It know summarizes synonyms of tags.
Eg. On a pod are many #photos, #photo and #myphotos. Another example is the use of plural forms.
Societas now allows the podmin to define lists of synonyms and its stem words.
Also tags without putting more meaning to a post ("lang_ru", "de") or other very general topics can be filtered out.
This is what the tag list in sidbar looked before:
and now:
The podmin can configure this over time with a simple UI:
What do other #podmins or #user think? Worth to continue work here? Do you like to see this on other pods? Give me a comment.
(Don't worry. Migration feature is next on my list, but Tags is a currently living feature which needed some overhaul)
Don't expect too much, a real "Trending" feature, with considers a baseline of tags and highlights trends (over just sum up) needs more work.
On Saturday #societas will open again for registration. Share this to all who are looking for a new home.