#societas

podmin@societas.online

Verteilung von Sprachen von eingebetteten Links in #Diaspora

Heute: Opengraph und Posts

Non german speaker: Use deepl translator to easily select and translate text everywhere.

Opengraph ist die Technik, die auf einem eingebetteten Link in einem Post, diese netten Kästchen produziert, die meist eine Überschrift (Title), eine Beschreibung (Description) und eventuell ein Bild enthalten.
Und oft auch der Hinweis auf die verwendete Sprache.
Unter https://ogp.me findet man mehr dazu.

#Diaspora hat bisher die Sprache der eingebetteten Links nicht weiter beachtet. Auf #societas wird dies aber herangezogen, um den öffentlichen Stream zu filtern.

Ich habe also alle bei mir abgelegten Links angeschaut und das Feld "og:locale" auslesen lassen. Wurde dieses Feld nicht angegeben, habe ich per CLD3 (Compact Language Detector 3) die Description analysieren lassen.
Hat beides nicht funktioniert, wurde die Sprache eben nicht gesetzt.

Es wurde ca 160.000 Links analysiert, das alleine hat etwa drei Tage gedauert. Die Verteilung der ersten 20 Sprachen habe ich hier mal aufgelistet:

Verteilung der Links nach Sprache

 locale  | count
---------+-------
 en      | 48332
 de      | 39541
 ru      | 18765
 n/a     | 13106
 es      |  7601
 fr      |  5099
 ca      |  1000
 pt      |   659
 it      |   233
 vi      |   114
 ar      |   103
 nl      |    92
 hy      |    74
 bg      |    48
 pl      |    46
 tr      |    45
 el      |    41
 RT DE   |    29
 fi      |    26
 zh      |    26
 sv      |    23

Die erste Zeile hat im Moment noch den größten Anteil, darin verbergen sich die Verlinkungen, die noch nicht analysiert wurden, oder noch analysiert werden müssen.

"RT DE" ist übrigens die von RT-Deutschland, dem russischen Staatssender-  selbst erfundene Sprache.

Man sieht wie so oft: Nur wenige Sprachen dominieren die Kurve flacht extrem schnell ab - Man kann sagen, verlinkungen im Netz - zumindest das von #diaspora erreichbare- finden in wenigen Sprach-Kulturen statt.
Deutsch, English und Russisch teilen den Kuchen unter sich auf.
Bereits ins Französische - die Franzosen haben ja ebenfalls eine grosse Gemeinschaft in #diaspora, verweisen nur auf wenige Links in der eigenen Sprache. Der Mengenmässige Bruch von 1/10 zu Russisch versuche ich später zu beleuchten.

Schaut man sich die übrigen erkannten Sprachen an, so handelt es sich meist um Fehler in der Analyse. Der Sever hat eine falsche Sprache angegeben, oder das Description Feld enthielt Links, Hashtags oder andere nicht klar aufzulösenden Therme. Es handelt sich also eher um Datenrauschen.

Zum Vergleich die Verteilung der Sprachen von Posts:

Verteilung der Sprache in Posts (Text und Nur-Link Posts)

Sprach-ID    | Anzahl  
-------------+--------
 en          | 108268
 de          |  57213
 fr          |  21109
 ru          |  20621
 n/a         |  14138
 es          |  13235
 lb          |   5268
 no          |   5263
 pt          |   3333
 ca          |   3126
 sn          |   3054
 nl          |   2753
 pl          |   1932
 fy          |   1865
 cy          |   1551
 it          |   1418

Es scheint also so zu sein, das man zwar eher in seiner eigenen Sprache schreibt, aber doch öfter auf Englische, deutsche oder russisch-Sprachige Inhalte verweist.

In den eigentlichen Texten gibt es eine deutliche Häufung an der Spitze, die Kurve flacht aber nach einigen besonders fleissigen Schreiben (oder bots?) ab.

Schauen wir uns das Ganze mal sortiert nach Author an. Wie sieht die Verteilung der Beiträge nach Author aus in der jeweiligen Sprache?
Zu erwarten ist eigentlich eine Kurve, die langsam abflacht:

Englisch-Sprachige Posts nach Author

author_id  | Anzahl 
-----------+-------
      2632 | 22773
      3435 |  5408
      2351 |  4677
      4804 |  4323
      1844 |  3058
      2431 |  2957
      1935 |  2778
      3843 |  1852
      2576 |  1832
      2130 |  1662
      4084 |  1638
      2344 |  1433
      6197 |  1334
      3280 |  1317
      4785 |  1283
      4282 |  1189
      2272 |  1163
      2094 |  1119
      2104 |  1099
      2851 |   982
      1860 |   886

Der fleissigste english-Sprachiger Account ist:
schestowitz@joindiaspora.com

Erst nach diesem Spitzenreiter wird einigermaasen gleich verteilt.

Bei den spanischen ("ES") Textbeiträgen sieht es ähnlich aus. Ein Spitzenreiter, dann eine schnell abflachende Kurve:

Spanisch-Sprachige Posts nach Author

 author_id | Anzahl 
-----------+-------
      7072 | 11640
      2328 |   493
      4228 |   416
      3207 |   361
      3701 |   308
      6271 |   130
      8298 |   103
      3343 |   100
      6785 |    60
      2291 |    48
      3435 |    41
      2794 |    32
      2918 |    26
      2031 |    25
      3348 |    23
      4119 |    21

In diesem Fall anscheinend ein weiterer Bot: mauthausengusen@pod.dapor.net

Posts in deutscher Sprache nach Author:

author_id  | Anzahl 
-----------+-------
      1862 |  8855
      1868 |  6783
      3775 |  6460
      5831 |  2793
      4287 |  1963
      4785 |  1678
      4126 |  1664
      1855 |  1481
      1848 |  1470
      2652 |  1195
      1901 |  1121
      2050 |  1013
      3008 |   967
      2031 |   944
      ...
         1 |   101   <- Das bin wohl ich
      2084 |   101
      1963 |   100
      2351 |   100
      1888 |    97
      ...

Schauen wir uns mal die Herkunft der Posts in russischer Sprache mal an:

Russisch-Sprachige Posts nach Author

author_id  | Anzahl 
-----------+-------
      1852 |  9833
      6372 |  3610
      4284 |  2691
      2471 |  1751
      4227 |  1649
      6717 |  1028
      4218 |    33
      1877 |    19
      2464 |    15
      2991 |    15
      4633 |    14
      6410 |    13
      5568 |    13
      2054 |    12
      7467 |    11
      7586 |     8
      2106 |     7
      4334 |     7

Aber Hallo... eine Handvoll Accounts sind für mehr als 98% aller Posts zusändig!
Von über 20.800 Posts erzeugen diese sechs Accounts etwa 20.500.

Die sechs fleißigsten Accounts sind:

  • science_bot@federatica.space
  • federatica_bot@federatica.space
  • hockey_bot@federatica.space
  • rss_habrahabr@pod.afox.me
  • automotive@federatica.space
  • ukraine@federatica.space

Fazit:

Überall gibt es fleissige Bots. Russisch-Sprachige Bots sind allerdings extrem auffällig. Die anderen Sprachen sind erheblich gleichmässiger Verteilt.
Es ist ausserdem eine Momentaufnahme eines einzelnen - und nicht allzu grossen Pods. Es kann gut sein, das auf älteren Pods die verteilung anders aussieht.
Auch ist der Zeitfaktor nicht berücksichtigt. Also die Verteilung der Nachrichten über die Jahre hinweg.
Der Pod der die Daten erhoben hat, ist societas.online

#Sprachverteilung #diaspora #podmin #societas

salinger3-test@diaspora-fr.org

Je viens de créer un compte test sur #diaspora-fr.org
Et un autre sur #societas en vue d'un test d importation.
Voici mon premier retour.
Lors de l inscription on demande une photo de profil et des hastags à suivre.
La photo n'est pas enregistrée sur les deux et les hastags ne sont retenues que sur societas.
C'est vraiment désagréable.
Sur diaspora-fr.org, on voit un message relative ancien de Fla et ensuite des messages datant d il y a deux ans
Pour résoudre cela on est obligé d aller sur les paramètres du profil.

podmin@societas.online

My tests with #diaspora import #migration are running well.
If you want (or need to) move from your pod, I have good news. At least on my development machine I now can import migration files (the zipped json, you can download from your settings menu) as well as the zipped #photos file.

Don't hold your breath, but in the next days I will deploy an early test available for everyone to #societas.

@fla@diaspora-fr.org has a nice new registration formula in the makes that will lead you from new registrations to the migration page. (Still need to adapt this)

podmin@societas.online

A short intermezzo from my other work on #diaspora #sourcecode.
#societas.online pod has now a slightly improved "Popular Tags" section. It know summarizes synonyms of tags.
Eg. On a pod are many #photos, #photo and #myphotos. Another example is the use of plural forms.

Societas now allows the podmin to define lists of synonyms and its stem words.
Also tags without putting more meaning to a post ("lang_ru", "de") or other very general topics can be filtered out.

This is what the tag list in sidbar looked before:
Popular tags then..

and now:
Popular Tags now

The podmin can configure this over time with a simple UI:
Podmin UI

What do other #podmins or #user think? Worth to continue work here? Do you like to see this on other pods? Give me a comment.

(Don't worry. Migration feature is next on my list, but Tags is a currently living feature which needed some overhaul)

Don't expect too much, a real "Trending" feature, with considers a baseline of tags and highlights trends (over just sum up) needs more work.

podmin@societas.online

Just increased the disk size for the #societas #diaspora pod.
It was set up just three months ago as a test/develop system but space was used in a high rate.
Now societas has enough space for the next month.
Ready to test the next major features, like user-migrations.