Ile słów trzeba znać, żeby zrozumieć tekst


Kilka dni temu rozpocząłem projekt pracy nad rozbudowywaniem mojego słownictwa w hindi w oparciu o dialogi z filmu “Kraina Lodu” (“Frozen”) – więcej info tutaj. Jedno z pytań, które sobie wówczas stawiałem, było bardzo ciekawe: Ile słów trzeba znać, żeby zrozumieć tekst?

Zainspirował mnie tutaj również artykuł: Learning languages very quickly – with the help of some very basic data science, którego autor zebrał napisy do wielu odcinków ulubionych seriali w języku szwedzkim i przeanalizował zawarte w nich słówka za pomocą opracowanego przez siebie skryptu. Doszedł do wniosku, że w przypadku tego języka zasada Pareto rzeczywiście się sprawdza – 20% słówek wystarczyło do zrozumienia 80% tekstu.

Postanowiłem przeprowadzić podobny eksperyment z użyciem napisów do filmu Frozen w języku polskim, angielskim, niemiecki, francuskim i arabskim.

Zastanawiały mnie następujące kwestie:

  1. Czy rzeczywiście 20% słówek z napisów pozwoli zrozumieć 80% całego tekstu w każdym z tych języków?
  2. Czy podobna proporcja ma odniesienie tylko do języków, w których odmiana czasowników i rzeczowników jest bardzo prosta np. angielski, szwedzki itp.? Czy ma również zastosowanie w nauce języków takich jak polski, gdzie słowa możemy spotkać w różnych formach

Założyłem sobie następujący plan, aby przeprowadzić:

  1. Wykorzystam napisy do filmu “Kraina lodu” w różnych językach i wszystkie zdania rozbiję na pojedyncze słowa
  2. Jako słowo będę traktował:
    1. Wszystkie słowa łącznie z nazwami własnymi np. imionami typu Elsa, Anna itp.
    2. Każdą formę słowa, która pojawia się w tekście. Np. formy czasowników “jest”, “był”, “będzie” lub rzeczowników: “bałwan”, “bałwana” będą traktowane jako oddzielne słowa.
    3. Słowa, które są połączone apostrofem, będą traktowane jako jedno słowo, np. “I’m”, “he’s” w języku angielskim lub “c’est” w języku francuskim.
    4. Słowa połączone myślnikiem będę z kolei rozbijał np. “attrape-moi” w języku francuskim to dwa słowa “attrape” i “moi”
    5. Jeśli dane słowo może mieć dwa znaczenia, uwzględniałem je jako jeden wyraz np. “może” w znaczeniu “być może” i “może” w znaczeniu “on/ona może” są jednym słowem w mojej analizie
    6. Jeśli w pisowni dane słowo jest połączone z innym np. arabskie “i”, czyli “و”, będzie traktowane jako część następnego słowa. Czyli np. “ولكن” to jedno słowo, a nie dwa.

Oto wyniki moich eksperymentów:

Ile słów trzeba znać, żeby zrozumieć tekst w języku angielskim?

Oto podstawowe dane:

  • liczba wszystkich słów (wliczając powtórzenia): 7747
  • liczba pojedynczych słów: 1241
  • słowa powtarzają się średnio: 6,2 razy
procent słów: pozwala zrozumieć:
5% 52,3%
10% 65,64%
20% 78.55%
35% 87,20%
50% 91.98%

10 najczęstszych słów:

  • you, I, the, to, a, and, no, it, me, is

Ile słów trzeba znać, żeby zrozumieć tekst w języku polskim?

Oto podstawowe dane:

  • liczba wszystkich słów (wliczając powtórzenia): 6374
  • liczba pojedynczych słów: 1885
  • słowa powtarzają się średnio: 3,4 razy
procent słów: pozwala zrozumieć:
5% 48,59%
10% 59,81%
20% 70,76%
35% 80,31%
50% 85,21%

10 najczęstszych słów:

  • nie, to, się, jest, i, w, co, z, tak, na

Ile słów trzeba znać, żeby zrozumieć tekst w języku niemieckim?

Oto podstawowe dane:

  • liczba wszystkich słów (wliczając powtórzenia): 6022
  • liczba pojedynczych słów: 1366
  • słowa powtarzają się średnio: 4,4 razy
procent słów: pozwala zrozumieć:
5% 49,04%
10% 63,05%
20% 75,12%
35% 83,68%
50% 88,66%

10 najczęstszych słów:

  • ich, ist, du, nicht, das, und, sie, es, wir, die

Ile słów trzeba znać, żeby zrozumieć tekst w języku francuskim?

Oto podstawowe dane:

  • liczba wszystkich słów (wliczając powtórzenia): 7630
  • liczba pojedynczych słów: 1471
  • słowa powtarzają się średnio: 5,2 razy
procent słów: pozwala zrozumieć:
5% 52,27%
10% 65,53%
20% 77,47%
35% 85,56%
50% 90,37%

10 najczęstszych słów:

  • je, de, la, pas, tu, ne, le, c’est, que, un

Ile słów trzeba znać, żeby zrozumieć tekst w języku arabskim?

Oto podstawowe dane:

  • liczba wszystkich słów (wliczając powtórzenia): 5988
  • liczba pojedynczych słów: 2441
  • słowa powtarzają się średnio: 2,5 razy
procent słów: pozwala zrozumieć:
5% 42,20%
10% 52,83%
20% 63,65%
35% 73,54%
50% 79,64%

10 najczęstszych słów:

  • لا, أن, من, هذا, في, كلا, آنا, أنا, على, ما

Wnioski z eksperymentu

Zasada Pareto świetnie sprawdza się w językach, gdzie dominują słowa o niewielkiej liczbie form. W przypadku języków, gdzie słowa powtarzają się nawet 6 razy, takich jak angielski, znajomość 20% słówek wystarczy do zrozumienia 80% tekstu.

Podobnie jest w języku francuskim i niemieckim, gdzie 20% słówek wystarczy do zrozumienia ponad 75-77% tekstu.

W przypadku języka polskiego, gdzie dochodzi spora liczba form rzeczownikowych, jest już gorzej. 20% słów pozwala zrozumieć raptem 70%. Aby zrozumieć 80% tekstu, musimy znać już 35% słówek.

Język arabski wypadł najsłabiej, ale głównie przez to, że słowo “i” jest w nim połączone z kolejnym, więc zmniejsza to znacznie liczbę powtórzeń pojedynczych słówek w tekście. Z tego, co zauważyłem, w napisach, które miałem do dyspozycji, nie zawsze słowa były też oddzielane konsekwentnie spacją, co mogło wpłynąć na wynik. Po oddzieleniu słowa “i”, wyniki były już dużo bardziej zbliżone do języka polskiego (20% słów pozwalało zrozumieć 66% tekstu). Gdybym rozdzielił konsekwentnie wszystkie słowa, myślę, że wyniki byłyby jeszcze bliższe językowi polskiemu.

Generalnie można zatem wyciągnąć następujące wnioski:

  • Znajomość 20% leksemów wystarczy do zrozumienia 80% tekstu praktycznie w każdym języku. Leksem jest tu rozumiany jako jednostka zawierająca wszystkie formy wyrazowe, więc np. leksem “bałwan” zawiera w sobie też formy “bałwana”, “bałwanem” itp.
  • Gdy bierzemy pod uwagę wszystkie wyrazy, a nie tylko leksemy, znajomość 20% pozwala zrozumieć 60-80% tekstu w zależności od stopnia skomplikowania gramatyki języka. Im większa liczba form czasownikowych i rzeczownikowych oraz możliwości łączenia się słów w jedną całość, tym procent zrozumienia tekstu jest oczywiście niższy.
  • Trudność nauczenia się języka można próbować określić wskaźnikiem średniej liczby powtórzeń słów w tekście. Im jest ona wyższa, tym mniejsza liczba słów jest wymagana do zrozumienia tekstu. Oczywiście warto tu też wziąć pod uwagę drugi wskaźnik, który jest już ciężej określić, czyli procent wyjątków od reguły, gdy mamy do czynienia z tworzeniem form czasownikowych i rzeczownikowych. Np. w języku polskim problemem jest tworzenie formy dopełniacza liczby pojedynczej rzeczowników rodzaju męskiego. W innych językach z kolei możemy mieć wiele wyjątków w przypadku odmiany czasowników. Z kolei Esperanto, które ma teoretycznie więcej form niż język angielski, może być łatwiejsze do opanowania, gdyż wszystkie formy są regularne.

Jeśli chcesz podobny eksperyment przeprowadzić samodzielnie, oto krótka instrukcja krok po kroku:

  1. Znajdź napisy do filmu i otwórz je w Excelu
  2. Zamień wszystkie znaki interpunkcyjne na spacje np. ,.!?”();:
  3. Zamień myślnik i spację na spację, czyli “- ” na ” “
  4. Zamień podwójne spacje na spacje
  5. Posortuj kolumnę ze zdaniami alfabetycznie
  6. Usuń linie z numerami linii w napisach i linie adnotacji czasowych np. “00:01:56,866 –> 00:02:01,037”
  7. Wykonaj polecenie “Text to columns/Tekst jako kolumny” i ustaw “spację” jako separator
  8. Poszczególne słowa zostaną wrzucone do kolumn
  9. Posortuj każdą kolumnę, żeby wyeliminować puste komórki
  10. Przerzuć zawartość każdej kolumny do pierwszej kolumny
  11. Dodaj tytuł kolumny np. “Słowa”
  12. Utwórz tabelę przestawną, wstawiając w polu wierszy “Słowa”, a w polu danych “Zlicz słowa”

Przeczytaj także