Skip to content

martynapawlus/PolishSpeechRecognition

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TEST ROZPOZNAWANIA JĘZYKA POLSKIEGO

by Martyna, Julia, Karolina

Proces ma na celu zweryfikowanie ilościowej skuteczności działania silników rozpoznawania mowy w jęzku polskim, poprzez przeprowadzenie testów na zebranym zbiorze danych.
Etapy przeprowadzania testów:

  1. Przygotowanie nagrań (zarówno pobranych z internetu jak i nagranych) i podzielenie ich na sety. Wszystkie wykorzystane do testowania pliki audio znajdują się w repozytorium.
  2. Opracowanie plików z transkrypcją do wykorzystania jako teksty referencyjne.
  3. Przepuszczenie plików audio przez wybrane silniki rozpoznawania mowy.

Skrypty usprawniające pracę z silnikami również znajdują się w repozytorium w folderze scripts.😸

  1. Obliczenie Word Error Rate (WER) przy użyciu programu sclite.
  2. Przygotowanie pliku .csv zawierającego w kolumnach wszystkie cechy poszczególnych tekstów i nagrań.
  3. Analiza wyników w środowisku R.

Podsumowanie

Oprócz wykorzystywanego narzędzia transkypcji, rozważany był wpływ następujących czynników:

  • dykcja
  • jakość mikrofonu
  • płeć
  • typ słownictwa
  • szum tła
  • szybkość mowy

    Najbardziej znaczącym z czynników okazała się dykcja oraz duży szum.

ten

W przypadku osób z dobrą dykcją średnia wartość WER wyniosła 19.11%, natomiast dla osób ze złą dykcją wartość ta była na poziomie 58.74% P-value dla tego testu osiągnęło wartość 2e-16, więc było bliskie zeru. Wpływ dykcji na odczyt WER okazał się niezaprzeczalny. Porównanie grupy osób z dobrą oraz przeciętną dykcją dostarczyło spodziewanie mniejszej różnicy niż w przypadku powyższego zestawienia, ale nadal to transkrypcje osób z dobrą dykcją osiągnęły widocznie lepsze rezultaty. P-value w tym przypadku ma wartość 0.0121.Prawdopodobieństwo, że różnica między dwoma przedziałami jest zjawiskiem losowym jest więc bardzo małe.

two

Duży szum okazał się mieć również nieprzypadkowy wpływ na wyniki WER, ponieważ w przypadku tego zestawienia wartość P-value wyniosła zaledwie 0.00146.

Pozostałe czynniki okazały się mało znaczące, a uzyskane wartości P-value sugerowały losowość wyników:

  • Jakość mikrofonu - różnica w wartościach WER między dobrym, a złym mikrofonem wynosiosła około 1 punkta procentowego.
  • Płeć - różnica w wartościach WER dla lektorów różnych płci wyniosła 0.4 pp.
  • Typ słownictwa - tutaj rozbieżność wartości WER była nieco większa, bo ponad 2 pp, ale od strony statystycznej porównanie to nie ma dużego znaczenia.
  • Mały szum tła - różnica między małym szumem, a brakiem szumu była na poziomie ok. 1pp, więc wnioski nasuwają się same.

Między poszczególnymi silnikami wystąpiły widoczne i nieprzypadkowe różnice w wartościach WER.

two

Do obliczeń potrzebnych do stworzenia tego zestawienia wykorzystane zostały wszystkie przygotowane nagrania, bez względu na badane czynniki, takie jak jakość mowy i mikrofonu. Każdy z silników przeprowadzał transkrypcję dokładnie takiego samego zestawu nagrań. Raport nie ujawnia nazw narzędzi, które uzyskały poszczególne wyniki. Prezentują się one natomiast następująco:

  • Narzędzie 1 - średni WER: 23.47%
  • Narzędzie 2 - średni WER: 30.38%
  • Narzędzie 3 - średni WER: 36.31%
  • Narzędzie 4 - średni WER: 34.83%

Co ciekawe, Google Speech Recognition (inne API), mimo tego, że teoretycznie korzysta z tego samego silnika, dało inne rezultaty niż Google Cloud Platform. Większość nagrań została przetranskrybowana nieco lepiej przy użyciu GSR. two

Średni WER dla Google Speech Recognition wyniósł - 17.72%, a dla Google Cloud Platform - 21.15%. Obliczenia te były przeprowadzone tylko dla części tekstów, ponieważ GSR nie podejmował próby transkrypcji nagrań, które charaktekryzowały się słabą dykcją lub dużym szumem. Zamiast tego wyrzucał błąd "UnknownValueError".

Testy, które wykonałyśmy dały satysfakcjonujące wyniki, zwłaszcza w kwestii prównania komercyjnych silników transkrypcji mowy.😺

Dalsze kierunki rozwoju:

  • Chmura słów- może ona posłużyć do analizy częstotliwości występowania poszczególnej grupywyrazów w tesktach oryginalnych w porównaniu do tekstów uzyskanych po transkrypcji. Tegotypu badanie daje ogromne możliwości przyszłej analizy pod kątem wykrycia niedoskonałościkonkretnych silników. W języku polskim utworzenie miarodajnej chmury słów nie jest prostymzadaniem z powodu deklinacji oraz koniugacji.
  • Powiększenie data setu- ten temat można rozszerzyć w wielu aspektach, jednym z nichjest powiększenie istniejących już setów o nowe teksty, innym może być powiększenie zbiorudanych dla badań konkretnego z czynników determinujących poprawność rozpoznawania mowy.Te aspekty niewątpliwie posłużą do zwiększenia wiarygodności oraz poprawności otrzymanychwyników analizy. Zupełnie innym podejściem może być stworzenie całkiem nowego setu danych,który stanowiłby odrębną kategorię nagrań.
  • Zestawienie rozpoznania słów specjalistycznych, slangowych oraz staropolskich-oprócz zautomatyzowanej analizy jakości transkrypcji określonej poprzez wpółczynnik WER, można rozpatrzeć ją pod kątem procentu rozpoznania konkretnych słów pogrupowanych w różnekategorie. Tekst referencyjny miałby oznaczone słowa należące do danych grup, np. slang młodzieżowy,słowa zapożyczone z innych języków, staropolszczyzna, nazwy własne, skróty itp. Przetranskry-bowany tekst byłby sprawdzony tylko w miejscu występowania słów z określonych grup w celuwyliczenia procentu błędu dla danej kategorii. Analiza taka wymaga jednak większego zbioruzróżnicowanych tekstów zawierających specyficzne słownictwo.
  • Utworzenie odpowiedniego zbioru nagrań do porównania szybkości mowy- w celuwiarygodnego określenia wpływu tego czynnika, korzystne byłoby przygotowanie nagrań tychsamych tekstów (najlepiej przez te same osoby), w takich samych warunkach szumu tła i jakościmikrofonu z różną szybkością wymowy.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •