Zadania – PK (2022)
Piotr Potiopa
(zestaw nr 10)
Zadanie
Korzystając z książki „Pan Tadusz” w formacie txt wykonaj następujące
zadania:
1.
podziel tekst z pliku na poszczególne słowa i
wyeliminuj tzw. stoplistę
2.
skonstruuj listę 30 losowo wybranych słów, w
których zmodyfikuj kolejność liter lub nanieś błędy literowe (zmienione słowa
zapisz w oddzielnym pliku zwanym plikiem korekt: corrections.txt). Plik powinien zawierać słowa zarówno krótkie (3-8
literowe) jak i dłuższe.
3.
skonstruuj algorytm odległości Jaro-Winklera badąjcy, które
słowa z pliku słów zmodyfikowanych są zbliżone do słów z pliku z całym
analizowanym tekstem.
4.
zbuduj procedurę która wypisze zbliżone słowa
do słów zapisanych w pliku
corrections.txt dla zadanego progu
podobieństwa (parametr alpha).
Przydatne
linki:
https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance#Jaro%E2%80%93Winkler_Similarity