Zadania – PK (2022)
Piotr Potiopa
(zestaw nr 6)
Zadanie
Korzystając z książki „Pan Tadusz” w formacie txt wykonaj następujące
zadania:
1.
podziel tekst z pliku na poszczególne słowa i
wyeliminuj tzw. stoplistę
2.
skonstruuj listę 30 losowo wybranych słów, w
których zmodyfikuj kolejność liter lub nanieś błędy literowe (zmienione słowa
zapisz w oddzielnym pliku zwanym plikiem korekt: corrections.txt). Plik powinien zawierać słowa zarówno krótkie (3-8
literowe) jak i dłuższe.
3.
skonstruuj algorytm odległości Levenshteina badąjcy, które słowa z pliku słów zmodyfikowanych są
zbliżone do słów z pliku z całym analizowanym tekstem.
4.
zbuduj procedurę która wypisze zbliżone słowa
do słów zapisanych w pliku
corrections.txt dla zadanego progu
podobieństwa (parametr alpha).
Przydatne
linki:
https://pl.wikipedia.org/wiki/Odleg%C5%82o%C5%9B%C4%87_Levenshteina