Zadania – PK (2022)
Piotr Potiopa
(zestaw nr 9)
Zadanie
Korzystając z książki „Pan Tadusz” w formacie txt wykonaj następujące
zadania:
1.
podziel tekst z pliku na poszczególne słowa i
wyeliminuj tzw. stoplistę
2.
skonstruuj listę 50 losowo wybranych słów, w
których zmodyfikuj kolejność liter lub nanieś błędy literowe (zmienione słowa
zapisz w oddzielnym pliku zwanym plikiem korekt: corrections.txt). Plik powinien zawierać słowa zarówno krótkie (3-8
literowe) jak i dłuższe.
3.
skonstruuj algorytm Smith-Waterman badąjcy, które słowa z pliku
słów zmodyfikowanych są zbliżone do słów z pliku z całym analizowanym tekstem.
4.
zbuduj procedurę która wypisze zbliżone słowa
do słów zapisanych w pliku
corrections.txt dla zadanego progu
podobieństwa (parametr alpha).
Przydatne
linki:
https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm