Zadania – PK (2022)

Piotr Potiopa (zestaw nr 9)

Zadanie

Korzystając z książki „Pan Tadusz” w formacie txt wykonaj następujące zadania:

1.    podziel tekst z pliku na poszczególne słowa i wyeliminuj tzw. stoplistę

2.    skonstruuj listę 50 losowo wybranych słów, w których zmodyfikuj kolejność liter lub nanieś błędy literowe (zmienione słowa zapisz w oddzielnym pliku zwanym plikiem korekt: corrections.txt). Plik powinien zawierać słowa zarówno krótkie (3-8 literowe) jak i dłuższe.

3.    skonstruuj algorytm Smith-Waterman badąjcy, które słowa z pliku słów zmodyfikowanych są zbliżone do słów z pliku z całym analizowanym tekstem.

4.    zbuduj procedurę która wypisze zbliżone słowa do słów zapisanych w pliku
corrections.txt dla zadanego progu podobieństwa (parametr alpha).

Przydatne linki:
https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm