Zadania – PK (2022)

Piotr Potiopa (zestaw nr 1)

Zadanie

Korzystając z książki „Pan Tadusz” w formacie txt wykonaj następujące zadania:

 

1.    podziel tekst z pliku na poszczególne słowa i wyeliminuj tzw. stoplistę

2.    skonstruuj listę 30 losowo wybranych słów, w których zmodyfikuj kolejność liter lub nanieś błędy literowe (zmienione słowa zapisz w oddzielnym pliku zwanym plikiem korekt: corrections.txt). Plik powinien zawierać słowa zarówno krótkie (3-8 literowe) jak i dłuższe.

3.    skonstruuj algorytm odległości Levenshteina badąjcy, które słowa z pliku słów zmodyfikowanych są zbliżone do słów z pliku z całym analizowanym tekstem.

4.    zbuduj procedurę która wypisze zbliżone słowa do słów zapisanych w pliku
corrections.txt dla zadanego progu podobieństwa (parametr alpha).

 

Przydatne linki:
https://pl.wikipedia.org/wiki/Odleg%C5%82o%C5%9B%C4%87_Levenshteina