Wydziałowe Seminarium Data Science - 21.12.2023

Serdecznie zapraszam na kolejne spotkanie

Wydziałowego Seminarium Data Science,

które odbędzie się

21.12.2023 r. o godz. 14.15

w sali D102 Wydziału Matematyki i Informatyki UŁ

Referat pt.

Technika szkiców w estymacji podobieństwa tekstów

wygłosi

prof. dr hab. Szymon Grabowski,

Politechnika Łódzka, Instytut Informatyki Stosowanej, Wydział Elektrotechniki, Elektroniki, Informatyki i Automatyki PŁ

 

Streszczenie: Mimo tego, iż miary podobieństwa dokumentów (np. odległość Levenshteina, LCS) są znane i używane od dekad, to ich zastosowanie do znajdowania podobnych plików np. w dużych bazach genomów jest problematyczne z uwagi na (bardzo) wysokie wymagania obliczeniowe. Szkic (ang. sketch) jest formą mocno stratnej reprezentacji dokumentu, która jednak reprezentuje go wystarczająco dobrze do porównań: dwa podobne do siebie np. genomy zazwyczaj mają podobne szkice (i odwrotnie). Użyte słowo "zazwyczaj" można sprecyzować w odniesieniu do prawdopodobieństwa. Przedmiotem wykładu będzie przedstawienie podstawowych technik szkicowania dokumentów: MinHash, HyperLogLog, ich wybranych odmian, możliwych idei implementacyjnych i wybranych zastosowań.

Marek Majewski