Temat: TF-IDF - Prolib Integro

Skocz do pozycji: 1.

Tytuł:: TF-IDF inspired detection for cross-language source code plagiarism and collusion
Autorzy:: Karnalim, Oscar
Tematy:: source code plagiarism and collusion
cross-language detection
TF-IDF
computing education
information retrieval; Pokaż więcej
Wydawca:: Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Powiązania:: https://bibliotekanauki.pl/articles/305519.pdf Link otwiera się w nowym oknie
Opis:: Several computing courses allow students to choose which programming language they want to use for completing a programming task. This can lead to cross-language code plagiarism and collusion, in which the copied code file is rewritten in another programming language. In response to that, this paper proposes a detection technique which is able to accurately compare code files written in various programming languages, but with limited effort in accommodating such languages at development stage. The only language-dependent feature used in the technique is source code tokeniser and no code conversion is applied. The impact of coincidental similarity is reduced by applying a TF-IDF inspired weighting, in which rare matches are prioritised. Our evaluation shows that the technique outperforms common techniques in academia for handling language conversion disguises. Furthermore, it is comparable to those techniques when dealing with conventional disguises.
Dostawca treści:: Biblioteka Nauki

Artykuł

na półce

Skocz do pozycji: 2.

Tytuł:: Exploring data set of 6000 Indian food recipes - with Machine Learning techniques of classification and clustering
Eksplorowanie zbioru danych 6000 hinduskich przepisów z wykorzystaniem technik uczenia maszynowego obejmujących klasyfikację i klastrowanie
Autorzy:: Koszyk, Daniel
Opis:: Studying culinary recipes from different parts of the world can give people a lot of information about culture, religion and history of those regions. One of the most interesting places in the world with wide variety of regional cuisines is India.The goal of this thesis is to use data science techniques to explore data set with over 6000 Indian recipes. Its columns and relations between them are being examined using `Python' tools and libraries, `pandas' and `NumPy'. The goal is to find out if on the basis of recipes/ingredients one can classify culinary dishes as coming from certain regions of India or being a dish for a certain course like lunch or snack. For classification, K-Nearest Neighbours, Random Forests and Multinomial Logistic Regression algorithms are used. For clustering KMeans, KMedoids and Gaussian Mixture are used. Data used to train those models are preprocessed texts with instructions or list of ingredients converted to TF-IDF representation. Results of classification and clustering processes are showing, that different Indian cuisines have very much in common, but sometimes it is possible to extract the most characteristic groups.
Poznawanie i analizowanie przepisów kulinarnych z różnych części świata pozwala nam dowiedzieć się wielu informacji o kulturze, religii czy historii tych regionów. Jednym z najbardziej interesujących miejsc na świecie z dużą różnorodnością regionalnej kuchni są Indie. Celem tej pracy jest użycie narzędzi z obszaru „Data Science” do analizy zbioru danych z ponad 6000 hinduskimi przepisami. Jego kolumny i relacje między nimi są badane z użyciem narzędzi języka „Python” i zawartych w nim bibliotek, „pandas” i „Numpy”. Celem jest sprawdzenie, czy podstawa przepisów/składników może zostać użyta do klasyfikacji poszczególnych dań jako pochodzących z konkretnych części Indii lub będących konkretnym daniem dnia, takim jak obiad czy przekąska. Do klastrowania zostały użyte algorytmy KMeans, KMedoids i Gaussian Mixtures. Do klasyfikacji użyte zostały natomiast K-Nearest Neighbours, Random Forests I Multinomial Logistic Regression. Dane do trenowania tych modeli to przeprocesowany tekst instrukcji i listy składników, dopasowany i przetransformowany za pomocą reprezentacji TF-IDF. Wyniki klasyfikacji i klastrowania udowadniają, że różne dania z Indii mają ze sobą bardzo dużo wspólnego, jednak czasem możliwe jest wyodrębnienie najbardziej charakterystycznych grup.
Dostawca treści:: Repozytorium Uniwersytetu Jagiellońskiego

Inne

na półce

Skocz do pozycji: 3.

Tytuł:: Application of various machine learning techniques to the film recommendation system
Zastosowanie różnych technik uczenia maszynowego do systemu rekomendacji filmów
Autorzy:: Kołodziej, Katarzyna
Opis:: The purpose of this thesis is to prepare a simple film recommendation system using various machine learning techniques. The first chapter contains a description of recommendation systems, classification methods and their potential applications. The next chapter discusses the content of data files used in the paper and the software used. The following chapters present successively collaborative recommendation systems, content-based recommendation systems, and hybrid recommendation systems. Each of the presented systems is preferred in different circumstances, and its use is possible through many algorithms or specifications. As part of the work, the Python program code was prepared to implement each of these systems. In the final part of the thesis, the interface of the recommendation system using the previously described methods was prepared.
Celem tej pracy jest przygotowanie prostego systemu rekomendacji filmów z wykorzystaniem różnych technik uczenia maszynowego. W pierwszym rozdziale znalazł się opis systemów rekomendacji, sposobów ich klasyfikacji oraz ich potencjalnych zastosowań. W kolejnym rozdziale omówiona została zawartość wykorzystanych w pracy plików danych oraz wykorzystywanego oprogramowania. W kolejnych rozdziałach przedstawione zostały kolejno kolaboracyjne systemy rekomendacji, systemy rekomendacji oparte na zawartości oraz hybrydowe systemy rekomendacji. Każdy z przedstawionych systemów jest preferowany w innych okolicznościach, a wykorzystanie go jest możliwe za pośrednictwem wielu algorytmów lub specyfikacji. W ramach pracy przygotowany został kod programu w języku Python realizujący każdy z tych systemów. W końcowej części pracy przygotowany został interfejs systemu rekomendacji wykorzystującego wcześniej opisane metody.
Dostawca treści:: Repozytorium Uniwersytetu Jagiellońskiego

Inne

na półce

Skocz do pozycji: 4.

Tytuł:: Wykorzystanie metod uczenia maszynowego dla klasyfikacji i grupowania utworów muzycznych na podstawie bazy danych CD dostępnych w systemie Amazon
Application of Machine Learning methods in classification and clustering of music data from AMAZON database
Autorzy:: Lik, Łukasz
Opis:: Machine learning algorithms are widely used by many companies around the world.In my thesis I present application of few popular machine learning algorithms for classification and clustering. Data used in this thesis, consisting of users reviews on music albums, comes from Amazon web site.Text and binary file formats were tried out in order to find the one with the lowest file size and the best read and write times. Reviews were preprocessed using Neutral Language Processing (NLP), processed reviews have been later vectorised using Term-Frequency Inverse Term Frequency (TF-IDF) algorithm.For classification, Logistic Regression and some algorithms based on Neural Networks - Perceptron, Multi-Layer Perceptron (MLP) and the Convolutional Neural Networks (CNN) have been applied. The algorithms have been used to analise the sentiment of Amazon users' reviews ie. classifying whether the review is positive, neutral or negative. Several models have been developed using reviews with different numbers of words.The clustering of users' reviews, based on the (TF-IDF) vectors, has been performed using K-Means, with advanced seeding technique called K-Means++, Spectral Clustering and Mean-Shift algorithm. The goal here was to group the data into clusters with uniform number of reviews.
Algorytmy uczenia maszynowego są powszechnie używane przez wiele firm na całym świecie.W mojej pracy licencjackiej opisuję zastosowanie kilku popularnych metod uczenia maszynowego. Dane użyte w tej pracy pochodzą ze zbioru danych z platformy Amazon zawierającej recenzje użytkowników dotyczące albumów muzycznych.Tekstowe oraz binarne formaty plików zostały przetestowane w celu znalezienia jednego oferującego najniższy rozmiar pliku, oraz najszybsze czasy zapisu i odczytu danych. Recenzje użytkowników zostały przetworzone, wykorzystując przetwarzanie języka naturalnego (NLP), a następnie zwektoryzowane z użyciem algorytmu ważenia częstością termów-odwrotną częstością w dokumentach (TF-IDF).W celach klasyfikacji użyta zostala regresja logistyczna i kilka algorytmów bazujących na sieciach neuronowych - perceptronu, perceptronu wielowarstwowego (MLP) oraz konwolucyjnych sieci neuronowych (CNN). Algorytmy zostały użyte w celu analizy sentymentu recenzji użytkowników Amazona, to znaczy do klasyfikacji czy recenzja jest pozytywna, neutralna czy negatywna.Kilka modelów zostało stworzonych, wykorzystując recenzje z różną liczbą słów.Klastrowanie recenzji użytkowników zostało wykonane z użyciem algorytmów K-Means wraz z zaawansowaną metodą wybierania centroidów zwaną K-Means++, klastrowania spektralnego oraz Mean Shift. Celem grupowania recenzji było stworzenie klastrów z jednorodnym rozmieszczeniem recenzji wewnątrz klastrów.
Dostawca treści:: Repozytorium Uniwersytetu Jagiellońskiego

Inne

na półce

Informacja

Wyszukujesz frazę "TF-IDF" wg kryterium: Temat