Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "gradient boosting" wg kryterium: Temat


Wyświetlanie 1-16 z 16
Tytuł:
APPLICATION OF MIXED MODELS AND FAMILIES OF CLASSIFIERS TO ESTIMATION OF FINANCIAL RISK PARAMETERS
Autorzy:
Grzybowska, Urszula
Karwański, Marek
Tematy:
LGD
mixed models
random forests
gradient boosting
Pokaż więcej
Wydawca:
Szkoła Główna Gospodarstwa Wiejskiego w Warszawie. Katedra Ekonometrii i Statystyki
Powiązania:
https://bibliotekanauki.pl/articles/452746.pdf  Link otwiera się w nowym oknie
Opis:
The essential role in credit risk modeling is Loss Given Default (LGD) estimation. LGD is treated as a random variable with bimodal distribution. For LGD estimation advanced statistical models such as beta regression can be applied. Unfortunately, the parametric methods require amendments of the “inflation” type that lead to mixed modeling approach. Contrary to classical statistical methods based on probability distribution, the families of classifiers such as gradient boosting or random forests operate with information and allow for more flexible model adjustment. The problem encountered is comparison of obtained results. The aim of the paper is to present and compare results of LGD modeling using statistical methods and data mining approach. Calculations were done on real life data sourced from one of Polish large banks.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Predictive Business Process Monitoring with Tree-based Classification Algorithms
Autorzy:
Owczarek, Tomasz
Janke, Piotr
Tematy:
business process
prediction
classification
random forest
gradient boosting
Pokaż więcej
Wydawca:
Międzynarodowa Wyższa Szkoła Logistyki i Transportu
Powiązania:
https://bibliotekanauki.pl/articles/503954.pdf  Link otwiera się w nowym oknie
Opis:
Predictive business process monitoring is a current research area which purpose is to predict the outcome of a whole process (or an element of a process i.e. a single event or task) based on available data. In the article we explore the possibility of use of the machine learning classification algorithms based on trees (CART, C5.0, random forest and extreme gradient boosting) in order to anticipate the result of a process. We test the application of these algorithms on real world event-log data and compare it with the known approaches. Our results show that.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Multiple Additive Regression Trees (MART) and their Application
Addytywna metoda budowy drzew regresyjnych (MART) i jej zastosowanie
Autorzy:
Trzęsiok, Joanna
Tematy:
multivariate regression
adaptive method
regression trees
gradient boosting
MART
Pokaż więcej
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Powiązania:
https://bibliotekanauki.pl/articles/906893.pdf  Link otwiera się w nowym oknie
Opis:
Multiple additive regression trees MART is a methodology for trying to solve prediction problems in regression and classification. It’s one of the boosting methods. It was introduced by J. H. Friedman (1999a). Besides accuracy, its primary goal is robustness. It lends to be resistant against outliers, missing values, and the inclusion of potentially large numbers of irrelevant predictor variables that have little or no effect on the response. In this paper the MART algorithm and their applications will be discussed.
Addytywna metoda budowy drzew regresyjnych (MART), została zaproponowana przez J. H. Friedmana w 1999 r. (1999a, b). Jest to jedna z metod agregacyjnych, mająca zastosowanie w regresji i dyskryminacji opierająca się na modelach w postaci drzew. Jej zaletami, poza dokładnością predykcji, jest odporność na wartości oddalone i braki danych. Bardzo dobrze radzi sobie również z dużą liczbą zmiennych objaśniających, wśród których wiele może nie mieć istotnego wpływu na zmienną zależną. W artykule przedstawiona została ogólna idea metod agregacyjnych. Zaprezentowano i omówiono kolejne kroki algorytmu MART, a następnie, dla ilustracji, podany został przykład zastosowania procedury MART dla zbioru danych „Boston”.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Application of ensemble gradient boosting decision trees to forecast stock price on WSE
Autorzy:
Dadej, Mateusz
Tematy:
equity investments
artificial intelligence
machine learning
algorithmic trading strategy
gradient boosting
Pokaż więcej
Wydawca:
Uniwersytet Gdański. Wydział Ekonomiczny
Powiązania:
https://bibliotekanauki.pl/articles/518035.pdf  Link otwiera się w nowym oknie
Opis:
The main purpose of this article is to apply machine learning model based on ensemble of gradient boosted decision trees to forecast direction of share prices of Bank Handlowy S.A listed on WSE. In the introduction, the author presented the context of machine learning and its application in forecasting stock prices. Afterwards, the author describes the process of building classification model which uses XGboost framework from data preprocessing to model evaluation. The input features of the model were technical analysis indicators, like stochastic oscillators or moving averages. Output of the model was a direction of stock price after one week. The accuracy of the model based on testing dataset is 72%. The author also performed a simulation, based on the model. The simulation was made with the Monte Carlo method which stochastic process had a Laplace distribution. During interpretation, at the end, the author pointed limitations of model and algorithmic trading strategy evaluation techniques based on backtest.
Celem niniejszego artykułu jest wykorzystanie modelu z dziedziny uczenia maszynowego opartego na algorytmie zespołu wzmocnionych gradientowo drzew decyzyjnych do prognozowania kierunku zmian kursu akcji Banku Handlowego S.A. notowanego na GPW. We wstępie został przedstawiony kontekst uczenia maszynowego oraz wykorzystania go do prognozowania cen akcji. Następnie, przedstawiono proces tworzenia modelu klasyfikacyjnego wykorzystujący strukturę XGboost od etapu przetwarzania danych do jego ewaluacji. Danymi wejściowymi modelu były wskaźniki wykorzystywane w analizie technicznej, m.in. oscylatory stochastyczne oraz średnie ruchome, natomiast danymi wyjściowymi były kierunki zmian kursu na przestrzeni następnego tygodnia. Skuteczność modelu na danych testowych wyniosła 72%. Na końcu przeprowadzono symulacje portfela inwestycyjnego, podejmującego decyzje o transakcjach na podstawie wcześniej stworzonego modelu, wykorzystując metodę Monte Carlo w której dynamika procesów stochastycznych miała rozkład Laplace’a. Przy interpretacji wyników portfela inwestycyjnego wskazano ograniczenia ewaluacji modelu i strategii inwestycyjnej opartej o backtest.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A System for Filling Store Displays: Pitting a Single Model against a Set of Demand Forecasting Models
System zapełnienia ekspozycji sklepowych: pojedynczy model a zespół modeli prognozowania popytu
Autorzy:
Myna, Artur
Myna, Jacek
Tematy:
Extreme Gradient Boosting
logistic regression
random forest
regresja logistyczna
las losowy
Pokaż więcej
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Powiązania:
https://bibliotekanauki.pl/articles/2206342.pdf  Link otwiera się w nowym oknie
Opis:
The aim of the paper was to develop the concept of retail display space allocation as a system and to assess the quality of very slow-moving products demand forecasting models (that have not yet been used by retail companies in Poland) as its key subsystem. Forecasts were made using the example of a clothing company. The quality of these models was assessed using the Weighted Mean Absolute Percentage Error. The first step was to build the individual models. Later, the authors built separate models for brick-and-mortar and online stores as well as brands, creating a set of six models. The findings show that the classification approach for very slow movers provides as precise results as the regression approach. No single model or set of models (built with a particular machine learning method) could be identified that made the best demand forecasts for brick-and-mortar stores, as statistical tests generally did not confirm the significance of the differences between the median forecasts.
Celem artykułu jest opracowanie koncepcji zapełnienia ekspozycji sklepowych jako sys- temu oraz ocena jakości modeli prognozowania popytu (które w Polsce nie są jeszcze wykorzystywane przez sieci handlowe) bardzo wolno rotujących produktów jako jego kluczowego podsystemu. Jakość modeli oceniono za pomocą miary Weighted Mean Absolute Percentage Error na różnych poziomach szczegółowości: dla całej sieci sprzedaży i określonego miesiąca oraz na „na przecięciu” sklepu, produk- tu i rozmiaru produktu. Najpierw zbudowano pojedyncze modele, następnie zaś odrębne modele dla sklepów stacjonarnych i internetowych, jak również marek, tworząc zespół sześciu modeli. Poprawę dopasowania modeli osiągnięto tylko dla sklepów internetowych. Wyniki pracy wskazują, że podejście klasyfikacyjne dla bardzo wolno rotujących produktów charakteryzują równie precyzyjne wyniki pro- gnoz jak podejście regresyjne. Nie można wskazać jednego modelu lub zespołu modeli (zbudowanego określoną metodą uczenia maszynowego), który wykonał najlepsze prognozy popytu dla sklepów sta- cjonarnych, gdyż istotności różnic median prognoz na ogół nie potwierdzono testami statystycznymi.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An assessment of machine learning and data balancing techniques for evaluating downgrade truck crash severity prediction in Wyoming
Autorzy:
Ampadu, Vincent-Michael Kwesi
Haq, Muhammad Tahmidul
Ksaibati, Khaled
Tematy:
crash severity
performance
extreme gradient boosting tree
adaptive boosting tree
random forest
gradient boost decision tree
adaptive synthetic algorithm
Pokaż więcej
Wydawca:
Fundacja Centrum Badań Socjologicznych
Powiązania:
https://bibliotekanauki.pl/articles/2176018.pdf  Link otwiera się w nowym oknie
Opis:
This study involved the investigation of various machine learning methods, including four classification tree-based ML models, namely the Adaptive Boosting tree, Random Forest, Gradient Boost Decision Tree, Extreme Gradient Boosting tree, and three non-tree-based ML models, namely Support Vector Machines, Multi-layer Perceptron and k-Nearest Neighbors for predicting the level of severity of large truck crashes on Wyoming road networks. The accuracy of these seven methods was then compared. The Final ROC AUC score for the optimized random forest model is 95.296 %. The next highest performing model was the k-NN with 92.780 %, M.L.P. with 87.817 %, XGBoost with 86.542 %, Gradboost with 74.824 %, SVM with 72.648 % and AdaBoost with 67.232 %. Based on the analysis, the top 10 predictors of severity were obtained from the feature importance plot. These may be classified into whether safety equipment was used, whether airbags were deployed, the gender of the driver and whether alcohol was involved.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
FAMILIES OF CLASSIFIERS – APPLICATION IN DATA
Autorzy:
Grzybowska, Urszula
Karwański, Marek
Tematy:
random forests
gradient boosting
DEA
rating classes
variable selection
ranking
high rated portfolio
Pokaż więcej
Wydawca:
Szkoła Główna Gospodarstwa Wiejskiego w Warszawie. Katedra Ekonometrii i Statystyki
Powiązania:
https://bibliotekanauki.pl/articles/453604.pdf  Link otwiera się w nowym oknie
Opis:
Economic description of firms and companies is based on a number of indicators. The indicators are related to each other and can be considered only in a specific context. Regression models allow for such approach. Unfortunately, the problems we deal with are usually nonlinear and the choice of relevant information is very difficult. The aim of the paper is to present a method of variable selection based on random forest and gradient boosting approach and its application to companies ranking in DEA method. The results will be compared with the ordering obtained using expert supported approach for variable selection in DEA.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Enhancing the performance of deep learning technique by combining with gradient boosting in rainfall-runoff simulation
Autorzy:
Abdullaeva, Barno S.
Tematy:
deep learning
gradient boosting
hybrid model
multi-step ahead forecasting
rainfall-runoff simulation
Pokaż więcej
Wydawca:
Instytut Technologiczno-Przyrodniczy
Powiązania:
https://bibliotekanauki.pl/articles/28411647.pdf  Link otwiera się w nowym oknie
Opis:
Artificial neural networks are widely employed as data mining methods by researchers across various fields, including rainfall-runoff (R-R) statistical modelling. To enhance the performance of these networks, deep learning (DL) neural networks have been developed to improve modelling accuracy. The present study aims to improve the effectiveness of DL networks in enhancing the performance of artificial neural networks via merging with the gradient boosting (GB) technique for daily runoff data forecasting in the river Amu Darya, Uzbekistan. The obtained results showed that the new hybrid proposed model performed exceptionally well, achieving a 16.67% improvement in determination coefficient (R2) and a 23.18% reduction in root mean square error (RMSE) during the training phase compared to the single DL model. Moreover, during the verification phase, the hybrid model displayed remarkable performance, demonstrating a 66.67% increase in R2 and a 50% reduction in RMSE. Furthermore, the hybrid model outperformed the single GB model by a significant margin. During the training phase, the new model showed an 18.18% increase in R2 and a 25% reduction in RMSE. In the verification phase, it improved by an impressive 75% in R2 and a 33.33% reduction in RMSE compared to the single GB model. These findings highlight the potential of the hybrid DL-GB model in improving daily runoff data forecasting in the challenging hydrological context of the Amu Darya River basin in Uzbekistan.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
How machine learning algorithms are used in meteorological data classification: a comparative approach between DT, LMT, M5-MT, gradient boosting and GWLM-NARX models
Autorzy:
Fayaz, Sheikh Amir
Zaman, Majid
Butt, Muheet Ahmed
Kaul, Sameer
Tematy:
meteorological data
M5 model tree
linear model functions
gradient boosting
logistic model tree
Pokaż więcej
Wydawca:
Polskie Towarzystwo Promocji Wiedzy
Powiązania:
https://bibliotekanauki.pl/articles/38433812.pdf  Link otwiera się w nowym oknie
Opis:
Rainfall prediction is one of the most challenging task faced by researchers over the years. Many machine learning and AI based algorithms have been implemented on different datasets for better prediction purposes, but there is not a single solution which perfectly predicts the rainfall. Accurate prediction still remains a question to researchers. We offer a machine learning-based comparison evaluation of rainfall models for Kashmir province. Both local geographic features and the time horizon has influence on weather forecasting. Decision trees, Logistic Model Trees (LMT), and M5 model trees are examples of predictive models based on algorithms. GWLM-NARX, Gradient Boosting, and other techniques were investigated. Weather predictors measured from three major meteorological stations in the Kashmir area of the UT of J&K, India, were utilized in the models. We compared the proposed models based on their accuracy, kappa, interpretability, and other statistics, as well as the significance of the predictors utilized. On the original dataset, the DT model delivers an accuracy of 80.12 percent, followed by the LMT and Gradient boosting models, which produce accuracy of 87.23 percent and 87.51 percent, respectively. Furthermore, when continuous data was used in the M5-MT and GWLM-NARX models, the NARX model performed better, with mean squared error (MSE) and regression value (R) predictions of 3.12 percent and 0.9899 percent in training, 0.144 percent and 0.9936 percent in validation, and 0.311 percent and 0.9988 percent in testing.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An improvement of the CNN-XGboost model for pneumonia disease classification
Autorzy:
Amroune, Mohamed
Hedhoud, Yousra
Mekhaznia, Tahar
Opis:
Purpose: X-ray images are viewed as a vital component in emergency diagnosis. They are often used by deep learning applications for disease prediction, especially for thoracic pathologies. Pneumonia, a fatal thoracic disease induced by bacteria or viruses, generates a pleural effusion where fluids are accumulated inside lungs, leading to breathing difficulty. The utilization of X-ray imaging for pneumonia detection offers several advantages over other modalities such as computed tomography scans or magnetic resonance imaging. X-rays provide a cost-effective and easily accessible method for screening and diagnosing pneumonia, allowing for quicker assessment and timely intervention. However, interpretation of chest X-ray images depends on the radiologist’s competency. Within this study, we aim to suggest new elements leading to good interpretation of chest X-ray images for pneumonia detection, especially for distinguishing between viral and bacterial pneumonia. Material and methods: We proposed an interpretation model based on convolutional neural networks (CNNs) and extreme gradient boosting (XGboost) for pneumonia classification. The experimental study is processed through various scenarios, using Python as a programming language and a public database obtained from Guangzhou Women and Children's Medical Centre. Results: The results demonstrate an acceptable accuracy of 87% within a mere 7 seconds, thereby endorsing its effectiveness compared to similar existing works. Conclusions: Our study provides a model based on CNN and XGboost to classify images of viral and bacterial pneumonia. The work is a challenging task due to the lack of appropriate data. The experimental process allows a better accuracy of 87%, a specificity of 89%, and a sensitivity of 85%.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Artykuł
Tytuł:
Machine Learning-Based Identification of Suicidal Risk in Patients With Schizophrenia Using Multi-Level Resting-State fMRI Features
Autorzy:
Podolak, Igor
Bohaterewicz, Bartosz
Marek, Tadeusz
Wójcik, Bartosz
Mętel, Dagmara
Dudek, Dominika
Siwek, Marcin
Sobczak, Anna
Chrobak, Adrian
Fąfrowicz, Magdalena
Opis:
Background: Some studies suggest that as much as 40% of all causes of death in a group of patients with schizophrenia can be attributed to suicides and compared with the general population, patients with schizophrenia have an 8.5-fold greater suicide risk (SR). There is a vital need for accurate and reliable methods to predict the SR among patients with schizophrenia based on biological measures. However, it is unknown whether the suicidal risk in schizophrenia can be related to alterations in spontaneous brain activity, or if the resting-state functional magnetic resonance imaging (rsfMRI) measures can be used alongside machine learning (ML) algorithms in order to identify patients with SR. Methods: Fifty-nine participants including patients with schizophrenia with and without SR as well as age and gender-matched healthy underwent 13 min resting-state functional magnetic resonance imaging. Both static and dynamic indexes of the amplitude of low-frequency fluctuation (ALFF), the fractional amplitude of low-frequency fluctuations (fALFF), regional homogeneity as well as functional connectivity (FC) were calculated and used as an input for five machine learning algorithms: Gradient boosting (GB), LASSO, Logistic Regression (LR), Random Forest and Support Vector Machine. Results: All groups revealed different intra-network functional connectivity in ventral DMN and anterior SN. The best performance was reached for the LASSO applied to FC with an accuracy of 70% and AUROC of 0.76 (p < 0.05). Significant classification ability was also reached for GB and LR using fALFF and ALFF measures. Conclusion Our findings suggest that SR in schizophrenia can be seen on the level of DMN and SN functional connectivity alterations. ML algorithms were able to significantly differentiate SR patients. Our results could be useful in developing neuromarkers of SR in schizophrenia based on non-invasive rsfMRI.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Artykuł
Tytuł:
Prediction of chemical compounds activity with use of natural language processing tools
Predykcja aktywności chemicznej z użyciem metod przetwarzania języka naturalnego
Autorzy:
Nakoneczny, Szymon
Opis:
Virtual screening is a process during which databases of chemical compounds are searched in order to find ligands, compounds which can serve as drugs. Because chemical compounds can be represented in a form of text called SMILES, in this work an attempt will be taken to apply natural language processing tools to this problem. This kind of an approach creates a flatten compound structure, however it is less computationally complex than chemical compound graph analysis. The most important tools which have been applied is n-gram model and made with a use of it, vector representation. It is not the first attempt of virtual screening based on text representation, however our approach will be mostly motivated by achievements of natural language processing tools. One of our goals is to modify the text representation in order to increase its information, by applying original solutions which have not been used before. The experimental analysis shows that our approach can achieve results comparable to standard approaches used in virtual screening.
Screening wirtualny jest procesem analizy baz związków chemicznych w celu odnalezienia ligandów, czyli związków które mogłyby zostać wykorzystane jako leki. Ze względu na istnienie tekstowej reprezentacji związków, tzw. SMILES, w niniejszej pracy problem ten zostanie podjęty z wykorzystaniem metod przetwarzania języka naturalnego. Takie podejście mimo iż stwarza problemy związane ze spłaszczeniem związku w ciąg znaków, jest znacznie mniej złożone obliczeniowo niż analiza grafów cząsteczek. Zastosowany zostanie przede wszystkim model n-gramowy oraz zbudowana na nim reprezentacja wektorowa. Nie jest to pierwsza próba przeprowadzenia screeningu wirtualnego z użyciem reprezentacji tekstowej, jednakże w przeciwieństwie do innych działanie naszego podejścia będzie motywowane głównie osiągnięciami z dziedziny przetwarzania języka naturalnego. Jednym z celów będzie również modyfikacja reprezentacji tekstowej w celu zwiększenia jej informatywności, stosując oryginalne rozwiązania, które nie zostały zaproponowane do tej pory. Przeprowadzona analiza eksperymentalna pokazuje, że zastosowane podejście pozwala osiągnąć wyniki porównywalne do pracy na klasycznych reprezentacjach związków chemicznych.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne
Tytuł:
Boosting-based model for solving Sm-Co alloy’s maximum energy product prediction task
Autorzy:
Trostianchyn, A.M.
Izonin, I.V.
Duriagina, Z.A.
Tkachenko, R.O.
Kulyk, V.V.
Havrysh, B.M.
Tematy:
Sm-Co alloy
ensemble learning
gradient boosting
prediction accuracy
Stop Sm-Co
uczenie zespołowe
dokładność przewidywania
Pokaż więcej
Wydawca:
Stowarzyszenie Komputerowej Nauki o Materiałach i Inżynierii Powierzchni w Gliwicach
Powiązania:
https://bibliotekanauki.pl/articles/24200577.pdf  Link otwiera się w nowym oknie
Opis:
Purpose: This paper aims to decide the Sm-Co alloy’s maximum energy product prediction task based on the boosting strategy of the ensemble of machine learning methods. Design/methodology/approach: This paper examines an ensemble-based approach to solving Sm-Co alloy’s maximum energy product prediction task. Because classical machine learning methods sometimes do not supply acceptable precision when solving the regression problem, the authors investigated the boosting ML model, namely Gradient Boosting. Building a boosting model based on several weak submodels, each of which considers the errors of the prior ones, provides substantial growth in the accuracy of the problem-solving. The obtained result is confirmed using an actual data set collected by the authors. Findings: This work demonstrates the high efficiency of applying the ensemble strategy of machine learning to the applied problem of materials science. The experiments determined the highest accuracy of solving the forecast task for the maximum energy product of Sm-Co alloy formed on the boosting model of machine learning in comparison with classical methods of machine learning. Research limitations/implications: The boosting strategy of machine learning, in comparison with single algorithms of machine learning, requires much more computational and time resources to implement the learning process of the model. Practical implications: This work demonstrated the possibility of effectively solving Sm-Co alloy’s maximum energy product prediction task using machine learning. The studied boosting model of machine learning for solving the problem provides high accuracy of prediction, which reveals several advantages of their use in solving issues applied to computational material science. Furthermore, using the Orange modelling environment provides a simple and intuitive interface for using the researched methods. The proposed approach to the forecast significantly reduces the time and resource costs associated with studying expensive rare earth metals (REM)-based ferromagnetic materials. value: The authors have collected and formed a set of data on predicting the maximum energy product of the Sm-Co alloy. We used machine learning tools to solve the task. As a result, the most increased forecasting precision based on the boosting model is demonstrated compared to classical machine learning methods.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Tree ensembles for classification problem. Theoretical properties and computer simulations.
Tree ensembles w problemie klasyfikacji. Właściwości teoretyczne i symulacje komputerowe
Autorzy:
Mnich, Maciej
Opis:
Praca zawiera dowody zbieżności algorytmu AdaBoost i lasu losowego wraz z innymi właściwościami teoretycznymi. Zaprezentowany został również algorytm Stochastic Gradient Boosting. Wpływ parametrów uczenia na wyniki klasyfikatorów został zbadany przy użyciu danych syntetycznych.
The paper contains proofs of convergence of AdaBoost and random forest algorithm along with other theoretical properties. It also presents Stochastic Gradient Boosting algorithm. The influence of learning parameters on classifiers performance is investigated using synthetic datasets.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne
Tytuł:
O klasyfikacyjnych funkcjach kosztu dla głębokich sieci neuronowych.
On loss functions for deep neural networks in classification.
Autorzy:
Janocha, Katarzyna
Opis:
In deep neural networks for classification, vast majority of researchers use log loss. It has a lot od advantages, such as providing probability estimates and having a convenient probabilistic interpretation – it maximises the probability of classifying the whole data set correctly.The main idea behind this thesis is to explore properties of different loss functions and how they affect models behaviour under various circumstances, such as general quality of the obtained results, robustness to noise or speed of learning. It is important to stress that in some cases, using a loss different than log loss might give better results or faster convergence and that researchers should focus on exploring this field rather than persisting the mainstream solution. The thesis also elaborates on which objectives should be used depending on the situation. In particular, it is shown that L1 and L2 losses are justified classification objectives for deep networks. New untypical losses are introduced, and it is shown that they are viable alternatives to the existing ones.In addition, the thesis investigates the influence of choice of the probability estimates, elaborating over a couple alternatives to commonly used softmax function, such as softplus, sparsemax and functions belonging to recently defined spherical family. In paticular, conducted experiments lead to interesting conclusions about the latter one’s high robustness to noise, which might be effect of different – and partially regressional – way of mapping preactivations to probabilities.Finally, a new way of obtaining a certain type of loss objectives by defining their gradient and using the function implicitly is proposed. In particular, it is shown show that recently proposed “gradient boosting” techniques are nothing else, but specific implicit loss functions. As a result, new connections and insights into state of the art deep learning research are provided. This sends a very horizon-broadening message and the aspect of implicit loss functions is worth further investigation.
Trenując głębokie sieci neuronowe do klasyfikacji, znacząca większość badaczy używa kosztu entropii krzyżowej. Ma on niewątpliwie wiele zalet - dostarcza estymatory prawdopodobieństw i posiada proste probabilistyczne uzasadnienie, co więcej, jego przydatność wielokrotnie wykazano empirycznie.Główną motywacją tej pracy jest jednakże eksploracja własności alternatywnych funkcji kosztu i ich wpływu na zachowanie głębokich modeli pod różnymi względami, takimi jak ogólna jakość otrzymanych wyników, odporność na szum czy szybkość uczenia. Warto podkreślić, iż w niektórych przypadkach użycie kosztu innego niż entropia krzyżowa może dać lepsze rezultaty czy szybszą zbieżność. Naukowcy, zamiast pozostawać jedynie przy używaniu rozwiązań już istniejących, powinni także podążać ścieżkami alternatywnymi. W pracy analizowana jest także odpowiedniość danych kosztów w poszczególnych sytuacjach. W szczególności, wykazuję, że koszty L1 i L2 posiadają matematyczne uzasadnienie w klasyfikacji, a ich niska popularność może mieć korzenie gdzie indziej. Wprowadzam nowe, nietypowe koszty i wykazuję, iż są one odpowiednimi alternatywami tych już istniejących.Dodatkowo, praca skupia sie na ważności doboru estymatorów prawdopodobieństw, elaborując na temat kilku alternatyw dla niezwykle popularnej funkcji softmax, takich jak softplus, sparsemax oraz funkcje należące do wprowadzonej niedawno rodziny sferycznej. W szczególności, przeprowadzone eksperymenty prowadzą do ciekawych wniosków na temat odporności na szum tej ostatniej, mogącej być skutkiem innej - poniekąd regresyjnej - metody mapowania preaktywacji na prawdopodobieństwa.Ponadto, wprowadzony jest nowy sposób otrzymywania pewnego typu "domniemanych" funkcji kosztu poprzez zdefiniowanie ich gradientów - i używanie samej funkcji w sposób niejawny. W szczególności, pokazuję, iż niedawno przedstawiona metoda "gradient boosting" jest jedynie przypadkiem szczególnym "domniemanych" funkcji kosztu. W konsekwencji, praca wprowadza nowy kontekst i kierunek badań. Temat "domniemanych" funkcji kosztu znacząco poszerza horyzonty i wart jest dalszej analizy.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne
    Wyświetlanie 1-16 z 16

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies