Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "stylometry" wg kryterium: Temat


Tytuł:
StylOch at PAN : gradient-boosted trees with frequency-based stylometric features
Autorzy:
Walkowiak, Tomasz
Ochab, Jeremi
Boba, Tymoteusz
Matias, Mateusz
Opis:
This submission to the binary AI detection task is based on a modular stylometric pipeline, where: public spaCy models are used for text preprocessing (including tokenisation, named entity recognition, dependency parsing, part-of-speech tagging, and morphology annotation) and extracting several thousand features (frequencies of n-grams of the above linguistic annotations); light-gradient boosting machines are used as the classifier. We collect a large corpus of more than 500 000 machine-generated texts for the classifier’s training. We explore several parameter options to increase the classifier’s capacity and take advantage of that training set. Our approach follows the non-neural, computationally inexpensive but explainable approach found effective previously.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne
Tytuł:
On the Authenticity of Prose Writings Attributed to Śaṅkara
Autorzy:
Andrijanić, Ivan
Bąkowski, Jacek
Tematy:
authorship
stylometry
Advaita
Vedānta
Pokaż więcej
Wydawca:
Polska Akademia Nauk. Instytut Kultur Śródziemnomorskich i Orientalnych PAN
Powiązania:
https://bibliotekanauki.pl/articles/35031971.pdf  Link otwiera się w nowym oknie
Opis:
Śaṅkara is traditionally considered the author of an exceptionally large number of works. Indological scholarship has attempted to filter out some of these works within traditional philological and historical frameworks. Many were, however, taken for granted to be authentic, and no serious research into their authenticity has been conducted. This paper attempts a computational stylometric approach to establish the authenticity of prose commentaries attributed to Śaṅkara. The General Imposters (GI) framework appears to be the most suitable existing method developed for the purpose of verifying authorship. The GI calculates the statistical distance between certain texts’ features and estimates whether the disputed text is closer to the candidate author than to a set of texts that may not have been composed by him. The paper also presents a machine-based method for separating the words and resolving the sandhi in the Sanskrit text, crucial for the procedure. The success rate in verifying authors of undisputed texts appears to be acceptable enough to proceed to the next step, where 18 prose commentaries traditionally attributed to Śaṅkara are subjected to the GI verification procedure. The result conforms to the most conservative assessments of Śaṅkara’s authorship; GI verified the authenticity of the commentaries on the principal Upaniṣads (with the exception of the commentary on the Śvetāśvataropaniṣad) and on the Bhagavadgītā. Besides these, commentaries on the Nṛsiṃha-(pūrva)-tāpanīyopaniṣad and the Adhyātmapaṭala were, rather unexpectedly, also successfully verified as genuine works of Śaṅkara.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Mikrokorpus Gronowy Polszczyzny 1830–1918
Autorzy:
Derwojedowa, Magdalena
Tematy:
corpus
diachrony
inflection
syntax
orthography
stylometry
Pokaż więcej
Wydawca:
Towarzystwo Kultury Języka
Powiązania:
https://bibliotekanauki.pl/articles/1630442.pdf  Link otwiera się w nowym oknie
Opis:
This paper is dedicated to the construction of a small cluster corpus of Polish texts from the period 1830–1918. The assumptions of the corpus, its micro- and macro-structure, as well as stylistic, regional and author diversity, and method of making it available are presented. Its application capabilities are illustrated on the example of orthographic, infl ectional, and syntactic studies.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The Stylometric Analysis of Papers Presented at the DLCC Conference in Cieszyn
Autorzy:
Ślósarz, Anna
Wydawca:
Studio NOA for University of Silesia in Katowice
Cytata wydawnicza:
Anna Ślósarz, The Stylometric Analysis of Papers Presented at the DLCC Conference in Cieszyn, in: E-learning, Vol. 9, Effective Development of Teachers’ Skills in the Area of ICT and E-learning, Scientific Editor Eugenia Smyrnova-Trybulska, Studio Noa for University of Silesia, Katowice-Cieszyn 2017, p. 249-277
Opis:
The purpose of this paper was to analyze expression styles of 253 conference papers published in the 2009, 2010, 2011, 2012, 2013, 2014, 2015 and 2016 DLCC Conference in Cieszyn proceedings. It was hypothesized that the representatives of similar disciplines expressed themselves in a similar fashion, with the country of origin not being a differentiator. A statistical analysis of the vocabulary of the papers was conducted using the "Stylo" program. The visualizations showed similarities in the expression among 216 authors. The expression styles of the papers were qualitatively analysed. It was found that the DLCC participants have developed common terminology, which is one of the conditions for recognizing Distance Learning Studies as an academic discipline, similar to Media Studies or Knowledge and Communication Studies.
Dostawca treści:
Repozytorium Centrum Otwartej Nauki
Artykuł
Tytuł:
An open stylometric system based on multilevel text analysis
Autorzy:
Eder, Maciej
Piasecki, Maciej
Walkowiak, Tomasz
Tematy:
stylometry
Polish
CLARIN-PL
research infrastructure
language technology
Pokaż więcej
Wydawca:
Polska Akademia Nauk. Instytut Slawistyki PAN
Powiązania:
https://bibliotekanauki.pl/articles/677202.pdf  Link otwiera się w nowym oknie
Opis:
An open stylometric system based on multilevel text analysisStylometric techniques are usually applied to a limited number of typical tasks, such as authorship attribution, genre analysis, or gender studies. However, they could be applied to several tasks beyond this canonical set, if only stylometric tools were more accessible to users from different areas of the humanities and social sciences. This paper presents a general idea, followed by a fully functional prototype of an open stylometric system that facilitates its wide use through to two aspects: technical and research flexibility. The system relies on a server installation combined with a web-based user interface. This frees the user from the necessity of installing any additional software. At the same time, the system offers a variety of ways in which the input texts can be analysed: they include not only the usual lexical level, but also deep-level linguistic features. This enables a range of possible applications, from typical stylometric tasks to the semantic analysis of text documents. The internal architecture of the system relies on several well-known software packages: a collection of language tools (for text pre-processing), Stylo (for stylometric analysis) and Cluto (for text clustering). The paper presents: (1) The idea behind the system from the user’s perspective. (2) The architecture of the system, with a focus on data processing. (3) Features for text description. (4) The use of analytical systems such as Stylo and Cluto. The presentation is illustrated with example applications. Otwarty system stylometryczny wykorzystujący wielopoziomową analizę języka Zastosowania metod stylometrycznych na ogół ograniczają się do kilku typowych problemów badawczych, takich jak atrybucja autorska, styl gatunków literackich czy studia nad zróżnicowaniem stylistycznym kobiet i mężczyzn. Z pewnością dałoby się je z powodzeniem zastosować również do wielu innych problemów klasyfikacji tekstów, gdyby tylko owe metody oraz odpowiednie narzędzia były bardziej dostępne dla uczonych reprezentujących różne dyscypliny nauk humanistycznych i społecznych. Artykuł niniejszy omawia założenia teoretyczne oraz w pełni funkcjonalny prototyp otwartego systemu stylometrycznego, którego szerokie zastosowanie umożliwią dwie jego cechy: elastyczność techniczna oraz dostosowywalność do różnych pytań badawczych. System opiera się na instalacji serwerowej sprzęgniętej z sieciowym interfejsem użytkownika. Uwalnia to użytkownika od konieczności instalowania jakichkolwiek dodatkowych programów. Jednocześnie system oferuje wiele sposobów analizowania tekstów nie tylko na poziomie leksykalnym, lecz także poprzez cechy językowe niskiego poziomu. Daje to możliwość stosowania systemu na wiele różnych sposobów, od typowych testów stylometrycznych do analizy semantycznej dokumentów. Wewnętrzna architektura systemu składa się z wielu elementów znanych ze swej funkcjonalności, w tym z pakietu Stylo przeznaczonego do analiz stylometrycznych oraz pakietu Cluto służącego do zaawansowanej analizy skupień. Artykuł omawia: (1) Koncepcję całego systemu, postrzeganą z punktu widzenia użytkownika, (2) Architekturę systemu oraz jego elementy odpowiedzialne za przetwarzanie tekstu, (3) Cechy językowe służące do opisu dokumentów, (4) Zastosowanie modułów analizy danych, takich jak Stylo czy Cluto. W artykule zostały też przedstawione przykładowe zastosowania systemu.
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Licencja na imitowanie. Analiza stylometryczna serii książek o Jamesie Bondzie zawartych w dwóch równoległych korpusach.
Licence to Imitate. A Stylometric Analysis of the James Bond Series in Two Parallel Corpora
Autorzy:
Gładysz, Ewelina
Opis:
Niniejsza praca analizuje kilka kwestii związanych z komputerową analizą stylu literackiego wśród tekstów napisanych w języku angielskim oraz w badaniach nad ich przekładem. Podstawę analizy stanowiły powieści i opowiadania o Jamesie Bondzie, których autorami byli Ian Fleming, Kingsley Amis, Sebastian Faulks oraz Jeffery Deaver. Praca przedstawia zarys biografii i twórczości literackiej Iana Fleminga, a także przekrój całej serii o słynnym tajnym agencie Jej Królewskiej Mości. Co więcej, praca podsumowuje informację na temat samego fenomenu Bonda w Polsce, jak i poszczególnych tłumaczy tej serii. Badania stylometryczne podzielone zostały na dwa etapy; pierwszy analizuje teksty w języku angielskim, drugi zaś tłumaczenia. Korpus, który zawierał teksty w języku angielskim, został dodatkowo rozszerzony poprzez włączenie innych powieści pisarzy, którzy kontynuowali serię Fleminga. Korpus tłumaczeniowy został natomiast wzbogacany dodatkowymi pozycjami z literackiego dorobku tłumaczy, którzy pracowali nad powieściami i opowiadaniami o Bondzie. Podstawowe pytanie badawcze stawiane w pracy było następujące: czy teksty literackie grupowane są w obrębie serii według autora, chronologii czy może tematyki? Omówione badania pokazały, że nie każdy z pisarzy-kontynuatorów zdołał porzucić swój styl i wtopić się w serię zapoczątkowaną przez Iana Fleminga w 1953 roku. W pewnej mierze udało się to jedynie Sebastianowi Faulksowi. Testy poddały w wątpliwość zapewnienia wydawców jakoby Człowiek ze złotym pistoletem nie zawierał fragmentów dodanych przez Amisa. Analiza korpusu tłumaczeniowego wykazała, że o ile autorzy są „widzialni” w obrębie serii, tak wszelkie tendencje wśród tekstów jednego autora są rzadko widoczne w korpusie tłumaczeniowym. Jeden z ciekawszych eksperymentów dotyczył wspólnej pracy Roberta Stillera i Agnieszki Sylwanowicz nad tłumaczeniem Casino Royale. Rezultaty wykazały, że polskie wydanie zostało mniej więcej objętościowo równo sporządzone przez obydwu tłumaczy. Zastosowanie trzech różnych metod badawczych (dodatkowo stosując różne parametry) dla tej samej grupy tekstów pozwoliło uśrednić i potwierdzić uzyskane wyniki, które w większości się pokrywały.
This study analyzes certain issues of computational stylistics with respect to the original texts and translations. The tests investigated novels and short stories about James Bond written by four authors: Ian Fleming, Kingsley Amis, Sebastian Faulks and Jeffery Deaver. The paper also presents an outline of Fleming’s biography and his literary career; moreover, it provides a cross section of the whole series about the famous secret agent. Apart from that, it describes the phenomenon of James Bond in Poland and gathers in one place available information on those who rendered Bond novels and short stories into Polish. The stylometric investigations were divided into two parts; the first analyzed the English texts, whereas the other one the translations. The corpus of the original writing samples was additionally extended with non-Bond novels by Amis, Faulks and Deaver. The translational corpus was enriched with other translations produced by translators of Fleming’s novels and short stories. The main aim of this study was to answer the question how the texts are distributed within a series – by authors, chronology or maybe the theme. The performed tests showed that not all of the continuators managed to conceal their writing style and blend into the Fleming saga started in 1953. It was only Sebastian Faulks who successfully (at least according to carried-out tests) imitated Fleming’s style. Furthermore, the tests have put into question the publisher’s statement that The Man with the Golden Gun was written entirely by Fleming and no additions by Amis were added. The analysis of the translational corpus showed that translators seem to be “invisible” for stylometric methods can correctly distribute the authors in translation; however, it seems that translators fail to transfer the inner-series relationships into another language. An interesting result was obtained for the collaborative translation of Casino Royale produced by Agnieszka Sylwanowicz and Robert Stiller, namely that the workload, as far as this translation is concerned, was equally divided between them. Employing three different methods for the analysis (by setting different parameters as well) standardized and confirmed the results as stable and reliable.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne
Tytuł:
The stylometry of film dialogue : pros and pitfalls
Autorzy:
Hołobut, Agata
Rybicki, Jan
Opis:
We examine film dialogue with quantitative textual analysis (stylometry, sentiment analysis, distant reading). Working with transcribed dialogue in almost 300 productions, we explore the complex way in which most-frequent-words-based stylometry and lexicon-based sentiment analysis produce patterns of similarity and difference between screenwriters and/or a priori IMDB-defined genres. In fact, some of our results show that counting and comparing very frequent word lists reveals further similarities: of theme, implied audience, stylistic patternings. The results are encouraging enough to suggest that such quantitative approach to film dialogue may become a welcome addition to the arsenal of film studies methodology.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Artykuł
Tytuł:
"Quo vadis" in Italian : a stylometric investigation of Milanese translations of Henryk Sienkiewicz’s bestseller
"Quo vadis" all’italiana : investigazione stilometrica sulle tra-duzioni milanesi del bestseller di Henryk Sienkiewicz
Autorzy:
Biernacka-Licznar, Katarzyna
Rybicki, Jan
Opis:
Henryk Sienkiewicz’s novel Quo Vadis made its way into Italy at the end of the 19th century through the efforts of Neapolitan translator Federigo Verdinois. The first part of this paper outlines the history of the popularity of Quo Vadis by focusing on the operations of Milanese publishers that made the Polish novel part of their offer in a variety of ways (as translations, adaptations, reworkings, plagiarisms, etc.). Bibliometric methods are used to establish why so many publishing houses decided to publish Henryk Sienkiewicz’s Roman romance. The analysis of the bibliometric data of the published translations helped assess and describe the extent and the character of the popularity that the novel garnered among Milanese publishers. The second part of the paper relates the findings of a multi-method quantitative study of the same material. The number of word tokens was compared between the original and the translations. The lexical richness across the texts under study was compared by means of the moving average type-token ratio (MATTR). Sentence lengths were also compared, as was sentence length distribution as time series. Two different programmes (WCopyFind and Tracer) yielded very similar results on the degree of the similarity of five-word phrases in pairs of translations, which was determined in network analysis.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Artykuł
Tytuł:
Stylometry in a bilingual setup
Autorzy:
Cinková, Sylvie
Rybicki, Jan
Wydawca:
The European Language Resources Association (ELRA)
Opis:
The method of stylometry by most frequent words does not allow direct comparison of original texts and their translations, i.e. across languages. For instance, in a bilingual Czech-German text collection containing parallel texts (originals and translations in both directions, along with Czech and German translations from other languages), authors would not cluster across languages, since frequency word lists for any Czech texts are obviously going to be more similar to each other than to a German text, and the other way round. We have tried to come up with an interlingua that would remove the language-specific features and possibly keep the linguistically independent features of individual author signal, if they exist. We have tagged, lemmatized, and parsed each language counterpart with the corresponding language model in UDPipe, which provides a linguistic markup that is cross-lingual to a significant extent. We stripped the output of language-dependent items, but that alone did not help much. As a next step, we transformed the lemmas of both language counterparts into shared pseudolemmas based on a very crude Czech-German glossary, with a 95.6% success. We show that, for stylometric methods based on the most frequent words, we can do without translations.
Dostawca treści:
Repozytorium Uniwersytetu Jagiellońskiego
Inne

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies