Having a dataframe like this:
df <- structure(list(text = c("Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu, consequat vitae, eleifend ac, enim. Aliquam lorem ante, dapibus in, viverra quis, feugiat a, tellus. ",
"Nam quam nunc, blandit vel, luctus pulvinar, hendrerit id, lorem. Maecenas nec odio et ante tincidunt tempus. Donec vitae sapien ut libero venenatis faucibus. Nullam quis ante. Etiam sit amet orci eget eros faucibus tincidunt. Duis leo. Sed fringilla mauris sit amet nibh. Donec sodales sagittis magna. Sed consequat, leo eget bibendum sodales, augue velit cursus nunc",
"Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa. Cum sociis natoque penatibus et magnis dis parturient montes, nascetur ridiculus mus. Donec quam felis, ultricies nec, pellentesque eu, pretium quis, sem. Nulla consequat massa quis enim. Donec pede justo, fringilla vel, aliquet nec, vulputate eget, arcu. In enim justo, rhoncus ut, imperdiet a, venenatis vitae, justo. Nullam dictum felis eu pede mollis pretium. Integer tincidunt. Cras dapibus. Vivamus elementum semper nisi. Aenean vulputate eleifend tellus. Aenean leo ligula, porttitor eu, consequat vitae, eleifend ac, enim. Aliquam lorem ante, dapibus in, viverra quis, feugiat a, tellus. ",
"Nam quam nunc, blandit vel, luctus pulvinar, hendrerit id, lorem. Maecenas nec odio et ante tincidunt tempus. Donec vitae sapien ut libero venenatis faucibus. Nullam quis ante. Etiam sit amet orci eget eros faucibus tincidunt. Duis leo. Sed fringilla mauris sit amet nibh. Donec sodales sagittis magna. Sed consequat, leo eget bibendum sodales, augue velit cursus nunc"
)), .Names = "text", class = "data.frame", row.names = c(NA,
-4L))
It is possible to use the following code:
library(tm)
library(dplyr)
library(stringi)
review_source <- VectorSource(df$text)
corpus <- VCorpus(review_source)
dtm <- DocumentTermMatrix(corpus)
temp_frequency <- inspect(dtm)
freq_matrix <- data.frame(ST = colnames(temp_frequency),
Freq = colSums(temp_frequency))
However the previous gives me only single tokens.
Using the dfm() from quanteda it is possible to have more than one tokens. Examples:
library(quanteda)
myDfm <- dfm(df$text, ngrams = c(1,3))
My problem is how could I make a dfm to be as a the dtm in the following command as previous:
temp_frequency <- inspect(dtm)
freq_matrix <- data.frame(ST = colnames(temp_frequency),
Freq = colSums(temp_frequency))
To make "a" dfm be as dtm
in your example, the same commands will work:
temp_frequency2 <- as.dfm(temp_frequency)
freq_matrix <- data.frame(ST = colnames(temp_frequency2),
Freq = colSums(temp_frequency2))
freq_matrix
# ST Freq
# aenean aenean 8
# amet amet 4
# consequat consequat 4
# donec donec 8
# eget eget 6
# eleifend eleifend 4
# enim. enim. 4
# eu, eu, 4
# fringilla fringilla 4
# sit sit 6
I prefer recommending featnames()
however instead of colnames()
.
To convert the myDfm
to this format:
myDfm <- dfm(df$text, ngrams = c(1,3))
freq_matrix <- data.frame(ST = featnames(myDfm),
Freq = colSums(myDfm))
head(freq_matrix)
# ST Freq
# lorem lorem 6
# ipsum ipsum 2
# dolor dolor 4
# sit sit 6
# amet amet 6
# , , 56
To get a bit more structure including sorting by descending frequency plus the rank and document frequency, try:
head(textstat_frequency(myDfm))
# feature frequency rank docfreq group
# 1 , 56 1 4 all
# 2 . 46 2 4 all
# 3 aenean 8 3 2 all
# 4 eget 8 4 4 all
# 5 donec 8 5 4 all
# 6 quis 8 6 4 all