If you have any concerns, please let me know.
Latest blog posts:
An R package for Japanese text processing
Home Page: https://paithiov909.github.io/audubon/
License: Other
If you have any concerns, please let me know.
Latest blog posts:
Prepare for release:
devtools::build_readme()
urlchecker::url_check()
devtools::check(remote = TRUE, manual = TRUE)
devtools::check_win_devel()
rhub::check_for_cran()
revdepcheck::revdep_check(num_workers = 4)
cran-comments.md
Submit to CRAN:
usethis::use_version('minor')
devtools::submit_cran()
Wait for CRAN...
usethis::use_github_release()
usethis::use_dev_version()
微妙に間違ったことを書いている気がする。rewrites characters only specifiedではない。指定された文字列は強制的に指定先に書き換えて正規化する、が正しい。
engine
引数を設けたことでstrj_segmentとstrj_tokenizeを分けている意味がなくなったので、strj_tokenizeに一本化したい。engine = c("budoux", "tinyseg")
はstrj_tokenizeに統合し、strj_segment関数はstrj_tokenizeのエイリアスにする。stri_opts_brkiterでword区切りになってしまっているので、渡した要素そのままの区切りにかえたい
Line 82 in da1f8bd
一度packしてしまえばquantedaに持ち込んでquanteda::tokens_ngrams
でngram/skipgramにできるので、packの引数nの位置づけがよくわからないのはある
df <- data.frame(doc_id = c(1:3), text = audubon::polano[3:5], meta = c(4:6))
df |>
gibasa::tokenize() |>
gibasa::pack() |>
quanteda::corpus() |> quanteda::tokens(what = "fastestword") |>
quanteda::tokens_ngrams() |>
quanteda::dfm() |>
tidytext::tidy()
#> # A tibble: 24 × 3
#> document term count
#> <chr> <chr> <dbl>
#> 1 1 前_十 1
#> 2 1 十_七 1
#> 3 1 七_等 1
#> 4 1 等_官 1
#> 5 1 官_レオーノ・キュースト 1
#> 6 1 レオーノ・キュースト_誌 1
#> 7 2 宮沢_賢治 1
#> 8 2 賢治_訳述 1
#> 9 3 その_ころ 1
#> 10 3 ころ_わたくし 1
#> # … with 14 more rows
Created on 2022-04-10 by the reprex package (v2.0.1)
budouxはICU 73.2からすでに組み込まれており、V8経由でモジュールを呼ばなくても、stringi (>=1.8.1, 2023-11-09) から同等の出力を得ることができるっぽい。
audubon::strj_segment("今日はいい天気です。")
#> $`1`
#> [1] "今日は" "いい" "天気です。"
stringi::stri_split_boundaries(
"今日はいい天気です。",
opts_brkiter = stringi::stri_opts_brkiter(
locale = "ja@ld=auto;lw=phrase"
)
)
#> [[1]]
#> [1] "今日は" "いい" "天気です。"
Created on 2023-12-21 with reprex v2.0.2
アクセント分解の復元をするやつ
pull
にsymbolを渡せるようにするpack(tbl, pull, n, sep, .collapse)
にするfeature
以外の任意の列名を指定できるようにするread_delim
にして区切り文字を指定できるようにするNAsが含まれるカラムをpackするとstringiからNAは空文字にcoerceしたというメッセージが出る。なんだかわかりにくいのでstringi::stri_remove_empty_na()
を噛ませる
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.