Code Monkey home page Code Monkey logo

audubon's Introduction

audubon's People

Contributors

dependabot[bot] avatar hadley avatar imgbotapp avatar paithiov909 avatar uribo avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

Forkers

uribo hadley

audubon's Issues

Release audubon 0.1.0

Prepare for release:

  • Check current CRAN check results
  • Polish NEWS
  • devtools::build_readme()
  • urlchecker::url_check()
  • devtools::check(remote = TRUE, manual = TRUE)
  • devtools::check_win_devel()
  • rhub::check_for_cran()
  • revdepcheck::revdep_check(num_workers = 4)
  • Update cran-comments.md
  • Review pkgdown reference index for, e.g., missing topics
  • Draft blog post

Submit to CRAN:

  • usethis::use_version('minor')
  • devtools::submit_cran()
  • Approve email

Wait for CRAN...

  • Accepted 🎉
  • usethis::use_github_release()
  • usethis::use_dev_version()
  • Finish blog post
  • Tweet
  • Add link to blog post in pkgdown news menu

Update readme

微妙に間違ったことを書いている気がする。rewrites characters only specifiedではない。指定された文字列は強制的に指定先に書き換えて正規化する、が正しい。

Deprecate strj_segment

  • strj_tokenizeにengine引数を設けたことでstrj_segmentとstrj_tokenizeを分けている意味がなくなったので、strj_tokenizeに一本化したい。
  • engine = c("budoux", "tinyseg")はstrj_tokenizeに統合し、strj_segment関数はstrj_tokenizeのエイリアスにする。

Make ngram simply as strings

stri_opts_brkiterでword区切りになってしまっているので、渡した要素そのままの区切りにかえたい

tokens <- unlist(stringi::stri_split_boundaries(x, opts_brkiter = options))

一度packしてしまえばquantedaに持ち込んでquanteda::tokens_ngramsでngram/skipgramにできるので、packの引数nの位置づけがよくわからないのはある

df <- data.frame(doc_id = c(1:3), text = audubon::polano[3:5], meta = c(4:6))
df |> 
    gibasa::tokenize() |> 
    gibasa::pack() |> 
    quanteda::corpus() |> quanteda::tokens(what = "fastestword") |> 
    quanteda::tokens_ngrams() |> 
    quanteda::dfm() |> 
    tidytext::tidy()
#> # A tibble: 24 × 3
#>    document term                    count
#>    <chr>    <chr>                   <dbl>
#>  1 1        前_十                       1
#>  2 1        十_七                       1
#>  3 1        七_等                       1
#>  4 1        等_官                       1
#>  5 1        官_レオーノ・キュースト     1
#>  6 1        レオーノ・キュースト_誌     1
#>  7 2        宮沢_賢治                   1
#>  8 2        賢治_訳述                   1
#>  9 3        その_ころ                   1
#> 10 3        ころ_わたくし               1
#> # … with 14 more rows

Created on 2022-04-10 by the reprex package (v2.0.1)

Update segmentation method using budoux?

budouxはICU 73.2からすでに組み込まれており、V8経由でモジュールを呼ばなくても、stringi (>=1.8.1, 2023-11-09) から同等の出力を得ることができるっぽい。

audubon::strj_segment("今日はいい天気です。")
#> $`1`
#> [1] "今日は"     "いい"       "天気です。"

stringi::stri_split_boundaries(
  "今日はいい天気です。",
  opts_brkiter = stringi::stri_opts_brkiter(
    locale = "ja@ld=auto;lw=phrase"
  )
)
#> [[1]]
#> [1] "今日は"     "いい"       "天気です。"

Created on 2023-12-21 with reprex v2.0.2

参考

Refactor prettify

  • feature以外の任意の列名を指定できるようにする
  • read_delimにして区切り文字を指定できるようにする

Implicitly remove any NAs and empties when pack

NAsが含まれるカラムをpackするとstringiからNAは空文字にcoerceしたというメッセージが出る。なんだかわかりにくいのでstringi::stri_remove_empty_na()を噛ませる

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.