Code Monkey home page Code Monkey logo

assamese_bible's Introduction

Free Bibles

Repository of Bibles under open-license which can be digitally published and distributed with out any restrictions.

assamese_bible's People

Contributors

davidhaslam avatar freebibles avatar freebibles-india avatar joshykurian avatar

Stargazers

 avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar

assamese_bible's Issues

An unexpected number found in three Assamese words

Deuteronomly 26:8 reads:
\v 8 আৰু যিহোৱাই বলৱান হাত, মেলা বাহু, মহা ভয়ানক কাৰ্য্য, নানা চিন, আৰু অদ্ভূত ল৭ণেৰে মিছৰৰ পৰা আমাক উলিয়াই,

The word ল৭ণেৰে contains the Bengali digit 7. Probably a typo.

Psalm 90:10 reads:
\v 10 আমাৰ আয়ুসৰ পৰিমাণ তিনি কুৰি দহ বছৰ, বল থকাৰ নিমিত্তে চাৰি কুৰি বছৰ হ’ব পাৰে; তথা৪পি সেইবোৰৰ গৰ্ব্বৰ বস্তুবোৰ কেৱল পৰিশ্ৰমজনক আৰু অসাৰ কিয়নো সেইবোৰ বেগাই ঢুকাই যায় আৰু আমি উড়ি যাওঁ।

The word তথা৪পি contains the Bengali 4. Probably a typo.

Acts 3:26 reads:
\v 26 7আপোনালোকৰ প্রতিজনক নিজ দুষ্টতাৰ পৰা ঘূৰাই আশীর্ব্বাদ দিবলৈ ঈশ্বৰে তেওঁৰ পুত্ৰ যীচুক প্রথমতে আপোনালোকৰ ওচৰলৈ পঠালে।

The first word 7আপোনালোকৰ begins with the number 7. Probably a typo.

Missing chapter label marker \cl in Mark chapter 6

Mark 6 begins:

\c 6
 ৬ অধ্যায়।
\s যীচুৱে নিজ নগৰত অগ্রাহ্য হোৱা
\p \v 1 তাৰ পাছত যীচুৱে সেই ঠাইৰ পৰা ওলাই, নিজ নগৰলৈ\f + \fr 6:1 \ft মথি ১৩:৫৩-৫৮ ; লূক ৪:১৬-৩০৷\f* আহিল আৰু তেওঁৰ শিষ্য সকলো তেওঁৰ পাছে পাছে আহিল।

The chapter label marker \cl is missing.

Several scripture references in verse text lacking USFM tags or with wrong tags

Luke 4:4 reads:
\v 4 যীচুৱে তাক উত্তৰ দিলে, “শাস্ত্রত লিখা আছে, মানুহ কেৱল পিঠাৰে নিজীয়ে।” (দ্বিতীয় বিৱৰণ ৮:৩)
The reference to (II Chronicles 8:3) should be properly tagged.

Luke 4:8 reads:
\v 8 তেতিয়া যীচুৱে উত্তৰ দি তাক কলে, “শাস্ত্রত লিখা আছে: ‘তুমি কেৱল তোমাৰ প্ৰভু পৰমেশ্বৰক প্ৰণিপাত কৰিবা, আৰু তেওঁৰেই কেৱল সেৱা কৰিবা”(দ্বিতীয় বিৱৰণ ৬:১৩)৷
The reference to (Revelation 6:13) should be properly tagged.

Acts 1: 20-21 reads:

\v 20 পিতৰে পুণৰ ক’লে-"কিয়নো গীতমালা পুথিত লিখা আছে -
\p তেওঁৰ থকা ঠাই নিৰ্জন হওক,
\q1 তাত কোনো মানুহ নাথাকক;
\q1 (গীতমালা ৬৯:২৫)
\p আৰু আনে তেওঁৰ অধ্যক্ষ পদ পাওঁক।
\q1 (গীতমালা ১০৯:৮)
\p
\v 21 গতিকে, প্রভু যীচুক যোহনে বাপ্তিস্ম দিয়া দিনৰে পৰা স্বৰ্গলৈ নিয়া দিনলৈকে যিসকল লোকে আমাৰ মাজত চলা-ফুৰা কৰিছিল,

The references to(Psalm 69:25) & (Psalm 109:8) are incorrectly tagged as poetry.

Acts 4:26 reads:

\q
\v 26 ঈশ্বৰ আৰু তেওঁৰ অভিষিক্তজনাৰ বিৰুদ্ধে
\q জগতৰ ৰজাসকল একেলগে উঠিছে,
\q শাসনকর্তাসকল একগোট হৈছে। (গীতমালা ২:১-২ পদ)

The reference to (Psalm 2:1-2) should be properly tagged.

Luke 3:6 reads:

\q1
\v 6 সকলো মর্ত্ত্যই ঈশ্বৰৰ পৰিত্ৰাণ দেখিব।”
\q1 যিচয়া 40:3-5

The reference to Zechariah 40:3-5 is incorrectly tagged as poetry.

Canonical Psalm titles should use \d rather than \s ; acrostic headings should use \qa

The proper USFM tag for the 116 canonical Psalm titles is \d.

Currently there are 137 instances of \s in the file for Psalms.

The title for Psalm 18 is also misplaced before the chapter tag!

The acrostic stanza headings in Psalm 119 should use the tag \qa.

The acrostic headings for Psalm 119:57 & 153 are both missing!

The existing heading for Psalm 107 is not canonical.
The text is গীতমালাৰ পঞ্চম খণ্ড। which translates as The fifth part of the Psalms.
As the other four parts don't have the equivalent title, either this should be removed or the others inserted.
The proper USFM tag is \ms for major section.

Should we replace the Bengali digits in booknames and footnotes?

The character frequency count for the Assamese Bible includes:

U+09E6	০	208	BENGALI DIGIT ZERO
U+09E7	১	1,239	BENGALI DIGIT ONE
U+09E8	২	758	BENGALI DIGIT TWO
U+09E9	৩	432	BENGALI DIGIT THREE
U+09EA	৪	320	BENGALI DIGIT FOUR
U+09EB	৫	308	BENGALI DIGIT FIVE
U+09EC	৬	254	BENGALI DIGIT SIX
U+09ED	৭	178	BENGALI DIGIT SEVEN
U+09EE	৮	216	BENGALI DIGIT EIGHT
U+09EF	৯	185	BENGALI DIGIT NINE

The attached Zip file contains a list of the 804 lines from the source text containing a Bengali digit.
merged.lines.with.Bengali.digits.usfm.zip

These are used in book names & their abbreviations and for chapter:verse numbers in footnotes.

Should we replace these 4098 Bengali digits by Western digits for modern readers? @joshykurian

I have already made a TextPipe filter that can apply such a systematic change.

In doing this analysis, I spotted an apparent typo in Psalm 90:10.
\v 10 আমাৰ আয়ুসৰ পৰিমাণ তিনি কুৰি দহ বছৰ, বল থকাৰ নিমিত্তে চাৰি কুৰি বছৰ হ’ব পাৰে; তথা৪পি সেইবোৰৰ গৰ্ব্বৰ বস্তুবোৰ কেৱল পৰিশ্ৰমজনক আৰু অসাৰ কিয়নো সেইবোৰ বেগাই ঢুকাই যায় আৰু আমি উড়ি যাওঁ।

i.e. The word তথা৪পি contains the Bengali digit (Western digit 4).
I should guess that the digit is superfluous, and that the intended Assamese word is তথাপি.

A similar kind of typo was found in 2 Chronicles 13:5.
\v 8 আৰু যিহোৱাই বলৱান হাত, মেলা বাহু, মহা ভয়ানক কাৰ্য্য, নানা চিন, আৰু অদ্ভূত ল৭ণেৰে মিছৰৰ পৰা আমাক উলিয়াই,

The word ল৭ণেৰে contains the Bengali digit (Western digit 7).
I'd guess the intended Assamese word is লোণেৰে in which the digit is replaced by the Bengali vowel sign O.

@joshykurian - please advise on this. Thanks.

Should there be a space before the Devanagari Danda?

A search for the regexp \S\x{0964} gave 27756 hits.
A search for the regexp \s\x{0964} gave 1855 hits.

NB. These results relate to my fork of the repo after my commits to the master branch.

This prompts the question:

Should there be a space before the Devanagari Danda?

In the Assamese Bible, those with a space are in a minority, being less than 6.3% of the total.

cf. In the Punjabi Bible, the results are quite the opposite!
A search for the regexp \S\x{0964} gave 1547 hits.
A search for the regexp \s\x{0964} gave 21326 hits.
Here, those without a space are in a minority, being less than 6.8% of the total.

What is the typographical standard in this matter for the various languages that use an Indic script?

NB. If some sort of space is required before the Danda, it's conceivable that it should be U+2008 PUNCTUATION SPACE rather than an ordinary space.

Quotation marks, brackets and parentheses, etc.

FYI. The attached text file provides a character frequency count for the whole Bible.
merged.usfm.character.frequency.txt

Some observations:

  1. Although the Assamese text generally uses left and right double quotation marks, there are still
    U+0022 " 2,345 QUOTATION MARK that should be replaced by left or right as appropriate.

  2. There are at least 32 instances of unmatched square brackets:

U+005B	[	100	LEFT SQUARE BRACKET
U+005D	]	68	RIGHT SQUARE BRACKET
  1. There are at least 4 instances of unmatched parentheses:
U+0028	(	262	LEFT PARENTHESIS
U+0029	)	258	RIGHT PARENTHESIS
  1. There are 15 unexpected instances of U+0060 GRAVE ACCENT that are likely to be typos.

  2. There is just one matched pair of curly brackets that should probably be parentheses.

  3. There are some other unexpected characters that need to be reviewed:

U+007C	|	169	VERTICAL LINE
U+00A8	¨	2	DIAERESIS
U+00AC	¬	1	NOT SIGN
U+02EE	ˮ	2	MODIFIER LETTER DOUBLE APOSTROPHE
U+03C2	ς	12	GREEK SMALL LETTER FINAL SIGMA

The vertical lines are probably typos for the U+0964 । DEVANAGARI DANDA.

  1. There are U+092A प 4 DEVANAGARI LETTER PA that may be typos for U+09AA প BENGALI LETTER PA

  2. The numbers of left and right single quotation marks do not match.

U+2018	‘	123	LEFT SINGLE QUOTATION MARK
U+2019	’	11,548	RIGHT SINGLE QUOTATION MARK

However, the right single quotation mark is mainly used as a vowel sign in Assamese.
See https://en.wikipedia.org/wiki/Eastern_Nagari_script
It's secondary use as a level 2 closing quotation mark may or may not match the number of opening quotation marks (123). Some of the left qms may even be a typo for a right qm. This requires detailed checking.

  1. The numbers of left and right double quotation marks do not match.
U+201C	“	921	LEFT DOUBLE QUOTATION MARK
U+201D	”	764	RIGHT DOUBLE QUOTATION MARK

Either there are some unmatched opening doubles, or there are passages that make use of continuation quotes.

  1. The number of U+09F7 ৷ 2,043 BENGALI CURRENCY NUMERATOR FOUR is unexpected.
    Might these also be typos for U+0964 । DEVANAGARI DANDA ?

  2. Some of the U+0021 ! 376 EXCLAMATION MARK may also be typos for the U+0964 । DEVANAGARI DANDA (just like I observed in the Punjabi text).

Verses that contain spurious digits [0-9] or letters [a-z]

Romans 1:12 reads:
\v 12 আপোনালোকৰ আৰু মোৰ, উভয় পক্ষৰ আন্তৰিক বিশ্বাসৰ দ্বাৰাই আপোনালোকৰ মাজত নিজেও আশ্বাস পাবলৈ, মই ইচ্ছা কৰিছোঁ। 00

The 00 at the end of the verse is spurious.

A few potentially invalid Eastern Nagari glyphs detected

I developed a bespoke TextPipe filter to extract and count all the Assamese words in the ordinary verse text, and then to divide each word into syllables that start with a Bengali letter.

The vast majority of syllables are valid glyphs in the Eastern Nagari script which is an Abudiga.

These counted glyphs were observed to be invalid as observed using BabelPad.

01	যোো
01	যুু
01	ি
01	ওঁঁ
01	ছাু
01	মাি
86	অা
09	া
01	টেি
01	ৱাি

With the Code2000 font, BabelPad shows the dotted circle placeholder for a [vowel] sign when the glyph is potentially not valid in this way. The placeholder disappears with some other fonts such as Arial Unicode MS. Whether or not a particular glyph is valid depends more on the writing system than on the smart font used to display it. Therefore not all these reported patterns are necessarily invalid.

After converting to Unicode character names (and removing the BENGALI part) the list becomes:

01	 LETTER YA VOWEL SIGN O VOWEL SIGN O
01	 LETTER YA VOWEL SIGN U VOWEL SIGN U
01	 VOWEL SIGN I
01	 LETTER O SIGN CANDRABINDU SIGN CANDRABINDU
01	 LETTER CHA VOWEL SIGN AA VOWEL SIGN U
01	 LETTER MA VOWEL SIGN AA VOWEL SIGN I
86	 LETTER A VOWEL SIGN AA
09	 VOWEL SIGN AA
01	 LETTER TTA VOWEL SIGN E VOWEL SIGN I
01	 LETTER RA WITH LOWER DIAGONAL VOWEL SIGN AA VOWEL SIGN I

The letters with either repeated or incompatible [vowel] signs should be easy enough to locate.
Locating the isolated vowel signs without a preceding letter requires greater ingenuity.

It's important to correct these locations, even if some of them seem to display OK with a given font, as some do here in GitHub (viewed in Firefox).

Footnotes in which the footnote text starts with a keyword

The following 19 [counted] footnotes have a colon before any digit within the footnote text.

001	\f + \fr 1:12 \ft কৈফা: পিতৰৰ নাম। \f*
001	\f + \fr 1:2 \ft গালাতীয়া: পৌলে এই ঠাইৰ পৰা প্রথম ধর্মযাত্রাৰ সময়ত উপদেশ দিছিল আৰু মণ্ডলী স্থাপন কৰিছিল। পা:কর্ম 13 আৰু 14 অধ্যায়।\f*
001	\f + \fr 10:22 \ft প্রতিষ্ঠাৰ পর্ব: ডিচেম্বৰৰ এক বিশেষ সপ্তাহ যাক ইহুদী সকলে পর্ব হিচাপে পালন কৰে। \ft*\f*
001	\f + \fr 12.13 \ft গীতমালা: ১১৮;২৫,২৬\f*
001	\f + \fr 16.13 \ft মানুহৰ পুত্ৰ: যীচুৱে নিজৰ কাৰণে এই নাম ব্যৱহাৰ কৰিছিল৷ দানিয়েল ৭: ১৩-১৪: মচীহ অর্থাৎ অভিষিক্ত জনাৰ কাৰণে এই নাম ব্যৱহাৰ কৰা হৈছে যি নাম ঈশ্বৰে তেওঁৰ মনোনীত সকলক উদ্ধাৰ কৰাৰ কাৰণে ব্যৱহাৰ কৰিছিল৷\f*
001	\f + \fr 2:41 \ft নিস্তাৰ পর্ব: ইহুদী সকলৰ এটি গুৰুত্বপূর্ণ পবিত্র দিন। ঈশ্বৰে মোচিৰ দ্বাৰা তেওঁলোকক মিচৰৰ বন্দী অৱস্থাৰ পৰা মুকলি কৰি আনিছিল। এই দিনত তাক স্মৰণ কৰে।\f*
001	\f + \fr 3:10 \ft দ্বি:বি 27:26\f*
001	\f + \fr 3:13 \ft দ্বি:বি 21:23\f*
001	\f + \fr 3:13 \ft সেই দিন: সেই দিনা খ্রীষ্ট সকলো লোকৰ বিচাৰৰ বাবে আহিব।\f*
001	\f + \fr 3:7 \ft ফৰীচী: ইহুদীসকলৰ এক গোড়া ধর্মীয় সম্প্রদায়, যিসকলে নিজকে পুৰণি ইহুদী ধর্ম, মোচিৰ বিধান আৰু ৰীতি-নীতি কঠোৰভাৱে পালনকাৰী হিচাবে দাবী কৰে। এওঁলোক সমাজত অত্যন্ত পূজনীয় আৰু ধর্মীয় শিক্ষা দিছিল। \f*
001	\f + \fr 3:7 \ft চদ্দুকী: ইহুদী ধর্মৱলম্বীসকলৰ এক বিশেষ সম্প্রদায়, যিসকলে পুৰণি ধর্ম নিয়মৰ কেৱল প্রথম পাচঁটা পুস্তকক স্বীকৃতি দিয়ে আৰু মৃত্যুৰ পাছত পুণৰুত্থান বিশ্বাস নকৰে।\f*
001	\f + \fr 4:16 \ft নামঘৰ: এই ঠাইত ইহুদী সকলে প্রার্থনা, শাস্ত্রপাঠ আৰু সাধাৰণ সভাৰ কাৰণে গোট খায়।\f*
001	\f + \fr 5:13 \ft দ্বি:বি: 22:21-24\f*
001	\f + \fr 5:6 \ft মল্কিচেদক: অব্রাহামৰ সময়ত এই নামৰ এজন পুৰোহিত আৰু ৰজা আছিল।\f*
001	\f + \fr 6:13 \ft পাঁচনি: তেওঁলোকক কোৱা হয়, যিসকলক যীচুৱে নিজৰ কার্যৰ বিশেষ সহায়ক হিচাবে মনোনীত কৰিছিল।\f*
001	\f + \fr 7:2 \ft পঁজা-পর্ব: এই পর্ব প্রতিবছৰে সপ্তাহজুৰি পালন কৰা হয়। পর্বৰ সময়ত ইহুদী সকলে তম্বুত বাস কৰে আৰু মোচিৰ সময়ত 40 বছৰ ধৰি মৰুভূমিত ঘূৰি-ফুৰাৰ কথা স্মৰণ কৰে।\f*
001	\f + \fr 9.5 \ft কৰূব: পাখি থকা র্স্বগ দূত\f*
001	\f + \fr 9.9 \ft দ্বি: বি; 25:4\f*
001	\f + \fr 9:10 \ft কৰতোলা: ইহুদীসকলৰ পৰা কৰ তুলিবলৈ নিযুক্ত ৰোমৰ চৰকাৰী কর্মচাৰী। ইহুদী সকলে তেওঁলোকক বিশ্বাসঘাতক আৰু পাপী বুলি ঘৃণা কৰিছিল।\f*

Several of these are potential candidates for the use of the footnote keyword tag \fk .

To illustrate, taking the second instance, where the keyword translates as Galatia:

\f + \fr 1:2 \fk গালাতীয়া: \ft পৌলে এই ঠাইৰ পৰা প্রথম ধর্মযাত্রাৰ সময়ত উপদেশ দিছিল আৰু মণ্ডলী স্থাপন কৰিছিল। পা:কর্ম 13 আৰু 14 অধ্যায়।\f*

Please refer to the USFM User Reference section on footnotes.

On the other hand, some of the shorter Assamese words in this initial position might simply translate to English as an ordinary verb such as See: or Compare: . Even so, a space might be missing after the colon in some.

Not myself being fluent in Assamese, these require the attention of the translation team.

Please take this up. @joshykurian

For the longer keyword candidates, I can use Google translate to confirm my hunch.

Footnote punctuation - using the Devanagari Danda?

In the counted footnotes extracted from the concatenated USFM files,
a search for the regexp \x{0964} gave only 43 hits (out of 688 lines).

  • These footnotes use the Devanagari Danda as the punctuation mark at the end of the footnote text.
  • Ten of these footnotes even have more than one Devanagari Danda.
  • Where the Danda is used, there is no preceding space. cf. Issue #18

Most other footnotes do not have any punctuation mark at the end of footnote text.
I found only 1 footnote that ended it with a period.
001 \f + \fr 27.28 \ft মুল গ্ৰীক ভাষাৰ পৰা ইংৰাজী অনুবাদত টক্টকে লাল . \f*

These observations prompt the following question:

  • Should we end every footnote with a Danda or with a period ?

89 footnotes have no space after the end marker \f*

I just came across this inconsistency.

  • A search for the regexp \\f\*\s gave 600 hits, where as expected, there's a space after the footnote.
  • A search for the regexp \\f\*\S gave 89 hits, where there's no space after the footnote.

Unless we have a very unusual number of mid-word footnotes, many of these 89 places require correcting.

The replace list that seems to cover the requirements is as follows:

(\\f\*)([\x{0980}-\x{09FF}])	$1 $2
(\\f\*)("[\x{0980}-\x{09FF}])	$1 $2

This gives 44 + 1 replacements leaving 44 places unchanged.
These are where the footnote is followed immediately by an appropriate punctuation mark.

I have just run a bespoke TextPipe filter to make these corrections.
These are committed to the Editing branch of my new fork. See pull request #24

NB. Two of these seem to have been corrected earlier.

Luke 13:18 has a paragraph tag with a spurious number 18

Luke 13:17-18 reads:

\v 17 তেওঁ এইবোৰ কথা কোৱাৰ পাছত, তেওঁৰ বিৰুদ্ধে যি সকল লোক আছিল: সেই লোক সকলে লাজ পালে৷ কিন্তু তেওঁ কৰা সকলো মহান কার্যবোৰ দেখি লোক সকলে আনন্দ কৰিলে৷
\s সৰিয়হ গুটি আৰু খমিৰৰ দৃষ্টান্ত
\p 18
\v 18 তাৰ পাছত যীচুৱে কলে, "ঈশ্বৰৰ ৰাজ্য কিহৰ নিচিনা ? আৰু কিহৰ লগত মই ইয়াৰ তুলনা দিম?

There should not be number 18 after the paragraph marker.

Punctuation marks not followed by an expected space

Normally, one would expect a space or EOL after a semicolon.
A search for the regexp ;\S gave 155 hits, though 26 of these are where the next character is a ).

Normally, one would expect a space or EOL after a comma.
A search for the regexp ,\S gave 601 hits, though 7 of these are where the next character is a ).

Normally, one would expect a space or EOL after a colon.
A search for the regexp :\S gave 1389 hits.
I suspect that most of these are typos for U+0983 ঃ BENGALI SIGN VISARGA

Normally, one would expect a space or EOL (or a closing quotation mark) after a question mark.
A search for the regexp \?\S gave 356 hits, though 2 of these are where the next character is ).
Considering the quotation marks next:
There are 6 matches to the regexp \?\x{2019} and 112 matches to the regexp \?\x{201D}.
There are also 206 matches to the pattern ?". That still leaves 30 question marks to acccount for.
I suspect that some of these may be a typo for an Eastern Nagari character with some visual similarity.
There are 10 matches to the regexp \?[^[:punct:]\s]
(i.e. where the next character neither a space nor a punctuation mark). Here are the search results:

\v 4 দায়ূদে তাক সুধিলে কি হ’ল?মোক কোৱাচোন। সি কলে,লোকবিলাক যুদ্ধৰ পৰা পলাল, আৰু লোকবিলাকৰ মাজত অনেক মৰা পৰিল;আৰু চৌল ও তেওঁৰ পুত্ৰ যোনাথনো মৰিল।
\v 9 তুমি কিয় যিহোৱাৰ বাক্য তুচ্ছ কৰি তেওঁৰ সাক্ষাতে কু-আচৰণ কৰিলা?তুমি হিত্তীয়া ঊৰিয়াক তৰোৱালৰ দ্বাৰাই মাৰি পেলালা,তাৰ তিৰোতাকো আনি নিজৰ তিৰোতা কৰিলা,আৰু অম্নোনৰ সন্তানবিলাকৰ তৰোৱালৰ দ্বাৰাই ঊৰিয়াক বধ কৰিলা।
\v 28 বৃষ্টিৰ জানো পিতৃ আছে?বা নিয়ৰৰ বিন্দু সমুহ জানো কোনোবাই প্ৰসৱ কৰিলে?
\v 2 তুমি তাৰ নাকত নাকী লগাব পাৰা নে ?আৰু বৰশীৰে তাৰ কেৱাৰি বিন্ধিব পাৰা নে ?
\v 17 হে প্ৰভু, তুমি কিমান কাললৈ চাই থাকিবা?সিহঁতে বিনষ্ট কৰিব খোজাৰ পৰা মোৰ প্ৰাণ উদ্ধাৰ কৰা; সিংহবোৰৰ পৰা মোৰ একেটি প্ৰাণক ৰক্ষা কৰা।
\v 13 হে যিহোৱা, উভটি আহা, কিমান কাললৈ নো তুমি পলম কৰি থাকিবা?তুমি তোমাৰ দাসবিলাকক কৃপা কৰা।
\v 36 তেওঁ উত্তৰ দি ক’লে, “প্ৰভু, তেওঁ কোন?মোক কওক, মই যেন তেওঁক বিশ্বাস কৰিব পাৰোঁ।”
\v 3 কাৰণ ধৰ্মশাস্ত্ৰই কি কৈছে?b অব্ৰাহামে ঈশ্বৰত বিশ্বাস কৰাত, সেই বিশ্বাস তেওঁলৈ ধাৰ্মিকতাৰ অৰ্থে গণিত হ’ল।
\v 35 খ্ৰীষ্টৰ প্ৰেমৰ পৰা কোনে আমাক বিচ্ছিন্ন কৰিব পাৰে?k ক্লেশ বা সঙ্কট, তাড়না বা আকাল, বস্ত্ৰহীনতা বা প্ৰাণ সংশয় বা তৰোৱাল, এইবোৰে পাৰে নে?
\v 21 একে লদা মাটিৰে সমাদৰলৈ এটা, অনাদৰলৈ এটা, এনে দুবিধ পাত্ৰ বনাবলৈ, মাটিৰ ওপৰত কুমাৰৰ ক্ষমতা নাই নে?v

Each of these locations needs to be reviewed.
The last 3 are where the next character is a lowercase English letter. See also issue #10

Normally, one would expect a space or EOL after an exclamation mark.
A search for the regexp !\S gave 60 hits, though 59 of these are where the next character is a punctuation mark. The one exception is in Malachi 1:8 which reads:
\v 8 আৰু যেতিয়া তোমালোকে বলিদানৰ অৰ্থে অন্ধ পশু উৎলৰ্গ কৰা সেইটো বেয়া নহয়!আৰু যেতিয়া তোমালোকে খোৰা আৰু ৰোগীয়া পশু উৎসৰ্গ কৰা সেইটো বেয়া নহয়! তোমাৰ দেশাধি-পতিৰ আগত তাক উপহাৰ স্বৰূপে দিয়াচোন; বাহিনীবিলাকৰ যিহোৱাই কৈছে, তেওঁ তোমালৈ প্ৰসন্ন হ’বনে? বা তোমাকে গ্ৰাহ্য কৰিবনে?
I therefore suspect the ! in the word নহয়!আৰু is a typo.

Unicode Normalization of Eastern Nagari ?

Thinking ahead, being mindful that some Indic writing systems require special consideration.

Unless the default is overridden in osis2mod, using this tool to make a SWORD module will first normalize the OSIS XML file to NFC (Normalization Form C).

Converting the existing USFM files to NFC does make tens of thousands of changes to these files.

This prompts the following question:
Is Eastern Nagari one of the writing systems where converting to NFC should be avoided?

It's necessary to know this in order to make the right decisions about the module build.

Some footnote references required correcting

I've manually edited some references in a few footnotes:

  • Replaced a colon between refs by a semicolon
  • Removed a spurious space after the colon within some refs
  • Inserted a missing space before one ref

These fixes have just been committed to the Editing branch of my new fork.

Books affected: MAT, LUK, JHN, ACT, TIT, HEB

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.