tfbf / bible-punjabi-pavitr-bible-1945 Goto Github PK
View Code? Open in Web Editor NEWBible-Punjabi-Pavitr-Bible-1945
License: Other
Bible-Punjabi-Pavitr-Bible-1945
License: Other
The character frequency analysis (performed using BabelPad) revealed:
U+0028 ( 42 LEFT PARENTHESIS
U+0029 ) 44 RIGHT PARENTHESIS
Looks as though there are two (or more) unmatched right parentheses.
The locations are yet to be determined.
See the Wikipedia page about the Devanāgarī danda
The function of these two symbols in Gurmukhi would seem to be as follows:
That being the case, we should probably expect to see a USFM paragraph marker \p immediately after each verse that ends with a double danda.
Currently there are no double danda symbols in the concatenated USFM file, but if we do fix issue #24 in the manner I was proposing, then every verse that currently ends with two vertical lines "||" should have a paragraph marker after it to mark the start of a new paragraph.
A search of the concatenated USFM files for the regxp pattern \x20{2,} gave 1678 matches.
Most of such instances of "multiple whitespace" is at the end of line position.
However, there are some instances where it occurs "mid-verse".
Some occurs in section headings between the \s tag and the text.
Many Unicode text editors have a facility to replace each instance of "multiple whitespace" by a single space. This should also get rid of the spurious 9 tab characters.
NB. The attached report excluded HEBREWS and REVELATION.
The GBC USFM Preprocessor utility crashed when these two files were included.
btw. Some NT verse tags with no text are likely to be those listed here
https://en.wikipedia.org/wiki/List_of_Bible_verses_not_included_in_modern_translations
The line reads:
\v 15 ਯਹੋਵਾਹ ਦੇ ਸੈਨਾਪਤੀ ਨੇ ਯਹੋਸ਼ੁਆ ਨੂੰ ਆਖਿਆ ਕਿ ਤੂੰ ਆਪਣੇ ਪੈਰੋਂ ਅ[ਆਪਣੀ ਜੁੱਤੀ ਲਾਹ ਕਿਉਂ ਜੋ ਜਿੱਥੇ ਤੂੰ ਖੜਾ ਹੈਂ ਉਹ ਥਾਂ ਪਵਿੱਤਰ ਹੈ ਤਾਂ ਯਹੋਸ਼ੁਆ ਨੇ ਓਵੇਂ ਹੀ ਕੀਤਾ ||
It's in the 12th word ਅ[ਆਪਣੀ
The codepoint U+005B is not found anywhere else in the work. I suspect it's a typo.
The verse reads:
\v 13 ਤਾਂ ਉਹ ਜਗਵੇਦੀ ਦੀ ਸੁਆਹ ਕੱੱਢ ਕੇ ਉਸ ਉੱਤੇ ਬੈਂਗਣੀ ਕੱਪੜਾ ਵਿਛਾਉਣ |
The double ADDAK is located in word ਕੱੱਢ. This is just one example.
There are a total of 107 instances of the double ADDAK in the whole work.
Suggest search and replace double ADDAK by single ADDAK.
Same observations about font rendering as per previous issues.
In the concatenated USFM file there are 566 instances of the string \p \v
It would be preferred to place each paragraph marker \p on its own line.
This is not a USFM conformance issue per se.
More a matter for improved human readability.
The line reads:
\v 4 ਤਾਂ ਐਉਂ ਹੋਇਆ ਕਿ ਜਦ ਮੈਂ ਏਹ ਗੱਲਾਂ ਸੁਣੀਆਂ ਤਾਂ ਮੈਂ ਬੈਠ ਕੇ ਰੋਣ ਲੱਗ ਪਿਆ ਅਤੇ ਮੈਂ ਕਈ ਦਿਨਾਂ ਤੀਕ ਸੋਗ ਕੀਤਾ ਅਤੇ ਵਰਤ ਰੱਖਿਆ ਨਾਲੇ ਅਕਾਸ਼ ਦੇ ਪਰਮੇਸ਼ੁਰ ਦੇ ਸਨਮੁੱਖ ਪ੍ਰਾਰਥਨਾ ਕੀਤੀ
It's found in the 11th word ਮੈਂ
The codepoint U+200D appears nowhere else in the work. It may be a typo.
In Notepad++ it doesn't render as part of the glyph. Some editors just do not display it.
Character frequency analysis reveals:
U+0022 " 314 QUOTATION MARK
U+201C “ 542 LEFT DOUBLE QUOTATION MARK
U+201D ” 477 RIGHT DOUBLE QUOTATION MARK
Clearly the intention was to use the left and right forms, so the 314 occurrences of U+0022 must be challenged.
Once these are corrected, it's very likely that the counts for left and right will still not match.
However, this can also occur naturally when a work has continuation quotes.
Thorough detailed investigation is required. There are too many instances to record individually.
None of the 27 NT books have a running header tag \h --dh
None of the 27 NT books have any table of contrents tag \toc1 \toc2 --dh
The verse reads:
\v 36 ਤੈਂ ਆਪਣੇ ਬਚਾਓ ਦੀ ਢਾਲ ਮੈਨੂੰ ਦਿੱਤੀ ਹੈ, ਅਤੇ ਤੇਰੀ ਨਰਮਾਈ ਨੇ ਮੈਨੂੰ ਵਡਿਆਇਆਆ ਹੈ
The double letter AA is located in the wrod ਵਡਿਆਇਆਆ.
Is this correct? It looks suspect to me. The word transliterates as vaḍi'ā'i'ā'ā.
Inserting a space between the two letters AA would make it translate correctly.
Google Translate then gave this:
"You have given me your shield of salvation, and your humility that makes me great."
These two empty verses can be fixed by adding a space after the verse number.
Hebrews 12:29
Revelation 12:18
After this correction was done, these two books did not cause the GBC USFM Preprocessor to "hang".
The line reads:
This line has nested quotes:
\v 23 ਯੂਹੰਨਾ ਨੇ ਉਨ੍ਹਾਂ ਨੂੰ ਨਬੀ ਯਸਾਯਾਹ ਦੇ ਸ਼ਬਦ ਆਖੇ:“ਮੈਂ ਉਜਾੜ ਵਿੱਚ ਹੋਕਾ ਦੇਣ ਵਾਲੇ ਬੰਦੇ ਦੀ ਅਵਾਜ਼ ਹਾਂ:‘ਪ੍ਰਭੂ ਲਈ ਸਿਧਾ ਰਾਹ ਤਿਆਰ ਕਰੋ।”
The left single quotation mark is unmatched. I think the line should read:
\v 23 ਯੂਹੰਨਾ ਨੇ ਉਨ੍ਹਾਂ ਨੂੰ ਨਬੀ ਯਸਾਯਾਹ ਦੇ ਸ਼ਬਦ ਆਖੇ:“ਮੈਂ ਉਜਾੜ ਵਿੱਚ ਹੋਕਾ ਦੇਣ ਵਾਲੇ ਬੰਦੇ ਦੀ ਅਵਾਜ਼ ਹਾਂ:‘ਪ੍ਰਭੂ ਲਈ ਸਿਧਾ ਰਾਹ ਤਿਆਰ ਕਰੋ।’”
Booknames extracted from the USFM files by various tags.
Booknames(h).txt
Booknames(id).txt
Booknames(mt1).txt
Booknames(toc1).txt
Booknames(toc2).txt
Each file contains a list of the book names tagged as per the string in ( ).
e.g. \h => Booknames(h).txt => Booknames.h.txt
The case of titles tagged with \mt1 is not consistent. Some books are UPPERCASE, others are Proper Case.
The verse reads:
\v 6 ਪ੍ਰਭੁ ਯਹੋਵਾਹ ਐਉਂ ਫ਼ਰਮਾਉਂਦਾ ਹੈੈ, - ਏਸ ਲਈ ਕਿ ਤੈਂ ਤਾਉੜੀਆਂ ਵਜਾਈਆਂ ਅਤੇ ਆਪਣੇ ਪੈਰ ਧਰਤੀ ਤੇ ਮਾਰੇ ਅਤੇ ਇਸਰਾਏਲ ਦੀ ਭੂਮੀ ਲਈ ਜਾਨ ਨਾਲ ਸਾਰੀ ਨਿਆਦਰੀ ਕਰ ਕੇ ਅਨੰਦ ਹੋਏ
The double AI sign is located in word ਹੈੈ.
This is the sole instance. Must be a typo. Should be a single AI sign.
Same observations about font rendering as in previous issue.
The verse reads:
\v 22 ....... ਡਾਢੇ ਅਨੰਦ ਹੁੰਦੇ, ਅਤੇ ਖ਼ੁਸ਼ੀ ਕਰਦੇ ਜਦ ਕਬਰ ਨੂੰ ਪਾ ਲੈਂਦੇ ਹਨ,
Is there something missing?
Google Translate gives:
\v 22 ....... when fierce joy, and happiness, they find the grave,
cf. The KJV has:
22. Which rejoice exceedingly, and are glad, when they can find the grave?
Here's the latest character frequency analysis made using BabelPad on the concatenated USFM file.
merged.usfm.character.frequency.txt
NB. This was done after replacing the no break spaces!
After some of my provisional corrections, I used a TextPipe filter to extract and count all the Gurmukhi words found in verse text in my concatenated USFM file.
The file is tab delimited and sorted on the second field.
Examination of words that are found only once (hapax legomena) may give clues to any unexpected spellings.
Clearly this exercise will require knowledge of Punjabi and the Biblical context.
All punctuation, etc. (including the DANDA) was removed before the word list was generated.
The list excludes words found in section titles and after other non-verse markers.
Careful examination with a suitable Unicode text editor should also expose the anomalous double vowel signs and the like that were reported separately earlier today.
Tip: The file could readily be opened with Microsoft Excel such that an advanced user might make use of the Data | Filter | Autofilter features in Excel to pursue the detailed investigation.
The verse reads:
\v 9 ghਹੇ ਯਾਕੂਬ ਦੇ ਘਰਾਣੇ ਦੇ ਮੁਖਿਓ, ਹੇ ਇਸਰਾਏਲ ਦੇ ਘਰਾਣੇ ਦੇ ਆਗੂਓ, ਏਹ ਸੁਣਿਓ ! ਤੁਸੀਂ ਜੋ ਇਨਸਾਫ਼ ਤੋਂ ਘਿਣ ਕਰਦੇ ਹੋ, ਅਤੇ ਸਾਰੀ ਸਿਧਿਆਈਨੂੰ ਮਰੋੜਦੇ ਹੋ,
The first two letters must surely be a typo!
The line reads:
\v 6 ਤੈਂ ਸੁਣਿਆ, ਏਹ ਸਭ ਕੁਝ ਵੇਖ, ਅਤੇ ਤੁਸੀਂ, - ਭਲਾ, ਤੁਸੀਂ ਨਾ ਦੱਸੋਗੇ ? ਹੁਣ ਤੋਂ ਮੈਂ ਤੈਨੂੰ ਨਵੀਆਂ ਗੱਲਾਂ ਸੁਣਾਉਂਦਾ ਹਾਂ, ਅਤੇ ਗੁਪਤ ਗੱਲਾਂ ਜਿਨ੍ਹਾਂ ਨੂੰ ਤੈਁਂ ਨਹੀਂ ਜਾਣਿਆ |
The sign is in the last but two word ਤੈਁਂ
Codepoint U+0A01 was found nowhere else in the work.
The codepoint does not render in Notepad++. Some editors may ignore it.
Needs expert attention to decide whether this is a real issue, or merely a rare occurrence.
If it was intended, there may be rendering issues for some fonts.
(e.g.) It doesn't render as part of the glyph in Unicode font Code2000.
Extracted all the lines with the \rem tag from the concatenated USFM files.
The NT books don't include the CC license.
In these 27 books there are duplicated remarks.
Acts 27:2-6 has numeral 1 instead of vertical line | at the end of each verse
Here are the first seven verses from Acts 27:
\c 27
\p \v 1 ਜਾਂ ਇਹ ਗੱਲ ਠਹਿਰੀ ਜੋ ਅਸੀਂ ਜਹਾਜ਼ ਉੱਤੇ ਚੜ੍ਹ ਕੇ ਇਤਾਲਿਯਾ ਨੂੰ ਜਾਈਏ ਤਾਂ ਉਨ੍ਹਾਂ ਨੇ ਪੌਲੁਸ ਅਤੇ ਕਈ ਹੋਰ ਕੈਦੀਆਂ ਨੂੰ ਯੂਲਿਉਸ ਨਾਮੇ ਪਾਤਸ਼ਾਹੀ ਪਲਟਣ ਦੇ ਇੱਕ ਸੂਬੇਦਾਰ ਨੂੰ ਸੋਂਪ ਦਿੱਤਾ !
\v 2 ਅਤੇ ਅਸੀਂ ਅਦ੍ਰਮੁਤਿਯੁਮ ਦੇ ਇੱਕ ਜਹਾਜ਼ ਤੇ ਜਿਹੜਾ ਅਸਿਯਾ ਦੇ ਕਨਾਰੇ ਦੇ ਸ਼ਹਿਰਾਂ ਨੂੰ ਜਾਣ ਵਾਲਾ ਸੀ ਸਵਾਰ ਹੋ ਕੇ ਤੁਰ ਪਏ ਅਤੇ ਅਰਿਸਤਰਖੁਸ ਥੱਸਲੁਨੀਕੇ ਦਾ ਇੱਕ ਮਕਦੂਨੀ ਸਾਡੇ ਨਾਲ ਸੀ 1
\v 3 ਅਗਲੇ ਭਲਕ ਅਸੀਂ ਸੈਦਾ ਵਿੱਚ ਜਾ ਉਤਰੇ ਅਤੇ ਯੂਲਿਉਸ ਨੇ ਪੌਲੁਸ ਨਾਲ ਚੰਗਾ ਸਲੂਕ ਕਰਕੇ ਪਰਵਾਨਗੀ ਦਿੱਤੀ ਜੋ ਆਪਣੇ ਮਿੱਤਰਾਂ ਕੌਲ ਜਾ ਕੇ ਚੈਨ ਕਰੇ 1
\v 4 ਉੱਥੋਂ ਜਹਾਜ਼ ਖੋਲ ਕੇ ਅਸੀਂ ਕੁਪਰਸ ਦੇ ਓਹਲੇ ਜਾ ਨਿੱਕਲੇ ਕਿਉਂ ਜੋ ਪੋੰਣ ਸਾਹਮਣੀ ਸੀ 1
\v 5 ਅਤੇ ਜਾਂ ਅਸੀਂ ਕਿਲਿਕਿਯਾ ਅਰ ਪੰਮਫ਼ੁਲਿਯਾ ਦੇ ਲਾਗੇ ਦੇ ਸਮੁੰਦਰੋਂ ਪਾਰ ਲੰਘੇ ਤਾਂ ਲੁਕਿਯਾ ਦੇ ਨਗਰ ਮੂਰਾ ਵਿੱਚ ਆ ਉਤਰੇ 1
\v 6 ਉੱਥੇ ਸੂਬੇਦਾਰ ਨੇ ਸਿਕੰਦਰਿਯਾ ਦਾ ਇੱਕ ਜਹਾਜ਼ ਇਤਾਲਿਯਾ ਨੂੰ ਜਾਣ ਵਾਲਾ ਵੇਖ ਕੇ ਸਾਨੂੰ ਉਹ ਦੇ ਉੱਤੇ ਜਾ ਚੜਾਇਆ 1
\v 7 ਅਤੇ ਜਾਂ ਅਸੀਂ ਬਹੁਤ ਦਿਨਾਂ ਤੀਕ ਹੌਲੀ ਹੌਲੀ ਚੱਲੇ ਸਾਂ ਅਤੇ ਮਸਾਂ ਮਸਾਂ ਕਨੀਦੁਸ ਦੇ ਸਾਹਮਣੇ ਪਹੁੰਚੇ ਤਾਂ ਇਸ ਲਈ ਜੋ ਪੌ ਣ ਸਾਨੂੰ ਅਗਾਹਾਂ ਵਧਣ ਨਾ ਸੀ ਦਿੰਦੀ ਅਸੀਂ ਕਰੇਤ ਦੇ ਉਹਲੇ ਸਲਮੋਨੇ ਦੇ ਸਾਹਮਣੇ ਚਲੇ !
The EOL punctuation is incorrect. Each numeral 1 should be replaced by a vertical line |
Addendum (2017-01-11)
There's a further instance in Nahum 1:1 which reads:
\v 1 ਨੀਨਵਾਹ ਦੇ ਵਿਰੁੱਧ ਅਗੰਮ ਵਾਕ 1 ਨੀਨਵਾਹ ਦੇ ਵਿਖੇ ਅਗੰਮ ਵਾਕ | ਅਲਕੋਸ਼ੀ ਨਹੂਮ ਦੇ ਦਰਸ਼ਣ ਦੀ ਪੋਥੀ ||
Here's the updated analysis of the concatenated USFM files.
merged.usfm.character.frequency.txt
btw. This assumes that the merge conflict in 14_2CHPUNOT.usfm has been resolved.
The verse reads:
\v 15 5ਯੂਹੰਨਾ ਨੇ ਲੋਕਾਂ ਨੂੰ ਉਸਦੇ ਬਾਰੇ ਦਸਿਆ ਅਤੇ ਆਖਿਆ, “ਇਹੀ ਉਹ ਹੈ ਜਿਸ ਬਾਰੇ ਮੈਂ ਦੱਸ ਰਿਹਾ ਸੀ। ਮੈਂ ਤੁਹਾਨੂੰ ਦਸਿਆ ਸੀ ਕਿ ਉਹ ਇੱਕ,ਜਿਹੜਾ ਮੇਰੇ ਬਾਦ ਆਵੇਗਾ, ਉਹ ਮੈਥੋਂ ਵੀ ਮਹਾਨ ਹੈ। ਉਹ ਮੈਥੋਂ ਵੀ ਪਹਿਲਾਂ ਰਹਿ ਰਿਹਾ ਸੀ।’”
I suspect the digit 5 in the first word (5ਯੂਹੰਨਾ) is a typo.
The verse reads:
\v 27 ਕਿਉਂਕਿ ਵੱਡਾ ਕੌਣ ਹੈ, ਉਹ ਜਿਹੜਾ ਖਾਣ ਬੈਠਦਾ ਹੈ ਯਾ ਉਹ ਜਿਹੜਾ ਟਹਿਲ ਕਰਦਾ ਹੈ ? ਭਲਾ, ਉਹ ਨਹੀਂ ਜਿਹੜਾ ਖਾਣ ਨੂੰ ਬੈਠਦਾ ਹੈ ? ਪਰ ਮੈਂ ਤੁਹਾਡੇ ਵਿੱਚ ਟਹਿੁਲੂਏ ਵਰਗਾ ਹਾਂ |
The word ਟਹਿੁਲੂਏ contains GURMUKHI VOWEL SIGNS I and U consecutively.
This is a peculiar vowel sign combination in the Gurmukhi script.
I suspect second of these vowel signs is a typo.
The word ਟਹਿਲੂਏ (without the U) means servants.
Hola! @beniza has created a ZenHub account for the tfbf organization. ZenHub is the only project management tool integrated natively in GitHub – created specifically for fast-moving, software-driven teams.
To get set up with ZenHub, all you have to do is download the browser extension and log in with your GitHub account. Once you do, you’ll get access to ZenHub’s complete feature-set immediately.
ZenHub adds a series of enhancements directly inside the GitHub UI:
Still curious? See more ZenHub features or read user reviews. This issue was written by your friendly ZenHub bot, posted by request from @beniza.
These two verses read:
\v 24 ਪੀੜ ਤੇ ਦੁਖ ਉਉਹ ਨੂੰ ਡਰਾਉਂਦੇ ਹਨ, ਉਸ ਰਾਜੇ ਵਾਂਙੁ ਜੋ ਜੁੱਧ ਲਈ ਤਿਆਰ ਹੈ, ਓਹ ਉਹ ਨੂੰ ਜਿੱਤ ਲੈਂਦੇ ਹਨ,
\v 26 ਉਉਹ ਉਸ ਉੱਤੇ ਟੇਢੀ ਧੌਣ ਨਾਲ ਆਪਣੀ ਮੋਟੀ ਮੋਟੀ ਨੋਕਦਾਰ ਢਾਲ ਨਾਲ ਦੋੜਦਾ ਹੈ,
The same word (ਉਉਹ) in both verses has the double letter U.
I think they should both be the single letter U.
Making that change remedied the Google Translate results.
The verse reads:
\p \v 1 ਜਦ ਰਹਬੁਆਮ ਯਰੂਸ਼ਲਮ ਵਿੱਚ ਆ ਗਿਆ ਤਦ ਉਸ ਨੇ ਇਸਰਾਏਲ ਨਾਲ ਲੜਨ ਲਈ ਯਹੂਦਾਹ ਅਤੇ ਬਿਨ੍ਯਾਮਿਨ ਦੇ ਘਰਾਣਿਆਂ ਵਿੱਚੋਂ ਇੱਕ ੌਲਖ ਅੱਸੀ ਹਜ਼ਾਰ ਜੁੱਧ ਦੇ ਚੁਣਵੇਂ ਸੂਰਮੇ ਇੱਕਠੇ ਕੀਤੇ ਤਾਂ ਜੋ ਓਹ ਫੇਰ ਰਾਜ ਨੂੰ ਰਹਬੁਆਮ ਦੇ ਲਈ ਮੋੜ ਲੈਣ
The AU sign is not attached to a letter in the word ੌਲਖ.
This is the sole occurrence.
There are four verses affected. The first has a triple OO sign, the others a double OO sign.
The first instance reads:
\v 18 ਸੋੋੋ ਉਨ੍ਹਾਂ ਨੂੰ ਚੁੱਕ ਕੇ ਉਹ ਸ਼ਹਿਰ ਵਿੱਚ ਗਈ ਅਤੇ ਜੋ ਕੁਝ ਉਹ ਨੇ ਚੁਗਿਆ ਸੀ ਸਭ ਉਹ ਦੀ ਸੱਸ ਨੇ ਡਿੱਠਾ ਅਤੇ ਉਹ ਨੇ ਉਹ ਵੀ ਜੋ ਰੱਜ ਕੇ ਛੱਡਿਆ ਸੀ ਸੋ ਆਪਣੀ ਸੱਸ ਨੂੰ ਦਿੱਤਾ
The triple OO sign is in the first word ਸੋੋੋ.
Suggest search and replace multiple OO sign by single OO sign.
Same observations about font rendering apply as per previous post.
The verse reads:
\v 20 ਅਸਤਰ ਨੇ ਨਾ ਆਪਣੇ ਟੱਬਰ ਦਾ, ਨਾ ਆਪਣੀ ਉੱਮਤ ਦਾ ਪਤਾ ਦੱਸਿਆ ਕਿਉਂ ਜੋ ਮਾਾਰਦਕਈ ਨੇ ਉਸ ਨੂੰ ਤਗੀਦ ਕੀਤੀ ਹੋਈ ਸੀ ਅਰ ਅਸਤਰ ਮਾਰਦਕਈ ਦਾ ਹੁਕਮ ਓਦਾਂ ਹੀ ਮੰਨਦੀ ਸੀ ਜਿਦਾਂ ਉਹ ਉਹ ਦੇ ਕੋਲ ਪਲਦੀ ਸੀ
The double AA sign is found in the word ਮਾਾਰਦਕਈ. Looks like the double AA sign is a typo.
The same word but with a single AA sign is found 57 times in the whole work.
Double identical vowel signs do not render properly with some Unicode fonts, such as Code2000.
Unicode text editors vary in how they display them, so it's not always easy to spot.
The verse reads:
\v 17 ਅਤੇ ਮਤਨਯਾਹ ਮੀਕਾ ਦਾ ਪੁੱਤ੍ਰ, ਉਹ ਜ਼ਬਈਗ਼ ਦਾ ਪੁੱਤ੍ਰ, ਉਹ ਆਸਾਫ ਦਾ ਪੁੱਤ੍ਰ ਜਿਹੜਾ ਪ੍ਰਾਰਥਨਾ ਲਈ ਧੰਨਵਾਦ ਗ਼ ਦਾ ਮੁਖੀਆ ਸੀ ਅਤੇ ਬਕਬੁੁਕਯਾਹ ਉਹ ਦੇ ਭਰਾਵਾਂ ਵਿਚੋਂ ਦੂਜੇ ਦਰਜੇ ਤੇ ਸੀ ਅਤੇ ਅਬਦਾ ਸ਼ਮੂਆ ਦਾ ਪੁੱਤ੍ਰ, ਉਹ ਯਦੂਥੂਨ ਦਾ ਪੁੱਤ੍ਰ
The double U sign is located in the word ਬਕਬੁੁਕਯਾਹ.
Observations re Unicode font rendering, as in previous issue.
cf. The same word but with only a single U sign does occur once elsewhere.
This is merely one example. The double U sign occurs in 9 places in the whole work.
Suggest search and replace double U sign by single U sign.
The verse reads:
\v 35 ਅਤੇ ਜਾਜਕਾਂ ਦੀ ਵੰਸ ਵਿੱਚੋਂ ਨਰਸਿੰਗੀਆਂ ਨਾਲ ਯੋਨਾਥਾਨ ਦਾ ਪੁੱਤ੍ਰ, ਉਹ ਸ਼ਅਅਯਾਹ ਦਾ ਪੁੱਤ੍ਰ, ਉਹ ਮੱਤਨਯਾਹ ਦਾ ਪੁੱਤ੍ਰ, ਉਹ ਮੀਕਯਾਹ ਦਾ ਪੁੱਤ੍ਰ, ਉਹ ਜ਼ਕੂਰ ਦਾ ਪੁੱਤ੍ਰ, ਉਹ ਆਸਾਫ ਦਾ ਪੁੱਤ੍ਰ
The sole occurrence of double letter A is located in the word ਸ਼ਅਅਯਾਹ.
Is this correct? The word transliterates as śa'a'ayāha. The KJV here has Shemaiah.
It looks suspect to me.
The character frequency analysis reveals:
U+007C | 26,325 VERTICAL LINE
U+0964 । 3,563 DEVANAGARI DANDA
The former occur as either single (21782) or double (4541) vertical lines at the end of a verse.
The latter occur at the end of a word mostly (though not exclusively) in mid-verse locations.
Is U+007C the correct codepoint for punctuating the Gurmukhi script?
Or should these be used instead ?:
U+0964 । DEVANAGARI DANDA (for single vertical line)
U+0965 ॥ DEVANAGARI DOUBLE DANDA (for double vertical line)
I'm no expert on either the script or the language. Just thinking laterally.
"Western punctuation has largely replaced it in contemporary orthography."
See Danda.
But then the question that arises is how to ensure consistency?
The line reads:
\v 35 ਅਰ ਯਹੋਵਾਹ ਨੇ ਬੱਛਾ ਬਣਾਉਣ ਦੇ ਕਾਰਨ ਜਿਹ ਨੂੰ ਹਾਰੂਨ ਨੇ ਬਣਾਇਆ ਸੀ ਲੋਕਾਂ ਨੂੰ ਮਾਰਿਆ ||`
I suspect the grave accent is spurious. Probably a typo.
This codepoint is not found anywhere else in the work.
The line reads:
\v 17 ਸੁਲੇਮਾਨ ਦੇ ਵਿਉਪਾਰੀ ਮਿਸਰ ਤੋਂ ਇੱਕ ਰੱਥ ਚਾਂਦੀ ਦੇ 15 ਪੌਂਡ ਦਾ ਅਤੇ ਇੱਕ ਘੋੜਾ ਚਾਂਦੀ ਦੇ 3 3/4 ਪੌਂਡ ਦਾ ਖਰੀਦਦੇ ਸਨ। ਫ਼ੇਰ ਉਨ੍ਹਾਂ ਨੇ ਇਹ ਘੋੜੇ ਅਤੇ ਰੱਥ ਹਿੱਤੀ ਲੋਕਾਂ ਦੇ ਰਾਜਿਆਂ ਅਤੇ ਆਰਾਮ ਦੇ ਰਾਜਿਆਂ ਨੂੰ ਵੇਚ ਦਿੱਤੇ।
Codepoint U+00BE VULGAR FRACTION THREE QUARTERS might be better here:
The line would then read:
\v 17 ਸੁਲੇਮਾਨ ਦੇ ਵਿਉਪਾਰੀ ਮਿਸਰ ਤੋਂ ਇੱਕ ਰੱਥ ਚਾਂਦੀ ਦੇ 15 ਪੌਂਡ ਦਾ ਅਤੇ ਇੱਕ ਘੋੜਾ ਚਾਂਦੀ ਦੇ 3¾ ਪੌਂਡ ਦਾ ਖਰੀਦਦੇ ਸਨ। ਫ਼ੇਰ ਉਨ੍ਹਾਂ ਨੇ ਇਹ ਘੋੜੇ ਅਤੇ ਰੱਥ ਹਿੱਤੀ ਲੋਕਾਂ ਦੇ ਰਾਜਿਆਂ ਅਤੇ ਆਰਾਮ ਦੇ ਰਾਜਿਆਂ ਨੂੰ ਵੇਚ ਦਿੱਤੇ।
The verse reads:
\v 26 ਅਤੇ ਇਸਰਾਏਲ ਦੇ ਪਰਮੇਸ਼ੁਰ ਨੇ ਅੱਸ਼ੂਰ ਦੇ ਰਾਜਾ ਪੂਲ ਦੇ ਮਨ ਨੂੰ ਅਤੇ ਅਸ਼ੂਰ ਦੇ ਰਾਜਾ ਤਿਲਗਥ ੱਪਿਲਨਸਰ ਦੇ ਮਨ ਨੂੰ ਉਭਾਰਿਆ ਨੂੰ ਗਾਦੀਆਂ ਨੂੰ ਮਨੱਸ਼ਹ ਦੇ ਅੱਧੇ ਗੋਤ ਨੂੰ ਦੇਸੋਂ ਕੱਢ ਕੇ ਲੈ ਗਏ ,ਅਤੇ ਉਨ੍ਹਾਂ ਨੂੰ ਰਲਹ ਅਰ ਹਾਬੋਰ ਅਰ ਹਾਰਾ ਅਰ ਗੋਜ਼ਾਨ ਦੀ ਨਦੀ ਨੂੰ ਲੈ ਆਇਆ |ਓਹ ਅੱਜ ਤੀਕ ਉੱਥੇ ਹੀ ਹਨ ||
The ADDAK is not attached to a letter in the word ੱਪਿਲਨਸਰ.
This is the sole occurrence. It must be a typo.
The verse reads:
\v 5 ਅਤੇ ਜਦ ਦੰਮਿਸਕ ਦੇ ਆਰਾਮੀ ਸੋਬਾਹ ਦੇ ਰਾਜਾ ਰਦਦਅਜ਼ਰ ਦੀ ਸਹਾਇਤਾ ਕਰਨ ਨੂੰ ਆਏ ਤਾਂ ਦਾਊਦ ਨੇ ਦੰੰਮਿਸਕੀ ਅਰਾਮੀਆਂ ਦੇ ਬਾਈ ਹਜ਼ਾਰ ਮਨੁੱਖ ਵੱਢ ਸੁੱਟੇ
The double TIPPI is located in word ਦੰੰਮਿਸਕੀ.
This is just one example. There is one further instance of a double TIPPI.
Suggest search and replace double TIPPI by single TIPPI.
Same observations about font rendering as per previous issues.
The verse reads:
\v 10 ਤਦ ਉਨ੍ਹਾਂ ਨੇ ਹਾਮਾਨ ਨੂੰ ਉਸ ਸੂਲੀ ਉੱਤੇ ਜਿਹੜੀ ਉਸ ਨੇ ਮਾਰਦਕਈ ਲਈ ਬਣਾਈ ਸੀ ਟੰਗ ਦਿੱਤਾ ਤਾਂ ਪਾਤਸ਼ਾਹ ਦਾ ਕ੍ਰੋਧ ਸ਼ਾਂਤ ਹੋਇਆ || s
The final " s" is surely a typo!
The only Gurmukhi numerals in the text are in Revelation 13:16
\v 18 ਏਹ ਗਿਆਨ ਦਾ ਮੌਕਾ ਹੈ ! ਜਿਹ ਨੂੰ ਬੁੱਧ ਹੈ ਉਹ ਉਸ ਦਰਿੰਦੇ ਦੇ ਅੰਗ ਗਿਣ ਲਵੇ | ਉਹ ਮਨੁੱਖ ਦਾ ਅੰਗ ਹੈ ਅਤੇ ਉਹ ਦਾ ਅੰਗ ੬੬੬ ਹੈ ||
There are ordinary numerals 0-9 elsewhere in the text.
I guess the above exception was intended by the translators.
My attempted pull request yesterday conflicted with
Merge remote-tracking branch 'refs/remotes/tfbf/master'
After cloning 'tfbf/punjabi_bible_1945/master', the conflict was found to be in a single file 14_2CHPUNOT.usfm
To resolve the issue, I merged the highlighted lines into my local respository and then did a commit.
These are the lines where the conflict resides:
<<<<<<< HEAD
\c 2
\p
\v 1 ਤਦ ਸੁਲੇਮਾਨ ਨੇ ਆਖਿਆ ਭਈ ਇੱਕ ਭਵਨ ਯਹੋਵਾਹ ਦੇ ਨਾਮ ਲਈ ਅਤੇ ਇੱਕ ਮਹਿਲ ਆਪਣੀ ਪਾਤਸ਼ਾਹੀ ਲਈ ਬਣਾਵਾਂ
\v 2 ਅਤੇ ਸੁਲੇਮਾਨ ਨੇ ਸੱਤਰ ਹਜ਼ਾਰ ਮਨੁੱਖ ਭਾਰ ਢੋਣ ਲਈ ਅਰ ਅੱਸੀ ਹਜ਼ਾਰ ਮਨੁੱਖ ਪਹਾੜ ਦੇ ਪੱਥਰ ਕੱਟਣ ਲਈ ਅਰ ਤਿੰਨ ਹਜ਼ਾਰ ਛੇ ਸੌ ਉਨ੍ਹਾਂ ਦੀ ਵੇਖ ਭਾਲ ਲਈ ਗਿਣ ਲਏ
\v 3 ਅਤੇ ਸੁਲੇਮਾਨ ਨੇ ਸੂਰ ਦੇ ਰਾਜਾ ਹੂਰਾਮ ਨੂੰ ਐਉਂ ਆਖ ਘੱਲਿਆ ਕਿ ਏਸ ਲਈ ਭਈ ਤੂੰ ਮੇਰੇ ਪਿਤਾ ਦਾਊਦ ਦੇ ਨਾਲ ਵਰਤਾਓ ਕੀਤਾ ਅਰ ਉਹ ਦੇ ਰਹਿਣ ਲਈ ਉਸ ਨੂੰ ਦਿਆਰ ਦੀ ਲੱਕੜੀ ਘੱਲੀ
\v 4 ਵੇਖ ,ਮੈਂ ਯਹੋਵਾਹ ਆਪਣੇ ਪਰਮੇਸ਼ੁਰ ਦੇ ਨਾਮ ਦੇ ਲਈ ਇੱਕ ਭਵਨ ਬਣਾਉਣ ਲੱਗਾ ਹਾਂ ਭਈ ਉਹ ਦੇ ਲਈ ਪਵਿੱਤ੍ਰ ਕਰਾਂ ਤੇ ਉਹ ਦੇ ਸਨਮੁਖ ਸੁਗੰਧੀ ਧੂਪ ਧੁਖਾਵਾਂ ਅਰ ਉਹ ਸਬਤਾਂ ਅਰ ਅੱਮਸਿਆਂ ਅਰ ਯਹੋਵਾਹ ਸਾਡੇ ਪਰਮੇਸ਼ੁਰ ਦਿਆਂ ਠਹਿਰਾਇਆਂ ਹੋਇਆਂ ਪਰਬਾਂ ਉੱਤੇ ਹਮੇਸ਼ਗੀ ਦੀ ਰੋਟੀ ਤੇ ਸੰਝ ਸਵੇਰ ਦੀਆਂ ਹੋਮ ਬਲੀਆਂ ਦੇ ਲਈ ਹੋਵੇ | ਇਹ ਇਸਰਾਏਲ ਉੱਤੇ ਸਦੀਪਕਾਲ ਹੈ
\v 5 ਅਤੇ ਜਿਹੜਾ ਭਵਨ ਮੈਂ ਬਣਾਉਣ ਵਾਲਾ ਹਾਂ ਉਹ ਵੱਡਾ ਹੋਵੇਗਾ ਕਿਉਂ ਜੋ ਸਾਡਾ ਪਰਮੇਸ਼ੁਰ ਸਾਰਿਆਂ ਦਿਓਤਿਆਂ ਨਾਲੋਂ ਵੱਡਾ ਹੈ
=======
\c 2
\p \v 1 ਤਦ ਸੁਲੇਮਾਨ ਨੇ ਆਖਿਆ ਭਈ ਇੱਕ ਭਵਨ ਯਹੋਵਾਹ ਦੇ ਨਾਮ ਲਈ ਅਤੇ ਇੱਕ ਮਹਿਲ ਆਪਣੀ ਪਾਤਸ਼ਾਹੀ ਲਈ ਬਣਾਵਾਂ
\v 2 ਅਤੇ ਸੁਲੇਮਾਨ ਨੇ ਸੱਤਰ ਹਜ਼ਾਰ ਮਨੁੱਖ ਭਾਰ ਢੋਣ ਲਈ ਅਰ ਅੱਸੀ ਹਜ਼ਾਰ ਮਨੁੱਖ ਪਹਾੜ ਦੇ ਪੱਥਰ ਕੱਟਣ ਲਈ ਅਰ ਤਿੰਨ ਹਜ਼ਾਰ ਛੇ ਸੌ ਉਨ੍ਹਾਂ ਦੀ ਵੇਖ ਭਾਲ ਲਈ ਗਿਣ ਲਏ
\v 3 ਅਤੇ ਸੁਲੇਮਾਨ ਨੇ ਸੂਰ ਦੇ ਰਾਜਾ ਹੂਰਾਮ ਨੂੰ ਐਉਂ ਆਖ ਘੱਲਿਆ ਕਿ ਏਸ ਲਈ ਭਈ ਤੂੰ ਮੇਰੇ ਪਿਤਾ ਦਾਊਦ ਦੇ ਨਾਲ ਵਰਤਾਓ ਕੀਤਾ ਅਰ ਉਹ ਦੇ ਰਹਿਣ ਲਈ ਉਸ ਨੂੰ ਦਿਆਰ ਦੀ ਲੱਕੜੀ ਘੱਲੀ
\v 4 ਵੇਖ ,ਮੈਂ ਯਹੋਵਾਹ ਆਪਣੇ ਪਰਮੇਸ਼ੁਰ ਦੇ ਨਾਮ ਦੇ ਲਈ ਇੱਕ ਭਵਨ ਬਣਾਉਣ ਲੱਗਾ ਹਾਂ ਭਈ ਉਹ ਦੇ ਲਈ ਪਵਿੱਤ੍ਰ ਕਰਾਂ ਤੇ ਉਹ ਦੇ ਸਨਮੁਖ ਸੁਗੰਧੀ ਧੂਪ ਧੁਖਾਵਾਂ ਅਰ ਉਹ ਸਬਤਾਂ ਅਰ ਅੱਮਸਿਆਂ ਅਰ ਯਹੋਵਾਹ ਸਾਡੇ ਪਰਮੇਸ਼ੁਰ ਦਿਆਂ ਠਹਿਰਾਇਆਂ ਹੋਇਆਂ ਪਰਬਾਂ ਉੱਤੇ ਹਮੇਸ਼ਗੀ ਦੀ ਰੋਟੀ ਤੇ ਸੰਝ ਸਵੇਰ ਦੀਆਂ ਹੋਮ ਬਲੀਆਂ ਦੇ ਲਈ ਹੋਵੇ | ਇਹ ਇਸਰਾਏਲ ਉੱਤੇ ਸਦੀਪਕਾਲ ਹੈ
\v 5 ਅਤੇ ਜਿਹੜਾ ਭਵਨ ਮੈਂ ਬਣਾਉਣ ਵਾਲਾ ਹਾਂ ਉਹ ਵੱਡਾ ਹੋਵੇਗਾ ਕਿਉਂ ਜੋ ਸਾਡਾ ਪਰਮੇਸ਼ੁਰ ਸਾਰਿਆਂ ਦਿਓਤਿਆਂ ਨਾਲੋਂ ਵੱਡਾ ਹੈ
>>>>>>> refs/remotes/tfbf/master
cf. My commit included a general fix to place each paragraph marker on a separate line, such that every verse marker is at the start of a line. This conflict was the only exception out of a large number of similar changes in 39 of the 66 USFM files.
David Haslam
For traceability reasons, it would be sensible for each of the 66 USFM files to include
\rem Punjabi Pavitra Bible 1945 Edition
NB. The final "a" in Pavitra is missing from your README.md file.
The verse reads:
\v 22 ਅਬਨੇਰ ਨੇ ਅਸਾਹੇਲ ਨੂੰ ਫੇਰ ਆਖਿਆ, ਮੇਰੇ ਮਗਰ ਲੱਗਣੋਂ ਹਟ ਜਾਹ ! ਮੈਂ ਤੈਨੂੰ ਵੱਢ ਕੇ ਧਰਤੀ ਤੇ ਕਾਹਨੂੰ ਸੁੱਟਾਂ ? ਫੇਰ ਮੈਂ ਤੇਰੇੇ ਭਰਾ ਯੋਆਬ ਨੂੰ ਕਿੱਕਣ ਮੂੰਹ ਵਿਖਾਵਾਂਗਾ ?
The double EE sign is located in word ਤੇਰੇੇ.
This is just one example. There are 11 instances in total of the double EE sign in the whole work.
Suggest search and replace all double EE sign by a single EE sign.
Same observations about font rendering as in previous issue.
Though I've already referred to this in two other issues, and even though this covers some of the other particular issues, it's probably useful to give this its own issue as a general topic.
I've just updated my Excel worksheet to include Column E for the Unicode Names of the original Gurmukhi Unicode codepoints in each counted glyph. In addition, I have formatted in red font the names of the invalid parts of the 99 glyphs that break the rules for the Gurmukhi script as an Abugida.
Gurmukhi Glyphs Before & After NFC.xlsx
It's conceivable that some of the 99 badly formed glyph types were not reported in my earlier issues.
This report therefore serves as a checklist or reference point for search and replace operations.
NB. The worksheet is protected (with no password) merely to prevent accidental edits.
Use of AutoFilter is permitted while it's protected.
The verse reads:
\v 23 ਅਤੇ ਇਸ ਸੰਸਾਰ ਵਿੱਚ ਤੇਰੀ ਪਰਜਾ ਇਸਰਾਏਲ ਦੇ ਸਮਾਨ ਕਿਹੜੀ ਕੌਮ ਹੈ ਜਿਹ ਦੇ ਬਚਾਉਣ ਨੂੰ ਪਰਮੇਸ਼ੁਰ ਆਪ ਗਿਆ ਕਿ ਉਹ ਨੂੰ ਆਪਣੀ ਪਰਜਾ ਬਣਾਵੇ ਅਤੇ ਤੁਹਾਡੇ ਲਈ ਅਤੇ ਤੇਰੇ ਦੇਸ ਦੇ ਲਈ ਵੱਡੀਆਂ ਤੇ ਡਰਾਉਣੀਆਂ ਸ਼ਕਤੀਆਂ ਆਪਣੀ ਪਰਜਾ ਦੇ ਅੱਗੇ ਵਿਖਾਵੇ ਜਿਹ ਨੂੰ ਤੂੰ ਮਿਸਰ ਤੋਂ, ਕੌੌਮਾਂ ਤੇ ਅਤੇ ਉਨ੍ਹਾਂ ਦੀਆਂ ਦੇਵਤੀਆਂ ਤੋਂ ਆਪਣੇ ਲਈ ਛੁਟਕਾਰਾ ਦਿੱਤਾ ?
The souble AU sign is located in word ਕੌੌਮਾਂ.
This is just one example. The double AU sign occurs in 4 locations total.
Suggest search and replace doube AU sign by single AU sign.
Same observations about font rendering as per previous issue.
Please replace ALL 32 no-break spaces (U+00A0) in JUDE by ordinary spaces.
Currently the file 66_JUDFBPa.usfm is not valid USFM.
By default, the module making tool osis2mod normalizes the input Unicode text to NFC.
Using BabelPad to convert the concatenated USFM file to NFC gives rise to 24022 normalizations.
I imagine that this should have no semantic or presentational issues for Punjabi in the Gurmukhi script.
However, I'm not the Punjabi expert.
The way to check would be to perform a detailed compare between the original text and the file saved after conversion to NFC.
Doing the compare on the concatenated USFM file would be very tedious.
Better for gaining understanding would be to do it on the counted word list.
Converting that gave only 2142 normalizations.
Likewise, generating the counted word list from the normalized concatenated USFM file should have fewer lines, because any word that had been keyed differently would become identical as a result of normalization.
In the concatenated USFM file there are 113 matches to the regexp pattern -{2,}
I think these should be replaced by a proper Unicode character
U+2013 – EN DASH
U+2014 — EM DASH
U+2015 ― HORIZONTAL BAR
as appropriate for each context.
Check the spacing before and after each instance too! And aim for consistency rather than the present variable number of consecutive hyphens keyed for convenience.
There are now 105 instances of \mt1 tag.
66 of these are the English book names. The rest are Punjabi book names.
None of the 27 NT books yet have the Punjabi names added as a main title.
Might I suggest that \mt2 be used for the English names, and \mt1 retained for the Punjabi names.
The verse reads:
\v 15 ਅਤੇ ਸਾਰਿਆਂ ਸ਼ਹਿਰਾਂ ਅਤੇ ਯਰੂਸ਼ਲਮ ਵਿੱਚ ਏਹ ਸੁਣਾਇਆ ਜਾਵੇ ਅਤੇ ਏਹ ਦੇਵ ਡੌਂਂਡੀ ਪਿਟਾਈ ਜਾਵੇ ਕਿ ਪਹਾੜ ਉੱਤੇ ਜਾ ਕੇ ਜ਼ੈਤੂਨ ਦੀਆਂ ਟਾਹਣੀਆਂ ਅਰ ਤੇਲ ਦੇ ਬਿਰਛ ਦੀਆਂ ਟਾਹਣੀਆਂ ਅਤੇ ਸੰਘਣੇ ਬਿਰਛਾਂ ਦੀਆਂ ਟਾਹਣੀਆਂ ਡੇਰੇ ਬਣਾਉਣ ਲਈ ਲਿਆਓ ਜਿਵੇਂ ਲਿਖਿਆ ਹੈ
The word ਡੌਂਂਡੀ contains a two consecutive codepoint U+0A02 GURMUKHI SIGN BINDI.
I think this is a typo. One of these does not render properly in the Code2000 font.
Some Unicode text editors just don't display the spurious extra BINDI.
This particular word is found nowhere else, even though the count for this codepoint is 125,409.
However, in total there are 154 instances of double BINDI in the whole text.
Suggest search and replace double BINDI by single BINDI.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.