bojone / nbce Goto Github PK
View Code? Open in Web Editor NEWNaive Bayes-based Context Extension
Naive Bayes-based Context Extension
I've tested this approach on a single-language (English) LlaMA, and it worked great, except:
But the thing that I wonder about is real-life use: when you address a question to an LLM, you don't normally provide the context as well.
Is there a way to provide it anyway?
Also, is there any specific finetuning procedure that'd make the model better at using this approach?
NBCE方案的“Needle In A Haystack”测试效果如何?有人做过相应的测试吗?
['菲律宾国家电网公司,**占股40%。', '领英计划裁员716人。', '吉利德收购Pharmasset的价格是20亿美元。', '丙肝神药Sovaldi在2013年上市。', '中亚峰会将于2023年6月在<0xE7><0x83><0x8F><0xE8><0x98><0xAD>举行,由国家主席***主持。', '演员李某某由于侮辱人民军队而被立案调查。', '默沙东的CEO的首要任务是确保基本盘。']
用了hf的llama 13B做了测试,发现推理结果跟原来input 数量对不上,并且回答的内容也只跟input[0]相关。
如果跟模型强绑定的话,这个方案就没有那么好的可迁移性了
@bojone
将模型改成chatglm2后,虽无报错但是效果极差,还望能够协助解决!
以下是生成的运行输出:
Loading checkpoint shards: 100%|██████████████████| 7/7 [00:08<00:00, 1.22s/it]
Context长度分布: [230, 780, 1308, 968, 677, 1126, 697, 706, 768, 894, 631, 737]
Context总长度: 9522
input_ids torch.Size([12, 790])
<0x0A>1.SamAlterman认为,与所有的技术革命一样,我预期会对就业产生重大影响。但具体影响如何很难预测。<0x0A>2.菲律宾国家电网公司是**在菲律宾国家电网公司,**占股多少?<0x0A><0x0A><0x0A>1.根据已知内容,菲律宾国家电网公司是**在菲律宾国家电网公司,**占股?<0x0A>2010.根据SamAlter公司,菲律宾电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司,电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司电网公司公司电网公司公司电网公司电网公司
Process finished with exit code 0
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.