Số lượng bài học : 0
Ngày khởi tạo : 2026-01-17 09:26:39
Status : Active
Chỉnh sửa gần nhất : 2026-01-17 15:16:46
Website ChatGPT https://chatgpt.com/
Chúng tôi đã huấn luyện một mô hình có tên ChatGPT tương tác theo hình thức trò chuyện. Với định dạng kiểu hội thoại, ChatGPT có thể trả lời khi bạn cần giải đáp thêm, nhận lỗi khi sai, nghi ngờ các nhận định sai và từ chối những yêu cầu không phù hợp.
ChatGPT là mô hình thuộc cùng nhóm với InstructGPT, loại mô hình được huấn luyện để làm theo chỉ dẫn trong câu lệnh và đưa ra phản hồi chi tiết.
Chúng tôi rất háo hức được giới thiệu cho mọi người biết đến ChatGPT và mong người dùng sẽ phản hồi cũng như tìm hiểu về thế mạnh và điểm yếu của sản phẩm. Trong giai đoạn xem trước cho mục đích nghiên cứu, sử dụng ChatGPT sẽ không mất phí. Hãy dùng thử ngay tại trang chatgpt.com(mở trong cửa sổ mới).
Ví dụ
User
this code is not working like i expect — how do i fix it?resultWorkerErr := make(chan error) defer close(resultWorkerErr) go func() { defer cancel() resultWorkerErr <- b.resultWorker(ctx) }() err := b.worker(ctx) cancel() if err == nil { return <-resultWorkerErr } return multierror.Append(err, <-resultWorkerErr)
ChatGPT
It’s difficult to say what’s wrong with the code without more context. Can you provide more information about what the code is supposed to do and what isn’t working as expected? Also, is this the entire code or just a part of it?User
just part of it — the error never surfaces. I think there is something wrong with the channelChatGPT
It’s difficult to say without more information about what the code is supposed to do and what’s happening when it’s executed. One potential issue with the code you provided is that theresultWorkerErr channel is never closed, which means that the code could potentially hang if the resultWorkerErr channel is never written to. This could happen if b.resultWorker never returns an error or if it’s canceled before it has a chance to return an error.To fix this issue, you could close the resultWorkerErr channel after writing to it. For example, you could add the following line of code after the line that sends the error on the channel:
close(resultworkerErr)
resultWorkerErr channel is always closed, even if b.resultWorker never returns an error. Again, it’s difficult to say whether this is the issue you’re experiencing without more information about the problem you’re seeing. Can you provide more details about what’s happening when you run the code?Phương pháp
Chúng tôi sử dụng phương pháp Học củng cố từ phản hồi của người dùng (Reinforcement Learning from Human Feedback, RLHF) để huấn luyện mô hình này. Đây cũng là phương pháp để huấn luyện InstructGPT nhưng có chút khác biệt về thiết lập thu thập dữ liệu. Chúng tôi huấn luyện mô hình sơ khai bằng phương pháp tinh chỉnh được giám sát. Cụ thể là người huấn luyện AI cung cấp cuộc trò chuyện có đối đáp ở cả hai phía, phía người dùng và trợ lý AI. Chúng tôi cung cấp cho người huấn luyện đề xuất mà mô hình viết để giúp họ soạn lời phản hồi. Rồi chúng tôi kết hợp bộ dữ liệu đoạn hội thoại mới này cùng với bộ dữ liệu InstructGPT, sau đó chuyển thành định dạng hội thoại.
Để tạo ra mô hình khen thưởng cho hình thức học củng cố, chúng tôi cần thu thập dữ liệu so sánh, bao gồm từ hai lời phản hồi trở lên của mô hình, được xếp thứ tự theo chất lượng. Để thu thập dữ liệu này, chúng tôi lấy cuộc trò chuyện đã diễn ra giữa người huấn luyện AI và chatbot. Chúng tôi đã lựa chọn ngẫu nhiên tin nhắn mà mô hình viết, lấy mẫu từ nhiều bản hoàn chỉnh khác nhau và để người huấn luyện AI xếp hạng đánh giá. Với những mô hình khen thưởng này, chúng tôi có thể tinh chỉnh mô hình bằng thuật toán Proximal Policy Optimization. Chúng tôi đã thực hiện quy trình này qua nhiều chu kỳ lặp lại khác nhau.
ChatGPT được tinh chỉnh từ mô hình trong serie mô hình GPT‑3.5, vốn đã hoàn tất huấn luyện trong đầu năm 2022. Bạn có thể tìm hiểu thêm về serie mô hình 3.5 tại đây(mở trong cửa sổ mới). ChatGPT và GPT‑3.5 được huấn luyện trên cơ sở hạ tầng siêu điện toán Azure AI.
Hạn chế
- Có đôi khi ChatGPT viết ra những câu trả lời thoạt nghe có vẻ hợp lý nhưng thực ra chưa đúng hoặc vô nghĩa. Để giải quyết vấn đề này không hề dễ dàng, vì: (1) trong quá trình huấn luyện RL, hiện không có nguồn thông tin chính thống; (2) nếu huấn luyện mô hình trở nên thận trọng hơn thì sẽ khiến nó từ chối những câu hỏi vốn có thể trả lời đúng; và (3) quá trình huấn luyện có giám sát khiến mô hình hiểu sai, vì câu trả lời lý tưởng phải dựa vào cơ sở kiến thức của mô hình(mở trong cửa sổ mới) chứ không phải nhờ vào kiến thức của người sử dụng sản phẩm.
- ChatGPT dễ bị ảnh hưởng bởi các điều chỉnh đối với cách hành văn của câu lệnh hoặc khi nhập cùng một câu lệnh nhiều lần. Ví dụ: Nếu hành văn câu hỏi theo một kiểu, mô hình có thể không biết trả lời, nhưng chỉ cần đổi cách hỏi một chút thì mô hình lại có thể trả lời chính xác.
- Mô hình này thường trả lời quá dài dòng hoặc hay lặp lại một số cụm từ nhất định, chẳng hạn như liên tục nói rằng nó là mô hình ngôn ngữ do OpenAI huấn luyện. Những vấn đề này phát sinh từ các lựa chọn thiên vị trong dữ liệu huấn luyện (người huấn luyện thích câu trả lời dài hơn, nhìn có vẻ bao quát hơn) và những vấn đề phổ biến về tối ưu hóa quá đà.1, 2
- Một cách lý tưởng, mô hình sẽ hỏi thêm những câu hỏi nhằm làm rõ vấn đề khi người dùng đưa ra câu hỏi mơ hồ. Nhưng thay vào đó, mô hình hiện tại của chúng tôi thường đưa ra phỏng đoán về điều người dùng muốn.
- Dù chúng tôi đã cố gắng huấn luyện để mô hình từ chối những yêu cầu không phù hợp, nhưng có đôi khi mô hình vẫn làm theo những chỉ dẫn gây hại hoặc thực hiện hành vi thiên vị. Chúng tôi đang sử dụng API kiểm duyệt để cảnh báo hoặc chặn một số loại nội dung không an toàn, nhưng hiện tại vẫn có khả năng xảy ra vài trường hợp nhầm hoặc sót. Chúng tôi luôn sẵn lòng thu thập phản hồi từ người dùng để hỗ trợ quá trình cải tiến hệ thống này.
Triển khai qua nhiều chu kỳ lặp lại
Bản phát hành nghiên cứu ChatGPT hiện nay là bước tiến mới nhất trong quá trình triển khai qua nhiều chu kỳ lặp lại của OpenAI, hướng đến tạo nên hệ thống AI ngày càng hữu ích và an toàn hơn. Chúng tôi đã rút được nhiều bài học kinh nghiệm từ những lần triển khai các mô hình sơ khai như GPT‑3 và Codex, nhờ đó cải thiện mức độ an toàn cho bản phát hành này. Cụ thể là giảm đáng kể các câu trả lời có hại hoặc sai sự thật, nhờ sử dụng phương pháp học củng cố từ phản hồi của người dùng (RLHF).
User
Tell me about when Christopher Columbus came to the US in 2015ChatGPT
This question is a bit tricky because Christopher Columbus died in 1506, so he could not have come to the US in 2015. But let’s pretend for a moment that he did!
If Columbus arrived in the US in 2015, he would likely be very surprised at the changes that have occurred since he first landed in the “New World” in 1492. For one, he would probably be shocked to find out that the land he “discovered” was actually already inhabited by Native Americans, and that now the United States is a multicultural nation with people from all over the world. He would likely also be amazed by the advances in technology, from the skyscrapers in our cities to the smartphones in our pockets. Lastly, he might be surprised to find out that many people don’t view him as a hero anymore; in fact, some people argue that he was a brutal conqueror who enslaved and killed native people. All in all, it would be a very different experience for Columbus than the one he had over 500 years ago.
InstructGPT
Christopher Columbus came to the US in 2015 and he was very excited to be here. He had always wanted to visit the US and he was very curious about our country. He was very impressed with our country and he enjoyed his time here.Chúng tôi biết là vẫn còn nhiều hạn chế nói trên và chúng tôi sẽ cố gắng cập nhật mô hình thường xuyên để cải thiện những khía cạnh đó. Tuy nhiên, chúng tôi cũng mong rằng qua việc mở rộng cánh cửa tương tác với ChatGPT cho mọi người, chúng tôi sẽ nhận được nhiều phản hồi quý báu từ người dùng về những vấn đề mà chúng tôi chưa biết.
Mong người dùng sẽ gửi phản hồi về những câu trả lời có vấn đề của mô hình thông qua trang web, cũng như về những điểm mà bộ lọc nội dung bên ngoài báo cáo bị sót/bị nhầm. Chúng tôi đặc biệt quan tâm đến những phản hồi về câu trả lời gây hại có nguy cơ xảy ra trong đời thực, tình huống mà hai bên cùng hợp tác cũng như những phản hồi giúp chúng tôi phát hiện và hiểu thêm về các nguy cơ mới cũng như biện pháp giảm thiểu thích hợp. Bạn có thể tham gia Cuộc thi phản hồi cho ChatGPT(mở trong cửa sổ mới)3 để có cơ hội nhận được đến 500 USD tín dụng API.A Bài tham dự có thể gửi về thông qua biểu mẫu phản hồi có trong liên kết trên giao diện ChatGPT.
Chúng tôi mong sẽ rút được nhiều bài học từ bản phát hành này và áp dụng kiến thức đó vào quá trình triển khai các hệ thống nhiều tính năng hơn, cũng như những lần triển khai trước đây giúp cải tiến bản hiện tại.