本帖最后由 王建国 于 2020-9-10 10:35 编辑

正确解决了这个问题,你的毕业论文之路会轻松愉快许多。


痛苦
每年一到毕业论文季,就可以看到朋友圈里大学老师们「比惨大赛」。

单从老师角度看来,你会觉得如今这些学生怎么变得这么过分?都已经到了触目惊心的程度。
可是如果你趴在学生的朋友圈,那看到的就是另一番场景了。
那种抱怨,仿佛老师们一个个都是「周扒皮」一般。
我不愿意去参加具体事例的争论。因为大部分群体其实都是正态分布。
「不需扬鞭自奋蹄」的学生当然有,但是也有佛系到放弃治疗的。
肯静下心来给学生认真辅导批改,满纸写满红字的老师,也不在少数吧?
所以,拿苹果和橘子比,没有可比性。
况且大规模的毕业论文写作进程出现问题,恐怕不能只按照个体特性来找原因吧?
很多时候,问题并不是出在提交初稿的截止日期那几天(尽管大家都默认「截止日期是第一生产力」),而是在选题的时候就注定了。
如果你选了一个不合适的题目,那么这后面一定是个悲剧或者闹剧。
那个题目,你没兴趣,根本做不进去;或者以你当前的水平,根本不可能做出来;更可怕的,是题目本身就是个错误
想想看,一旦给你布置了错误的、不感兴趣的、超乎寻常困难的任务,你会怎么做?
A. 咬牙做完B. 拖延到最后一刻C. 干脆放弃
欢迎把你的选择在留言区告诉我。
但甭管你选的是哪个,这篇毕业论文的写作都不会是一个愉快的过程了。
选题
要避免写作环节的大坑,你就需要在选题阶段充分下好功夫。
毕竟,你对什么题目感兴趣自己最清楚吧?不沟通的情况下,指导教师凭什么未卜先知?
一个好的题目,放到一个不合适的人那里,也是个糟糕的选择。
但是,你凭借兴趣选出来的题目,却未必合适。
我之前在《什么样的开题报告会被毙掉?》一文中,给你提到过三种悲惨状况:
  • 没价值
  • 没必要
  • 不靠谱

之后,我又在《如何与导师有效沟通你的论文选题?》一文里,给你补充了该如何通过选题报告的模板,跟指导教师高效沟通选题。
不过不少读者和学生表示,仅仅通过这些原则的学习,还是难以有效应用到自己的选题中。
于是,这次我想了个新办法。
案例
办法就是把我给学生批改选题报告的样例,录了个视频教程
当然,为了能够帮你把一些概念厘清,也为了案例里面的内容可以更为通用,我讲得比平时给学生批改选题报告,更加细致一些。
好处是这不仅可以帮助你提高吸收的效率,也可以帮助我自己节省时间。
我已经在本科毕业论文指导群里发了这个视频,要求自己的学生看。在撰写选题报告的时候,不能再出现视频里面已经列出和讲解过的错误类型。
批注的过程,如果只是把最后的大花脸结果反馈回去,还真不如视频讲解来得生动、透彻和细腻。
这样一来,很多无用功,就可以省下了。因为言语的说教,比不上行动的示范。
这里是视频教程。希望你看后能把感受和疑问反馈给我。
后文部分,是给你复习用的
我把视频里面口语化的内容,用书面方式重新进行了梳理和调整。这样后面你回顾复习的时候,就不需要把一段视频从头播放到尾了。

题目
这个选题报告中题目为「基于深度神经网络的文娱类股票预测研究」。
这个题目最大的问题就是太大。选题一定要做的小一些。
要做股票预测。预测什么?
是预测它的存活时间?预测它的价格变化?预测它的成交量的变化?……
而且前面加了一个限定词“文娱类股票”,要看哪里的文娱类股票?是研究美国的文娱类股票,英国的,还是在新加坡上市的?即便研究国内的股票市场,还分成了沪深两个市场对吧?
这些你要研究的股票,在哪个板上市的?主板?创业板?新三板?要考虑到各种各样的细分的选择,一定要记住细分。比如说,在深圳股票交易市场某个板的文娱类股票的价格变化。
这个变化还包括一个问题,就是要预测一个什么样的时间范围?
是预测下一分钟?还是下一小时?下一天?下一个月?……
这不是在做文字游戏,而是涉及到你的模型究竟有没有能力对它进行预测,它背后是要有科学的理论基础。
举一个最简单的例子,我们都知道天气预报。天气预报到底能预测多长时间?现在基本都是 3 天左右,至多一周。
为什么是一周?为什么不直接预测一个月出来?
因为超过一定的时间范围之后的预测基本上就跟扔硬币没什么区别。那就不叫预测了,叫瞎猜。
同样的,做价格变化预测,首先应该把自己放到一个时间范围里面。到底是做短期,中期,长期,这个是一定要有分界的,不要把它混为一谈。
刚才讨论的是题目的后半部分,就是得把题目缩小。
再看前半部分。
“基于”一般就是方法、模型、工具。这里“深度神经网络”原本可以当成模型,但是没有提到底是哪一种模型。
深度神经网络模型是有若干种的。
一般做视觉,可以用 卷积神经网络(CNN);做文本常用 循环神经网络(RNN) , LSTM 这些架构。当然,不限于文本,类似于商品价格、股票价格等方面的预测,只要它是一个时间序列,都可以用循环神经网络(RNN 模型)
后来又出现了 Transformers 等新的东西,例如 BERT,Roberta 等,都可以用于自然语言处理。现在一般文本的相关操作,不光是分类,上下文问答等一般都是 Transformers 。这指的是一些大类,它有若干变种。
你看,深度神经网络有这么多的架构,你若不挑出来一个,就把它叫当成「模型」,这不可以。
如同我近期在微信视频号里面讲的,选题时创新应该来自于哪?


举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2020-9-9 15:17

沙发
王建国 高级会员 发表于 2020-9-9 14:54:21 | 只看该作者
本帖最后由 王建国 于 2020-9-9 15:20 编辑


文献
你对文献做了可视化分析,这很好。但是一张漂亮的分析结果图,还是远远不够的。让你做这一部分的原因,是为了找 Gap 。
所谓 Gap ,就是间隔。有两种明显的表示。
假设这张图是整个文献分布的样子,在外面画一个圈套住已有研究,你研究的问题在圈外。那这个 Gap 非常显著,因为现有研究和你的目标之间没连线。
如果画出来 Gap 是这样,有两种可能。
一是你的运气非常好。灯下黑,别人睁着大眼找,硬是没有看到这个低垂的果实。
或者,另一种情况,很糟糕。这是一条根本就走不通的路。
一般来说,后一种情况更常见。
因为你得明白,已经发表出论文的这些研究者,大部分都是经验丰富的专家。你一个新手都能看得见的 Gap ,他们看不到吗?
所以,一般而言,你更应该关注下面这种类型的 Gap 。当我们发现有一个区域,周围都是非常的密集,说明被别人往复探索。而唯独在这个区域里,出现了一些非常稀疏的网,甚至在这个位置上连接点都没有。
这时候,你就可以考虑在这个位置上,有没有可能通过上下文的交叉,形成一个独特的选题赛道。
「众争勿往」,这句话很重要。别跟着他人一起凑热闹。你是新手,找好了赛道,没啥竞争你就可能直接胜出了。
非要跟别人往大道上挤,不是没有可能「逆袭」,但是概率太低。大概率是给别人当分母,甚至干脆被碾压掉。
论证
当你好不容易找到了某个 Gap 时,得把这个结果跟指导教师沟通。否则你做论文还要导师干嘛?
但是就如同我在《如何与导师有效沟通你的论文选题?》一文里跟你提过的。你必须自己先做验证。小学做数学题时,你应该就知道交卷之前得验算一遍了,对吧?
首先你的问题变化了。这不是最初你关心的那个大问题,而是你找到的独特赛道,它因为各种上下文的限制,肯定是个相对「小」的问题。那么这个「小」问题是不是依然具有重要性?那可不一定,你得论证。
你得论证出,这个小问题的解决,将直接促进大问题的推动。或者反过来,若是能够说明这个小问题是解决大问题的必要条件,那就更好了。
其次是必要性。一个东西重要,却未必必要。
轮子很重要,没有轮子就不可能有车。但是「重复发明轮子」不必要。因为轮子发明一次就够了。你得证明,在这样一个小的研究空间里,别人忽略了什么。补足别人忽略的那些东西,才是真正的必要性。
第三个是“靠谱”。
想想看,一个小问题,它很重要,也很必要,但是别人又没把它做出来……会不会它本身从原理上就做不出来呢?
例如永动机?
结合你的选题来看。研究股票价格预测,你的来源数据是什么?
如果来源数据是根据以往它的价格历史,推测后面价格变化。这个事儿是不是靠谱呢?
看着 K 线图,你可能觉得挺靠谱的。
但是不是这样。
利用历史来预测未来,认为历史上出现的事儿,未来就一定发生,这就是「看着后视镜开车」。
例如说,你根据去年某旅游公司的业绩预测其今年业绩,能成吗?
黑天鹅,灰犀牛……各种外部因素的综合作用,使得我们不能臆想所有的变化都是连续的,都是按照原先的趋势来运行,进而叠加一些随机波动。
所以,真正的股票价格预测实践,早已加入了很多外部信息。例如好多年前,就有人尝试把 Twitter 数据加入,利用大众情感来预测走势。
效果未必多么完美,但是至少看起来比单一的根据历史价格预测未来价格好许多。
但是这样看起来,你得找多少外部数据灌进去啊?
新闻、社交媒体、分析报告、公司公告……
这好像是彭博社的活儿吧?你一个人替它全干了?
再说,即便有了上述全部数据,你也依然没有创新。因为别人都做了。
那你得在深度神经网络模型的架构上,有自己的变化和改进。
这……似乎更不靠谱了吧?
即便有了上述的数据和新的更巧妙的深度学习模型架构,你有那么多 GPU 帮你算吗?
要靠谱啊。
参考文献
前面相关的分析结果,你倒是未必非得要用 Vosviewer,即便手绘也可以。
但是要注意数据和结果的对应性
你此时分析的来源数据,就是参考文献。
这里你给出的文献分析结果图是英文的,但参考文献全是中文的。这怎么回事儿?
参考文献应该是分析的数据来源和支撑,来源要扎实,分析也要扎实。
当然,我这里并不是说,让你把所有的分析图都变成中文。
如果某个领域,最前沿的成果在中文文献,你就找多中文文献;反之,如果最前沿的成果在外文文献,你也不应该忽略。
以你的选题而言,深度神经网络模型研究,目前主流前沿的研究在英文期刊与会议上。所以还是得多找一些英文文献。
做文献分析,最好是能够综合起来,一起看。这样比较全面,尤其是避免忽略重要的文献
研究方法
研究方法环节,写的时候不要把「非研究方法」写上。
例如说有的同学做了文献回顾,就写「文献分析法」,要不得。因为那是一个必要步骤,不是你文章主要的研究方法。
有的同学写「实证研究方法」,这也不对,因为实证研究是一套方法论。你具体用了什么方法?例如问卷调查?访谈?实验?仿真?数据挖掘?案例研究?……
你做的研究,基于机器学习方法,那就写「机器学习」就好。最好稍微提一下,机器学习应用在了哪些主要环节上,以便让人一眼看出,你的研究方法和研究目的之间是否匹配。
格式
另外多说一句,我希望你后面再提交文稿时,直接提交 PDF 版本,因为 word 版本,是易于多人合作进行编辑。但是,如果希望别人在不同设备上打开,显示效果能够保持一致,避免出现格式错乱的误会。PDF 会更好些。
小结
通过这份教程的学习,希望你了解以下几个选题中常见的问题及其应对方法。首先是题目太大。太大的题目,往往都被别人触碰过,因此不利于你找到自己的独特赛道,很容易被大牛碾压。其次是认知差定位不当。这会导致你的叙述,与真实的情况不符合,导致很多严重的问题。第三是选题验证不完整。一定要从「价值」、「必要性」与「靠谱程度」三个维度入手,说服你的指导教师。如果连自己都说服不了,那就改吧。第四是参考文献不完整,不系统,特别是对前沿优质研究成果有重大遗漏。最后是列出的研究方法不符合规范。要实事求是,根据实际情况针对性列出主要研究方法即可,不要为了数量多好看,而随意添加。
举报 使用道具
板凳
王建国 高级会员 发表于 2020-9-9 15:17:13 | 只看该作者
这是集搜客团体分析微博数据得出的论文选题方向:https://www.gooseeker.com/doc/article-169-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 12:12